SWE-Agent: DEVINに対する、オープンソースのAIソフトウェアエンジニアチャレンジャー

SWE-Agentを発見し、DEVIN に挑戦する、オープンソースのAIソフトウェアエンジニアを学びましょう。SWEベンチマークでDEVINのパフォーマンスに93秒でマッチする方法を学び、革新的なエージェントコンピューターインターフェイスを探索しましょう。AIパワーのソフトウェアエンジニアリングの未来を探索しましょう。

2025年1月24日

party-gif

オープンソースのソフトウェアエンジニアリングの力を引き出す SWE-Agent は、待望の DEVIN に匹敵するパフォーマンスを発揮する最先端のツールです。このブログ記事では、SWE-Agent がGitHubの問題を驚くべき効率で自律的に解決する方法を探ります。これは、独占的なソリューションに対する魅力的な代替案を提供します。

SWE-Agentと DEVINのSWEベンチマークの比較

新しいオープンソースプロジェクトであるSWE-Agentは、Cognition Labが開発したAIソフトウェアエンジニアのDEVINと非常に近い性能を達成しました。SWEベンチマークは、GitHubの問題を解決することに基づいており、DEVINは以前このベンチマークで13.86%の最先端の精度を達成したと報告されていました。

しかし、SWE-Agentはこの性能を匹敵することができ、さらに上回る可能性があります。特に注目すべきは、SWE-Agentがこのタスクを約93秒で完了できることです。これはDEVINの5分よりも大幅に速いです。

Cognition LabチームはデバインをSWEベンチマークデータセットの25%でしか試験していませんでしたが、SWE-Agentの性能は完全なデータセットで報告されています。これは、DEVINが完全なデータセットで試験された場合、その性能が低下し、SWE-Agentのレベルに近づく可能性があることを示唆しています。

SWE-Agentは、DEVINと同様のエージェントベースのアプローチを利用していますが、「エージェントコンピューターインターフェース」レイヤーの導入が大きな違いです。このレイヤーにより、エージェントはGitHubリポジトリとより効果的に対話できる一連のLanguage Model対応のコマンドと専用のターミナル環境を提供されます。

SWE-Agentプロジェクトは完全にオープンソースであり、チームは近日中に詳細な論文を公開する予定です。これにより、DEVINのような独占的なソリューションと比較したシステムの技術的詳細とパフォーマンスについての貴重な洞察が得られるでしょう。

よくある質問