SWE-Agent: 挑戰 DEVIN 的開源 AI 軟體工程師

發現 SWE-Agent,這個開源的 AI 軟體工程師挑戰者,與 DEVIN 相抗衡。了解它如何在短短 93 秒內就達到 SWE 基準測試的 DEVIN 水平,並探索其創新的代理人-電腦界面。探索 AI 驅動的軟體工程的未來。

2025年1月15日

利用 SWE-Agent 這款尖端工具,開啟開源軟體工程的力量,其性能可媲美備受期待的 DEVIN。本篇部落格文章探討 SWE-Agent 如何自主高效地解決 GitHub 問題,為專有解決方案提供了引人注目的替代選擇。

SWE-Agent 與 DEVIN 在 SWE 基準測試中的比較
SWE-Agent 的工作原理:其架構和功能
SWE-Agent 在 93 秒內的出色表現
SWE-Agent 的局限性以及對強大 LLM 的需求
結論

SWE-Agent 與 DEVIN 在 SWE 基準測試中的比較

新開源項目「SWE-Agent」在 SWE 基準測試上的表現非常接近 Cognition Lab 開發的 AI 軟體工程師 DEVIN。SWE 基準測試是基於解決 GitHub 問題,DEVIN 先前在此基準測試上達到了 13.86% 的最先進準確率。

然而,SWE-Agent 能夠匹配這一表現,甚至可能超越它。值得注意的是,SWE-Agent 只用了大約 93 秒就完成了這個任務,這明顯快於 DEVIN 的 5 分鐘。

值得注意的是,Cognition Lab 團隊只在 SWE 基準測試數據集的 25% 上測試了 DEVIN,而 SWE-Agent 的表現是在整個數據集上報告的。這表明,如果 DEVIN 在完整的數據集上進行測試,其表現可能會下降,並可能接近 SWE-Agent 的水平。

SWE-Agent 的工作原理:其架構和功能

SWE-Agent 是一個新的開源項目,旨在複製 Cognition Lab 開發的專有 Deon 系統的功能。該代理程序具有獨特的架構,使其能夠以令人印象深刻的效率執行軟件工程任務,特別是在 GitHub 存儲庫上。

SWE-Agent 設計和功能的關鍵方面包括:

代理-計算機接口:SWE-Agent 通過專門的「代理-計算機接口」層與計算機進行交互。此接口提供了一組面向語言模型的命令和反饋格式,使語言模型更容易瀏覽存儲庫、查看、編輯和執行文件。
增量文件解析:SWE-Agent 不是一次性分析整個文件,而是將文件分成 100 行的塊,並搜索相關的代碼部分。這種方法使代理程序能夠保持更好的上下文,並相比於整個文件分析表現更高效。
面向 GitHub 的功能:目前,SWE-Agent 專門設計用於處理 GitHub 存儲庫,允許它解決問題並創建拉取請求。但是,開發人員表示,未來的範圍可能會擴展到包括其他軟件工程任務。
性能比較:SWE-Agent 在基於解決 GitHub 問題的 SWE 基準測試上,展現了與專有 Deon 系統非常接近的性能。值得注意的是,SWE-Agent 可以在大約 93 秒內完成基準測試任務,明顯快於 Deon 的 5 分鐘。
開源和可訪問性:SWE-Agent 項目完全開源,開發人員計劃soon發布詳細介紹系統架構和功能的論文。這種透明度和可訪問性允許開源社區進一步增強和擴展代理程序的功能。

總的來說,SWE-Agent 代表了開源軟件工程代理程序發展的重大進步,挑戰了專有系統如 Deon 的性能。隨著開源社區繼續為該項目做出貢獻,SWE-Agent 的功能很可能會不斷增強。

SWE-Agent 在 93 秒內的出色表現

新開源項目 SWE-Agent 在基於解決 GitHub 問題的 SWE 基準測試上展現了令人印象深刻的性能,其表現非常接近之前被視為最先進的專有 Devon 系統。

值得注意的是,SWE-Agent 只用了 93 秒就完成了基準測試,明顯快於 Devon 的 5 分鐘。這表明 SWE-Agent 擁有高度高效和優化的軟件工程任務解決方法。

此外,SWE-Agent 的表現是在 SWE 基準測試的完整數據集上實現的,而 Devon 只在 25% 的數據集上進行了測試。這表明 SWE-Agent 的功能更加強大和通用。

SWE-Agent 的成功歸功於其獨特的架構,包括提供了一個抽象層「代理-計算機接口」,使代理程序能夠以更自然和高效的方式與代碼庫進行交互。

總的來說,SWE-Agent 作為專有系統 Devon 的強大開源替代品的出現,是人工智能驅動的軟件工程領域一個令人興奮的發展。社區正期待著 SWE-Agent 研究論文的發布,這將提供更多關於其功能和潛力的見解。

SWE-Agent 的局限性以及對強大 LLM 的需求

雖然 SWE-Agent 在 SWE 基準測試上表現出色,但它目前僅限於處理 GitHub 存儲庫。該代理程序的功能受限於特定的軟件工程任務,無法用於其他類型的任務。此外,該代理程序需要使用像 Opus 或 GPT-4 這樣的強大語言模型才能有效運行。目前可用的開源大型語言模型還不夠強大,無法運行像 SWE-Agent 這樣的代理程序。

然而,SWE-Agent 和類似項目取得的進展令人鼓舞。隨著開源社區繼續開發更先進的語言模型,這些軟件工程代理程序的功能很可能會擴展。SWE-Agent 論文的發布備受期待,因為它可能提供有關這類系統開發和潛力的寶貴見解。

結論

像 SWA Agent 這樣的開源項目能夠接近匹配專有 Devon 系統的性能,這是人工智能驅動的軟件工程領域的一個重大進展。SWA Agent 能夠在幾秒鐘內自主解決 GitHub 問題,而 Devon 則需要 5 分鐘,這是一項令人印象深刻的成就。

雖然 SWA Agent 目前僅限於處理 GitHub 問題,但開源社區很可能會繼續擴展其功能。該項目的論文發布將提供有關所使用的底層技術和方法的寶貴見解。

一個關鍵的啟示是,專有系統如 Devon 的主要優勢在於它們可以訪問專有數據和計算資源,而不是任何固有的技術優勢。開源社區能夠複製這種性能,突出了這個領域進一步發展的潛力。

然而,當前開源語言模型在運行這些先進代理程序方面的局限性仍然是一個挑戰。對於像 Opus 或 GPT-4 這樣的更強大模型的需求是明顯的。隨著這個領域的發展,看到開源社區如何不斷推動人工智能驅動的軟件工程的界限將是令人興奮的。

常問問題

什麼是 SWE-Agent?

SWE-Agent 與 DEVIN 有何不同?

SWE-Agent 的主要特徵是什麼?

SWE-Agent 有哪些限制?

SWE-Agent 論文何時發表?