SWE-Agent: La sfida Open Source AI Software Engineer a DEVIN

Scopri SWE-Agent, la sfida open-source dell'ingegnere del software AI al DEVIN. Scopri come eguaglia le prestazioni di DEVIN sul SWE Benchmark in soli 93 secondi ed esplora la sua innovativa interfaccia agente-computer. Esplora il futuro dell'ingegneria del software alimentata dall'AI.

15 gennaio 2025

party-gif

Sblocca il potere dell'ingegneria del software open-source con SWE-Agent, uno strumento all'avanguardia che rivaleggia con le prestazioni del molto atteso DEVIN. Questo post di blog esplora come SWE-Agent possa risolvere in modo autonomo i problemi di GitHub con una straordinaria efficienza, offrendo una valida alternativa alle soluzioni proprietarie.

Come SWE-Agent si confronta con DEVIN sul benchmark SWE

L'SWE-Agent, un nuovo progetto open-source, ha raggiunto prestazioni molto vicine a quelle di DEVIN, il software di ingegneria dell'intelligenza artificiale sviluppato dal Cognition Lab, sul benchmark SWE. Il benchmark SWE si basa sulla risoluzione di problemi di GitHub e si era precedentemente riportato che DEVIN avesse raggiunto un'accuratezza all'avanguardia del 13,86% su questo benchmark.

Tuttavia, l'SWE-Agent è in grado di eguagliare queste prestazioni e persino di superarle. In particolare, l'SWE-Agent svolge questo compito in soli circa 93 secondi, molto più velocemente dei 5 minuti richiesti da DEVIN.

È importante notare che il team di Cognition Lab aveva testato DEVIN solo sul 25% del dataset del benchmark SWE, mentre le prestazioni dell'SWE-Agent sono riportate sull'intero dataset. Ciò suggerisce che se DEVIN fosse testato sull'intero dataset, le sue prestazioni potrebbero peggiorare e avvicinarsi potenzialmente al livello raggiunto dall'SWE-Agent.

L'SWE-Agent utilizza un approccio simile a quello basato su agenti di DEVIN, con la differenza chiave dell'introduzione di uno strato di "interfaccia agente-computer". Questo strato fornisce all'agente un set di comandi adatti ai modelli linguistici e un ambiente terminale specializzato, consentendogli di interagire più efficacemente con i repository di GitHub.

FAQ