SWE-Agent: Открытый исходный код AI Software Engineer Challenger to DEVIN

Откройте для себя SWE-Agent, открытое программное обеспечение для искусственного интеллекта, которое бросает вызов DEVIN. Узнайте, как оно соответствует производительности DEVIN на тесте SWE Benchmark всего за 93 секунды, и исследуйте его инновационный интерфейс агент-компьютер. Исследуйте будущее программной инженерии, управляемой искусственным интеллектом.

15 января 2025 г.

party-gif

Раскройте силу разработки программного обеспечения с открытым исходным кодом с помощью SWE-Agent, передового инструмента, который соперничает с производительностью высокоожидаемого DEVIN. В этом блог-посте исследуется, как SWE-Agent может автономно решать проблемы GitHub с поразительной эффективностью, предлагая убедительную альтернативу проприетарным решениям.

Как SWE-Agent сравнивается с DEVIN на SWE Benchmark

Новый проект с открытым исходным кодом SWE-Agent достиг производительности, очень близкой к DEVIN, программному обеспечению для инженеров-программистов, разработанному Cognition Lab, на бенчмарке SWE. Бенчмарк SWE основан на решении проблем GitHub, и ранее сообщалось, что DEVIN достиг передового уровня точности 13,86% на этом бенчмарке.

Однако SWE-Agent способен соответствовать этой производительности и даже превзойти ее. Примечательно, что SWE-Agent выполняет эту задачу всего за 93 секунды, что значительно быстрее 5 минут, затраченных DEVIN.

Следует отметить, что команда Cognition Lab тестировала DEVIN только на 25% набора данных бенчмарка SWE, в то время как производительность SWE-Agent сообщается по полному набору данных. Это позволяет предположить, что если бы DEVIN был протестирован на полном наборе данных, его производительность могла бы ухудшиться и потенциально приблизиться к уровню, достигнутому SWE-Agent.

Как работает SWE-Agent: его архитектура и возможности

SWE-Agent - это новый проект с открытым исходным кодом, который стремится воспроизвести функциональность проприетарной системы Deon, разработанной Cognition Lab. Агент имеет уникальную архитектуру, которая позволяет ему эффективно выполнять задачи программной инженерии, особенно в репозиториях GitHub.

Основные аспекты дизайна и возможностей SWE-Agent:

  1. Интерфейс агент-компьютер: SWE-Agent взаимодействует с компьютером через специализированный слой "интерфейса агент-компьютер". Этот интерфейс предоставляет набор дружественных к языковой модели команд и форматов обратной связи, что облегчает языковой модели просмотр репозиториев, просмотр, редактирование и выполнение файлов.

  2. Инкрементальный разбор файлов: вместо анализа всего файла сразу SWE-Agent разбивает файл на фрагменты по 100 строк и ищет соответствующие разделы кода. Этот подход позволяет агенту лучше сохранять контекст и работать более эффективно по сравнению с анализом всего файла.

  3. Возможности, ориентированные на GitHub: в настоящее время SWE-Agent специально разработан для работы с репозиториями GitHub, позволяя ему решать проблемы и создавать запросы на слияние. Однако разработчики указали, что сфера применения может быть расширена для включения других задач программной инженерии в будущем.

Впечатляющая производительность SWE-Agent за 93 секунды

SWE-Agent, новый проект с открытым исходным кодом, продемонстрировал впечатляющую производительность на бенчмарке SWE, основанном на решении проблем GitHub. SWE-Agent способен достичь производительности, очень близкой к проприетарной системе Devon, которая ранее считалась передовой.

Примечательно, что SWE-Agent способен завершить бенчмарк всего за 93 секунды, что значительно быстрее 5 минут, необходимых Devon. Это свидетельствует о том, что SWE-Agent имеет высокоэффективный и оптимизированный подход к решению задач программной инженерии.

Кроме того, производительность SWE-Agent достигается на полном наборе данных бенчмарка SWE, в отличие от Devon, который тестировался только на 25% набора данных. Это указывает на то, что возможности SWE-Agent более надежны и универсальны.

Ограничения SWE-Agent и необходимость мощных LLM

Хотя SWE-Agent продемонстрировал впечатляющую производительность на бенчмарке SWE, в настоящее время он ограничен работой с репозиториями GitHub. Возможности агента ограничены определенными задачами программной инженерии, и его нельзя использовать для других типов задач. Кроме того, агент требует использования мощных языковых моделей, таких как Opus или GPT-4, для эффективного функционирования. Открытые языковые модели, доступные в настоящее время, недостаточно мощные, чтобы запускать агентов, подобные SWE-Agent.

Заключение

Появление проектов с открытым исходным кодом, таких как SWA Agent, которые могут близко соответствовать производительности проприетарной системы Devon, является значительным событием в области программной инженерии, управляемой ИИ. Способность SWA Agent автономно решать проблемы GitHub за считанные секунды по сравнению с 5 минутами, затраченными Devon, является впечатляющим достижением.

Хотя SWA Agent в настоящее время ограничен проблемами GitHub, сообщество с открытым исходным кодом, вероятно, продолжит расширять его возможности. Выпуск статьи по проекту предоставит ценные сведения о лежащих в основе методах и подходах.

Одним из ключевых выводов является то, что основное преимущество проприетарных систем, таких как Devon, заключается в их доступе к проприетарным данным и вычислительным ресурсам, а не в какой-либо внутренней технологической превосходстве. Способность сообщества с открытым исходным кодом воспроизводить такую производительность подчеркивает потенциал для дальнейшего прогресса в этой области.

Часто задаваемые вопросы