SWE-Agent: Открытый исходный код AI Software Engineer Challenger to DEVIN
Откройте для себя SWE-Agent, открытое программное обеспечение для искусственного интеллекта, которое бросает вызов DEVIN. Узнайте, как оно соответствует производительности DEVIN на тесте SWE Benchmark всего за 93 секунды, и исследуйте его инновационный интерфейс агент-компьютер. Исследуйте будущее программной инженерии, управляемой искусственным интеллектом.
15 января 2025 г.
Раскройте силу разработки программного обеспечения с открытым исходным кодом с помощью SWE-Agent, передового инструмента, который соперничает с производительностью высокоожидаемого DEVIN. В этом блог-посте исследуется, как SWE-Agent может автономно решать проблемы GitHub с поразительной эффективностью, предлагая убедительную альтернативу проприетарным решениям.
Как SWE-Agent сравнивается с DEVIN на SWE Benchmark
Как работает SWE-Agent: его архитектура и возможности
Впечатляющая производительность SWE-Agent за 93 секунды
Ограничения SWE-Agent и необходимость мощных LLM
Заключение
Как SWE-Agent сравнивается с DEVIN на SWE Benchmark
Как SWE-Agent сравнивается с DEVIN на SWE Benchmark
Новый проект с открытым исходным кодом SWE-Agent достиг производительности, очень близкой к DEVIN, программному обеспечению для инженеров-программистов, разработанному Cognition Lab, на бенчмарке SWE. Бенчмарк SWE основан на решении проблем GitHub, и ранее сообщалось, что DEVIN достиг передового уровня точности 13,86% на этом бенчмарке.
Однако SWE-Agent способен соответствовать этой производительности и даже превзойти ее. Примечательно, что SWE-Agent выполняет эту задачу всего за 93 секунды, что значительно быстрее 5 минут, затраченных DEVIN.
Следует отметить, что команда Cognition Lab тестировала DEVIN только на 25% набора данных бенчмарка SWE, в то время как производительность SWE-Agent сообщается по полному набору данных. Это позволяет предположить, что если бы DEVIN был протестирован на полном наборе данных, его производительность могла бы ухудшиться и потенциально приблизиться к уровню, достигнутому SWE-Agent.
Как работает SWE-Agent: его архитектура и возможности
Как работает SWE-Agent: его архитектура и возможности
SWE-Agent - это новый проект с открытым исходным кодом, который стремится воспроизвести функциональность проприетарной системы Deon, разработанной Cognition Lab. Агент имеет уникальную архитектуру, которая позволяет ему эффективно выполнять задачи программной инженерии, особенно в репозиториях GitHub.
Основные аспекты дизайна и возможностей SWE-Agent:
-
Интерфейс агент-компьютер: SWE-Agent взаимодействует с компьютером через специализированный слой "интерфейса агент-компьютер". Этот интерфейс предоставляет набор дружественных к языковой модели команд и форматов обратной связи, что облегчает языковой модели просмотр репозиториев, просмотр, редактирование и выполнение файлов.
-
Инкрементальный разбор файлов: вместо анализа всего файла сразу SWE-Agent разбивает файл на фрагменты по 100 строк и ищет соответствующие разделы кода. Этот подход позволяет агенту лучше сохранять контекст и работать более эффективно по сравнению с анализом всего файла.
-
Возможности, ориентированные на GitHub: в настоящее время SWE-Agent специально разработан для работы с репозиториями GitHub, позволяя ему решать проблемы и создавать запросы на слияние. Однако разработчики указали, что сфера применения может быть расширена для включения других задач программной инженерии в будущем.
Впечатляющая производительность SWE-Agent за 93 секунды
Впечатляющая производительность SWE-Agent за 93 секунды
SWE-Agent, новый проект с открытым исходным кодом, продемонстрировал впечатляющую производительность на бенчмарке SWE, основанном на решении проблем GitHub. SWE-Agent способен достичь производительности, очень близкой к проприетарной системе Devon, которая ранее считалась передовой.
Примечательно, что SWE-Agent способен завершить бенчмарк всего за 93 секунды, что значительно быстрее 5 минут, необходимых Devon. Это свидетельствует о том, что SWE-Agent имеет высокоэффективный и оптимизированный подход к решению задач программной инженерии.
Кроме того, производительность SWE-Agent достигается на полном наборе данных бенчмарка SWE, в отличие от Devon, который тестировался только на 25% набора данных. Это указывает на то, что возможности SWE-Agent более надежны и универсальны.
Ограничения SWE-Agent и необходимость мощных LLM
Ограничения SWE-Agent и необходимость мощных LLM
Хотя SWE-Agent продемонстрировал впечатляющую производительность на бенчмарке SWE, в настоящее время он ограничен работой с репозиториями GitHub. Возможности агента ограничены определенными задачами программной инженерии, и его нельзя использовать для других типов задач. Кроме того, агент требует использования мощных языковых моделей, таких как Opus или GPT-4, для эффективного функционирования. Открытые языковые модели, доступные в настоящее время, недостаточно мощные, чтобы запускать агентов, подобные SWE-Agent.
Заключение
Заключение
Появление проектов с открытым исходным кодом, таких как SWA Agent, которые могут близко соответствовать производительности проприетарной системы Devon, является значительным событием в области программной инженерии, управляемой ИИ. Способность SWA Agent автономно решать проблемы GitHub за считанные секунды по сравнению с 5 минутами, затраченными Devon, является впечатляющим достижением.
Хотя SWA Agent в настоящее время ограничен проблемами GitHub, сообщество с открытым исходным кодом, вероятно, продолжит расширять его возможности. Выпуск статьи по проекту предоставит ценные сведения о лежащих в основе методах и подходах.
Одним из ключевых выводов является то, что основное преимущество проприетарных систем, таких как Devon, заключается в их доступе к проприетарным данным и вычислительным ресурсам, а не в какой-либо внутренней технологической превосходстве. Способность сообщества с открытым исходным кодом воспроизводить такую производительность подчеркивает потенциал для дальнейшего прогресса в этой области.
Часто задаваемые вопросы
Часто задаваемые вопросы