مهندس البرمجيات الذكية المفتوحة المصدر: التحدي لـ DEVIN

اكتشف SWE-Agent، برنامج المهندس البرمجي الذكاء الاصطناعي المفتوح المصدر المنافس لـ DEVIN. تعرف على كيفية مطابقة أداء DEVIN على مؤشر SWE في غضون 93 ثانية، واستكشف واجهة الوكيل الحاسوبي المبتكرة الخاصة به. استكشف مستقبل هندسة البرمجيات المدعومة بالذكاء الاصطناعي.

١٥ يناير ٢٠٢٥

party-gif

افتح قوة هندسة البرمجيات المفتوحة المصدر مع SWE-Agent ، أداة متطورة تنافس أداء DEVIN المنتظر بشدة. يستكشف هذا المنشور المدونة كيف يمكن لـ SWE-Agent حل مشكلات GitHub بشكل مستقل بكفاءة ملحوظة ، مما يوفر بديلاً مقنعًا للحلول المملوكة.

كيف يقارن SWE-Agent بـ DEVIN على SWE Benchmark

مشروع SWE-Agent الجديد المفتوح المصدر قد حقق أداءً قريبًا جدًا من أداء DEVIN، برنامج المهندس البرمجي الاصطناعي الذي طورته Cognition Lab، على SWE Benchmark. يستند SWE Benchmark على حل مشكلات GitHub، وكان قد تم الإبلاغ عن تحقيق DEVIN لدقة متقدمة بلغت 13.86% على هذا المعيار.

ومع ذلك، يمكن لـ SWE-Agent أن يطابق هذا الأداء، وقد يتجاوزه حتى. ومن الجدير بالملاحظة أن SWE-Agent ينجز هذه المهمة في حوالي 93 ثانية فقط، وهو أسرع بكثير من 5 دقائق التي استغرقها DEVIN.

ومن الجدير بالذكر أن فريق Cognition Lab قد اختبر DEVIN على 25% فقط من مجموعة بيانات SWE Benchmark، بينما يتم الإبلاغ عن أداء SWE-Agent على المجموعة الكاملة. وهذا يشير إلى أنه إذا تم اختبار DEVIN على المجموعة الكاملة، فقد ينخفض أداؤه ويقترب محتملاً من مستوى الأداء الذي حققه SWE-Agent.

يستخدم SWE-Agent نهجًا مشابهًا لنهج DEVIN القائم على الوكيل، مع الاختلاف الرئيسي في إدخال طبقة "واجهة الوكيل-الكمبيوتر". توفر هذه الطبقة للوكيل مجموعة من الأوامر الصديقة لنموذج اللغة وبيئة طرفية متخصصة، مما يسمح له بالتفاعل مع مستودعات GitHub بشكل أكثر فعالية.

كيف يعمل SWE-Agent: هندسته المعمارية وقدراته

SWE-Agent هو مشروع مفتوح المصدر جديد يهدف إلى تكرار وظائف نظام Deon الحصري الذي طورته Cognition Lab. يتميز الوكيل بهيكل معماري فريد يسمح له بأداء مهام الهندسة البرمجية، وخاصة على مستودعات GitHub، بكفاءة ملحوظة.

الجوانب الرئيسية لتصميم وقدرات SWE-Agent هي:

  1. واجهة الوكيل-الكمبيوتر: يتفاعل SWE-Agent مع الكمبيوتر من خلال طبقة "واجهة الوكيل-الكمبيوتر" المتخصصة. توفر هذه الواجهة مجموعة من الأوامر والتنسيقات الصديقة لنموذج اللغة، مما يجعل من الأسهل على نموذج اللغة تصفح المستودعات وعرض وتحرير وتنفيذ الملفات.

  2. تحليل الملف التدريجي: بدلاً من تحليل الملف بأكمله في وقت واحد، يقوم SWE-Agent بتقسيم الملف إلى شرائح بحجم 100 سطر وبحث عن أقسام الشفرة ذات الصلة. يسمح هذا النهج للوكيل بالحفاظ على سياق أفضل وأداء أكثر كفاءة مقارنةً بتحليل الملف بالكامل.

  3. قدرات مركزة على GitHub: حاليًا، تم تصميم SWE-Agent خصيصًا للعمل مع مستودعات GitHub، مما يسمح له بحل المشكلات وإنشاء طلبات السحب. ومع ذلك، أشار المطورون إلى أن النطاق قد يتوسع ليشمل مهام الهندسة البرمجية الأخرى في المستقبل.

  4. مقارنة الأداء: أظهر SWE-Agent أداءً قريبًا جدًا من نظام Deon الحصري على SWE Benchmark، والذي يستند إلى حل مشكلات GitHub. ومن الجدير بالملاحظة أن SWE-Agent يمكنه إكمال مهام المعيار في حوالي 93 ثانية، وهو أسرع بكثير من أداء Deon البالغ 5 دقائق.

  5. المصدر المفتوح والإمكانية: مشروع SWE-Agent مفتوح المصدر بالكامل، ويخطط المطورون لإصدار ورقة بحثية تفصيلية عن عملهم قريبًا. هذه الشفافية والإمكانية تتيح للمجتمع المفتوح المصدر تحسين وتوسيع وظائف الوكيل بشكل أكبر.

أداء SWE-Agent المвпечатляющ في 93 ثانية

أظهر SWE-Agent، وهو مشروع مفتوح المصدر جديد، أداءً مвпечатляющًا على SWE Benchmark، والذي يستند إلى حل مشكلات GitHub. يتمكن SWE-Agent من تحقيق أداء قريب جدًا من نظام Devon الحصري، والذي كان يُعتبر سابقًا الأفضل في مجاله.

وتجدر الملاحظة أن SWE-Agent قادر على إكمال المعيار في 93 ثانية فقط، وهو أسرع بكثير من 5 دقائق التي استغرقها Devon. وهذا يشير إلى أن SWE-Agent لديه نهج عالي الكفاءة وموجه بشكل مثالي لحل مهام الهندسة البرمجية.

علاوة على ذلك، تم تحقيق أداء SWE-Agent على مجموعة البيانات الكاملة لـ SWE Benchmark، على عكس Devon الذي تم اختباره على 25% فقط من المجموعة. وهذا يشير إلى أن قدرات SWE-Agent أكثر قوة وقابلية للتعميم.

يُعزى نجاح SWE-Agent إلى هيكله المعماري الفريد، والذي يتضمن "واجهة الوكيل-الكمبيوتر" التي توفر طبقة من التجريد بين نموذج اللغة والطرفية الكمبيوتر. وهذا يسمح للوكيل بالتفاعل مع قاعدة الشفرة بطريقة أكثر طبيعية وكفاءة.

بشكل عام، يُعد ظهور SWE-Agent كبديل مفتوح المصدر قوي لأنظمة حصرية مثل Devon تطورًا مثيرًا في مجال الهندسة البرمجية المدعومة بالذكاء الاصطناعي. ينتظر المجتمع بفارغ الصبر إصدار ورقة بحث SWE-Agent، والتي من المتوقع أن توفر مزيدًا من المعلومات حول قدراته وإمكاناته المحتملة.

قيود SWE-Agent والحاجة إلى LLMs قوية

على الرغم من أن SWE-Agent قد أظهر أداءً مвпечатляющًا على SWE Benchmark، إلا أنه حاليًا محدود في العمل مع مستودعات GitHub فقط. تقتصر قدرات الوكيل على مهام الهندسة البرمجية المحددة، ولا يمكن استخدامه لأنواع أخرى من المهام. بالإضافة إلى ذلك، يتطلب الوكيل استخدام نماذج لغة قوية مثل Opus أو GPT-4 لكي يعمل بفعالية. النماذج اللغوية الكبيرة المفتوحة المصدر المتاحة حاليًا ليست قادرة بما فيه الكفاية لتشغيل وكلاء مثل SWE-Agent.

ومع ذلك، فإن التقدم الذي أحرزه SWE-Agent ومشاريع مماثلة مشجع. مع استمرار المجتمع المفتوح المصدر في تطوير نماذج لغة أكثر تقدمًا، من المرجح أن تتوسع قدرات هذه الوكلاء الهندسية البرمجية. ينتظر الجميع بفارغ الصبر إصدار ورقة SWE-Agent، حيث قد توفر رؤى قيمة في تطوير وإمكانات هذه الأنواع من الأنظمة.

الخاتمة

يُعد ظهور المشاريع مفتوحة المصدر مثل SWA Agent، والتي يمكنها أن تضاهي أداء النظام الحصري Devon، تطورًا مهمًا في مجال الهندسة البرمجية المدعومة بالذكاء الاصطناعي. إن قدرة SWA Agent على حل مشكلات GitHub بشكل مستقل في غضون ثوان معدودة، مقارنةً بـ 5 دقائق التي استغرقها Devon، هي إنجاز مذهل.

بينما يقتصر SWA Agent حاليًا على مشكلات GitHub، من المرجح أن يواصل المجتمع المفتوح المصدر توسيع قدراته. سيوفر إصدار ورقة المشروع معلومات قيمة حول التقنيات والنهج الأساسية المستخدمة.

أحد الدروس الرئيسية هو أن الميزة الرئيسية للأنظمة الحصرية مثل Devon تكمن في وصولها إلى البيانات والموارد الحاسوبية الحصرية، وليس في أي تفوق تكنولوجي جوهري. قدرة المجتمع المفتوح المصدر على تكرار هذا الأداء تسلط الضوء على إمكانات المزيد من التقدم في هذا المجال. ومع ذلك، لا تزال قيود النماذج اللغوية المفتوحة المصدر الحالية في تشغيل هذه الوكلاء المتقدمة تشكل تحديًا. يتضح الحاجة إلى نماذج أقوى، مثل Opus أو GPT-4. مع تقدم هذا المجال، سيكون من المثير مشاهدة كيف سيواصل المجتمع المفتوح المصدر دفع حدود الهندسة البرمجية المدعومة بالذكاء الاصطناعي.

التعليمات