Evaluación del rendimiento de Phi-3-Mini en RAG, enrutamiento y agentes
Evaluación del rendimiento de Phi-3-Mini en RAG, enrutamiento y agentes. Exploración de las capacidades del modelo en casos de uso prácticos, incluidas consultas RAG simples, descomposición de consultas complejas y orquestación de agentes.
24 de enero de 2025
Este artículo de blog explora las capacidades del modelo de lenguaje Phi-3-Mini en casos de uso prácticos, incluyendo recuperación, enrutamiento de consultas y marcos basados en agentes. El contenido proporciona un análisis detallado del rendimiento del modelo a través de diversas tareas, ofreciendo perspectivas sobre sus fortalezas y limitaciones. Los lectores obtendrán una mejor comprensión de la idoneidad del modelo para aplicaciones del mundo real.
Recuperación simple y RAG
Consultas complejas y limitaciones de RAG
Enrutamiento de consultas y descomposición de consultas
Agentes y operaciones matemáticas
Conclusión
Recuperación simple y RAG
Recuperación simple y RAG
El modelo se desempeña de manera razonable en tareas de recuperación simple utilizando la canalización RAG (Generación Aumentada por Recuperación). Cuando se le hace una consulta simple como "¿cómo se diferencian OpenAI y Meta en las herramientas de IA", el modelo puede proporcionar una respuesta precisa al compactar los fragmentos de texto relevantes y generar un resumen coherente.
Sin embargo, cuando las consultas se vuelven más complejas, el modelo comienza a exhibir algunas limitaciones. Por ejemplo, cuando se le pregunta "¿qué nuevas características ha agregado OpenAI a ChatGPT", el modelo atribuye incorrectamente algunas características introducidas por Meta a OpenAI, mostrando una tendencia a alucinaciones o confusión de información de diferentes fuentes.
El desempeño del modelo mejora cuando se utiliza el modo "resumen de árbol", que resume recursivamente cada fragmento de texto antes de generar la respuesta final. Este enfoque ayuda a mitigar el problema de la información conflictiva entre los diferentes fragmentos.
En general, el modelo demuestra una capacidad decente para tareas de recuperación simple utilizando RAG, pero su desempeño comienza a deteriorarse cuando se enfrenta a consultas más complejas que requieren una comprensión más profunda de la información subyacente.
Consultas complejas y limitaciones de RAG
Consultas complejas y limitaciones de RAG
El desempeño del modelo en consultas complejas revela algunas limitaciones del enfoque RAG (Generación Aumentada por Recuperación). Si bien maneja bien las consultas simples, tiene dificultades con consultas más complejas que involucran información conflictiva entre diferentes fragmentos de documentos.
Cuando se le preguntó sobre las nuevas características introducidas por OpenAI, el modelo atribuyó incorrectamente algunas características que en realidad fueron introducidas por Meta. Esto sugiere que el modelo tiene dificultades para conciliar y sintetizar información de múltiples fuentes, especialmente cuando hay discrepancias o contradicciones.
Las capacidades de descomposición de consultas del modelo, sin embargo, parecen más prometedoras. Cuando se le presentó una consulta compleja, el modelo pudo descomponerla en subpreguntas relevantes y recuperar la información en consecuencia. Esto sugiere que el modelo tiene cierta comprensión de la estructura subyacente de la consulta y puede intentar abordarla de una manera más sistemática.
En el contexto de la orquestación de agentes, el desempeño del modelo fue mixto. Para consultas simples, pudo determinar que no se necesitaba ninguna herramienta y generar una respuesta por sí solo. Sin embargo, para consultas más complejas, el modelo tuvo dificultades para utilizar eficazmente las herramientas disponibles para proporcionar una respuesta integral.
En general, los resultados indican que si bien el modelo tiene algunas capacidades para manejar tareas basadas en RAG, aún tiene limitaciones cuando se trata de consultas complejas y orquestación de agentes. Serían necesarias mejoras adicionales en la capacidad del modelo para conciliar información conflictiva, sintetizar conocimientos y aprovechar eficazmente las herramientas externas para hacerlo más robusto para este tipo de aplicaciones.
Enrutamiento de consultas y descomposición de consultas
Enrutamiento de consultas y descomposición de consultas
El desempeño del modelo en las tareas de enrutamiento y descomposición de consultas fue mixto.
Para el enrutamiento de consultas, el modelo pudo utilizar eficazmente las descripciones de las herramientas proporcionadas para determinar qué almacén de vectores usar para responder a consultas específicas. Cuando se le hizo una pregunta sobre información relacionada con Meta, el modelo identificó correctamente la "Herramienta Vector" como el recurso apropiado y proporcionó una respuesta relevante. De manera similar, cuando se le hizo una pregunta más específica sobre la cantidad de chatbots impulsados por la personalidad introducidos por Meta, el modelo volvió a usar el almacén de vectores correcto para recuperar la información precisa.
Sin embargo, cuando se le permitió al modelo seleccionar múltiples herramientas, su desempeño disminuyó. Para una consulta que preguntaba sobre las principales características introducidas por OpenAI y otras empresas, el modelo atribuyó incorrectamente información sobre Tesla y Apple, que no se mencionaron en el documento original. Esto sugiere que el modelo aún tiene problemas con el enrutamiento de consultas complejas y puede alucinarse información cuando intenta combinar múltiples fuentes.
El modelo tuvo un mejor desempeño en las tareas de descomposición de consultas. Cuando se le presentó una consulta compleja sobre las diferencias entre cómo se discute a Meta y OpenAI, el modelo pudo descomponerla en tres subpreguntas, recuperando información relevante para cada una y luego sintetizando una respuesta final. Las subpreguntas generadas fueron lógicas y la respuesta general proporcionó una comparación razonable entre las dos empresas.
En resumen, el modelo muestra promesas en las capacidades básicas de enrutamiento de consultas, pero su desempeño se deteriora para consultas más complejas que requieren combinar información de múltiples fuentes. Las capacidades de descomposición de consultas son más sólidas, lo que indica que el modelo puede descomponer y abordar preguntas complejas de manera efectiva. Sin embargo, puede ser necesario un mayor refinamiento para aprovechar al máximo el potencial del modelo en casos de uso prácticos.
Agentes y operaciones matemáticas
Agentes y operaciones matemáticas
Las pruebas realizadas en el modelo de Generación Aumentada por Recuperación (RAG) revelan algunos insights interesantes sobre sus capacidades y limitaciones:
-
Consultas RAG simples: El modelo se desempeña de manera razonable en consultas RAG simples, proporcionando respuestas precisas en función de la información disponible en el documento.
-
Consultas RAG complejas: Cuando se enfrenta a consultas más complejas que involucran información conflictiva entre diferentes fragmentos de documentos, el modelo tiene dificultades y tiende a alucinarse o clasificar erróneamente la información.
-
Enrutamiento de consultas: El modelo demuestra la capacidad de realizar el enrutamiento de consultas, donde puede seleccionar el almacén de vectores apropiado para recuperar la información relevante en función de la consulta. Esto sugiere que el modelo puede manejar tareas que requieren comprender los metadatos y las capacidades de diferentes fuentes de información.
-
Descomposición de consultas: El modelo es capaz de descomponer consultas complejas en subpreguntas y recuperar información para responderlas individualmente, luego combinar los resultados. Esto muestra el potencial del modelo para manejar necesidades de información complejas.
-
Orquestación de agentes: Cuando se probó en un marco basado en agentes, el modelo exhibió capacidades limitadas. Tiene dificultades para utilizar eficazmente las herramientas proporcionadas, especialmente para tareas más complejas que involucran operaciones matemáticas. El modelo parece preferir realizar los cálculos por sí mismo en lugar de aprovechar las herramientas disponibles.
-
Operaciones matemáticas: Curiosamente, el modelo parece tener un mejor dominio de realizar operaciones matemáticas simples por sí mismo, sin depender de las herramientas proporcionadas. Esto sugiere que el modelo puede tener algunas capacidades inherentes de razonamiento matemático.
En general, los resultados indican que el modelo RAG tiene potencial para ciertos usos, como la recuperación de información simple y el enrutamiento de consultas. Sin embargo, su desempeño en tareas más complejas, incluida la orquestación de agentes y el manejo de información conflictiva, es limitado. Avances adicionales en el razonamiento del modelo y la integración con herramientas externas pueden ser necesarios para aprovechar al máximo sus capacidades en casos de uso prácticos.
Preguntas más frecuentes
Preguntas más frecuentes