Explorando las capacidades de LLAMA-3: RAG, enrutamiento y llamada a funciones

Explore las capacidades de LLAMA-3 en RAG, enrutamiento y llamada de funciones. Descubre su rendimiento en puntos de referencia, enrutamiento de consultas y uso de herramientas. Compara los modelos 38B y 70B. Insights sobre la implementación de características avanzadas de LLM para aplicaciones del mundo real.

15 de enero de 2025

party-gif

Este artículo de blog explora las capacidades del modelo de lenguaje LLAMA-3 en el manejo de diversas tareas, incluyendo el enrutamiento de consultas, la llamada a funciones y la provisión de información precisa sobre temas como empresas de IA y sus características. El contenido muestra las fortalezas del modelo en la entrega de respuestas concisas y relevantes, destacando su potencial para aplicaciones prácticas.

Aprovechando LLAMA-3 para el enrutamiento de consultas y la llamada de funciones

En esta sección, exploraremos las capacidades de LLAMA-3 para realizar el enrutamiento de consultas y la llamada de funciones. Utilizaremos la API de Gro para cargar los modelos LLAMA-3 y probar su rendimiento en diversas tareas.

Primero, crearemos dos almacenes de vectores diferentes: uno para el chunking y los incrustaciones de documentos, y otro para el resumen de documentos. Esto nos permitirá probar la capacidad del modelo para seleccionar el almacén de vectores apropiado en función de la consulta del usuario.

A continuación, examinaremos el rendimiento del modelo en el enrutamiento de consultas. Proporcionaremos al modelo consultas que requieran la recuperación de hechos específicos o el resumen de documentos, y observaremos cómo el modelo selecciona el almacén de vectores apropiado para generar la respuesta.

Finalmente, exploraremos las capacidades de llamada de funciones del modelo. Utilizaremos la implementación del uso de herramientas de la API de Gro para permitir que el modelo llame a funciones externas, como la recuperación de los resultados de los partidos de la NBA. Observaremos cómo el modelo decide cuándo usar la función externa y cómo integra la salida de la función en la respuesta final.

A lo largo de la sección, compararemos el rendimiento de las versiones de 38 mil millones y 70 mil millones del modelo LLAMA-3, destacando las mejoras en el modelo más grande.

Evaluación del rendimiento de LLAMA-3 en tareas de RAG

En esta sección, examinaremos la capacidad de LLAMA-3 para realizar tareas de enrutamiento de consultas y llamada de funciones. Utilizaremos el artículo "Synthetic Social Networking is Coming" de WGE como fuente de datos para nuestras pruebas.

Primero, configuramos los componentes necesarios, incluida la carga del modelo LLAMA-3 (tanto la versión de 38 mil millones como la de 70 mil millones) utilizando la API de Gro, y la creación de dos almacenes de vectores: uno para el chunking de documentos y otro para el resumen.

Luego probamos las capacidades de enrutamiento de consultas del modelo, haciéndole preguntas que requieren la recuperación de hechos específicos o el resumen de todo el documento. La versión de 70 mil millones de LLAMA-3 demuestra un rendimiento superior, proporcionando respuestas más precisas y completas en comparación con la versión de 38 mil millones.

A continuación, exploramos las capacidades de llamada de funciones de LLAMA-3, que no son compatibles oficialmente pero se pueden implementar utilizando la función de uso de herramientas de Gro. Creamos un mensaje del sistema que instruye al modelo para que use una función externa para recuperar los resultados de los partidos de la NBA e incluir los nombres de los equipos y los resultados finales en la respuesta. Tanto la versión de 38 mil millones como la de 70 mil millones de LLAMA-3 pueden utilizar con éxito la función externa y proporcionar la información solicitada.

En general, los resultados muestran que LLAMA-3 es capaz de desempeñarse bien en una variedad de tareas de RAG (Generación Aumentada por Recuperación), siendo la versión más grande de 70 mil millones la que muestra un rendimiento más sólido en general.

Comparación de los tamaños de los modelos LLAMA-3: 38 mil millones vs. 70 mil millones

El modelo LLAMA-3 de 70 mil millones de parámetros demuestra un rendimiento significativamente mejorado en comparación con la versión de 38 mil millones de parámetros. Las diferencias clave incluyen:

  • El modelo de 70 mil millones proporciona resúmenes mucho más detallados y precisos de la información mencionada sobre empresas como Meta y OpenAI. Es capaz de sintetizar los puntos clave en lugar de simplemente copiar oraciones del texto fuente.

  • Para consultas más complejas que involucran múltiples partes, el modelo de 70 mil millones hace un mejor trabajo en el enrutamiento de consultas, identificando correctamente cuál de las fuentes de datos disponibles (índice de vectores o índice de resumen) es más relevante para responder la pregunta.

  • Cuando se le pregunta sobre temas no relacionados con las funciones de herramientas disponibles, el modelo de 70 mil millones es capaz de reconocer esto y proporcionar una respuesta reflexiva, en lugar de intentar una llamada de herramienta inapropiada como lo hace el modelo de 38 mil millones.

En general, el aumento de escala del modelo LLAMA-3 de 70 mil millones de parámetros da como resultado capacidades de comprensión y razonamiento del lenguaje sustancialmente más sólidas, lo que le permite manejar consultas más matizadas y abiertas de manera más efectiva. El mayor tamaño del modelo parece ser un factor clave para permitir estas mejoras de rendimiento.

Integración de LLAMA-3 con herramientas externas para la llamada de funciones

LLAMA-3 no admite oficialmente la llamada de funciones, pero la API de Grok proporciona una implementación para el Uso de Herramientas, lo que permite que el modelo de lenguaje aproveche las herramientas externas para responder consultas complejas.

Los pasos clave involucrados en este proceso son:

  1. Definición de la Herramienta: El mensaje del sistema incluye una descripción detallada de la herramienta disponible, incluidos sus parámetros de entrada y salida. Esto permite que el modelo de lenguaje determine qué herramienta usar para una consulta determinada.

  2. Selección de Herramienta: Cuando el usuario hace una pregunta, el modelo de lenguaje primero verifica si necesita usar una herramienta externa. Si es así, selecciona la herramienta apropiada en función del contexto de la consulta.

  3. Invocación de Herramienta: El modelo de lenguaje hace una llamada a la herramienta seleccionada, pasando los parámetros de entrada necesarios. La respuesta de la herramienta se alimenta de vuelta al modelo de lenguaje.

  4. Generación de Respuesta Final: El modelo de lenguaje usa la información de la respuesta de la herramienta para generar la respuesta final para el usuario.

Este enfoque permite que LLAMA-3 aproveche las capacidades externas, como realizar cálculos complejos o recuperar datos específicos, para proporcionar respuestas más precisas y completas a las consultas de los usuarios.

El ejemplo proporcionado demuestra cómo LLAMA-3 se puede integrar con la API de Grok para responder preguntas sobre los resultados de los partidos de la NBA. El modelo es capaz de seleccionar la herramienta apropiada, invocar la función "obtener resultado del partido", y luego usar la información recuperada para generar una respuesta detallada para el usuario.

En general, esta integración de LLAMA-3 con herramientas externas amplía las capacidades del modelo y le permite manejar una gama más amplia de consultas y tareas.

Conclusión

El modelo Lama 3, tanto la versión de 38 mil millones como la de 70 mil millones, han demostrado capacidades impresionantes en diversas tareas como el enrutamiento de consultas y la llamada de funciones. La capacidad del modelo para identificar con precisión el almacén de vectores relevante o el índice de resumen en función de la consulta del usuario muestra su sólida comprensión del contexto y la relevancia.

En particular, el modelo de 70 mil millones superó a la versión más pequeña de 38 mil millones en consultas más complejas, proporcionando respuestas más detalladas y precisas. La implementación de la función de llamada de funciones, utilizando la API de Gro, también resalta la flexibilidad del modelo y su capacidad para aprovechar las herramientas externas para mejorar sus capacidades.

En general, los modelos Lama 3 han demostrado ser modelos de lenguaje poderosos que pueden manejar una amplia gama de tareas de manera efectiva. Los conocimientos adquiridos de este análisis pueden ser valiosos para los desarrolladores e investigadores que trabajan en proyectos similares, a medida que exploran el potencial de los modelos de lenguaje a gran escala y sus aplicaciones prácticas.

Preguntas más frecuentes