Avaliando o Desempenho do Phi-3-Mini em RAG, Roteamento e Agentes

Avaliando o desempenho do Phi-3-Mini em RAG, roteamento e agentes. Explorando as capacidades do modelo em casos de uso práticos, incluindo consultas simples de RAG, decomposição de consultas complexas e orquestração de agentes.

24 de janeiro de 2025

party-gif

Este post de blog explora as capacidades do modelo de linguagem Phi-3-Mini em casos de uso práticos, incluindo recuperação, roteamento de consultas e estruturas baseadas em agentes. O conteúdo fornece uma análise detalhada do desempenho do modelo em várias tarefas, oferecendo insights sobre seus pontos fortes e limitações. Os leitores terão uma melhor compreensão da adequação do modelo para aplicações do mundo real.

Recuperação Simples e RAG

O modelo apresenta um desempenho razoável em tarefas simples de recuperação de informações usando o pipeline RAG (Retrieval-Augmented Generation). Quando perguntado sobre uma consulta simples como "como a OpenAI e a Meta diferem em ferramentas de IA", o modelo é capaz de fornecer uma resposta precisa, compactando os trechos relevantes de texto e gerando um resumo coerente.

No entanto, quando as consultas se tornam mais complexas, o modelo começa a exibir algumas limitações. Por exemplo, quando perguntado "quais são os novos recursos adicionados pela OpenAI ao ChatGPT", o modelo atribui incorretamente alguns recursos introduzidos pela Meta à OpenAI, mostrando uma tendência a alucinaçar ou confundir informações de diferentes fontes.

O desempenho do modelo melhora quando se usa o modo "tree summarize", que resume recursivamente cada trecho de texto antes de gerar a resposta final. Essa abordagem ajuda a mitigar o problema de informações conflitantes entre diferentes trechos.

Consultas Complexas e Limitações do RAG

O desempenho do modelo em consultas complexas revela algumas limitações da abordagem RAG (Retrieval-Augmented Generation). Embora lide bem com consultas simples, ele tem dificuldades com consultas mais complexas que envolvem informações conflitantes entre diferentes trechos de documentos.

Quando perguntado sobre os novos recursos introduzidos pela OpenAI, o modelo atribuiu incorretamente alguns recursos que foram na verdade introduzidos pela Meta. Isso sugere que o modelo tem dificuldade em reconciliar e sintetizar informações de várias fontes, especialmente quando há discrepâncias ou contradições.

As capacidades de decomposição de consultas do modelo, no entanto, parecem mais promissoras. Quando apresentado a uma consulta complexa, o modelo foi capaz de dividi-la em sub-perguntas relevantes e recuperar informações de acordo. Isso sugere que o modelo tem algum entendimento da estrutura subjacente da consulta e pode tentar abordá-la de forma mais sistemática.

No contexto da orquestração de agentes, o desempenho do modelo foi misto. Para consultas simples, ele foi capaz de determinar que nenhuma ferramenta era necessária e gerar uma resposta por conta própria. No entanto, para consultas mais complexas, o modelo teve dificuldade em utilizar efetivamente as ferramentas disponíveis para fornecer uma resposta abrangente.

Roteamento de Consultas e Decomposição de Consultas

O desempenho do modelo em tarefas de roteamento e decomposição de consultas foi misto.

Para o roteamento de consultas, o modelo foi capaz de usar efetivamente as descrições das ferramentas fornecidas para determinar qual armazenamento de vetores usar para responder a consultas específicas. Quando perguntado sobre informações relacionadas à Meta, o modelo identificou corretamente a "Ferramenta de Vetor" como o recurso apropriado e forneceu uma resposta relevante. Da mesma forma, quando perguntado sobre o número de chatbots guiados por personalidade introduzidos pela Meta, o modelo novamente usou o armazenamento de vetores correto para recuperar as informações precisas.

No entanto, quando o modelo pôde selecionar várias ferramentas, seu desempenho diminuiu. Para uma consulta perguntando sobre os principais recursos introduzidos pela OpenAI e outras empresas, o modelo atribuiu incorretamente informações sobre a Tesla e a Apple, que não foram mencionadas no documento original. Isso sugere que o modelo ainda tem dificuldades com o roteamento de consultas complexas e pode alucinaçar informações ao tentar combinar várias fontes.

O modelo teve um desempenho melhor em tarefas de decomposição de consultas. Quando apresentado a uma consulta complexa sobre as diferenças entre como a Meta e a OpenAI são discutidas, o modelo foi capaz de dividi-la em três sub-perguntas, recuperando informações relevantes para cada uma e, em seguida, sintetizando uma resposta final. As sub-perguntas geradas foram lógicas e a resposta geral forneceu uma comparação razoável entre as duas empresas.

Agentes e Operações Matemáticas

Os testes realizados no modelo de Geração Aumentada por Recuperação (RAG) revelam algumas insights interessantes sobre suas capacidades e limitações:

  1. Consultas RAG Simples: O modelo apresenta um desempenho razoável em consultas RAG simples, fornecendo respostas precisas com base nas informações disponíveis no documento.

  2. Consultas RAG Complexas: Quando confrontado com consultas mais complexas que envolvem informações conflitantes entre diferentes trechos de documentos, o modelo tem dificuldades e tende a alucinaçar ou classificar incorretamente as informações.

  3. Roteamento de Consultas: O modelo demonstra a capacidade de realizar o roteamento de consultas, onde ele pode selecionar o armazenamento de vetores apropriado para recuperar informações relevantes com base na consulta. Isso sugere que o modelo pode lidar com tarefas que exigem o entendimento dos metadados e das capacidades de diferentes fontes de informação.

  4. Decomposição de Consultas: O modelo é capaz de decompor consultas complexas em sub-perguntas e recuperar informações para respondê-las individualmente, combinando então os resultados. Isso mostra promessa para a capacidade do modelo de lidar com necessidades de informação complexas.

  5. Orquestração de Agentes: Quando testado em uma estrutura baseada em agentes, o modelo exibe capacidades limitadas. Ele tem dificuldade em utilizar efetivamente as ferramentas fornecidas, especialmente para tarefas mais complexas envolvendo operações matemáticas. O modelo parece preferir realizar os cálculos por conta própria, em vez de aproveitar as ferramentas disponíveis.

  6. Operações Matemáticas: Curiosamente, o modelo parece ter um melhor domínio da realização de operações matemáticas simples por conta própria, sem depender das ferramentas fornecidas. Isso sugere que o modelo pode ter algumas capacidades inerentes de raciocínio matemático.

Conclusão

O modelo de linguagem pequeno Pi 3, embora impressionante em benchmarks, possui algumas limitações quando se trata de casos de uso práticos.

Para tarefas simples de recuperação de informações, o modelo apresenta um desempenho razoável, sendo capaz de fornecer respostas precisas compactando as informações relevantes do documento. No entanto, quando confrontado com consultas mais complexas que envolvem informações conflitantes entre diferentes trechos de documentos, o modelo tem dificuldades e tende a alucinaçar, misturando recursos introduzidos por diferentes empresas.

As capacidades de roteamento de consultas do modelo mostram promessa, pois ele é capaz de selecionar o armazenamento de vetores apropriado com base nas descrições fornecidas. Isso sugere que o modelo pode entender o contexto e o propósito de diferentes fontes de informação. No entanto, para tarefas mais complexas de decomposição de consultas, o desempenho do modelo ainda é limitado.

Quanto à orquestração de agentes, o modelo exibe resultados mistos. Enquanto ele pode lidar com consultas simples sem a necessidade de ferramentas, para operações matemáticas mais complexas, ele parece relutante em aproveitar as ferramentas fornecidas e, em vez disso, tenta realizar os cálculos por conta própria, às vezes de forma imprecisa.

Em geral, o modelo de linguagem pequeno Pi 3 demonstra capacidades em certas áreas, mas suas limitações ficam evidentes ao lidar com consultas e tarefas complexas e multifacetadas. Avanços adicionais em áreas como mitigação de alucinações e raciocínio robusto serão necessários para desbloquear todo o potencial do modelo para aplicações práticas.

Perguntas frequentes