RAG, 라우팅 및 에이전트에서 Phi-3-Mini의 성능 평가

Phi-3-Mini의 RAG, 라우팅 및 에이전트 성능 평가. 간단한 RAG 쿼리, 복잡한 쿼리 분해 및 에이전트 오케스트레이션을 포함한 실용적인 사용 사례에서 모델의 기능 탐색.

2025년 1월 24일

party-gif

이 블로그 게시물은 검색, 쿼리 라우팅, 에이전트 기반 프레임워크와 같은 실용적인 사용 사례에서 Phi-3-Mini 언어 모델의 기능을 탐구합니다. 이 내용은 다양한 작업에 걸친 모델의 성능에 대한 자세한 분석을 제공하며, 그 강점과 한계에 대한 통찰을 제공합니다. 독자들은 실제 응용 프로그램에 대한 모델의 적합성에 대해 더 잘 이해하게 될 것입니다.

간단한 검색 및 RAG

이 모델은 RAG(Retrieval-Augmented Generation) 파이프라인을 사용한 단순한 검색 작업에서 합리적으로 잘 수행합니다. "OpenAI와 Meta가 AI 도구에서 어떻게 다른지"와 같은 단순한 질문을 받으면 모델은 관련 텍스트 조각을 압축하고 일관된 요약을 생성하여 정확한 응답을 제공할 수 있습니다.

그러나 질문이 더 복잡해지면 모델에 일부 제한이 나타납니다. 예를 들어 "ChatGPT에 OpenAI가 추가한 새로운 기능은 무엇인가"라는 질문을 받으면 모델은 Meta가 도입한 일부 기능을 OpenAI에 잘못 귀속시키는 경향이 있어 정보를 허구적으로 생성하거나 혼동합니다.

"tree summarize" 모드를 사용하면 모델의 성능이 향상됩니다. 이 방식은 최종 응답을 생성하기 전에 각 텍스트 조각을 재귀적으로 요약합니다. 이를 통해 다른 조각 간의 상충되는 정보 문제를 완화할 수 있습니다.

전반적으로 이 모델은 RAG를 사용한 단순한 검색 작업에서 적절한 능력을 보여주지만, 기저 정보에 대한 더 깊은 이해가 필요한 복잡한 질문을 다룰 때 성능이 저하됩니다.

복잡한 쿼리 및 RAG 제한

복잡한 질문에 대한 모델의 성능은 RAG(Retrieval-Augmented Generation) 접근법의 일부 제한을 드러냅니다. 단순한 질문은 합리적으로 잘 처리하지만 서로 다른 문서 조각에 걸쳐 상충되는 정보가 포함된 더 복잡한 질문에 어려움을 겪습니다.

OpenAI가 도입한 새로운 기능에 대해 질문받았을 때 모델은 실제로 Meta가 도입한 일부 기능을 잘못 귀속시켰습니다. 이는 모델이 불일치나 모순이 있을 때 여러 출처의 정보를 조정하고 종합하는 데 어려움이 있음을 시사합니다.

그러나 모델의 질문 분해 기능은 더 유망해 보입니다. 복잡한 질문이 제시되면 모델은 관련 하위 질문으로 분해하고 그에 따라 정보를 검색할 수 있었습니다. 이는 모델이 질문의 기본 구조를 어느 정도 이해하고 체계적으로 접근하려 한다는 것을 시사합니다.

에이전트 오케스트레이션 맥락에서 모델의 성능은 혼합적이었습니다. 단순한 질문의 경우 도구가 필요하지 않다고 판단하고 자체적으로 응답을 생성할 수 있었습니다. 그러나 더 복잡한 질문의 경우 사용 가능한 도구를 효과적으로 활용하여 종합적인 답변을 제공하는 데 어려움을 겪었습니다.

전반적으로 결과는 모델이 RAG 기반 작업을 처리하는 일부 기능을 가지고 있지만, 복잡한 질문과 에이전트 오케스트레이션 측면에서 여전히 제한이 있음을 보여줍니다. 상충되는 정보를 조정하고 지식을 종합하며 외부 도구를 효과적으로 활용하는 능력을 향상시키는 것이 이러한 유형의 응용 프로그램에서 모델을 더 강력하게 만들기 위해 필요할 것입니다.

쿼리 라우팅 및 쿼리 분해

질문 라우팅 및 질문 분해 작업에 대한 모델의 성능은 혼합적이었습니다.

질문 라우팅의 경우 모델은 제공된 도구 설명을 효과적으로 활용하여 특정 질문에 대한 답변을 위해 어떤 벡터 저장소를 사용해야 할지 결정할 수 있었습니다. Meta와 관련된 정보에 대한 질문을 받았을 때 모델은 "벡터 도구"가 적절한 리소스라고 정확하게 식별하고 관련 응답을 제공했습니다. 마찬가지로 Meta가 도입한 성격 기반 채팅봇 수에 대한 더 구체적인 질문에서도 모델은 올바른 벡터 저장소를 사용하여 정확한 정보를 검색했습니다.

그러나 모델이 여러 도구를 선택할 수 있게 되면 성능이 저하되었습니다. OpenAI와 다른 회사들이 도입한 주요 기능에 대한 질문에서 모델은 원래 문서에 언급되지 않은 Tesla와 Apple에 대한 정보를 잘못 귀속시켰습니다. 이는 모델이 복잡한 질문 라우팅에 여전히 어려움을 겪으며 여러 출처를 결합하려 할 때 허구적인 정보를 생성할 수 있음을 시사합니다.

질문 분해 작업에서 모델의 성능이 더 좋았습니다. Meta와 OpenAI에 대한 논의 차이에 관한 복잡한 질문이 제시되었을 때 모델은 이를 세 개의 하위 질문으로 분해하고 각각에 대한 관련 정보를 검색한 다음 최종 응답을 종합할 수 있었습니다. 생성된 하위 질문은 논리적이었고 전체 답변은 두 회사를 합리적으로 비교했습니다.

요약하면, 모델은 기본적인 질문 라우팅 기능에서 약간의 가능성을 보여주지만 여러 출처의 정보를 결합해야 하는 더 복잡한 질문에서는 성능이 저하됩니다. 질문 분해 능력은 더 강력하여 복잡한 질문을 효과적으로 분해하고 다룰 수 있음을 보여줍니다. 그러나 실제 사용 사례에서 모델의 잠재력을 완전히 활용하려면 추가적인 개선이 필요할 것 같습니다.

에이전트 및 수학적 연산

Retrieval-Augmented Generation(RAG) 모델에 대한 테스트 결과는 모델의 기능과 한계에 대한 몇 가지 흥미로운 통찰을 제공합니다:

  1. 단순 RAG 질문: 모델은 단순한 RAG 질문에 대해 합리적으로 잘 수행하며, 문서에 있는 정보를 바탕으로 정확한 응답을 제공합니다.

  2. 복잡한 RAG 질문: 서로 다른 문서 조각에 걸쳐 상충되는 정보가 포함된 더 복잡한 질문에 직면하면 모델이 어려움을 겪고 허구적인 정보를 생성하거나 잘못 분류하는 경향이 있습니다.

  3. 질문 라우팅: 모델은 질문에 따라 관련 벡터 저장소를 선택할 수 있는 질문 라우팅 기능을 보여줍니다. 이는 모델이 다양한 정보 소스의 메타데이터와 기능을 이해할 수 있음을 시사합니다.

  4. 질문 분해: 모델은 복잡한 질문을 하위 질문으로 분해하고 개별적으로 정보를 검색한 다음 결과를 결합할 수 있습니다. 이는 모델의 복잡한 정보 요구 처리 능력에 대한 가능성을 보여줍니다.

  5. 에이전트 오케스트레이션: 에이전트 기반 프레임워크에서 테스트할 때 모델의 기능이 제한적이었습니다. 특히 수학 연산을 포함한 더 복잡한 작업에서 제공된 도구를 효과적으로 활용하지 못했습니다. 모델은 자체적으로 계산을 수행하는 것을 선호하는 것 같습니다.

  6. 수학 연산: 흥미롭게도 모델은 제공된 도구를 활용하지 않고 자체적으로 간단한 수학 연산을 수행하는 데 더 능숙한 것으로 보입니다. 이는 모델이 일부 내재적인 수학적 추론 기능을 가지고 있음을 시사합니다.

전반적으로 결과는 RAG 모델이 단순한 정보 검색 및 질문 라우팅과 같은 특정 응용 프로그램에서 잠재력을 가지고 있음을 보여줍니다. 그러나 복잡한 작업, 상충되는 정보 처리, 에이전트 오케스트레이션 등의 측면에서는 성능이 제한적입니다. 모델의 추론 능력과 외부 도구와의 통합을 개선하면 실제 사용 사례에서 모델의 기능을 더 잘 활용할 수 있을 것입니다.

결론

Pi 3 소형 언어 모델은 벤치마크에서 인상적이지만 실용적인 사용 사례에서는 일부 제한이 있습니다.

단순한 검색 작업의 경우 모델은 합리적으로 잘 수행하여 문서에서 관련 정보를 압축하여 정확한 응답을 제공할 수 있습니다. 그러나 서로 다른 문서 조각에 걸쳐 상충되는 정보가 포함된 더 복잡한 질문에 직면하면 모델이 어려움을 겪고 허구적인 정보를 혼합하는 경향이 있습니다.

모델의 질문 라우팅 기능은 약간의 가능성을 보여줍니다. 제공된 설명을 바탕으로 적절한 벡터 저장소를 선택할 수 있었습니다. 이는 모델이 다양한 정보 소스의 맥락과 목적을 이해할 수 있음을 시사합니다. 그러나 더 복잡한 질문 분해 작업에서는 모델의 성능이 여전히 제한적입니다.

에이전트 오케스트레이션 측면에서 모델의 성과는 혼합적입니다. 단순한 질문은 도구 없이 처리할 수 있지만, 더 복잡한 수학 연산의 경우 제공된 도구를 활용하기보다는 자체적으로 계산을 수행하려 하며, 때로는 부정확한 결과를 얻습니다.

전반적으로 Pi 3 소형 언어 모델은 특정 영역에서 기능을 보여주지만, 복잡하고 다면적인 질문과 작업을 다룰 때 한계가 드러납니다. 허구적 정보 완화와 강력한 추론 등의 분야에서 추가적인 발전이 필요하여 실용적인 응용 프로그램에서 모델의 완전한 잠재력을 발휘할 수 있을 것입니다.

자주하는 질문