Mở khóa Khả năng AI Mạnh mẽ với Qwen-Agent: Gọi Hàm, Trình Thông Dịch Mã, và RAG

Mở khóa các khả năng AI mạnh mẽ với Qwen-Agent, một khuôn khổ đa tác nhân nguồn mở tích hợp Qwen 2 LLM để gọi hàm, diễn giải mã và tạo ra nội dung được tăng cường truy xuất. Khám phá cách nó vượt trội hơn RAG và các mô hình ngữ cảnh dài bản địa.

18 tháng 10, 2024

party-gif

Mở khóa sức mạnh của trí tuệ nhân tạo với Qwen-Agent, một khuôn khổ đa tác nhân tiên tiến giúp tích hợp mô hình ngôn ngữ lớn Qwen 2 một cách mượt mà. Khám phá cách các khả năng của khuôn khổ này, bao gồm gọi hàm, diễn giải mã và tạo ra được tăng cường bằng truy xuất, có thể nâng cao các dự án của bạn được điều khiển bởi trí tuệ nhân tạo lên những tầm cao mới.

Khung Đa Tác Nhân Mạnh Mẽ: Gọi Hàm, Trình Thông Dịch Mã, và RAG

Quen Agent là một khung công tác tác nhân AI mới và nâng cao được xây dựng trên nền tảng mô hình ngôn ngữ lớn Quen 2. Nó tích hợp nhiều khả năng mạnh mẽ, bao gồm gọi hàm, trình thông dịch mã, tạo ra tổng hợp được tăng cường bằng truy xuất (RAG) và một tiện ích mở rộng Chrome.

Khung công tác này nhằm mục đích tạo ra các tác nhân AI tinh vi có thể vượt trội hơn các hệ thống đa tác nhân khác. Một trong những tính năng chính của Quen Agent là khả năng xử lý các nhiệm vụ phức tạp với kích thước ngữ cảnh lớn. Khung công tác này đã có thể hiểu các tài liệu có đến 1 triệu token, vượt qua hiệu suất của RAG và các mô hình ngữ cảnh dài bản địa.

Quen Agent sử dụng một phương pháp bốn bước để tổng quát hóa mô hình ngôn ngữ lớn từ kích thước ngữ cảnh 8K lên đến một triệu token:

  1. Mô hình ban đầu: Khung công tác bắt đầu với một mô hình trò chuyện ngữ cảnh 8K yếu.
  2. Phát triển tác nhân: Mô hình được sử dụng để xây dựng một tác nhân tương đối mạnh có thể xử lý ngữ cảnh 1 triệu token.
  3. Tổng hợp dữ liệu: Tác nhân được sử dụng để tổng hợp dữ liệu tinh chỉnh chất lượng cao, với lọc tự động để đảm bảo chất lượng.
  4. Tinh chỉnh mô hình: Dữ liệu tổng hợp được sử dụng để tinh chỉnh một mô hình được huấn luyện trước, dẫn đến một chatbot 1 triệu token mạnh mẽ.

Tạo Dữ Liệu để Huấn Luyện Các Mô Hình Quin Bối Cảnh Dài Mới

Tác nhân Quin được sử dụng để tạo ra dữ liệu để huấn luyện các mô hình Quin ngữ cảnh dài mới. Đây là một thành tựu đáng kể, vì việc chuẩn bị dữ liệu tinh chỉnh đủ dài đã là một thách thức trong nghiên cứu về các mô hình ngôn ngữ lớn có thể xử lý chuỗi hàng triệu token một cách bản địa.

Phương pháp được sử dụng bởi tác nhân Quin bao gồm bốn bước:

  1. Mô hình ban đầu: Quá trình bắt đầu với một mô hình trò chuyện ngữ cảnh 8K yếu làm mô hình ban đầu.

  2. Phát triển tác nhân: Trong giai đoạn này, tác nhân Quin được sử dụng để xây dựng một tác nhân tương đối mạnh có thể xử lý 1 triệu ngữ cảnh.

  3. Tổng hợp dữ liệu: Sau đó, tác nhân được sử dụng để tổng hợp dữ liệu tinh chỉnh, với lọc tự động để đảm bảo chất lượng.

  4. Tinh chỉnh mô hình: Cuối cùng, dữ liệu tổng hợp được sử dụng để tinh chỉnh một mô hình được huấn luyện trước, dẫn đến một chatbot ngữ cảnh 1 triệu mạnh mẽ.

Xây Dựng Tác Nhân: Ba Cấp Độ Phức Tạp

Quá trình xây dựng tác nhân bao gồm ba cấp độ phức tạp, mỗi cấp độ được xây dựng dựa trên cấp độ trước:

  1. Tạo ra tổng hợp được tăng cường bằng truy xuất:

    • Đây là một phương pháp đơn giản xử lý độ dài ngữ cảnh 1 triệu.
    • Nó sử dụng thuật toán RAG (Tạo ra tổng hợp được tăng cường bằng truy xuất).
    • Nó chia ngữ cảnh thành các khối ngắn hơn, mỗi khối không vượt quá 512 token.
    • Nó chỉ giữ lại các khối liên quan nhất trong ngữ cảnh 8K.
    • Nó có ba bước phụ:
      • Tách chỉ dẫn và thông tin: Phân biệt giữa phần chỉ dẫn và không phải chỉ dẫn của truy vấn người dùng.
      • Trích xuất từ khóa: Suy ra các từ khóa đa ngôn ngữ từ phần thông tin của truy vấn.
      • Truy xuất các khối liên quan: Sử dụng thuật toán BM25 để tìm vị trí các khối liên quan nhất.
  2. Đọc từng khối:

    • Phương pháp này giải quyết các hạn chế của phương pháp RAG, có thể bỏ qua các khối liên quan nếu chúng không khớp với từ khóa trong truy vấn.
    • Nó bao gồm ba bước:
      • Đánh giá mức độ liên quan: Một mô hình kiểm tra từng khối 512 token xem có liên quan đến truy vấn hay không.
      • Truy xuất các khối: Các câu liên quan được sử dụng để truy xuất các khối liên quan nhất trong giới hạn 8K ngữ cảnh, sử dụng thuật toán BM25.
      • Tạo ra câu trả lời: Câu trả lời cuối cùng được tạo ra dựa trên ngữ cảnh đã truy xuất, tương tự như phương pháp RAG.
  3. Lập luận từng bước:

    • Phương pháp này được sử dụng cho việc trả lời câu hỏi dựa trên tài liệu, nơi cần lập luận đa bước.
    • Nó sử dụng các tác nhân gọi công cụ, có nhiều loại công cụ khác nhau, chẳng hạn như "Hỏi tác nhân LV3 một câu hỏi", "Câu hỏi phụ", "Cập nhật bộ nhớ" và nhiều hơn nữa.
    • Phương pháp này cho phép mô hình tăng ngữ cảnh lên 1 triệu token và cải thiện chất lượng của các chức năng khác nhau.

Tạo Lại Tăng Cường Tạo Tác (RAG)

Cấp độ đầu tiên của quá trình xây dựng tác nhân bao gồm một phương pháp Tạo ra tổng hợp được tăng cường bằng truy xuất (RAG). Đây là một phương pháp đơn giản đã được thấy nhiều lần trước đây. Nó xử lý một ngữ cảnh 1 triệu và sử dụng thuật toán RAG.

Quá trình bao gồm:

  1. Chia ngữ cảnh: Ngữ cảnh được chia thành các khối ngắn hơn, mỗi khối không vượt quá 512 token.
  2. Giữ lại các khối liên quan: Chỉ giữ lại các khối liên quan nhất trong ngữ cảnh 8K.
  3. Tách biệt hóa chỉ dẫn: Một chỉ dẫn thông tin riêng biệt được sử dụng để phân biệt giữa phần chỉ dẫn và không phải chỉ dẫn của các truy vấn người dùng. Ví dụ, chuyển đổi truy vấn "Bạn nên trả lời trong 2.000 từ và nó nên chi tiết nhất có thể. Câu hỏi của tôi là khi nào xe đạp được phát minh?" thành một cấu trúc lời nhắc.
  4. Trích xuất từ khóa: Mô hình có thể suy ra các từ khóa đa ngôn ngữ từ phần thông tin của truy vấn.
  5. Truy xuất các khối liên quan: Thuật toán BM25, một phương pháp truy xuất dựa trên từ khóa truyền thống, được sử dụng để tìm vị trí các khối liên quan nhất.

Đọc Từng Khối

Cấp độ thứ hai của quá trình xây dựng tác nhân là phương pháp "Đọc từng khối". Các nhà nghiên cứu nhận thấy rằng phương pháp RAG (Tạo ra tổng hợp được tăng cường bằng truy xuất) ban đầu khá nhanh, nhưng có thể bỏ qua các khối liên quan nếu chúng không khớp với từ khóa trong truy vấn. Để giải quyết vấn đề này, họ đã giới thiệu một chiến lược vũ nhục hơn với ba bước:

  1. Đánh giá mức độ liên quan: Một mô hình kiểm tra từng khối 512 token xem có liên quan đến truy vấn hay không.
  2. Truy xuất các khối: Các câu liên quan từ truy vấn được sử dụng để truy xuất các khối liên quan nhất trong giới hạn 8K ngữ cảnh, sử dụng thuật toán BM25.
  3. Tạo ra câu trả lời: Câu trả lời cuối cùng được tạo ra dựa trên ngữ cảnh đã truy xuất, tương tự như phương pháp RAG.

Phương pháp Đọc từng khối này cẩn thận hơn trong việc đảm bảo rằng thông tin liên quan không bị bỏ qua, ngay cả khi nó không khớp với các từ khóa chính xác trong truy vấn. Bằng cách kiểm tra từng khối một và sau đó truy xuất những khối liên quan nhất, tác nhân có thể xây dựng một hiểu biết toàn diện hơn về ngữ cảnh để tạo ra câu trả lời chất lượng cao.

Lý Luận Từng Bước với Các Tác Nhân Gọi Công Cụ

Trong khung công tác Quen Agent, phương pháp lập luận từng bước được sử dụng để giải quyết thách thức của việc trả lời câu hỏi dựa trên tài liệu, nơi mô hình cần thực hiện lập luận đa bước để đưa ra câu trả lời chính xác.

Các khía cạnh chính của phương pháp này là:

  1. Nhiều tác nhân công cụ: Khung công tác sử dụng nhiều tác nhân công cụ chuyên biệt, chẳng hạn như "Hỏi tác nhân LV3 một câu hỏi", "Câu hỏi phụ", "Cập nhật bộ nhớ" và các loại khác. Các tác nhân này có thể được gọi để thực hiện các bước lập luận cụ thể.

  2. Lập luận lặp đi lặp lại: Tác nhân bắt đầu với câu hỏi ban đầu và chia nó thành các câu hỏi phụ. Sau đó, nó gọi các tác nhân công cụ phù hợp để thu thập thông tin cần thiết, cập nhật bộ nhớ nội bộ và cuối cùng tạo ra câu trả lời.

  3. Mở rộng ngữ cảnh: Bằng cách sử dụng các tác nhân công cụ, tác nhân có thể mở rộng ngữ cảnh vượt quá giới hạn 8K token ban đầu, cho phép nó xử lý các câu hỏi yêu cầu thông tin từ một tập hợp tài liệu lớn hơn.

Phương pháp lập luận từng bước này cho phép Quen Agent giải quyết các câu hỏi phức tạp, đa bước mà các mô hình tạo ra tổng hợp được tăng cường bằng truy xuất truyền thống sẽ gặp khó khăn. Khả năng gọi các công cụ chuyên biệt và thực hiện lập luận lặp đi lặp lại cho phép tác nhân phân chia vấn đề, thu thập thông tin liên quan và đưa ra câu trả lời chính xác và toàn diện hơn.

Thử Nghiệm và Cải Thiện Hiệu Suất

Khung công tác tác nhân Quin đã chứng minh được khả năng ấn tượng trong việc xử lý các nhiệm vụ phức tạp với đầu vào ngữ cảnh dài. Thông qua một loạt các thử nghiệm, các nhà phát triển đã trình bày những cải thiện hiệu suất đáng kể đạt được bởi khung công tác tác nhân mới này.

Một trong những tiến bộ chính là khả năng tổng quát hóa mô hình ngôn ngữ lớn từ k

Câu hỏi thường gặp