Lås upp kraftfulla AI-funktioner med Qwen-Agent: Funktionsanrop, kodtolkare och RAG

Lås upp kraftfulla AI-funktioner med Qwen-Agent, ett öppet källkods-multiagentramverk som integrerar Qwen 2 LLM för funktionsanrop, kodtolkning och hämtad förstärkt generering. Upptäck hur den överträffar RAG och inbyggda långkontextmodeller.

18 oktober 2024

party-gif

Lås upp kraften i AI med Qwen-Agent, en banbrytande multi-agent-ram som sömlöst integrerar den avancerade Qwen 2-språkmodellen. Upptäck hur ramverkets funktioner, inklusive funktionsanrop, kodtolkning och hämtningsförstärkt generering, kan lyfta dina AI-drivna projekt till nya höjder.

Kraftfull Multi-Agent-ram: Funktionsanrop, Kodtolkare och RAG

Quen-agenten är ett nytt och avancerat AI-agentramverk som bygger på Quen 2-modellen för stora språkmodeller. Den integrerar flera kraftfulla funktioner, inklusive funktionsanrop, kodtolkare, hämtningsförstärkt generering (RAG) och ett Chrome-tillägg.

Detta ramverk syftar till att skapa sofistikerade AI-agenter som kan överträffa andra multiagentsystem. En av de viktigaste funktionerna hos Quen-agenten är dess förmåga att hantera komplexa uppgifter med en stor kontextstorlek. Ramverket har kunnat förstå dokument med upp till 1 miljon tokens, vilket överträffar prestandan hos RAG och inbyggda modeller med lång kontext.

Quen-agenten använder en fyrstegansprocess för att generalisera den stora språkmodellen från en 8K-kontextstorlek till en miljontokenskontext:

  1. Initialmodell: Ramverket börjar med en svag 8K-kontextchattmodell.
  2. Agentutveckling: Modellen används för att bygga en relativt stark agent som kan hantera 1 miljontokenskontext.
  3. Datasyntes: Agenten används för att syntetisera högkvalitativ finslipningsdata, med automatiserad filtrering för att säkerställa kvaliteten.
  4. Modellfinslipning: Den syntetiska datan används för att finjustera en förträningsmall, vilket resulterar i en stark 1 miljontokenschattbot.

Generera data för träning av nya Quin-modeller med lång kontext

Quin-agenten användes för att generera data för träning av nya Quin-modeller med lång kontext. Detta är en betydande prestation, eftersom förberedelse av tillräckligt långa finslipningsdata har varit en utmaning i forskningen om stora språkmodeller som kan bearbeta sekvenser på miljontals tokens på ett naturligt sätt.

Den metod som används av Quin-agenten involverar en fyrstegansprocess:

  1. Initialmodell: Processen börjar med en svag 8K-kontextchattmodell som initialmodell.

  2. Agentutvekling: I denna fas används Quin-agenten för att bygga en relativt stark agent som kan hantera 1 miljon kontext.

  3. Datasyntes: Agenten används sedan för att syntetisera finslipningsdatan, med automatiserad filtrering för att säkerställa kvaliteten.

  4. Modellfinslipning: Slutligen används den syntetiska datan för att finjustera en förträningsmall, vilket resulterar i en stark 1 miljontokenschattbot.

Bygga agenten: Tre nivåer av komplexitet

Agentbygget består av tre komplexitetsnivåer, där varje nivå bygger på den föregående:

  1. Hämtningsförstärkt generering:
    • Detta är en enkel metod som bearbetar en kontextstorlek på 1 miljon.
    • Den använder RAG-algoritmen (Retrieval Augmented Generation).
    • Den delar upp kontexten i kortare segment, där varje segment inte överskrider 512 tokens.
    • Den behåller endast de mest relevanta segmenten inom 8K-kontexten.
    • Den har tre delsteg:
      • Separera instruktion och information: Skiljer mellan instruktions- och informationsdelarna av användarfrågan.
      • Extrahera nyckelord: Härleder flerspråkiga nyckelord från informationsdelen av frågan.
      • Hämta relevanta segment: Använder BM25-algoritmen för att hitta de mest relevanta segmenten.

Hämtningsförstärkt generering (RAG)

Den första nivån av agentbygget består av en Hämtningsförstärkt generering (RAG)-metod. Detta är en enkel metod som har setts många gånger tidigare. Den bearbetar en kontextstorlek på 1 miljon och använder RAG-algoritmen.

Processen innefattar:

  1. Delning av kontext: Kontexten delas upp i kortare segment, där varje segment inte överskrider 512 tokens.
  2. Behålla relevanta segment: Endast de mest relevanta segmenten inom 8K-kontexten behålls.
  3. Separat instruktionsomvandling: En separat informationsinstruktion används för att skilja mellan instruktions- och icke-instruktionsdelarna av användarfrågorna. Till exempel att omvandla frågan "Du bör svara på 2 000 ord och det bör vara så detaljerat som möjligt. Min fråga är när cyklar uppfanns?" till en promptstruktur.
  4. Nyckelordextraktion: Modellen kan härleda flerspråkiga nyckelord från informationsdelen av frågan.
  5. Hämtning av relevanta segment: BM25-algoritmen, en traditionell nyckelordsbaserad hämtningsmetod, används för att hitta de mest relevanta segmenten.

Läsning stycke för stycke

Den andra nivån av agentbygget är "Segment för segment-läsning"-metoden. Forskarna fann att den ursprungliga RAG-metoden (Hämtningsförstärkt generering) var ganska snabb, men den kunde missa relevanta segment om de inte matchade ett nyckelord i frågan. För att åtgärda detta introducerade de en mer brutalkraftig strategi med tre steg:

  1. Bedöm relevans: En modell som kontrollerar varje 512-tokensegment för dess relevans för frågan.
  2. Hämtning av segment: De relevanta meningarna från frågan används för att hämta de mest relevanta segmenten inom 8K-kontextgränsen, med hjälp av BM25-algoritmen.
  3. Svarsgeneration: Det slutliga svaret genereras baserat på den hämtade kontexten, liknande RAG-metoden.

Steg-för-steg-resonemang med verktygsanropande agenter

I Quen-agentramverket används steg-för-steg-resoneringsmetoden för att hantera utmaningen med dokumentbaserad frågebesvarande, där modellen behöver utföra flerstegstänkande för att komma fram till det korrekta svaret.

De viktiga aspekterna av denna metod är:

  1. Flera verktygsagenter: Ramverket använder flera specialiserade verktygsagenter, som "Ställ en fråga till LV3-agenten", "Delfrågor", "Uppdatera minne" och andra. Dessa agenter kan anropas för att utföra specifika resoneringsteg.

  2. Iterativt resonerande: Agenten börjar med den ursprungliga frågan och delar upp den i delfrågor. Den anropar sedan lämpliga verktygsagenter för att samla in nödvändig information, uppdatera sitt interna minne och slutligen generera svaret.

  3. Kontextutökning: Genom att utnyttja verktygsagenterna kan agenten utöka kontexten utöver den ursprungliga 8K-tokengränsen, vilket gör det möjligt att hantera frågor som kräver information från en större dokumentsamling.

Experiment och prestandaförbättringar

Quin-agentramverket har visat imponerande förmågor när det gäller att hantera komplexa uppgifter med långa kontextindata. Genom en serie experiment har utvecklarna visat de betydande prestandaförbättringar som uppnåtts med detta nya agentramverk.

En av de viktiga framstegen är förmågan att generalisera den stora språkmodellen från en 8K-kontextstorlek till en miljontokenskontext. Detta uppnåddes genom att utnyttja Quin-agentens flernivåmetod, som inkluderar hämtningsförstärkt generering, segment för segment-läsning och steg-för-steg-resonering.

Experimenten har visat att Quin-agenten kan överträffa traditionella RAG-algoritmer (Retrieval-Augmented Generation) och inbyggda modeller med lång kontext i olika förmågor. Detta inkluderar kvaliteten på de genererade svaren, förmågan att förstå och resonera kring långsiktiga dokument och den övergripande prestandan på dokumentbaserade frågebesvaringsuppgifter.

Kom igång med Quin-agent

Hej allihopa, välkomna tillbaka till en annan YouTube-video på World of AI. I dagens video kommer vi att titta på Quin Agent, ett nytt ramverk byggt på Quin 2-modellen för stora språkmodeller. Detta ramverk integrerar avancerade funktioner som funktionsanrop, kodtolkare, hämtningsförstärkt generering och ett Chrome-tillägg.

För att komma igång med Quin Agent måste du först gå till Pi-webbplatsen, som jag kommer att lämna en länk till i beskrivningen nedan. Därifrån kan du installera agentramverket på din dator. När du har installerat det kan du sedan börja förbereda modellservicerna och distribuera dina egna agenter med hjälp av de självstudier de tillhandahåller.

En av de viktigaste funktionerna hos Quin Agent är dess förmåga att utnyttja den nya Quin 2-modellen, vilket är syftet med den här videon. Denna nya modell är otroligt kraftfull och anses vara det bästa öppna AI-agentramverket som finns. Den kan hantera komplexa uppgifter mycket väl, och det som är verkligen imponerande är att de lyckades generalisera den stora språkmodellen från en 8K-kontext till en miljon tokens, vilket överträffar prestandan hos RAG och inbyggda modeller med lång kontext.

FAQ