Google Gemma-2: Insights Técnicos e Avanços em Modelos de Linguagem em Larga Escala

Descubra os insights técnicos e avanços por trás dos modelos de linguagem Gemma-2 da Google. Explore a arquitetura, técnicas de treinamento e benchmarks de desempenho que fazem com que esses grandes modelos de linguagem se destaquem. Obtenha uma compreensão mais profunda dos avanços neste campo.

6 de outubro de 2024

Desbloqueie o poder dos últimos avanços em modelos de linguagem com a imersão técnica no relatório Gemma 2. Descubra como a abordagem inovadora da Google para a destilação de conhecimento e os aprimoramentos arquitetônicos levaram a um desempenho de ponta em benchmarks acadêmicos e aplicações de chatbot do mundo real. Esta análise abrangente fornece insights valiosos que podem ajudá-lo a aproveitar esses modelos de linguagem de ponta em seus próprios projetos.

Inovações Arquitetônicas na Gemma 2
Conjuntos de Dados de Treinamento Diversos
Destilação de Conhecimento: Melhorando Modelos Menores
Modelo de Prompt e Estrutura de Conversa
Aproveitando os Dados de Chat do LMS para Desempenho Superior
Estudos de Ablação: Validando a Eficácia das Técnicas
Acessando e Usando os Modelos Gemma 2

Inovações Arquitetônicas na Gemma 2

O Gemma 2, o mais recente modelo de linguagem de código aberto do Google, introduz várias inovações arquiteturais que contribuem para seu forte desempenho. O modelo usa uma arquitetura Transformer apenas com decodificador, o que simplifica o design do modelo em comparação com a configuração tradicional de codificador-decodificador.

Uma inovação-chave é o uso de um tamanho de vocabulário grande de 256.000 tokens. Isso permite que o modelo lide com uma ampla gama de tarefas multilíngues, apesar de ser treinado principalmente em dados em inglês. O grande tamanho do vocabulário fornece ao modelo um rico entendimento lexical, permitindo que ele tenha um bom desempenho em diversos domínios linguísticos.

Adicionalmente, a arquitetura do Gemma 2 incorpora várias modificações no design padrão do Transformer. Esses incluem ajustes no mecanismo de atenção, normalização de camada e conexões residuais, que visam melhorar a eficiência e eficácia do modelo. O relatório técnico fornece insights detalhados sobre essas escolhas arquiteturais e seu impacto no desempenho do modelo.

Conjuntos de Dados de Treinamento Diversos

Os modelos Gemini 2 do Google foram treinados em um conjunto diversificado de fontes de dados, incluindo conjuntos de dados públicos internos e externos. Os principais aspectos dos dados de treinamento são:

Prompts de Bate-papo LMS: A equipe usou os prompts (mas não as respostas) do conjunto de dados de bate-papo LMS, um conjunto de dados público de prompts conversacionais. Isso permitiu que os modelos aprendessem com uma ampla gama de cenários conversacionais sem serem influenciados pelas respostas predeterminadas.
Dados Internos: Além dos dados públicos, a equipe também usou fontes de dados internos para o pré-treinamento dos modelos. Isso provavelmente forneceu aos modelos uma base de conhecimento mais ampla e diversificada.
Filtragem de Dados: Todos os dados de treinamento passaram por um rigoroso processo de filtragem para remover conteúdo inseguro ou duplicado. Isso ajudou a garantir que os modelos aprendessem a partir de dados de alta qualidade e curados.

Destilação de Conhecimento: Melhorando Modelos Menores

Um dos principais desafios no treinamento de modelos de linguagem de grande porte é a necessidade de grandes quantidades de dados para ajustá-los efetivamente. Mesmo os modelos menores da família Gemini 2 exigem uma quantidade significativa de dados, com a família Lamda 3 sendo ajustada em até 15 trilhões de tokens, resultando em menos de 1% de melhoria em comparação com os modelos de ponta.

Para abordar esse problema, a equipe do Gemini 2 adotou uma técnica chamada destilação de conhecimento. Essa abordagem envolve o uso de um modelo "professor" maior, como o Gemini 1.5 ou o Colossal-AI, para treinar um modelo "aluno" menor. Em vez de prever diretamente o próximo token, o modelo aluno é treinado para corresponder à distribuição de probabilidade do modelo professor, usando a divergência de Kullback-Leibler (KL) como função de perda.

Esse processo de destilação de conhecimento é aplicado durante as etapas de pré-treinamento e ajuste fino para os modelos Gemini 2 menores de 9 e 2 bilhões de parâmetros. O modelo de 27 bilhões, por outro lado, é treinado do zero sem o uso da destilação de conhecimento.

Modelo de Prompt e Estrutura de Conversa

O modelo Gemini 2 usa um modelo de prompt específico para conversas de uma única vez. A estrutura do prompt é a seguinte:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>

Para uma segunda vez na conversa, o prompt seria anexado como:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>

Os pontos-chave são:

O prompt começa com o token <start_of_conversation>.
O token <user_role> indica a parte do usuário na conversa.
O token <end_of_turn> separa a entrada do usuário e a resposta do modelo.
O token <model_role> indica a parte do modelo na conversa.
O token <end_of_sequence> marca o fim da conversa.

Aproveitando os Dados de Chat do LMS para Desempenho Superior

A abordagem do Google para treinar os modelos Gemma 2 envolveu aproveitar os prompts do conjunto de dados de bate-papo LMS, mas não as respostas reais. Em vez disso, eles usaram o modelo professor para gerar respostas para esses prompts, que foram então usadas para treinar os modelos alunos por meio da destilação de conhecimento.

Essa estratégia tem vários benefícios potenciais:

Evitar Vieses: Ao não usar as respostas predeterminadas do conjunto de dados de bate-papo LMS, o modelo é incentivado a ser mais criativo e flexível em suas saídas, em vez de simplesmente imitar os vieses presentes no conjunto de dados.
Aproveitar a Expertise do Modelo Professor: O modelo professor, que é maior e mais capaz, é usado para gerar respostas de alta qualidade para os prompts de bate-papo LMS. Essas respostas são então usadas para treinar os modelos alunos, permitindo que eles se beneficiem da expertise do professor.

Estudos de Ablação: Validando a Eficácia das Técnicas

Os modelos Gemma 2 estão prontamente disponíveis para uso. A maneira mais fácil de acessá-los é por meio do Google AI Studio, onde os modelos são fornecidos na seção "Modelos". Além disso, os pesos dos modelos também estão disponíveis na plataforma Hugging Face, permitindo que você os integre em sua própria base de código.

Para usar os modelos Gemma 2, você precisará seguir um modelo de prompt específico. O prompt deve começar com tokens especiais, seguidos pelo papel do usuário, o token de fim de turno, o papel do modelo e o token de fim de sequência. Para um segundo turno, você precisará anexar a mesma estrutura de prompt ao final do anterior, garantindo que o token de fim de sequência esteja presente.

Os modelos Gemma 2 vêm em duas versões: o modelo de 9 bilhões de parâmetros e o modelo de 27 bilhões de parâmetros. Ambas as versões estão disponíveis para uso, e você pode escolher a que melhor atender às suas necessidades.

Perguntas frequentes

O que é o Gemma 2?

Como os modelos Gemma 2 se saem em benchmarks?

Por que o Gemma 2 está se saindo bem na arena de chatbots LMS?

O que é destilação de conhecimento e como ela funciona?

Como o Google aplicou a destilação de conhecimento no treinamento dos modelos Gemma 2?

Que outras técnicas de treinamento o Google usou para o Gemma 2?

Como posso usar os modelos Gemma 2?