As limitações do ajuste fino do modelo e RAG

O entusiasmo e a admiração em torno da IA generativa diminuíram até certo ponto. Grandes modelos de linguagem (LLMs) “generalistas”, como GPT-4, Gemini (anteriormente Bard) e Llama, criam frases que parecem inteligentes, mas sua escassa experiência de domínio, alucinações, falta de inteligência emocional e esquecimento dos eventos atuais podem levar a surpresas terríveis. A IA generativa superou nossas expectativas até que precisávamos que ela fosse confiável, e não apenas divertida.

Em resposta, surgiram LLMs de domínios específicos, com o objetivo de fornecer respostas mais credíveis. Esses “especialistas” em LLM incluem LEGAL-BERT para direito, BloombergGPT para finanças e Med-PaLM do Google Research para medicina. A questão em aberto na IA é qual a melhor forma de criar e implantar esses especialistas. A resposta pode ter ramificações para o negócio de IA generativa, que até agora é espumoso com avaliações, mas sem lucros devido aos custos monumentais de desenvolvimento de LLMs tanto generalistas como especializados.

Para especializar LLMs, os desenvolvedores de IA geralmente contam com duas técnicas principais: ajuste fino e geração aumentada de recuperação (RAG). Cada um tem limitações que dificultaram o desenvolvimento de LLMs especializados a um custo razoável. No entanto, essas limitações informaram novas técnicas que podem mudar a forma como especializamos os LLMs em um futuro próximo.

Especialização é cara

Hoje, os LLMs com melhor desempenho geral são generalistas, e os melhores especialistas começam como generalistas e depois passam por ajustes finos. O processo é semelhante a passar uma especialização em humanidades por meio de uma pós-graduação STEM. E, assim como os programas de pós-graduação, o ajuste fino é demorado e caro. Continua a ser um ponto de estrangulamento no desenvolvimento da IA generativa porque poucas empresas têm os recursos e o conhecimento para construir generalistas de altos parâmetros a partir do zero.

Pense em um LLM como uma grande bola de números que encapsula as relações entre palavras, frases e sentenças. Quanto maior o corpus de dados de texto por trás desses números, melhor parece ser o desempenho do LLM. Assim, um LLM com 1 trilhão de parâmetros tende a superar um modelo de 70 bilhões de parâmetros em coerência e precisão.

Para ajustar um especialista, ajustamos a bola de números ou adicionamos um conjunto de números complementares. Por exemplo, para transformar um LLM generalista em um especialista jurídico, poderíamos alimentá-lo com documentos jurídicos juntamente com respostas corretas e incorretas sobre esses documentos. O LLM aprimorado seria melhor para resumir documentos jurídicos e responder perguntas sobre eles.

Como um projeto de ajuste fino com GPUs Nvidia pode custar centenas de milhares de dólares, os LLMs especializados raramente são ajustados mais de uma vez por semana ou mês. Como resultado, eles raramente estão atualizados com os conhecimentos e eventos mais recentes em sua área.

Se houvesse um atalho para a especialização, milhares de empresas poderiam entrar no espaço LLM, levando a mais concorrência e inovação. E se esse atalho tornasse a especialização mais rápida e menos dispendiosa, talvez os LLMs especializados pudessem ser atualizados continuamente. RAG é quase esse atalho, mas também tem limitações.

Aprendendo com RAG

Os LLMs estão sempre um passo atrás do presente. Se inquiríssemos um LLM sobre eventos recentes que ele não viu durante o treinamento, ele se recusaria a responder ou teria alucinações. Se eu surpreendesse uma turma de graduação em ciência da computação com questões de exame sobre um tópico desconhecido, o resultado seria semelhante. Alguns não responderiam e alguns fabricariam respostas que pareciam razoáveis. No entanto, se eu desse aos alunos uma cartilha sobre esse novo assunto no texto do exame, eles poderiam aprender o suficiente para responder corretamente.

Em poucas palavras, isso é RAG. Inserimos um prompt e, em seguida, fornecemos ao LLM informações adicionais e relevantes com exemplos de respostas certas e erradas para aumentar o que ele irá gerar. O LLM não terá tanto conhecimento quanto um colega bem ajustado, mas o RAG pode acelerar um LLM em um muito custo mais baixo do que o ajuste fino.

Ainda assim, vários fatores limitam o que os LLMs podem aprender através do RAG. O primeiro fator é a permissão simbólica. Com os alunos de graduação, eu só conseguia introduzir um determinado número de informações novas em um exame cronometrado, sem sobrecarregá-los. Da mesma forma, os LLMs tendem a ter um limite, geralmente entre 4k e 32k tokens por prompt, o que limita o quanto um LLM pode aprender dinamicamente. O custo de invocar um LLM também é baseado no número de tokens, portanto, ser econômico com o orçamento de tokens é importante para controlar o custo.

O segundo fator limitante é a ordem em que os exemplos de RAG são apresentados ao LLM. Quanto mais cedo um conceito é introduzido no exemplo, mais atenção o LLM lhe dá em geral. Embora um sistema possa reordenar automaticamente os prompts de aumento de recuperação, os limites de token ainda seriam aplicados, forçando potencialmente o sistema a reduzir ou minimizar fatos importantes. Para lidar com esse risco, poderíamos solicitar ao LLM informações ordenadas de três ou quatro maneiras diferentes para verificar se a resposta é consistente. Nesse ponto, porém, obtemos retornos decrescentes sobre nosso tempo e recursos computacionais.

O terceiro desafio é executar o aumento de recuperação de forma que não diminua a experiência do usuário. Se um aplicativo for sensível à latência, o RAG tende a piorar a latência. O ajuste fino, em comparação, tem efeito mínimo na latência. É a diferença entre já saber a informação e ler sobre ela e depois elaborar uma resposta.

Uma opção é combinar técnicas: primeiro ajustar um LLM e depois usar o RAG para atualizar seu conhecimento ou para fazer referência a informações privadas (por exemplo, IP empresarial) que não podem ser incluídas em um modelo disponível publicamente. Enquanto o ajuste fino é permanente, o RAG retreina um LLM temporariamente, o que evita que as preferências e o material de referência de um usuário reconectem todo o modelo de maneira não intencional.

Testar as limitações do ajuste fino e do RAG nos ajudou a refinar a questão em aberto na IA: como podemos especializar LLMs a um custo mais baixo e maior velocidade sem sacrificar o desempenho aos limites de token, problemas de pedidos imediatos e sensibilidade à latência?

Conselho de especialistas

Sabemos que um ponto de estrangulamento na IA generativa é o desenvolvimento económico de LLMs especializados que fornecem respostas fiáveis e de nível especializado em domínios específicos. O ajuste fino e o RAG nos levam até lá, mas a um custo muito alto. Vamos considerar uma solução potencial então. E se pulássemos (a maior parte) o treinamento generalista, especializássemos vários LLMs de parâmetros inferiores e depois aplicássemos o RAG?

Em essência, pegaríamos uma turma de estudantes de artes liberais, reduziríamos seu programa de graduação de quatro anos para um e os enviaríamos para obter diplomas de pós-graduação relacionados. Em seguida, faríamos nossas perguntas a alguns ou a todos os especialistas. Este conselho de especialistas seria menos dispendioso em termos computacionais para criar e operar.

A ideia, em termos humanos, é que cinco advogados com cinco anos de experiência cada um sejam mais confiáveis do que um advogado com 50 anos de experiência. Confiamos que o conselho, embora menos experiente, provavelmente terá gerado uma resposta correta se houver um acordo generalizado entre os seus membros.

Estamos começando a ver experimentos em que vários LLMs especializados colaboram no mesmo prompt. Até agora, eles funcionaram muito bem. Por exemplo, o especialista em código LLM Mixtral usa um modelo de mistura esparsa de especialistas (SMoE) de alta qualidade com oito LLMs separados. Mixtral alimenta qualquer token em dois modelos, o efeito é que existem 46,7 bilhões de parâmetros totais, mas apenas 12,9 bilhões usados por token.

Os conselhos também eliminam a aleatoriedade inerente ao uso de um único LLM. A probabilidade de um LLM ter alucinações é relativamente alta, mas a probabilidade de cinco LLMs terem alucinações ao mesmo tempo é menor. Ainda podemos adicionar RAG para compartilhar novas informações. Se a abordagem do conselho funcionar, as empresas mais pequenas poderão dar-se ao luxo de desenvolver LLMs especializados que superem os especialistas bem afinados e ainda aprendam em tempo real utilizando o RAG.

Para estudantes humanos, a especialização precoce pode ser problemática. O conhecimento generalista é muitas vezes essencial para compreender material avançado e colocá-lo num contexto mais amplo. Os LLMs especializados, entretanto, não teriam responsabilidades cívicas, morais e familiares como os seres humanos. Podemos especializá-los ainda jovens, sem nos estressarmos com as deficiências resultantes.

Um ou muitos

Hoje, a melhor abordagem para treinar um LLM especialista é aprimorar um generalista. O RAG pode aumentar temporariamente o conhecimento de um LLM, mas devido às limitações do token, esse conhecimento adicionado é superficial.

Em breve, poderemos ignorar o treinamento generalista e desenvolver conselhos de LLMs mais especializados e mais eficientes em computação, aprimorados pelo RAG. Não dependeremos mais de LLMs generalistas com habilidades extraordinárias para fabricar conhecimento. Em vez disso, obteremos algo como o conhecimento coletivo de vários jovens estudiosos bem treinados.

Embora devamos ter cuidado ao antropomorfizar LLMs – ou atribuir qualidades de máquina aos humanos – alguns paralelos são dignos de nota. Contar com uma pessoa, fonte de notícias ou fórum para obter nosso conhecimento seria arriscado, assim como depender de um LLM para obter respostas precisas é arriscado.

Por outro lado, fazer brainstorming com 50 pessoas, ler 50 fontes de notícias ou verificar 50 fóruns introduz muito ruído (e trabalho). O mesmo acontece com LLMs. Provavelmente existe um ponto ideal entre um generalista e muitos especialistas. Ainda não sabemos onde está, mas o RAG será ainda mais útil quando encontrarmos esse equilíbrio.

Jignesh Patel é cofundador do DataChat e professor da Carnegie Mellon University.

–

Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].