A nova teoria da AWS sobre o design de um mecanismo automatizado de avaliação de RAG pode não apenas facilitar o desenvolvimento de aplicativos generativos baseados em IA, mas também ajudar as empresas a reduzir gastos com infraestrutura de computação.
RAG ou geração aumentada de recuperação é uma das várias técnicas usadas para lidar com alucinações, que são respostas arbitrárias ou sem sentido geradas por grandes modelos de linguagem (LLMs) quando aumentam em complexidade.
O RAG fundamenta o LLM alimentando os fatos do modelo a partir de uma fonte de conhecimento externo ou repositório para melhorar a resposta a uma consulta específica.
Existem outras maneiras de lidar com alucinações, como ajuste fino e engenharia rápida, mas o analista principal da Forrester, Charlie Dai, destacou que o RAG se tornou uma abordagem crítica para empresas reduzirem alucinações em LLMs e impulsionarem resultados comerciais a partir de IA generativa.
No entanto, Dai destacou que os pipelines RAG exigem uma variedade de blocos de construção e práticas de engenharia substanciais, e as empresas estão cada vez mais buscando abordagens de avaliação robustas e automatizadas para acelerar suas iniciativas RAG, razão pela qual o novo artigo da AWS pode interessar às empresas.
A abordagem definida pelos pesquisadores da AWS no artigo pode ajudar as empresas a criar soluções mais eficientes e econômicas em torno do RAG, que não dependam de esforços dispendiosos de ajuste fino, fluxos de trabalho ineficientes do RAG e excesso de aprendizado no contexto (ou seja, maximizar grandes janelas de contexto), disse o analista-chefe da Omdia, Bradley Shimmin.
O que é o mecanismo de avaliação automatizada de RAG da AWS?
O artigo intitulado “Avaliação automatizada de modelos de linguagem aumentada por recuperação com geração de exames específicos para tarefas”, que será apresentado na conferência ICML 2024 em julho, propõe um processo automatizado de geração de exames, aprimorado pela teoria de resposta ao item (TRI), para avaliar a precisão factual dos modelos RAG em tarefas específicas.
A teoria da resposta ao item, também conhecida como teoria da resposta latente, é geralmente usada em psicometria para determinar a relação entre características não observáveis e observáveis, como resultados ou respostas, com a ajuda de uma família de modelos matemáticos.
A avaliação do RAG, de acordo com pesquisadores da AWS, é realizada por meio de pontuação em um exame sintético gerado automaticamente, composto por questões de múltipla escolha baseadas no corpus de documentos associados a uma tarefa específica.
“Aproveitamos a Teoria de Resposta ao Item para estimar a qualidade de um exame e sua informatividade na precisão específica da tarefa. A TRI também fornece uma maneira natural de melhorar iterativamente o exame, eliminando as questões do exame que não são suficientemente informativas sobre a capacidade de um modelo”, disseram os pesquisadores.
O novo processo de avaliação do RAG foi testado em quatro novas tarefas abertas de perguntas e respostas com base em resumos do Arxiv, perguntas do StackExchange, guias de solução de problemas do AWS DevOps e registros da SEC, eles explicaram, acrescentando que os experimentos revelaram insights mais gerais sobre fatores que impactam o desempenho do RAG, como tamanho, mecanismo de recuperação, solicitação e ajuste fino.
Abordagem promissora
A abordagem discutida no artigo da AWS tem vários pontos promissores, incluindo o enfrentamento do desafio de pipelines especializados que exigem testes especializados, de acordo com o especialista em IA da empresa de segurança de dados Immuta, Joe Regensburger.
“Isso é essencial, pois a maioria dos pipelines dependerá de LLMs comerciais ou de código aberto prontos para uso. Esses modelos não terão sido treinados em conhecimento específico de domínio, então os conjuntos de teste convencionais não serão úteis”, explicou Regensburger.
No entanto, Regensburger ressaltou que, embora a abordagem seja promissora, ela ainda precisará evoluir na parte de geração do exame, pois o maior desafio não é gerar uma pergunta ou a resposta apropriada, mas sim gerar perguntas de distração suficientemente desafiadoras.
“Processos automatizados, em geral, lutam para rivalizar com o nível de perguntas geradas por humanos, particularmente em termos de perguntas de distração. Como tal, é o processo de geração de distração que poderia se beneficiar de uma discussão mais detalhada”, disse Regensburger, comparando as perguntas geradas automaticamente com as perguntas geradas por humanos definidas nos exames AP (advanced placement).
As questões nos exames AP são definidas por especialistas na área que continuam definindo, revisando e iterando questões ao preparar o exame, de acordo com Regensburger.
É importante ressaltar que já existem sondas baseadas em exames para LLMs. “Uma parte da documentação do ChatGPT mede o desempenho do modelo em relação a uma bateria de testes padronizados”, disse Regensburger, acrescentando que o artigo da AWS estende a premissa da OpenAI ao sugerir que um exame poderia ser gerado em relação a bases de conhecimento especializadas, geralmente privadas.
“Em teoria, isso avaliará como um pipeline RAG poderia generalizar para conhecimento novo e especializado.”
Ao mesmo tempo, Shimmin, da Omdia, destacou que vários fornecedores, incluindo AWS, Microsoft, IBM e Salesforce, já oferecem ferramentas ou estruturas focadas em otimizar e aprimorar implementações de RAG, desde ferramentas básicas de automação, como o LlamaIndex, até ferramentas avançadas, como o recém-lançado GraphRAG da Microsoft.
RAG otimizado vs modelos de linguagem muito grandes
A escolha dos algoritmos de recuperação corretos geralmente leva a maiores ganhos de desempenho do que simplesmente usar um LLM maior, sendo que esta última abordagem pode ser custosa, apontaram os pesquisadores da AWS no artigo.
Embora avanços recentes como o “cache de contexto” com o Google Gemini Flash facilitem para as empresas evitar a necessidade de criar processos complexos e meticulosos de tokenização, fragmentação e recuperação como parte do pipeline RAG, essa abordagem pode exigir um alto custo na inferência de recursos de computação para evitar latência, disse Shimmin da Omdia.
“Técnicas como a Teoria de Resposta ao Item da AWS prometem ajudar com um dos aspectos mais complicados do RAG, medindo a eficácia das informações recuperadas antes de enviá-las ao modelo”, disse Shimmin, acrescentando que com essas otimizações prontas, as empresas podem otimizar melhor sua sobrecarga de inferência enviando as melhores informações para um modelo em vez de jogar tudo no modelo de uma vez.
Por outro lado, o tamanho do modelo é apenas um fator que influencia o desempenho dos modelos de fundação, disse Dai, da Forrester.
“As empresas devem adotar uma abordagem sistemática para avaliação do modelo de base, abrangendo capacidades técnicas (modalidade do modelo, desempenho do modelo, alinhamento do modelo e adaptação do modelo), capacidades de negócios (suporte de código aberto, custo-benefício e disponibilidade local) e capacidades do ecossistema (engenharia rápida, suporte RAG, suporte de agente, plugins e APIs e ModelOps)”, explicou Dai.