O Google Cloud está introduzindo um novo conjunto de opções de aterramento que permitirão que as empresas reduzam ainda mais as alucinações em seus aplicativos e agentes baseados em IA generativa.
Os grandes modelos de linguagem (LLMs) que sustentam esses aplicativos e agentes baseados em IA generativa podem começar a produzir saídas ou respostas defeituosas à medida que crescem em complexidade. Essas saídas defeituosas são denominadas alucinações, pois a saída não é fundamentada nos dados de entrada.
A geração aumentada de recuperação (RAG) é uma das várias técnicas usadas para lidar com alucinações: outras são ajustes finos e engenharia imediata. O RAG fundamenta o LLM alimentando os fatos do modelo de uma fonte ou repositório de conhecimento externo para melhorar a resposta a uma consulta específica.
O novo conjunto de opções de aterramento introduzido no serviço de IA e aprendizado de máquina do Google Cloud, o Vertex AI, inclui recuperação dinâmica, um modo de “alta fidelidade” e aterramento com conjuntos de dados de terceiros, todos os quais podem ser vistos como expansões dos recursos do Vertex AI revelados em sua conferência anual Cloud Next em abril.
Recuperação dinâmica para equilibrar custo e precisão
O novo recurso de recuperação dinâmica, que em breve será oferecido como parte do recurso da Vertex AI para aterrar LLMs na Pesquisa Google, busca encontrar um equilíbrio entre eficiência de custos e qualidade de resposta, de acordo com o Google.
À medida que fundamentar LLMs na Pesquisa Google gera custos de processamento adicionais para as empresas, a recuperação dinâmica permite que a Gemini escolha dinamicamente se fundamentará as consultas do usuário final na Pesquisa Google ou usará o conhecimento intrínseco dos modelos, Burak Gokturk, gerente geral de IA em nuvem do Google. Cloud, escreveu em uma postagem no blog.
A escolha é deixada para Gêmeos, já que todas as dúvidas podem não precisar de fundamentação, explicou Gokturk, acrescentando que o conhecimento de treinamento de Gêmeos é muito capaz.
Gemini, por sua vez, toma a decisão de basear uma consulta na Pesquisa Google segregando qualquer solicitação ou consulta em três categorias com base em como as respostas podem mudar ao longo do tempo: nunca mudando, mudando lentamente e mudando rapidamente.
Isso significa que se fosse feita uma pergunta ao Gemini sobre um filme recente, ele procuraria basear a resposta na Pesquisa Google, mas não basearia uma resposta a uma pergunta como “Qual é a capital da França?”, pois é menos provável que ela mude e o Gemini já saberia a resposta.
Modo de alta fidelidade voltado para os setores de saúde e serviços financeiros
O Google Cloud também quer ajudar as empresas a consolidar LLMs em seus dados empresariais privados e, para isso, apresentou uma coleção de APIs sob o nome de APIs para RAG como parte do Vertex AI em abril.
APIs para RAG, que foram disponibilizadas ao público em geral, incluem APIs para análise de documentos, geração de incorporação, classificação semântica e geração de respostas fundamentadas, além de um serviço de verificação de fatos chamado check-grounding.
Experimento de alta fidelidade
Como parte de uma extensão da API de geração de respostas fundamentadas, que usa os armazenamentos de dados do Vertex AI Search, fontes de dados personalizadas e a Pesquisa Google para fundamentar uma resposta a um prompt do usuário, o Google está introduzindo uma opção experimental de fundamentação, chamada de fundamentação com modo de alta fidelidade.
A nova opção de aterramento, de acordo com a empresa, visa a reforçar ainda mais uma resposta a uma consulta, forçando o LLM a recuperar respostas não apenas entendendo o contexto da consulta, mas também obtendo a resposta de uma fonte de dados personalizada.
Esta opção de fundamentação usa um modelo Flash Gemini 1.5 que foi ajustado para focar no contexto de um prompt, explicou Gokturk, acrescentando que a opção fornece fontes anexadas às frases na resposta junto com pontuações de fundamentação.
Atualmente, o aterramento com modo de alta fidelidade oferece suporte a casos de uso importantes, como resumo em vários documentos ou extração de dados em um corpus de dados financeiros.
Esta opção de base, de acordo com Gokturk, destina-se a empresas dos sectores da saúde e dos serviços financeiros, uma vez que estas empresas não podem permitir-se alucinações e as fontes fornecidas nas respostas às consultas ajudam a construir confiança na aplicação generativa baseada em IA voltada para o utilizador final.
Outros grandes provedores de serviços em nuvem, como AWS e Microsoft Azure, atualmente não possuem um recurso exato que corresponda ao modo de alta fidelidade, mas cada um deles possui um sistema para avaliar a confiabilidade dos aplicativos RAG, incluindo o mapeamento da geração de respostas. Métricas.
Enquanto a Microsoft usa a API Groundedness Detection para verificar se as respostas de texto de grandes modelos de linguagem (LLMs) são baseadas nos materiais de origem fornecidos pelos usuários, o serviço Amazon Bedrock da AWS usa várias métricas para realizar a mesma tarefa.
Como parte dos recursos de avaliação e observabilidade RAG da Bedrock, a AWS usa métricas como fidelidade, relevância da resposta e similaridade semântica da resposta para avaliar uma resposta de consulta.
A métrica de fidelidade mede se a resposta gerada pelo sistema RAG é fiel às informações contidas nas passagens recuperadas, disse a AWS, acrescentando que o objetivo é evitar alucinações e garantir que a saída seja justificada pelo contexto fornecido como entrada para o sistema RAG.
Ativação de dados de terceiros para RAG por meio da Vertex AI
Em linha com os planos anunciados na Cloud Next em abril, a empresa disse que planeja introduzir um novo serviço dentro da Vertex AI a partir do próximo trimestre para permitir que as empresas baseiem seus modelos e agentes de IA com dados especializados de terceiros.
O Google disse que já estava trabalhando com provedores de dados como Moody’s, MSCI, Thomson Reuters e Zoominfo para trazer seus dados para este serviço.