Na era da IA ​​generativa, os modelos de linguagem grande (LLMs) estão revolucionando a maneira como as informações são processadas e as perguntas são respondidas em vários setores. No entanto, esses modelos vêm com seu próprio conjunto de desafios, como gerar conteúdo que pode não ser preciso (alucinação), confiar em conhecimento obsoleto e empregar caminhos de raciocínio opaca e intrincados que muitas vezes não são rastreáveis.

Para lidar com essas questões, a geração aumentada de recuperação (RAG) surgiu como uma abordagem inovadora que combina as habilidades inerentes dos LLMs com o conteúdo rico e sempre atualizado de bancos de dados externos. Essa mistura não apenas amplifica o desempenho do modelo na entrega de respostas precisas e confiáveis, mas também aumenta sua capacidade de explicações coerentes, responsabilidade e adaptabilidade, especialmente em tarefas que são intensivas em demandas de conhecimento. A adaptabilidade do RAG permite a atualização constante das informações das quais ele se baseia, garantindo assim que as respostas estejam atualizadas e que incorporem insights específicos do domínio, abordando diretamente o ponto crucial das limitações do LLM.

O RAG fortalece a aplicação de IA generativa em segmentos de negócios e casos de uso em toda a empresa, por exemplo, geração de código, atendimento ao cliente, documentação de produtos, suporte de engenharia e gerenciamento de conhecimento interno. Ele aborda astutamente um dos principais desafios na aplicação de LLMs às necessidades empresariais: fornecer conhecimento relevante e preciso de vastos bancos de dados empresariais para os modelos sem a necessidade de treinar ou ajustar LLMs. Ao integrar dados específicos de domínio, o RAG garante que as respostas dos modelos de IA generativa não sejam apenas ricamente informadas, mas também precisamente adaptadas ao contexto em questão. Ele também permite que as empresas mantenham o controle sobre seus dados confidenciais ou secretos e, eventualmente, desenvolvam aplicativos de IA generativa adaptáveis, controláveis ​​e transparentes.

Isso se alinha bem com nossa meta de moldar um mundo aprimorado pela IA na appliedAI Initiative, pois enfatizamos constantemente a alavancagem da IA ​​generativa como uma ferramenta construtiva em vez de apenas empurrá-la para o mercado. Ao focar na criação de valor real, a RAG alimenta esse ethos, garantindo precisão aprimorada, confiabilidade, controlabilidade, informações com base em referência e uma aplicação abrangente da IA ​​generativa que incentiva os usuários a abraçar todo o seu potencial, de uma forma que seja informada e inovadora.

Opções RAG: Escolhendo entre personalização e conveniência

À medida que as empresas se aprofundam no RAG, elas são confrontadas com a decisão crucial de fazer ou comprar para concretizar os aplicativos. Você deve optar pela facilidade de produtos prontamente disponíveis ou pela flexibilidade sob medida de uma solução personalizada? As ofertas de mercado específicas do RAG já são ricas em gigantes como o Knowledge Retrieval Assistant da OpenAI, o Azure AI Search, o Google Vertex AI Search e o Knowledge Bases for Amazon Bedrock, que atendem a um amplo conjunto de necessidades com a conveniência de funcionalidade pronta para uso incorporada em um serviço de ponta a ponta. Junto com isso, o Nvidia NeMo Retriever ou o Deepset Cloud oferecem um caminho em algum lugar no meio — robusto e rico em recursos, mas capaz de personalização. Como alternativa, as organizações podem embarcar na criação de soluções do zero ou modificar estruturas de código aberto existentes, como LangChain, LlamaIndex ou Haystack — uma rota que, embora mais trabalhosa, promete um produto perfeitamente ajustado a requisitos específicos.

A dicotomia entre conveniência e personalização é profunda e consequente, resultando em compensações comuns para decisões de fazer ou comprar. Dentro da IA ​​generativa, os dois aspectos, transparência e controlabilidade, exigem consideração adicional devido a certas propriedades inerentes que introduzem riscos como alucinações e fatos falsos em aplicativos.

Soluções e produtos pré-construídos oferecem uma simplicidade atraente de plug-and-play que pode acelerar a implantação e reduzir complexidades técnicas. Eles são uma proposta tentadora para aqueles que querem pular rapidamente para o espaço RAG. No entanto, produtos de tamanho único geralmente não atendem às complexidades diferenciadas inerentes a domínios ou empresas individuais — sejam as sutilezas do conhecimento de fundo específico da comunidade, convenções e expectativas contextuais, ou os padrões usados ​​para julgar a qualidade dos resultados de recuperação.

Estruturas de código aberto se destacam por sua flexibilidade incomparável, dando aos desenvolvedores a liberdade de incorporar recursos avançados, como recuperadores de ontologias de gráficos de conhecimento internos da empresa, ou de ajustar e calibrar as ferramentas para otimizar o desempenho ou garantir transparência e explicabilidade, bem como alinhar o sistema com objetivos comerciais especializados.

Portanto, a escolha entre conveniência e personalização não é apenas uma questão de preferência, mas uma decisão estratégica que pode definir a trajetória dos recursos de RAG de uma empresa.

Obstáculos da RAG: Desafios ao longo da jornada de industrialização da RAG

A jornada para industrializar soluções RAG apresenta vários desafios significativos ao longo do pipeline RAG. Eles precisam ser enfrentados para que sejam efetivamente implantados em cenários do mundo real. Basicamente, um pipeline RAG consiste em quatro estágios padrão — pré-recuperação, recuperação, aumento e geração e avaliação. Cada um desses estágios apresenta certos desafios que exigem decisões de design, componentes e configurações específicas.

No início, determinar o tamanho e a estratégia de chunking ideais prova ser uma tarefa não trivial, particularmente quando confrontado com o problema de inicialização a frio, onde nenhum conjunto de dados de avaliação inicial está disponível para orientar essas decisões. Um requisito fundamental para que o RAG funcione efetivamente é a qualidade dos embeddings de documentos. Garantir a robustez desses embeddings desde o início é crítico, mas representa um obstáculo substancial, assim como a detecção e mitigação de ruído e inconsistências dentro dos documentos de origem. O sourcing ideal de documentos contextualmente relevantes é outro nó górdio a ser desfeito, especialmente quando algoritmos de busca vetorial ingênuos falham em fornecer contextos desejados, e a recuperação multifacetada se torna necessária para consultas complexas ou diferenciadas.

A geração de respostas precisas e confiáveis ​​a partir de dados recuperados introduz complexidades adicionais. Por um lado, o sistema RAG precisa determinar dinamicamente o número certo (top-K) de documentos relevantes para atender à diversidade de perguntas que ele pode encontrar — um problema que não tem uma solução universal. Em segundo lugar, além da recuperação, garantir que as respostas geradas permaneçam fielmente fundamentadas nas informações de origem é fundamental para manter a integridade e a utilidade da saída.

Por fim, apesar da sofisticação dos sistemas RAG, o potencial de erros residuais e vieses para infiltrar as respostas continua sendo uma preocupação pertinente. Lidar com esses vieses requer atenção diligente tanto ao design dos algoritmos quanto à curadoria dos conjuntos de dados subjacentes para evitar a perpetuação de tais problemas nas respostas do sistema.

Futuros RAG: Traçando o curso para agentes inteligentes aprimorados por RAG

O discurso recente dentro dos círculos acadêmicos e industriais tem sido animado por esforços para aprimorar os sistemas RAG, levando ao advento do que agora é chamado de RAG avançado ou modular. Esses sistemas evoluídos incorporam uma série de técnicas sofisticadas voltadas para amplificar sua eficácia. Um avanço notável é a integração da filtragem e escopo de metadados, por meio do qual informações auxiliares, como datas ou resumos de capítulos, são codificadas em blocos textuais. Isso não apenas refina a capacidade do recuperador de navegar por corpora de documentos expansivos, mas também reforça a avaliação de congruência em relação aos metadados — essencialmente otimizando o processo de correspondência. Além disso, implementações avançadas de RAG adotaram paradigmas de pesquisa híbrida, selecionando dinamicamente entre pesquisas por palavra-chave, semânticas e baseadas em vetores para se alinhar à natureza das consultas do usuário e às características idiossincráticas dos dados disponíveis.

No reino do processamento de consultas, uma inovação crucial é o roteador de consultas, que discerne a tarefa downstream mais pertinente e designa o repositório ideal do qual obter informações. Em termos de engenharia de consultas, um arsenal de técnicas é empregado para forjar um vínculo mais próximo entre a entrada do usuário e o conteúdo do documento, às vezes utilizando LLMs para elaborar contextos suplementares, citações, críticas ou respostas hipotéticas que melhoram a precisão da correspondência de documentos. Esses sistemas até progrediram para estratégias de recuperação adaptativa, onde os LLMs preventivamente apontam momentos e conteúdo ideais para consultar, garantindo relevância e pontualidade temporal no estágio de recuperação de informações.

Além disso, métodos sofisticados de raciocínio, como as técnicas de cadeia de pensamento ou árvore de pensamento, também foram integrados às estruturas RAG. A cadeia de pensamento (CoT) simula um processo de pensamento gerando uma série de etapas intermediárias ou raciocínio, enquanto a árvore de pensamento (ToT) constrói uma estrutura ramificada de ideias e avalia diferentes opções para obter conclusões deliberadas e precisas. Abordagens de ponta como RAT (retrieval-augmented thoughts) fundem os conceitos de RAG com CoT, aprimorando a capacidade do sistema de recuperar informações relevantes e raciocinar logicamente. Além disso, RAGAR (RAG-augmented reasoning) representa uma etapa ainda mais avançada, incorporando CoT e ToT juntamente com uma série de etapas de autoverificação em relação aos recursos da web externos mais atuais. Além disso, RAGAR estende suas capacidades para lidar com entradas multimodais, processando informações visuais e textuais simultaneamente. Isso eleva ainda mais os sistemas RAG a serem estruturas altamente confiáveis ​​e credíveis para a recuperação e síntese de informações.

Desenvolvimentos em desenvolvimento como RAT e RAGAR harmonizarão ainda mais as técnicas avançadas de recuperação de informações e o raciocínio profundo oferecido por LLMs sofisticados, estabelecendo ainda mais o RAG como uma pedra angular das soluções de inteligência empresarial de próxima geração. A precisão e a factualidade da recuperação refinada de informações, combinadas com a capacidade analítica, de raciocínio e de agente dos LLMs, anunciam uma era de agentes inteligentes adaptados para aplicações empresariais complexas, da tomada de decisões ao planejamento estratégico. Aprimorados pelo RAG, esses agentes estarão equipados para navegar pelas demandas diferenciadas dos contextos empresariais estratégicos.

Paul Yu-Chun Chang é especialista sênior em IA, Foundation Models (Large Language Models) na appliedAI Initiative GmbH. Bernhard Pflugfelder é chefe do Innovation Lab (GenAI) na appliedAI Initiative GmbH.

O Generative AI Insights oferece um local para líderes de tecnologia — incluindo fornecedores e outros colaboradores externos — explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde mergulhos profundos em tecnologia a estudos de caso e opinião de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos atenderão melhor ao público tecnicamente sofisticado da InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].