À medida que o importante primeiro ano do ChatGPT chega ao fim, fica claro que a IA generativa (genAI) e os grandes modelos de linguagem (LLMs) são tecnologias interessantes. Mas eles estão prontos para uso empresarial no horário nobre?
Existem desafios bem compreendidos com o ChatGPT, onde as suas respostas têm pouca precisão. Apesar de ser baseado em modelos computacionais sofisticados de conhecimento humano como o GPT-4, o ChatGPT raramente quer admitir a ignorância, um fenômeno conhecido como alucinações de IA, e muitas vezes tem dificuldades com o raciocínio lógico. Claro, isso ocorre porque o ChatGPT não raciocina – ele opera como um sistema avançado de preenchimento automático de texto.
Isso pode ser difícil para os usuários aceitarem. Afinal, o GPT-4 é um sistema impressionante: ele pode fazer um exame simulado da ordem e passar com uma pontuação entre os 10% melhores participantes. A perspectiva de empregar um sistema tão inteligente para interrogar as bases de conhecimento corporativo é sem dúvida atraente. Mas precisamos de nos proteger tanto do seu excesso de confiança como da sua estupidez.
Para combatê-los, surgiram três novas abordagens poderosas que podem oferecer uma forma de aumentar a confiabilidade. Embora estas abordagens possam diferir na sua ênfase, partilham um conceito fundamental: tratar o LLM como uma “caixa fechada”. Por outras palavras, o foco não está necessariamente no aperfeiçoamento do LLM em si (embora os engenheiros de IA continuem a melhorar consideravelmente os seus modelos), mas no desenvolvimento de uma camada de verificação de factos para o apoiar. Esta camada visa filtrar respostas imprecisas e infundir no sistema um “senso comum”.
Vamos examinar cada um deles e ver como.
Uma capacidade de pesquisa mais ampla
Uma dessas abordagens envolve a adoção generalizada da pesquisa vetorial. Esta é agora uma característica comum de muitos bancos de dados, incluindo alguns bancos de dados especializados exclusivamente em vetores.
Um banco de dados vetorial tem como objetivo indexar dados não estruturados, como texto ou imagens, colocando-os em um espaço de alta dimensão para pesquisa, recuperação e proximidade. Por exemplo, pesquisar o termo “maçã” pode encontrar informações sobre uma fruta, mas próximo no “espaço vetorial” pode encontrar resultados sobre uma empresa de tecnologia ou uma gravadora.
Os vetores são uma cola útil para IA porque podemos usá-los para correlacionar pontos de dados em componentes como bancos de dados e LLMs, e não apenas usá-los como chaves em um banco de dados para treinar modelos de aprendizado de máquina.
Dos RAGs às riquezas
A geração aumentada de recuperação, ou RAG, é um método comum para adicionar contexto a uma interação com um LLM. Nos bastidores, o RAG recupera conteúdo suplementar de um sistema de banco de dados para contextualizar uma resposta de um LLM. Os dados contextuais podem incluir metadados, como carimbo de data/hora, geolocalização, referência e ID do produto, mas poderiam, em teoria, ser o resultado de consultas de banco de dados arbitrariamente sofisticadas.
Esta informação contextual serve para ajudar o sistema global a gerar respostas relevantes e precisas. A essência desta abordagem reside na obtenção da informação mais precisa e atualizada disponível sobre um determinado tema numa base de dados, refinando assim as respostas do modelo. Um subproduto útil desta abordagem é que, ao contrário do funcionamento interno opaco do GPT-4, se o RAG constituir a base para o LLM empresarial, o utilizador empresarial obtém uma visão mais transparente sobre como o sistema chegou à resposta apresentada.
Se o banco de dados subjacente tiver capacidades vetoriais, então a resposta do LLM, que inclui vetores incorporados, poderá ser usada para encontrar dados pertinentes do banco de dados para melhorar a precisão da resposta.
O poder de um gráfico de conhecimento
No entanto, mesmo a função de pesquisa mais avançada alimentada por vetores e aprimorada por RAG seria insuficiente para garantir a confiabilidade de missão crítica do ChatGPT para os negócios. Os vetores por si só são apenas uma forma de catalogar dados, por exemplo, e certamente não são o mais rico dos modelos de dados.
Em vez disso, os gráficos de conhecimento ganharam força significativa como banco de dados preferido para RAG. Um gráfico de conhecimento é uma rede semanticamente rica de informações interconectadas, reunindo informações de muitas dimensões em uma única estrutura de dados (assim como a web fez com os humanos). Como um gráfico de conhecimento contém conteúdo transparente e com curadoria, sua qualidade pode ser garantida.
Podemos unir o LLM e o gráfico de conhecimento usando vetores também. Mas, neste caso, uma vez que o vetor é resolvido para um nó no gráfico de conhecimento, a topologia do gráfico pode ser usada para realizar verificação de fatos, pesquisas de proximidade e correspondência geral de padrões para garantir que o que está sendo retornado ao usuário seja preciso.
Esta não é a única maneira pela qual os gráficos de conhecimento estão sendo usados. Um conceito interessante está sendo explorado na Universidade de Washington por um pesquisador de IA chamado Professor Yejin Choi, que Bill Gates entrevistou recentemente. A professora Choi e sua equipe construíram uma base de conhecimento de autoria automática que ajuda o LLM a separar o conhecimento bom do ruim, fazendo perguntas e apenas adicionando (como regras) respostas que sejam verificadas de forma consistente.
O trabalho de Choi usa uma IA chamada “crítica” que investiga o raciocínio lógico de um LLM para construir um gráfico de conhecimento que consiste apenas em bons raciocínios e bons fatos. Um exemplo claro de raciocínio deficiente fica evidente se você perguntar ao ChatGPT (3.5) quanto tempo levaria para secar cinco camisas ao sol se levasse uma hora para secar uma camisa. Embora o bom senso determine que se uma camisa demora uma hora a secar, ainda assim demoraria uma hora independentemente da quantidade, a IA tentou fazer contas complicadas para resolver o problema, justificando a sua abordagem mostrando o seu funcionamento (incorreto)!
Embora os engenheiros de IA trabalhem duro para resolver esses problemas (e o ChatGPT 4 não falha aqui), a abordagem de Choi para destilar um gráfico de conhecimento oferece uma solução de uso geral. É particularmente apropriado que este gráfico de conhecimento seja usado para treinar um LLM, que tem uma precisão muito maior, apesar de ser menor.
Recuperando o contexto
Vimos que os gráficos de conhecimento aprimoram os sistemas GPT, fornecendo mais contexto e estrutura por meio do RAG. Também vimos evidências de que, ao usar uma combinação de pesquisa semântica baseada em vetores e em gráficos (sinônimo de gráficos de conhecimento), as organizações alcançam resultados consistentemente de alta precisão.
Ao incorporar uma arquitetura que aproveita uma combinação de vetores, RAG e um gráfico de conhecimento para suportar um grande modelo de linguagem, podemos construir aplicativos de negócios altamente valiosos sem exigir experiência nos intrincados processos de construção, treinamento e ajuste fino de um LLM.
É uma síntese que significa que podemos adicionar uma compreensão rica e contextual de um conceito com a “compreensão” mais fundamental que um computador (LLM) pode alcançar. Claramente, as empresas podem beneficiar desta abordagem. O sucesso dos gráficos é na resposta às grandes questões: o que é importante nos dados? O que há de incomum? Mais importante ainda, dados os padrões dos dados, os gráficos podem prever o que acontecerá a seguir.
Esta proeza factual, juntamente com o elemento generativo dos LLMs, é convincente e tem ampla aplicabilidade. À medida que avançamos em 2024, prevejo que veremos uma aceitação generalizada desta forma poderosa de transformar os LLMs em ferramentas de negócios de missão crítica.
Jim Webber é cientista-chefe do banco de dados gráfico e líder analítico Neo4j. Ele é co-autor de Bancos de dados gráficos (1ª e 2ª edições, O’Reilly), Bancos de dados gráficos para leigos (Wiley), e Construindo Gráficos de Conhecimento (O’Reilly).
–
Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].