O potencial da IA ​​generativa cativou tanto as empresas como os consumidores, mas as preocupações crescentes em torno de questões como a privacidade, a precisão e o preconceito suscitaram uma questão candente: O que estamos a alimentar estes modelos?

A atual oferta de dados públicos tem sido adequada para produzir modelos de uso geral de alta qualidade, mas não é suficiente para alimentar os modelos especializados de que as empresas necessitam. Enquanto isso, as regulamentações emergentes de IA estão dificultando o manuseio e o processamento seguro de dados confidenciais brutos no domínio privado. Os desenvolvedores precisam de fontes de dados mais ricas e sustentáveis ​​– razão pela qual muitas empresas líderes de tecnologia estão recorrendo a dados sintéticos.

No início deste ano, grandes empresas de IA como Google e Anthropic começaram a explorar dados sintéticos para treinar modelos como Gemma e Claude. Ainda mais recentemente, foram lançados o Llama 3 da Meta e o Phi-3 da Microsoft, ambos treinados parcialmente em dados sintéticos e ambos atribuindo fortes ganhos de desempenho ao uso de dados sintéticos.

Na esteira destes ganhos, tornou-se bastante claro que os dados sintéticos são essenciais para escalar a inovação em IA. Ao mesmo tempo, há compreensivelmente muito ceticismo e receio em torno da qualidade dos dados sintéticos. Mas, na realidade, os dados sintéticos são muito promissores para enfrentar os desafios mais amplos de qualidade de dados que os desenvolvedores estão enfrentando. Aqui está o porquê.

Qualidade de dados na era da IA

Tradicionalmente, as indústrias que utilizam o “big data” necessário para treinar modelos poderosos de IA definiram a qualidade dos dados pelos “três Vs” (volume, velocidade, variedade). Esta estrutura aborda alguns dos desafios mais comuns que as empresas enfrentam com “dados sujos” (dados desatualizados, inseguros, incompletos, imprecisos, etc.) ou dados de formação insuficientes. Mas no contexto da formação moderna em IA, há duas dimensões adicionais a considerar: veracidade (a precisão e utilidade dos dados) e privacidade (garantias de que os dados originais não serão comprometidos). Na ausência de qualquer um desses cinco elementos, certamente ocorrerão gargalos na qualidade dos dados que prejudicam o desempenho do modelo e o valor do negócio. Ainda mais problemático, as empresas correm o risco de incumprimento, multas pesadas e perda de confiança entre clientes e parceiros.

Mark Zuckerberg e Dario Amodei também apontaram a importância de reciclar modelos com dados novos e de alta qualidade para construir e dimensionar a próxima geração de sistemas de IA. No entanto, isso exigirá que mecanismos sofisticados de geração de dados, tecnologias que melhorem a privacidade e mecanismos de validação sejam integrados ao ciclo de vida do treinamento em IA. Essa abordagem abrangente é necessária para aproveitar com segurança “dados iniciais” em tempo real e do mundo real, que geralmente contêm informações de identificação pessoal (PII), para produzir insights verdadeiramente novos. Ele garante que os modelos de IA aprendam e se adaptem continuamente a eventos dinâmicos do mundo real. No entanto, para fazer isto de forma segura e em grande escala, o problema da privacidade deve ser resolvido primeiro. É aqui que entra em jogo a geração de dados sintéticos que preservam a privacidade.

Muitos dos LLMs atuais são treinados inteiramente com dados públicos, uma prática que cria um gargalo crítico para a inovação com IA. Muitas vezes, por motivos de privacidade e conformidade, dados valiosos que as empresas coletam, como registros médicos de pacientes, transcrições de call centers e até mesmo anotações médicas, não podem ser usados ​​para ensinar o modelo. Isto pode ser resolvido através de uma abordagem de preservação da privacidade chamada privacidade diferencial, que permite gerar dados sintéticos com garantias matemáticas de privacidade.

O próximo grande avanço na IA será construído com base em dados que hoje não são públicos. As organizações que conseguirem treinar modelos com segurança em dados confidenciais e controlados por regulamentações emergirão como líderes na era da IA.

O que se qualifica como dados sintéticos de alta qualidade?

Primeiro, vamos definir dados sintéticos. “Dados sintéticos” tem sido um termo vago que se refere a quaisquer dados gerados por IA. Mas esta definição ampla ignora a variação na como os dados são gerados e para o que fim. Por exemplo, uma coisa é criar dados de teste de software e outra é treinar um modelo generativo de IA em 1 milhão de registros médicos sintéticos de pacientes.

Houve um progresso substancial na geração de dados sintéticos desde que surgiu. Hoje, os padrões para dados sintéticos são muito mais elevados, especialmente quando falamos de treinamento de modelos comerciais de IA. Para treinamento em IA de nível empresarial, os processos de dados sintéticos devem incluir o seguinte:

  • Sistemas avançados de detecção e transformação de dados confidenciais. Estes processos podem ser parcialmente automatizados, mas devem incluir um certo grau de supervisão humana.
  • Geração via transformadores pré-treinados e arquiteturas baseadas em agentes. Isto inclui a orquestração de múltiplas redes neurais profundas em um sistema baseado em agente e capacita o modelo mais adequado (ou combinação de modelos) para abordar qualquer entrada.
  • Privacidade diferencial no nível de treinamento do modelo. Quando os desenvolvedores treinam modelos de dados sintéticos em seus conjuntos de dados reais, é adicionado ruído em torno de cada ponto de dados para garantir que nenhum ponto de dados único possa ser rastreado ou revelado.
  • Precisão e utilidade mensuráveis ​​e proteções de privacidade comprováveis. A avaliação e os testes são essenciais e, apesar do poder da IA, os seres humanos continuam a ser uma parte importante da equação. Os conjuntos de dados sintéticos devem ser avaliados quanto à precisão dos dados originais, inferência sobre tarefas posteriores específicas e garantias de privacidade comprovável.
  • Equipes de avaliação, validação e alinhamento de dados. A supervisão humana deve ser integrada no processo de dados sintéticos para garantir que os resultados gerados sejam éticos e alinhados com as políticas públicas.

Quando os dados sintéticos atendem aos critérios acima, são tão eficazes ou melhores que os dados do mundo real na melhoria do desempenho da IA. Tem o poder não só de proteger informações privadas, mas também de equilibrar ou aumentar os registos existentes e de simular amostras novas e diversas para preencher lacunas críticas nos dados de formação. Ele também pode reduzir drasticamente a quantidade de treinamento que os desenvolvedores de dados precisam, acelerando significativamente os ciclos de experimentação, avaliação e implantação.

Mas e o colapso do modelo?

Um dos maiores equívocos em torno dos dados sintéticos é o colapso do modelo. No entanto, o colapso do modelo decorre de pesquisas que não tratam realmente de dados sintéticos. Trata-se de ciclos de feedback em sistemas de IA e de aprendizagem automática, e da necessidade de uma melhor governação de dados.

Por exemplo, a principal questão levantada no artigo The Curse of Recursion: Training on Generated Data Makes Models Forget é que as futuras gerações de grandes modelos de linguagem podem ser defeituosas devido a dados de treinamento que contêm dados criados por gerações mais antigas de LLMs. A conclusão mais importante desta pesquisa é que, para permanecerem eficientes e sustentáveis, os modelos precisam de um fluxo constante de dados de treinamento de alta qualidade e específicos para tarefas. Para a maioria das aplicações de IA de alto valor, isso significa novidades, tempo real dados baseados na realidade em que esses modelos devem operar. Como isso geralmente inclui dados confidenciais, também requer infraestrutura para anonimizar, gerar e avaliar grandes quantidades de dados – com humanos envolvidos no ciclo de feedback.

Sem a capacidade de aproveitar dados confidenciais de maneira segura, oportuna e contínua, os desenvolvedores de IA continuarão a lutar contra alucinações e colapsos de modelos. É por isso que alta qualidade, preservação da privacidade dados sintéticos são um solução para modelar o colapso, não a causa. Ele fornece uma interface privada e atraente para dados confidenciais em tempo real, permitindo que os desenvolvedores construam com segurança modelos mais precisos, oportunos e especializados.

Os dados da mais alta qualidade são sintéticos

À medida que os dados de alta qualidade de domínio público se esgotam, os desenvolvedores de IA estão sob intensa pressão para aproveitar fontes de dados proprietárias. Os dados sintéticos são o meio mais confiável e eficaz de gerar dados de alta qualidade, sem sacrificar o desempenho ou a privacidade.

Para se manterem competitivos no atual cenário acelerado de IA, os dados sintéticos tornaram-se uma ferramenta que os desenvolvedores não podem ignorar.

Alex Watson é cofundador e diretor de produtos da Gretel.

Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].