A IA cresceu, assim como os modelos de IA. Modelos universais de 10 bilhões de parâmetros estão superando modelos específicos de tarefas de 50 milhões de parâmetros, demonstrando desempenho superior na resolução de muitas tarefas a partir de um único modelo.

Os modelos de IA também estão se tornando multimodais. Novos modelos de visão, como o Florence 2 da Microsoft e o GPT-4V da OpenAI, estão expandindo as aplicações desses modelos para incorporar imagens, vídeo e som, trazendo o poder dos modelos de linguagem grande (LLMs) para milhões de novos casos de uso.

À medida que maior provou ser melhor no mundo da engenharia de modelos, cada aplicação passou por uma progressão semelhante:

  1. Uma tarefa, um domínio: um modelo simples para um caso de uso específico – detectores de objetos para estradas, modelos de segmentação de profundidade para cenas internas, modelos de legenda de imagens, chatbots para aplicações web, etc.
  2. Uma tarefa, cada domínio: expandindo a aplicação desse modelo simples para muitos casos de uso – detectores de objetos para todos os lugares (YOLO, DINO, etc.), segmentação de profundidade para tudo (MobileNet), plug-ins de bate-papo para vários produtos).
  3. Cada tarefa, cada domínio: Grandes modelos que podem fazer tudo, uma mudança de paradigma possibilitada pelos novos LLMs – por exemplo, Florence, GPT-4V, ChatGPT.
  4. Cada tarefa, um domínio: Otimização de modelos grandes para um domínio, permitindo aplicações em tempo real e maior confiabilidade – por exemplo, GPT-3.5-Turbo para pesquisa interativa, Harvey.ai para pesquisa e elaboração de documentos jurídicos, DriveGPT para direção autônoma.

Condução autônoma em modelos pequenos

A direção autônoma ainda funciona em modelos pequenos. E embora uma combinação de vários modelos de tarefa única, sensores especializados e mapeamento preciso tenham produzido um protótipo impressionante, a receita atual ainda não proporciona a segurança ou a escala necessária para apoiar os condutores diários.

Aqui está o que ainda nos impede:

  • Generalização zero-shot. Os modelos existentes muitas vezes falham em cenários nunca antes vistos, muitas vezes chamados de “cauda longa” da condução. Se não forem suficientemente treinados, os modelos não terão capacidade de raciocinar a partir dos primeiros princípios sobre o que fazer a seguir. A solução até agora tem sido construir outro modelo para fins especiais. Cenários dinâmicos difíceis de mapear são um ponto fraco da maioria dos produtos autônomos.
  • Interpretando a intenção do motorista e do ator. Os modelos existentes não conseguem compreender as subtilezas da interação e da intenção humana, tanto no que diz respeito ao condutor dentro do veículo como aos intervenientes na estrada fora do veículo.
  • Mapeando o mundo inteiro com precisão. Embora áreas bem mapeadas sejam em sua maioria dirigíveis, o mapeamento HD preciso tem se mostrado difícil de escalar. E sem mapas precisos, a condução baseada em mapas não funciona bem.
  • Escalando veículos. As pequenas frotas atuais de robotáxis dependem de sensores especializados, computação cara e combinações de muitos modelos para fins especiais – uma receita complexa e cara que ainda precisa ser dimensionada para os motoristas comuns.

LLMs e o problema da cauda longa

Em todas as aplicações, os engenheiros de modelos estão usando LLMs como ferramentas de desenvolvimento superpoderosas para melhorar quase todos os aspectos do processo de engenharia de modelos. Os LLMs provaram ser extremamente úteis para desenvolver e melhorar ambientes de simulação, para classificar, compreender e rotular conjuntos de dados massivos e para interpretar e depurar as “caixas pretas” que são redes neurais.

Talvez uma das maiores vantagens dos LLMs no processo de desenvolvimento seja a capacidade de expressar lógica complexa e de várias etapas em linguagem natural, acelerando o desenvolvimento ao evitar a necessidade de código especializado. Isso já se mostrou bastante útil em áreas problemáticas complexas, como resumo de texto ou conclusão de código com dependências complexas na base de código.

Todas estas ferramentas de engenharia podem melhorar amplamente os esforços de desenvolvimento, incluindo a autonomia, mas a aplicação mais interessante e impactante dos LLMs está directamente na própria tarefa de condução: raciocinar sobre cenários complexos e planear o caminho mais seguro a seguir.

A direção autônoma é um problema especialmente desafiador porque certos casos extremos exigem um raciocínio complexo e humano que vai muito além de algoritmos e modelos legados. Os LLMs têm se mostrado promissores em ir além das correlações puras para demonstrar uma verdadeira “compreensão do mundo”. Este novo nível de compreensão estende-se à tarefa de condução, permitindo aos planeadores navegar em cenários complexos com manobras seguras e naturais sem necessidade de formação explícita.

Onde os modelos existentes podem ser confundidos pela presença de trabalhadores da construção civil num cruzamento ou percurso em torno de um local de acidente, os LLMs demonstraram a capacidade de raciocinar sobre a rota e a velocidade corretas com notável proficiência. Os LLMs oferecem um novo caminho para resolver a “cauda longa”, ou seja, a capacidade de lidar com situações nunca vistas antes. A cauda longa tem sido o desafio fundamental da condução autónoma nas últimas duas décadas.

Limitações dos LLMs para tarefas autônomas

Grandes modelos de linguagem hoje ainda apresentam limitações reais para aplicações autônomas. Simplificando, os LLMs precisarão se tornar muito mais confiáveis ​​e muito mais rápidos. Mas existem soluções e é aqui que o trabalho árduo está a ser feito.

Latência e restrições em tempo real

As decisões de condução críticas para a segurança devem ser tomadas em menos de um segundo. Os LLMs mais recentes em execução em data centers podem levar 10 segundos ou mais.

Uma solução para esse problema são as arquiteturas de nuvem híbrida que complementam a computação no carro com o processamento do data center. Outra são os LLMs desenvolvidos especificamente para compactar modelos grandes em formatos pequenos e rápidos o suficiente para caber no carro. Já estamos vendo melhorias drásticas na otimização de modelos grandes. Mistral 7B e Llama 2 7B demonstraram desempenho rivalizando com o GPT-3.5 com uma ordem de magnitude menos parâmetros (7 bilhões contra 175 bilhões). A Lei de Moore e as otimizações contínuas devem levar rapidamente mais desses modelos para o limite.

Alucinações

Grandes modelos de linguagem raciocinam com base em correlações, mas nem todas as correlações são válidas em cenários específicos. Por exemplo, uma pessoa parada no cruzamento pode significar parar (pedestre), ir (guarda de passagem) ou desacelerar (trabalhador da construção civil). Correlações positivas nem sempre fornecem a resposta correta. Quando o modelo produz um resultado que não reflete a realidade, referimo-nos a esse resultado como uma “alucinação”.

A aprendizagem por reforço com feedback humano (RLHF) oferece uma solução potencial para esses tipos de problemas, alinhando o modelo com o feedback humano para compreender esses tipos de cenários de condução complexos. Com melhor qualidade de dados, modelos menores como o Llama 2 70B têm desempenho equivalente ao GPT-4, com 20 vezes menos parâmetros (70 bilhões contra 1,7 trilhão).

Os projetos de pesquisa também estão facilitando a escalabilidade da melhor qualidade dos dados. Por exemplo, a estrutura OpenChat aproveita novas técnicas, como o ajuste fino da aprendizagem por reforço (RLFT), que melhoram o desempenho e evitam a dispendiosa rotulagem de preferências humanas.

A nova cauda longa

Os modelos de linguagem têm “tudo” codificado neles, mas ainda podem não ter todos os conceitos específicos de condução cobertos, como a capacidade de navegar em um cruzamento movimentado em construção. Uma solução potencial aqui é expor o modelo a longas sequências de dados de condução proprietários que podem incorporar esses conceitos mais detalhados no modelo. Por exemplo, a Replit usou dados de codificação proprietários de sua base de usuários para melhorar continuamente suas ferramentas de geração de código com ajuste fino, superando modelos maiores como o Code Llama 7B.

Um novo futuro para a condução autónoma

A condução autónoma ainda não se tornou popular, existindo hoje apenas um punhado de veículos que enfrentam os ambientes urbanos mais complexos. Os grandes modelos estão a transformar a forma como desenvolvemos modelos de condução autónoma e, em última análise, transformarão a condução autónoma – proporcionando a segurança e a escala necessárias para finalmente fornecer a tecnologia aos condutores quotidianos.

Prannay Khosla lidera a engenharia de modelos na Ghost Autonomy, fornecedora de software de direção autônoma.

Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].