Pesquisadores revelam falhas no benchmarking de agentes de IA

À medida que agentes que usam inteligência artificial se infiltraram no mainstream para tudo, desde atendimento ao cliente até consertar código de software, é cada vez mais importante determinar quais são os melhores para uma determinada aplicação e os critérios a serem considerados ao selecionar um agente além de sua funcionalidade. E é aí que entra o benchmarking.

Os benchmarks não refletem aplicações do mundo real

No entanto, um novo artigo de pesquisa, AI Agents That Matter, aponta que os processos atuais de avaliação e benchmarking de agentes contêm uma série de deficiências que dificultam sua utilidade em aplicações do mundo real. Os autores, cinco pesquisadores da Universidade de Princeton, observam que essas deficiências incentivam o desenvolvimento de agentes que se saem bem em benchmarks, mas não na prática, e propõem maneiras de lidar com elas.

“A Estrela do Norte deste campo é construir assistentes como Siri ou Alexa e fazê-los realmente trabalhar — lidar com tarefas complexas, interpretar com precisão as solicitações dos usuários e executar de forma confiável”, disse uma postagem de blog sobre o artigo por dois de seus autores, Sayash Kapoor e Arvind Narayanan. “Mas isso está longe de ser uma realidade, e até mesmo a direção da pesquisa é bastante nova.”

Isso, disse o artigo, torna difícil distinguir avanços genuínos de exageros. E os agentes são suficientemente diferentes dos modelos de linguagem que as práticas de benchmarking precisam ser repensadas.

O que é um agente de IA?

A definição de agente na IA tradicional é a de uma entidade que percebe e age sobre seu ambiente, mas na era dos modelos de linguagem grande (LLMs), é mais complexo. Lá, os pesquisadores o veem como um espectro de fatores “agentes” em vez de uma única coisa.

Eles disseram que três grupos de propriedades tornam um sistema de IA um agente:

Ambiente e objetivos – em um ambiente mais complexo, mais sistemas de IA são agentes, assim como sistemas que buscam objetivos complexos sem instruções.

Interface de usuário e supervisão – Os sistemas de IA que agem de forma autónoma ou aceitam entradas de linguagem natural são mais agentes, especialmente aqueles que requerem menos supervisão do utilizador

Projeto de sistema – Sistemas que usam ferramentas como pesquisa na web ou planejamento (como decompor metas em submetas) ou cujo controle de fluxo é conduzido por um LLM são mais agentes.

Principais conclusões

Cinco descobertas principais surgiram da pesquisa, todas apoiadas por estudos de caso:

As avaliações dos agentes de IA devem ter custos controlados – Como chamar os modelos subjacentes à maioria dos agentes de IA repetidamente (a um custo adicional por chamada) pode aumentar a precisão, os pesquisadores podem ser tentados a construir agentes extremamente caros para que possam reivindicar o primeiro lugar em precisão. Mas o artigo descreveu três agentes de linha de base simples desenvolvidos pelos autores que superam muitas das arquiteturas complexas a um custo muito menor.

A otimização conjunta da precisão e do custo pode produzir um melhor design do agente – Dois fatores determinam o custo total de execução de um agente: os custos únicos envolvidos na otimização do agente para uma tarefa e os custos variáveis incorridos cada vez que ele é executado. Os autores mostram que, ao gastar mais na otimização inicial, os custos variáveis podem ser reduzidos, mantendo a precisão.

O analista Bill Wong, pesquisador de IA do Info-Tech Research Group, concorda. “O foco na precisão é uma característica natural para chamar a atenção ao comparar LLMs”, disse ele. “E sugerir que incluir a otimização de custos fornece uma imagem mais completa do desempenho de um modelo é razoável, assim como os benchmarks de banco de dados baseados em TPC tentaram fornecer, que era uma métrica de desempenho ponderada com os recursos ou custos envolvidos para fornecer uma determinada métrica de desempenho.”

Os desenvolvedores de modelos e os desenvolvedores downstream têm necessidades distintas de benchmarking – Pesquisadores e aqueles que desenvolvem modelos têm necessidades de benchmarking diferentes daqueles desenvolvedores downstream que estão escolhendo uma IA para usar seus aplicativos. Desenvolvedores de modelos e pesquisadores geralmente não consideram o custo durante suas avaliações, enquanto para desenvolvedores downstream, o custo é um fator-chave.

“Existem vários obstáculos para a avaliação de custos”, observou o artigo. “Provedores diferentes podem cobrar valores diferentes pelo mesmo modelo, o custo de uma chamada de API pode mudar da noite para o dia, e o custo pode variar com base nas decisões do desenvolvedor do modelo, como se chamadas de API em massa são cobradas de forma diferente.”

Os autores sugerem que tornar os resultados da avaliação personalizáveis usando mecanismos para ajustar o custo de execução de modelos, como fornecer aos usuários a opção de ajustar o custo de tokens de entrada e saída para seu provedor de escolha, os ajudará a recalcular o trade-off entre custo e precisão. Para avaliações posteriores de agentes, deve haver contagens de tokens de entrada/saída além dos custos em dólares, para que qualquer pessoa que olhe para a avaliação no futuro possa recalcular o custo usando os preços atuais e decidir se o agente ainda é uma boa escolha.

Os benchmarks do agente permitem atalhos – Os benchmarks só são úteis se refletirem a precisão do mundo real, observou o relatório. Por exemplo, atalhos como overfitting, em que um modelo é tão estreitamente adaptado aos seus dados de treinamento que não consegue fazer previsões ou conclusões precisas de quaisquer dados que não sejam os dados de treinamento, resultam em benchmarks cuja precisão não se traduz no mundo real.

“Este é um problema muito mais sério do que a contaminação de dados de treinamento do LLM, pois o conhecimento das amostras de teste pode ser programado diretamente no agente, em vez de apenas ser exposto a elas durante o treinamento”, disse o relatório.

As avaliações dos agentes carecem de padronização e reprodutibilidade – O artigo destacou que, sem avaliações de agentes reproduzíveis, é difícil dizer se houve melhorias genuínas, e isso pode enganar os desenvolvedores posteriores ao selecionar agentes para suas aplicações.

No entanto, como Kapoor e Narayanan notaram em seu blog, eles estão cautelosamente otimistas de que a reprodutibilidade na pesquisa de agentes de IA irá melhorar porque há mais compartilhamento de código e dados usados no desenvolvimento de artigos publicados. E, eles acrescentaram, “Outro motivo é que a pesquisa superotimista rapidamente recebe um choque de realidade quando produtos baseados em avaliações enganosas acabam fracassando.”

O caminho do futuro

Apesar da falta de padrões, disse Wong, da Info-Tech, as empresas ainda estão procurando usar agentes em seus aplicativos.

“Concordo que não há padrões para medir o desempenho de aplicativos de IA baseados em agentes”, ele observou. “Apesar disso, as organizações estão alegando que há benefícios em buscar arquiteturas baseadas em agentes para impulsionar maior precisão e menores custos e dependência de LLMs monolíticos.”

A falta de padrões e o foco em avaliações baseadas em custos provavelmente continuarão, ele disse, porque muitas organizações estão olhando para o valor que soluções generativas baseadas em IA podem trazer. No entanto, o custo é um dos muitos fatores que devem ser considerados. Organizações com as quais ele trabalhou classificam fatores como habilidades necessárias para uso, facilidade de implementação e manutenção e escalabilidade mais altas do que o custo ao avaliar soluções.

E, ele disse, “Estamos começando a ver mais organizações em vários setores onde a sustentabilidade se tornou um impulsionador essencial para os casos de uso de IA que eles buscam.”

Isso faz da IA baseada em agentes o caminho do futuro, porque ela usa modelos menores, reduzindo o consumo de energia e preservando ou até mesmo melhorando o desempenho do modelo.