À medida que agentes que usam inteligência artificial se infiltraram no mainstream para tudo, desde atendimento ao cliente até consertar código de software, é cada vez mais importante determinar quais são os melhores para uma determinada aplicação e os critérios a serem considerados ao selecionar um agente além de sua funcionalidade. E é aí que entra o benchmarking.

Os benchmarks não refletem aplicações do mundo real

No entanto, um novo artigo de pesquisa, AI Agents That Matter, aponta que os processos atuais de avaliação e benchmarking de agentes contêm uma série de deficiências que dificultam sua utilidade em aplicações do mundo real. Os autores, cinco pesquisadores da Universidade de Princeton, observam que essas deficiências incentivam o desenvolvimento de agentes que se saem bem em benchmarks, mas não na prática, e propõem maneiras de lidar com elas.

“A Estrela do Norte deste campo é construir assistentes como Siri ou Alexa e fazê-los realmente trabalhar — lidar com tarefas complexas, interpretar com precisão as solicitações dos usuários e executar de forma confiável”, disse uma postagem de blog sobre o artigo por dois de seus autores, Sayash Kapoor e Arvind Narayanan. “Mas isso está longe de ser uma realidade, e até mesmo a direção da pesquisa é bastante nova.”