Além disso, ele disse, os próprios modelos “progrediram significativamente nos últimos dois a três anos, e isso significa que os critérios de avaliação precisam evoluir com seus recursos de mudança. O Xbench visa preencher as principais lacunas deixadas pelos métodos de avaliação tradicionais.

No entanto, o referido Agrawal, embora seja relativamente fácil avaliar modelos em tarefas de matemática ou codificação, “Avaliar modelos em áreas subjetivas como o raciocínio é muito mais desafiador. Os modelos de raciocínio podem ser aplicados em uma ampla variedade de contextos, e os modelos podem ser especializados em que serem atualizados.

Os vieses, acrescentou, “também pode se transformar na avaliação, dependendo do domínio e dos antecedentes geográficos dos especialistas. No geral, o Xbench é um primeiro passo forte e, com o tempo, pode se tornar a base para avaliar o impacto prático e a prontidão de mercado dos agentes da IA”.