Todos os 11 modelos também lutaram com benchmarks agênticos projetados para avaliar as habilidades de solução de problemas do mundo real em torno do conhecimento geral, segurança e codificação. Claude 3,5 sonetos e O1 classificaram o mais alto nessa área, principalmente quando se tratava de tarefas mais estruturadas com objetivos explícitos. Ainda assim, todos os modelos tiveram dificuldade em engenharia de software e outras tarefas que exigem raciocínio e planejamento aberto.

A multimodalidade está se tornando cada vez mais importante para os sistemas de IA, pois permite que os modelos processem insumos diferentes. Para medir isso, o Vector desenvolveu o benchmark multimodal de entendimento multitarefa (MMMU), que avalia a capacidade de um modelo de raciocinar sobre imagens e texto em formatos de múltipla escolha e de ponta aberta. As perguntas cobrem matemática, finanças, música e história e são designadas como “fáceis”, “médias” e “duras”.

Em sua avaliação, o Vector descobriu que a O1 exibia um entendimento multimodal “superior” em diferentes formatos e níveis de dificuldade. Claude 3,5 sonetos também se saiu bem, mas não no nível da O1. Novamente, aqui, os pesquisadores descobriram que a maioria dos modelos apareceu no desempenho quando recebeu tarefas mais desafiadoras e abertas.