33 métricas LLM para observar de perto

Banco SWE

Esta coleção de milhares de desafios de engenharia de software avalia quão bem um modelo resolve problemas de programação. Os desenvolvedores o criaram selecionando uma série de problemas e solicitações pull correspondentes de cerca de uma dúzia de projetos Python. Depois que algumas limitações apareceram, os criadores expandiram o conjunto criando SWE-Bench+, SWE Bench Verified e SWE-Bench Pro.

Arena de chatbot LMSYS

Em vez de criar um conjunto fixo de prompts de teste, o Chatbot Arena da Large Model Systems Organization é um sistema dinâmico que alimenta diferentes modelos com o mesmo prompt e depois pede aos humanos que escolham os melhores resultados. Essas disputas frente a frente produzem uma classificação semelhante à Elo, semelhante àquela usada para pontuar jogadores de xadrez.

Preço

O restante dessas métricas é útil, mas, como dizem os corretores imobiliários, os três números mais importantes em uma listagem de imóveis são preço, preço e preço. O custo é um pouco menos importante para medir IAs, mas apenas um pouco. O preço pode fazer uma enorme diferença entre um projeto ser lucrativo e um desperdício de dinheiro. Quando o custo de cada inferência é um pouco alto, é impossível compensar com volume.