Muita duplicação
Algum nível de concorrência e desenvolvimento paralelo é saudável para a inovação, mas a situação atual parece cada vez mais desperdiçada. Várias organizações estão construindo capacidades semelhantes, cada uma contribuindo com uma pegada de carbono maciça. Essa redundância se torna particularmente questionável quando muitos modelos têm desempenho semelhante em benchmarks padrão e tarefas do mundo real.
As diferenças nas capacidades entre os LLMs são frequentemente sutis; A maioria se destaca em tarefas semelhantes, como geração de idiomas, resumo e codificação. Embora alguns modelos, como GPT-4 ou Claude, possam superar um pouco outros em benchmarks, a lacuna é tipicamente incremental e não revolucionária.
A maioria dos LLMs é treinada em conjuntos de dados sobrepostos, incluindo conteúdo publicamente disponível na Internet (Wikipedia, rastreamento comum, livros, fóruns, notícias etc.). Essa base compartilhada leva a semelhanças nos conhecimentos e capacidades, pois os modelos absorvem os mesmos dados factuais, padrões linguísticos e vieses. Variações surgem de conjuntos de dados proprietários de ajuste fina ou pequenos ajustes arquitetônicos, mas o conhecimento geral central permanece altamente redundante entre os modelos.