Meta, pai do Facebook, Instagram e WhatsApp, lançou uma nova geração de seu modelo de linguagem grande Llama (LLM) de código aberto, a fim de angariar uma fatia maior do mercado de IA generativa, assumindo todos os fornecedores de modelos, incluindo OpenAI, Mistral, Anthropic, e xAI de Elon Musk.
“Esta próxima geração do Llama demonstra desempenho de última geração em uma ampla gama de benchmarks do setor e oferece novos recursos, incluindo raciocínio aprimorado. Acreditamos que esses são os melhores modelos de código aberto de sua classe, ponto final”, escreveu a empresa em uma postagem no blog, acrescentando que se propôs a construir modelos de código aberto que estejam no mesmo nível dos modelos proprietários de melhor desempenho disponíveis. no mercado.
Atualmente, a Meta está disponibilizando os dois primeiros modelos – variantes pré-treinadas e com instruções ajustadas com 8 bilhões e 70 bilhões de parâmetros – de sua terceira geração de LLMs.
Normalmente, qualquer provedor de LLM lança diversas variantes de modelos para permitir que as empresas escolham entre latência e precisão, dependendo dos casos de uso. Embora um modelo com mais parâmetros possa ser relativamente mais preciso, aquele com menos parâmetros requer menos computação, leva menos tempo para responder e, portanto, custa menos.
As variantes divulgadas, segundo Meta, são modelos baseados em texto e não suportam nenhuma outra forma de dados. A empresa espera lançar modelos multilíngues e multimodais com contexto mais longo no futuro, à medida que tenta melhorar o desempenho geral em capacidades como raciocínio e tarefas relacionadas a código.
Reivindicação de melhor desempenho do que outros modelos
Meta afirmou que sua nova família de LLMs tem desempenho melhor do que a maioria dos outros LLMs, com exceção de mostrar seu desempenho em relação ao GPT-4, que agora impulsiona o ChatGPT e o Azure da Microsoft e os serviços analíticos.
“As melhorias em nossos procedimentos pós-treinamento reduziram substancialmente as taxas de falsas recusas, melhoraram o alinhamento e aumentaram a diversidade nas respostas dos modelos. Também vimos capacidades muito melhoradas, como raciocínio, geração de código e instruções, tornando o Llama 3 mais orientável”, disse a empresa em comunicado.
Para comparar o Llama 3 com outros modelos a empresa realizou testes no que chama de benchmarks padrão como MMLU GPQA MATH HumanEval e GSM-8K e descobriu que as variantes pontuaram melhor do que a maioria dos LLMs como Mistral Claude Soneto e GPT 3.5.
Embora o MMLU (Massive Multitask Language Understanding) seja um benchmark projetado para medir o conhecimento adquirido durante o pré-treinamento avaliando modelos, o GPQA (Graduate-Level Google-Proof Q&A Benchmark) é um teste para verificar a experiência de um modelo na resolução de problemas científicos complexos.
O GPAQ é um conjunto de dados desafiador de 448 questões de múltipla escolha escritas por especialistas nas áreas de biologia, física e química e doutores nas áreas correspondentes alcançam apenas 65% de precisão nessas questões.
O GPT-4 obteve a maior pontuação de precisão no teste, com 39%, conforme dados relatados em artigo publicado em novembro do ano passado. Em contraste, a variante de 70 bilhões de parâmetros do Llama 3 obteve uma pontuação de 39,5, seguida pelo modelo de parâmetros menores alcançando uma pontuação de 34,2.
GeminiPro 1.5, atualmente, detém a pontuação mais alta de 41,5 no benchmark GPQA. O mesmo LLM também venceu a variante maior do Llama 3 no teste de benchmark MATH.
O conjunto de dados usado na avaliação entre os benchmarks, de acordo com a empresa, continha cerca de 1.800 prompts cobrindo 12 casos de uso principais – solicitação de conselhos, brainstorming, classificação, resposta a perguntas fechadas, codificação, escrita criativa, extração, habitar um personagem/persona, abrir resposta a perguntas, raciocínio, reescrita e resumo.
“Para evitar o overfitting acidental de nossos modelos neste conjunto de avaliação, mesmo nossas próprias equipes de modelagem não têm acesso a ele”, disse a empresa.
Overfitting é um fenômeno no aprendizado de máquina ou no treinamento de modelo quando um modelo tem um bom desempenho nos dados de treinamento, mas não funciona nos dados de teste. Sempre que um profissional de dados inicia o treinamento do modelo, a pessoa deve manter dois conjuntos de dados separados para treinamento e teste de dados para verificar o desempenho do modelo.
O overfitting acontece quando um modelo acaba aprendendo muito bem os dados de treinamento, o que significa que ele aprende o ruído e as exceções nos dados e não se adapta aos novos dados adicionados.
Isso pode acontecer quando os dados de treinamento são muito pequenos, contêm informações irrelevantes ou o modelo treina por muito tempo em um único conjunto de amostras.
Os benchmarks HumanEval e GSM-8K, por outro lado, são usados para testar geração de código e raciocínio aritmético, respectivamente.
Melhorias em relação ao Llama 2
Meta em uma postagem no blog disse que fez muitas melhorias no Llama 3, incluindo a opção por uma arquitetura de transformador somente decodificador padrão.
“O Llama 3 usa um tokenizer com um vocabulário de 128 mil tokens que codifica a linguagem com muito mais eficiência, o que leva a um desempenho do modelo substancialmente melhorado”, disse a empresa.
Para melhorar a eficiência de inferência dos modelos Llama 3, a empresa disse que adotou atenção de consulta agrupada (GQA) nos tamanhos 8B e 70B.
“Treinamos os modelos em sequências de 8.192 tokens, usando uma máscara para garantir que a autoatenção não ultrapasse os limites do documento”, acrescentou.
Outras melhorias incluem o conjunto de dados de treinamento do Llama 3, que a empresa afirma ser sete vezes maior do que aquele usado para treinar o Llama 2. O Llama 3 é pré-treinado em mais de 15 trilhões de tokens que foram coletados de fontes disponíveis publicamente, disse a empresa.
Para garantir que o Llama 3 fosse treinado em dados de alta qualidade, a empresa desenvolveu uma série de pipelines de filtragem de dados, que incluem o uso de filtros heurísticos, filtros NSFW, abordagens de desduplicação semântica e classificadores de texto.
“Descobrimos que as gerações anteriores do Llama são surpreendentemente boas na identificação de dados de alta qualidade, por isso usamos o Llama 2 para gerar os dados de treinamento para os classificadores de qualidade de texto que alimentam o Llama 3”, disse a empresa.
Para reduzir o tempo de treinamento em 95% em comparação ao Llama 2, a Meta afirma ter usado uma pilha de treinamento avançada que automatiza a detecção, tratamento e manutenção de erros.
“Também melhoramos muito a confiabilidade do nosso hardware e os mecanismos de detecção de corrupção silenciosa de dados, e desenvolvemos novos sistemas de armazenamento escalonáveis que reduzem as despesas gerais de checkpoint e reversão”, disse a empresa.
As execuções de treinamento para o Llama 3 foram realizadas em dois clusters de GPU de 24K personalizados.
A combinação de todas as melhorias e avanços, incluindo os recursos de segurança aprimorados, diferencia os novos modelos de concorrentes como ChatGPT da OpenAI, Le Chat da Mistral, Gemini do Google e Grok da x.AI, disse Paul Nashawaty, líder de desenvolvimento de aplicativos e prática de modernização. no Grupo Futurum.
A abordagem que Meta adotou com o Llama 3 pode oferecer um caminho distinto para compreender e navegar melhor nas interações humanas, acrescentou Nashawaty.
O que mais você ganha com o Lhama 3?
Como parte do lançamento das duas variantes do Llama 3, a Meta disse que estava introduzindo novas ferramentas de confiança e segurança, como Llama Guard 2, Code Shield e CyberSec Eval 2.
Embora o Llama Guard 2 seja um modelo de proteção que os desenvolvedores podem usar como uma camada extra para reduzir a probabilidade de seu modelo gerar resultados que não estejam alinhados com as diretrizes pretendidas, o Code Shield é uma ferramenta direcionada aos desenvolvedores para ajudar a reduzir a chance de gerar código potencialmente inseguro.
Por outro lado, o CyberSecEval, projetado para ajudar os desenvolvedores a avaliar quaisquer riscos de segurança cibernética com código gerado por LLMs, foi atualizado com um novo recurso.
“O Cybersec Eval 2 expande seu antecessor medindo a suscetibilidade de um LLM à injeção imediata, recursos ofensivos automatizados de segurança cibernética e propensão a abusar de um intérprete de código, além das avaliações existentes para práticas de codificação inseguras”, disse a empresa.
Para mostrar o poder dos seus novos LLMs, a empresa também lançou um novo assistente de IA, sustentado pelos novos modelos, que pode ser acessado através das plataformas Facebook, Instagram e WhatsApp. Uma página da web separada foi projetada para ajudar os usuários a acessar o assistente também.
A empresa já trabalha em variantes do Llama 3, que possuem mais de 400 bilhões de parâmetros. A Meta disse que lançará essas variantes nos próximos meses, à medida que seu treinamento efetivo for concluído.
Os modelos Llama 3 foram disponibilizados em AWS, Hugging Face, IBM WatsonX, Microsoft Azure, Google Cloud e Nvidia NIM.
Outros fornecedores, como Databricks, Kaggle e Snowflake também oferecerão os modelos mais recentes. Em termos de hardware para treinamento, inferência e tarefas relacionadas à IA, o Llama 3 será suportado pela AMD, AWS, Dell, Intel, Nvidia e Qualcomm.