A empresa de armazenamento de dados baseada em nuvem Snowflake desenvolveu um modelo de linguagem grande (LLM) de código aberto, Arctic, para enfrentar nomes como Llama 3 da Meta, a família de modelos da Mistral, Grok-1 da xAI e DBRX da Databricks.

O Arctic é voltado para tarefas empresariais, como geração de SQL, geração de código e acompanhamento de instruções, disse Snowflake na quarta-feira.

Ele pode ser acessado por meio do serviço gerenciado de aprendizado de máquina e IA da Snowflake, Cortex, para inferência sem servidor por meio de sua oferta Data Cloud e por meio de provedores de modelos como Hugging Face, Lamini, AWS, Azure, Nvidia, Perplexity e Together AI, entre outros, o disse a empresa. Os usuários corporativos podem baixá-lo do Hugging Face e obter receitas de inferência e ajuste fino do repositório Github do Snowflake, disse a empresa.

Snowflake Arctic versus outros LLMs

Fundamentalmente, o Snowflake's Arctic é muito semelhante à maioria dos outros LLMs de código aberto, que também usam a arquitetura mista de especialistas (MoE), e isso inclui DBRX. Grok-1 e Mixtral entre outros.

A arquitetura do MoE constrói um modelo de IA a partir de modelos menores treinados em diferentes conjuntos de dados e, posteriormente, esses modelos menores são combinados em um modelo que se destaca na resolução de diferentes tipos de problemas. Arctic é uma combinação de 128 modelos menores.

Uma exceção entre os modelos de código aberto no mercado é o Llama 3 da Meta, que possui uma arquitetura de modelo transformador – uma evolução da arquitetura codificador-decodificador desenvolvida pelo Google em 2017 para fins de tradução.

A diferença entre as duas arquiteturas, de acordo com Scott Rozen-Levy, diretor de prática tecnológica da empresa de serviços digitais West Monroe, é que um modelo MoE permite um treinamento mais eficiente por ser mais eficiente em termos de computação.

“O júri ainda não decidiu qual é o caminho certo para comparar a complexidade e suas implicações na qualidade dos LLMs, sejam modelos MoE ou modelos totalmente densos”, disse Rozen-Levy.

Snowflake afirma que seu modelo do Ártico supera a maioria dos modelos de código aberto e alguns modelos de código fechado com menos parâmetros e também usa menos poder de computação para treinar.

“O Arctic ativa cerca de 50% menos parâmetros que o DBRX e 75% menos que o Llama 3 70B durante inferência ou treinamento”, disse a empresa, acrescentando que usa apenas dois de seu mix de modelos especialistas por vez, ou cerca de 17 bilhões. de seus 480 bilhões de parâmetros.

DBRX e Grok-1, que possuem 132 bilhões de parâmetros e 314 bilhões de parâmetros respectivamente, também ativam menos parâmetros em qualquer entrada. Enquanto o Grok-1 usa dois de seus oito modelos MoE em qualquer entrada, o DBRX ativa apenas 36 bilhões de seus 132 bilhões de parâmetros.

No entanto, o analista-chefe da empresa de pesquisa de semicondutores Semianálise, Dylan Patel, disse que o Llama 3 ainda é significativamente melhor que o Ártico em pelo menos uma medida.

“Em termos de custo, o modelo Ártico de 475 bilhões de parâmetros é melhor em FLOPS, mas não em memória”, disse Patel, referindo-se à capacidade de computação e à memória exigidas pelo Ártico.

Além disso, disse Patel, o Arctic é realmente adequado para inferência offline, em vez de inferência online.

A inferência offline, também conhecida como inferência em lote, é um processo em que as previsões são executadas, armazenadas e posteriormente apresentadas mediante solicitação. Em contraste, a inferência online, também conhecida como inferência dinâmica, gera previsões em tempo real.

Comparando os benchmarks

O Arctic supera modelos de código aberto como DBRX e Mixtral-8x7B em benchmarks de codificação e geração de SQL como HumanEval+, MBPP+ e Spider, de acordo com Snowflake, mas não consegue superar muitos modelos, incluindo Llama 3-70B, em compreensão geral da linguagem ( MMLU), MATH e outros benchmarks.

Os especialistas afirmam que é aqui que os parâmetros extras em outros modelos, como o Llama 3, provavelmente agregarão benefícios.

“O fato de o Llama 3-70B ter um desempenho muito melhor do que o Ártico nos benchmarks GSM8K e MMLU é um bom indicador de onde o Llama 3 usou todos esses neurônios extras e onde esta versão do Ártico pode falhar”, disse Mike Finley, CTO da Answer Rocket, um fornecedor de software analítico.

“Para entender quão bem o Arctic realmente funciona, uma empresa deve testar um de seus próprios modelos de carga, em vez de depender de testes acadêmicos”, disse Finley, acrescentando que vale a pena testar se o Arctic terá um bom desempenho em esquemas específicos e dialetos SQL para uma empresa específica, embora tenha um bom desempenho no benchmark Spider.

Os usuários corporativos, de acordo com Bradley Shimmin, analista-chefe da Omdia, não deveriam se concentrar muito nos benchmarks para comparar modelos.

“A única pontuação relativamente objetiva que temos no momento é o LMSYS Arena Leaderboard, que coleta dados de interações reais do usuário. A única medida verdadeira continua sendo a avaliação empírica de um modelo in situ dentro do contexto de seu caso de uso de perspectiva”, disse Shimmin.

Por que a Snowflake está oferecendo o Arctic sob a licença Apache 2.0?

Snowflake está oferecendo o Arctic e seus outros modelos de incorporação de texto junto com modelos de código e pesos de modelo sob a licença Apache 2.0, que permite o uso comercial sem quaisquer custos de licenciamento.

Em contraste, a família de modelos Llama da Meta tem uma licença mais restritiva para uso comercial.

A estratégia de se tornar totalmente open source pode ser benéfica para a Snowflake em muitas frentes, disseram analistas.

“Com essa abordagem, Snowflake consegue manter a lógica que é verdadeiramente proprietária, ao mesmo tempo que permite que outras pessoas ajustem e melhorem os resultados do modelo. Na IA, o modelo é uma saída, não um código-fonte”, disse Hyoun Park, analista-chefe da Amalgam Insights.

“Os verdadeiros métodos e dados proprietários para IA são os processos de treinamento para o modelo, os dados de treinamento usados ​​e quaisquer métodos proprietários para otimizar hardware e recursos para o processo de treinamento”, disse Park.

A outra vantagem que Snowflake pode ver é mais interesse dos desenvolvedores, de acordo com Paul Nashawaty, líder prático de modernização e desenvolvimento de aplicativos da The Futurum Research.

“Os componentes de código aberto de seu modelo podem atrair contribuições de desenvolvedores externos, levando a melhorias, correções de bugs e novos recursos que beneficiam o Snowflake e seus usuários”, explicou o analista, acrescentando que o código aberto pode adicionar mais participação de mercado por meio de “pura boa vontade”.

Rozen-Levy, de West Monroe, também concordou com Nashawaty, mas apontou que ser pró-código aberto não significa necessariamente que a Snowflake lançará tudo o que construir sob a mesma licença.

“Talvez o Snowflake tenha modelos mais poderosos que eles não planejam lançar em código aberto. Lançar LLMs de forma totalmente aberta é talvez uma jogada moral e/ou de relações públicas contra a concentração total de IA por uma instituição”, explicou o analista.

Outros modelos do floco de neve

No início deste mês, a empresa lançou uma família de cinco modelos de embeddings de texto com diferentes tamanhos de parâmetros, alegando que estes tiveram um desempenho melhor do que outros modelos de embeddings.

Os provedores de LLM estão lançando cada vez mais diversas variantes de modelos para permitir que as empresas escolham entre latência e precisão, dependendo dos casos de uso. Embora um modelo com mais parâmetros possa ser relativamente mais preciso, aquele com menos parâmetros requer menos computação, leva menos tempo para responder e, portanto, custa menos.

“Os modelos dão às empresas uma nova vantagem ao combinar conjuntos de dados proprietários com LLMs como parte de uma geração aumentada de recuperação (RAG) ou serviço de pesquisa semântica”, escreveu a empresa em um blog, acrescentando que esses modelos foram resultado do conhecimento técnico e conhecimento obtido com a aquisição da Neeva em maio passado.

Os cinco modelos de embeddings também são de código aberto e estão disponíveis no Hugging Face para uso imediato e seu acesso via Cortex está atualmente em versão prévia.