Microsoft revela família Phi-3 de modelos de linguagem pequena

A Microsoft introduziu uma nova família de modelos de linguagem pequena (SLMs) como parte de seu plano para disponibilizar tecnologia de inteligência artificial generativa leve, mas de alto desempenho, em mais plataformas, incluindo dispositivos móveis.

A empresa revelou a plataforma Phi-3 em três modelos: o Phi-3 Mini de 3,8 bilhões de parâmetros, o Phi-3 Small de 7 bilhões de parâmetros e o Phi-3 Medium de 14 bilhões de parâmetros. Os modelos constituem a próxima iteração da linha de produtos SLM da Microsoft, que começou com o lançamento do Phi-1 e depois do Phi-2 em rápida sucessão em dezembro passado.

O Phi-3 da Microsoft baseia-se no Phi-2, que pode compreender 2,7 bilhões de parâmetros e ao mesmo tempo superar modelos de linguagem grandes (LLMs) até 25 vezes maiores, disse a Microsoft na época. Os parâmetros referem-se a quantas instruções complexas um modelo de linguagem pode compreender. Por exemplo, o grande modelo de linguagem GPT-4 da OpenAI compreende potencialmente mais de 1,7 trilhão de parâmetros. A Microsoft é uma importante detentora de ações e parceira da OpenAI e usa ChatGPT como base para seu assistente de IA generativa Copilot.

IA generativa torna-se móvel

Phi-3 Mini já está disponível, com os outros a seguir. O Phi-3 pode ser quantizado em 4 bits, ocupando apenas cerca de 1,8 GB de memória, o que o torna adequado para implantação em dispositivos móveis, revelaram pesquisadores da Microsoft em um relatório técnico sobre o Phi-3 publicado online.

Na verdade, os pesquisadores da Microsoft já testaram com sucesso o modelo Phi-3 Mini quantizado, implantando-o em um iPhone 14 com um chip A16 Bionic rodando nativamente. Mesmo com esse tamanho pequeno, o modelo alcançou desempenho geral, medido tanto por benchmarks acadêmicos quanto por testes internos, que rivaliza com modelos como Mixtral 8x7B e GPT-3.5, disseram os pesquisadores da Microsoft.

Phi-3 foi treinado em uma combinação de dados da web “fortemente filtrados” de várias fontes abertas da Internet, bem como dados sintéticos gerados pelo LLM. A Microsoft realizou o pré-treinamento em duas fases, uma das quais consistia principalmente de fontes da web destinadas a ensinar ao modelo conhecimentos gerais e compreensão do idioma. A segunda fase mesclou dados da web ainda mais filtrados com alguns dados sintéticos para ensinar ao modelo o raciocínio lógico e várias habilidades de nicho, disseram os pesquisadores.

Negociar “maior é melhor” por “menos é mais”

As centenas de bilhões e até trilhões de parâmetros que os LLMs devem compreender para produzir resultados têm um custo, e esse custo é o poder computacional. Os fabricantes de chips que lutam para fornecer processadores para IA generativa já prevêem uma luta para acompanhar a rápida evolução dos LLMs.

Phi-3, então, é uma manifestação de uma tendência contínua no desenvolvimento da IA de abandonar a mentalidade “quanto maior, melhor” e, em vez disso, procurar mais especialização nos conjuntos de dados mais pequenos nos quais os SLMs são treinados. Esses modelos fornecem uma opção mais barata e com menor uso intensivo de computação, que ainda pode oferecer alto desempenho e recursos de raciocínio iguais ou até melhores que os LLMs, disse a Microsoft.

“Os modelos de linguagem pequena são projetados para funcionar bem em tarefas mais simples, são mais acessíveis e fáceis de usar para organizações com recursos limitados e podem ser mais facilmente ajustados para atender a necessidades específicas”, observou Ritu Jyoti, vice-presidente do grupo mundial pesquisa de inteligência artificial e automação para IDC “Em outras palavras, eles são muito mais econômicos do que os LLMs.”

Muitas instituições financeiras, empresas de comércio eletrônico e organizações sem fins lucrativos já estão adotando o uso de modelos menores devido à personalização que podem oferecer, como o treinamento específico nos dados de um cliente, observou Narayana Pappu, CEO da Zendata, um provedor de soluções de segurança de dados e conformidade de privacidade.

Esses modelos também podem fornecer mais segurança para as organizações que os utilizam, já que SLMs especializados podem ser treinados sem abrir mão dos dados confidenciais da empresa.

Outros benefícios dos SLMs para usuários corporativos incluem uma menor probabilidade de alucinações – ou entrega de dados errôneos – e menores requisitos de dados e pré-processamento, tornando-os mais fáceis de integrar no fluxo de trabalho legado da empresa, acrescentou Pappu.

O surgimento dos SLMs não significa que os LLMs seguirão o caminho dos dinossauros. Significa apenas mais opções para os clientes “decidirem qual é o melhor modelo para seu cenário”, disse Jyoti.

“Alguns clientes podem precisar apenas de modelos pequenos, alguns precisarão de modelos grandes e muitos vão querer combinar ambos de várias maneiras”, acrescentou ela.

Não é uma ciência perfeita – ainda

Embora os SLMs tenham certas vantagens, eles também têm suas desvantagens, reconheceu a Microsoft em seu relatório técnico. Os pesquisadores observaram que Phi-3, como a maioria dos modelos de linguagem, ainda enfrenta “desafios em torno de imprecisões factuais (ou alucinações), reprodução ou amplificação de preconceitos, geração inadequada de conteúdo e questões de segurança”.

E apesar do seu alto desempenho, o Phi-3 Mini tem limitações devido ao seu tamanho menor. “Embora o Phi-3 Mini atinja um nível semelhante de compreensão da linguagem e capacidade de raciocínio como modelos muito maiores, ainda é fundamentalmente limitado pelo seu tamanho para determinadas tarefas”, afirma o relatório.

Por exemplo, o Phi-3 Mini não tem capacidade para armazenar grandes quantidades de “conhecimento factual”. No entanto, esta limitação pode ser aumentada emparelhando o modelo com um motor de busca, observaram os investigadores. Outra fraqueza relacionada com a capacidade do modelo é que os investigadores restringiram principalmente o idioma ao inglês, embora esperem que futuras iterações incluam mais dados multilingues.

Ainda assim, as pesquisas da Microsoft observaram que eles selecionaram cuidadosamente os dados de treinamento e se envolveram em testes para garantir que eles mitigavam “significativamente” esses problemas “em todas as dimensões”, acrescentando que “há um trabalho significativo pela frente para enfrentar plenamente esses desafios”.