A Microsoft está supostamente trabalhando em um novo modelo de linguagem grande (LLM) para enfrentar o Gemini do Google e o GPT-4 da OpenAI.
Com o codinome MAI-1, o novo LLM está atualmente em fase de desenvolvimento e é liderado por Mustafa Suleyman, cofundador do Google DeepMind e Inflection AI, informou The Information citando duas fontes.
Suleyman ingressou na Microsoft em março junto com Karen Simonyan, a outra cofundadora da Inflection AI, para liderar o esforço copiloto da empresa, de acordo com uma postagem no blog de autoria do presidente-executivo da Microsoft, Satya Nadella.
A Microsoft também pagou US$ 650 milhões à Inflection AI para licenciar seu software. Suleyman e Simonyan, juntamente com outros funcionários da Inflection AI que ingressam na Microsoft, fazem parte do mesmo acordo.
Embora as fontes citadas pelas informações não tenham revelado o propósito por trás da construção do LLM de 500 bilhões de parâmetros, eles disseram que o novo LLM poderia ser apresentado na conferência Build da empresa no final deste mês.
Alegadamente, a empresa está dedicando uma enorme quantidade de recursos computacionais para treinar o modelo, inclusive usando dados da internet e dados gerados a partir do GPT-4.
Para colocar as coisas em contexto, o GPT-4 da OpenAI supostamente tem 1,76 trilhão de parâmetros e a empresa gastou mais de US$ 100 milhões em recursos computacionais para treiná-lo.
Embora a Microsoft possa estar trabalhando no modelo gigante, a empresa lançou no mês passado uma nova família de modelos de linguagem pequena (SLMs) – família Phi-3 – como parte de seu plano para disponibilizar tecnologia de IA generativa leve, mas de alto desempenho, em mais plataformas. , incluindo dispositivos móveis.
A família Phi-3 consiste em três modelos – o Phi-3 Mini de 3,8 bilhões de parâmetros, o Phi-3 Small de 7 bilhões de parâmetros e o Phi-3 Medium de 14 bilhões de parâmetros.
Nos últimos meses, assistimos a uma enxurrada de LLMs anunciados por vários fornecedores, como Snowflake, Databricks, Cohere, Mistral, Anthropic, Meta, Google e AWS.
Enquanto a Snowflake lançou seu Arctic LLM, a Databricks lançou seu modelo DBRX. Separadamente, a Meta lançou seu modelo Llama 3. Poucos dias depois, a Cohere lançou iterações de sua família de modelos Command.