Meta continua sua captura de computação enquanto a corrida de IA da agência acelera para uma corrida.
Hoje, a empresa anunciou uma parceria com a Amazon Web Services (AWS) que trará “dezenas de milhões” de núcleos AWS Graviton5 (um chip contém 192 núcleos) ao seu portfólio de computação, com a opção de expansão à medida que suas capacidades de IA crescem. Isso fará da construtora Llama um dos maiores clientes da Graviton no mundo.
A mudança se baseia nas parcerias expansivas da Meta com quase todos os provedores de chips e computação do setor. Ele está trabalhando com Nvidia, Arm e AMD, além de construir seu próprio chip interno de treinamento e acelerador de inferência.
“É muito difícil acompanhar o que a Meta está fazendo, com todos esses negócios e anúncios de chips em torno do desenvolvimento interno”, disse Matt Kimball, vice-presidente e analista principal da Moor Insights & Strategy. Isso cria “tempos emocionantes que nos mostram o quão incrivelmente valioso o silício é agora”.
Controlando o sistema, não apenas a escala
Unidades de processamento gráfico (GPUs) são essenciais para o treinamento de modelos de linguagem grande (LLM), mas a IA de agente requer uma capacidade de carga de trabalho totalmente nova. CPUs como o Graviton5 estão enfrentando esse desafio, suportando cargas de trabalho intensivas, como raciocínio em tempo real, tarefas de várias etapas, treinamento de modelo de fronteira, geração de código e pesquisa profunda.
A AWS afirma que o Graviton5 tem a capacidade de lidar com “bilhões de interações” e coordenar tarefas de agente complexas e em vários estágios. Ele foi desenvolvido no AWS Nitro System para oferecer suporte a alto desempenho, disponibilidade e segurança.
“Trata-se realmente de controle do sistema de IA, não apenas de escala”, disse Kimball. À medida que a IA evolui em direção a cargas de trabalho persistentes e de agente, o papel da CPU torna-se “bastante significativo”; ele serve como plano de controle, lidando com orquestração, gerenciamento de memória, agendamento e outras tarefas intensivas em aceleradores.
“Isso é especialmente verdadeiro em ambientes de agência, onde as cargas de trabalho serão menos lineares e com mais estado”, destacou. Portanto, garantir o fornecimento desses recursos faz sentido.
Refletindo a abordagem diversificada da Meta em relação ao hardware
O acordo baseia-se na parceria de longa data da Meta com a AWS, mas também reflete o que a empresa chama de “abordagem diversificada” à infraestrutura. “Nenhuma arquitetura de chip único pode atender com eficiência todas as cargas de trabalho”, enfatizou a empresa.
Provando isso, a Meta anunciou recentemente quatro novas gerações de seu chip acelerador de treinamento e inferência MTIA e assinou um grande acordo com a AMD para explorar CPUs e aceleradores de IA no valor de 6 GW. Ela também firmou uma parceria plurianual com a Nvidia para acessar milhões de GPUs Blackwell e Rubin e para integrar switches Ethernet Nvidia Spectrum-X em sua plataforma, e também foi um dos primeiros grandes clientes de CPU da Arm.
Na sequência de tudo isto, Nabeel Sherif, principal diretor consultivo do Info-Tech Research Group, colocou a questão candente: “O que vão fazer com toda esta capacidade?”
Principalmente, apoiará a experimentação e inovação interna da Meta, disse ele, mas também estabelecerá as bases e fornecerá a capacidade para a Meta oferecer ao mercado seus próprios serviços de IA de agência, por exemplo, seu modelo Llama AI como uma API.
“A aparência desses (serviços) e quais plataformas e ferramentas eles usarão, bem como quais proteções eles fornecerão aos usuários, ainda não está claro, mas será interessante ver isso se desenvolver”, disse Sherif.
A capacidade expandida permitirá uma diversidade de casos de uso e experimentação em diversas arquiteturas e plataformas, disse ele. A Meta terá muitas opções e acesso ao fornecimento num ambiente atualmente caracterizado não apenas por uma ampla variedade de novas abordagens de CPU, mas por restrições significativas na cadeia de fornecimento. O acordo AWS deve ser visto como um complemento às suas parcerias e investimentos em outras plataformas como ARM, Nvidia e AMD.
Kimball concordou que a mudança é “definitivamente aditiva”, e não uma substituição ou substituição. Meta não está abandonando GPUs ou aceleradores, está construindo em torno deles. “Trata-se de montar um sistema heterogêneo, e não de escolher um único vencedor”, disse ele. “Na verdade, penso que para a maioria, a heterogeneidade é crítica para o sucesso a longo prazo.”
A Nvidia ainda domina o treinamento e muitas inferências, enquanto a AMD está se tornando “cada vez mais relevante em escala”, observou Kimball. Enquanto isso, o Arm, seja por meio de CPU, silício personalizado ou outros esforços, fornece controle arquitetônico à Meta, e o Graviton5 se encaixa nessa combinação como uma “camada de computação de uso geral com custo e eficiência otimizada”.
Uma questão de estratégia
A questão mais interessante é em torno da estratégia: isso sinaliza que a Meta está se tornando um provedor de computação? Kimball não pensa assim, observando que é provável que a empresa não esteja procurando competir diretamente com os hiperescaladores como uma nuvem de uso geral. “Trata-se mais de integração vertical de sua própria pilha de IA”, disse ele.
A mudança dá-lhes a capacidade de suportar cargas de trabalho internas de forma mais eficiente, bem como fornece a base de infraestrutura para expor mais dessa capacidade externamente, seja através de APIs, parcerias ou outros meios, disse ele.
E há aqui também uma dinâmica de custos, observou Kimball. À medida que a inferência se torna persistente, especialmente com sistemas de agentes, a economia muda do pico de operações de ponto flutuante por segundo (FLOPS) (uma medida de desempenho computacional) e em direção à eficiência sustentada e ao custo total de propriedade (TCO).
CPUs como o Graviton5 estão bem posicionadas para as partes dessa carga de trabalho que não requerem aceleradores, mas que ainda precisam funcionar continuamente. “Na escala da Meta, mesmo pequenos ganhos de eficiência por carga de trabalho aumentam rapidamente”, destacou Kimball.
Para desenvolvedores e TI empresarial, o sinal é bastante claro, observou ele: a pilha de IA está ficando mais heterogênea, e não menos. As empresas verão um acoplamento mais estreito entre CPUs, GPUs e aceleradores especializados, com cargas de trabalho cada vez mais divididas entre eles com base no comportamento (pré-preenchimento versus decodificação, sem estado versus com estado, burst versus persistente).
“A implicação é que as decisões de infraestrutura precisam se tornar mais conscientes da carga de trabalho”, disse Kimball. “É menos sobre ‘qual nuvem?’ e mais sobre ‘onde esta parte específica do aplicativo é executada com mais eficiência?’”
Este artigo foi publicado originalmente no NetworkWorld.
