A grande maioria dos líderes empresariais (98%) reconhece a importância estratégica da IA, com quase 65% a planear maiores investimentos. Espera-se que os gastos globais com IA atinjam 300 mil milhões de dólares até 2026. Também até 2026, o uso de eletricidade pela IA poderá aumentar dez vezes, de acordo com a Agência Internacional de Energia. Claramente, a IA apresenta às empresas um duplo desafio: maximizar as capacidades da IA e, ao mesmo tempo, minimizar o seu impacto ambiental.
Só nos Estados Unidos, espera-se que o consumo de energia pelos data centers duplique até 2030, atingindo 35 GW (gigawatts), principalmente devido à crescente procura por tecnologias de IA. Esse aumento é em grande parte impulsionado pela implantação de racks prontos para IA, que consomem excessivos 40 kW a 60 kW (quilowatts) cada, devido aos seus processos intensivos em GPU.
Existem três estratégias principais disponíveis para enfrentar eficazmente estes desafios energéticos iminentes:
- Selecionar os recursos computacionais certos para cargas de trabalho de IA, com foco na distinção entre necessidades de treinamento e inferência.
- Otimizando o desempenho e a eficiência energética nas áreas ocupadas pelos data centers existentes.
- Promover o desenvolvimento sustentável da IA através de esforços colaborativos em todo o ecossistema.
CPUs versus GPUs para cargas de trabalho de inferência de IA
Ao contrário da crença comum, as práticas sustentáveis de IA mostram que as CPUs, e não apenas as GPUs de alta potência, são adequadas para a maioria das tarefas de IA. Por exemplo, 85% da computação de IA é usada para inferência e não requer GPU.
Para tarefas de inferência de IA, as CPUs oferecem uma combinação equilibrada de desempenho, eficiência energética e economia. Eles lidam habilmente com tarefas de inferência diversas e menos intensivas, tornando-os particularmente eficientes em termos energéticos. Além disso, a sua capacidade de processar tarefas paralelas e de se adaptar a exigências flutuantes garante uma utilização ideal da energia, o que é crucial para manter a eficiência. Isto contrasta fortemente com as GPUs que consomem mais energia, que se destacam no treinamento de IA devido às suas capacidades de alto desempenho, mas muitas vezes permanecem subutilizadas entre tarefas intensivas.
Além disso, os menores gastos energéticos e financeiros associados às CPUs tornam-nas uma opção preferível para organizações que buscam operações sustentáveis e econômicas. Aumentando ainda mais esta vantagem, as bibliotecas de otimização de software adaptadas para arquiteturas de CPU reduzem significativamente as demandas de energia. Essas bibliotecas otimizam as tarefas de inferência de IA para serem executadas com mais eficiência, alinhando os processos computacionais com as características operacionais da CPU para minimizar o uso desnecessário de energia.
Da mesma forma, os desenvolvedores empresariais podem utilizar ferramentas de software de ponta que melhoram o desempenho da IA nas CPUs. Essas ferramentas integram-se perfeitamente com estruturas de IA comuns, como TensorFlow e ONNX, ajustando automaticamente modelos de IA para desempenho ideal da CPU. Isto não só agiliza o processo de implantação, mas também elimina a necessidade de ajustes manuais em diferentes plataformas de hardware, simplificando o fluxo de trabalho de desenvolvimento e reduzindo ainda mais o consumo de energia.
Por último, a otimização de modelos complementa estas ferramentas de software, refinando os modelos de IA para eliminar parâmetros desnecessários, criando modelos mais compactos e eficientes. Este processo de poda não apenas mantém a precisão, mas também reduz a complexidade computacional, diminuindo a energia necessária para o processamento.
Escolhendo a computação certa para cargas de trabalho de IA
Para que as empresas aproveitem totalmente os benefícios da IA e, ao mesmo tempo, mantenham a eficiência energética, é fundamental combinar estrategicamente os recursos da CPU com prioridades específicas de IA. Isso envolve várias etapas:
- Identifique as prioridades de IA: comece identificando os modelos de IA mais críticos para a empresa, considerando fatores como volume de uso e importância estratégica.
- Definir requisitos de desempenho: Estabeleça critérios de desempenho claros, concentrando-se em aspectos essenciais como latência e tempo de resposta, para atender eficazmente às expectativas do usuário.
- Avalie soluções especializadas: procure soluções de CPU que não apenas se destaquem no tipo específico de IA necessária, mas que também atendam aos benchmarks de desempenho definidos, garantindo que possam lidar com a carga de trabalho necessária com eficiência.
- Dimensione com eficiência: Depois que as necessidades de desempenho forem atendidas, considere a escalabilidade da solução e sua capacidade de processar um número crescente de solicitações. Opte por CPUs que ofereçam o melhor equilíbrio entre rendimento (inferências por segundo) e consumo de energia.
- Dimensione a solução corretamente: Evite a armadilha de selecionar a solução mais poderosa e cara sem avaliar as necessidades reais. É crucial dimensionar corretamente a infraestrutura para evitar gastos desnecessários e garantir que ela possa ser dimensionada de forma eficiente à medida que a procura cresce.
- Considere a flexibilidade futura: Aconselha-se cautela contra soluções excessivamente especializadas que podem não se adaptar bem às mudanças futuras na demanda ou tecnologia de IA. As empresas devem preferir soluções versáteis que possam suportar uma série de tarefas de IA para evitar a obsolescência futura.
Os data centers representam atualmente cerca de 4% do consumo global de energia, um número que o crescimento da IA ameaça aumentar significativamente. Muitos data centers já implantaram um grande número de GPUs, que consomem muita energia e sofrem com restrições térmicas.
Por exemplo, GPUs como o H100 da Nvidia, com 80 bilhões de transistores, levam o consumo de energia a extremos, com algumas configurações ultrapassando 40kW. Como resultado, os data centers devem empregar resfriamento por imersão, um processo que submerge o hardware em um líquido termicamente condutor. Embora seja eficaz na remoção de calor e permita densidades de energia mais elevadas, este método de arrefecimento consome energia adicional, obrigando os centros de dados a alocar 10% a 20% da sua energia exclusivamente para esta tarefa.
Por outro lado, as CPUs com eficiência energética oferecem uma solução promissora para se preparar para o futuro contra as crescentes necessidades de eletricidade impulsionadas pela rápida expansão de aplicações complexas de IA. Empresas como Scaleway e Oracle estão liderando essa tendência ao implementar métodos de inferência de IA baseados em CPU que reduzem drasticamente a dependência de GPUs tradicionais. Esta mudança não só promove práticas mais sustentáveis, mas também mostra a capacidade das CPUs de lidar com eficiência com tarefas exigentes de IA.
Para ilustrar, a Oracle executou com sucesso modelos generativos de IA com até sete bilhões de parâmetros, como o modelo Llama 2, diretamente nas CPUs. Esta abordagem demonstrou benefícios significativos em eficiência energética e poder computacional, estabelecendo uma referência para o gerenciamento eficaz de cargas de trabalho modernas de IA sem consumo excessivo de energia.
Combinando CPUs com desempenho e necessidades de energia
Dada a eficiência energética superior das CPUs no tratamento de tarefas de IA, devemos considerar a melhor forma de integrar estas tecnologias nos centros de dados existentes. A integração de novas tecnologias de CPU exige uma consideração cuidadosa de vários fatores-chave para garantir que o desempenho e a eficiência energética sejam otimizados:
- Alta utilização: Selecione uma CPU que evite contenção de recursos e elimine gargalos de tráfego. Os principais atributos incluem uma alta contagem de núcleos, o que ajuda a manter o desempenho sob cargas pesadas. Isto também impulsiona o processamento altamente eficiente de tarefas de IA, oferecendo melhor desempenho por watt e contribuindo para a economia geral de energia. A CPU também deve fornecer quantidades significativas de cache privado e uma arquitetura que suporte núcleos de thread único.
- Recursos específicos de IA: opte por CPUs que possuam recursos integrados adaptados para processamento de IA, como suporte para formatos numéricos de IA comuns, como INT8, FP16 e BFloat16. Esses recursos permitem um processamento mais eficiente de cargas de trabalho de IA, melhorando o desempenho e a eficiência energética.
- Considerações econômicas: A atualização para soluções baseadas em CPU pode ser mais econômica do que manter ou expandir sistemas baseados em GPU, especialmente devido ao menor consumo de energia e aos requisitos de resfriamento das CPUs.
- Simplicidade de integração: as CPUs oferecem um caminho direto para atualizar os recursos do data center. Ao contrário dos requisitos complexos para integração de GPUs de alta potência, as CPUs muitas vezes podem ser integradas à infraestrutura existente do data center — incluindo redes e sistemas de energia — com facilidade, simplificando a transição e reduzindo a necessidade de mudanças extensas na infraestrutura.
Ao nos concentrarmos nessas considerações principais, podemos equilibrar efetivamente o desempenho e a eficiência energética em nossos data centers, garantindo uma infraestrutura econômica e preparada para o futuro, preparada para atender às demandas computacionais de futuras aplicações de IA.
Avanços na tecnologia de CPU para IA
As alianças industriais de IA, como a AI Platform Alliance, desempenham um papel crucial no avanço da tecnologia de CPU para aplicações de inteligência artificial, concentrando-se na melhoria da eficiência energética e do desempenho através de esforços colaborativos. Essas alianças reúnem uma gama diversificada de parceiros de vários setores da pilha de tecnologia – incluindo CPUs, aceleradores, servidores e software – para desenvolver soluções interoperáveis que abordem desafios específicos de IA. Este trabalho abrange desde a edge computing até grandes data centers, garantindo que as implantações de IA sejam sustentáveis e eficientes.
Essas colaborações são particularmente eficazes na criação de soluções otimizadas para diferentes tarefas de IA, como visão computacional, processamento de vídeo e IA generativa. Ao reunir conhecimentos e tecnologias de diversas empresas, estas alianças visam criar as melhores soluções que proporcionam um desempenho ideal e uma eficiência energética notável.
Esforços cooperativos, como a AI Platform Alliance, alimentam o desenvolvimento de novas tecnologias de CPU e designs de sistemas que são projetados especificamente para lidar com eficiência com as demandas das cargas de trabalho de IA. Estas inovações conduzem a poupanças de energia significativas e impulsionam o desempenho global das aplicações de IA, destacando os benefícios substanciais da colaboração em toda a indústria na condução dos avanços tecnológicos.
Jeff Wittich é diretor de produtos da Ampere Computing.
–
Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].