Fale com qualquer pessoa sobre IA generativa na nuvem e a conversa irá rapidamente para GPUs (unidades de processamento gráfico). Mas isso poderia ser um objetivo falso. As GPUs não importam tanto quanto as pessoas pensam e, em alguns anos, a conversa provavelmente mudará para o que é muito mais crítico para o desenvolvimento e implantação de sistemas generativos de IA na nuvem.
A suposição atual é que as GPUs são indispensáveis para facilitar os cálculos complexos exigidos pelos modelos generativos de IA. Embora as GPUs tenham sido fundamentais no avanço da IA, enfatizá-las demais pode prejudicar a exploração e o aproveitamento de alternativas igualmente eficazes e potencialmente mais sustentáveis. Na verdade, as GPUs podem rapidamente tornar-se mercadorias, tal como outros recursos de que os sistemas de IA necessitam, como espaço de armazenamento e processamento. O foco deve estar no projeto e na implantação desses sistemas, e não apenas no hardware em que eles são executados. Me chame de louco.
Corrida do ouro da GPU
A importância das GPUs funcionou bem para a Nvidia, uma empresa à qual a maioria das pessoas não prestava muita atenção até agora. Em seu trimestre mais recente, a Nvidia registrou receita recorde de data center de US$ 14,5 bilhões, um aumento de 41% em relação ao trimestre anterior e 279% em relação ao trimestre do ano anterior. Suas GPUs são agora o padrão no processamento de IA, ainda mais do que em jogos.
Mais do que a explosão das ações da Nvidia, não dá para abrir as redes sociais sem ver alguém tirando uma selfie com Jensen Huang, CEO da Nvidia. Além disso, todo mundo fez parceria com a Nvidia, administrando orçamentos multimilionários para se aproximar desta empresa e tecnologia de alto crescimento.
Projetadas inicialmente para acelerar gráficos 3D em jogos na década de 1990, as GPUs evoluíram desde suas origens. A arquitetura inicial da GPU era altamente especializada para cálculos gráficos e usada principalmente para renderizar imagens e lidar com tarefas intensivas de processamento paralelo associadas à renderização 3D. Isso os torna uma boa opção para IA, uma vez que são adeptos de tarefas que exigem cálculos simultâneos.
As GPUs são realmente importantes?
As GPUs requerem um chip host para orquestrar as operações. Embora isso simplifique a complexidade e a capacidade das arquiteturas modernas de GPU, também é menos eficiente do que poderia ser. As GPUs operam em conjunto com CPUs (o chip host), que transferem tarefas específicas para as GPUs. Além disso, esses chips host gerenciam a operação geral dos programas de software.
Somando-se a esta questão da eficiência está a necessidade de comunicações entre processos; desafios com a desmontagem de modelos, processamento deles em partes e, em seguida, remontagem dos resultados para análise ou inferência abrangente; e as complexidades inerentes ao uso de GPUs para aprendizado profundo e IA. Esse processo de segmentação e reintegração faz parte da distribuição de tarefas de computação para otimizar o desempenho, mas traz consigo suas próprias questões de eficiência.
São necessárias bibliotecas de software e estruturas projetadas para abstrair e gerenciar essas operações. Tecnologias como CUDA (Compute Unified Device Architecture) da Nvidia fornecem o modelo de programação e o kit de ferramentas necessários para desenvolver software que possa aproveitar os recursos de aceleração de GPU.
A principal razão para o grande interesse na Nvidia é que ela fornece um ecossistema de software que permite que as GPUs trabalhem de forma mais eficiente com aplicativos, incluindo jogos, aprendizado profundo e IA generativa. Sem estes ecossistemas, CUDA e outros não teriam o mesmo potencial. Assim, o destaque está na Nvidia, que por enquanto possui tanto o processador quanto o ecossistema.
Alternativas no horizonte
Não estou dizendo que as GPUs Nvidia sejam uma tecnologia ruim. Claramente eles são eficazes. O argumento é que ter a camada de processamento como o foco principal na construção e implantação de sistemas generativos de IA na nuvem é uma distração.
Suspeito que em dois anos as GPUs certamente ainda estarão em cena, mas a empolgação com elas já terá passado. Em vez disso, estaremos focados na eficiência da inferência, na melhoria contínua do modelo e em novas maneiras de gerenciar algoritmos e dados.
A ascensão meteórica da Nvidia fez com que os investidores corressem atrás de seus talões de cheques para investir em quaisquer alternativas potenciais para atuar nesse mercado. Os concorrentes aparentes no momento são AMD e Intel. A Intel, por exemplo, está buscando uma alternativa de GPU com seu processador Gaudi 3. O mais interessante é que várias startups afirmam ter criado melhores maneiras de processar grandes modelos de linguagem. Uma pequena lista dessas empresas inclui SambaNova, Cerebras, GraphCore, Groq e xAI.
É claro que essas empresas não estão apenas procurando construir chips e ecossistemas de software para esses chips, muitas estão trabalhando para fornecer micronuvens ou pequenos provedores de nuvem que oferecerão suas alternativas de GPU como serviço, assim como AWS, Microsoft e Google fazem hoje com GPUs disponíveis. A lista de provedores de nuvem de GPU está crescendo a cada dia, a julgar pelo número de agências de relações públicas batendo à minha porta em busca de atenção.
Embora estejamos apenas revendendo o processamento de GPU da Nvidia, você pode contar com essas mesmas micronuvens para adotar novos análogos de GPU à medida que chegam ao mercado, considerando que são mais baratos, mais eficientes e exigem menos energia. Se isso ocorrer, eles substituirão rapidamente qualquer processador menos avançado. Além do mais, se o desempenho e a confiabilidade estiverem presentes, realmente não nos importamos com a marca do processador, ou mesmo com a arquitetura que ele emprega. Nesse mundo, duvido que procuremos selfies com os CEOs dessas empresas. É apenas um componente de um sistema que funciona.
Às vezes, GPUs não são necessárias
É claro que, como abordei aqui, as GPUs nem sempre são necessárias para IA generativa ou outro processamento de IA. Modelos menores podem funcionar com eficiência em CPUs tradicionais ou outro hardware especializado e ser mais eficientes em termos de custos e energia.
Muitas das minhas arquiteturas generativas de IA usaram CPUs tradicionais sem impacto significativo no desempenho. Claro, depende do que você está tentando fazer. A maioria das implantações empresariais de IA generativa exigirá menos energia, e suspeito que muitos dos atuais projetos de IA generativa que insistem em usar GPUs são muitas vezes um exagero.
Eventualmente, entenderemos melhor quando as GPUs (ou seus análogos) devem ser usadas e quando não são necessárias. No entanto, tal como estamos a ver com a inflação da nuvem, as empresas podem aprovisionar em excesso o poder de processamento dos seus sistemas de IA e não se importarão até verem a conta. Ainda não chegámos ao ponto em que estamos demasiado preocupados com a otimização de custos dos sistemas generativos de IA, mas teremos de prestar contas em algum momento.
Ok, Linthicum está sendo um buzzkill novamente. Acho que estou, mas por um bom motivo. Estamos prestes a entrar em um momento de muitas mudanças e transformações no uso da tecnologia de IA que impactarão o avanço da TI. O que me mantém acordado à noite é que a indústria de TI está sendo distraída por outro objeto brilhante. Isso normalmente não termina bem.