Ultimamente, tenho abordado a superengenharia e o superprovisionamento de recursos em suporte à IA, tanto na nuvem quanto fora dela. Arquitetos de IA estão colocando processadores de alta potência, como GPUs, em suas listas de compras de plataforma de IA, sem parar para considerar se eles retornarão valor comercial.
Eu me vi em mais do que algumas divergências acaloradas com outros arquitetos de TI sobre o uso desses recursos para IA. Parece haver dois campos se formando: primeiro, o campo que acredita que a IA precisará de todo o poder de processamento e armazenamento que podemos pagar agora. Eles reforçam os sistemas antes da necessidade. Dinheiro e pegada de carbono não precisam ser considerados.
Segundo, o campo que está configurando uma plataforma mínima viável (MVP) que pode suportar as funções principais dos sistemas de IA. A ideia é mantê-la o mais enxuta possível e usar plataformas de menor potência, como edge e computação móvel.
Quem está certo?
A tendência de ir pequeno
À medida que avançamos para a segunda metade de 2024, fica claro que uma mudança de paradigma está remodelando o cenário: a IA está reduzindo seu apetite por hardware. Em uma era em que a eficiência digital reina suprema, as tecnologias de IA de ponta de hoje estão eliminando dependências de recursos volumosas e se transformando em modelos enxutos e ágeis.
A narrativa tradicional para o desenvolvimento de IA há muito tempo é de alta demanda. No entanto, a narrativa está passando por uma reescrita dramática, em grande parte graças aos novos avanços em algoritmos de IA e design de hardware.
O desenvolvimento de arquiteturas de rede neural mais eficientes, como transformadores e algoritmos de compressão sem perdas, desempenhou um papel fundamental. Essas inovações reduziram os dados necessários para treinamento e inferência, reduzindo assim o esforço computacional. Essa tendência está reduzindo significativamente a barreira de entrada e oferecendo plataformas muito menores e mais acessíveis, dentro ou fora da nuvem.
Mais eficiente e econômico
Um marco crítico nessa evolução foi o advento de processadores de IA especializados, como unidades de processamento tensor (TPUs) e unidades de processamento neural (NPUs). Diferentemente de suas contrapartes genéricas, como GPUs, esses processadores são otimizados para as demandas específicas de cargas de trabalho de IA. Eles realizam mais computações por watt, o que se traduz em melhor desempenho com menor consumo de energia.
Provavelmente veremos processadores mais eficientes e econômicos, já que os bilhões de dólares que fluem para o espaço do processador criam melhores opções do que GPUs extremamente caras. Mais poder de processamento menor e, portanto, IA centrada em dispositivos é para onde os sistemas de IA estão indo. Não é tão focado nos principais modelos de grandes linguagens (LLMs) que definem o espaço de IA generativa.
Como mencionei muitas vezes, as empresas não criarão LLMs para suas implementações de IA; pelos próximos anos, serão modelos menores e casos de uso tático. É aí que os investimentos precisam ser feitos.
Na frente de software, frameworks como TensorFlow Lite e ONNX permitem que os desenvolvedores criem modelos de IA de alta eficiência que são dimensionados adequadamente para dispositivos de ponta. O foco em torno do desenvolvimento de sistemas de IA parece estar mudando aqui; as empresas estão encontrando mais benefícios na construção de sistemas de IA mais leves que podem fornecer mais valor comercial com menos investimento.
É preciso reconhecer a mágica tecida pela computação de ponta. Essa noção outrora futurística agora é uma realidade, levando o processamento de dados para a periferia da rede. Ao aproveitar dispositivos de ponta — que vão de gadgets de IoT a smartphones — as cargas de trabalho de IA estão se tornando mais distribuídas e descentralizadas. Isso alivia o congestionamento de largura de banda e os problemas de latência e dá suporte a uma tendência para processadores minimalistas, mas poderosos.
Maior nem sempre é melhor
Avançando para 2024, nossa dependência de infraestruturas de dados massivas está evaporando constantemente. Sistemas complexos de IA funcionam perfeitamente em dispositivos que cabem na palma da sua mão. Eles não são LLMs e não fingem ser LLMs, mas podem contatar LLMs quando necessário e podem processar 95% do que precisam processar no dispositivo. Essa é a ideia por trás dos recursos de inteligência da Apple ainda a serem implantados que serão entregues na próxima versão do iOS. Claro, isso pode ter a intenção de impulsionar atualizações do iPhone em vez de impulsionar mais eficiência para a IA.
Considere o avanço da inteligência incorporada em smartphones. Processadores como o A16 Bionic da Apple e o Snapdragon 8 Gen 2 da Qualcomm têm capacidades de IA integradas, estimulando uma revolução na computação móvel. Esses chips têm aceleradores de aprendizado de máquina que gerenciam tarefas como tradução de idiomas em tempo real, jogos baseados em realidade aumentada e processamento sofisticado de fotos.
Além disso, os modelos de IA agora podem ser “aparados” sem perder eficácia. A quantização, a poda e a destilação de conhecimento do modelo permitem que os designers reduzam os modelos e os simplifiquem para implantação em ambientes com recursos limitados.
Isso empurra para trás a narrativa atual. A maioria das grandes empresas de consultoria e tecnologia está impulsionando parcerias com provedores de processadores. Isso será um sino difícil de desfazer. Estamos preocupados quando as decisões são baseadas mais em obrigações comerciais do que em requisitos comerciais, e continuamos tentando enfiar GPUs caras e que consomem muita energia em nuvens e data centers? Esperamos que as empresas criem e operem enormes sistemas de IA que queimam o dobro de energia e custam o dobro de dinheiro do que atualmente. Esse é um resultado assustador.
Isso não significa que vamos limitar o poder que a IA precisa. Devemos nos preocupar em dimensionar corretamente nossos recursos e usar a IA de forma mais eficiente. Não estamos em uma corrida para ver quem pode construir o maior e mais poderoso sistema. Trata-se de adicionar valor comercial adotando uma abordagem minimalista para essa tecnologia.