Historicamente, grandes modelos de linguagem (LLMs) exigiram recursos computacionais substanciais. Isso significa que o desenvolvimento e a implantação estão confinados principalmente a sistemas centralizados poderosos, como provedores de nuvem pública. No entanto, embora muitas pessoas acreditem que precisamos de grandes quantidades de GPUs vinculadas a grandes quantidades de armazenamento para executar IA generativa, na verdade, existem métodos para usar uma arquitetura em camadas ou particionada para gerar valor para casos de uso de negócios específicos.
De alguma forma, está no espírito da IA generativa que a computação de ponta não funcionará. Isto se deve aos requisitos de processamento dos modelos generativos de IA e à necessidade de conduzir inferências de alto desempenho. Muitas vezes sou desafiado quando sugiro uma arquitetura de “conhecimento no limite” devido a esse equívoco. Estamos perdendo uma grande oportunidade de sermos inovadores, então vamos dar uma olhada.
Sempre foi possível
Esta abordagem híbrida maximiza a eficiência de ambos os tipos de infraestrutura. A execução de certas operações no edge reduz significativamente a latência, o que é crucial para aplicações que exigem feedback imediato, como serviços interativos de IA e processamento de dados em tempo real. Tarefas que não exigem respostas em tempo real podem ser relegadas a servidores em nuvem.
O particionamento desses modelos oferece uma maneira de equilibrar a carga computacional, melhorar a capacidade de resposta e aumentar a eficiência das implantações de IA. A técnica envolve a execução de diferentes partes ou versões de LLMs em dispositivos de borda, servidores em nuvem centralizados ou servidores locais.
Ao particionar LLMs, alcançamos uma arquitetura escalável na qual os dispositivos de borda lidam com tarefas leves e em tempo real, enquanto o trabalho pesado é transferido para a nuvem. Por exemplo, digamos que estamos executando dispositivos de digitalização médica que existem em todo o mundo. O processamento e análise de imagens orientados por IA são fundamentais para o valor desses dispositivos; entretanto, se enviarmos imagens enormes de volta para alguma plataforma de computação central para diagnóstico, isso não será o ideal. A latência da rede atrasará parte do processamento e, se a rede estiver de alguma forma desligada, o que pode acontecer em várias áreas rurais, você estará fora do mercado.
Cerca de 80% dos testes de diagnóstico podem funcionar bem em um dispositivo de baixa potência colocado próximo ao scanner. Assim, as tarefas rotineiras que o scanner foi projetado para detectar poderiam ser tratadas localmente, enquanto os testes que exigem processamento mais extenso ou mais complexo poderiam ser enviados ao servidor centralizado para diagnósticos adicionais.
Outros casos de uso incluem o diagnóstico de componentes de um jato em voo. Você adoraria ter o poder da IA para monitorar e corrigir problemas nas operações dos motores a jato e precisaria que esses problemas fossem corrigidos quase em tempo real. Transferir os diagnósticos operacionais de volta para algum sistema centralizado de processamento de IA não seria apenas não ideal, mas também inseguro.
Por que a arquitetura híbrida de IA não é difundida?
Uma arquitetura particionada reduz a latência e conserva energia e poder computacional. Os dados confidenciais podem ser processados localmente em dispositivos de ponta, aliviando as preocupações com a privacidade ao minimizar a transmissão de dados pela Internet. No nosso exemplo de dispositivo médico, isso significa que as preocupações com informações de identificação pessoal são reduzidas e a segurança desses dados é um pouco mais direta. A nuvem pode então lidar com aspectos generalizados e não sensíveis, garantindo uma abordagem de segurança em camadas.
Então, por que nem todo mundo está usando?
Primeiro, é complexo. Essa arquitetura exige reflexão e planejamento. A IA generativa é nova, e a maioria dos arquitetos de IA são novos, e eles obtêm dicas de arquitetura de provedores de nuvem que impulsionam a nuvem. É por isso que não é uma boa ideia permitir que arquitetos que trabalham para um provedor de nuvem específico projetem seu sistema de IA. Você sempre obterá uma solução em nuvem. Provedores de nuvem, estou olhando para vocês.
Em segundo lugar, os ecossistemas de IA generativos precisam de melhor apoio. Eles oferecem melhor suporte para sistemas de IA centralizados, baseados em nuvem, locais ou de código aberto. Para um padrão de arquitetura híbrida, você deve fazer você mesmo, embora existam algumas soluções valiosas no mercado, incluindo conjuntos de ferramentas de computação de ponta que suportam IA.
Como construir uma arquitetura híbrida
A primeira etapa envolve avaliar o LLM e os kits de ferramentas de IA e determinar quais componentes podem ser executados com eficácia na borda. Isso normalmente inclui modelos leves ou camadas específicas de um modelo maior que executam tarefas de inferência.
Operações complexas de treinamento e ajuste fino permanecem na nuvem ou em outros sistemas eternizados. Os sistemas de borda podem pré-processar dados brutos para reduzir seu volume e complexidade antes de enviá-los para a nuvem ou processá-los usando seu LLM (ou um modelo de linguagem pequeno). A fase de pré-processamento inclui limpeza de dados, anonimização e extração preliminar de recursos, agilizando o processamento centralizado subsequente.
Assim, o sistema de borda pode desempenhar duas funções: é um pré-processador para dados e chamadas de API que serão passadas para o LLM centralizado, ou executa algum processamento/inferência que pode ser melhor tratado usando o modelo menor no dispositivo de borda. Isso deve fornecer eficiência ideal, uma vez que ambas as camadas estão trabalhando juntas, e também estamos fazendo o máximo com o menor número de recursos ao usar esse modelo híbrido de borda/centro.
Para que o modelo particionado funcione de forma coesa, os sistemas de borda e de nuvem devem ser sincronizados de forma eficiente. Isso requer APIs robustas e protocolos de transferência de dados para garantir uma comunicação tranquila do sistema. A sincronização contínua também permite atualizações em tempo real e melhorias no modelo.
Finalmente, avaliações de desempenho são executadas para ajustar o modelo particionado. Esse processo inclui balanceamento de carga, testes de latência e otimização de alocação de recursos para garantir que a arquitetura atenda aos requisitos específicos do aplicativo.
O particionamento de LLMs de IA generativos em infraestruturas de borda e centrais/em nuvem representa a próxima fronteira na implantação de IA. Essa abordagem híbrida melhora o desempenho e a capacidade de resposta e otimiza o uso e a segurança de recursos. No entanto, a maioria das empresas e até mesmo os fornecedores de tecnologia têm medo desta arquitectura, considerando-a demasiado complexa, demasiado cara e demasiado lenta para construir e implementar.
Esse não é o caso. Não considerar essa opção significa que provavelmente você está perdendo um bom valor comercial. Além disso, você corre o risco de que pessoas como eu apareçam daqui a alguns anos e apontem que você perdeu o barco em termos de otimização de IA. Voce foi avisado.