3 segredos para implantar LLMs em plataformas de nuvem

Nos últimos dois anos, estive envolvido com projetos generativos de IA usando modelos de linguagem grandes (LLMs) mais do que sistemas tradicionais. Fiquei nostálgico pela computação em nuvem sem servidor. Suas aplicações vão desde o aprimoramento da IA conversacional até o fornecimento de soluções analíticas complexas em todos os setores e muitas funções além disso. Muitas empresas implantam esses modelos em plataformas de nuvem porque existe um ecossistema pronto de provedores de nuvem pública e esse é o caminho de menor resistência. No entanto, não é barato.

As nuvens também oferecem outros benefícios, como escalabilidade, eficiência e recursos computacionais avançados (GPUs sob demanda). O processo de implantação do LLM em plataformas de nuvem pública possui segredos menos conhecidos que podem impactar significativamente o sucesso ou o fracasso. Talvez porque não existam muitos especialistas em IA que possam lidar com LLMs, e porque não fazemos isso há muito tempo, existem muitas lacunas em nosso conhecimento.

Vamos explorar três “dicas” menos conhecidas para implantação de LLMs em nuvens que talvez até mesmo seus engenheiros de IA não conheçam. Considerando que muitos desses rapazes e moças ganham mais de US$ 300 mil, talvez seja hora de questioná-los sobre os detalhes de como fazer essas coisas da maneira certa. Vejo mais erros do que nunca, pois todos correm para a IA generativa como se seus cabelos estivessem pegando fogo.

Gerenciando eficiência de custos e escalabilidade

Um dos principais atrativos do uso de plataformas em nuvem para implantação de LLMs é a capacidade de dimensionar recursos conforme necessário. Não precisamos ser bons planejadores de capacidade porque as plataformas de nuvem possuem recursos que podemos alocar com um clique do mouse ou automaticamente.

Mas espere, estamos prestes a cometer os mesmos erros que cometemos quando usamos a computação em nuvem pela primeira vez. Gerenciar custos durante o dimensionamento é uma habilidade que muitos precisam de ajuda para navegar com eficácia. Lembre-se de que os serviços em nuvem geralmente cobram com base nos recursos computacionais consumidos; eles funcionam como um utilitário. Quanto mais você processa, mais você paga. Considerando que as GPUs custarão mais (e consumirão mais energia), esta é uma preocupação central dos LLMs em provedores de nuvem pública.

Certifique-se de utilizar ferramentas de gerenciamento de custos, tanto aquelas fornecidas por plataformas em nuvem quanto aquelas oferecidas por sólidos atores terceirizados de governança e monitoramento de custos (finops). Exemplos seriam a implementação de escalonamento automático e agendamento, escolha de tipos de instância adequados ou uso de instâncias preemptivas para otimizar custos. Além disso, lembre-se de monitorar continuamente a implantação para ajustar os recursos com base no uso, em vez de usar apenas a carga prevista. Isso significa evitar o provisionamento excessivo a todo custo (viu o que eu fiz aí?).

Privacidade de dados em ambientes multilocatários

A implantação de LLMs geralmente envolve o processamento de grandes quantidades de dados e modelos de conhecimento treinados que podem conter dados confidenciais ou proprietários. O risco de usar nuvens públicas é que você tem vizinhos na forma de instâncias de processamento operando no mesmo hardware físico. Portanto, as nuvens públicas apresentam o risco de que, à medida que os dados são armazenados e processados, eles sejam de alguma forma acessados por outra máquina virtual executada no mesmo hardware físico no data center da nuvem pública.

Pergunte a um provedor de nuvem pública sobre isso e ele correrá para obter suas apresentações atualizadas em PowerPoint, o que mostrará que isso não é possível. Embora isso seja principalmente verdade, não é totalmente preciso. Todos os sistemas multilocatários apresentam esse risco; você precisa mitigá-lo. Descobri que quanto menor o provedor de nuvem, como os muitos que operam em apenas um país, maior a probabilidade de isso ser um problema. Isto é para armazenamento de dados e LLMs.

O segredo é selecionar provedores de nuvem que cumpram padrões de segurança rigorosos que possam comprovar: criptografia em repouso e em trânsito, gerenciamento de identidade e acesso (IAM) e políticas de isolamento. Obviamente, é uma ideia muito melhor implementar sua estratégia de segurança e pilha de tecnologia de segurança para garantir que o risco seja baixo com o uso multilocatário de LLMs em nuvens.

Lidando com implantação de modelo com estado

Os LLMs são, em sua maioria, com estado, o que significa que mantêm informações de uma interação para outra. Esse velho truque oferece um novo benefício: a capacidade de aumentar a eficiência em cenários de aprendizagem contínua. No entanto, é complicado gerenciar o estado desses modelos em ambientes de nuvem, onde as instâncias podem ser efêmeras ou sem estado por design.

Ferramentas de orquestração, como o Kubernetes, que oferecem suporte a implantações com estado, são úteis. Eles podem aproveitar opções de armazenamento persistente para os LLMs e ser configurados para manter e operar seu estado entre sessões. Você precisará disso para apoiar a continuidade e o desempenho do LLM.

Com a explosão da IA generativa, a implantação de LLMs em plataformas de nuvem é uma conclusão precipitada. Para a maioria das empresas, é muito conveniente não para usar a nuvem. Meu medo com esta próxima corrida louca é que perderemos coisas que são fáceis de resolver e cometeremos erros enormes e caros que, no final das contas, seriam em sua maioria evitáveis.