Perguntaram-me se os sistemas generativos de IA são sempre lentos. Claro, eu respondo: “Lento, em comparação com o quê?” A resposta que sempre recebo é engraçada. “Mais lento do que pensávamos que seria.” E o círculo continua.
O desempenho costuma ser uma reflexão tardia no desenvolvimento e implantação de IA generativa. A maioria dos que implantam sistemas de IA generativos na nuvem, e mesmo não na nuvem, ainda não aprenderam qual deveria ser o desempenho de seus sistemas de IA generativos, não tomam medidas para determinar o desempenho e acabam reclamando do desempenho após a implantação. Ou, mais frequentemente, os usuários reclamam, e então designers e desenvolvedores de IA generativa reclamam comigo.
Desafios do desempenho generativo da IA
Em sua essência, os sistemas generativos de IA são sistemas complexos, distribuídos e orientados a dados que são desafiadores para construir, implantar e operar. Eles são todos diferentes, com diferentes partes móveis. A maioria das partes é distribuída em todos os lugares, desde os bancos de dados de origem dos dados de treinamento até os dados de saída e os principais mecanismos de inferência que geralmente existem nos provedores de nuvem.
Aqui está minha lista das dificuldades mais comuns:
Cenários de implantação complexos. Os sistemas de IA generativos geralmente compreendem vários componentes. Eles incluem serviços de ingestão de dados, armazenamento, computação e rede. Arquitetar esses componentes para funcionarem sinergicamente muitas vezes leva à complexidade excessiva, onde os problemas de desempenho, determinados pelos componentes de pior desempenho, são diferentes do isolamento. Já vi redes com desempenho insatisfatório e bancos de dados saturados. Essas coisas não estão diretamente relacionadas à IA generativa, mas mesmo assim podem causar problemas de desempenho.
Ajuste do modelo de IA. O desempenho não é apenas uma função da infraestrutura, conclusão a que muitos chegam. Os modelos de IA devem ser ajustados e otimizados, exigindo conhecimentos técnicos profundos que poucos possuem.
Os fornecedores poderiam ter feito um trabalho melhor estabelecendo as melhores práticas no ajuste de desempenho. Muitas empresas temem que possam piorar a situação ou introduzir problemas que causem resultados errados. Isso não pode ser ignorado e, dependendo do tipo de sistema de IA generativo em que você está trabalhando na nuvem, você precisa descobrir isso trabalhando com os provedores de serviços de IA generativa.
Preocupações com segurança. Proteger os modelos de IA e seus dados contra acessos não autorizados e violações é desnecessário dizer, especialmente em ambientes de nuvem onde a multilocação é comum. Muitos problemas de desempenho aumentam os riscos de segurança.
Em muitos casos, os mecanismos de segurança, como a criptografia, introduzem problemas de desempenho que, se não forem resolvidos, piorarão à medida que os dados crescerem. Arquitetura e testes são seus amigos aqui. Reserve algum tempo para entender como a segurança afeta o desempenho da IA generativa.
Conformidade regulatória. Relacionado à segurança está a adesão aos padrões de governança e conformidade de dados. Eles podem impor camadas adicionais de complexidade de gerenciamento de desempenho.
Assim como a segurança, precisamos descobrir como trabalhar com esses requisitos. Na maioria das vezes, podemos encontrar um meio termo para fornecer a conformidade de que precisamos. Tal como acontece com o desempenho otimizado, são necessárias apenas algumas tentativas e erros.
Melhores práticas de IA generativa
Lembre-se de que se eu listar as melhores práticas aqui, elas serão holísticas. Eles não consideram o tipo específico de sistemas de IA generativos que você está executando, todos com componentes e considerações de plataforma muito diferentes. Você terá que verificar com seu provedor específico de IA generativa como isso é realizado para seus casos de uso específicos. Dado esse aviso, aqui estão alguns a serem considerados:
Implementar automação para escalonamento e otimização de recursos, ou escalonamento automático, fornecido pelos provedores de nuvem. Isso inclui o uso de técnicas e abordagens de operações de aprendizado de máquina (MLOps) para operar modelos de IA.
Utilize computação sem servidor, que abstrai o gerenciamento da infraestrutura. Isso significa que você não precisa mais alocar os recursos que sua IA generativa precisará; isso é feito automaticamente. Embora nem sempre eu aceite entregar as chaves para um processo automatizado que alocará recursos pelos quais temos que pagar, dadas todas as outras coisas com as quais você precisa se preocupar, isso é uma coisa a menos com que se preocupar.
Realize testes de carga regulares e avaliações de desempenho. Garanta que seus sistemas generativos de IA possam lidar com os picos de demanda. A maioria pula isso e adivinha quanto será a carga no topo da curva. Você pode dizer “interrupção”?
Empregue uma abordagem de aprendizagem contínua. Os modelos de IA devem ser atualizados regularmente com novos dados e refinados para manter o desempenho e a relevância.
Aproveite a experiência e o suporte dos provedores de serviços em nuvem. Além disso, certifique-se de monitorar as comunidades online que oferecem suporte à sua pilha de tecnologia específica. Você encontrará muitas respostas que consultores que ganham US$ 700 por hora não serão capazes de fornecer.
Suspeito que o desempenho generativo da IA se tornará uma área de foco mais do que é hoje. Talvez devesse ser, dada a quantidade de recursos e dinheiro que estamos concentrando neste espaço explosivo.