A Amazon Web Services (AWS) facilitou para as empresas a adoção de um chatbot genérico de IA generativo com a introdução de seu assistente Amazon Q “plug and play” em sua conferência re:Invent 2023. Mas para empresas que desejam construir seu próprio assistente de IA generativo com seu próprio modelo de linguagem grande (LLM) ou de outra pessoa, as coisas são mais complicadas.

Para ajudar as empresas nessa situação, a AWS tem investido na construção e adição de novas ferramentas para LLMops – operação e gerenciamento de LLMs – ao Amazon SageMaker, seu serviço de aprendizado de máquina e IA, disse Ankur Mehrotra, gerente geral de SageMaker na AWS, ao InfoWorld.com. .

“Estamos investindo muito em operações de aprendizado de máquina (MLops) e baseando grandes recursos de operações de modelos de linguagem para ajudar as empresas a gerenciar vários LLMs e modelos de ML em produção. Esses recursos ajudam as empresas a avançar rapidamente e trocar partes de modelos ou modelos inteiros à medida que ficam disponíveis”, disse ele.

Mehrotra espera que os novos recursos sejam adicionados em breve – e embora ele não tenha dito quando, o momento mais lógico seria no re:Invent deste ano. Por enquanto, seu foco está em ajudar as empresas no processo de manutenção, ajuste e atualização dos LLMs que utilizam.

Cenários de modelagem

Existem vários cenários em que as empresas considerarão úteis esses recursos LLMops, disse ele, e a AWS já forneceu ferramentas em alguns deles.

Uma delas é quando uma nova versão do modelo em uso, ou um modelo com melhor desempenho para aquele caso de uso, fica disponível.

“As empresas precisam de ferramentas para avaliar o desempenho do modelo e os seus requisitos de infraestrutura antes que ele possa ser transferido com segurança para a produção. É aqui que as ferramentas SageMaker, como testes de sombra e Clarify, podem ajudar essas empresas”, disse Mehrotra.

O teste sombra permite que as empresas avaliem um modelo para um uso específico antes de passar para a produção; O Clarify detecta vieses no comportamento do modelo.

Outro cenário é quando um modelo gera respostas diferentes ou indesejadas, pois a entrada do usuário no modelo mudou ao longo do tempo, dependendo dos requisitos do caso de uso, disse o gerente geral. Isso exigiria que as empresas ajustassem ainda mais o modelo ou usassem a geração aumentada de recuperação (RAG).

“O SageMaker pode ajudar as empresas a fazer as duas coisas. Por um lado, as empresas podem usar recursos dentro do serviço para controlar como um modelo responde e, por outro lado, o SageMaker tem integrações com LangChain para RAG”, explicou Mehrotra.

O SageMaker começou como uma plataforma geral de IA, mas ultimamente a AWS tem adicionado mais recursos focados na implementação de IA generativa. Em novembro passado, introduziu duas novas ofertas, SageMaker HyperPod e SageMaker Inference, para ajudar as empresas a treinar e implantar LLMs de forma eficiente.

Em contraste com o processo de treinamento manual LLM – sujeito a atrasos, despesas desnecessárias e outras complicações – o HyperPod elimina o trabalho pesado envolvido na construção e otimização da infraestrutura de aprendizado de máquina para modelos de treinamento, reduzindo o tempo de treinamento em até 40%, disse a empresa.

Mehrotra disse que a AWS viu um grande aumento na demanda por treinamento de modelos e cargas de trabalho de inferência de modelos nos últimos meses, à medida que as empresas procuram fazer uso de IA generativa para fins de produtividade e geração de código.

Embora não tenha fornecido o número exato de empresas que usam o SageMaker, o gerente geral disse que em apenas alguns meses o serviço teve um crescimento de aproximadamente 10 vezes.

“Há alguns meses, dizíamos que o SageMaker tem dezenas de milhares de clientes e agora dizemos que tem centenas de milhares de clientes”, disse Mehrotra, acrescentando que parte do crescimento pode ser atribuído às empresas que movem a sua IA generativa. experimentos em produção.