Junto com isso, os desenvolvedores e a equipe de operações de TI terão que analisar onde eles executam cargas de trabalho de IA generativas. Muitas empresas começarão com isso na nuvem, pois querem evitar o fardo de executar seus próprios LLMs, mas outras vão querer adotar sua própria abordagem para aproveitar ao máximo suas escolhas e evitar o bloqueio. No entanto, quer você execute no local ou na nuvem, você terá que pensar em executar em vários locais.
Usar vários sites fornece resiliência para um serviço; se um site ficar indisponível, o serviço ainda poderá funcionar. Para sites locais, isso pode significar implementar tecnologias de failover e disponibilidade em torno de conjuntos de dados vetoriais, para que esses dados possam ser consultados sempre que necessário. Para implantações em nuvem, executar em vários locais é mais simples, pois você pode usar diferentes regiões de nuvem para hospedar e replicar dados vetoriais. Usar vários sites também permite que você entregue respostas do site mais próximo do usuário, reduzindo a latência e facilitando o suporte a locais de dados geográficos se você tiver que manter os dados localizados em um local ou região específica para fins de conformidade.
Despesas operacionais contínuas
As operações de TI do segundo dia envolvem analisar suas despesas gerais e problemas em torno da execução de sua infraestrutura e, em seguida, remover gargalos ou otimizar sua abordagem para resolvê-los. Como os aplicativos de IA generativa envolvem grandes volumes de dados e componentes e serviços que são integrados, é importante considerar a sobrecarga operacional que existirá ao longo do tempo. À medida que os serviços de IA generativa se tornam mais populares, pode haver problemas que surgem em torno de como essas integrações funcionam em escala. Se você descobrir que deseja adicionar mais funcionalidade ou integrar mais agentes de IA em potencial, essas integrações precisarão de suporte de nível empresarial.