No entanto, a natureza de escalonamento automático desses pontos de extremidade de inferência pode não ser suficiente para diversas situações que as empresas podem encontrar, incluindo cargas de trabalho que exigem baixa latência e alto desempenho consistente, ambientes críticos de teste e pré-produção onde a disponibilidade de recursos deve ser garantida e qualquer situação em que um tempo de expansão lento não seja aceitável e possa prejudicar o aplicativo ou o negócio.
De acordo com a AWS, os FTPs para inferência de cargas de trabalho visam resolver isso, permitindo que as empresas reservem os tipos de instância e as GPUs necessárias, uma vez que o escalonamento automático não garante a disponibilidade instantânea da GPU devido à alta demanda e à oferta limitada.
O suporte de FTPs para inferência de IA do SageMaker está disponível no Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon) e Leste dos EUA (Ohio), disse a AWS.
