A ferramenta funciona primeiro avaliando os prompts em relação a conjuntos de dados e métricas definidos pelo usuário e, em seguida, reescrevendo-os para otimizá-los para até cinco modelos de inferência. Em seguida, ele compara as versões otimizadas com os originais nos modelos para ajudar os desenvolvedores a identificar as configurações de melhor desempenho para cargas de trabalho específicas, disse a AWS.
Atualmente, ele está disponível em diversas regiões da AWS, incluindo Leste dos EUA, Oeste dos EUA, Mumbai, Seul, Cingapura, Sydney, Tóquio, Canadá (Central), Frankfurt, Irlanda, Londres, Zurique e São Paulo.
A empresa disse que os clientes corporativos serão cobrados por seu uso com base nos tokens de inferência do modelo Bedrock consumidos durante o processo de otimização, usando as mesmas taxas de preços por token aplicadas às cargas de trabalho de inferência Bedrock padrão.
Ajudará na economia do dimensionamento da IA na produção
O foco da ferramenta no refinamento imediato e automatizado, dizem os analistas, ajudará as empresas a enfrentar os desafios operacionais, especialmente a economia em torno do dimensionamento de cargas de trabalho generativas de IA na produção.
