O novo recurso, que está atualmente em pré-visualização, segundo a empresa, permitirá aos desenvolvedores realizar testes e avaliar outros modelos com qualidade semelhante à humana, a um custo menor em comparação com um ser humano executando essas avaliações.
O LLM-as-juiz torna mais fácil para as empresas entrarem em produção, fornecendo avaliação rápida e automatizada de aplicativos alimentados por IA, encurtando os ciclos de feedback e acelerando as melhorias, disse a AWS. As avaliações avaliam múltiplas dimensões de qualidade, incluindo correção, utilidade e critérios de IA responsáveis, como recusa de resposta e nocividade.