Esta versão mais recente também inclui o balanceamento de carga baseado em custos, permitindo que a Kong rotear solicitações com base no uso e preços dos token. Por exemplo, os avisos de baixa complexidade podem ir a modelos mais baratos, enquanto as tarefas de alto valor rotaem para fornecedores premium. Isso é especialmente útil para empresas que usam vários LLMs para diferentes casos de uso, permitindo que otimize para desempenho e orçamento.
Kong
Esse visual descreve a amplitude dos recursos de gateway de Kong AI, incluindo orquestração de LLM, balanceamento de carga, gerenciamento imediato e muito mais.
Além disso, o Kong agora suporta o PGVector, estendendo os recursos semânticos, como roteamento, cache e corrimão de guarda para bancos de dados baseados em Postgres. Isso oferece às equipes da plataforma mais flexibilidade ao projetar pipelines de IA em ambientes nativos de nuvem existentes, como o AWS Relational Database Service ou o Azure Cosmos DB.