“Os desenvolvedores que constroem aplicativos agênticos e em tempo real precisam de velocidade”, disse Andrew Feldman, CEO da Cerebras. “Com as Cerebras na API da LLAMA, eles podem construir sistemas de IA que estão fundamentalmente fora do alcance para as principais nuvens de inferência baseadas em GPU”.
Da mesma forma, os chips da Unidade de Processamento de Idiomas da Groq (LPU) oferecem velocidades de até 625 tokens por segundo. Jonathan Ross, CEO da GROQ, enfatizou que sua solução é “verticalmente integrada para um trabalho: inferência”, com todas as camadas “projetadas para fornecer velocidade consistente e eficiência de custos sem compromisso”.
Neil Shah, vice-presidente de pesquisa e parceiro da Counterpoint Research, disse: “Ao adotar soluções de ponta, mas abertas”, como API de llama, os desenvolvedores corporativos agora têm melhores escolhas e não precisam se comprometer com velocidade e eficiência ou ficar presos em modelos proprietários “.