Fora de fogos de artifício e no fogo

No entanto, meu começo com Qwen hospedado de Cerebras não foi o mesmo que eu experimentei (por muito mais dinheiro) em fogos de artifício, outro provedor. Inicialmente, Qwen da Cerebras nem funcionou na minha CLI. Também não parecia funcionar no código ROO ou em qualquer outra ferramenta que eu sabia usar. Depois de fazer um relatório de bug, Cerebras me disse que era o meu código. Meu mesmo CLI que trabalhou em fogos de artifício, para Claude, para GPT-4.1 e GPT-5, para O3, pois Qwen hospedado por Qwen/Alibaba foi culpado, disse Cerebras. Para ser justo, meu tronco incluiu artefatos enganosos quando as cerebrais fragmentaram o fluxo, lançando peças de fluxo como mensagens (que as cérebras ainda fazem de vez em quando). No entanto, essa tem sido geralmente a abordagem deles. Não conserte a chamada compatibilidade do OpenAI-tire e/ou adapte o cliente. Peguei o desafio e adaptei minha CLI, mas foram muitas soluções alternativas. Este foi um enorme contraste com fogos de artifício. Eu tive problemas com fogos de artifício quando começou e mostrei minha saída de depuração; Eles imediatamente reconheceram o problema (ocasionalmente, ele cuspia chamadas de ferramentas nativas e corruptas em vez da saída no estilo OpenAI) e o corrigiam da noite para o dia. Cerebras afirmou repetidamente que sua infraestrutura estava funcionando perfeitamente e os pedidos foram todos bem -sucedidos – em contradição direta com a maioria dos comentários sobre sua discórdia.

Sentindo que finalmente tivesse rachado a porca após três semanas de testes e adaptação para dentro e, peguei uma segunda conta máxima de código cerebras quando a janela se abriu novamente. Isso foi depois de descobrir que, durante parte do tempo, os cerebras me acusaram de uma conta máxima, mas me deram uma conta profissional. Eles o consertaram e não ofereceram compensação pelos dias em que meu serviço foi definido para o Pro, não o Max, e é difícil provar porque o console de análise está quebrado, em parte porque fornece medições no horário local, mas os limites estão no UTC.

Então eu fiz as contas. Uma conta máxima do código do Cerebras é limitada a 120 milhões de tokens por dia a um custo equivalente a quatro vezes o de uma conta Code Code Pro. A conta Pro é de 24 milhões de tokens por dia. Se você multiplicar por quatro, receberá 96 milhões de tokens. No entanto, a conta Pro é limitada a 300 mil tokens por minuto, em comparação com 400k para o máximo. Usar cerebras é um pouco frustrante. Por 10 a 20 segundos, ele realmente voa, então você atinge o limite de tokens por minuto e lança 429 erros (muitos pedidos) até o minuto acordar. Se a sua ferramenta de codificação for inteligente, ela apenas tentará novamente com um retorno exponencial. Caso contrário, isso quebrará o fluxo. Então, se eu tivesse comprado quatro contas profissionais, poderia ter 1.200.000 TPM em teoria, um valor muito melhor que a conta máxima.