Em todos os modelos de classificação de benchmarks sobre raciocínio e habilidades multilíngues, como BigBench, MMLU e ARC Challenge, o modelo MoE-instruct, embora com menos parâmetros do que os rivais (6,6 bilhões), teve melhor desempenho do que Llama 3.1-8B-instruct, Gemma 2-9b-It e Gemini 1.5-Flash. No entanto, ele não conseguiu igualar o desempenho do GPT-4o-mini-2024-07-18 (chat) da OpenAI.
No entanto, a empresa ressaltou que o modelo ainda é fundamentalmente limitado pelo seu tamanho para determinadas tarefas.
“O modelo simplesmente não tem capacidade para armazenar muito conhecimento factual, portanto, os usuários podem experimentar incorreções factuais”, disse, acrescentando que essa fraqueza pode ser resolvida aumentando o Phi-3.5 com um mecanismo de busca, particularmente ao usar o modelo sob configurações RAG.