Desde que o ChatGPT chegou no final de 2022, os grandes modelos de linguagem (LLMs) continuaram a elevar o nível do que os sistemas de IA generativos podem realizar. Por exemplo, o GPT-3.5, que alimenta o ChatGPT, teve uma precisão de 85,5% em conjuntos de dados de raciocínio de bom senso, enquanto o GPT-4 em 2023 alcançou cerca de 95% de precisão nos mesmos conjuntos de dados. Enquanto o GPT-3.5 e o GPT-4 se concentram principalmente no processamento de texto, o GPT-4o – lançado em maio de 2024 – é multimodal, permitindo lidar com texto, imagens, áudio e vídeo.
Apesar dos avanços impressionantes da família de modelos GPT e de outros modelos de linguagem de código aberto de grande porte, o Gartner, em seu ciclo de entusiasmo pela inteligência artificial em 2024, observa que “a IA generativa ultrapassou o pico das expectativas inflacionadas, embora o entusiasmo sobre ela continue. ” Alguns motivos para desilusão incluem os altos custos associados à família de modelos GPT, preocupações com privacidade e segurança em relação aos dados e problemas com a transparência do modelo. Modelos de linguagem pequena com menos parâmetros do que estes LLMs são uma solução potencial para estes desafios.
Modelos de linguagem menores são mais fáceis e menos dispendiosos de treinar. Além disso, modelos menores podem ser hospedados no local, proporcionando melhor controle sobre os dados compartilhados com esses modelos de linguagem. Um desafio dos modelos menores é que eles tendem a ser menos precisos do que os modelos maiores. Para aproveitar os pontos fortes dos modelos mais pequenos e, ao mesmo tempo, mitigar os seus pontos fracos, as empresas estão a olhar para pequenos modelos específicos de domínio, que devem ser precisos apenas na especialização e nos casos de utilização que suportam. Essa especialização de domínio pode ser habilitada pegando um modelo de linguagem pequena pré-treinado e ajustando-o com dados específicos do domínio ou usando engenharia imediata para ganhos adicionais de desempenho.
