• Destilação de conhecimento: Um modelo maior de “professor” treina um modelo pequeno de “aluno” para que ele possa aprender a imitar fortes capacidades de raciocínio, mas em uma escala muito menor.
  • Poda: Parâmetros redundantes ou irrelevantes são removidos das arquiteturas de redes neurais.
  • Quantização: os valores são reduzidos de alta precisão para baixa precisão (ou seja, números de ponto flutuante são convertidos em números inteiros) para reduzir o tamanho dos dados, acelerar o processamento e otimizar o consumo de energia.

Modelos maiores também podem ser modificados e destilados em modelos menores e mais especializados por meio de técnicas como geração aumentada de recuperação (RAG), quando são treinados para extrair fontes confiáveis ​​antes de gerar uma resposta; ajuste fino e rápido para orientar respostas em áreas específicas; ou LoRa (adaptação de baixa classificação), que adiciona peças leves a um modelo original para reduzir seu tamanho e escopo, em vez de retreinar ou modificar todo o modelo.

Em última análise, com os SLMs, os dados empresariais tornam-se um “diferencial chave, necessitando de preparação de dados, verificações de qualidade, controle de versão e gerenciamento geral para garantir que os dados relevantes sejam estruturados para atender aos requisitos de ajuste fino”, observa Sumit Agarwal, vice-presidente analista do Gartner.

Benefícios de modelos de linguagem pequena

O principal impulsionador dos SLMs é económico, observam os analistas. “Para tarefas repetitivas e de alto volume (como triagem de atendimento ao cliente), os custos de usar um generalista de trilhões de parâmetros não podem ser justificados”, ressalta Randall, da Info-Tech.