Ferramenta de código aberto da Perplexity para executar modelos de trilhões de parâmetros sem atualizações dispendiosas

A resposta óbvia seriam os novos sistemas GB200 da Nvidia, essencialmente um servidor gigante de 72 GPU. Mas estes custam milhões, enfrentam escassez extrema de oferta e não estão disponíveis em todos os lugares, observaram os pesquisadores. Enquanto isso, os sistemas H100 e H200 são abundantes e relativamente baratos.

O problema: executar modelos grandes em vários sistemas mais antigos tradicionalmente significava penalidades brutais de desempenho. “Não existem soluções viáveis entre provedores para inferência LLM”, escreveu a equipe de pesquisa, observando que as bibliotecas existentes carecem totalmente de suporte da AWS ou sofrem grave degradação de desempenho no hardware da Amazon.

A TransferEngine pretende mudar isso. “O TransferEngine permite comunicação ponto a ponto portátil para arquiteturas LLM modernas, evitando a dependência de fornecedores e ao mesmo tempo complementando bibliotecas coletivas para implantações nativas da nuvem”, escreveram os pesquisadores.