Grandes modelos de linguagem que alucinam pacotes de desenvolvedores inexistentes podem alimentar ataques à cadeia de suprimentos

Os Large Language Models (LLMs) têm um sério problema de “alucinação de pacotes” que pode levar a uma onda de pacotes codificados maliciosamente na cadeia de abastecimento, descobriram investigadores num dos maiores e mais aprofundados estudos de sempre para investigar o problema.

Na verdade, é tão ruim que, em 30 testes diferentes, os pesquisadores descobriram que 440.445 (19,7%) dos 2,23 milhões de amostras de código foram geradas experimentalmente em duas das linguagens de programação mais populares, Python e JavaScript, usando 16 modelos LLM diferentes para Python. e 14 modelos para JavaScript, continham referências a pacotes que foram alucinados.

O estudo multiuniversitário, publicado pela primeira vez em junho, mas recentemente atualizado, também gerou “impressionantes 205.474 exemplos únicos de nomes de pacotes alucinados, sublinhando ainda mais a gravidade e a difusão desta ameaça”.