A Cloudflare anunciou o desenvolvimento do Firewall for AI, uma camada de proteção que pode ser implantada na frente de grandes modelos de linguagem (LLMs) que promete identificar abusos antes que eles cheguem aos modelos.

Lançado em 4 de março, o Firewall for AI pretende ser um firewall de aplicação web (WAF) avançado para aplicações que usam LLMs, compreendendo um conjunto de ferramentas que podem ser implantadas na frente das aplicações para detectar vulnerabilidades e fornecer visibilidade sobre as ameaças aos modelos.

Cloudflare disse que o Firewall for AI combinará ferramentas WAF tradicionais, como limitação de taxa e detecção de dados confidenciais, com uma nova camada de proteção que analisa o modelo e solicita aos usuários enviados que identifiquem tentativas de explorar o modelo. O Firewall for AI será executado na rede Cloudflare, permitindo que a Cloudflare identifique ataques antecipadamente e proteja usuários e modelos contra ataques e abusos, disse a empresa. O produto está atualmente em desenvolvimento.

Algumas vulnerabilidades que afetam aplicativos tradicionais da Web e API, como injeções e exfiltração de dados, também se aplicam ao mundo LLM. Mas um novo conjunto de ameaças é agora relevante devido à forma como os LLM funcionam. Por exemplo, os pesquisadores descobriram recentemente uma vulnerabilidade em uma plataforma de colaboração de IA que lhes permitiu sequestrar modelos e realizar ações não autorizadas, disse Cloudflare.

O Firewall para IA da Cloudflare será implantado como um WAF tradicional, no qual cada solicitação de API com um prompt LLM é verificada em busca de padrões e assinaturas de possíveis ataques. Ele pode ser implantado na frente de modelos hospedados na plataforma Cloudflare Workers AI ou modelos hospedados em qualquer infraestrutura de terceiros. Além disso, pode ser usado junto com o Cloudflare AI Gateway.

O Firewall for AI executará uma série de detecções projetadas para identificar tentativas de injeção de prompt e outros abusos, como garantir que o tópico do prompt permaneça dentro dos limites definidos pelo proprietário do modelo. O Firewall for AI também procurará prompts incorporados em solicitações HTTP ou permitirá que os clientes estabeleçam regras com base em onde o prompt pode ser encontrado no corpo JSON da solicitação.

Uma vez ativado, o Firewall for AI analisará cada prompt e fornecerá uma pontuação com base na probabilidade de ser malicioso, disse Cloudflare.