Anthropic lança fundo para medir capacidades de modelos de IA

A pesquisa de IA está avançando rapidamente, mas nossa capacidade de avaliar suas capacidades e riscos potenciais parece estar ficando para trás. Para preencher essa lacuna crítica e reconhecer as limitações atuais em ecossistemas de avaliação de terceiros, a Anthropic iniciou uma iniciativa para investir no desenvolvimento de benchmarks robustos e relevantes para a segurança para avaliar capacidades e riscos avançados de IA.

“Um ecossistema de avaliação robusto de terceiros é essencial para avaliar as capacidades e riscos da IA, mas o cenário atual de avaliações é limitado”, disse a Anthropic em uma postagem de blog. “Desenvolver avaliações de alta qualidade e relevantes para a segurança continua sendo desafiador, e a demanda está superando a oferta. Para resolver isso, hoje estamos introduzindo uma nova iniciativa para financiar avaliações desenvolvidas por organizações terceirizadas que podem medir efetivamente capacidades avançadas em modelos de IA.”

A Anthropic se diferencia de outras empresas de IA ao se apresentar como uma empresa de IA responsável e que prioriza a segurança.

A empresa convidou as partes interessadas a enviar propostas por meio do formulário de inscrição, principalmente aquelas que abordam áreas de foco de alta prioridade.

A iniciativa da Anthropic chega em um momento crucial, quando a demanda por avaliações de IA de alta qualidade está rapidamente superando a oferta. A empresa visa financiar organizações terceirizadas para desenvolver novas avaliações que possam medir efetivamente capacidades avançadas de IA, elevando assim todo o campo de segurança de IA.

“Estamos buscando avaliações que nos ajudem a medir os Níveis de Segurança de IA (ASLs) definidos em nossa Política de Escala Responsável”, continuou o anúncio. “Esses níveis determinam os requisitos de segurança para modelos com capacidades específicas.”

A iniciativa priorizará três áreas principais: avaliações de nível de segurança de IA, métricas avançadas de capacidade e segurança e infraestrutura para desenvolver avaliações. Cada área aborda desafios e oportunidades específicos dentro do campo de IA.

Priorizando avaliações de segurança

As avaliações do AI Safety Level incluirão riscos de segurança cibernética, químicos, biológicos, radiológicos e nucleares (CBRN), autonomia do modelo e outros riscos de segurança nacional. As avaliações medirão os AI Safety Levels definidos na Responsible Scaling Policy da Anthropic, garantindo que os modelos sejam desenvolvidos e implantados de forma responsável.

“Avaliações ASL robustas são cruciais para garantir que desenvolvamos e implementemos nossos modelos de forma responsável”, enfatizou a Anthropic. “Avaliações efetivas neste domínio podem se assemelhar a novos desafios de Capture The Flag (CTF) sem soluções disponíveis publicamente. As avaliações atuais geralmente ficam aquém, sendo muito simplistas ou tendo soluções facilmente acessíveis online.”

A empresa também convidou soluções para abordar questões críticas, como ameaças à segurança nacional potencialmente representadas por sistemas de IA.

“Os sistemas de IA têm o potencial de impactar significativamente a segurança nacional, a defesa e as operações de inteligência de atores estatais e não estatais”, acrescentou o anúncio. “Estamos comprometidos em desenvolver um sistema de alerta precoce para identificar e avaliar esses riscos emergentes complexos.”

Além da segurança: Medindo capacidades avançadas

Além da segurança, o fundo visa desenvolver benchmarks que avaliem o espectro completo das habilidades e riscos potenciais de um modelo de dados. Isso inclui avaliações para pesquisa científica, onde a Anthropic prevê modelos capazes de lidar com tarefas complexas como projetar novos experimentos ou solucionar problemas de protocolos.

“Infraestrutura, ferramentas e métodos para desenvolver avaliações serão essenciais para atingir testes mais eficientes e eficazes em toda a comunidade de IA”, afirmou o anúncio. A Anthropic visa agilizar o desenvolvimento de avaliações de alta qualidade financiando ferramentas e plataformas que tornam mais fácil para especialistas no assunto criar avaliações robustas sem precisar de habilidades de codificação.

“Além das avaliações ASL, estamos interessados em obter métricas avançadas de capacidade e segurança”, explicou Anthropic. “Essas métricas fornecerão uma compreensão mais abrangente dos pontos fortes e riscos potenciais dos nossos modelos.”

Construindo um ecossistema de avaliação mais eficiente

A Anthropic enfatizou que desenvolver avaliações efetivas é desafiador e delineou princípios-chave para criar avaliações fortes. Isso inclui garantir que as avaliações sejam suficientemente difíceis, não incluídas em dados de treinamento, escaláveis e bem documentadas.

“Estamos interessados em financiar ferramentas e infraestrutura que agilizem o desenvolvimento de avaliações de alta qualidade”, disse a Anthropic na declaração. “Isso será essencial para atingir testes mais eficientes e eficazes em toda a comunidade de IA.”

No entanto, a empresa reconhece que “desenvolver uma ótima avaliação é difícil” e “mesmo alguns dos desenvolvedores mais experientes caem em armadilhas comuns, e mesmo as melhores avaliações nem sempre são indicativas dos riscos que pretendem medir”.

Para ajudar os desenvolvedores interessados a enviar suas propostas e refinar seus envios, a Anthropic disse que facilitará as interações com especialistas de domínio da “Frontier Red Team, Finetuning, Trust & Safety” e outras equipes relevantes.

Um pedido de comentário da Anthropic permaneceu sem resposta.

Com essa iniciativa, a Anthropic está enviando uma mensagem clara: a corrida pela IA avançada não pode ser vencida sem priorizar a segurança. Ao promover um ecossistema de avaliação mais abrangente e robusto, eles estão preparando o terreno para um futuro em que a IA beneficia a humanidade sem representar ameaças existenciais.