Considere as especificações de construção de edifícios, que geralmente seguem o padrão de documento CSI MasterFormat. CSI MasterFormat possui 50 divisões, como especificações gerais, elétrica e hidráulica. Consideremos agora os controles de acesso para este documento, visto que a segurança é abordada em duas divisões separadas e pode exigir classificações diferentes de outras seções, como equipamentos. Mas mesmo isso não é contexto suficiente, uma vez que um empreiteiro geral deve ter políticas diferentes para aceder às especificações para uma central nuclear e para um pequeno edifício de escritórios.

Desafios complexos de classificação estão sendo abordados com IA e algoritmos avançados. “As empresas estão migrando para aceleradores de governança orientados por commodities e APIs, especialmente em áreas como classificação, gerenciamento de taxonomia e rotulagem específica de domínio”, afirma Nandakumar Sivaraman, vice-presidente sênior e arquiteto-chefe de dados empresariais da Bridgenext. “Em vez de aplicar categorias, regras e políticas manualmente em milhares de ativos, as empresas agora estão usando APIs de classificação orientadas por IA para etiquetar e categorizar automaticamente os dados. Elas usam detecção de padrões baseada em aprendizado de máquina para atribuir taxonomias, hierarquias de produtos ou domínios de entidades e implementam microsserviços de governança leves para classificação em tempo real em pipelines de ingestão.”

Outra abordagem utiliza modelos de linguagem de visão (VLMs) para analisar a estrutura visual do documento em busca de pistas contextuais adicionais. Harpreet Sahota, hacker residente na Voxel51, diz que os VLMs podem classificar documentos sem dados de treinamento, mas o maior problema é que a maioria das organizações não tem taxonomias consistentes para começar. “Um primeiro passo é tratar os documentos como imagens, em vez de apenas extrair texto, o que preserva informações de layout importantes para a compreensão da estrutura”, recomenda Sahota.