A governança de dados estava em minha mente recentemente, então decidi consultar o ChatGPT digitando o prompt: “O que é governança de dados?” A IA respondeu com: “A governança de dados é um conjunto de processos, políticas, padrões e diretrizes que garantem que os dados sejam gerenciados, protegidos e utilizados adequadamente dentro de uma organização”. É um bom começo e há muito mais a dizer sobre a governação de dados e o seu significado neste momento.
Governança de dados na era da IA generativa
A governança de dados abrange uma variedade de disciplinas, incluindo segurança, gerenciamento, qualidade e catalogação de dados. A prática requer a definição de políticas de uso, a criação de fontes de dados mestres, a criação de perfis de conjuntos de dados, a documentação de dicionários e a supervisão dos ciclos de vida dos dados. Um modelo organizacional geralmente define funções para o diretor de dados que facilita uma estratégia, para os proprietários de dados que definem políticas sobre conjuntos de dados e para os administradores de dados responsáveis por melhorar a qualidade dos dados.
“A governança de dados é um elemento crítico da integridade dos dados, permitindo que as organizações encontrem, entendam e aproveitem facilmente dados críticos – levando a relatórios precisos e decisões informadas”, afirma Tendü Yogurtçu, PhD, diretor de tecnologia da Precisely. “Ele fornece uma compreensão do significado, da linhagem e do impacto dos dados, para que as empresas possam permanecer em conformidade e garantir que os modelos de IA sejam alimentados com dados confiáveis para resultados confiáveis.”
Yogurtçu afirma que a governança de dados já foi um empreendimento técnico com foco na conformidade. “Com a crescente adoção da IA, os dados tornaram-se o ativo corporativo mais vital e a governança de dados deve ser uma prioridade em toda a empresa”, afirma ela.
Para muitas organizações que estão experimentando genAI ou criando aplicações com grandes modelos de linguagem (LLMs), há maiores responsabilidades de governança de dados, mais riscos na forma como os funcionários usam as ferramentas de IA e um novo escopo de dados não estruturados. Consultei vários especialistas sobre como a governação de dados deve evoluir para dar resposta às oportunidades e aos riscos inerentes às ferramentas e capacidades generativas de IA.
4 maneiras de evoluir a governança de dados para genAI
- Revise as políticas de dados para uso em ferramentas genAI e LLMs
- Acelere iniciativas de qualidade de dados
- Revise o gerenciamento de dados e as arquiteturas de pipeline
- Estenda a governança de dados aos fluxos de trabalho genAI
Revise as políticas de dados para uso em ferramentas genAI e LLMs
Os departamentos de governança de dados supervisionam catálogos de dados e comunicam políticas de uso de dados para ajudar os funcionários a acessar conjuntos de dados centralizados e usá-los para construir modelos de aprendizado de máquina, painéis e outras ferramentas analíticas. Esses departamentos estão agora atualizando as políticas para incluir se e como usar fontes de dados corporativos em LLMs e ferramentas genAI abertas. Os desenvolvedores e cientistas de dados devem revisar essas políticas e consultar os proprietários dos dados sobre quaisquer dúvidas sobre o uso de conjuntos de dados para apoiar a experimentação de genAI.
“Com a IA generativa trazendo mais complexidade de dados, as organizações devem ter boas políticas de governança e privacidade de dados para gerenciar e proteger o conteúdo usado para treinar esses modelos”, afirma Kris Lahiri, cofundador e diretor de segurança da Egnyte. “As organizações devem prestar atenção extra aos dados que são usados com essas ferramentas de IA, sejam terceiros como OpenAI, PaLM ou um LLM interno que a empresa possa usar internamente.”
Revise as políticas da genAI sobre privacidade, proteção de dados e uso aceitável. Muitas organizações exigem o envio de solicitações e aprovações dos proprietários de dados antes de usar conjuntos de dados para casos de uso de genAI. Consulte as funções legais, de risco e de conformidade antes de usar conjuntos de dados que devem atender ao GDPR, CCPA, PCI, HIPAA ou outros padrões de conformidade de dados.
As políticas de dados também devem considerar a cadeia de fornecimento de dados e as responsabilidades ao trabalhar com fontes de dados de terceiros. “Caso ocorra um incidente de segurança envolvendo dados protegidos em uma determinada região, os fornecedores precisam ser claros sobre suas responsabilidades e as de seus clientes para mitigá-lo adequadamente, especialmente se esses dados forem destinados a serem usados em plataformas de IA/ML”, diz Jozef de Vries, diretor de engenharia de produto da EDB.
Para aqueles entusiasmados com as oportunidades de genAI, é importante ter uma mentalidade de prioridade, compreendendo as políticas de privacidade, segurança e conformidade de dados de sua organização.
Acelere iniciativas de qualidade de dados
Muitas empresas oferecem soluções de qualidade de dados, incluindo Attacama, Collibra, Experian, IBM, Informatica, Precisely, SAP, SAS e Talend. O tamanho do mercado global de ferramentas de qualidade de dados foi avaliado em mais de US$ 4 bilhões em 2022 e deverá crescer 17,7% anualmente. Espero um crescimento maior agora que muitas empresas estão experimentando ferramentas de IA e LLMs.
“Como a inteligência artificial é tão boa quanto os dados que a alimentam, os muitos desafios de trabalhar com IA estão ligados à qualidade dos dados”, afirma Mateusz Krempa, COO da Piwik Pro. “A má qualidade dos dados pode levar a insights enganosos ou errôneos, afetando seriamente os resultados.”
Krempa diz que os desafios de qualidade de dados decorrem do volume, velocidade e variedade de big data, especialmente porque os LLMs agora exploram as fontes de dados não estruturados da organização. As empresas que pretendam desenvolver LLMs internos terão de alargar as iniciativas de qualidade de dados para incluir informações extraídas de documentos, ferramentas de colaboração, repositórios de código e outras ferramentas que armazenam conhecimento empresarial e propriedade intelectual.
“A governança de dados está mudando de direção não apenas para alimentar os sistemas LLM com toneladas de dados, mas também para fazê-lo com sabedoria e segurança”, diz Karen Meppen, líder de governança de dados na Hakkoda. “O foco está em garantir que os dados não sejam apenas grandes, mas também inteligentes – precisos, compreensíveis, conscientes da privacidade, seguros e respeitadores dos riscos e impactos da propriedade intelectual e da justiça.”
A qualidade dos dados pode ser melhorada usando diferentes ferramentas, dependendo dos objetivos de negócios e dos tipos de dados.
- As ferramentas tradicionais de qualidade de dados podem desduplicar, normalizar campos de dados, validar dados em relação a regras de negócios, detectar anomalias e calcular métricas de qualidade.
- As ferramentas mestres de gerenciamento de dados (MDM) ajudam as organizações a conectar várias fontes de dados e a criar uma fonte de verdade em torno de entidades comerciais, como clientes e produtos.
- As plataformas de dados do cliente (CDP) são ferramentas especializadas para centralizar as informações do cliente e permitir marketing, vendas, atendimento ao cliente e outras interações com o cliente.
Espere atualizações e novas ferramentas de qualidade de dados para melhorar o suporte a fontes de dados não estruturadas e aumentar os recursos de qualidade de dados para casos de uso de genAI.
Outra recomendação de Graeme Cantu-Park, CISO da Matillion, concentra-se na importância da linhagem de dados. “A IA exigirá uma forma completamente diferente de encarar as prioridades e práticas de governação para ter melhor visibilidade dos pipelines de dados e da linhagem de dados que alimentam as aplicações e modelos de IA.”
A linhagem de dados ajuda a expor o ciclo de vida dos dados e a responder perguntas sobre quem, quando, onde, por que e como os dados mudam. Como a IA expande o escopo dos dados e seus casos de uso, compreender a linhagem dos dados torna-se mais importante para mais pessoas na organização, incluindo pessoas em segurança e outras funções de gerenciamento de riscos.
Revise o gerenciamento de dados e as arquiteturas de pipeline
Olhando além das políticas e da qualidade dos dados, os líderes da governação de dados devem alargar a sua influência às funções de gestão e arquitetura de dados. A governança proativa de dados permite um conjunto de recursos para que mais funcionários possam aproveitar dados, análises (e agora IA) para realizar seu trabalho e tomar decisões mais inteligentes. A forma como os dados são armazenados, acessados, produzidos, catalogados e documentados são fatores que determinam a rapidez, facilidade e segurança com que as organizações serão capazes de estender seus dados para casos de uso de genAI.
Hillary Ashton, diretora de produtos da Teradata, sugere as seguintes maneiras de tornar realidade os casos de uso de IA mais interessantes:
- Crie produtos de dados reutilizáveis ou conjuntos selecionados de dados válidos para ajudar a organização a controlar melhor e inspirar confiança em seus dados.
- Respeite a gravidade dos dados para tornar as informações acessíveis a mais pessoas na força de trabalho sem mover dados entre ambientes diferentes.
- Iniciativas piloto de IA com escalabilidade em mente, incluindo pipelines de dados de IA/ML com governança robusta que também permite um ecossistema aberto e conectado.
Uma chave para as equipes de dados é identificar estruturas e plataformas que sejam fáceis de usar e que ofereçam suporte a vários casos de uso. Sean Mahoney, gerente geral e vice-presidente da Ensono, afirma: “As estruturas de governança estão começando a parecer mais ágeis para permitir que as equipes respondam mais rapidamente ao ritmo dos avanços tecnológicos”. Ele sugere que os líderes de governança de dados também revisem e se envolvam nestas ferramentas:
- Malhas de dados para delegar o gerenciamento dos dados a quem os cria.
- Bancos de dados vetoriais para lidar com a escalabilidade e a complexidade inerentes à IA generativa e aos LLMs.
- Ferramentas de monitoramento em tempo real para expandir a governança de dados em mais sistemas.
Outra consideração é como a governança, o gerenciamento e a arquitetura de dados exigem a compreensão das regulamentações globais sobre armazenamento de dados. De Vries, da EDB, recomenda: “As empresas devem implementar bases de dados distribuídas globalmente para elevar as suas práticas de governação de dados, mantendo dados altamente regulamentados dentro da sua região, ao mesmo tempo que distribuem dados menos restritivos globalmente para maior agilidade na alimentação de plataformas de IA”.
Estenda a governança de dados aos fluxos de trabalho genAI
As funções de governação de dados também devem considerar como a utilização de ferramentas genAI e LLMs requer políticas e melhores práticas. Por exemplo, no início deste artigo, citei explicitamente o ChatGPT para que os leitores soubessem que a resposta veio de uma fonte genAI. Uma boa governação de dados exige a educação dos funcionários sobre os procedimentos para aumentar a transparência, as ferramentas que estão autorizados a utilizar e as práticas que minimizam as questões de privacidade de dados.
“A maior coisa que estou vendo é o surgimento de maneiras de aproveitar, compartilhar e aprender com precisão com os dados, mantendo a privacidade e a autenticidade”, disse Deon Nicholas, CEO da Forethought. “Por exemplo, mecanismos de pesquisa baseados em LLM, como Perplexity, sempre citam suas fontes, ou tecnologias de redação de dados, como Private AI, que permitem limpar e redigir PIl antes de ingerir ou enviar dados para LLMS.”
Uma medida nova e proativa que os líderes de governança de dados devem considerar é a criação de bibliotecas imediatas onde os funcionários possam registrar seus casos de uso imediatos e compartilhá-los entre as organizações. Esta disciplina amplia as práticas de gestão do conhecimento que muitas equipes de governança de dados já fazem em torno da manutenção de catálogos e dicionários de dados.
Nikolaos Vasiloglou, vice-presidente de pesquisa de ML da RelationalAI, afirma: “O combustível dos LLMs consiste em uma mistura de conteúdo limpo e bem organizado, geralmente armazenado em um gráfico de conhecimento, juntamente com conhecimento especializado, que normalmente está na forma de bibliotecas imediatas. Embora tenhamos boas práticas de governança para gráficos de conhecimento, como governar estes últimos não é óbvio.”
Adoro a citação popularizada no Homem Aranha filme, “Com grande poder vem uma grande responsabilidade”. Estamos vendo uma rápida evolução das capacidades de genAI, e a questão é se as equipes de governança de dados irão avançar com o seu lado da equação.