Mais do que qualquer outro factor, a hiperabundância de dados acessíveis impulsionou o aumento actual na adopção da IA ​​e na capacidade generativa da IA. A recolha, limpeza, organização e proteção desses dados para IA e aprendizagem automática tornaram-se um projeto em si – um esforço de governação no qual as próprias ferramentas de IA desempenham um papel importante. O resultado pode ser uma enorme melhoria na governança de dados que beneficia toda a empresa.

A base de dados continua a ser o repositório fundamental de dados, mas o ecossistema de ferramentas de governação de dados alimentadas por IA está por todo o lado, incluindo produtos de startups que podem não ter capacidade de permanência ou profundo conhecimento em bases de dados. Com o tempo, um número crescente de capacidades de governança provavelmente será integrado às ofertas de software de banco de dados e aos serviços de banco de dados em nuvem.

Usar a IA para automatizar a governança de dados traz resultados imediatos. Quanto melhor uma empresa administrar seus dados, melhor seu pessoal de MLOps (operações de aprendizado de máquina) poderá usar esses dados para construir aplicativos baseados em IA. De forma mais ampla, adicionar IA à governança de dados tem um impacto positivo na análise de dados, na conformidade regulatória e nos esforços de qualidade de dados de qualquer organização.

Veja como a IA está modernizando os processos de governança e como as ferramentas aprimoradas por IA podem ajudar a garantir o sucesso tanto para aplicativos de IA/ML quanto para a disputa de dados em geral.

Catalogação de dados

Você sabe onde estão seus dados? Para que a governança funcione, as organizações precisam de um inventário completo de todos os armazenamentos de dados importantes e de uma compreensão do que eles contêm. A tarefa de identificar, acessar e categorizar dados corporativos está cada vez mais árdua, graças à proliferação incontrolável de armazenamentos de dados em nuvem, sem mencionar os logs semiestruturados usados ​​para identificar tendências e anomalias operacionais. O software de catalogação de dados coloca todos esses repositórios no mapa.

A IA pode ajudar em todas as fases da catalogação dos dados de uma organização, começando com a descoberta automatizada de todos os armazenamentos de dados relevantes para a empresa. O escopo das ferramentas de catalogação varia, mas algumas usam IA para organizar políticas de controle de acesso e/ou permitir pesquisas em linguagem natural na estrutura de dados de uma organização. A catalogação alimentada por IA reduz enormemente o trabalho manual associado à classificação de ativos de dados e revela linhagens de dados mostrando onde os dados se originaram e como eles mudaram.

Gerenciamento de metadados

O gerenciamento eficaz de metadados – ou seja, o gerenciamento das informações que descrevem os dados da sua empresa – é fundamental para uma governança bem-sucedida. As ferramentas de catalogação de IA podem identificar metadados para categorizar adequadamente os ativos de dados, mas o gerenciamento de metadados também é vital para um patrimônio de dados saudável. Assim, uma ampla gama de ofertas, desde software de integração de dados até plataformas de observabilidade de dados, agora oferece recursos de gerenciamento de metadados.

As ferramentas de gerenciamento de metadados com IA aliviam o tédio da classificação manual de dados e ajudam a reconciliar diferenças nas descrições de metadados. No passado, as empresas comportavam-se como se os metadados fossem relativamente estáticos, mas hoje, as ferramentas de IA podem monitorizar e recolher continuamente metadados dinâmicos sobre armazenamento, utilização e fluxo de dados. Entre outros benefícios, metadados profundos em torno de ativos de dados podem ser usados ​​para recomendações de IA de plataformas de armazenamento ideais ou até mesmo para sugerir potenciais pipelines de integração de dados.

Qualidade dos dados

O maior impacto que a IA teve na governação de dados foi na qualidade dos dados, que tem seis dimensões: precisão, integralidade, consistência, singularidade, oportunidade e validade. Obviamente, os dados que não possuem essas qualidades podem ser calamitosos para as operações. Sem mencionar que os cientistas e analistas de dados rotineiramente ficam até o pescoço limpando os dados antes de serem capazes de usá-los.

As ferramentas de IA/ML podem inferir automaticamente valores ausentes, normalizar formatos de dados, sinalizar anomalias de dados e muito mais. Os humanos ainda precisam fazer julgamentos (dois clientes com nomes idênticos são iguais ou diferentes?), Mas a economia geral de tempo pode ser enorme. À medida que as ferramentas de IA aprendem com padrões em grandes quantidades de dados, suas recomendações, correlações e correções melhoram constantemente. Essa linha de base pode ser usada para monitorar a qualidade dos dados em tempo real.

Modelagem de dados

A estruturação de um banco de dados — ou de uma arquitetura de dados inteira — começa com a coleta e a análise dos requisitos de dados e o desenvolvimento de modelos lógicos e físicos para acomodá-los. Várias ofertas de produtos usam IA para permitir que arquitetos e engenheiros de dados gerem facilmente representações visuais de modelos de dados.

Hoje, em muitas empresas, a modelagem de dados está sendo invertida para servir aplicações de IA/ML. Várias ferramentas de dados de IA oferecem engenharia automatizada de recursos, onde as principais características dos dados são derivadas de conjuntos de dados em preparação para o treinamento em IA. Em conjunto com o AutoML (aprendizado de máquina automatizado), essa atividade, por sua vez, oferece suporte a um tipo diferente de seleção de modelo: escolher o modelo de ML certo para potencializar um aplicativo ou alimentar análises preditivas. Se houver poucos dados para treinar adequadamente um modelo, as ferramentas de simulação de dados alimentadas por IA podem sondar os armazenamentos de dados existentes e gerar dados sintéticos que se assemelham muito aos reais.

Política de dados e gerenciamento do ciclo de vida

Toda organização precisa estabelecer políticas em torno do tratamento de seus dados – informadas por regulamentações federais, estaduais, industriais e internacionais, bem como por regras comerciais internas. Nas empresas maiores, um comité de governação de dados define essas políticas e especifica como devem ser seguidas num documento vivo que evolui à medida que os regulamentos e procedimentos mudam. Os recursos de linguagem natural da IA ​​generativa podem apresentar os primeiros rascunhos dessa documentação e tornar as alterações subsequentes muito menos onerosas.

Ao analisar padrões de uso de dados, requisitos regulatórios e fluxos de trabalho internos, a IA pode ajudar as organizações a definir e aplicar políticas de retenção de dados e identificar automaticamente os dados que atingiram o fim de sua vida útil. A IA pode até iniciar o processo de arquivamento ou exclusão. Além de reduzir riscos e garantir a conformidade, o arquivamento automatizado de dados ajuda a liberar espaço de armazenamento e a reduzir custos de armazenamento.

Disponibilidade de dados

Os sistemas de recuperação de desastres alimentados por IA podem ajudar as organizações a desenvolver estratégias de recuperação sólidas, prevendo possíveis cenários de falha e estabelecendo medidas preventivas para minimizar o tempo de inatividade e a perda de dados. Os sistemas de backup infundidos com IA podem garantir a integridade dos backups e, quando ocorre um desastre, iniciar automaticamente procedimentos de recuperação para restaurar dados perdidos ou corrompidos.

Os sistemas de gerenciamento de armazenamento com IA podem replicar e distribuir dados em vários locais de armazenamento para garantir alta disponibilidade e baixa latência. Ao mesmo tempo, a análise preditiva orientada por IA pode ingerir dados de sensores, registros de equipamentos e registros históricos de manutenção para prever possíveis falhas ou tempo de inatividade. Nada supera a manutenção preditiva para evitar a perda de disponibilidade de dados.

Os humanos ainda precisavam

Uma boa parte da governança de dados é um fruto fácil para a IA. Muitas das tarefas associadas à governança, desde a descoberta de dados até a limpeza de dados e o gerenciamento de políticas, estão repletas de tarefas manuais repetitivas que a IA pode realizar facilmente – e concluí-las com maior precisão do que os humanos. Isso é uma grande vitória, especialmente porque o MLOps busca armazenamentos de dados limpos e organizados sobre os quais os aplicativos de IA possam ser construídos e treinados.

Lembre-se, porém, de que a IA não é inteligente em nenhum sentido significativo da palavra. Mesmo a resolução de pequenas discrepâncias de dados pode exigir um contexto nascido de uma ampla experiência que apenas os humanos podem adquirir e digerir. Ninguém, digamos, delegaria a criação de uma arquitetura de dados empresariais a uma máquina. Sim, a IA já está a eliminar uma grande parte do trabalho manual da governação de dados. Mas não vai pensar por você.

Jozef de Vries é diretor de engenharia de produto da EDB.

Generative AI Insights oferece um local para líderes de tecnologia – incluindo fornecedores e outros colaboradores externos – explorarem e discutirem os desafios e oportunidades da inteligência artificial generativa. A seleção é ampla, desde aprofundamentos tecnológicos até estudos de caso e opiniões de especialistas, mas também subjetiva, com base em nosso julgamento de quais tópicos e tratamentos servirão melhor ao público tecnicamente sofisticado do InfoWorld. A InfoWorld não aceita material de marketing para publicação e reserva-se o direito de editar todo o conteúdo contribuído. Contato [email protected].