Uma capacidade essencial do pipeline de dados é rastrear a linhagem de dados, incluindo metodologias e ferramentas que expõem o ciclo de vida dos dados e ajudam a responder perguntas sobre quem, quando, onde, por que e como os dados mudam. Os pipelines de dados transformam dados, o que faz parte do escopo da linhagem de dados, e rastrear alterações de dados é crucial em setores regulamentados ou quando a segurança humana é uma consideração. As plataformas que têm capacidades de linhagem de dados incluem Alex Solutions, Alation, Atlan, Boomi, Collibra, Erwin, IBM, Informatica, Manta, Microsoft, Octopai, Oracle, Precisely, Secoda, Solidatus, SAP, SAS e Talend. Outras plataformas de catálogo de dados, governança de dados e governança de IA também podem ter capacidades de linhagem de dados.
“As partes interessadas comerciais e técnicas devem entender igualmente como os dados fluem, se transformam e são usados em fontes com linhagem de ponta a ponta para uma análise de impacto mais profunda, melhor conformidade regulatória e análises mais confiáveis”, diz Felix Van de Maele, CEO da Collibra.
As operações de dados por trás dos pipelines de dados
Ao implantar pipelines, como você sabe se eles recebem, transformam e enviam dados com precisão? Erros de dados são capturados e problemas de dados de registro único interrompem o pipeline? Os pipelines estão funcionando de forma consistente, especialmente sob carga pesada? As transformações são idempotentes ou estão transmitindo registros duplicados quando as fontes de dados têm erros de transmissão?
