Quer você tenha responsabilidades em desenvolvimento de software, devops, sistemas, nuvens, automação de testes, confiabilidade de sites, liderança de equipes scrum, infosec ou outras áreas de tecnologia da informação, você terá oportunidades e requisitos crescentes para trabalhar com dados, análises e aprendizado de máquina .

Sua exposição à análise pode vir por meio de dados de TI, como o desenvolvimento de métricas e insights de métricas ágeis, devops ou de sites. Não há melhor maneira de aprender as habilidades e ferramentas básicas relacionadas a dados, análises e aprendizado de máquina do que aplicá-las a dados que você conhece e que pode explorar em busca de insights para impulsionar ações.

As coisas ficam um pouco mais complexas quando você sai do mundo dos dados de TI e fornece serviços para equipes de cientistas de dados, cientistas de dados cidadãos e outros analistas de negócios que realizam visualizações de dados, análises e aprendizado de máquina.

Primeiro, os dados devem ser carregados e limpos. Então, dependendo do volume, variedade e velocidade dos dados, é provável que você encontre vários bancos de dados back-end e tecnologias de dados em nuvem. Por último, nos últimos anos, o que costumava ser uma escolha entre ferramentas de business intelligence e de visualização de dados transformou-se numa matriz complexa de análises de ciclo de vida completo e plataformas de aprendizagem automática.

A importância da análise e do aprendizado de máquina aumenta as responsabilidades da TI em diversas áreas. Por exemplo:

  • A TI geralmente fornece serviços em todas as integrações de dados, bancos de dados back-end e plataformas analíticas.
  • As equipes Devops frequentemente implantam e dimensionam a infraestrutura de dados para permitir a experimentação em modelos de aprendizado de máquina e, em seguida, dar suporte ao processamento de dados de produção.
  • As equipes de operações de rede estabelecem conexões seguras entre ferramentas analíticas SaaS, multiclouds e data centers.
  • As equipes de gerenciamento de serviços de TI respondem a solicitações e incidentes de serviços de dados e análises.
  • A Infosec supervisiona a governança e as implementações de segurança de dados.
  • Os desenvolvedores integram modelos analíticos e de aprendizado de máquina aos aplicativos.

Dada a explosão de análises, plataformas de dados em nuvem e recursos de aprendizado de máquina, aqui está uma cartilha para entender melhor o ciclo de vida da análise, desde a integração e limpeza de dados até dataops e modelops, até os próprios bancos de dados, plataformas de dados e ofertas de análise.

A análise começa com a integração e limpeza de dados

Antes que analistas, cientistas de dados cidadãos ou equipes de ciência de dados possam realizar análises, as fontes de dados necessárias devem estar acessíveis em suas plataformas de visualização e análise de dados.

Para começar, pode haver requisitos comerciais para integrar dados de vários sistemas empresariais, extrair dados de aplicações SaaS ou transmitir dados de sensores IoT e outras fontes de dados em tempo real.

Estas são todas as etapas para coletar, carregar e integrar dados para análise e aprendizado de máquina. Dependendo da complexidade dos dados e das questões de qualidade dos dados, existem oportunidades para se envolver em operações de dados, catalogação de dados, gestão de dados mestres e outras iniciativas de governança de dados.

Todos nós conhecemos a frase “entra lixo, sai lixo”. Os analistas devem estar preocupados com a qualidade dos seus dados, e os cientistas de dados devem estar preocupados com os preconceitos nos seus modelos de aprendizagem automática. Além disso, a oportunidade de integração de novos dados é crítica para as empresas que procuram tornar-se mais orientadas por dados em tempo real. Por esses motivos, os pipelines que carregam e processam dados são extremamente importantes em análises e aprendizado de máquina.

Bancos de dados e plataformas de dados para todos os tipos de desafios de gerenciamento de dados

Carregar e processar dados é um primeiro passo necessário, mas depois as coisas ficam mais complicadas ao selecionar os bancos de dados ideais. As opções atuais incluem data warehouses corporativos, data lakes, plataformas de processamento de big data e bancos de dados especializados NoSQL, gráficos, valores-chave, documentos e colunas. Para oferecer suporte ao armazenamento e análise de dados em grande escala, existem plataformas como Snowflake, Redshift, BigQuery, Vertica e Greenplum. Por último, existem as plataformas de big data, incluindo Spark e Hadoop.

É provável que as grandes empresas tenham vários repositórios de dados e usem plataformas de dados em nuvem, como Cloudera Data Platform ou MapR Data Platform, ou plataformas de orquestração de dados, como InfoWorks DataFoundy, para tornar todos esses repositórios acessíveis para análise.

As principais nuvens públicas, incluindo AWS, GCP e Azure, possuem plataformas e serviços de gerenciamento de dados para analisar. Por exemplo, o Azure Synapse Analytics é o armazém de dados SQL da Microsoft na nuvem, enquanto o Azure Cosmos DB fornece interfaces para muitos armazenamentos de dados NoSQL, incluindo Cassandra (dados colunares), MongoDB (valor-chave e dados de documentos) e Gremlin (dados gráficos). .

Os data lakes são docas de carregamento populares para centralizar dados não estruturados para análise rápida, e pode-se escolher entre Azure Data Lake, Amazon S3 ou Google Cloud Storage para atender a esse propósito. Para processar big data, as nuvens AWS, GCP e Azure também oferecem ofertas Spark e Hadoop.

As plataformas analíticas visam o aprendizado de máquina e a colaboração

Com os dados carregados, limpos e armazenados, os cientistas e analistas de dados podem começar a realizar análises e aprendizado de máquina. As organizações têm muitas opções dependendo dos tipos de análise, das habilidades da equipe analítica que executa o trabalho e da estrutura dos dados subjacentes.

A análise pode ser realizada em ferramentas de visualização de dados de autoatendimento, como Tableau e Microsoft Power BI. Ambas as ferramentas têm como alvo cientistas de dados de cidadãos e expõem visualizações, cálculos e análises básicas. Essas ferramentas oferecem suporte à integração básica e à reestruturação de dados, mas a disputa de dados mais complexa geralmente acontece antes das etapas de análise. O Tableau Data Prep e o Azure Data Factory são ferramentas complementares para ajudar a integrar e transformar dados.

As equipes de análise que desejam automatizar mais do que apenas integração e preparação de dados podem recorrer a plataformas como o Alteryx Analytics Process Automation. Esta plataforma colaborativa de ponta a ponta conecta desenvolvedores, analistas, cientistas de dados de cidadãos e cientistas de dados com automação de fluxo de trabalho e processamento de dados de autoatendimento, análise e recursos de processamento de aprendizado de máquina.

Alan Jacobson, diretor de análise e dados da Alteryx, explica: “O surgimento da automação de processos analíticos (APA) como categoria ressalta uma nova expectativa de que cada trabalhador de uma organização seja um trabalhador de dados. Os desenvolvedores de TI não são exceção, e a extensibilidade da plataforma Alteryx APA é especialmente útil para esses profissionais do conhecimento.”

Existem várias ferramentas e plataformas destinadas aos cientistas de dados que visam torná-los mais produtivos com tecnologias como Python e R, ao mesmo tempo que simplificam muitas das etapas operacionais e de infraestrutura. Por exemplo, Databricks é uma plataforma operacional de ciência de dados que permite a implantação de algoritmos no Apache Spark e TensorFlow, enquanto autogerencia os clusters de computação na nuvem AWS ou Azure.

Agora, algumas plataformas como SAS Viya combinam preparação de dados, análise, previsão, aprendizado de máquina, análise de texto e gerenciamento de modelo de aprendizado de máquina em uma única plataforma modelops. O SAS está operacionalizando análises e tem como alvo cientistas de dados, analistas de negócios, desenvolvedores e executivos com uma plataforma colaborativa de ponta a ponta.

David Duling, diretor de pesquisa e desenvolvimento de gerenciamento de decisões do SAS, afirma: “Vemos modelops como a prática de criar um pipeline de operações repetível e auditável para implantar todas as análises, incluindo modelos de IA e ML, em sistemas operacionais. Como parte do modelops, podemos usar práticas modernas de devops para gerenciamento, teste e monitoramento de código. Isso ajuda a melhorar a frequência e a confiabilidade da implantação de modelos, o que, por sua vez, aumenta a agilidade dos processos de negócios baseados nesses modelos.”

Dataiku é outra plataforma que se esforça para levar preparação, análise e aprendizado de máquina de dados para equipes crescentes de ciência de dados e seus colaboradores. Dataiku possui um modelo de programação visual para permitir colaboração e blocos de notas de código para desenvolvedores SQL e Python mais avançados.

Outras plataformas analíticas e de aprendizado de máquina dos principais fornecedores de software empresarial visam levar recursos analíticos para data centers e fontes de dados em nuvem. Por exemplo, o Oracle Analytics Cloud e o SAP Analytics Cloud visam centralizar a inteligência e automatizar insights para permitir decisões de ponta a ponta.

Escolhendo uma plataforma de análise de dados

A seleção de ferramentas de integração, armazenamento e análise de dados costumava ser mais simples antes do surgimento do big data, do aprendizado de máquina e da governança de dados. Hoje, há uma combinação de terminologia, capacidades de plataforma, requisitos operacionais, necessidades de governança e personas de usuários direcionadas que tornam a seleção de plataformas mais complexa, especialmente porque muitos fornecedores suportam múltiplos paradigmas de uso.

As empresas diferem nos requisitos e necessidades de análise, mas devem procurar novas plataformas a partir do que já existe. Por exemplo:

  • As empresas que tiveram sucesso com programas de ciência de dados cidadãos e que já possuem ferramentas de visualização de dados podem querer estender este programa com automação de processos analíticos ou tecnologias de preparação de dados.
  • As empresas que desejam uma cadeia de ferramentas que permita aos cientistas de dados trabalhar em diferentes partes do negócio podem considerar plataformas analíticas ponta a ponta com recursos de modelops.
  • Organizações com diversas plataformas de dados de back-end podem se beneficiar das plataformas de dados em nuvem para catalogá-las e gerenciá-las centralmente.
  • As empresas que padronizam todos ou a maioria dos recursos de dados em um único fornecedor de nuvem pública devem investigar a integração de dados, o gerenciamento de dados e as plataformas de análise de dados oferecidas.

Com a análise e a aprendizagem automática a tornarem-se numa competência central importante, os tecnólogos devem considerar aprofundar a sua compreensão das plataformas disponíveis e das suas capacidades. O poder e o valor das plataformas analíticas só aumentarão, assim como a sua influência em toda a empresa.