A Snowflake diz que abrirá o código-fonte de seu novo Catálogo Polaris, uma estratégia que sugere que deseja atrair os usuários do catálogo de dados para longe do Catálogo Unity do rival Databricks, ao mesmo tempo que reforça a atratividade de sua própria oferta, disseram analistas.
“A mudança para lançar o Catálogo Polaris fornece uma resposta competitiva ao Catálogo Unity da Databricks, melhorando assim a proposta de valor da Snowflake, atraindo uma gama mais ampla de clientes e promovendo uma comunidade vibrante em torno do novo catálogo de dados”, disse Jayesh Chaurasia, analista de pesquisa e consultoria empresa de serviços Forrester.
Como o Catálogo Polaris é diferente do Catálogo Unity do Databricks
O Catálogo Unity do Databricks, que foi disponibilizado ao público em junho de 2022 e posteriormente atualizado com os recursos do Okera no ano seguinte, é uma oferta de governança unificada de código fechado que fornece controle de acesso centralizado, auditoria, linhagem e recursos de descoberta de dados em todos os espaços de trabalho do Databricks.
O Polaris Catalog, lançado durante a conferência anual da Snowflake esta semana, oferece recursos semelhantes ao Unity Catalog, mas é construído sobre o popular formato de tabela de dados de código aberto Apache Iceberg. precisam acessar uma oferta neutra em termos de fornecedor que inclua recursos de governança de dados e suporte a mecanismos de consulta interoperáveis.
“Com o Catálogo Polaris, os usuários agora ganham um local único e centralizado para qualquer mecanismo encontrar e acessar as tabelas Iceberg de uma organização com segurança consistente e interoperabilidade total e aberta”, disse Snowflake em um comunicado, acrescentando que o Catálogo Polaris depende do REST de código aberto do Iceberg. protocolo, que fornece um padrão aberto para os usuários acessarem e recuperarem dados de qualquer mecanismo que suporte a API Iceberg Rest, incluindo Apache Flink, Apache Spark, Dremio, Python e Trino, entre outros.
A complexidade e a diversidade dos sistemas de dados, juntamente com o desejo universal das organizações de alavancar a IA, exigem a utilização de um catálogo de dados interoperável, que provavelmente será de natureza aberta, de acordo com Chaurasia.
“Um catálogo de dados de código aberto atende à interoperabilidade e outras necessidades, como escalabilidade, especialmente se for construído sobre um formato de tabela popular como o Iceberg. Esta abordagem facilita o gerenciamento de dados em diversas plataformas e ambientes de nuvem”, disse Chaurasia.
Separadamente, o vice-presidente de pesquisa da empresa de pesquisa de mercado IDC, Stewart Bond, apontou que o Catálogo Polaris pode ter aproveitado os Catálogos Iceberg nativos do Apache Iceberg e adicionado recursos de nível empresarial a ele, como gerenciamento de múltiplas instâncias distribuídas de repositórios Iceberg, fornecimento de linhagem de dados, capacidade de pesquisa para utilitários de dados e recursos de descrição de dados, entre outros.
O Catálogo Polaris, cujo código-fonte Snowflake espera abrir nos próximos 90 dias, pode ser hospedado em sua AI Data Cloud proprietária ou pode ser auto-hospedado na própria infraestrutura de uma empresa usando contêineres como Docker ou Kubernetes.
“Como a implementação de back-end do Catálogo Polaris será de código aberto, as organizações podem trocar livremente a infraestrutura de hospedagem, mantendo todos os controles de segurança e eliminando a dependência do fornecedor”, disse a empresa, acrescentando que o Catálogo Polaris dentro do AI Data Cloud da Snowflake está atualmente em visualização pública.
Será o bilhete da Polaris Snowflake para conquistar a boa vontade da comunidade?
Embora especialistas como Chaurasia, da Forrester, e Tony Baer, da dbInsight, pensem que o Catálogo Polaris é uma estratégia estendida para a empresa ampliar seu alcance para adquirir novos clientes, o vice-presidente de pesquisa do Grupo Futurum, Steven Dickens, acha que é uma tentativa “desesperada” de angariar “boa vontade”. ”dos clientes e da comunidade de código aberto.
O catálogo de dados que em breve será de código aberto, de acordo com Dickens, é uma consequência direta das deficiências e limitações do Snowflake, incluindo fraca interoperabilidade, dependência de fornecedores, custos exorbitantes, falta de inovação e dependência de parcerias.
“O Snowflake é notoriamente caro e sua estrutura de custos levou muitos clientes a buscar alternativas. Polaris pode ser visto como um último esforço para reter clientes, oferecendo uma alternativa de código aberto potencialmente mais barata”, disse Dickens.
Além disso, Dickens vê a mudança da Snowflake para o Catálogo Polaris de código aberto como uma forma de combater seu “ritmo de desenvolvimento mais lento e insular”.
“Polaris é uma tentativa de alavancar a inovação externa para compensar a estagnação interna da Snowflake”, explicou Dickens.
Catálogo Polaris tem rivais de código aberto
Chaurasia e Dickens também apontaram que o Catálogo Polaris não é o único catálogo de dados de código aberto disponível no mercado.
“Existem vários outros projetos de código aberto no espaço de catalogação de dados e gerenciamento de metadados, incluindo Apache Atlas, Amundsen e DataHub do LinkedIn. Cada um oferece recursos para descoberta de dados, governança e gerenciamento de metadados”, disse Chaurasia.
Enquanto o Apache Atlas foi projetado para governança e conformidade em ambientes Apache Hadoop, oferecendo gerenciamento escalável de metadados, linhagem e recursos de governança para Hadoop e tecnologias de big data associadas, Amundsen, originado da Lyft, visa aumentar a produtividade de analistas de dados, cientistas e engenheiros indexando recursos de dados (metadados) e facilitando a descoberta e exploração de conjuntos de dados com base no uso e relevância.
Outra alternativa é o DataHub do LinkedIn, que fornece arquitetura de metadados em tempo real que suporta vários sistemas e ambientes de dados por meio de integração conectável.
“Ele se concentra na ingestão de metadados, indexação, descoberta de dados e governança”, disse Chaurasia, acrescentando que Amundsen e DataHub se tornaram populares devido à sua ênfase na experiência do usuário, suporte para múltiplas integrações (em tempo real e em lote) e dados. recursos de descoberta na esteira da demanda por ofertas eficientes de gerenciamento de dados.