A Databricks concordou em adquirir a Tabular, fornecedora de plataforma de armazenamento liderada pelos criadores do Apache Iceberg, a fim de promover a interoperabilidade de dados em lakehouses.
Os fundadores da Tabular, Ryan Blue e Daniel Weeks, começaram a desenvolver o Iceberg na Netflix em 2017 e doaram-no à Apache Software Foundation em 2018, mais ou menos na mesma época em que a Databricks estava desenvolvendo o Delta Lake, um formato de tabela de código aberto para dados que pode ser usado para ACID transações ou processamento OLTP. Por outro lado, o Apache Iceberg é usado principalmente para consultas OLAP, pois apresenta desafios relacionados a gravações simultâneas.
Em junho de 2022, a Databricks abriu o código-fonte de todas as APIs do Delta Lake como parte de seu lançamento Delta Lake 2.0 e disse que contribuiria com todas as melhorias do Delta Lake para a Linux Foundation.
Antes de abrir o código-fonte do Delta Lake, concorrentes como Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) e Vertica criticaram a empresa, lançando dúvidas se Delta Lake era de código aberto ou proprietário. , eliminando assim uma parcela de clientes em potencial.
Com a aquisição da Tabular, a Databricks disse que oferecerá suporte aos dois principais formatos de tabela de código aberto para lakehouses e também expandirá o suporte para suas tabelas UniForm.
“Databricks pretende trabalhar em estreita colaboração com as comunidades Delta Lake e Iceberg para trazer compatibilidade de formato para o lakehouse; no curto prazo, dentro do Delta Lake UniForm e no longo prazo, evoluindo em direção a um padrão único, aberto e comum de interoperabilidade”, afirmou a empresa em comunicado.
UniForm (Formato Universal) é um novo formato de tabela lançado em junho de 2023 que fornece interoperabilidade entre Delta Lake, Iceberg e Hudi e oferece suporte à interface de catálogo tranquila do Iceberg.
Tabelas Snowflake e Iceberg versus Databricks e Delta Live Tables
Os analistas também veem a aquisição da Tabular como um meio para o Databricks apoiar uma interoperabilidade mais robusta.
“Já vimos antes que as empresas muitas vezes adquirem o talento por trás de importantes projetos de código aberto como forma de ganhar uma voz forte entre a comunidade de desenvolvedores de código aberto do projeto”, disse Bradley Shimmin, analista-chefe da Omdia.
“A união dos fundadores da Tabular ao Databricks pode se traduzir em uma compatibilidade aprimorada entre Delta Lake e o padrão Iceberg, o que dará ao Databricks uma vantagem sobre o Snowflake no suporte a clientes com forte dependência de dados externos à plataforma Snowflake”, explicou Shimmin.
No entanto, o analista-chefe apontou que é improvável que a aquisição atrapalhe o uso do Iceberg pela Snowflake, já que Blue e Weeks há muito abriram o código-fonte do projeto e o doaram à Apache Software Foundation.
O principal analista da Constellation Research também acredita que o Apache Iceberg já eclipsou todos os outros padrões e a incursão da Databricks na criação de interoperabilidade para o formato de tabela irá empurrá-lo ainda mais para se tornar o padrão de tabela dominante.
Além disso, os analistas apontaram que a rivalidade não é apenas entre os dois formatos de mesa aberta, mas abrange Snowflake e Databricks.
“O momento deste acordo visa obviamente atrair alguns dos holofotes do Snowflake Summit e tentar superar seu concorrente em mensagens de abertura com a sugestão de que terá enorme influência sobre o futuro do padrão Iceberg, bem como do Delta Lake, ”Henschen disse.
A Snowflake também apresentou esta semana seu Catálogo Polaris e disse que iria abrir o código do catálogo de dados nos próximos 90 dias.
O Catálogo Polaris é um catálogo de dados construído sobre o Iceberg para atender à necessidade das empresas de acessar uma oferta neutra em termos de fornecedor que vem com recursos de governança de dados e suporta mecanismos de consulta interoperáveis.
O lançamento do catálogo Polaris, que é semelhante ao Catálogo Unity da Databricks, segundo analistas, foi uma estratégia empregada pela Snowflake para atrair usuários do catálogo de dados para longe do rival Databricks, ao mesmo tempo que reforçava a atratividade de sua própria oferta.
O analista-chefe da Amalgam Insights também apoiou Henschen e disse que ambos os provedores de data lakehouse estão tentando mostrar que são mais adequados para oferecer suporte ao ambiente de dados corporativos em uma variedade de formatos e tipos de dados.
“A Databricks ganha com esta aquisição, pois mostra que pode suportar o Iceberg, que é sem dúvida o formato de tabela mais suportado”, explicou Park, acrescentando que embora a Databricks tenha sido tradicionalmente um bom contribuidor de código aberto para os seus projetos de desenvolvimento próprio, a comunidade de contribuidores do Iceberg agora é muito maior que o Tabular com os compromissos que existem de muitos grandes fornecedores.
No entanto, Henschen destacou que há muitas partes interessadas para que qualquer empresa domine o Iceberg, embora a aquisição da Tabular possa dar à Databricks uma vantagem na frente do Iceberg.
Databricks versus Snowflake: uma competição em aquisições
A Databricks tem adquirido empresas recentemente e no início de março, a Databricks adquiriu a Lilac AI, com sede em Boston, para ajudar as empresas a explorar e usar seus dados não estruturados para construir aplicativos generativos baseados em IA.
Antes disso, a Databricks adquiriu a LLM e o fornecedor de software de treinamento de modelos MosaicML por US$ 1,3 bilhão para impulsionar suas ofertas de IA generativa por volta de junho de 2023.
Antes da aquisição da Lilac AI e MosaicML, a empresa adquiriu a Okera, fornecedora de plataforma de governança de dados centrada em IA, por uma quantia não revelada em maio do ano passado.
Esperava-se que a aquisição aumentasse as capacidades de governança de dados da Databricks, ao mesmo tempo em que treina e gerencia grandes modelos de linguagem (LLMs), como seu LLM proprietário de código aberto Dolly 2.0.
A Snowflake também tem adquirido empresas que não apenas impulsionam suas ofertas de IA generativa, mas também reforçam suas capacidades de gerenciamento de dados.
Sua última aquisição veio na forma de a empresa comprar ativos de uma plataforma de observabilidade que fornece a empresa TruEra – uma startup que também é especializada em fornecer recursos de gerenciamento de ciclo de vida para aprendizado de máquina e LLMs.
Em maio do ano passado, a empresa de armazenamento de dados baseada em nuvem adquiriu a Neeva, uma startup com sede em Mountain View, Califórnia, por um valor não revelado, em um esforço para adicionar pesquisa generativa baseada em IA à sua plataforma Data Cloud.
Em fevereiro de 2023, a Snowflake adquiriu a LeapYear para aumentar suas capacidades de sala limpa de dados.
A aquisição da LeapYear ocorreu apenas um mês depois que a Snowflake concordou em comprar o provedor de plataforma de previsão de séries temporais baseada em inteligência artificial Myst AI, elevando a contagem de aquisições da empresa para sete empresas em três anos.