A Zilliz, sediada em São Francisco, lançou uma nova versão de sua oferta de banco de dados como serviço (DBaaS), Zilliz Cloud. A empresa afirma que a nova versão oferece melhor desempenho e reduz o custo de propriedade em comparação com a versão anterior.
Zilliz Cloud é construído sobre o sistema de gerenciamento de banco de dados vetorial Milvus de código aberto. A Zilliz foi fundada por engenheiros que ajudaram a desenvolver o banco de dados de vetores Milvus.
A nova versão do Zilliz Cloud, segundo a empresa, oferece desempenho 10x melhor que o banco de dados vetorial Milvus original. Isto é conseguido usando o índice gráfico Hierarchical Navigable Small World (HNSW) em combinação com uma pesquisa filtrada aprimorada.
O HNSW, no entanto, é uma aposta para a maioria dos bancos de dados de vetores, incluindo os dos rivais Weaviate e Pinecone. É um dos índices gráficos mais populares para a construção de bancos de dados vetoriais.
“O HNSW é cada vez mais um recurso obrigatório, então a Zilliz estaria em desvantagem sem o suporte de seu SGBD”, disse Doug Henschen, analista principal da Constellation Research.
A razão por trás da popularidade dos índices baseados em gráficos pode ser atribuída à sua qualidade fundamental de ser capaz de encontrar os vizinhos mais próximos aproximados em dados de alta dimensão e, ao mesmo tempo, ser eficiente em termos de memória. Essa qualidade resulta em aumento no desempenho e redução no custo de propriedade.
Outro exemplo de índice baseado em gráfico é o Vamana. Outros tipos de índices usados em bancos de dados vetoriais incluem o Índice de Arquivo Invertido (FIV).
Recursos adicionais da atualização do Zilliz Cloud incluem a métrica de similaridade de cosseno, pesquisa de intervalo e upsert.
A métrica de similaridade de cosseno é frequentemente usada para processamento de texto, onde a direção dos vetores incorporados é importante, mas a distância entre eles não.
Uma pesquisa por intervalo é usada em um banco de dados vetorial para restringir os resultados da pesquisa com base na distância entre um vetor de consulta e os vetores do banco de dados.
A função upsert, em um banco de dados vetorial, é usada para adicionar um novo vetor ao índice ou atualizar um se existir um vetor com o mesmo ID.
Além de fornecer um cliente Milvus unificado que Zilliz afirma que irá melhorar a experiência do desenvolvedor, a nova versão do Zilliz Cloud pode ser integrada com análise de dados, aprendizado de máquina e plataformas de streaming como Apache Spark, Apache Kafka e Airbyte.
Apesar das vantagens da nova versão, Henschen da Constellation Research acredita que muitas empresas recorrerão aos bancos de dados convencionais que já utilizam para capacidades como incorporação de vetores e pesquisa de vetores.
“O desafio para fornecedores como a Zilliz é que eles normalmente não trazem consigo os dados transacionais da empresa”, disse Holger Mueller, outro analista principal da Constellation Research.
“Ou eles precisam fornecer a facilidade de uso para obter dados transacionais ou precisam ter uma solução que ajude as empresas a atualizar os vetores de seu sistema de registro. Não fazer isso forçará as empresas a examinar seus bancos de dados existentes, como os da Oracle, AWS, IBM e Microsoft”, acrescentou Mueller.
A concorrência é ainda mais acirrada para a Zilliz, já que rivais como a Pinecone também oferecem seus produtos como serviços baseados em nuvem, acrescentou Henschen.
No entanto, o analista disse que equipes dedicadas de IA e desenvolvedores de IA podem encontrar vantagens de desempenho e custo no uso de um produto ou serviço de banco de dados vetorial dedicado, desde que ele forneça todos os recursos necessários para dar suporte aos seus casos de uso.