O provedor de banco de dados de vetores de código aberto Qdrant lançou o BM42, um algoritmo de busca híbrido baseado em vetores destinado a fornecer recuperação mais precisa e eficiente para aplicações de geração aumentada de recuperação (RAG). O BM42 combina o melhor da busca tradicional baseada em texto e da busca baseada em vetores para reduzir os custos para aplicações RAG e IA, disse a Qdrant.

O BM42 da Qdrant foi anunciado em 2 de julho. Os mecanismos de busca de palavras-chave tradicionais, usando algoritmos como o BM25, existem há mais de 50 anos e não são otimizados para a recuperação precisa necessária em aplicativos modernos, de acordo com a Qdrant. Como resultado, eles lutam com demandas específicas de RAG, particularmente com segmentos curtos que exigem mais contexto para informar a busca e a recuperação bem-sucedidas. Afastar-se de uma busca baseada em palavras-chave para uma busca totalmente baseada em vetor oferece um novo padrão da indústria, disse a Qdrant.

“BM42, para textos curtos que são mais proeminentes em cenários RAG, fornece a eficiência de abordagens tradicionais de busca de texto, mais o contexto de vetores, então é mais flexível, preciso e eficiente,” Andrey Vasnetsov, Qdrant CTO e cofundador, disse. Isso ajuda a tornar a busca de vetores mais universalmente aplicável, ele acrescentou.

Diferentemente da busca tradicional baseada em palavras-chave, adequada para conteúdo de formato longo, o BM42 integra vetores esparsos e densos para localizar informações relevantes dentro de um documento. Um vetor esparso lida com a correspondência exata de termos, enquanto vetores densos lidam com relevância semântica e significado profundo, de acordo com a empresa.