Pesquisa híbrida
Embora a pesquisa semântica usando incorporação de vetor tenha um bom desempenho para capturar significados reformulados ou parafraseados, pode não se sair bem em pesquisas que envolvem termos raros ou jargão. Nesses casos, a combinação de pesquisa semântica com as técnicas de recuperação esparsa mais tradicional (BM25 ou TF-IDF), que incorporam aspectos como a frequência das palavras-chave, geralmente ajuda a melhorar o processo de recuperação. Para incorporar esses dois tipos de mecanismos de recuperação, você pode ter pedaços atribuídos as duas pontuações, com a pontuação final sendo uma combinação ponderada dos dois, ou você pode usar a recuperação esparsa como filtro de primeira passagem seguido de pesquisa semântica.
Remoanando – a etapa final
Depois de executar a pesquisa inicial para recuperar pedaços relevantes, executar uma etapa final da classificação desses resultados ajuda a garantir que as informações mais úteis sejam apresentadas ao usuário. A razão para isso é que, embora os pedaços possam ser tecnicamente semelhantes, eles podem não ser a resposta mais útil para a consulta do usuário.
Existem algumas maneiras diferentes pelas quais a reranger é feita na prática. Uma abordagem é usar as heurísticas em certos metadados dos pedaços, como o autor, data, confiabilidade da fonte etc. Um benefício dessa abordagem é que geralmente é computacionalmente barato e rápido.