Segundo analistas, as ofertas da Databricks e da Snowflake ajudariam as empresas a reduzir a complexidade dos fluxos de trabalho necessários para analisar dados não estruturados, especialmente documentos.

As empresas, historicamente, tiveram que construir pipelines de OCR complexos, lentos e frágeis se quisessem trazer dados de documentos, como PDFs, para um fluxo de trabalho de IA, resultando no culminar do RAG, que permitiu a pesquisa semântica em texto analisado, mas ainda lutava com estruturas de documentos diferenciadas, como tabelas, disse Bradley Shimmin, líder prático de dados, análises e infraestrutura do The Futurum Group.

Para lidar com documentos com tabelas, as empresas muitas vezes encadeavam chamadas LLM adicionais para extrair e reconstruir tabelas como JSON, o que era eficaz, mas arriscado devido a alucinações, disse Shimmin, acrescentando que, em vez de unir OCR, RAG e lógica de extração personalizada, o ai_parse do Databricks recolhe todo o fluxo de trabalho em uma única instrução SQL declarativa.