- Modelo de análise de layout: Um modelo baseado no RT-Detr e treinado no DoclayNet (um conjunto de dados anotado pelo homem para análise de layout de documentos) que classifica elementos da página como parágrafos, títulos de seção, listas e tabelas.
- TableFormer: Um modelo de transformador de visão para a recuperação da estrutura da tabela que pode lidar com tabelas complexas com fronteira parcial ou sem fronteira, células vazias, vãos de células e cabeçalhos hierárquicos.
O Docling Processing Pipeline funciona alimentando imagens da página para o modelo de análise de layout, que identifica elementos do documento. Para tabelas, o TableFormer processa as regiões de tabela detectadas para recuperar sua estrutura. Quando necessário, os recursos do OCR estão disponíveis através da integração com o Easyocr.
Usar docling é direto:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report(...)"
Docling também fornece uma interface de linha de comando conveniente para conversões rápidas:
docling https://arxiv.org/pdf/2206.01062
Principais casos de uso para documentos
Os recursos do Docling o tornam ideal para vários casos críticos de uso, incluindo geração de recuperação upmentada, criação da base de conhecimento, ajuste fino LLM e integração de dados corporativos.