Docling: um kit de ferramentas de código aberto para processamento avançado de documentos

Modelo de análise de layout: Um modelo baseado no RT-Detr e treinado no DoclayNet (um conjunto de dados anotado pelo homem para análise de layout de documentos) que classifica elementos da página como parágrafos, títulos de seção, listas e tabelas.
TableFormer: Um modelo de transformador de visão para a recuperação da estrutura da tabela que pode lidar com tabelas complexas com fronteira parcial ou sem fronteira, células vazias, vãos de células e cabeçalhos hierárquicos.

O Docling Processing Pipeline funciona alimentando imagens da página para o modelo de análise de layout, que identifica elementos do documento. Para tabelas, o TableFormer processa as regiões de tabela detectadas para recuperar sua estrutura. Quando necessário, os recursos do OCR estão disponíveis através da integração com o Easyocr.

Usar docling é direto:


from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report(...)"

Docling também fornece uma interface de linha de comando conveniente para conversões rápidas:


docling https://arxiv.org/pdf/2206.01062

Principais casos de uso para documentos

Os recursos do Docling o tornam ideal para vários casos críticos de uso, incluindo geração de recuperação upmentada, criação da base de conhecimento, ajuste fino LLM e integração de dados corporativos.