Título
[pt] AVALIAÇÃO COMPARATIVA DE FERRAMENTAS PARA EXTRAÇÃO DE TABELAS EM DOCUMENTOS PDF
Título
[en] COMPARATIVE EVALUATION OF TOOLS FOR TABLE EXTRACTION IN PDF DOCUMENTS
Autor
[pt] PAULO DE SALDANHA DA G DE M VIANNA
Vocabulário
[pt] DETECCAO
Vocabulário
[pt] DOCUMENTO FINANCEIRO
Vocabulário
[pt] ARQUIVO PDF
Vocabulário
[en] DETECTIONAL
Vocabulário
[en] FINANCIAL DOCUMENTS
Vocabulário
[en] PDF FILE
Resumo
[pt] Este trabalho apresenta uma avaliação comparativa de ferramentas para
extração de tabelas em documentos PDF financeiros brasileiros. Foram
avaliadas ferramentas baseadas em regras geométricas, em deep learning
especializado (IBM Docling) e em modelo multimodal, seguindo a
metodologia de quatro níveis de Göbel et al. (2012): detecção de página,
localização, estrutura celular e conteúdo textual. Os experimentos utilizaram
relatórios de Fundos de Investimento Imobiliário, caracterizados por tabelas
irregulares e células mescladas. Os resultados evidenciam diferenças
significativas entre as abordagens e os desafios persistentes na extração
automatizada de tabelas financeiras.
Resumo
[en] This paper presents a comparative evaluation of table extraction tools for
Brazilian financial PDF documents. The study assessed geometric rulebased tools (Camelot, Tabula, pdfplumber), specialized deep learning (IBM
Docling), and a multimodal model (Google Gemini), following the four-level
methodology proposed by Göbel et al. (2012): page detection, localization,
cell structure, and textual content. Experiments were conducted using Real
Estate Investment Fund (FII) reports, which are characterized by irregular
tables and merged cells. The results highlight significant differences between
the approaches and reveal the persistent challenges in the automated
extraction of financial tables.
Orientador(es)
AUGUSTO CESAR ESPINDOLA BAFFA
Catalogação
2026-03-25
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75809@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75809@2
Arquivos do conteúdo
NA ÍNTEGRA PDF