Maxwell Para Simples Indexação

Título
[pt] AVALIAÇÃO COMPARATIVA DE FERRAMENTAS PARA EXTRAÇÃO DE TABELAS EM DOCUMENTOS PDF

Título
[en] COMPARATIVE EVALUATION OF TOOLS FOR TABLE EXTRACTION IN PDF DOCUMENTS

Autor
[pt] PAULO DE SALDANHA DA G DE M VIANNA

Vocabulário
[pt] DETECCAO

Vocabulário
[pt] DOCUMENTO FINANCEIRO

Vocabulário
[pt] ARQUIVO PDF

Vocabulário
[en] DETECTIONAL

Vocabulário
[en] FINANCIAL DOCUMENTS

Vocabulário
[en] PDF FILE

Resumo
[pt] Este trabalho apresenta uma avaliação comparativa de ferramentas para extração de tabelas em documentos PDF financeiros brasileiros. Foram avaliadas ferramentas baseadas em regras geométricas, em deep learning especializado (IBM Docling) e em modelo multimodal, seguindo a metodologia de quatro níveis de Göbel et al. (2012): detecção de página, localização, estrutura celular e conteúdo textual. Os experimentos utilizaram relatórios de Fundos de Investimento Imobiliário, caracterizados por tabelas irregulares e células mescladas. Os resultados evidenciam diferenças significativas entre as abordagens e os desafios persistentes na extração automatizada de tabelas financeiras.

Resumo
[en] This paper presents a comparative evaluation of table extraction tools for Brazilian financial PDF documents. The study assessed geometric rulebased tools (Camelot, Tabula, pdfplumber), specialized deep learning (IBM Docling), and a multimodal model (Google Gemini), following the four-level methodology proposed by Göbel et al. (2012): page detection, localization, cell structure, and textual content. Experiments were conducted using Real Estate Investment Fund (FII) reports, which are characterized by irregular tables and merged cells. The results highlight significant differences between the approaches and reveal the persistent challenges in the automated extraction of financial tables.

Orientador(es)
AUGUSTO CESAR ESPINDOLA BAFFA

Catalogação
2026-03-25

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75809@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75809@2


Arquivos do conteúdo
NA ÍNTEGRA PDF