Título
[en] GENERATION AND DETECTION OF OBJECTS IN DOCUMENTS BY DEEP LEARNING NEURAL NETWORK MODELS (DEEPDOCGEN)
Título
[pt] GERAÇÃO E DETECÇÃO DE OBJETOS EM DOCUMENTOS POR MODELOS DE REDES NEURAIS DE APRENDIZAGEM PROFUNDA (DEEPDOCGEN)
Autor
[pt] LOICK GEOFFREY HODONOU
Vocabulário
[pt] ENSINO INTERATIVO
Vocabulário
[pt] ANALISE DO LAYOUT DO DOCUMENTO
Vocabulário
[pt] DADO SINTETICO
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] GERACAO DE DADOS
Vocabulário
[pt] APRENDIZADO PROFUNDO
Vocabulário
[pt] DETECCAO DE OBJETOS
Vocabulário
[en] ACTIVE LEARNING
Vocabulário
[en] DOCUMENT LAYOUT ANALYSIS
Vocabulário
[en] SYNTHETIC DATUM
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] DATA GENERATION
Vocabulário
[en] DEEP LEARNING
Vocabulário
[en] OBJECT DETECTION
Resumo
[pt] A eficácia dos sistemas de conversação homem-máquina, como chatbots e
assistentes virtuais, está diretamente relacionada à quantidade e qualidade do
conhecimento disponível para eles. Na era digital, a diversidade e a qualidade
dos dados aumentaram significativamente, estando disponíveis em diversos
formatos. Entre esses, o PDF (Portable Document Format) se destaca como um
dos mais conhecidos e amplamente utilizados, adaptando-se a variados setores,
como empresarial, educacional e de pesquisa. Esses arquivos contêm uma
quantidade considerável de dados estruturados, como textos, títulos, listas,
tabelas, imagens, etc.
O conteúdo dos arquivos PDF pode ser extraído utilizando ferramentas
dedicadas, como o OCR (Reconhecimento Ótico de Caracteres), o PdfMiner,
Tabula e outras, que provaram ser adequadas para esta tarefa. No entanto,
estas ferramentas podem deparar-se com dificuldades quando lidam com
a apresentação complexa e variada dos documentos PDF. A exatidão da
extração pode ser comprometida pela diversidade de esquemas, formatos
não normalizados e elementos gráficos incorporados nos documentos, o que
frequentemente leva a um pós-processamento manual.
A visão computacional e, mais especificamente, a detecção de objetos, é
um ramo do aprendizado de máquina que visa localizar e classificar instâncias
em imagens utilizando modelos de detecção dedicados à tarefa, e está provando
ser uma abordagem viável para acelerar o trabalho realizado por algoritmos
como OCR, PdfMiner, Tabula, além de melhorar sua precisão.
Os modelos de detecção de objetos, por serem baseados em aprendizagem
profunda, exigem não apenas uma quantidade substancial de dados para
treinamento, mas, acima de tudo, anotações de alta qualidade pois elas têm um
impacto direto na obtenção de altos níveis de precisão e robustez. A diversidade
de layouts e elementos gráficos em documentos PDF acrescenta uma camada
adicional de complexidade, exigindo dados anotados de forma representativa
para que os modelos possam aprender a lidar com todas as variações possíveis.
Considerando o aspecto volumoso dos dados necessários para o treinamento dos modelos, percebemos rapidamente que o processo de anotação dos
dados se torna uma tarefa tediosa e demorada que requer intervenção humana
para identificar e etiquetar manualmente cada elemento relevante. Essa tarefa
não é apenas demorada, mas também sujeita a erros humanos, o que muitas
vezes exige verificações e correções adicionais.
A fim de encontrar um meio-termo entre a quantidade de dados, a
minimização do tempo de anotação e anotações de alta qualidade, neste
trabalho propusemos um pipeline que, a partir de um número limitado de
documentos PDF anotados com as categorias texto, título, lista, tabela e
imagem recebidas como entrada, é capaz de criar novas layouts de documentos
semelhantes com base no número desejado pelo usuário. Este pipeline vai mais
longe em preenchendo com o conteúdo as novas layouts criadas, a fim de
fornecer imagens de documentos sintéticos e suas respectivas anotações. Com
sua estrutura simples, intuitiva e escalável, este pipeline pode contribuir para
o active learning, permitindo assim aos modelos de detecção serem treinados
continuamente, os tornando mais eficazes e robustos diante de documentos
reais.
Em nossas experiências, ao avaliar e comparar três modelos de detecção,
observamos que o RT-DETR (Real-Time DEtection TRansformer) obteve os
melhores resultados, atingindo uma precisão média (mean Average Precision,
mAP) de 96,30 por cento, superando os resultados do Mask R-CNN (Region-based
Convolutional Neural Networks) e Mask DINO (Mask DETR with Improved
Denoising Anchor Boxes). A superioridade do RT-DETR indica seu potencial
para se tornar uma solução de referência na detecção de características em
documentos PDF. Esses resultados promissores abrem caminho para aplicações
mais eficientes e confiáveis no processamento automático de documentos.
Resumo
[en] The effectiveness of human-machine conversation systems, such as chat-bots and virtual assistants, is directly related to the amount and quality of
knowledge available to them. In the digital age, the diversity and quality of
data have increased significantly, being available in various formats. Among
these, the PDF (Portable Document Format) stands out as one of the most
well-known and widely used, adapting to various sectors, such as business, education, and research. These files contain a considerable amount of structured
data, such as text, headings, lists, tables, images, etc.
The content of PDF files can be extracted using dedicated tools, such as
OCR (Optical Character Recognition), PdfMiner, Tabula and others, which
have proven to be suitable for this task. However, these tools may encounter
difficulties when dealing with the complex and varied presentation of PDF
documents. The accuracy of extraction can be compromised by the diversity
of layouts, non-standardized formats, and embedded graphic elements in the
documents, often leading to manual post-processing.
Computer vision, and more specifically, object detection, is a branch
of machine learning that aims to locate and classify instances in images
using models dedicated to the task. It is proving to be a viable approach
to accelerating the work performed by algorithms like OCR, PdfMiner, Tabula
and improving their accuracy.
Object detection models, being based on deep learning, require not only
a substantial amount of data for training but, above all, high-quality annotations, as they have a direct impact on achieving high levels of accuracy and
robustness. The diversity of layouts and graphic elements in PDF documents
adds an additional layer of complexity, requiring representatively annotated
data so that the models can learn to handle all possible variations.
Considering the voluminous aspect of the data needed for training the
models, we quickly realize that the data annotation process becomes a tedious
and time-consuming task requiring human intervention to manually identify
and label each relevant element. This task is not only time-consuming but also
subject to human error, often requiring additional checks and corrections.
To find a middle ground between the amount of data, minimizing
annotation time, and high-quality annotations, in this work, we proposed a
pipeline that, from a limited number of annotated PDF documents with the
categories text, title, list, table, and image as input, can create new document
layouts similar to the desired number by the user. This pipeline goes further
by filling the new created layouts with content to provide synthetic document
images and their respective annotations. With its simple, intuitive, and scalable
structure, this pipeline can contribute to active learning, allowing detection
models to be continuously trained, making them more effective and robust in
the face of real documents.
In our experiments, when evaluating and comparing three detection
models, we observed that the RT-DETR (Real-Time Detection Transformer)
achieved the best results, reaching a mean Average Precision (mAP) of 96.30 percent,
surpassing the results of Mask R-CNN (Region-based Convolutional Neural
Networks) and Mask DINO (Mask DETR with Improved Denoising Anchor
Boxes). The superiority of RT-DETR indicates its potential to become a reference solution in detecting features in PDF documents. These promising results
pave the way for more efficient and reliable applications in the automatic processing of documents.
Orientador(es)
MARCO AURELIO CAVALCANTI PACHECO
Coorientador(es)
EVELYN CONCEICAO SANTOS BATISTA
Banca
MARCO AURELIO CAVALCANTI PACHECO
Banca
KARLA TEREZA FIGUEIREDO LEITE
Banca
LEONARDO ALFREDO FORERO MENDOZA
Banca
JOSE DAVID BERMUDEZ CASTRO
Banca
EVELYN CONCEICAO SANTOS BATISTA
Banca
DIOGO DA SILVA MARGALHAES GOMES
Catalogação
2025-02-06
Apresentação
2024-10-04
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.69302
Arquivos do conteúdo
NA ÍNTEGRA PDF