XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: GENERATION AND DETECTION OF OBJECTS IN DOCUMENTS BY DEEP LEARNING NEURAL NETWORK MODELS (DEEPDOCGEN) Autor: LOICK GEOFFREY HODONOU
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
MARCO AURELIO CAVALCANTI PACHECO - ADVISOR
EVELYN CONCEICAO SANTOS BATISTA - CO-ADVISOR
Nº do Conteudo: 69302
Catalogação: 06/02/2025 Liberação: 11/02/2025 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.69302
Resumo:
Título: GENERATION AND DETECTION OF OBJECTS IN DOCUMENTS BY DEEP LEARNING NEURAL NETWORK MODELS (DEEPDOCGEN) Autor: LOICK GEOFFREY HODONOU
EVELYN CONCEICAO SANTOS BATISTA - CO-ADVISOR
Nº do Conteudo: 69302
Catalogação: 06/02/2025 Liberação: 11/02/2025 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.69302
Resumo:
The effectiveness of human-machine conversation systems, such as chat-bots and virtual assistants, is directly related to the amount and quality of
knowledge available to them. In the digital age, the diversity and quality of
data have increased significantly, being available in various formats. Among
these, the PDF (Portable Document Format) stands out as one of the most
well-known and widely used, adapting to various sectors, such as business, education, and research. These files contain a considerable amount of structured
data, such as text, headings, lists, tables, images, etc.
The content of PDF files can be extracted using dedicated tools, such as
OCR (Optical Character Recognition), PdfMiner, Tabula and others, which
have proven to be suitable for this task. However, these tools may encounter
difficulties when dealing with the complex and varied presentation of PDF
documents. The accuracy of extraction can be compromised by the diversity
of layouts, non-standardized formats, and embedded graphic elements in the
documents, often leading to manual post-processing.
Computer vision, and more specifically, object detection, is a branch
of machine learning that aims to locate and classify instances in images
using models dedicated to the task. It is proving to be a viable approach
to accelerating the work performed by algorithms like OCR, PdfMiner, Tabula
and improving their accuracy.
Object detection models, being based on deep learning, require not only
a substantial amount of data for training but, above all, high-quality annotations, as they have a direct impact on achieving high levels of accuracy and
robustness. The diversity of layouts and graphic elements in PDF documents
adds an additional layer of complexity, requiring representatively annotated
data so that the models can learn to handle all possible variations.
Considering the voluminous aspect of the data needed for training the
models, we quickly realize that the data annotation process becomes a tedious
and time-consuming task requiring human intervention to manually identify
and label each relevant element. This task is not only time-consuming but also
subject to human error, often requiring additional checks and corrections.
To find a middle ground between the amount of data, minimizing
annotation time, and high-quality annotations, in this work, we proposed a
pipeline that, from a limited number of annotated PDF documents with the
categories text, title, list, table, and image as input, can create new document
layouts similar to the desired number by the user. This pipeline goes further
by filling the new created layouts with content to provide synthetic document
images and their respective annotations. With its simple, intuitive, and scalable
structure, this pipeline can contribute to active learning, allowing detection
models to be continuously trained, making them more effective and robust in
the face of real documents.
In our experiments, when evaluating and comparing three detection
models, we observed that the RT-DETR (Real-Time Detection Transformer)
achieved the best results, reaching a mean Average Precision (mAP) of 96.30 percent,
surpassing the results of Mask R-CNN (Region-based Convolutional Neural
Networks) and Mask DINO (Mask DETR with Improved Denoising Anchor
Boxes). The superiority of RT-DETR indicates its potential to become a reference solution in detecting features in PDF documents. These promising results
pave the way for more efficient and reliable applications in the automatic processing of documents.
Descrição | Arquivo |
COMPLETE |