XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: GERAÇÃO E DETECÇÃO DE OBJETOS EM DOCUMENTOS POR MODELOS DE REDES NEURAIS DE APRENDIZAGEM PROFUNDA (DEEPDOCGEN) Autor: LOICK GEOFFREY HODONOU
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
MARCO AURELIO CAVALCANTI PACHECO - ORIENTADOR
EVELYN CONCEICAO SANTOS BATISTA - COORIENTADOR
Nº do Conteudo: 69302
Catalogação: 06/02/2025 Liberação: 11/02/2025 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.69302
Resumo:
Título: GERAÇÃO E DETECÇÃO DE OBJETOS EM DOCUMENTOS POR MODELOS DE REDES NEURAIS DE APRENDIZAGEM PROFUNDA (DEEPDOCGEN) Autor: LOICK GEOFFREY HODONOU
EVELYN CONCEICAO SANTOS BATISTA - COORIENTADOR
Nº do Conteudo: 69302
Catalogação: 06/02/2025 Liberação: 11/02/2025 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69302&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.69302
Resumo:
A eficácia dos sistemas de conversação homem-máquina, como chatbots e
assistentes virtuais, está diretamente relacionada à quantidade e qualidade do
conhecimento disponível para eles. Na era digital, a diversidade e a qualidade
dos dados aumentaram significativamente, estando disponíveis em diversos
formatos. Entre esses, o PDF (Portable Document Format) se destaca como um
dos mais conhecidos e amplamente utilizados, adaptando-se a variados setores,
como empresarial, educacional e de pesquisa. Esses arquivos contêm uma
quantidade considerável de dados estruturados, como textos, títulos, listas,
tabelas, imagens, etc.
O conteúdo dos arquivos PDF pode ser extraído utilizando ferramentas
dedicadas, como o OCR (Reconhecimento Ótico de Caracteres), o PdfMiner,
Tabula e outras, que provaram ser adequadas para esta tarefa. No entanto,
estas ferramentas podem deparar-se com dificuldades quando lidam com
a apresentação complexa e variada dos documentos PDF. A exatidão da
extração pode ser comprometida pela diversidade de esquemas, formatos
não normalizados e elementos gráficos incorporados nos documentos, o que
frequentemente leva a um pós-processamento manual.
A visão computacional e, mais especificamente, a detecção de objetos, é
um ramo do aprendizado de máquina que visa localizar e classificar instâncias
em imagens utilizando modelos de detecção dedicados à tarefa, e está provando
ser uma abordagem viável para acelerar o trabalho realizado por algoritmos
como OCR, PdfMiner, Tabula, além de melhorar sua precisão.
Os modelos de detecção de objetos, por serem baseados em aprendizagem
profunda, exigem não apenas uma quantidade substancial de dados para
treinamento, mas, acima de tudo, anotações de alta qualidade pois elas têm um
impacto direto na obtenção de altos níveis de precisão e robustez. A diversidade
de layouts e elementos gráficos em documentos PDF acrescenta uma camada
adicional de complexidade, exigindo dados anotados de forma representativa
para que os modelos possam aprender a lidar com todas as variações possíveis.
Considerando o aspecto volumoso dos dados necessários para o treinamento dos modelos, percebemos rapidamente que o processo de anotação dos
dados se torna uma tarefa tediosa e demorada que requer intervenção humana
para identificar e etiquetar manualmente cada elemento relevante. Essa tarefa
não é apenas demorada, mas também sujeita a erros humanos, o que muitas
vezes exige verificações e correções adicionais.
A fim de encontrar um meio-termo entre a quantidade de dados, a
minimização do tempo de anotação e anotações de alta qualidade, neste
trabalho propusemos um pipeline que, a partir de um número limitado de
documentos PDF anotados com as categorias texto, título, lista, tabela e
imagem recebidas como entrada, é capaz de criar novas layouts de documentos
semelhantes com base no número desejado pelo usuário. Este pipeline vai mais
longe em preenchendo com o conteúdo as novas layouts criadas, a fim de
fornecer imagens de documentos sintéticos e suas respectivas anotações. Com
sua estrutura simples, intuitiva e escalável, este pipeline pode contribuir para
o active learning, permitindo assim aos modelos de detecção serem treinados
continuamente, os tornando mais eficazes e robustos diante de documentos
reais.
Em nossas experiências, ao avaliar e comparar três modelos de detecção,
observamos que o RT-DETR (Real-Time DEtection TRansformer) obteve os
melhores resultados, atingindo uma precisão média (mean Average Precision,
mAP) de 96,30 por cento, superando os resultados do Mask R-CNN (Region-based
Convolutional Neural Networks) e Mask DINO (Mask DETR with Improved
Denoising Anchor Boxes). A superioridade do RT-DETR indica seu potencial
para se tornar uma solução de referência na detecção de características em
documentos PDF. Esses resultados promissores abrem caminho para aplicações
mais eficientes e confiáveis no processamento automático de documentos.
Descrição | Arquivo |
NA ÍNTEGRA |