XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEM Autor: CARLOS VINICIOS MARTINS ROCHA
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
HELIO CORTES VIEIRA LOPES - ORIENTADOR
JONATAS DOS SANTOS GROSMAN - COORIENTADOR
Nº do Conteudo: 68379
Catalogação: 17/10/2024 Liberação: 17/10/2024 Idioma(s): INGLÊS - ESTADOS UNIDOS
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.68379
Resumo:
Título: UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEM Autor: CARLOS VINICIOS MARTINS ROCHA
JONATAS DOS SANTOS GROSMAN - COORIENTADOR
Nº do Conteudo: 68379
Catalogação: 17/10/2024 Liberação: 17/10/2024 Idioma(s): INGLÊS - ESTADOS UNIDOS
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.68379
Resumo:
Os documentos são essenciais para o sistema econômico e acadêmico;
no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma
abordagem para contornar esse problema é o uso de modelos de Visual
Question and Answering (VQA) para extração de informações de documentos
por meio de prompts em linguagem natural. No VQA, assim como para
o desenvolvimento dos mais variados modelos, é necessário possuir dados
anotados para a sua etapa de treinamento e validação. No entanto, criar esses
conjuntos de dados é desafiador devido ao alto custo envolvido no processo.
Com base nisso, propomos um processo de quatro etapas que combina Modelos
de Visão Computacional e Large Language Models (LLMs) para a anotação
de dados de VQA em relatórios financeiros. O método proposto inicia pelo
reconhecimento da estrutura textual dos documentos por meio de modelos de
Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em
seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos
pares de perguntas e respostas geradas, automatizando a construção e seleção
dos melhores pares para compor a base final. Para avaliar o método proposto,
geramos um dataset para treinar e avaliar modelos especialistas em VQA.
Descrição | Arquivo |
NA ÍNTEGRA |