Maxwell Para Simples Indexação

Título
[en] A DATA ANNOTATION APPROACH USING LARGE LANGUAGE MODELS

Título
[pt] UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEM

Autor
[pt] CARLOS VINICIOS MARTINS ROCHA

Vocabulário
[pt] GRANDE MODELO DE LINGUAGEM

Vocabulário
[pt] DOCUMENTO

Vocabulário
[pt] VQA

Vocabulário
[pt] ANOTACAO DE DADOS

Vocabulário
[en] LARGE LANGUAGE MODEL

Vocabulário
[en] DOCUMENT

Vocabulário
[en] VQA

Vocabulário
[en] DATA ANNOTATION

Resumo
[pt] Os documentos são essenciais para o sistema econômico e acadêmico; no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma abordagem para contornar esse problema é o uso de modelos de Visual Question and Answering (VQA) para extração de informações de documentos por meio de prompts em linguagem natural. No VQA, assim como para o desenvolvimento dos mais variados modelos, é necessário possuir dados anotados para a sua etapa de treinamento e validação. No entanto, criar esses conjuntos de dados é desafiador devido ao alto custo envolvido no processo. Com base nisso, propomos um processo de quatro etapas que combina Modelos de Visão Computacional e Large Language Models (LLMs) para a anotação de dados de VQA em relatórios financeiros. O método proposto inicia pelo reconhecimento da estrutura textual dos documentos por meio de modelos de Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos pares de perguntas e respostas geradas, automatizando a construção e seleção dos melhores pares para compor a base final. Para avaliar o método proposto, geramos um dataset para treinar e avaliar modelos especialistas em VQA.

Resumo
[en] Documents are essential for the economic and academic system; however, exploring them can be complex and time-consuming. An approach to surpass this problem is the use of Visual Question and Answering (VQA) models to extract information from documents through natural language prompts. In VQA, as well as for the development of various models, it is necessary to have annotated data for training and validation. However, creating these datasets is challenging due to the high cost involved in the process. To face this challenge, we propose a four-step process that combines Computer Vision Models and Large Language Models (LLMs) for VQA data annotation in financial reports. The proposed method starts with recognizing the textual structure of documents through Document Layout Analysis and Table Structure Extraction models. Then, it uses two distinct LLMs for the generation and evaluation of question and answer pairs, automating the construction and selection of the best pairs to compose the final dataset. To evaluate the proposed method, we generate a dataset for train and evaluate VQA specialized models.

Orientador(es)
HELIO CORTES VIEIRA LOPES

Coorientador(es)
JONATAS DOS SANTOS GROSMAN

Banca
HELIO CORTES VIEIRA LOPES

Banca
BRUNO FEIJO

Banca
SIMONE DINIZ JUNQUEIRA BARBOSA

Banca
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR

Banca
JONATAS DOS SANTOS GROSMAN

Catalogação
2024-10-17

Apresentação
2024-09-26

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68379@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.68379


Arquivos do conteúdo
NA ÍNTEGRA PDF