Maxwell Para Simples Indexação

Título
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS

Título
[en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT

Autor
[pt] FREDERICO SHU

Vocabulário
[pt] APRENDIZADO DE MAQUINA

Vocabulário
[pt] APRENDIZADO PROFUNDO

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[pt] CLASSIFICACAO DE TEXTOS

Vocabulário
[pt] EXTRACAO DE INFORMACAO

Vocabulário
[en] MACHINE LEARNING

Vocabulário
[en] DEEP LEARNING

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Vocabulário
[en] TEXT CLASSIFICATION

Vocabulário
[en] EXTRACTION OF INFORMATION

Resumo
[pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças.

Resumo
[en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research.

Orientador(es)
ALVARO DE LIMA VEIGA FILHO

Banca
ALVARO DE LIMA VEIGA FILHO

Banca
CHRISTIAN NUNES ARANHA

Banca
KARLA TEREZA FIGUEIREDO LEITE

Catalogação
2022-01-06

Apresentação
2021-09-30

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=56962@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=56962@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.56962


Arquivos do conteúdo
NA ÍNTEGRA PDF