Logo PUC-Rio Logo Maxwell
ETDs @PUC-Rio
Estatística
Título: CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES
Autor: IVAN DE JESUS PEREIRA PINTO
Colaborador(es): SERGIO COLCHER - Orientador
Catalogação: 16/NOV/2021 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=55901&idi=1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=55901&idi=2
DOI: https://doi.org/10.17771/PUCRio.acad.55901
Resumo:
Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot.
Descrição: Arquivo:   
NA ÍNTEGRA PDF