Título: | CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES | ||||||||||||
Autor: |
IVAN DE JESUS PEREIRA PINTO |
||||||||||||
Colaborador(es): |
SERGIO COLCHER - Orientador |
||||||||||||
Catalogação: | 16/NOV/2021 | Língua(s): | PORTUGUÊS - BRASIL |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=55901&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=55901&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.55901 | ||||||||||||
Resumo: | |||||||||||||
Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot.
|
|||||||||||||
|