XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES Autor: IVAN DE JESUS PEREIRA PINTO
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
SERGIO COLCHER - ORIENTADOR
Nº do Conteudo: 55901
Catalogação: 16/11/2021 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.55901
Resumo:
Título: CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES Autor: IVAN DE JESUS PEREIRA PINTO
Nº do Conteudo: 55901
Catalogação: 16/11/2021 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.55901
Resumo:
Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot.
Descrição | Arquivo |
NA ÍNTEGRA |