Título: | SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE | ||||||||||||
Autor: |
DAYSON NYWTON C R DO NASCIMENTO |
||||||||||||
Colaborador(es): |
HELIO CORTES VIEIRA LOPES - Orientador FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR - Coorientador |
||||||||||||
Catalogação: | 30/OUT/2023 | Língua(s): | PORTUGUÊS - BRASIL |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=64511&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=64511&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.64511 | ||||||||||||
Resumo: | |||||||||||||
Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM
(Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a
sumarização abstrativa de textos longos em português. Para isso, construímos
um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências
da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo
BERT pré-treinado para o português brasileiro (BERTimbau). Em condições
semelhantes, também treinamos um segundo modelo baseado em Memória
de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação.
Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE
mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score.
O fine-tuning do modelo pré-treinado também se destaca em uma avaliação
qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos
gerados poderiam ter sido criados por humanos em uma coleção de documentos
específicos do domínio das Ciências da Saúde.
|
|||||||||||||
|