Maxwell Para Simples Indexação

Título
[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE

Título
[pt] SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE

Autor
[pt] DAYSON NYWTON C R DO NASCIMENTO

Vocabulário
[pt] PORTUGUES

Vocabulário
[pt] ARTIGOS CIENTIFICOS

Vocabulário
[pt] SUMARIZACAO ABSTRATIVA

Vocabulário
[pt] FINE-TUNING

Vocabulário
[pt] GRANDE MODELO DE LINGUAGEM

Vocabulário
[en] PORTUGUESE

Vocabulário
[en] SCIENTIFIC PAPERS

Vocabulário
[en] ABSTRACTIVE SUMMARIZATION

Vocabulário
[en] FINE-TUNING

Vocabulário
[en] LARGE LANGUAGE MODEL

Resumo
[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrativa de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. O fine-tuning do modelo pré-treinado também se destaca em uma avaliação qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos gerados poderiam ter sido criados por humanos em uma coleção de documentos específicos do domínio das Ciências da Saúde.

Resumo
[en] In this work, we present a study on the fine-tuning of a pre-trained Large Language Model for abstractive summarization of long texts in Portuguese. To do so, we built a corpus gathering a collection of 7,450 public Health Sciences papers in Portuguese. We fine-tuned a pre-trained BERT model for Brazilian Portuguese (the BERTimbau) with this corpus. In a similar condition, we also trained a second model based on Long Short-Term Memory (LSTM) from scratch for comparison purposes. Our evaluation showed that the fine-tuned model achieved higher ROUGE scores, outperforming the LSTM based by 30 points for F1-score. The fine-tuning of the pre-trained model also stands out in a qualitative evaluation performed by assessors, to the point of generating the perception that the generated summaries could have been created by humans in a specific collection of documents in the Health Sciences domain.

Orientador(es)
HELIO CORTES VIEIRA LOPES

Coorientador(es)
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR

Banca
HELIO CORTES VIEIRA LOPES

Banca
CASSIO FREITAS PEREIRA DE ALMEIDA

Banca
MARCOS KALINOWSKI

Banca
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR

Catalogação
2023-10-30

Apresentação
2023-09-22

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.64511


Arquivos do conteúdo
NA ÍNTEGRA PDF