Título
[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE
Título
[pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊS
Autor
[pt] LUCAS AGUIAR PAVANELLI
Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
Vocabulário
[pt] EXTRACAO DE RELACOES SEMANTICAS
Vocabulário
[pt] RECONHECIMENTO DE ENTIDADES NOMEADAS
Vocabulário
[pt] APRENDIZADO PROFUNDO
Vocabulário
[en] NATURAL LANGUAGE PROCESSING
Vocabulário
[en] RELATION EXTRACTION
Vocabulário
[en] NAMED ENTITY RECOGNITION
Vocabulário
[en] DEEP LEARNING
Resumo
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando
populares recentemente. A gama de aplicativos que se beneficiam de
NLP é extensa, desde criar sistemas de tradução automática até ajudar no
marketing de um produto. Dentro de NLP, o campo de Extração de Informações
(IE) é difundido; concentra-se no processamento de textos para recuperar
informações específicas sobre uma determinada entidade ou conceito. Ainda
assim, a comunidade de pesquisa se concentra principalmente na construção
de modelos para dados na língua inglesa. Esta tese aborda três tarefas no
domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações
Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um
novo conjunto de dados em português no domínio biomédico, descrevemos o
processo de anotação e medimos suas propriedades. Além disso, desenvolvemos
um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação,
verificando que o mesmo é competitivo em comparação com outros modelos.
Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas
diferentes do inglês e confirmamos a dominância de modelos baseados
em redes neurais.
Resumo
[en] Natural language processing (NLP) techniques are becoming popular recently.
The range of applications that benefit from NLP is extensive, from
building machine translation systems to helping market a product. Within
NLP, the Information Extraction (IE) field is widespread; it focuses on processing
texts to retrieve specific information about a particular entity or concept.
Still, the research community mainly focuses on building models for English
data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First,
we created a novel Portuguese dataset in the biomedical domain, described the
annotation process, and measured its properties. Also, we developed a novel
model for the Joint Entity and Relation Extraction task, verifying that it is
competitive compared to other models. Finally, we carefully evaluated proposed
models on non-English language datasets and confirmed the dominance of
neural-based models.
Orientador(es)
EDUARDO SANY LABER
Banca
SERGIO COLCHER
Banca
EDUARDO SANY LABER
Banca
THIAGO CASTRO FERREIRA
Catalogação
2022-10-24
Apresentação
2022-09-05
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60909@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60909@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.60909
Arquivos do conteúdo
NA ÍNTEGRA PDF