Maxwell Para Simples Indexação

Título
[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE

Título
[pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊS

Autor
[pt] LUCAS AGUIAR PAVANELLI

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[pt] EXTRACAO DE RELACOES SEMANTICAS

Vocabulário
[pt] RECONHECIMENTO DE ENTIDADES NOMEADAS

Vocabulário
[pt] APRENDIZADO PROFUNDO

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Vocabulário
[en] RELATION EXTRACTION

Vocabulário
[en] NAMED ENTITY RECOGNITION

Vocabulário
[en] DEEP LEARNING

Resumo
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando populares recentemente. A gama de aplicativos que se beneficiam de NLP é extensa, desde criar sistemas de tradução automática até ajudar no marketing de um produto. Dentro de NLP, o campo de Extração de Informações (IE) é difundido; concentra-se no processamento de textos para recuperar informações específicas sobre uma determinada entidade ou conceito. Ainda assim, a comunidade de pesquisa se concentra principalmente na construção de modelos para dados na língua inglesa. Esta tese aborda três tarefas no domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um novo conjunto de dados em português no domínio biomédico, descrevemos o processo de anotação e medimos suas propriedades. Além disso, desenvolvemos um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação, verificando que o mesmo é competitivo em comparação com outros modelos. Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas diferentes do inglês e confirmamos a dominância de modelos baseados em redes neurais.

Resumo
[en] Natural language processing (NLP) techniques are becoming popular recently. The range of applications that benefit from NLP is extensive, from building machine translation systems to helping market a product. Within NLP, the Information Extraction (IE) field is widespread; it focuses on processing texts to retrieve specific information about a particular entity or concept. Still, the research community mainly focuses on building models for English data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First, we created a novel Portuguese dataset in the biomedical domain, described the annotation process, and measured its properties. Also, we developed a novel model for the Joint Entity and Relation Extraction task, verifying that it is competitive compared to other models. Finally, we carefully evaluated proposed models on non-English language datasets and confirmed the dominance of neural-based models.

Orientador(es)
EDUARDO SANY LABER

Banca
SERGIO COLCHER

Banca
EDUARDO SANY LABER

Banca
THIAGO CASTRO FERREIRA

Catalogação
2022-10-24

Apresentação
2022-09-05

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60909@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60909@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.60909


Arquivos do conteúdo
NA ÍNTEGRA PDF