Maxwell Para Simples Indexação

Título
[en] DIRECT AND INDIRECT QUOTATION EXTRACTION FOR PORTUGUESE

Título
[pt] EXTRAÇÃO DE CITAÇÕES DIRETAS E INDIRETAS PARA O PORTUGUÊS

Autor
[pt] RAFAEL DOS REIS SILVA

Vocabulário
[pt] EXTRACAO DE INFORMACAO

Vocabulário
[pt] AGENDAMENTO DE TAREFAS PONDERADO

Vocabulário
[pt] PERCEPTRON ESTRUTURADO

Vocabulário
[pt] EXTRACAO DE CITACOES

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[en] EXTRACTION OF INFORMATION

Vocabulário
[en] QUOTATION EXTRACTION

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Resumo
[pt] Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um Extrator de Citações Diretas e Indiretas para o Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas em diversos idiomas. Nossa proposta difere das anteriores, pois construímos um modelo de Aprendizado de Máquina que, além de indetificar citações diretas, também identifica as citações indiretas. Citações indiretas são difíceis de serem identificadas num texto por não conter delimitações explícitas. Porém, são mais frequentes do que as delimitadas e, por essa razão, possuem grande importância na extração de informação. Por utilizarmos um modelo baseado em Aprendizado de Máquina, podemos facilmente adaptá-lo para outras línguas, bastando apenas uma lista de verbos do dizer num dado idioma. Poucos foram os sistemas propostos anteriormente que atacaram o problema das citações indiretas e nenhum deles para o Português usando Aprendizado de Máquina. Nós construímos um Extrator de Citações usando um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, construímos o corpus QuoTrees 1.0. Nós anotamos este corpus a fim de atacar o problema das citações indiretas. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F1 igual a 66 por cento para o corpus QuoTrees 1.0.

Resumo
[en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Direct and Indirect Quotation Extraction System for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work, because we build a Machine Learning model that, besides recognizing direct quotations, it also recognizes indirect ones in Portuguese. Indirect quotations are hard to be identified in a text, due to the lack of explicit delimitation. Nevertheless, they happen more often then the delimited ones and, for this reason, have an huge importance on information extraction. Due to the fact that we use a Machine Learning model based, we can easily adapt it to other languages, needing only a list of verbs of speech for a given language. Few were the previously proposed systems that tackled the task of indirect quotations and neither of them for Portuguese using a Machine Learning approach. We build a Quotation Extractor using a model for the Structured Perceptron algorithm. In order to train and evaluate the system, we build QuoTrees 1.0 corpus. We annotate it to tackle the indirect quotation problem. The Structured Perceptron based on weight interval scheduling obtains an F1 score of 66 percent for QuoTrees 1.0 corpus.

Orientador(es)
RUY LUIZ MILIDIU

Coorientador(es)
MARIA CLAUDIA DE FREITAS

Banca
HELIO CORTES VIEIRA LOPES

Banca
MARIA CLAUDIA DE FREITAS

Banca
RUY LUIZ MILIDIU

Banca
LEONARDO GUERREIRO AZEVEDO

Catalogação
2017-06-08

Apresentação
2017-02-08

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30254@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30254@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.30254


Arquivos do conteúdo
NA ÍNTEGRA PDF