Maxwell Para Simples Indexação

Título
[pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS

Título
[en] QUOTATION EXTRACTION FOR PORTUGUESE

Autor
[pt] WILLIAM PAULO DUCCA FERNANDES

Vocabulário
[pt] APRENDIZADO DE MAQUINA

Vocabulário
[pt] AGENDAMENTO DE TAREFAS PONDERADO

Vocabulário
[pt] PERCEPTRON ESTRUTURADO

Vocabulário
[pt] APRENDIZADO DE TRANSFORMACOES GUIADO POR ENTROPIA

Vocabulário
[pt] EXTRACAO DE CITACOES

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[pt] EXTRACAO DE INFORMACAO

Vocabulário
[en] MACHINE LEARNING

Vocabulário
[en] QUOTATION EXTRACTION

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Vocabulário
[en] EXTRACTION OF INFORMATION

Resumo
[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento.

Resumo
[en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.

Orientador(es)
RUY LUIZ MILIDIU

Banca
DANIEL SCHWABE

Banca
RUY LUIZ MILIDIU

Banca
MARCO ANTONIO CASANOVA

Catalogação
2017-01-24

Apresentação
2012-04-09

Tipo
[pt] TEXTO

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.28807


Arquivos do conteúdo
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF
CAPÍTULO 1 PDF
CAPÍTULO 2 PDF
CAPÍTULO 3 PDF
CAPÍTULO 4 PDF
CAPÍTULO 5 PDF
CAPÍTULO 6 PDF
REFERÊNCIAS BIBLIOGRÁFICAS, GLOSSÁRIO E APÊNDICES PDF