Logo PUC-Rio Logo Maxwell
ETDs @PUC-Rio
Estatística
Título: EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
Autor: WILLIAM PAULO DUCCA FERNANDES
Colaborador(es): RUY LUIZ MILIDIU - Orientador
Catalogação: 24/JAN/2017 Língua(s): INGLÊS - ESTADOS UNIDOS
Tipo: TEXTO Subtipo: TESE
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=28807&idi=1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=28807&idi=2
DOI: https://doi.org/10.17771/PUCRio.acad.28807
Resumo:
A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento.
Descrição: Arquivo:   
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF    
CAPÍTULO 1 PDF    
CAPÍTULO 2 PDF    
CAPÍTULO 3 PDF    
CAPÍTULO 4 PDF    
CAPÍTULO 5 PDF    
CAPÍTULO 6 PDF    
REFERÊNCIAS BIBLIOGRÁFICAS, GLOSSÁRIO E APÊNDICES PDF