Maxwell Para Simples Indexação

Título
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK

Título
[pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO

Autor
[pt] ELVIS ALVES DE SOUZA

Vocabulário
[pt] LINGUISTICA COMPUTACIONAL

Vocabulário
[pt] ANOTACAO DE CORPUS

Vocabulário
[pt] TREEBANKS

Vocabulário
[pt] DESCRICAO DO PORTUGUES

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[en] COMPUTATIONAL LINGUISTICS

Vocabulário
[en] CORPUS ANNOTATION

Vocabulário
[en] TREEBANKS

Vocabulário
[en] PORTUGUESE DESCRIPTION

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Resumo
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior.

Resumo
[en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version.

Orientador(es)
MARIA CLAUDIA DE FREITAS

Banca
MARIA CLAUDIA DE FREITAS

Banca
DIANA MARIA DE SOUSA MARQUES PINTO DOS SANTOS

Banca
ADRIANA SILVINA PAGANO

Banca
THIAGO ALEXANDRE SALGUEIRO PARDO

Catalogação
2023-05-29

Apresentação
2023-04-17

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62693@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.62693


Arquivos do conteúdo
NA ÍNTEGRA PDF