Maxwell Para Simples Indexação

Título

[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS

Título

[pt] ELABORAÇÃO AUTOMÁTICA DE ONTOLOGIAS DE DOMÍNIO: DISCUSSÃO E RESULTADOS

Autor

[pt] MARIA CLAUDIA DE FREITAS

Vocabulário

[pt] ONTOLOGIA

Vocabulário

[pt] NOMES PROPRIOS

Vocabulário

[pt] HIERARQUIA LEXICAL

Vocabulário

[pt] TAXONOMIA

Vocabulário

[pt] LEXICO

Vocabulário

[en] ONTOLOGY

Vocabulário

[en] PROPER NOUNS

Vocabulário

[en] LEXICAL HIERARCHY

Vocabulário

[en] TAXONOMY

Vocabulário

[en] LEXICON

Resumo

[pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determinados padrões léxico-sintáticos. Tomando como ponto de partida alguns desses padrões, descritos originalmente em Hearst (1992, 1998), (i) identifico novos padrões para a expressão da relação de hiperonímia; (ii) adapto e refino três padrões já existentes (Hearst, 1992), tendo em vista especificidades da língua portuguesa; (iii) faço um cruzamento entre as informações extraídas com os padrões, a fim de gerar inferências. A perspectiva teórica subjacente é inspirada por reflexões wittgensteinianas sobre o significado, e se mostrou produtiva na medida em que legitima os dados vindos do corpus e as relações de significado que nele aparecem. O modelo de ontologia proposto caracteriza-se principalmente por: (i) não conter categorias pré-definidas, já que categorias são construtos humanos, abstrações que refletem uma perspectiva particular do mundo. A idéia de sustentar a ontologia em corpus busca deslocar o espaço de discussão sobre quais seriam as categorias relevantes de um domínio: as categorias que emergem do corpus refletiriam o conhecimento implícito do domínio em questão; (ii) não conter definições criadas a priori, sendo o significado de cada item decorrente das relações entre as palavras. A metodologia - extração das relações por meio de regras e posterior cruzamento para a realização de inferências - foi aplicada em um corpus do domínio saúde e um corpus genérico. Os resultados positivos indicam que sua utilização pode ser uma importante aliada na elaboração de ontologias e, também, uma ferramenta de auxílio a lexicógrafos e a sistemas de classificação semântica de nomes próprios. Em termos gerais, a metodologia apresenta como principais vantagens (i) a facilidade na automação do processo, minimizando a intervenção humana; (ii) facilidade na categorização de domínios especializados; (iii) maior dinamicidade, pois o fato de o corpus poder ser constantemente atualizado faz com que esteja menos sujeito a falhas.

Resumo

[en] The main goal of this work is to present an automated method for building domain-specific corpus-based ontologies. The assumption is that semantic relationships, such as hypernym, can be systematically expressed through lexicalsyntactic patterns. Starting with some of these patterns, originally described in Hearst (1992), I (i) identify new patterns that express hypernym; (ii) adapt three other patterns (Hearst, 1992), considering specificities of the Portuguese language; and (iii) intersect these results, in order to produce inferences. The theoretical approach is inspired by the wittgensteinian ideas about meaning. The resulting ontology´s most prominent features are: (i) the fact that it does not have a priori categories, since categories are human constructs, abstractions that reflect a particular world view. Instead of discussing what should be the main categories in a domain, sustaining the ontology on corpora assumes that the corpus reflects the implicit knowledge of a given domain; and (ii) the fact that it does not have a priori definitions: the meaning of a word is derived from its relations with other words. The method - automatic extraction of semantic relations through rules, and the intersection of this information in order to produce inferences - was applied to two corpora: a health domain corpus and a generic corpus. The positive results show that the method can be very useful in ontology building and it can also be a valuable tool for lexicographers and named entity recognition systems. The main advantages of the method are (i) the simplicity of automating the process of ontology building; (ii) the ease of categorizing specialized domains, and (iii) its dynamicity, since the possibility of constantly updating the corpus makes it less subject to errors.

Orientador(es)

VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL

Banca

VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL

Banca

HELENA FRANCO MARTINS

Banca

MARGARIDA MARIA DE PAULA BASILIO

Banca

GERALDO BONORINO XEXEO

Banca

VERA LUCIA STRUBE DE LIMA

Catalogação

2007-04-25

Apresentação

2007-01-25

Tipo

[pt] TEXTO

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Formato

application/pdf

Idioma(s)

PORTUGUÊS

Referência [pt]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=9826@1

Referência [en]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=9826@2

Referência DOI

https://doi.org/10.17771/PUCRio.acad.9826

Arquivos do conteúdo

CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF
CAPÍTULO 1 PDF
CAPÍTULO 2 PDF
CAPÍTULO 3 PDF
CAPÍTULO 4 PDF
CAPÍTULO 5 PDF
CAPÍTULO 6 PDF
CAPÍTULO 7 PDF
CAPÍTULO 8 PDF
REFERÊNCIAS BIBLIOGRÁFICAS E ANEXOS PDF