Título
[pt] INTERLIGANDO RECURSOS NA WEB ATRAVÉS DE ABORDAGENS DE MATCHING E INTERLINKING
Título
[en] TOWARDS A WELL-INTERLINKED WEB THROUGH MATCHING AND INTERLINKING APPROACHES
Autor
[pt] BERNARDO PEREIRA NUNES
Vocabulário
[pt] WEB SEMANTICA
Vocabulário
[pt] FIREME
Vocabulário
[pt] CITE4ME
Vocabulário
[pt] DOCUMENT LINKING
Vocabulário
[pt] ENTITY LINKING
Vocabulário
[pt] CONSOLIDACAO DE DADOS
Vocabulário
[pt] LINKED DATA
Vocabulário
[pt] ALINHAMENTO DE ESQUEMAS
Vocabulário
[pt] SISTEMAS DE RECOMENDACAO
Vocabulário
[pt] ALINHAMENTO DE ONTOLOGIAS
Vocabulário
[pt] PRIVACIDADE
Vocabulário
[pt] INTEGRACAO DE DADOS
Vocabulário
[en] SEMANTIC WEB
Vocabulário
[en] FIREME
Vocabulário
[en] CITE4ME
Vocabulário
[en] DOCUMENT LINKING
Vocabulário
[en] ENTITY LINKING
Vocabulário
[en] DATA CONSOLIDATION
Vocabulário
[en] LINKED DATA
Vocabulário
[en] RECOMMENDER SYSTEMS
Vocabulário
[en] ONTOLOGY ALIGNMENT
Vocabulário
[en] PRIVACY
Vocabulário
[en] DATA INTEGRATION
Resumo
[pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes
desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a
Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de
forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes
de dados, com recursos em comum ou relacionados, são publicados por diferentes
editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro
desafio advindo da Linked Data está na criação de um grafo denso de dados na
Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas
também dos recursos relacionadas na Web, provê ao consumidor (data consumer)
uma representação mais rica dos dados e a possibilidade de exploração dos recursos
conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas
de integração, consolidação e interligação de dados. Nossa primeira abordagem
combina técnicas de informação mútua e programação genética para solucionar o
problema de alinhamento complexo entre fontes de dados, um problema raramente
abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos
uma métrica utilizada em teoria de redes sociais para enfrentar o problema de
consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web
chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação
de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas
abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais
demonstram que as nossas abordagens superam abordagens consideradas como
estado da arte.
Resumo
[en] With the emergence of Linked (Open) Data, a number of novel and notable
research challenges have been raised. The openness that often characterises Linked
Data offers an opportunity to homogeneously integrate and connect heterogeneous
data sources on the Web. As disparate data sources with overlapping or related resources
are provided by different data publishers, their integration and consolidation
becomes a real challenge. An additional challenge of Linked Data lies in the creation
of a well-interlinked graph of Web data. Identifying and linking not only identical
Web resources, but also lateral Web resources, provides the data consumer with
richer representation of the data and the possibility of exploiting connected resources.
In this thesis, we present three approaches that tackle data integration, consolidation
and linkage problems. Our first approach combines mutual information and genetic
programming techniques for complex datatype property matching, a rarely addressed
problem in the literature. In the second and third approaches, we adopt and extend a
measure from social network theory to address data consolidation and interlinking.
Furthermore, we present a Web-based application named Cite4Me that provides
a new perspective on search and retrieval of Linked Open Data sets, as well as
the benefits of using our approaches. Finally, we validate our approaches through
extensive evaluations using real-world datasets, reporting results that outperform
state of the art approaches.
Orientador(es)
MARCO ANTONIO CASANOVA
Coorientador(es)
WOLFGANG NEJDL
Banca
MARCO ANTONIO CASANOVA
Banca
ANTONIO LUZ FURTADO
Banca
SEAN WOLFGAND MATSUI SIQUEIRA
Banca
LUIZ ANDRE PORTES PAES LEME
Banca
GISELI RABELLO LOPES
Banca
WOLFGANG NEJDL
Banca
STEFAN DIETZE
Catalogação
2016-01-07
Apresentação
2014-02-10
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=25608@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=25608@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.25608
Arquivos do conteúdo
NA ÍNTEGRA PDF