ETDs

Estatística

Título:

UM FRAMEWORK PARA A CONSTRUÇÃO DE MEDIADORES OFERECENDO ELIMINAÇÃO DE DUPLICATAS

Autor:

GUSTAVO LOPES MOURAD

Colaborador(es):

KARIN KOOGAN BREITMAN - Orientador

Catalogação:

24/JAN/2011

Língua(s):

PORTUGUÊS - BRASIL

Tipo:

TEXTO

Subtipo:

TESE

Notas:

[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.

Referência(s):

[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=16775&idi=1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=16775&idi=2

DOI:

https://doi.org/10.17771/PUCRio.acad.16775

Resumo:

À medida em que aplicações web que combinam dados de diferentes fontes ganham importância, soluções para a detecção online de dados duplicados tornam-se centrais. A maioria das técnicas existentes são baseadas em algoritmos de aprendizado de máquina, que dependem do uso de bases de treino criadas manualmente. Estas soluções não são adequadas no caso da Deep Web onde, de modo geral, existe pouca informação acerca do tamanho das fontes de dados, da volatilidade dos mesmos e do fato de que a obtenção de um conjunto de dados relevante para o treinamento é uma tarefa difícil. Nesta dissertação propomos uma estratégia para extração (scraping), detecção de duplicatas e incorporação de dados resultantes de consultas realizadas em bancos de dados na Deep Web. Nossa abordagem não requer o uso de conjuntos de testes previamente definidos, mas utiliza uma combinação de um classificador baseado no Vector Space Model, com funções de cálculo de similaridade para prover uma solução viável. Para ilustrar nossa proposta, nós apresentamos um estudo de caso onde o framework é instanciado para uma aplicação do domínio dos vinhos.

Descrição:			Arquivo:
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS			PDF
CAPÍTULO 1			PDF
CAPÍTULO 2			PDF
CAPÍTULO 3			PDF
CAPÍTULO 4			PDF
CAPÍTULO 5			PDF
CAPÍTULO 6			PDF
CAPÍTULO 7			PDF
REFERÊNCIAS BIBLIOGRÁFICAS			PDF