Logo PUC-Rio Logo Maxwell
ETDs @PUC-Rio
Estatística
Título: UM FRAMEWORK PARA A CONSTRUÇÃO DE MEDIADORES OFERECENDO ELIMINAÇÃO DE DUPLICATAS
Autor: GUSTAVO LOPES MOURAD
Colaborador(es): KARIN KOOGAN BREITMAN - Orientador
Catalogação: 24/JAN/2011 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=16775&idi=1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=16775&idi=2
DOI: https://doi.org/10.17771/PUCRio.acad.16775
Resumo:
À medida em que aplicações web que combinam dados de diferentes fontes ganham importância, soluções para a detecção online de dados duplicados tornam-se centrais. A maioria das técnicas existentes são baseadas em algoritmos de aprendizado de máquina, que dependem do uso de bases de treino criadas manualmente. Estas soluções não são adequadas no caso da Deep Web onde, de modo geral, existe pouca informação acerca do tamanho das fontes de dados, da volatilidade dos mesmos e do fato de que a obtenção de um conjunto de dados relevante para o treinamento é uma tarefa difícil. Nesta dissertação propomos uma estratégia para extração (scraping), detecção de duplicatas e incorporação de dados resultantes de consultas realizadas em bancos de dados na Deep Web. Nossa abordagem não requer o uso de conjuntos de testes previamente definidos, mas utiliza uma combinação de um classificador baseado no Vector Space Model, com funções de cálculo de similaridade para prover uma solução viável. Para ilustrar nossa proposta, nós apresentamos um estudo de caso onde o framework é instanciado para uma aplicação do domínio dos vinhos.
Descrição: Arquivo:   
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF    
CAPÍTULO 1 PDF    
CAPÍTULO 2 PDF    
CAPÍTULO 3 PDF    
CAPÍTULO 4 PDF    
CAPÍTULO 5 PDF    
CAPÍTULO 6 PDF    
CAPÍTULO 7 PDF    
REFERÊNCIAS BIBLIOGRÁFICAS PDF