Logo PUC-Rio Logo Maxwell
TRABALHOS DE FIM DE CURSO @PUC-Rio
Consulta aos Conteúdos
Título: WEBETL: EXTRAÇÃO, TRATAMENTO E CARGA DE DADOS ORIUNDOS DA WEB
Autor(es): FELIPE SALVINI BOURRUS
Colaborador(es): MARCOS VIANNA VILLAS - Orientador
Catalogação: 01/OUT/2010 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TRABALHO DE FIM DE CURSO
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=16419@1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=16419@2
DOI: https://doi.org/10.17771/PUCRio.acad.16419
Resumo:
Crawler (Robô que varre a Web e indexa as informações do site, geralmente para mecanismos de busca) de domínios previamente selecionados para extrair os metadados desejados. Este crawler pode interagir com milhões de páginas durante um curto período de tempo. Este projeto descreve a arquitetura e implementação de um crawler distribuído. Discutem-se os gargalos e técnicas eficientes para atingir máximo desempenho assim como estatísticas dos dados obtidos.
Descrição: Arquivo:   
NA ÍNTEGRA PDF