Título: | POLÍTICAS EFICIENTES PARA REVISITAÇÃO DE PÁGINAS WEB | |||||||
Autor: |
CRISTON PEREIRA DE SOUZA |
|||||||
Colaborador(es): |
EDUARDO SANY LABER - Orientador |
|||||||
Catalogação: | 15/JUL/2010 | Língua(s): | PORTUGUÊS - BRASIL |
|||||
Tipo: | TEXTO | Subtipo: | TESE | |||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
|||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=15893&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=15893&idi=2 |
|||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.15893 | |||||||
Resumo: | ||||||||
Uma máquina de busca precisa constantemente revisitar páginas Web
para manter seu repositório local atualizado. Uma política de revisitação
deve ser empregada para construir um escalonamento de revisitações que
mantenha o repositório o mais atualizado possível utilizando os recursos
disponíveis. Para evitar sobrecarga de servidores Web, a política de
revisitação deve respeitar um tempo mínimo entre requisições consecutivas
a um mesmo servidor. Esta regra é chamada restrição de politeness. Devido
ao porte do problema, consideramos que uma política de revisitação é
eficiente se o tempo médio para escalonar uma revisitação é sublinear no
número de páginas do repositório. Neste sentido, quando a restrição de
politeness é considerada, não conhecemos política eficiente com garantia
teórica de qualidade. Nesta pesquisa investigamos três políticas eficientes
que respeitam a restrição de politeness, chamadas MERGE, RANDOM e
DELAYED. Fornecemos fatores de aproximação para o nível de atualização
do repositório quando empregamos as política MERGE ou RANDOM.
Demonstramos que 0,77 é um limite inferior para este fator de aproximação
quando empregamos a política RANDOM, e apresentamos uma conjectura
de que 0,927 é um limite inferior para este fator de aproximação quando
empregamos a política MERGE. As políticas também são avaliadas através
da simulação da execução destas políticas para manter o nível de atualização
de um repositório contendo 14,5 milhões de páginas Web. Um repositório
contendo artigos da Wikipedia também é utilizado nos experimentos, onde
podemos observar que a política MERGE apresenta melhores resultados que
uma estratégia gulosa natural para este repositório. A principal conclusão
desta pesquisa é que existem políticas simples e eficientes para o problema
de revisitação de páginas Web, que perdem pouco em termos do nível
de atualização do repositório mesmo quando consideramos a restrição de
politeness.
|
||||||||