Título
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES
Título
[pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB
Autor
[pt] THORAN ARAGUEZ RODRIGUES
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] BLOGS
Vocabulário
[pt] WEB
Vocabulário
[pt] CLASSIFICACAO
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] BLOGS
Vocabulário
[en] WEB
Vocabulário
[en] CLASSIFICATION
Resumo
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas.
Resumo
[en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
Orientador(es)
EDUARDO SANY LABER
Banca
RUY LUIZ MILIDIU
Banca
EDUARDO SANY LABER
Banca
RAUL PIERRE RENTERIA
Catalogação
2009-07-20
Apresentação
2009-03-03
Tipo
[pt] TEXTO
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.13890
Arquivos do conteúdo
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF CAPÍTULO 1 PDF CAPÍTULO 2 PDF CAPÍTULO 3 PDF CAPÍTULO 4 PDF CAPÍTULO 5 PDF CAPÍTULO 6 PDF REFERÊNCIAS BIBLIOGRÁFICAS PDF