Título: | A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES | ||||||||||||||||||||||||||||||||||||||||
Autor: |
THORAN ARAGUEZ RODRIGUES |
||||||||||||||||||||||||||||||||||||||||
Colaborador(es): |
EDUARDO SANY LABER - Orientador |
||||||||||||||||||||||||||||||||||||||||
Catalogação: | 20/JUL/2009 | Língua(s): | PORTUGUESE - BRAZIL |
||||||||||||||||||||||||||||||||||||||
Tipo: | TEXT | Subtipo: | THESIS | ||||||||||||||||||||||||||||||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||||||||||||||||||||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=13890&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=13890&idi=2 |
||||||||||||||||||||||||||||||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.13890 | ||||||||||||||||||||||||||||||||||||||||
Resumo: | |||||||||||||||||||||||||||||||||||||||||
The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
|
|||||||||||||||||||||||||||||||||||||||||
|