Título: | A STUDY OF MULTILABEL TEXT CLASSIFICATION ALGORITHMS USING NAIVE-BAYES | ||||||||||||||||||||||||||||||||||||
Autor: |
DAVID STEINBRUCH |
||||||||||||||||||||||||||||||||||||
Colaborador(es): |
DANIEL SCHWABE - Orientador RUY LUIZ MILIDIU - Coorientador |
||||||||||||||||||||||||||||||||||||
Catalogação: | 12/MAR/2007 | Língua(s): | PORTUGUESE - BRAZIL |
||||||||||||||||||||||||||||||||||
Tipo: | TEXT | Subtipo: | THESIS | ||||||||||||||||||||||||||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||||||||||||||||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=9637&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=9637&idi=2 |
||||||||||||||||||||||||||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.9637 | ||||||||||||||||||||||||||||||||||||
Resumo: | |||||||||||||||||||||||||||||||||||||
The amount of electronic information has been growing
fast, mainly due to
the easiness of publication and spreading that Internet
provides. Therefore,
is necessary the organisation of information to facilitate
its retrieval. Many
works have solved this problem through the automatic text
classification,
associating to them several labels (multilabel
classification). However, those
works have transformed this problem into binary
classification subproblems,
considering there is not dependence among categories.
Moreover, they have
used thresholds, which are very sepecific of the
classifier document base,
and so, does not have great generalization capacity in the
learning process.
This thesis proposes two text classifiers based on the
multinomial algorithm
naive Bayes and its usage in an on-line text
classification environment with
user relevance feedback. In order to test the proposed
algorithms efficiency,
experiments have been performed on the Reuters 21578 news
base, and on
the Ohsumed medical document base.
|
|||||||||||||||||||||||||||||||||||||
|