Título
[en] A STUDY OF MULTILABEL TEXT CLASSIFICATION ALGORITHMS USING NAIVE-BAYES
Título
[pt] UM ESTUDO DE ALGORITMOS PARA CLASSIFICAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO NAIVE-BAYES
Autor
[pt] DAVID STEINBRUCH
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] NAIVE-BAYES
Vocabulário
[pt] MULTIROTULO
Vocabulário
[pt] CLASSIFICACAO DE TEXTOS
Vocabulário
[pt] CATEGORIZACAO DE TEXTOS
Vocabulário
[pt] INTERNET
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] NAIVE-BAYES
Vocabulário
[en] MULTILABEL
Vocabulário
[en] TEXT CLASSIFICATION
Vocabulário
[en] TEXT CATEGORIZATION
Vocabulário
[en] INTERNET
Resumo
[pt] A quantidade de informação eletrônica vem crescendo de
forma acelerada,
motivada principalmente pela facilidade de publicação e
divulgação que a
Internet proporciona. Desta forma, é necessária a
organização da informação
de forma a facilitar a sua aquisição. Muitos trabalhos
propuseram resolver
este problema através da classificação automática de
textos associando a
eles vários rótulos (classificação multirótulo). No
entanto, estes trabalhos
transformam este problema em subproblemas de classificação
binária,
considerando que existe independência entre as categorias.
Além disso,
utilizam limiares (thresholds), que são muito específicos
para o conjunto
de treinamento utilizado, não possuindo grande capacidade
de generalização
na aprendizagem. Esta dissertação propõe dois algoritmos
de classificação
automática de textos baseados no algoritmo multinomial
naive Bayes e sua
utilização em um ambiente on-line de classificação
automática de textos
com realimentação de relevância pelo usuário. Para testar
a eficiência dos
algoritmos propostos, foram realizados experimentos na
base de notícias
Reuters 21758 e na base de documentos médicos Ohsumed.
Resumo
[en] The amount of electronic information has been growing
fast, mainly due to
the easiness of publication and spreading that Internet
provides. Therefore,
is necessary the organisation of information to facilitate
its retrieval. Many
works have solved this problem through the automatic text
classification,
associating to them several labels (multilabel
classification). However, those
works have transformed this problem into binary
classification subproblems,
considering there is not dependence among categories.
Moreover, they have
used thresholds, which are very sepecific of the
classifier document base,
and so, does not have great generalization capacity in the
learning process.
This thesis proposes two text classifiers based on the
multinomial algorithm
naive Bayes and its usage in an on-line text
classification environment with
user relevance feedback. In order to test the proposed
algorithms efficiency,
experiments have been performed on the Reuters 21578 news
base, and on
the Ohsumed medical document base.
Orientador(es)
DANIEL SCHWABE
Coorientador(es)
RUY LUIZ MILIDIU
Banca
MARCUS VINICIUS SOLEDADE POGGI DE ARAGAO
Banca
DANIEL SCHWABE
Banca
RUY LUIZ MILIDIU
Banca
EDUARDO SANY LABER
Catalogação
2007-03-12
Apresentação
2006-09-05
Tipo
[pt] TEXTO
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=9637@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=9637@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.9637
Arquivos do conteúdo
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF CAPÍTULO 1 PDF CAPÍTULO 2 PDF CAPÍTULO 3 PDF CAPÍTULO 4 PDF CAPÍTULO 5 PDF REFERÊNCIAS BIBLIOGRÁFICAS PDF