Título: | UM ESTUDO DE ALGORITMOS PARA CLASSIFICAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO NAIVE-BAYES | ||||||||||||||||||||||||||||||||||||
Autor: |
DAVID STEINBRUCH |
||||||||||||||||||||||||||||||||||||
Colaborador(es): |
DANIEL SCHWABE - Orientador RUY LUIZ MILIDIU - Coorientador |
||||||||||||||||||||||||||||||||||||
Catalogação: | 12/MAR/2007 | Língua(s): | PORTUGUÊS - BRASIL |
||||||||||||||||||||||||||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||||||||||||||||||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||||||||||||||||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=9637&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=9637&idi=2 |
||||||||||||||||||||||||||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.9637 | ||||||||||||||||||||||||||||||||||||
Resumo: | |||||||||||||||||||||||||||||||||||||
A quantidade de informação eletrônica vem crescendo de
forma acelerada,
motivada principalmente pela facilidade de publicação e
divulgação que a
Internet proporciona. Desta forma, é necessária a
organização da informação
de forma a facilitar a sua aquisição. Muitos trabalhos
propuseram resolver
este problema através da classificação automática de
textos associando a
eles vários rótulos (classificação multirótulo). No
entanto, estes trabalhos
transformam este problema em subproblemas de classificação
binária,
considerando que existe independência entre as categorias.
Além disso,
utilizam limiares (thresholds), que são muito específicos
para o conjunto
de treinamento utilizado, não possuindo grande capacidade
de generalização
na aprendizagem. Esta dissertação propõe dois algoritmos
de classificação
automática de textos baseados no algoritmo multinomial
naive Bayes e sua
utilização em um ambiente on-line de classificação
automática de textos
com realimentação de relevância pelo usuário. Para testar
a eficiência dos
algoritmos propostos, foram realizados experimentos na
base de notícias
Reuters 21758 e na base de documentos médicos Ohsumed.
|
|||||||||||||||||||||||||||||||||||||
|