Título: | UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADES | ||||||||||||
Autor: |
DANIEL LEMES GRIBEL |
||||||||||||
Colaborador(es): |
THIBAUT VICTOR GASTON VIDAL - Orientador MICHEL GENDREAU - Coorientador |
||||||||||||
Catalogação: | 09/SET/2021 | Língua(s): | INGLÊS - ESTADOS UNIDOS |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=54595&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=54595&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.54595 | ||||||||||||
Resumo: | |||||||||||||
Em clusterização baseada em modelos, o objetivo é separar amostras de
dados em grupos significativos, otimizando a aderência dos dados observados a
um modelo matemático. A recente adoção de clusterização baseada em modelos
tem permitido a profissionais e usuários mapearem padrões complexos nos
dados e explorarem uma ampla variedade de aplicações. Esta tese investiga
abordagens orientadas a modelos para detecção de comunidades e para o estudo
de clusterização semissupervisionada, adotando uma perspectiva baseada em
máxima verossimilhança. Focamos primeiramente na exploração de técnicas
de otimização com restrições para apresentar um novo modelo de detecção de
comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos
que a formulação com restrições revela comunidades estruturalmente diferentes
daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário
onde anotações imprecisas são fornecidas na forma de relações must-link e
cannot-link, e propomos um modelo de clusterização semissupervisionado.
Nossa análise experimental mostra que a incorporação de supervisão parcial
e de conhecimento prévio melhoram significativamente os agrupamentos. Por
fim, examinamos o problema de clusterização semissupervisionada na presença
de rótulos de classe não confiáveis. Investigamos o caso em que grupos de
anotadores deliberadamente classificam incorretamente as amostras de dados
e propomos um modelo para lidar com tais anotações incorretas.
|
|||||||||||||
|