Título
[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
Título
[pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADES
Autor
[pt] DANIEL LEMES GRIBEL
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] MODELOS DE BLOCOS ESTOCASTICOS
Vocabulário
[pt] AGRUPAMENTO SEMISSUPERVISIONADO
Vocabulário
[pt] DETECCAO DE COMUNIDADES
Vocabulário
[pt] AGRUPAMENTO
Vocabulário
[pt] OTIMIZACAO
Vocabulário
[pt] MINERACAO DE DADOS
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] STOCHASTICK BLOCK MODELS
Vocabulário
[en] SEMISUPERVISED CLUSTERING
Vocabulário
[en] COMMUNITY DETECTION
Vocabulário
[en] GROUPING
Vocabulário
[en] OPTIMIZATION
Vocabulário
[en] DATA MINING
Resumo
[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de
dados em grupos significativos, otimizando a aderência dos dados observados a
um modelo matemático. A recente adoção de clusterização baseada em modelos
tem permitido a profissionais e usuários mapearem padrões complexos nos
dados e explorarem uma ampla variedade de aplicações. Esta tese investiga
abordagens orientadas a modelos para detecção de comunidades e para o estudo
de clusterização semissupervisionada, adotando uma perspectiva baseada em
máxima verossimilhança. Focamos primeiramente na exploração de técnicas
de otimização com restrições para apresentar um novo modelo de detecção de
comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos
que a formulação com restrições revela comunidades estruturalmente diferentes
daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário
onde anotações imprecisas são fornecidas na forma de relações must-link e
cannot-link, e propomos um modelo de clusterização semissupervisionado.
Nossa análise experimental mostra que a incorporação de supervisão parcial
e de conhecimento prévio melhoram significativamente os agrupamentos. Por
fim, examinamos o problema de clusterização semissupervisionada na presença
de rótulos de classe não confiáveis. Investigamos o caso em que grupos de
anotadores deliberadamente classificam incorretamente as amostras de dados
e propomos um modelo para lidar com tais anotações incorretas.
Resumo
[en] In model-based clustering, we aim to separate data samples into meaningful
groups by optimizing the fit of some observed data to a mathematical model.
The recent adoption of model-based clustering has allowed practitioners to
model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model.
Our experimental analysis shows that incorporating partial supervision and
appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.
Orientador(es)
THIBAUT VICTOR GASTON VIDAL
Coorientador(es)
MICHEL GENDREAU
Banca
MARCO SERPA MOLINARO
Banca
MARCUS VINICIUS SOLEDADE POGGI DE ARAGAO
Banca
DANIEL ALOISE
Banca
THIBAUT VICTOR GASTON VIDAL
Banca
MICHEL GENDREAU
Banca
EMILIO CARRIZOSA PRIEGO
Catalogação
2021-09-09
Apresentação
2021-07-26
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54595@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54595@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.54595
Arquivos do conteúdo
NA ÍNTEGRA PDF