Maxwell Para Simples Indexação

Título
[en] DATA ENRICHMENT BASED ON SIMILARITY GRAPH STATISTICS TO IMPROVE PERFORMANCE IN CLASSIFICATION SUPERVISED ML MODELS

Título
[pt] ENRIQUECIMENTO DE DADOS COM BASE EM ESTATÍSTICAS DE GRAFO DE SIMILARIDADE PARA MELHORAR O DESEMPENHO EM MODELOS DE ML SUPERVISIONADOS DE CLASSIFICAÇÃO

Autor
[pt] NEY BARCHILON

Vocabulário
[pt] GRAFO

Vocabulário
[pt] APRENDIZADO DE MAQUINA

Vocabulário
[pt] REDES COMPLEXAS

Vocabulário
[pt] SIMILARIDADE

Vocabulário
[pt] PREDICAO

Vocabulário
[en] GRAPH

Vocabulário
[en] MACHINE LEARNING

Vocabulário
[en] COMPLEX NETWORKS

Vocabulário
[en] SIMILARITY

Vocabulário
[en] PREDICTION

Resumo
[pt] A otimização do desempenho dos modelos de aprendizado de máquina supervisionados representa um desafio constante, especialmente em contextos com conjuntos de dados de alta dimensionalidade ou com numerosos atributos correlacionados. Neste estudo, é proposto um método para o enriquecimento de conjuntos de dados tabulares, fundamentado na utilização de estatísticas provenientes de um grafo construído a partir da similaridade entre as instâncias presentes neste conjunto de dados, buscando capturar correlações estruturais entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto as conexões entre elas refletem sua similaridade. O conjunto de características originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG) na busca pela melhora do poder preditivo dos modelos de aprendizado de máquina. O método foi avaliado em dez conjuntos de dados públicos de distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos de aprendizado de máquina, comparando a predição sobre o conjunto de dados inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na métrica de acurácia, com um aprimoramento médio de aproximadamente 4,9 por cento. Além de sua flexibilidade para integração com outras técnicas de enriquecimento existentes, o método se apresenta como uma alternativa eficaz, sobretudo em situações em que os conjuntos de dados originais carecem das características necessárias para as abordagens tradicionais de enriquecimento com a utilização de grafo.

Resumo
[en] The optimization of supervised machine learning models performancerepresents a constant challenge, especially in contexts with high-dimensionaldatasets or numerous correlated attributes. In this study, we propose a methodfor enriching tabular datasets, based on the use of statistics derived from agraph constructed from the similarity between instances in the dataset, aimingto capture structural correlations among the data. Instances take on the role ofvertices in the graph, while connections between them reflect their similarity.The original feature set (FO) is enriched with statistics extracted from thegraph (FG) to enhance the predictive power of machine learning models. Themethod was evaluated on ten public datasets from different domains, in twodistinct scenarios, across seven machine learning models, comparing predictionon the initial dataset (FO) with the dataset enriched with statistics extractedfrom its graph (FO+FG). The results revealed significant improvements inaccuracy metrics, with an average enhancement of approximately 4.9 percent. Inaddition to its flexibility for integration with existing enrichment techniques,the method presents itself as a effective alternative, particularly in situationswhere original datasets lack the necessary characteristics for traditional graph-based enrichment approaches.

Orientador(es)
HELIO CORTES VIEIRA LOPES

Banca
HELIO CORTES VIEIRA LOPES

Banca
MARCOS KALINOWSKI

Banca
JEFRY SASTRE PEREZ

Catalogação
2024-09-19

Apresentação
2024-04-11

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68124@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68124@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.68124


Arquivos do conteúdo
NA ÍNTEGRA PDF