Return to search

[en] DATA ENRICHMENT BASED ON SIMILARITY GRAPH STATISTICS TO IMPROVE PERFORMANCE IN CLASSIFICATION SUPERVISED ML MODELS / [pt] ENRIQUECIMENTO DE DADOS COM BASE EM ESTATÍSTICAS DE GRAFO DE SIMILARIDADE PARA MELHORAR O DESEMPENHO EM MODELOS DE ML SUPERVISIONADOS DE CLASSIFICAÇÃO

[pt] A otimização do desempenho dos modelos de aprendizado de máquina
supervisionados representa um desafio constante, especialmente em contextos
com conjuntos de dados de alta dimensionalidade ou com numerosos atributos
correlacionados. Neste estudo, é proposto um método para o enriquecimento
de conjuntos de dados tabulares, fundamentado na utilização de estatísticas
provenientes de um grafo construído a partir da similaridade entre as instâncias
presentes neste conjunto de dados, buscando capturar correlações estruturais
entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto
as conexões entre elas refletem sua similaridade. O conjunto de características
originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG)
na busca pela melhora do poder preditivo dos modelos de aprendizado de
máquina. O método foi avaliado em dez conjuntos de dados públicos de
distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos
de aprendizado de máquina, comparando a predição sobre o conjunto de dados
inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas
do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na
métrica de acurácia, com um aprimoramento médio de aproximadamente
4,9 por cento. Além de sua flexibilidade para integração com outras técnicas de
enriquecimento existentes, o método se apresenta como uma alternativa eficaz,
sobretudo em situações em que os conjuntos de dados originais carecem das
características necessárias para as abordagens tradicionais de enriquecimento
com a utilização de grafo. / [en] The optimization of supervised machine learning models performancerepresents a constant challenge, especially in contexts with high-dimensionaldatasets or numerous correlated attributes. In this study, we propose a methodfor enriching tabular datasets, based on the use of statistics derived from agraph constructed from the similarity between instances in the dataset, aimingto capture structural correlations among the data. Instances take on the role ofvertices in the graph, while connections between them reflect their similarity.The original feature set (FO) is enriched with statistics extracted from thegraph (FG) to enhance the predictive power of machine learning models. Themethod was evaluated on ten public datasets from different domains, in twodistinct scenarios, across seven machine learning models, comparing predictionon the initial dataset (FO) with the dataset enriched with statistics extractedfrom its graph (FO+FG). The results revealed significant improvements inaccuracy metrics, with an average enhancement of approximately 4.9 percent. Inaddition to its flexibility for integration with existing enrichment techniques,the method presents itself as a effective alternative, particularly in situationswhere original datasets lack the necessary characteristics for traditional graph-based enrichment approaches.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:68124
Date19 September 2024
CreatorsNEY BARCHILON
ContributorsHELIO CORTES VIEIRA LOPES
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0026 seconds