1 |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES / [pt] RDS - RECUPERANDO AMOSTRAS DESCARTADAS COM RÓTULOS RUIDOSOS: TÉCNICAS PARA TREINAMENTO DE MODELOS DE DEEP LEARNING COM AMOSTRAS RUIDOSASVITOR BENTO DE SOUSA 20 May 2024 (has links)
[pt] Modelos de Aprendizado Profundo para classificação de imagens alcançaram o
estado da arte em um vasto campo de aplicações. Entretanto, é frequente deparar-se com amostras ruidosas, isto é, amostras contendo rótulos incorretos, nos
conjuntos de dados provenientes de aplicações do mundo real. Quando modelos
de Aprendizado Profundo são treinados nestes conjuntos de dados, a sua
performance é prejudicada. Modelos do estado da arte, como Co-teaching+ e
Jocor, utilizam a técnica Small Loss Approach (SLA) para lidar com amostras
ruidosas no cenário multiclasse. Nesse trabalho, foi desenvolvido uma nova
técnica para lidar com amostras ruidosas, chamada Recovering Discarded
Samples (RDS), que atua em conjunto com a SLA. Para demostrar a eficácia da
técnica, aplicou-se o RDS nos modelos Co-teaching+ e Jocor resultando em dois
novos modelos RDS-C e RDS-J. Os resultados indicam ganhos de até 6 por cento nas
métricas de teste para ambos os modelos. Um terceiro modelo chamado RDS-Contrastive também foi desenvolvido, este modelo superou o estado da arte em
até 4 por cento na acurácia de teste. Além disso, nesse trabalho, expandiu-se a técnica
SLA para o cenário multilabel, sendo desenvolvido a técnica SLA Multilabel
(SLAM). Com essa técnica foi desenvolvido mais dois modelos para cenário
multilabel com amostras ruidosas. Os modelos desenvolvidos nesse trabalho para
multiclasse foram utilizados em um problema real de cunho ambiental. Os
modelos desenvolvidos para o cenário multilabel foram aplicados como solução
para um problema real na área de óleo e gás. / [en] Deep Learning models designed for image classification have consistently achieved state-of-the-art performance across a plethora of applications. However, the presence of noisy samples, i.e., instances with incorrect labels, is a prevalent challenge in datasets derived from real-world applications. The training of Deep Learning models on such datasets inevitably compromises their performance. State-of-the-art models, such as Co-teaching+ and Jocor, utilize the Small Loss Approach (SLA) technique to handle noisy samples in a multi-class scenario. In this work, a new technique named Recovering Discarded Samples (RDS) was developed to address noisy samples, working with SLA. To demonstrate the effectiveness of the technique, RDS was applied to the Co-teaching+ and Jocor models, resulting in two new models, RDS-C and RDS-J. The results indicate gains of up to 6 percent in test metrics for both models. A third model, named RDS-Contrastive, was also developed, surpassing the state-of-the-art by up to 4 percent in test accuracy. Furthermore, this work extended the SLA technique to the multilabel scenario, leading to the development of the SLA Multilabel (SLAM) technique. With this technique, two additional models for the multilabel scenario with noisy samples were developed. The models proposed in this work for the multiclass scenario were applied in a real-world environmental solution, while the models developed for the multilabel scenario were implemented as a solution for a real problem in the oil and gas industry.
|
Page generated in 0.0466 seconds