Spelling suggestions: "subject:"noise labels""
1 |
Towards the Safety and Robustness of Deep ModelsKarim, Md Nazmul 01 January 2023 (has links) (PDF)
The primary focus of this doctoral dissertation is to investigate the safety and robustness of deep models. Our objective is to thoroughly analyze and introduce innovative methodologies for cultivating robust representations under diverse circumstances. Deep neural networks (DNNs) have emerged as fundamental components in recent advancements across various tasks, including image recognition, semantic segmentation, and object detection. Representation learning stands as a pivotal element in the efficacy of DNNs, involving the extraction of significant features from data through mechanisms like convolutional neural networks (CNNs) applied to image data. In real-world applications, ensuring the robustness of these features against various adversarial conditions is imperative, thus emphasizing robust representation learning. Through the acquisition of robust representations, DNNs can enhance their ability to generalize to new data, mitigate the impact of label noise and domain shifts, and bolster their resilience against external threats, such as backdoor attacks. Consequently, this dissertation explores the implications of robust representation learning in three principal areas: i) Backdoor Attack, ii) Backdoor Defense, and iii) Noisy Labels.
First, we study the backdoor attack creation and detection from different perspectives. Backdoor attack addresses AI safety and robustness issues where an adversary can insert malicious behavior into a DNN by altering the training data. Second, we aim to remove the backdoor from DNN using two different types of defense techniques: i) training-time defense and ii) test-time defense. training-time defense prevents the model from learning the backdoor during model training whereas test-time defense tries to purify the backdoor model after the backdoor has already been inserted. Third, we explore the direction of noisy label learning (NLL) from two perspectives: a) offline NLL and b) online continual NLL. The representation learning under noisy labels gets severely impacted due to the memorization of those noisy labels, which leads to poor generalization. We perform uniform sampling and contrastive learning-based representation learning. We also test the algorithm efficiency in an online continual learning setup. Furthermore, we show the transfer and adaptation of learned representations in one domain to another domain, e.g. source free domain adaptation (SFDA). We study the impact of noisy labels under SFDA settings and propose a novel algorithm that produces state-of-the-art (SOTA) performance.
|
2 |
Semisupervised sentiment analysis of tweets based on noisy emoticon labelsSperiosu, Michael Adrian 02 February 2012 (has links)
There is high demand for computational tools that can automatically label tweets (Twitter messages) as having positive or negative sentiment, but great effort and expense would be required to build a large enough hand-labeled training corpus on which to apply standard machine learning techniques. Going beyond current keyword-based heuristic techniques, this paper uses emoticons (e.g. ':)' and ':(') to collect a large training set with noisy labels using little human intervention and trains a Maximum Entropy classifier on that training set. Results on two hand-labeled test corpora are compared to various baselines and a keyword-based heuristic approach, with the machine learned classifier significantly outperforming both. / text
|
3 |
Application and Performance Enhancement of Intelligent Cross-Domain Fault Diagnosis in Rotating MachineryAinapure, Abhijeet Narhar 22 September 2021 (has links)
No description available.
|
4 |
Machine Learning for Improving Detection of Cooling Complications : A case study / Maskininlärning för att förbättra detektering av kylproblemBruksås Nybjörk, William January 2022 (has links)
The growing market for cold chain pharmaceuticals requires reliable and flexible logistics solutions that ensure the quality of the drugs. These pharmaceuticals must maintain cool to retain the function and effect. Therefore, it is of greatest concern to keep these drugs within the specified temperature interval. Temperature controllable containers are a common logistic solution for cold chain pharmaceuticals freight. One of the leading manufacturers of these containers provides lease and shipment services while also regularly assessing the cooling function. A method is applied for detecting cooling issues and preventing impaired containers to be sent to customers. However, the method tends to miss-classify containers, missing some faulty containers while also classifying functional containers as faulty. This thesis aims to investigate and identify the dependent variables associated with the cooling performance, then Machine Learning will be performed for evaluating if recall and precision could be improved. An improvement could lead to faster response, less waste and even more reliable freight which could be vital for both companies and patients. The labeled dataset has a binary outcome (no cooling issues, cooling issues) and is heavily imbalanced since the containers have high quality and undergo frequent testing and maintenance. Therefore, just a small amount has cooling issues. After analyzing the data, extensive deviations were identified which suggested that the labeled data was misclassified. The believed misclassification was corrected and compared to the original data. A Random Forest classifier in combination with random oversampling and threshold tuning resulted in the best performance for the corrected class labels. Recall reached 86% and precision 87% which is a very promising result. A Random Forest classifier in combination with random oversampling resulted in the best score for the original class labels. Recall reached 77% and precision 44% which is much lower than the adjusted class labels but still displayed a valid result in context of the believed extent of misclassification. Power output variables, compressor error variables and standard deviation of inside temperature were found clear connection toward cooling complications. Clear links could also be found to the critical cases where set temperature could not be met. These cases could therefore be easily detected but harder to prevent since they often appeared without warning. / Den växande marknaden för läkemedel beroende av kylkedja kräver pålitliga och agila logistiska lösningar som försäkrar kvaliteten hos läkemedlen. Dessa läkemedel måste förbli kylda för att behålla funktion och effekt. Därför är det av största vikt att hålla läkemedlen inom det angivna temperaturintervallet. Temperaturkontrollerade containrar är en vanlig logistisk lösning vid kylkedjefrakt av läkemedel. En av de ledande tillverkarna av dessa containrar tillhandahåller uthyrning och frakttjänster av dessa medan de också regelbundet bedömer containrarnas kylfunktion. En metod används för att detektera kylproblem och förhindra skadade containrar från att nå kund. Dock så tenderar denna metod att missklassificera containrar genom att missa vissa containrar med kylproblem och genom att klassificera fungerande containrar som skadade. Den här uppsatsen har som syfte att identifiera beroende variabler kopplade mot kylprestandan och därefter undersöka om maskininlärning kan användas för att förbättra återkallelse och precisionsbetyg gällande containrar med kylproblem. En förbättring kan leda till snabbare respons, mindre resursslöseri och ännu pålitligare frakt vilket kan vara vitalt för både företag som patienter. Ett märkt dataset tillhandahålls och detta har ett binärt utfall (inga kylproblem, kylproblem). Datasetet är kraftigt obalanserat då containrar har en hög kvalité och genomgår frekvent testning och underhåll. Därför har enbart en liten del av containrarna kylproblem. Efter att ha analyserat datan så kunde omfattande avvikelser upptäckas vilket antydde på grov miss-klassificering. Den trodda missklassificeringen korrigerades och jämfördes med den originella datan. En Random Forest klassificerare i kombination med slumpmässig översampling och tröskeljustering gav det bästa resultatet för det korrigerade datasetet. En återkallelse på 86% och en precision på 87% nåddes, vilket var ett lovande resultat. En Random Forest klassificerare i kombination med slumpmässig översampling gav det bästa resultatet för det originella datasetet. En återkallelse på 77% och en precision på 44% nåddes. Detta var mycket lägre än det justerade datasetet men det presenterade fortfarande godkända resultat med åtanke på den trodda missklassificeringen. Variabler baserade på uteffekt, kompressorfel och standardavvikelse av innetemperatur hade tydliga kopplingar mot kylproblem. Tydliga kopplingar kunde även identifieras bland de kritiska fallen där temperaturen ej kunde bibehållas. Dessa fall kunde därmed lätt detekteras men var svårare att förhindra då dessa ofta uppkom utan förvarning.
|
5 |
Probabilistic Diagnostic Model for Handling Classifier Degradation in Machine LearningGustavo A. Valencia-Zapata (8082655) 04 December 2019 (has links)
Several studies point out different causes of performance degradation in supervised machine learning. Problems such as class imbalance, overlapping, small-disjuncts, noisy labels, and sparseness limit accuracy in classification algorithms. Even though a number of approaches either in the form of a methodology or an algorithm try to minimize performance degradation, they have been isolated efforts with limited scope. This research consists of three main parts: In the first part, a novel probabilistic diagnostic model based on identifying signs and symptoms of each problem is presented. Secondly, the behavior and performance of several supervised algorithms are studied when training sets have such problems. Therefore, prediction of success for treatments can be estimated across classifiers. Finally, a probabilistic sampling technique based on training set diagnosis for avoiding classifier degradation is proposed<br>
|
6 |
The effect of model calibration on noisy label detection / Effekten av modellkalibrering vid detektering av felmärkta bildetiketterJoel Söderberg, Max January 2023 (has links)
The advances in deep neural networks in recent years have opened up the possibility of using image classification as a valuable tool in various areas, such as medical diagnosis from x-ray images. However, training deep neural networks requires large amounts of annotated data which has to be labelled manually, by a person. This process always involves a risk of data getting the wrong label, either by mistake or ill will, and training a machine learning model on mislabelled images has a negative impact on accuracy. Studies have shown that deep neural networks are so powerful at memorization that if they train on mislabelled data, they will eventually overfit this data, meaning learning a data representation that does not fully mirror real data. It is therefore vital to filter out these images. Area under the margin is a method that filters out mislabelled images by observing the changes in a network’s predictions during training. This method does however not take into consideration the overconfidence in deep neural networks and the uncertainty of a model can give indications of mislabelled images during training. Calibrating the confidence can be done through label smoothing and this thesis aims to investigate if the performance of Area under the margin can be improved when combined with different smoothing techniques. The goal is to develop a better insight into how different types of label noise affects models in terms of confidence, accuracy and the impact it has depending on the dataset itself. Three different label smoothing techniques will be applied to evaluate how well they can mitigate overconfidence, prevent the model from memorizing the mislabelled samples and if this can improve the filtering process for the Area under the margin method. Results show when training on data with noise present, adding label smoothing improves accuracy, an indication of noise robustness. Label noise is seen to decrease confidence in the model and at the same time reduce the calibration. Adding label smoothing prevents this and allows the model to be more robust as the noise rate increases. In the filtering process, label smoothing was seen to prevent correctly labelled samples to be filtered and received a better accuracy at identifying the noise. This did not improve the classification results on the filtered data, indicating that it is more important to filter out as many mislabelled samples as possible even if this means filtering out correctly labelled images as well. The label smoothing methods used in this work was set up to preserve calibration, a future topic of research could be to adjust the hyperparameters to increase confidence instead, focusing on removing as much noise as possible. / De senaste årens framsteg inom djupa neurala nätverk har öppnat för möjligheten att använda bildklassificering som ett värdefullt verktyg inom olika områden, såsom medicinsk diagnos från röntgenbilder. Men att träna djupa neurala nätverk kräver stora mängder annoterad data som måste märkas antingen av människor eller datorer. Denna process involverar alltid med en risk för att data får fel etikett, antingen av misstag eller av uppsåt och att träna en maskininlärningsmodell på felmärkta bilder har negativ inverkan på resultatet. Studier har visat att djupa neurala nätverk är så kraftfulla att memorera att om de tränar på felmärkta data, kommer de så småningom att överanpassa dessa data, vilket betyder att de kommer att lära sig en representation som inte helt speglar verklig data. Det är därför viktigt att filtrera bort dessa bilder. Area under marginalen är en metod som filtrerar bort felmärkta bilder genom att observera förändringarna i ett nätverks beteende under träning. Denna metod tar dock inte hänsyn till översäkerhet i djupa neurala nätverk och osäkerheten i en modell kan ge indikationer på felmärkta bilder under träning. Kalibrering av förtroendet kan göras genom etikettutjämning och denna uppsats syftar till att undersöka om prestandan för Area under marginalen kan förbättras i kombination med olika tekniker för etikettutjämning. Målet är att utveckla en bättre insikt i hur olika typer av brusiga etiketter påverkar modeller när det gäller tillförlitlighet, noggrannhet och den påverkan det har beroende på själva datasetet. Tre olika tekniker för etikettutjämning kommer att tillämpas för att utvärdera hur väl de kan mildra översäkerheten, förhindra modellen från att memorera de felmärkta bilderna och om detta kan förbättra filtreringsprocessen för Area under marginalen-metoden. Resultaten visar att när man tränar på data innehållande felmärkt data, förbättrar etikettutjämning noggrannheten vilket indikerar på robusthet mot felmärkning. Felmärkning tycks minska säkerheten hos modellen och samtidigt minska kalibreringen. Att lägga till etikettutjämning förhindrar detta och gör att modellen blir mer robust när mängden brusiga etiketter ökar. I filtreringsprocessen sågs att etikettutjämning förhindrar att korrekt märkt data filtreras bort och fick en bättre noggrannhet vid identifiering av bruset. Detta förbättrade dock inte klassificeringsresultaten på den filtrerade datan, vilket indikerar att det är viktigare att filtrera bort så mycket felmärkta prover som möjligt även om detta innebär att filtrera bort korrekt märkta bilder. Metoderna för etikettutjämning som används i detta arbete sattes upp för att bevara kalibreringen, ett framtida forskningsämne kan vara att justera hyperparametrarna för att istället öka förtroendet, med fokus på att ta bort så mycket felmärkta etiketter som möjligt.
|
7 |
LaMOSNet: Latent Mean-Opinion-Score Network for Non-intrusive Speech Quality Assessment : Deep Neural Network for MOS Prediction / LaMOSNet: Latent Mean-Opinion-Score Network för icke-intrusiv ljudkvalitetsbedömning : Djupt neuralt nätverk för MOS prediktionCumlin, Fredrik January 2022 (has links)
Objective non-intrusive speech quality assessment aimed to emulate and correlate with human judgement has received more attention over the years. It is a difficult problem due to three reasons: data scarcity, noisy human judgement, and a potential uneven distribution of bias of mean opinion scores (MOS). In this paper, we introduce the Latent Mean-Opinion-Score Network (LaMOSNet) that leverage on individual judge’s scores to increase the data size, and new ideas to deal with both noisy and biased labels. We introduce a methodology called Optimistic Judge Estimation as a way to reduce bias in MOS in a clear way. We also implement stochastic gradient noise and mean teacher, ideas from noisy image classification, to further deal with noisy and uneven bias distribution of labels. We achieve competitive results on VCC2018 modeling MOS, and state-of-the-art modeling only listener dependent scores. / Objektiv referensfri ljudkvalitétsbedömning ämnad att härma och korrelera med mänsklig bedömning har fått mer uppmärksamhet med åren. Det är ett svårt problem på grund av tre anledningar: brist på data, varians i mänsklig bedömning, och en potentiell ojämn fördelning av bias av medel bedömningsvärde (mean opinion score, MOS). I detta papper introducerar vi Latent Mean-Opinion-Score Network (LaMOSNet) som tar nytta av individuella bedömmares poäng för att öka datastorleken, och nya idéer för att handskas med både varierande och partisk märkning. Jag introducerar en metodologi som kallas Optimistisk bedömmarestimering, ett sätt att minska partiskheten i MOS på ett klart sätt. Jag implementerar också stokastisk gradient variation och medellärare, idéer från opålitlig bild igenkänning, för att ännu mer hantera opålitliga märkningar. Jag får jämförelsebara resultat på VCC2018 när jag modellerar MOS, och state-of-the-art när jag modellerar enbart beömmarnas märkning.
|
Page generated in 0.0528 seconds