Spelling suggestions: "subject:"förstärkningsinlärning.""
1 |
Transfer learning applied to a deep learning system for cardiac abnormality classification in electrocardiograms / Överföringsinlärning tillämpad på ett system för djupinlärning för klassificering av hjärtfel i elektrokardiogram.Campoy Rodriguez, Adrian January 2022 (has links)
Cardiovascular diseases are a leading cause of death globally. Early diagnosis and treatment is of prime importance to prevent or mitigate health complications. Electrocardiogram (ECG) is a standard test modality used for early diagnosis of arrhythmias. The standard ECG uses 12 leads (i.e., 12 different views of the electrical activity of the heart). However, it is not always possible to perform a standard 12-lead ECG, for instance, in certain emergency situations. Such devices used in emergency situations are able to measure only a subset of leads. Although it is a simpler way of recording ECG, it comes at the cost of losing some information. The project presented in this thesis applies three different models based on canonical correlation analysis (CCA) to perform transfer learning from 12-lead ECGs to improve performance when only a subset of leads is available. The models used were linear canonical correlation analysis, deep canonical correlation analysis (DCCA) and deep canonically correlated bidirectional long short-term memory networks (DCC-BiLSTMs). These models are compared to each other using different configurations to study their performance on ECG data. Linear canonical correlation analysis performed better than its more complex variants, DCCA and DCC-BiLSTMs. With this method, it was possible to improve performance on ECG classification when using two, three, four and six leads in a computationally efficient way. / Hjärt- och kärlsjukdomar är den främsta dödsorsaken i världen. Tidig diagnos och behandling är av största vikt för att förhindra ytterligare och allvarliga hälsoproblem. Elektrokardiogram (EKG) är den standardmetod som används för tidig diagnos av arytmier. Standardförfarandet inom EKG använder sig av 12 avledningar (dvs. 12 olika vyer av hjärtats elektriska aktivitet). Det är dock inte alltid möjligt att utföra ett standard-EKG med 12 ledningar, vilket t.ex. förekommer i vissa nödsituationer. I dessa fall kan utrustning som gör det möjligt att ta fram ett 12-ledars EKG inte vara tillgänglig av flera olika skäl, och därför används andra apparater som kan mäta endast en delmängd av ledningarna för tidig diagnostik. Även om det är ett enklare sätt att utföra ett EKG, innebär det att man förlorar en del information. I det projekt som presenteras i detta dokument används tre olika modeller baserade på kanonisk korrelationsanalys (CCA) för att utföra överföringsinlärning från 12-ledars EKG för att förbättra prestanda när endast en delmängd av avledningar används. De modeller som användes var linjär kanonisk korrelationsanalys, djup kanonisk korrelationsanalys (DCCA) och djupa kanoniskt korrelerade bidirektionella långtidsminnesnätverk (DCCBiLSTMs). Dessa modeller jämförs med varandra med hjälp av olika konfigurationer för att studera deras prestanda på EKG-data. Linjär kanonisk korrelationsanalys presterade bättre än dess mer komplexa varianter, DCCA och DCC-BiLSTMs. Med denna metod var det möjligt att förbättra prestandan för klassificering av EKG när man använder två, tre, fyra och sex ledningar på ett beräkningseffektivt sätt.
|
2 |
Transfer learning techniques in time series analysisSablons de Gélis, Robinson January 2021 (has links)
Deep learning works best with vast andd well-distributed data collections. However, collecting and annotating large data sets can be very time-consuming and expensive. Moreover, deep learning is specific to domain knowledge, even with data and computation. E.g., models trained to classify animals would probably underperform when they classify vehicles. Although techniques such as domain adaptation and transfer learning have been popularised recently, tasks in cross-domain knowledge transfer have also taken off. However, most of these works are limited to computer vision. In the domain of time series, this is relatively underexplored. This thesis explores methods to use time series data from one domain to classify data generated from another domain via transfer learning. It focuses on using accelerometer data from running recordings to improve the classification performance on jumping data based on the apparent similarity of individual recordings. Thus, transfer learning and domain adaptation techniques were used to use the learning acquired through deep model training on running sequences. This thesis has performed four experiments to test this domain similarity. The first one consists of transforming time series with the continuous wavelet transform to get both time and frequency information. The model is then pre-trained within a contrastive learning framework. However, the continuous wavelet transformation (CWT) did not improve the classification results. The following two experiments consisted of pre-training the models with self-supervised learning. The first one with a contrastive pretext-task improved the classification results, and the resilience to data decrease. The second one with a forward forecasting pretext-task improved the results when all the data was available but was very sensitive to data decrease. Finally, the domain adaptation was tested and showed interesting performances on the classification task. Although some of the employed techniques did not show improvement, pre-training using contrastive learning on the running dataset has shown great improvement to classify the jumping dataset. / Djupinlärning fungerar bäst med stora och väl distribuerade datasamlingar. Det kan dock vara mycket tidskrävande och dyrt att samla in och kommentera stora datamängder. Även med alla data och beräkningar är djupinlärning specifik för domänkunskap. Exempelvis skulle modeller som tränats för att klassificera djur förmodligen underprestera när de klassificerar fordon. Även om tekniker som domänanpassning och överföringsinlärning har populariserats på senare tid, har även uppgifter inom kunskapsöverföring mellan olika domäner tagit fart. De flesta av dessa arbeten är dock begränsade till datorseende. Inom tidsseriernas område är detta relativt outforskat. I den här avhandlingen undersöks metoder för att använda tidsseriedata från en domän för att klassificera data från en annan domän med hjälp av djupinlärning. Fokus ligger på att använda accelerometerdata från löpning för att förbättra klassificeringen av hoppdata, baserat på den uppenbara likheten mellan löpning och hoppning. Således användes tekniker för överföringsinlärning och domänanpassning för att använda den inlärning som förvärvats genom träning av djupa modeller på löpsekvenser. I den här avhandlingen har fyra experiment utförts för att testa denna domänlikhet. Det första består av att omvandla tidsserier med den kontinuerliga wavelettransformen för att få fram både tids- och frekvensinformation. Modellen förtränas sedan inom en ram för kontrastiv inlärning. Användningen av CWT förbättrade dock inte klassificeringsresultaten. De följande två experimenten bestod av att förträna modellerna med självövervakad inlärning. Det första försöket med en kontrasterande förtextuppgift förbättrade klassificeringsresultaten och motståndskraften mot dataförlust. Det andra försöket med en prognostiserande förtextuppgift förbättrade resultaten när alla data var tillgängliga, men var mycket känslig för dataförlust. Slutligen testades domänanpassningen och visade intressanta resultat i klassificeringsuppgiften. Även om några av de använda teknikerna inte visade någon förbättring, har förträning med hjälp av kontrastinlärning på löpande dataset visat sig ge stora förbättringar när det gäller klassificering av hoppdata.
|
3 |
Using Mask R-CNN for Instance Segmentation of Eyeglass Lenses / Användning av Mask R-CNN för instanssegmentering av glasögonlinserNorrman, Marcus, Shihab, Saad January 2021 (has links)
This thesis investigates the performance of Mask R-CNN when utilizing transfer learning on a small dataset. The aim was to instance segment eyeglass lenses as accurately as possible from self-portrait images. Five different models were trained, where the key difference was the types of eyeglasses the models were trained on. The eyeglasses were grouped into three types, fully rimmed, semi-rimless, and rimless glasses. 1550 images were used for training, validation, and testing. The model's performances were evaluated using TensorBoard training data and mean Intersection over Union scores (mIoU). No major differences in performance were found in four of the models, which grouped all three types of glasses into one class. Their mIoU scores range from 0.913 to 0.94 whereas the model with one class for each group of glasses, performed worse, with a mIoU of 0.85. The thesis revealed that one can achieve great instance segmentation results using a limited dataset when taking advantage of transfer learning. / Denna uppsats undersöker prestandan för Mask R-CNN vid användning av överföringsinlärning på en liten datamängd. Syftet med arbetet var att segmentera glasögonlinser så exakt som möjligt från självporträttbilder. Fem olika modeller tränades, där den viktigaste skillnaden var de typer av glasögon som modellerna tränades på. Glasögonen delades in i 3 typer, helbåge, halvbåge och båglösa. Totalt samlades 1550 träningsbilder in, dessa annoterades och användes för att träna modellerna. Modellens prestanda utvärderades med TensorBoard träningsdata samt genomsnittlig Intersection over Union (IoU). Inga större skillnader i prestanda hittades mellan modellerna som endast tränades på en klass av glasögon. Deras genomsnittliga IoU varierar mellan 0,913 och 0,94. Modellen där varje glasögonkategori representerades som en unik klass, presterade sämre med en genomsnittlig IoU på 0,85. Resultatet av uppsatsen påvisar att goda instanssegmenteringsresultat går att uppnå med hjälp av en begränsad datamängd om överföringsinlärning används.
|
4 |
On the Efficiency of Transfer Learning in a Fighter Pilot Behavior Modelling Context / Effektiviteten av överföringsinlärning vid beteendemodellering av stridspiloterSandström, Viktor January 2021 (has links)
Creating realistic models of human fighter pilot behavior is made possible with recent deep learning techniques. However, these techniques are often highly dependent on large datasets, often unavailable in many settings, or expensive to produce. Transfer learning is an active research field where the idea is to leverage the knowledge gained from studying a problem for which large amounts of training data are more readily available, when considering a different, related problem. The related problem is called the target task and the initial problem is called the source task. Given a successful transfer scenario, a smaller amount of data, or less training, can be required to reach high quality results on the target task. The first part of this thesis focuses on the development of a fighter pilot model using behavior cloning, a method for reducing an imitation learning problem to standard supervised learning. The resulting model, called a policy, is capable of imitating a human pilot controlling a fighter jet in the military combat simulator Virtual BattleSpace 3. In this simulator, the forces acting on the aircraft can be modelled using one of several flight dynamic models (FDMs). In the second part, the efficiency of transfer learning is measured. This is done by replacing the built-in FDM to one with a significant variation in the input response, and subsequently train two policies on successive amount of data. One policy was trained using only the latter FDM, whereas the other policy exploits the gained knowledge from the first part of the thesis, using a technique called fine-tuning. The results indicate that a model already capable of handling one FDM, adapts to a different FDM with less data compared to a previously untrained policy. / Realistiska modeller av mänskligt pilotbeteende kan potentiellt skapas med djupinlärningstekniker. För detta krävs ofta stora datamängder som för många tillämpningar saknas, eller är dyra att ta fram. Överföringsinlärning är ett aktivt forskningsfält där grundidén är att utnyttja redan inlärd kunskap från ett problem där stora mängder träningsdata finns tillgängligt, vid undersökning av ett relaterat problem. Vid lyckad överföringinlärning behövs en mindre mängd data, eller mindre träning, för att uppnå ett önskvärt resultat på denna måluppgift. Första delen av detta examensarbete handlar om utvecklingen av en pilotmodell med hjälp av beteendekloning, en metod som reducerar imitationsinlärning till vanlig övervakad inlärning. Den resulterande pilotmodellen klarar av att imitera en mänsklig pilot som styr ett stridsflygplan i den militära simulatormiljön Virtual BattleSpace 3, där krafterna som verkar på flygplanet modelleras med en enkel inbyggd flygdynamiksmodell. I den andra delen av arbetet utvärderas överföringsförmågan mellan olika flygdynamiksmodeller. Detta gjordes genom att ersätta den inbyggda dynamiken till en dynamik som modellerar ett annat flygplan och som svarar på styrsignaler på ett vida olikartat sätt. Sedan tränades två stridspilotmodeller successivt på ökad mängd data. Den ena pilotmodellen tränas endast med den ena dynamiken varvid den andra pilotmodellen utnyttjar det redan inlärda beteendet från första delen av arbetet, med hjälp av en teknik som kallas finjustering. Resultaten visar att en pilotmodell som redan lärt sig att flyga med en specifik flygdynamik har lättare att lära sig en ny dynamik, jämfört med en pilotmodell som inte förtränats.
|
5 |
Using Reinforcement Learning to Correct Soft Errors of Deep Neural Networks / Använda Förstärkningsinlärning för att Upptäcka och Mildra Mjuka Fel i Djupa Neurala NätverkLi, Yuhang January 2023 (has links)
Deep Neural Networks (DNNs) are becoming increasingly important in various aspects of human life, particularly in safety-critical areas such as autonomous driving and aerospace systems. However, soft errors including bit-flips can significantly impact the performance of these systems, leading to serious consequences. To ensure the reliability of DNNs, it is essential to guarantee their performances. Many solutions have been proposed to enhance the trustworthiness of DNNs, including traditional methods like error correcting code (ECC) that can mitigate and detect soft errors but come at a high cost of redundancy. This thesis proposes a new method of correcting soft errors in DNNs using Deep Reinforcement Learning (DRL) and Transfer Learning (TL). DRL agent can learn the knowledge of identifying the layer-wise critical weights of a DNN. To accelerate the training time, TL is used to apply this knowledge to train other layers. The primary objective of this method is to ensure acceptable performance of a DNN by mitigating the impact of errors on it while maintaining low redundancy. As a case study, we tested the proposed method approach on a multilayer perception (MLP) and ResNet-18, and our results show that our method can save around 25% redundancy compared to the baseline method ECC while achieving the same level of performance. With the same redundancy, our approach can boost system performance by up to twice that of conventional methods. By implementing TL, the training time of MLP is shortened to around 81.11%, and that of ResNet-18 is shortened to around 57.75%. / DNNs blir allt viktigare i olika aspekter av mänskligt liv, särskilt inom säkerhetskritiska områden som autonom körning och flygsystem. Mjuka fel inklusive bit-flip kan dock påverka prestandan hos dessa system avsevärt, vilket leder till allvarliga konsekvenser. För att säkerställa tillförlitligheten hos DNNs är det viktigt att garantera deras prestanda. Många lösningar har föreslagits för att förbättra tillförlitligheten för DNNs, inklusive traditionella metoder som ECC som kan mildra och upptäcka mjuka fel men som har en hög kostnad för redundans. Denna avhandling föreslår en ny metod för att korrigera mjuka fel i DNN med DRL och TL. DRL-agenten kan lära sig kunskapen om att identifiera de lagermässiga kritiska vikterna för en DNN. För att påskynda träningstiden används TL för att tillämpa denna kunskap för att träna andra lager. Det primära syftet med denna metod är att säkerställa acceptabel prestanda för en DNN genom att mildra inverkan av fel på den samtidigt som låg redundans bibehålls. Som en fallstudie testade vi den föreslagna metodmetoden på en MLP och ResNet-18, och våra resultat visar att vår metod kan spara cirka 25% redundans jämfört med baslinjemetoden ECC samtidigt som vi uppnår samma prestationsnivå. Med samma redundans kan vårt tillvägagångssätt öka systemets prestanda med upp till dubbelt så högt som för konventionella metoder. Genom att implementera TL förkortas träningstiden för MLP till cirka 81.11%, och den för ResNet-18 förkortas till cirka 57.75%.
|
6 |
Investigating Few-Shot Transfer Learning for Address Parsing : Fine-Tuning Multilingual Pre-Trained Language Models for Low-Resource Address Segmentation / En Undersökning av Överföringsinlärning för Adressavkodning med Få Exempel : Finjustering av För-Tränade Språkmodeller för Låg-Resurs Adress SegmenteringHeimisdóttir, Hrafndís January 2022 (has links)
Address parsing is the process of splitting an address string into its different address components, such as street name, street number, et cetera. Address parsing has been quite extensively researched and there exist some state-ofthe-art address parsing solutions, mostly unilingual. In more recent years research has emerged which focuses on multinational address parsing and deep architecture address parsers have been used to achieve state-of-the-art performance on multinational address data. However, training these deep architectures for address parsing requires a rather large amount of address data which is not always accessible. Generally within Natural Language Processing (NLP) data is difficult to come by and most of the NLP data available consists of data from about only 20 of the approximately 7000 languages spoken around the world, so-called high-resource languages. This also applies to address data, which can be difficult to come by for some of the so-called low-resource languages of the world for which little or no NLP data exists. To attempt to deal with the lack of address data availability for some of the less spoken languages of the world, the current project investigates the potential of FewShot Learning (FSL) for multinational address parsing. To investigate this, two few-shot transfer learning models are implemented, both implementations consist of a fine-tuned pre-trained language model (PTLM). The difference between the two models is the PTLM used, which were the multilingual language models mBERT and XLM-R, respectively. The two PTLMs are finetuned using a linear classifier layer to then be used as multinational address parsers. The two models are trained and their results are compared with a state-of-the-art multinational address parser, Deepparse, as well as with each other. Results show that the two models do not outperform Deepparse, but they do show promising results, not too far from what Deepparse achieves on holdout and zero-shot datasets. On a mix of low- and high-resource language address data, both models perform well and achieve over 96% on the overall F1-score. Out of the two models used for implementation, XLM-R achieves significantly better results than mBERT and can therefore be considered the more appropriate PTLM to use for multinational FSL address parsing. Based on these results the conclusion is that there is great potential for FSL within the field of multinational address parsing and that general FSL methods can be used and perform well on multinational address parsing tasks. / Adressavkodning är processen att dela upp en adresssträng i dess olika adresskomponenter såsom gatunamn, gatunummer, et cetera. Adressavkodning har undersökts ganska omfattande och det finns några toppmoderna adressavkodningslösningar, mestadels enspråkiga. Senaste åren har forskning fokuserad på multinationell adressavkodning börjat dyka upp och djupa arkitekturer för adressavkodning har använts för att uppnå toppmodern prestation på multinationell adressdata. Att träna dessa arkitekturer kräver dock en ganska stor mängd adressdata, vilket inte alltid är tillgängligt. Det är generellt svårt att få tag på data inom naturlig språkbehandling och majoriteten av den data som är tillgänglig består av data från endast 20 av de cirka 7000 språk som används runt om i världen, så kallade högresursspråk. Detta gäller även för adressdata, vilket kan vara svårt att få tag på för vissa av världens så kallade resurssnåla språk för vilka det finns lite eller ingen data för naturlig språkbehandling. För att försöka behandla denna brist på adressdata för några av världens mindre talade språk undersöker detta projekt om det finns någon potential för inlärning med få exempel för multinationell adressavkodning. För detta implementeras två modeller för överföringsinlärning med få exempel genom finjustering av förtränade språkmodeller. Skillnaden mellan de två modellerna är den förtränade språkmodellen som används, mBERT respektive XLM-R. Båda modellerna finjusteras med hjälp av ett linjärt klassificeringsskikt för att sedan användas som multinationella addressavkodare. De två modellerna tränas och deras resultat jämförs med en toppmodern multinationell adressavkodare, Deepparse. Resultaten visar att de två modellerna presterar båda sämre än Deepparse modellen, men de visar ändå lovande resultat, inte långt ifrån vad Deepparse uppnår för både holdout och zero-shot dataset. Vidare, så presterar båda modeller bra på en blandning av adressdata från låg- och högresursspråk och båda modeller uppnår över 96% övergripande F1-score. Av de två modellerna uppnår XLM-R betydligt bättre resultat än mBERT och kan därför anses vara en mer lämplig förtränad språkmodell att använda för multinationell inlärning med få exempel för addressavkodning. Utifrån dessa resultat dras slutsatsen att det finns stor potential för inlärning med få exempel inom området multinationall adressavkodning, samt att generella metoder för inlärning med få exempel kan användas och preseterar bra på multinationella adressavkodningsuppgifter.
|
7 |
Neural maskinöversättning av gawarbati / Neural machine translation for GawarbatiGillholm, Katarina January 2023 (has links)
Nya neurala modeller har lett till stora framsteg inom maskinöversättning, men fungerar fortfarande sämre på språk som saknar stora mängder parallella data, så kallade lågresursspråk. Gawarbati är ett litet, hotat lågresursspråk där endast 5000 parallella meningar finns tillgängligt. Denna uppsats använder överföringsinlärning och hyperparametrar optimerade för små datamängder för att undersöka möjligheter och begränsningar för neural maskinöversättning från gawarbati till engelska. Genom att använda överföringsinlärning där en föräldramodell först tränades på hindi-engelska förbättrades översättningar med 1.8 BLEU och 1.3 chrF. Hyperparametrar optimerade för små datamängder ökade BLEU med 0.6 men minskade chrF med 1. Att kombinera överföringsinlärning och hyperparametrar optimerade för små datamängder försämrade resultatet med 0.5 BLEU och 2.2 chrF. De neurala modellerna jämförs med och presterar bättre än ordbaserad statistisk maskinöversättning och GPT-3. Den bäst presterande modellen uppnådde endast 2.8 BLEU och 19 chrF, vilket belyser begränsningarna av maskinöversättning på lågresursspråk samt det kritiska behovet av mer data. / Recent neural models have led to huge improvements in machine translation, but performance is still suboptimal for languages without large parallel datasets, so called low resource languages. Gawarbati is a small, threatened low resource language with only 5000 parallel sentences. This thesis uses transfer learning and hyperparameters optimized for small datasets to explore possibilities and limitations for neural machine translation from Gawarbati to English. Transfer learning, where the parent model was trained on parallel data between Hindi and English, improved results by 1.8 BLEU and 1.3 chrF. Hyperparameters optimized for small datasets increased BLEU by 0.6 but decreased chrF by 1. Combining transfer learning and hyperparameters optimized for small datasets led to a decrease in performance by 0.5 BLEU and 2.2 chrF. The neural models outperform a word based statistical machine translation and GPT-3. The highest performing model only achieved 2.8 BLEU and 19 chrF, which illustrates the limitations of machine translation for low resource languages and the critical need for more data. / VR 2020-01500
|
8 |
Efficient Sentiment Analysis and Topic Modeling in NLP using Knowledge Distillation and Transfer Learning / Effektiv sentimentanalys och ämnesmodellering inom NLP med användning av kunskapsdestillation och överföringsinlärningMalki, George January 2023 (has links)
This abstract presents a study in which knowledge distillation techniques were applied to a Large Language Model (LLM) to create smaller, more efficient models without sacrificing performance. Three configurations of the RoBERTa model were selected as ”student” models to gain knowledge from a pre-trained ”teacher” model. Multiple steps were used to improve the knowledge distillation process, such as copying some weights from the teacher to the student model and defining a custom loss function. The selected task for the knowledge distillation process was sentiment analysis on Amazon Reviews for Sentiment Analysis dataset. The resulting student models showed promising performance on the sentiment analysis task capturing sentiment-related information from text. The smallest of the student models managed to obtain 98% of the performance of the teacher model while being 45% lighter and taking less than a third of the time to analyze an entire the entire IMDB Dataset of 50K Movie Reviews dataset. However, the student models struggled to produce meaningful results on the topic modeling task. These results were consistent with the topic modeling results from the teacher model. In conclusion, the study showcases the efficacy of knowledge distillation techniques in enhancing the performance of LLMs on specific downstream tasks. While the model excelled in sentiment analysis, further improvements are needed to achieve desirable outcomes in topic modeling. These findings highlight the complexity of language understanding tasks and emphasize the importance of ongoing research and development to further advance the capabilities of NLP models. / Denna sammanfattning presenterar en studie där kunskapsdestilleringstekniker tillämpades på en stor språkmodell (Large Language Model, LLM) för att skapa mindre och mer effektiva modeller utan att kompremissa på prestandan. Tre konfigurationer av RoBERTa-modellen valdes som ”student”-modeller för att inhämta kunskap från en förtränad ”teacher”-modell. Studien mäter även modellernas prestanda på två ”DOWNSTREAM” uppgifter, sentimentanalys och ämnesmodellering. Flera steg användes för att förbättra kunskapsdestilleringsprocessen, såsom att kopiera vissa vikter från lärarmodellen till studentmodellen och definiera en anpassad förlustfunktion. Uppgiften som valdes för kunskapsdestilleringen var sentimentanalys på datamängden Amazon Reviews for Sentiment Analysis. De resulterande studentmodellerna visade lovande prestanda på sentimentanalysuppgiften genom att fånga upp information relaterad till sentiment från texten. Den minsta av studentmodellerna lyckades erhålla 98% av prestandan hos lärarmodellen samtidigt som den var 45% lättare och tog mindre än en tredjedel av tiden att analysera hela IMDB Dataset of 50K Movie Reviews datasettet.Dock hade studentmodellerna svårt att producera meningsfulla resultat på ämnesmodelleringsuppgiften. Dessa resultat överensstämde med ämnesmodelleringsresultaten från lärarmodellen. Dock hade studentmodellerna svårt att producera meningsfulla resultat på ämnesmodelleringsuppgiften. Dessa resultat överensstämde med ämnesmodelleringsresultaten från lärarmodellen.
|
9 |
Machine Learning for Automation of Chromosome based Genetic Diagnostics / Maskininlärning för automatisering av kromosombaserad genetisk diagnostikChu, Gongchang January 2020 (has links)
Chromosome based genetic diagnostics, the detection of specific chromosomes, plays an increasingly important role in medicine as the molecular basis of hu- man disease is defined. The current diagnostic process is performed mainly by karyotyping specialists. They first put chromosomes in pairs and generate an image listing all the chromosome pairs in order. This process is called kary- otyping, and the generated image is called karyogram. Then they analyze the images based on the shapes, size, and relationships of different image segments and then make diagnostic decisions. Manual inspection is time-consuming, labor-intensive, and error-prone.This thesis investigates supervised methods for genetic diagnostics on karyo- grams. Mainly, the theory targets abnormality detection and gives the confi- dence of the result in the chromosome domain. This thesis aims to divide chromosome pictures into normal and abnormal categories and give the con- fidence level. The main contributions of this thesis are (1) an empirical study of chromosome and karyotyping; (2) appropriate data preprocessing; (3) neu- ral networks building by using transfer learning; (4) experiments on different systems and conditions and comparison of them; (5) a right choice for our requirement and a way to improve the model; (6) a method to calculate the confidence level of the result by uncertainty estimation.Empirical research shows that the karyogram is ordered as a whole, so preprocessing such as rotation and folding is not appropriate. It is more rea- sonable to choose noise or blur. In the experiment, two neural networks based on VGG16 and InceptionV3 were established using transfer learning and com- pared their effects under different conditions. We hope to minimize the error of assuming normal cases because we cannot accept that abnormal chromo- somes are predicted as normal cases. This thesis describes how to use Monte Carlo Dropout to do uncertainty estimation like a non-Bayesian model[1]. / Kromosombaserad genetisk diagnostik, detektering av specifika kromosomer, kommer att spela en allt viktigare roll inom medicin eftersom den molekylära grunden för mänsklig sjukdom definieras. Den nuvarande diagnostiska pro- cessen utförs huvudsakligen av specialister på karyotypning. De sätter först kromosomer i par och genererar en bild som listar alla kromosompar i ord- ning. Denna process kallas karyotypning, och den genererade bilden kallas karyogram. Därefter analyserar de bilderna baserat på former, storlek och för- hållanden för olika bildsegment och fattar sedan diagnostiska beslut.Denna avhandling undersöker övervakade metoder för genetisk diagnostik på karyogram. Huvudsakligen riktar teorin sig mot onormal detektion och ger förtroendet för resultatet i kromosomdomänen. Manuell inspektion är tidskrä- vande, arbetskrävande och felbenägen. Denna uppsats syftar till att dela in kro- mosombilder i normala och onormala kategorier och ge konfidensnivån. Dess huvudsakliga bidrag är (1) en empirisk studie av kromosom och karyotyp- ning; (2) lämplig förbehandling av data; (3) Neurala nätverk byggs med hjälp av transfer learning; (4) experiment på olika system och förhållanden och jäm- förelse av dem; (5) ett rätt val för vårt krav och ett sätt att förbättra modellen; en metod för att beräkna resultatets konfidensnivå genom osäkerhetsupp- skattning. Empirisk forskning visar att karyogrammet är ordnat som en helhet, så förbehandling som rotation och vikning är inte lämpligt. Det är rimligare att välja brus, oskärpa etc. I experimentet upprättades två neurala nätverk base- rade på VGG16 och InceptionV3 med hjälp av transfer learning och jämförde deras effekter under olika förhållanden. När vi väljer utvärderingsindikatorer, eftersom vi inte kan acceptera att onormala kromosomer bedöms förväntas, hoppas vi att minimera felet att anta som vanligt. Denna avhandling beskriver hur man använder Monte Carlo Dropout för att göra osäkerhetsberäkningar som en icke-Bayesisk modell [1].
|
10 |
Leveraging Adult Fashion to Enhance Children’s Fashion RecognitionIgareta Herráiz, Angel Luis January 2021 (has links)
The future of the fashion industry is expected to be online, thus a significant amount of research is being conducted in the field of fashion image analysis. Currently, a task that places a heavy workload on online stores is manually tagging new garments, including attributes such as category, color, pattern, or style. To this end, extensive research has targeted the automatic prediction of clothing categories and attributes, achieving promising results. Nevertheless, no previous study has been found in the literature that specifically reflects the performance of clothing attribute recognition with children’s clothing. This work intends to fill this gap and effectively present, in the same fashion analysis task, how a model trained in adult fashion performs over a model trained exclusively in children’s fashion. When examining the global understanding of children’s fashion apparel, the experiments exhibit that the best performance is obtained when leveraging the domain knowledge of adult fashion, specifically from the iMaterialist dataset, wherein the best model a difference in the overall performance of about 3% was achieved compared to pre- training on the ImageNet dataset or 12% when only children’s fashion was considered for training. / Modebranschen förväntas i framtiden vara online, och därför bedrivs det mycket forskning inom området bildanalys av modebilder. En uppgift som för närvarande innebär en stor arbetsbörda för nätbutiker är att manuellt tagga nya plagg med attribut som kategori, färg, mönster eller stil. Därför har omfattande forskning genomförts om automatisk förutsägelse av klädkategorier och attribut, och man har uppnått lovande resultat. Trots detta har ingen tidigare studie hittats i litteraturen som specifikt speglar prestandan för igenkänning av klädattribut för barnkläder. Syftet med det här arbetet är att fylla denna lucka och, som en del i en analys av mode, på ett effektivt sätt visa hur en modell som tränats för vuxenmode presterar jämfört med en modell som enbart tränats för barnmode. När man undersöker den globala förståelsen för barnkläder visar experimenten att den bästa prestandan uppnås när man utnyttjar domänkunskapen om vuxenmode, särskilt från iMaterialist- dataset, där man med den bästa modellen uppnådde en skillnad i den totala prestandan på cirka 3% jämfört med förträning på ImageNet- dataset eller 12% när endast barnmode beaktades vid träningen.
|
Page generated in 0.1251 seconds