Global ETD Search

451	Supervised Learning for Prediction of Tumour Mutational Burden / Användning av statistisk inlärning för estimering av mutationsbörda Hargell, Joanna January 2021 (has links) Tumour Mutational Burden is a promising biomarker to predict response to immunotherapy. In this thesis, statistical methods of supervised learning were used to predict TMB: GLM, Decision Trees and SVM. Predictions were based on data from targeted DNA sequencing, using variants found in the exonic, intronic, UTR and intergenic regions of the human DNA. This project was of an exploratory nature, performed in a pan-cancer setting. Both regression and classification were considered. The purpose was to investigate whether variants found in these regions of the DNA sequence are useful when predicting TMB. Poisson regression and Negative binomial regression were used within the framework of GLM. The results indicated deficiencies in the model assumptions and that the use of GLM for the application is questionable. The single regression tree did not yield satisfactory prediction accuracy. However, performance was improved by using variance reducing methods such as bagging and random forests. The use of boosted regression trees did not yield any significant improvement in prediction accuracy. In the classification setting, binary as well as multiple classes were considered. The distinction between classes was based on commonly used thresholds in clinical care to achieve immunotherapy. SVM and classification trees yielded high prediction accuracy for the binary case: a misclassification rate of 0.0242 and 0 respectively for the independent test set. In the multiple classification setting, bagging and random forests were implemented, yet, did not improve performance over the single classification tree. SVM produced a misclassification rate of 0.103, and the corresponding number for the single classification tree was 0.109. It was concluded that SVM and Decision trees are suitable methods for predicting TMB based on targeted gene panels. However, to obtain reliable predictions, there is a need to move from a pan-cancer setting to a diagnosis-based setting. Furthermore, parameters affecting TMB, like pre-analytical factors need to be included in the statistical analysis. / Denna uppsats undersöker tre metoder inom statistisk inlärning: GLM, Decision Trees och SVM, med avsikt att förutsäga mutationsbörda, TMB, för cancerpatienter. Metoderna har applicerats både inom regression och klassificering. Förutsägelser gjordes baserat på data från panel-baserad DNA-sekvensering som innehåller varianter från kodande, introniska UTR och intergeniska regioner av mänskligt DNA. Projektet ämnar att undersöka om varianter från dessa regioner av DNA-sekvensen kan vara användbara för att förutsäga mutationsbördan för en patient. Poisson-regression och Negativ Binomial-regression undersöktes inom GLM. Resultaten indikerade på brister i modellerna och att GLM inte är lämplig för denna tillämpning. Regressionsträden gav inte tillräckligt noggranna förutsägelser, men implementering av bagging och random forests förbättrade modellernas prestanda. Boosting förbättrade inte resultaten. Inom klassificering användes både binära klasser och multipla klasser. Avgränsningen mellan klasser baserades på kända gränser för TMB inom vården för att få immunoterapi. SVM och decision trees gav god prestanda för binär klassificering, med ett klassificeringsfel på 0.024 för SVM och 0 för decision trees. Bagging och random forests implementerades för det multipla fallet inom decision trees, men förbättrade inte prestandan. För multipla klasser gav SVM ett klassificeringnsfel på 0.103 och decision trees 0.109. Både SVM och decision trees visade sig vara lämpliga metoder för för att förutse värdet på TMB. Däremot, för att förutsägelserna ska vara tillförlitliga finns det ett behov av att göra denna typ av analys för varje enskild cancerdiagnos. Dessutom finns det ett behov av att inkludera parametrar från den bioinformatiska processen i den statistiska analysen. Supervised Learning Tumour Mutational Burden Generalized Linear Models Decision trees Support Vector Machines statistik tillämpad matematik statistisk inlärning mutationsbörda Mathematics Matematik
452	Style Transfer Paraphrasing for Consistency Training in Sentiment Classification / Stilöverförande parafrasering för textklassificering med consistency training Casals, Núria January 2021 (has links) Text data is easy to retrieve but often expensive to classify, which is why labeled textual data is a resource often lacking in quantity. However, the use of labeled data is crucial in supervised tasks such as text classification, but semi-supervised learning algorithms have shown that the use of unlabeled data during training has the potential to improve model performance, even in comparison to a fully supervised setting. One approach to do semi-supervised learning is consistency training, in which the difference between the prediction distribution of an original unlabeled example and its augmented version is minimized. This thesis explores the performance difference between two techniques for augmenting unlabeled data used for detecting sentiment in movie reviews. The study examines whether the use of augmented data through neural style transfer paraphrasing could achieve comparable or better performance than the use of data augmented through back-translation. Five writing styles were used to generate the augmented datasets: Conversational Speech, Romantic Poetry, Shakespeare, Tweets and Bible. The results show that applying neural style transfer paraphrasing as a data augmentation technique for unlabeled examples in a semi-supervised setting does not improve the performance for sentiment classification with any of the styles used in the study. However, the use of style transferred augmented data in the semi-supervised approach generally performs better than using a model trained in a supervised scenario, where orders of magnitude more labeled data are needed and no augmentation is conducted. The study reveals that the experimented semi-supervised approach is superior to the fully supervised setting but worse than the semi-supervised approach using back-translation. / Textdata är lätt att få tag på men dyr att beteckna, vilket är varför annoterad textdata ofta inte finns i stora kvantiteter. Annoterad data är dock av yttersta vikt för övervakad inlärning, exempelvis för textklassificering, men semiövervakade inlärningsalgoritmer har visat att användandet av textdata utan annoteringar har potential att förbättra en inlärningsalgoritms resultat, även i jämförelse med helt övervakade algoritmer. Ett semi-övervakad inlärningsteknik är konsistensträning, där skillnaden mellan inferensen på en oförändrad datapunkt och en förändrar datapunkt minimeras. Denna uppsats utforskar skillnaden i resultat av att använda två olika tekniker för att förändra data som inte är annoterad för att detektera sentiment i filmrecensioner. Studien undersöker huruvida data förändrad via neural stilöverföring kan åstadkomma jämförbara eller bättre resultat i jämförelse med data förändrad genom tillbaka-översättning. Fem olika skrivstilar använda för att generera den förändrade datan: konversationellt tal, romantisk poesi, Shakespeare, Twitter-skrift samt Bibel. Resultaten visar att applicera neural stilöverföring på att förändra ej annoterade exempel för konsistensträning inte förbättrar resultaten i jämförelse med tillbaka-översättning. Semi-övervakad inlärning med stiltransferering presterar dock generellt bättre än en fullt övervakad, jämbördig algoritm som behöver flera magnituder fler annoteringar. Studien visar att den semiövervakade inlärningstekniken är bättre än den fullt övervakade modellen, men sämre än den semi-övervakade tekniken som använder tillbaka-översättning. Semi-Supervised Learning Data Augmentation Sentiment Classification Neural Paraphrasing Semi-övervakad inlärning Data förändring Sentimentklassificering Neural parafrasering Computer and Information Sciences Data- och informationsvetenskap
453	A Machine Learning Approach to the analysis of mortality in patients with cardiovascular diseases Aldamiz Orcajo, Juan Miguel January 2021 (has links) Cardiovascular diseases (CVDs) are the main cause of mortality worldwide, counting for a third of world demises. Consequently, early detection and underlying factors of these pathologies can play a critical role in successful treatments. Many researchers have applied machine learning (ML) for mortality risk estimation in CVDs. However, this is difficult due to their complex and multifactorial nature and the lack of large, unbiased data collections. This thesis holds statistical analysis results and a binary classification model for CVDs mortality prediction based on the ESCARVAL-RISK study, a large cohort study (54,678 patients) running from January 2008 until December 2012. This study faces highly imbalanced classes that may lead to classification models with low specificity and sensitivity. This work proposes several ways to balance classes, including hyperparameter optimization and sample techniques tested over 15 different classification algorithms to overcome the problem. While the specificity is low, the proposed approach using SHapley Additive exPlanations (SHAP) identifies factors that may be optimal targets for intensified preventive interventions. / Kardiovaskulära sjukdomar är den främsta dödsorsaken i världen och står för en tredjedel av alla dödsfall i världen. Därför kan tidig upptäckt och underliggande faktorer för dessa sjukdomar spela en avgörande roll för framgångsrika behandlingar. Många forskare har tillämpat maskininlärning (ML) för uppskattning av dödlighetsrisker vid hjärt- och kärlsjukdomar. Detta är dock svårt på grund av deras komplexa och multifaktoriella natur och bristen på stora, opartiska datainsamlingar. Denna avhandling innehåller statistiska analysresultat och en binär klassificeringsmodell för att förutsäga dödligheten i hjärt- och kärlsjukdomar baserat på ESCARVAL-RISK-studien, en stor kohortstudie (54 678 patienter) som pågick från januari 2008 till december 2012. I studien finns mycket obalanserade klasser som kan leda till klassificeringsmodeller med låg specificitet och känslighet. I detta arbete föreslås flera sätt att balansera klasserna, inklusive optimering av hyperparametrar och provtagningstekniker som testats över 15 olika klassificeringsalgoritmer för att lösa problemet. Även om specificiteten är låg identifierar den föreslagna metoden med hjälp av SHapley Additive exPlanations(SHAP) faktorer som kan vara optimala mål för intensifierade förebyggande insatser. Computer and Information Sciences Data- och informationsvetenskap
454	Semi-supervised adverse drug reaction detection / Halvvägledd upptäckt av läkemedelsreleterade biverkningar Ohl, Louis January 2021 (has links) Pharmacogivilance consists in carefully monitoring drugs in order to re-evaluate their risk for people’s health. The sooner the Adverse Drug Reactions are detected, the sooner one can act consequently. This thesis aims at discovering such reactions in electronical health records under the constraint of lacking annotated data, in order to replicate the scenario of the Regional Center for Pharmacovigilance of Nice. We investigate how in a semi-supervised learning design the unlabeled data can contribute to improve classification scores. Results suggest an excellent recall in discovering adverse reactions and possible classification improvements under specific data distribution. / Läkemedelsövervakningen består i kolla försiktigt läkemedlen så att utvärdera dem för samhällets hälsa. Ju tidigare de läkemedelsrelaterade biverkningarna upptäcks, desto tidigare man får handla dem. Detta exjobb söker att upptäcka de där läkemedelsrelaterade biverkningarnna inom elektroniska hälsopost med få datamärkningar, för att återskapa Nice regionalt läkemedelelsöveraknings-centrumets situationen. Vi undersöker hur en halvväglett lärande lösning kan hjälpa att förbättra klassificeringsresultat. Resultaten visar en god återställning med biverknings-upptäckning och möjliga förbättringar. Semi-supervised learning Text Classification Adverse Drug Reaction Expectation Maximization Natural Language Processing Halvväglett lärande Text klassificering Läkemedelsrelaterade biverkningar Naturlig språkbehandling Computer Sciences Datavetenskap (datalogi)
455	Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv Objektdetektering Berta, Benjamin István January 2021 (has links) Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk. Self-supervised Learning Object Detection Computer Vision Contrastive Learning Deep Learning Självövervakat lärande Objektdetektering Datorsyn Contrastive Learning Deep Learning Computer and Information Sciences Data- och informationsvetenskap
456	An Industrial Application of Semi-supervised techniques for automatic surface inspection of stainless steel. : Are pseudo-labeling and consistency regularization effective in a real industrial context? Zoffoli, Mattia January 2022 (has links) Recent developments in the field of Semi-Supervised Learning are working to avoid the bottleneck of data labeling. This can be achieved by leveraging unlabeled data to limit the amount of labeled data needed for training deep learning models. Semi-supervised learning algorithms are showing promising results; however, research has been focusing on algorithm development, without proceeding to test their effectiveness in real-world applications. This research project has adapted and tested some semi-supervised learning algorithms on a dataset extracted from the manufacturing en-vironment, in the context of the surface analysis of stainless steel, in collaboration with Outokumpu Stainless Oy. In particular, a simple algorithm combining Pseudo-Labeling and Consistency Regularization has been developed, inspired by the state-of-the-art algorithm Fix match. The results show some potential, because the usage of Semi-Supervised Learning techniques has significantly reduced overfitting on the training set, while maintaining a good accuracy on the test set. However, some doubts are raised regarding the application of these techniques in a real environment, due to the imperfect nature of real datasets and the high algorithm development cost due to the increased complexity introduced with these methods. / Den senaste utvecklingen inom området Semi-Supervised Learning arbetarför att undvika flaskhalsen med datamärkning. Detta kan uppnås genom att utnyttja omärkta data för att begränsa mängden märkt data som behövs för att träna modeller för djupinlärning. Semi-övervakade inlärningsalgoritmer visarlovande resultat; forskning har dock fokuserat på algoritmutveckling, utan att testa deras effektivitet i verkliga tillämpningar. Detta forskningsprojekt har anpassat och testat några semi-övervakade in-lärningsalgoritmer på en datauppsättning extraherad från tillverkningsmiljön, i samband med ytanalys av rostfritt stål, i samarbete med Outokumpu Stainless Oy. I synnerhet har en enkel algoritm som kombinerar Pseudo-Labeling och Consistency Regularization utvecklats, inspirerad av den toppmoderna algoritmen Fixmatch .Resultaten visar en viss potential, eftersom användningen av Semi-Supervised Learning-tekniker avsevärt har minskat överanpassningen av träningssetet, samtidigt som en god noggrannhet på testsetet bibehålls. Vissa tvivel reses dock angående tillämpningen av dessa tekniker i en verklig miljö, på grund av den ofullkomliga karaktären hos riktiga datauppsättningar och den höga algoritmutvecklingskostnaden på grund av den ökade komplexiteten som introduceras med dessa metoder. Deep Learning Computer Vision Semi-Supervised Learning Automatic Inspection Stainless Steel Djupt lärande datorseende Semi-övervakat lärande Automatisk inspektion Rostfritt stål Computer and Information Sciences Data- och informationsvetenskap
457	Automated Multimodal Emotion Recognition / Automatiserad multimodal känsloigenkänning Fernández Carbonell, Marcos January 2020 (has links) Being able to read and interpret affective states plays a significant role in human society. However, this is difficult in some situations, especially when information is limited to either vocal or visual cues. Many researchers have investigated the so-called basic emotions in a supervised way. This thesis holds the results of a multimodal supervised and unsupervised study of a more realistic number of emotions. To that end, audio and video features are extracted from the GEMEP dataset employing openSMILE and OpenFace, respectively. The supervised approach includes the comparison of multiple solutions and proves that multimodal pipelines can outperform unimodal ones, even with a higher number of affective states. The unsupervised approach embraces a traditional and an exploratory method to find meaningful patterns in the multimodal dataset. It also contains an innovative procedure to better understand the output of clustering techniques. / Att kunna läsa och tolka affektiva tillstånd spelar en viktig roll i det mänskliga samhället. Detta är emellertid svårt i vissa situationer, särskilt när information är begränsad till antingen vokala eller visuella signaler. Många forskare har undersökt de så kallade grundläggande känslorna på ett övervakat sätt. Det här examensarbetet innehåller resultaten från en multimodal övervakad och oövervakad studie av ett mer realistiskt antal känslor. För detta ändamål extraheras ljud- och videoegenskaper från GEMEP-data med openSMILE respektive OpenFace. Det övervakade tillvägagångssättet inkluderar jämförelse av flera lösningar och visar att multimodala pipelines kan överträffa unimodala sådana, även med ett större antal affektiva tillstånd. Den oövervakade metoden omfattar en konservativ och en utforskande metod för att hitta meningsfulla mönster i det multimodala datat. Den innehåller också ett innovativt förfarande för att bättre förstå resultatet av klustringstekniker. Multimodal Machine Learning Emotion Recognition Supervised Learning Unsupervised Learning Multimodal Maskininlärning Känsloigenkänning Övervakad Inlärning Oövervakad Inlärning Computer and Information Sciences Data- och informationsvetenskap
458	Representation Learning for Modulation Recognition of LPI Radar Signals Through Clustering / Representationsinlärning för modulationsigenkänning av LPI-radarsignaler genom klustring Grancharova, Mila January 2020 (has links) Today, there is a demand for reliable ways to perform automatic modulation recognition of Low Probability of Intercept (LPI) radar signals, not least in the defense industry. This study explores the possibility of performing automatic modulation recognition on these signals through clustering and more specifically how to learn representations of input signals for this task. A semi-supervised approach using a bootstrapped convolutional neural network classifier for representation learning is proposed. A comparison is made between training the representation learner on raw time-series and on spectral representations of the input signals. It is concluded that, overall, the system trained on spectral representations performs better, though both approaches show promise and should be explored further. The proposed system is tested both on known modulation types and on previously unseen modulation types in the task of novelty detection. The results show that the system can successfully identify known modulation types with adjusted mutual information of 0.86 for signal-to-noise ratios ranging from -10 dB to 10 dB. When introducing previously unseen modulations, up to six modulations can be identified with adjusted mutual information above 0.85. Furthermore, it is shown that the system can learn to separate LPI radar signals from telecom signals which are present in most signal environments. / Idag finns ett behov av pålitlig automatiserad modulationsigenkänning (AMR) av Low Probability of Inercept (LPI)-radarsignaler, inte minst hos försvarsindustrin. Denna studie utforskar möjligheten att utföra AMR av dessa signaler genom klustring och mer specifikt hur man bör lära in representationer av signalerna i detta syfte. En halvövervakad inlärningsmetod som använder en klassificerare baserad på faltningsnätverk föreslås. En jämförelse görs mellan ett system som tränar för representationsinlärning på råa tidsserier och ett system som tränar på spektrala representationer av signalerna. Resultaten visar att systemet tränat på spektrala representationer på det stora hela presterar bättre, men båda metoderna visar lovande resultat och bör utforskas vidare. Systemet testas på signaler från både kända och för systemet tidigare okända modulationer i syfte att pröva förmågan att upptäcka nya typer av modulationer. Systemet identifierar kända modulationer med adjusted mutual information på 0.86 i brusnivåer från -10 dB till 10 dB. När tidigare okända modulationer introduceras till systemet ligger adjusted mutual information över 0.85 för upp till sex modulationer. Studien visar dessutom att systemet kan lära sig skilja LPI-radarsignaler från telekommunikationssignaler som är vanliga i de flesta signalmiljöer. Clustering Representation Learning Semi-Supervised Learning Low Probability of Intercept Radar Automatic Modulation Recognition Klustring semiövervakad inlärning representationsinlärning Low Probability of Intercept radar automatiserad modulationsigenkänning Computer and Information Sciences Data- och informationsvetenskap
459	Deep Learning for Prediction of Falling Blood Pressure During Surgery : Prediction of Falling Blood Pressure Zandpour, Navid January 2022 (has links) Perioperative hypotension corresponds to critically low blood pressure events during the pre, intra and postoperative periods. It is a common side effect of general anaesthesia and is strongly associated with an increased risk of postoperative complications, such as acute kidney injury, myocardial injury and in the worst case death. Early treatment of hypotension, preferably even before onset, is crucial in order to reduce the risk and severity of its associated complications. This work explores methods for predicting the onset of hypotension which could serve as a warning mechanism for clinicians managing the patient’s hemodynamics. More specifically, we present methods using only the arterial blood pressure curve to predict two different definitions of hypotension. The presented methods are based on a Convolutional Neural Network (CNN) trained on data from patients undergoing high-risk surgery. The experimental results show that our network can predict hypotension with 70% sensitivity and 80% specificity 5 minutes before onset. The prediction performance is then quickly reduced for longer prediction times, resulting in 60% sensitivity and 80% specificity 15 minutes before onset. / Perioperativ hypotension motsvarar perioder av kritiskt lågt blodtryck före, under och efter operation. Det är en vanlig bieffekt av generell anestesi och är starkt associerad med ökat risk av postoperativa komplikationer, så som akut leverskada, myokardskada och i värsta fall dödsfall. Tidig behandling av hypotension, helst innan perioden börjar, är avgörande för att minska risken och allvarlighetsgraden av postoperativa komplikationer. Det här arbetet utforskar metoder för att förutspå perioder av hypotension, vilket skulle kunna används för att varna vårdpersonal som ansvarar för patientens hemodynamiska övervakning. Mer specifikt så presenteras metoder som endast använder artärblodtryck för att förutspå två olika definitioner av hypotension. Metoderna som presenteras är baserade på ett Convolutional Neural Network (CNN) som tränats på data från patienter som genomgår högriskoperation. De experementella resultaten visar att våran modell kan förutspå hypotension med 70% sensitivitet och 80% specificitet 5 minuter i förväg. Förmågan att förutspå hypotension avtar sedan snabbt för längre prediktionstider, vilket resulterar i 60% sensitivitet och 80% specificitet 15 minuter i förväg. Arterial Blood Pressure Convolutional Neural Network Supervised Learning Hypotension Prediction Arteriellt Blodtryck Faltningsnätverk Övervakad Inlärning Hypotension Prediktion Elektroteknik och elektronik
460	Generic Encrypted Traffic Identification using Network Grammar : A Case Study in Passive OS Fingerprinting / Generisk Krypterad Trafikidentifiering med Nätverksgrammatik : En fallstudie i passiv osfingeravtryck Rajala, Lukas, Scott, Kevin January 2022 (has links) The increase in cybercrime and cyber-warfare has spurred the cat-and-mouse game of finding and attacking vulnerable devices on government or private company networks. The devices attacked are often forgotten computers that run operating systems with known exploits. Finding these devices are crucial for both an attacker and defender since they may be the only weak link on the network. Device discovery on a network using probing or active fingerprinting methods results in extra traffic on the network, which may strain fragile networks and generates suspect traffic that may get flagged as intrusive. Using passive OS fingerprinting allows an actor to listen in and classify active devices on a network. This thesis shows the features that can be exploited for OS fingerprinting and discusses the importance of TLS payload and time-based features. We also present a data collection strategy that could be utilized for simulating multiple OSs and collecting new datasets. We found that the TLS attributes such as cipher suites play an important role in distinguishing between OS versions. Passive OS Fingerprinting Encrypted Traffic Identification Automated Traffic Analysis Machine Learning Supervised Learning Networks Packet Classification Security and Privacy Computer Sciences Datavetenskap (datalogi)

Search results