Spelling suggestions: "subject:"särdragsextraktion"" "subject:"särdragsextraktions""
1 |
Feature extraction with self-supervised learning on eye-tracking data from Parkinson’s patients and healthy individuals / Extrahering av särdrag med hjälp av självövervakande maskininlärning applicerad på ögonrörelsedata från parkinsonpatienter och friska försökspersoner.Bergman, Leo January 2022 (has links)
Eye-tracking is a method for monitoring and measuring eye movements. The technology has had a significant impact so far and new application areas are emerging. Today, the technology is used in the gaming industry, health industry, self-driving cars, and not least in medicine. In the latter, large research resources are invested to investigate the extent to which eye-tracking can help with disease diagnostics. One disease of interest is Parkinson’s disease, a neuro-degenerative disease in which the dopamine production in nerve cells is destroyed. This leads to detoriating nerve signal transmission, which in turn affects the motor skills. One of the affected motor functions associated with PD is the oculomotor function, affecting the eye function. The declination can be observed clinically by physicians, however eye-tracking technology has a high potential here, but it remains to investigate which methodology and which test protocols are relevant to study and to what extent the technology can be used as a diagnostic tool. A novel class of algorithms for finding representations of data is called self-supervised learning (SSL). The class of algorithms seems to have a high potential in terms of categorizing biomarkers. This thesis examines to which extent an SSL network can learn representations of eye-tracking data on Parkinson’s patients, in order to distinguish between healthy and sick, patients on and off medication. The result suggests that the network does not succeed in learning distinct differences between groups. Furthermore, no difference is observed in the result when we in the model take into account the task-specific target information that the subjects are following. Today in the UK approximately 26 percent of Parkinson’s patients are misdiagnosed. In the initial state of the disease, the misdiagnosis is even higher. Potentially, the method can be used as a complement to regular diagnosis in different stages of the disease. This would provide better conditions for the patient as well as for medical and pharmaceutical research. The method also has the potential to reduce physicians’ workload. / Eye-tracking eller ögonrörelsemätning som är den svenska termen, är en metod för att följa och mäta ögats rörelser. Tekniken har fått en betydande genomslagskraft hittills och nya applikationsområden dyker upp titt som tätt. Idag används tekniken inom spelindustrin, hälsa, i självkörande bilar och inte minst inom medicin. Inom det senare läggs idag stora forskningsresurser för att undersöka i vilken utsträckning eye-tracking kan hjälpa till att diagnosticera sjukdomar. En sjukdom av intresse är Parkinson’s sjukdom, vilket är en neurodegenerativ sjukdom där dopaminproduktionen i nervceller förstörs. Det leder till att transmissionen av nervsignaler försämras som i sin tur gör att motoriken påverkas vilket bland annat leder till en nedsättning i ögats motorik. Det är något som man idag kan observera kliniskt, eye-tracking teknik har här en hög potential men det återstår att undersöka vilken metodik och vilka testprotokoll som är relevanta att undersöka och i vilken grad tekniken kan användas som ett diagnostiskt verktyg. En ny typ av algoritmer för att hitta representationer av data kallas för self-supervised learning (SSL), dessa algoritmer verkar ha en hög potential vad gäller kategorisering av biomarkörer. I denna uppsats undersöks i vilken grad ett SSL-nätverk kan lära sig representationer av eye-tracking data på Parkinson’s patienter för att kunna särskilja mellan friska och sjuka, medicinerade och omedicinerade. Resultatet är att nätverket inte lyckas lära sig skiljaktigheter mellan dessa klasser. Vidare noteras ingen skillnad i resultatet då vi i modellen tar hänsyn till de specifika uppgifterna som försökspersonerna fått. Idag får 30 procent av parkinsonpatienterna fel diagnos. I ett initialt tillstånd av sjukdomen är feldiagnosticeringen ännu högre. Potentiellt kan metoden användas som komplement till diagnosticering i olika skeden av sjukdomen. Detta skulle ge bättre förutsättningar för såväl patienten som för den medicinska och farmaceutiska forskningen. Metoden har dessutom potential att minska läkares arbetsbörda.
|
2 |
Exploring the Use of Attention for Generation Z Fashion Style Recognition with User Annotations as Labels / Undersökande av uppmärksamhet för igenkänning av Generation Z:s klädstilar med användarannoteringar som träningsetiketterSamakovlis, Niki January 2023 (has links)
As e-commerce and online shopping have increased worldwide, the interest and research of intelligent fashion systems have expanded. Given the competitive nature of the fashion market business, digital marketplaces depend on determining customer preferences. The fashion preferences of the next generation of consumers, Generation Z, are highly discovered on social media, where new fashion styles have emerged. For digital marketplaces to gain the attraction of Generation Z consumers, an understanding of their fashion style preferences may be crucial. However, fashion style recognition remains challenging due to the subjective nature of fashion styles. Previous research has approached the task by fine-tuning pre-trained convolutional neural networks (CNNs). The disadvantage of this approach is that a CNN leveraged on its own fails to find subtle visual differences between clothing items. Hence, this thesis seeks to approach the clothing style recognition task as a fine-grained image recognition task by incorporating a component that allows the model to focus on specific parts of the input images, referred to as an attention mechanism, into the network. Specifically, a convolutional block attention module (CBAM) is added to a CNN. Based on the results, it is concluded that the fine-tuned CNN without the attention module achieves superior performance. In contrast, qualitative analysis conducted on GradCAM visualizations shows that the attention mechanism aids the CNN in capturing discriminative features, while the network without the attention module tends to make predictions based on dataset bias. For a fair comparison, future work should involve extending this research by refining the dataset or using an additional dataset. / I takt med att e-handel har ökat världen över har intresset och forskningen för intelligenta modesystem ökat. Modemarknadens konkurrenskraft har gjort digitala marknadsplatser beroende av att bestämma deras kunders preferenser. Modepreferenserna för nästa generations konsumenter, Generation Z, upptäcks ofta på sociala medier, där nya klädstilar har skapats. För att digitala marknadsplatser ska kunna locka Generation Z kan en förståelse för deras klädstilpreferenser vara avgörande. Igenkänning av klädstilar är dock fortfarande svårt på grund av klädtilars subjektiva natur. Tidigare forskning har finjusterat faltningsnätverk. Nackdelen med detta tillvägagångssätt är att ett faltningsnätverk som utnyttjas på egen hand inte lyckas hitta dem subtila visuella skillnader mellan klädesplagg. Därför definierar denna avhandling problemet som finkornig bildigenkänning genom att addera en komponent som gör att modellen kan fokusera på specifika delar av bilderna, kallad en uppmärksamhetsmekanism, i nätverket. Specifikt läggs en convolutional block attention module (CBAM) till i arkitekturen av ett faltningsnätverk. Baserat på resultaten dras slutsatsen att det finjusterade faltningsnätverket utan uppmärksamhetsmekanismen uppnår överlägsen prestanda. Däremot visar kvalitativ analys utförd på Grad-CAMvisualiseringar att uppmärksamhetsmekanismen hjälper faltningsnätverket att fokusera på de diskriminerande egenskaperna, medan nätverket utan uppmärksamhetsmekanismen tenderar att klassificera baserat på bias i inputdatan. För en rättvis jämförelse bör framtida arbete innebära ett förfinande av datamängden eller använda en ytterligare datamängd.
|
3 |
Analysis of Eye Tracking Data from Parkinson’s Patients using Machine LearningHöglund, Lucas January 2021 (has links)
Parkinson’s disease is a brain disorder associated with reduced dopamine levels in the brain, affecting cognition and motor control in the human brain. One of the motor controls that can be affected is eye movements and can therefore be critically affected in patients with Parkinson’s disease. Eye movement can be measured using eye trackers, and this data can be used for analyzing the eye movement characteristics in Parkinson’s disease. The eye movement analysis provides the possibility of diagnostics and can therefore lead to further insights into Parkinson’s disease. In this thesis, feature extraction of clinical relevance in diagnosing Parkinson’s patients from eye movement data is studied. We have used an autoencoder (AE) constructed to learn micro and macro-scaled representation for eye movements and constructed three different models. Learning of the AEs was evaluated using the F1 score, and differences were statistically assessed using the Wilcoxon sign rank test. Extracted features from data based on patients and healthy subjects were visualized using t-SNE. Using the extracted features, we have measured differences in features using cosine and Mahalanobis distances. We have furthermore clustered the features using fuzzy c-means. Qualities of the generated clusters were assessed by F1-score, fuzzy partition coefficient, Dunn’s index and silhouette index. Based on successful tests using a test data set of a previous publication, we believe that the network used in this thesis has learned to represent natural eye movement from subjects allowed to move their eye freely. However, distances, visualizations, clustering all suggest that latent representations from the autoencoder do not provide a good separation of data from patients and healthy subjects. We, therefore, conclude that a micro-macro autoencoder does not suit the purpose of generating a latent representation of saccade movements of the type used in this thesis. / Parkinsons sjukdom är en hjärnsjukdom orsakad av minskade dopaminnivåer i hjärnan, vilket påverkar kognition och motorisk kontroll i människans hjärna. En av de motoriska kontrollerna som kan påverkas är ögonrörelser och kan därför vara kritiskt påverkat hos patienter diagnostiserade med Parkinsons sjukdom. Ögonrörelser kan mätas med hjälp av ögonspårare, som i sin tur kan användas för att analysera ögonrörelsens egenskaper vid Parkinsons sjukdom. Ögonrörelseanalysen ger möjlighet till diagnostik och kan därför leda till ytterligare förståelse för Parkinsons sjukdom. I denna avhandling studeras särdragsextraktion av ögonrörelsedata med en klinisk relevans vid diagnos av Parkinsonpatienter. Vi har använt en autoencoder (AE) konstruerad för att lära sig mikro- och makrosackadrepresentation för ögonrörelser och konstruerat tre olika modeller. Inlärning av AE utvärderades med hjälp av F1-poängen och skillnader bedömdes statistiskt med hjälp av Wilcoxon rank test. Särdragsextraktionen visualiserades med t-SNE och med hjälp av resultatet ifrån särdragsextraktion har vi mätt skillnader med cosinus- och Mahalanobis- avstånd. Vi har dessutom grupperat resultatet ifrån särdragsextraktionen med fuzzy c-means. Kvaliteten hos de genererade klusterna bedömdes med F1- poäng, suddig fördelningskoefficient, Dunns index och silhuettindex.Sammanfattningsvis finner vi att en mikro-makro-autokodare inte passar syftet med att analysera konstgjorda ögonrörelsesdata. Vi tror att nätverket som används i denna avhandling har lärt sig att representera naturlig ögonrörelse ifrån en person som fritt får röra sina ögon.
|
4 |
Analysis of Brain Signals from Patients with Parkinson’s Disease using Self-Supervised Learning / Analys av hjärnsignaler från patienter med parkinsons sjukdom med hjälp av självövervakad inlärningLind, Emma January 2022 (has links)
Parkinson’s disease (PD) is one of the most common neurodegenerative brain disorders, commonly diagnosed and monitored via clinical examinations, which can be imprecise and lead to a delayed or inaccurate diagnosis. Therefore, recent research has focused on finding biomarkers by analyzing brain networks’ neural activity to find abnormalities associated with PD pathology. Brain signals can be measured using Magnetoencephalography (MEG) or Electroencephalogram (EEG), which have demonstrated their practical use in decoding neural activity. Nevertheless, interpreting and labeling human neural activity measured using MEG/EEG is yet a challenging task requiring vast of time and expertise. In addition, there is a risk of introducing bias or omitting important information not recognizable by humans. This thesis investigates whether it is possible to find meaningful features relevant to PD by uncovering the brain signals’ underlying structure using self-supervised learning (SSL), requiring no labels or hand-crafted features. Four experiments on one EEG and one MEG dataset were conducted to evaluate if the features found during the SSL were meaningful, including t-SNE, silhouette coefficient, Kolmogorov-Smirnov test, and classification performance. Additionally, transfer learning between the two datasets was tested. The SSL model, TS-TCC, was employed in this thesis due to its outstanding performance on two other EEGdatasets and its training efficiency. The evaluation of the EEG dataset inferred it was feasible to find meaningful features to distinguish PD from healthy controls to some extent using SSL. However, more investigations of reusing the features in a downstream task are needed. The evaluation of the MEG dataset did not reach the same satisfying result, the proposed reason, among others, was the amount of data. Lastly, transfer learning was unsuccessful in the setting of transforming knowledge from the EEG to the MEG dataset. / Parkinsons sjukdom är en av de mest förekommande neurodegenerativa hjärnsjukdomarna. Vanligtvis diagnostiseras och övervakas sjukdomen via kliniska undersökningar, dessa kan vara diffusa och leda till en fördröjd eller en felaktig diagnos. Den senaste forskning har därför fokuserat på att hitta nya biomarkörer, bland annat genom att analysera hjärnnätverkens neurala aktivitet för att hitta abnormiteter associerade med parkinsons patologi. Magnetoencefalografi (MEG) och elektroencefalogram (EEG) har visat sig vara bra tekniker för att avkoda neural aktivitet och kan därmed användas för att mäta hjärnsignaler. Dessvärre är det en utmanande uppgift att tolka och märka hjärnsignaler, det kräver mycket tid och expertis. Det finns också en risk att märkningen inte blir helt objektiv eller att viktig information som inte är upptäckbar av människor utelämnas. Denna avhandling undersöker om det är möjligt att hitta meningsfulla särdrag relevanta för parkinsons sjukdom medhjälp av självövervakad inlärning (SSL), som varken kräver etiketter eller handgjorda särdrag. För att utvärdera om särdragen funna av SSL är meningsfulla utfördes fyra experiment på ett EEG och ett MEG-dataset. Experimenten inkluderade tSNE, siluettkoefficienten, Kolmogorov-Smirnov-testet och klassificeringsprestanda. Dessutom utvärderades möjligheten att överföra särdrag mellan de två dataseten för att nå bättre resultat. TS-TCC användes som SSL modell i denna avhandling på grund av dess prestanda på två andra EEG-dataset och dess effektivitet när det kommer till träning. Utvärderingen av EEG-datat visade på att det var möjligt att hitta meningsfulla särdrag för att till viss del skilja patienter från friska kontroller. Däremot så behövs vidare undersökning av användandet av särdragen i en klassificerare. Utvärderingen av MEG-datat nådde inte samma tillfredsställande resultat; anledningen kan bland annat vara mängden data. Slutligen, det var inte möjligt att överföra särdrag mellan EEG och MEG-datat för att nå ett bättre resultat.
|
5 |
Robust Registration of ToF and RGB-D Camera Point Clouds / Robust registrering av punktmoln från ToF och RGB-D kameraChen, Shuo January 2021 (has links)
This thesis presents a comparison of M-estimator, BLAVE, and RANSAC method in point clouds registration. The comparison is performed empirically by applying all the estimators on a simulated data added with noise plus gross errors, ToF data and RGB-D data. The RANSAC method is the fastest and most robust estimator from the comparison. The 2D feature extracting methods Harris corner detector, SIFT and SURF and 3D extracting method ISS are compared in the real-world scene data as well. SIFT algorithm is proven to have extracted the most feature points with accurate features among all the extracting methods in different data. In the end, ICP algorithm is used to refine the registration result based on the estimation of initial transform. / Denna avhandling presenterar en jämförelse av tre metoder för registrering av punktmoln: M-estimator, BLAVE och RANSAC. Jämförelsen utfördes empiriskt genom att använda alla metoder på simulerad data med brus och grova fel samt på ToF - och RGB-D -data. Tester visade att RANSAC-metoden är den snabbaste och mest robusta metoden. Vi har även jämfört tre metoder för extrahering av features från 2D-bilder: Harris hörndetektor, SIFT och SURF och en 3D extraheringsmetod ISS. Denna jämförelse utfördes md hjälp av verkliga data. SIFT -algoritmen har visat sig fungera bäst bland alla extraheringsmetoder: den har extraherat flesta features med högst precision. I slutändan användes ICP-algoritmen för att förfina registreringsresultatet baserat på uppskattningen av initial transformering.
|
6 |
Identification of Fundamental Driving Scenarios Using Unsupervised Machine Learning / Identifiering av grundläggande körscenarier med icke-guidad maskininlärningAnantha Padmanaban, Deepika January 2020 (has links)
A challenge to release autonomous vehicles to public roads is safety verification of the developed features. Safety test driving of vehicles is not practically feasible as the acceptance criterion is driving at least 2.1 billion kilometers [1]. An alternative to this distance-based testing is the scenario-based approach, where the intelligent vehicles are exposed to known scenarios. Identification of such scenarios from the driving data is crucial for this validation. The aim of this thesis is to investigate the possibility of unsupervised identification of driving scenarios from the driving data. The task is performed in two major parts. The first is the segmentation of the time series driving data by detecting changepoints, followed by the clustering of the previously obtained segments. Time-series segmentation is approached using a Deep Learning method, while the second task is performed using time series clustering. The work also includes a visual approach for validating the time-series segmentation, followed by a quantitative measure of the performance. The approach is also qualitatively compared against a Bayesian Nonparametric approach to identify the usefulness of the proposed method. Based on the analysis of results, there is a discussion about the usefulness and drawbacks of the method, followed by the scope for future research. / En utmaning att släppa autonoma fordon på allmänna vägar är säkerhetsverifiering av de utvecklade funktionerna. Säkerhetstestning av fordon är inte praktiskt genomförbart eftersom acceptanskriteriet kör minst 2,1 miljarder kilometer [1]. Ett alternativ till denna distansbaserade testning är det scenaribaserade tillväga-gångssättet, där intelligenta fordon utsätts för kända scenarier. Identifiering av sådana scenarier från kördata är avgörande för denna validering. Syftet med denna avhandling är att undersöka möjligheten till oövervakad identifiering av körscenarier från kördata. Uppgiften utförs i två huvuddelar. Den första är segmenteringen av tidsseriedrivdata genom att detektera ändringspunkter, följt av klustring av de tidigare erhållna segmenten. Tidsseriesegmentering närmar sig med en Deep Learningmetod, medan den andra uppgiften utförs med hjälp av tidsseriekluster. Arbetet innehåller också ett visuellt tillvägagångssätt för att validera tidsserierna, följt av ett kvantitativt mått på prestanda. Tillvägagångssättet jämförs också med en Bayesian icke-parametrisk metod för att identifiera användbarheten av den föreslagna metoden. Baserat på analysen av resultaten diskuteras metodens användbarhet och nackdelar, följt av möjligheten för framtida forskning.
|
7 |
Classification of Affective Emotion in Musical Themes : How to understand the emotional content of the soundtracks of the movies?Diaz Banet, Paula January 2021 (has links)
Music is created by composers to arouse different emotions and feelings in the listener, and in the case of soundtracks, to support the storytelling of scenes. The goal of this project is to seek the best method to evaluate the emotional content of soundtracks. This emotional content can be measured quantitatively thanks to Russell’s model of valence, arousal and dominance which converts moods labels into numbers. To conduct the analysis, MFCCs and VGGish features were extracted from the soundtracks and used as inputs to a CNN and an LSTM model, in order to study which one achieved a better prediction. A database of 6757 number of soundtracks with their correspondent VAD values was created to perform the mentioned analysis. As an ultimate purpose, the results of the experiments will contribute to the start-up Vionlabs to understand better the content of the movies and, therefore, make a more accurate recommendation on what users want to consume on Video on Demand platforms according to their emotions or moods. / Musik skapas av kompositörer för att väcka olika känslor och känslor hos lyssnaren, och när det gäller ljudspår, för att stödja berättandet av scener. Målet med detta projekt är att söka den bästa metoden för att utvärdera det emotionella innehållet i ljudspår. Detta känslomässiga innehåll kan mätas kvantitativt tack vare Russells modell av valens, upphetsning och dominans som omvandlar stämningsetiketter till siffror. För att genomföra analysen extraherades MFCC: er och VGGish-funktioner från ljudspåren och användes som ingångar till en CNN- och en LSTM-modell för att studera vilken som uppnådde en bättre förutsägelse. En databas med totalt 6757 ljudspår med deras korrespondent acrshort VAD-värden skapades för att utföra den nämnda analysen. Som ett yttersta syfte kommer resultaten av experimenten att bidra till att starta upp Vionlabs för att bättre förstå innehållet i filmerna och därför ge mer exakta rekommendationer på Video on Demand-plattformar baserat på användarnas känslor eller stämningar.
|
Page generated in 0.3099 seconds