1 |
Structural Comparison of Data Representations Obtained from Deep Learning Models / Strukturell Jämförelse av Datarepresentationer från DjupinlärningsmodellerWallin, Tommy January 2022 (has links)
In representation learning we are interested in how data is represented by different models. Representations from different models are often compared by training a new model on a downstream task using the representations and testing their performance. However, this method is not always applicable and it gives limited insight into the representations. In this thesis, we compare natural image representations from classification models and the generative model BigGAN using two other approaches. The first approach compares the geometric clustering of the representations and the second approach compares if the pairwise similarity between images is similar between different models. All models are large pre-trained models trained on ImageNet and the representations are taken as middle layers of the neural networks. A variety of experiments are performed using these approaches. One of the main results of this thesis shows that the representations of different classes are geometrically separated in all models. The experiments also show that there is no significant geometric difference between representations from training data and representations from validation data. Additionally, it was found that the similarity of representations between different models was approximately the same between the classification models AlexNet and ResNet as well as between the classification models and the BigGAN generator. They were also approximately equally similar to each other as they were to the class embedding of the BigGAN generator. Along with the experiment results, this thesis also provide several suggestions for future work in representation learning since a large number of research questions were explored. / Detta verk studerar representationer från artificiella neuronnät. Representationerna tas som värdena på ett lager i mittendelen av neuronnätet. Eftersom dessa representationer har flera olika användningsområden är syftet att jämföra dem från olika modeller. Ofta jämförs representationer genom att testa hur bra de är som input till en ny modell med ett nytt mål; alltså hur bra representationerna är att använda inom “transfer learning”. Denna metod ger begränsad information om representationerna och är inte alltid applicerbar. Detta verk använder därför två andra tillvägagångssätt för att jämföra representationer. Den första är att jämföra geometriska grupperingar hos olika representationer. Den andra använder ett mått av hur lika olika representationer är. Flera olika experiment utförs med hjälp av dessa tillvägagångssätt. Representationerna kommer frånmodeller som redan tränats på ImageNet. Både klassifikationsmodeller och en generativa modell används med syfte att också jämföra dem med varandra. Det första huvudresultatet från experimenten är att det finns en tydlig geometrisk separation av representationer från olika klasser i modellerna. Experimenten visar också att det inte fanns en tydlig geometrisk separation av representationer från träningsdata och valideringsdata. Ett annat resultat är att representationerna från de olika klassifikationsmodellerna AlexNet och ResNet är ungefär lika lika varandra som mellan klassifikationsmodellerna och generatorn hos den generativa modellen BigGAN. Resultaten visar också att de har en liknande likhet till BigGANs “class embedding”. Fler forskningsfrågor undersöks i andra experiment. Utöver experimenten kommer detta verk med många idéer till framtida forskning.
|
2 |
On Linear Mode Connectivity up to Permutation of Hidden Neurons in Neural Network : When does Weight Averaging work? / Anslutning i linjärt läge upp till permutation av dolda neuroner i neurala nätverk : När fungerar Viktmedelvärde?Kalaivanan, Adhithyan January 2023 (has links)
Neural networks trained using gradient-based optimization methods exhibit a surprising phenomenon known as mode connectivity, where two independently trained network weights are not isolated low loss minima in the parameter space. Instead, they can be connected by simple curves along which the loss remains low. In case of linear mode connectivity up to permutation, even linear interpolations of the trained weights incur low loss when networks that differ by permutation of their hidden neurons are considered equivalent. While some recent research suggest that this implies existence of a single near-convex loss basin to which the parameters converge, others have empirically shown distinct basins corresponding to different strategies to solve the task. In some settings, averaging multiple network weights naively, without explicitly accounting for permutation invariance still results in a network with improved generalization. In this thesis, linear mode connectivity among a set of neural networks independently trained on labelled datasets, both naively and upon reparameterization to account for permutation invariance is studied. Specifically, the effect of hidden layer width on the connectivity is empirically evaluated. The experiments are conducted on a two dimensional toy classification problem, and the insights are extended to deeper networks trained on handwritten digits and images. It is argued that accounting for permutation of hidden neurons either explicitly or implicitly is necessary for weight averaging to improve test performance. Furthermore, the results indicate that the training dynamics induced by the optimization plays a significant role, and large model width alone may not be a sufficient condition for linear model connectivity. / Neurala nätverk som tränats med gradientbaserade optimeringsmetoder uppvisar ett överraskande fenomen som kallas modeconnectivity, där två oberoende tränade nätverksvikter inte är isolerade lågförlustminima i parameterutrymmet. Istället kan de kopplas samman med enkla kurvor längs vilka förlusten förblir låg. I händelse av linjär mode-anslutning upp till permutation medför även linjära interpolationer av de tränade vikterna låga förluster när nätverk som skiljer sig åt genom permutation av deras dolda neuroner anses vara likvärdiga. Medan en del nyare undersökningar tyder på att detta innebär att det finns en enda nära-konvex förlustbassäng till vilken parametrarna konvergerar, har andra empiriskt visat distinkta bassänger som motsvarar olika strategier för att lösa uppgiften. I vissa inställningar resulterar ett naivt medelvärde av flera nätverksvikter, utan att uttryckligen ta hänsyn till permutationsinvarians, fortfarande i ett nätverk med förbättrad generalisering. I den här avhandlingen studeras linjärmodsanslutningar mellan en uppsättning neurala nätverk som är oberoende tränade på märkta datamängder, både naivt och vid omparameterisering för att ta hänsyn till permutationsinvarians. Specifikt utvärderas effekten av dold lagerbredd på anslutningen empiriskt. Experimenten utförs på ett tvådimensionellt leksaksklassificeringsproblem, och insikterna utökas till djupare nätverk som tränas på handskrivna siffror och bilder. Det hävdas att redogörelse för permutation av dolda neuroner antingen explicit eller implicit är nödvändigt för viktgenomsnitt för att förbättra testprestanda. Dessutom indikerar resultaten att träningsdynamiken som induceras av optimeringen spelar en betydande roll, och enbart stor modellbredd kanske inte är ett tillräckligt villkor för linjär modellanslutning.
|
3 |
Feature extraction with self-supervised learning on eye-tracking data from Parkinson’s patients and healthy individuals / Extrahering av särdrag med hjälp av självövervakande maskininlärning applicerad på ögonrörelsedata från parkinsonpatienter och friska försökspersoner.Bergman, Leo January 2022 (has links)
Eye-tracking is a method for monitoring and measuring eye movements. The technology has had a significant impact so far and new application areas are emerging. Today, the technology is used in the gaming industry, health industry, self-driving cars, and not least in medicine. In the latter, large research resources are invested to investigate the extent to which eye-tracking can help with disease diagnostics. One disease of interest is Parkinson’s disease, a neuro-degenerative disease in which the dopamine production in nerve cells is destroyed. This leads to detoriating nerve signal transmission, which in turn affects the motor skills. One of the affected motor functions associated with PD is the oculomotor function, affecting the eye function. The declination can be observed clinically by physicians, however eye-tracking technology has a high potential here, but it remains to investigate which methodology and which test protocols are relevant to study and to what extent the technology can be used as a diagnostic tool. A novel class of algorithms for finding representations of data is called self-supervised learning (SSL). The class of algorithms seems to have a high potential in terms of categorizing biomarkers. This thesis examines to which extent an SSL network can learn representations of eye-tracking data on Parkinson’s patients, in order to distinguish between healthy and sick, patients on and off medication. The result suggests that the network does not succeed in learning distinct differences between groups. Furthermore, no difference is observed in the result when we in the model take into account the task-specific target information that the subjects are following. Today in the UK approximately 26 percent of Parkinson’s patients are misdiagnosed. In the initial state of the disease, the misdiagnosis is even higher. Potentially, the method can be used as a complement to regular diagnosis in different stages of the disease. This would provide better conditions for the patient as well as for medical and pharmaceutical research. The method also has the potential to reduce physicians’ workload. / Eye-tracking eller ögonrörelsemätning som är den svenska termen, är en metod för att följa och mäta ögats rörelser. Tekniken har fått en betydande genomslagskraft hittills och nya applikationsområden dyker upp titt som tätt. Idag används tekniken inom spelindustrin, hälsa, i självkörande bilar och inte minst inom medicin. Inom det senare läggs idag stora forskningsresurser för att undersöka i vilken utsträckning eye-tracking kan hjälpa till att diagnosticera sjukdomar. En sjukdom av intresse är Parkinson’s sjukdom, vilket är en neurodegenerativ sjukdom där dopaminproduktionen i nervceller förstörs. Det leder till att transmissionen av nervsignaler försämras som i sin tur gör att motoriken påverkas vilket bland annat leder till en nedsättning i ögats motorik. Det är något som man idag kan observera kliniskt, eye-tracking teknik har här en hög potential men det återstår att undersöka vilken metodik och vilka testprotokoll som är relevanta att undersöka och i vilken grad tekniken kan användas som ett diagnostiskt verktyg. En ny typ av algoritmer för att hitta representationer av data kallas för self-supervised learning (SSL), dessa algoritmer verkar ha en hög potential vad gäller kategorisering av biomarkörer. I denna uppsats undersöks i vilken grad ett SSL-nätverk kan lära sig representationer av eye-tracking data på Parkinson’s patienter för att kunna särskilja mellan friska och sjuka, medicinerade och omedicinerade. Resultatet är att nätverket inte lyckas lära sig skiljaktigheter mellan dessa klasser. Vidare noteras ingen skillnad i resultatet då vi i modellen tar hänsyn till de specifika uppgifterna som försökspersonerna fått. Idag får 30 procent av parkinsonpatienterna fel diagnos. I ett initialt tillstånd av sjukdomen är feldiagnosticeringen ännu högre. Potentiellt kan metoden användas som komplement till diagnosticering i olika skeden av sjukdomen. Detta skulle ge bättre förutsättningar för såväl patienten som för den medicinska och farmaceutiska forskningen. Metoden har dessutom potential att minska läkares arbetsbörda.
|
4 |
Learning representations of features of fish for performing regression tasks / Lärande av representationer av särdrag från fiskar för användande i regressionsstudierJónsson, Kristmundur January 2021 (has links)
In the ever-changing landscape of the fishing industry, demands for automating specific processes are increasing substantially. Predicting future events eliminates much of the existing communication latency between fishing vessels and their customers and makes real-time analysis of onboard catch possible for the fishing industry. Further, machine learning models, may reduce the number of human resources necessary for the numerous processes that may be automated. In this document, we focus on weight estimation of three different species of fish. Namely, we want to estimate the fish weight given its specie through datadriven techniques. Due to the high complexity of image data, the overhead expenses of collecting images at sea, and the complexities of fish features, we consider a dimensionality reduction on the inputs to reduce the curse of dimensionality and increase interpretability. We will study the viability of modeling fish weights from lower-dimensional feature vectors and the conjunction of lower-dimensional feature vectors and algorithmically obtained features. We found that modeling the residuals with latent representations of a simple power model fitted on length features resulted in a significant difference in the weight estimates for two types of fish and a decrease in Root Mean Squared Error (rMSE) and Mean Absolute Percentage Error (MAPE) scores in favour of the estimations utilizing latent representations. / I fiskeindustrins ständigt föränderliga landskap ökar kraven på att automatisera specifika processer väsentligt. Att förutsäga framtida händelser eliminerar mycket av den befintliga kommunikationsfördröjningen mellan fiskefartyg och deras kunder och möjliggör analys i realtid av ombordfångst för fiskeindustrin. Vidare kan det minska antalet personalresurser som krävs för de många processer som kan automatiseras. I detta dokument studerar vi två olika beslutsproblem relaterade till att sortera fisk av tre olika arter. Vi vill nämligen bestämma fiskvikten och dess art genom datadrivna tekniker. På grund av bilddatas höga komplexitet, de allmänna kostnaderna för att samla bilder till sjöss och komplexiteten hos fiskegenskaper, anser vi att en dimensionalitetsminskning av särdragen minskar problemet relaterat till dimensionsexplosion och ökar tolkbarheten. Vi kommer att studera lämpligheten av modellering av fiskvikter och arter från lägre dimensionella särdragsvektorer samt kombinationen av dessa med algoritmiskt erhållna funktioner. Vi fann att modellering av residual med latenta representationer av en enkel potensfunktionsmodell som är anpassad till fisklängder resulterade i en signifikant skillnad i viktuppskattningarna för två typer av fisk och en minskning av rMSE och MAPE poäng.
|
5 |
Bidirectional Encoder Representations from Transformers (BERT) for Question Answering in the Telecom Domain. : Adapting a BERT-like language model to the telecom domain using the ELECTRA pre-training approach / BERT för frågebesvaring inom telekomdomänen : Anpassning till telekomdomänen av en BERT-baserad språkmodell genom ELECTRA-förträningsmetodenHolm, Henrik January 2021 (has links)
The Natural Language Processing (NLP) research area has seen notable advancements in recent years, one being the ELECTRA model which improves the sample efficiency of BERT pre-training by introducing a discriminative pre-training approach. Most publicly available language models are trained on general-domain datasets. Thus, research is lacking for niche domains with domain-specific vocabulary. In this paper, the process of adapting a BERT-like model to the telecom domain is investigated. For efficiency in training the model, the ELECTRA approach is selected. For measuring target- domain performance, the Question Answering (QA) downstream task within the telecom domain is used. Three domain adaption approaches are considered: (1) continued pre- training on telecom-domain text starting from a general-domain checkpoint, (2) pre-training on telecom-domain text from scratch, and (3) pre-training from scratch on a combination of general-domain and telecom-domain text. Findings indicate that approach 1 is both inexpensive and effective, as target- domain performance increases are seen already after small amounts of training, while generalizability is retained. Approach 2 shows the highest performance on the target-domain QA task by a wide margin, albeit at the expense of generalizability. Approach 3 combines the benefits of the former two by achieving good performance on QA both in the general domain and the telecom domain. At the same time, it allows for a tokenization vocabulary well-suited for both domains. In conclusion, the suitability of a given domain adaption approach is shown to depend on the available data and computational budget. Results highlight the clear benefits of domain adaption, even when the QA task is learned through behavioral fine-tuning on a general-domain QA dataset due to insufficient amounts of labeled target-domain data being available. / Dubbelriktade språkmodeller som BERT har på senare år nått stora framgångar inom språkteknologiområdet. Flertalet vidareutvecklingar av BERT har tagits fram, bland andra ELECTRA, vars nyskapande diskriminativa träningsprocess förkortar träningstiden. Majoriteten av forskningen inom området utförs på data från den allmänna domänen. Med andra ord finns det utrymme för kunskapsbildning inom domäner med områdesspecifikt språk. I detta arbete utforskas metoder för att anpassa en dubbelriktad språkmodell till telekomdomänen. För att säkerställa hög effektivitet i förträningsstadiet används ELECTRA-modellen. Uppnådd prestanda i måldomänen mäts med hjälp av ett frågebesvaringsdataset för telekom-området. Tre metoder för domänanpassning undersöks: (1) fortsatt förträning på text från telekom-området av en modell förtränad på den allmänna domänen; (2) förträning från grunden på telekom-text; samt (3) förträning från grunden på en kombination av text från telekom-området och den allmänna domänen. Experimenten visar att metod 1 är både kostnadseffektiv och fördelaktig ur ett prestanda-perspektiv. Redan efter kort fortsatt förträning kan tydliga förbättringar inom frågebesvaring inom måldomänen urskiljas, samtidigt som generaliserbarhet kvarhålls. Tillvägagångssätt 2 uppvisar högst prestanda inom måldomänen, om än med markant sämre förmåga att generalisera. Metod 3 kombinerar fördelarna från de tidigare två metoderna genom hög prestanda dels inom måldomänen, dels inom den allmänna domänen. Samtidigt tillåter metoden användandet av ett tokenizer-vokabulär väl anpassat för båda domäner. Sammanfattningsvis bestäms en domänanpassningsmetods lämplighet av den respektive situationen och datan som tillhandahålls, samt de tillgängliga beräkningsresurserna. Resultaten påvisar de tydliga vinningar som domänanpassning kan ge upphov till, även då frågebesvaringsuppgiften lärs genom träning på ett dataset hämtat ur den allmänna domänen på grund av otillräckliga mängder frågebesvaringsdata inom måldomänen.
|
6 |
Representation Learning for Modulation Recognition of LPI Radar Signals Through Clustering / Representationsinlärning för modulationsigenkänning av LPI-radarsignaler genom klustringGrancharova, Mila January 2020 (has links)
Today, there is a demand for reliable ways to perform automatic modulation recognition of Low Probability of Intercept (LPI) radar signals, not least in the defense industry. This study explores the possibility of performing automatic modulation recognition on these signals through clustering and more specifically how to learn representations of input signals for this task. A semi-supervised approach using a bootstrapped convolutional neural network classifier for representation learning is proposed. A comparison is made between training the representation learner on raw time-series and on spectral representations of the input signals. It is concluded that, overall, the system trained on spectral representations performs better, though both approaches show promise and should be explored further. The proposed system is tested both on known modulation types and on previously unseen modulation types in the task of novelty detection. The results show that the system can successfully identify known modulation types with adjusted mutual information of 0.86 for signal-to-noise ratios ranging from -10 dB to 10 dB. When introducing previously unseen modulations, up to six modulations can be identified with adjusted mutual information above 0.85. Furthermore, it is shown that the system can learn to separate LPI radar signals from telecom signals which are present in most signal environments. / Idag finns ett behov av pålitlig automatiserad modulationsigenkänning (AMR) av Low Probability of Inercept (LPI)-radarsignaler, inte minst hos försvarsindustrin. Denna studie utforskar möjligheten att utföra AMR av dessa signaler genom klustring och mer specifikt hur man bör lära in representationer av signalerna i detta syfte. En halvövervakad inlärningsmetod som använder en klassificerare baserad på faltningsnätverk föreslås. En jämförelse görs mellan ett system som tränar för representationsinlärning på råa tidsserier och ett system som tränar på spektrala representationer av signalerna. Resultaten visar att systemet tränat på spektrala representationer på det stora hela presterar bättre, men båda metoderna visar lovande resultat och bör utforskas vidare. Systemet testas på signaler från både kända och för systemet tidigare okända modulationer i syfte att pröva förmågan att upptäcka nya typer av modulationer. Systemet identifierar kända modulationer med adjusted mutual information på 0.86 i brusnivåer från -10 dB till 10 dB. När tidigare okända modulationer introduceras till systemet ligger adjusted mutual information över 0.85 för upp till sex modulationer. Studien visar dessutom att systemet kan lära sig skilja LPI-radarsignaler från telekommunikationssignaler som är vanliga i de flesta signalmiljöer.
|
7 |
Deep learning, LSTM and Representation Learning in Empirical Asset Pricingvon Essen, Benjamin January 2022 (has links)
In recent years, machine learning models have gained traction in the field of empirical asset pricing for their risk premium prediction performance. In this thesis, we build upon the work of [1] by first evaluating models similar to their best performing model in a similar fashion, by using the same dataset and measures, and then expanding upon that. We explore the impact of different feature extraction techniques, ranging from simply removing added complex- ity to representation learning techniques such as incremental PCA and autoen- coders. Furthermore, we also introduce recurrent connections with LSTM and combine them with the earlier mentioned representation learning techniques. We significantly outperform [1] in terms of monthly out-of-sample R2, reach- ing a score of over 3%, by using a condensed version of the dataset, without interaction terms and dummy variables, with a feedforward neural network. However, across the board, all of our models fall short in terms of Sharpe ratio. Even though we find that LSTM works better than the benchmark, it does not outperform the feedforward network using the condensed dataset. We reason that this is because the features already contain a lot of temporal information, such as recent price trends. Overall, the autoencoder based models perform poorly. While the linear incremental PCA based models perform better than the nonlinear autoencoder based ones, they still perform worse than the bench- mark. / Under de senaste åren har maskininlärningsmodeller vunnit kredibilitet inom området empirisk tillgångsvärdering för deras förmåga att förutsäga riskpre- mier. I den här uppsatsen bygger vi på [1]s arbetet genom att först implemente- ra modeller som liknar deras bäst presterande modell och utvärdera dem på ett liknande sätt, genom att använda samma data och mått, och sedan bygga vida- re på det. Vi utforskar effekterna av olika variabelextraktionstekniker, allt från att helt enkelt ta bort extra komplexitet till representationsinlärningstekniker som inkrementell PCA och autoencoders. Vidare introducerar vi även LSTM och kombinerar dem med de tidigare nämnda representationsinlärningstekni- kerna. Min bästa modell presterar betydligt bättre än [1]s i termer av månatlig R2 för testdatan, och når ett resultat på över 3%, genom att använda en kompri- merad version av datan, utan interaktionstermer och dummyvariabler, med ett feedforward neuralt nätverk. Men överlag så brister alla mina modeller i ter- mer av Sharpe ratio. Även om LSTM fungerar bättre än riktvärdet, överträffar det inte feedforward-nätverket med den komprimerade datamängden. Vi re- sonerar att detta är på grund av inputvariablerna som redan innehåller en hel del information över tid, som de senaste pristrenderna. Sammantaget presterar de autoencoderbaserade modellerna dåligt. Även om de linjära inkrementell PCA-baserade modellerna presterar bättre än de olinjära autoencoderbaserade modellerna, presterar de fortfarande sämre än riktvärdet.
|
8 |
Multi-modal Models for Product Similarity : Comparative evaluation of unimodal and multi-modal architectures for product similarity prediction and product retrieval / Multimodala modeller för produktlikhetFrantzolas, Christos January 2023 (has links)
With the rapid growth of e-commerce, enabling effective product recommendation systems and improving product search for shoppers plays a crucial role in driving customer satisfaction. Traditional product retrieval approaches have mainly relied on unimodal models focusing on text data. However, to capture auxiliary context and improve the accuracy of similarity predictions, it is crucial to explore architectures that can leverage additional sources of information, such as images. This thesis compares the performance of multi- and unimodal methods for product similarity prediction and product retrieval. Both approaches are applied to two e-commerce datasets, one containing English and another containing Swedish product descriptions. A pre-trained multi-modal model called CLIP is used as a feature extractor. Different models are trained on CLIP embeddings using either text-only, image-only or image-text inputs. An extension of triplet loss with margins is tested, along with various training setups. Given the lack of similarity labels between products, product similarity prediction is studied by measuring the performance of a K-Nearest Neighbour classifier implemented on features extracted by the trained models. The thesis results demonstrate that multi-modal architectures outperform unimodal models in predicting product similarity. The same is true for product retrieval. Combining textual and visual information seems to lead to more accurate predictions than models relying on only one modality. The findings of this research have considerable implications for e-commerce platforms and recommendation systems, providing insights into the effectiveness of multi-modal models for product-related tasks. Overall, the study contributes to the existing body of knowledge by highlighting the advantages of leveraging multiple sources of information for deep learning. It also presents recommendations for designing and implementing effective multi-modal architectures. / I och med den snabba tillväxten av e-handel spelar att möjliggöra effektivare produktrekommendationssystem och att förbättra produktsök för konsumenter en viktig roll för att öka kundnöjdheten. Traditionella angreppsätt för produktsök har huvudsakligen tillförlitat sig på unimodala textmodeller. För att fånga ett bredare kontext och förbättra exaktheten av prediktioner av likhet mellan produkter är det viktigt att utforska arkitekturer som kan utnyttja fler informationskällor så som bilder. Den här avhandlingen jämför prestanda hos multimodala och unimodala metoder för produktlikhetsprediktioner och produktsök. Båda angreppsätten är tillämpade på två e-handelsdatamängder, en med engelska produktbeskrivningar och en med svenska. En förtränad multimodal modell kallad CLIP används för att skapa produktrepresentationer. Olika modeller har tränats på CLIPs representationer, antingen med enbart text, enbart bild eller både bild och text. En utökning av ett triplettmått med marginaler har testats som träningskriterium, i kombination med olika träningsinställningar. Givet en avsaknad av likhetsannoteringar mellan produkter så har produktlikhetsprediktion studerats genom att mäta prestandan av K-närmaste-grannar-klassificering genom att använda vektor-representationer från de tränade modellerna. Avhandlingens resultat visar att multimodala arkitekturer överträffar unimodala modeller för produktlikhetsprediktion. Att kombinera textuell och visuell information verkar leda till mer korrekta prediktioner jämfört med modeller som förlitar sig på endast en modalitet. Forskningsresultaten har markanta implikationer för e-handelsplattformar och rekommendationssystem, genom att tillhandahålla insikter i multimodala modellers effektivitet i produktrelaterade uppgifter. Överlag så bidrar studien till den existerande litteraturen genom att förtydliga fördelarna av att utnyttja flera informationskällor för djupinlärning. Den resulterar också i rekommendationer för att designa och implementera effektiva multimodala modellarkitekturer.
|
9 |
Matching Sticky Notes Using Latent Representations / Matchning av klisterlappar med hjälp av latent representationGarcía San Vicent, Javier January 2022 (has links)
his project addresses the issue of accurately identifying repeated images of sticky notes. Due to environmental conditions and the 3D location of the camera, different pictures taken of sticky notes may look distinct enough to be hard to determine if they belong to the same note. More specifically, this thesis aims to create latent representations of these pictures of sticky notes to encode their content so that all the pictures of the same note have a similar representation that allows to identify them. Thus, those representations must be invariant to light conditions, blur and camera position. To that end, a Siamese neural architecture will be trained based on data augmentation methods. The method consists of learning to embed two augmented versions of the same image into similar representations. This architecture has been trained with unsupervised learning and fine-tuned with supervised learning to detect if two representations belong or not to the same note. The performance of ResNet, EfficientNet and Vision Transformers in encoding the images into their representations has been compared with different configurations. The results show that, while the most complex models overfit small amounts of data, the simplest encoders are capable of properly identifying more than 95% of the sticky notes in grey scale. Those models can create invariant representations that are close to each other in the latent space for pictures of the same sticky note. Gathering more data could result in an improvement of the performance of the model and the possibility of applying it to other fields such as handwritten documents. / Detta projekt tar upp frågan om att identifiera upprepade bilder av klisterlappar. På grund av miljöförhållanden och kamerans 3D-placering kan olika bilder som tagits till klisterlappar se tillräckligt distinkta ut för att det ska vara svårt att avgöra om de faktiskt tillhör samma klisterlappar. Mer specifikt är syftet med denna avhandling att skapa latenta representationer av bilder av klisterlappar som kodar deras innehåll, så att alla bilder av en klisterlapp har en liknande representation som gör det möjligt att identifiera dem. Sålunda måste representationerna vara oföränderliga för ljusförhållanden, oskärpa och kameraposition. För det ändamålet kommer en enkel siamesisk neural arkitektur att tränas baserad på dataförstärkningsmetoder. Metoden går ut på att lära sig att göra representationerna av två förstärkta versioner av en bild så lika som möjligt. Genomatt tillämpa vissa förbättringar av arkitekturen kan oövervakat lärande användas för att träna nätverket. Prestandan hos ResNet, EfficientNet och Vision Transformers när det gäller att koda bilderna till deras representationer har jämförts med olika konfigurationer. Resultaten visar att även om de mest komplexa modellerna överpassar små mängder data, kan de enklaste kodarna korrekt identifiera mer än 95% av klisterlapparna. Dessa modeller kan skapa oföränderliga representationer som är nära i det latenta utrymmet för bilder av samma klisterlapp. Att samla in mer data kan resultera i en förbättring av modellens prestanda och möjligheten att tillämpa den på andra områden som till exempel handskrivna dokument.
|
10 |
Real-time Anomaly Detection on Financial DataMartignano, Anna January 2020 (has links)
This work presents an investigation of tailoring Network Representation Learning (NRL) for an application in the Financial Industry. NRL approaches are data-driven models that learn how to encode graph structures into low-dimensional vector spaces, which can be further exploited by downstream Machine Learning applications. They can potentially bring a lot of benefits in the Financial Industry since they extract in an automatic way features that can provide useful input regarding graph structures, called embeddings. Financial transactions can be represented as a network, and through NRL, it is possible to extract embeddings that reflect the intrinsic inter-connected nature of economic relationships. Such embeddings can be used for several purposes, among which Anomaly Detection to fight financial crime.This work provides a qualitative analysis over state-of-the-art NRL models, which identifies Graph Convolutional Network (ConvGNN) as the most suitable category of approaches for Financial Industry but with a certain need for further improvement. Financial Industry poses additional challenges when modelling a NRL solution. Despite the need of having a scalable solution to handle real-world graph with considerable dimensions, it is necessary to take into consideration several characteristics: transactions graphs are inherently dynamic since every day new transactions are executed and nodes can be heterogeneous. Besides, everything is further complicated by the need to have updated information in (near) real-time due to the sensitivity of the application domain. For these reasons, GraphSAGE has been considered as a base for the experiments, which is an inductive ConvGNN model. Two variants of GraphSAGE are presented: a dynamic variant whose weights evolve accordingly with the input sequence of graph snapshots, and a variant specifically meant to handle bipartite graphs. These variants have been evaluated by applying them to real-world data and leveraging the generated embeddings to perform Anomaly Detection. The experiments demonstrate that leveraging these variants leads toimagecomparable results with other state-of-the-art approaches, but having the advantage of being suitable to handle real-world financial data sets. / Detta arbete presenterar en undersökning av tillämpningar av Network Representation Learning (NRL) inom den finansiella industrin. Metoder inom NRL möjliggör datadriven kondensering av grafstrukturer till lågdimensionella och lätthanterliga vektorer.Dessa vektorer kan sedan användas i andra maskininlärningsuppgifter. Närmare bestämt, kan metoder inom NRL underlätta hantering av och informantionsutvinning ur beräkningsintensiva och storskaliga grafer inom den finansiella sektorn, till exempel avvikelsehantering bland finansiella transaktioner. Arbetet med data av denna typ försvåras av det faktum att transaktionsgrafer är dynamiska och i konstant förändring. Utöver detta kan noderna, dvs transaktionspunkterna, vara vitt skilda eller med andra ord härstamma från olika fördelningar.I detta arbete har Graph Convolutional Network (ConvGNN) ansetts till den mest lämpliga lösningen för nämnda tillämpningar riktade mot upptäckt av avvikelser i transaktioner. GraphSAGE har använts som utgångspunkt för experimenten i två olika varianter: en dynamisk version där vikterna uppdateras allteftersom nya transaktionssekvenser matas in, och en variant avsedd särskilt för bipartita (tvådelade) grafer. Dessa varianter har utvärderats genom användning av faktiska datamängder med avvikelsehantering som slutmål.
|
Page generated in 0.1846 seconds