Global ETD Search

121	Character Recognition in Natural Images Utilising TensorFlow / Teckenigenkänning i naturliga bilder med TensorFlow Viklund, Alexander, Nimstad, Emma January 2017 (has links) Convolutional Neural Networks (CNNs) are commonly used for character recognition. They achieve the lowest error rates for popular datasets such as SVHN and MNIST. Usage of CNN is lacking in research about character classification in natural images regarding the whole English alphabet. This thesis conducts an experiment where TensorFlow is used to construct a CNN that is trained and tested on the Chars74K dataset, with 15 images per class for training and 15 images per class for testing. This is done with the aim of achieving a higher accuracy than the non-CNN approach by de Campos et al. [1], that achieved 55.26%. The thesis explores data augmentation techniques for expanding the small training set and evaluates the result of applying rotation, stretching, translation and noise-adding. The result of this is that all of these methods apart from adding noise gives a positive effect on the accuracy of the network. Furthermore, the experiment shows that with a three layered convolutional neural network it is possible to create a character classifier that is as good as de Campos et al.'s. It is believed that even better results can be achieved if more experiments would be conducted on the parameters of the network and the augmentation. / Det är vanligt att använda konvolutionära artificiella neuronnät (CNN) för bildigenkänning, då de ger de minsta felmarginalerna på kända datamängder som SVHN och MNIST. Dock saknas det forskning om användning av CNN för klassificering av bokstäver i naturliga bilder när det gäller hela det engelska alfabetet. Detta arbete beskriver ett experiment där TensorFlow används för att bygga ett CNN som tränas och testas med bilder från Chars74K. 15 bilder per klass används för träning och 15 per klass för testning. Målet med detta är att uppnå högre noggrannhet än 55.26%, vilket är vad de campos et al. [1] uppnådde med en metod utan artificiella neuronnät. I rapporten utforskas olika tekniker för att artificiellt utvidga den lilla datamängden, och resultatet av att applicera rotation, utdragning, translation och bruspåslag utvärderas. Resultatet av det är att alla dessa metoder utom bruspåslag ger en positiv effekt på nätverkets noggrannhet. Vidare visar experimentet att med ett CNN med tre lager går det att skapa en bokstavsklassificerare som är lika bra som de Campos et al.s klassificering. Om fler experiment skulle genomföras på nätverkets och utvidgningens parametrar är det troligt att ännu bättre resultat kan uppnås. character recognition natural images TensorFlow data augmentation neural networks Chars74K convolutional teckenigenkänning naturliga bilder TensorFlow dataaugmentering neurala nätverk neuronnät Chars74K Computer Sciences Datavetenskap (datalogi)
122	An Embedded System for Classification and Dirt Detection on Surgical Instruments Hallgrímsson, Guðmundur January 2019 (has links) The need for automation in healthcare has been rising steadily in recent years, both to increase efficiency and for freeing educated workers from repetitive, menial, or even dangerous tasks. This thesis investigates the implementation of two pre-determined and pre-trained convolutional neural networks on an FPGA for the classification and dirt detection of surgical instruments in a robotics application. A good background on the inner workings and history of artificial neural networks is given and expanded on in the context of convolutional neural networks. The Winograd algorithm for computing convolutional operations is presented as a method for increasing the computational performance of convolutional neural networks. A selection of development platform and toolchains is then made. A high-level design of the overall system is explained, before details of the high-level synthesis implementation of the dirt detection convolutional neural network are shown. Measurements are then made on the performance of the high-level synthesis implementation of the various blocks needed for convolutional neural networks. The main convolutional kernel is implemented both by using the Winograd algorithm and the naive convolution algorithm and comparisons are made. Finally, measurements on the overall performance of the end-to-end system are made and conclusions are drawn. The final product of the project gives a good basis for further work in implementing a complete system to handle this functionality in a manner that is both efficient in power and low in latency. Such a system would utilize the different strengths of general-purpose sequential processing and the parallelism of an FPGA and tie those together in a single system. / Behovet av automatisering inom vård och omsorg har blivit allt större de senaste åren, både vad gäller effektivitet samt att befria utbildade arbetare från repetitiva, enkla eller till och med farliga arbetsmoment. Den här rapporten undersöker implementeringen av två tidigare för-definierade och för-tränade faltade neurala nätverk på en FPGA, för att klassificera och upptäcka föroreningar på kirurgiska verktyg. En bra bakgrund på hur neurala nätverk fungerar, och deras historia, presenteras i kontexten faltade neurala nätverk. Winograd algoritmen, som används för att beräkna faltningar, beskrivs som en metod med syfte att öka beräkningsmässig prestanda. Val av utvecklingsplattform och verktyg utförs. Systemet beskrivs på en hög nivå, innan detaljer om hög-nivå-syntesimplementeringen av förorenings-detekterings-nätverket visas. Mätningar görs sedan av de olika bygg-blockens prestanda. Kärnkoden med faltnings-algoritmen implementeras både med Winograd-algoritmen och med den traditionella, naiva, metoden, och utfallet för bägge metoderna jämförs. Slutligen utförs mätningar på hela systemets prestanda och slutsatser dras därav. Projektets slutprodukt kan användas som en bra bas för vidare utveckling av ett komplett system som både är effektivt angående effektförbrukning och har bra prestanda, genom att knyta ihop styrkan hos traditionella sekventiella processorer med parallelismen i en FPGA till ett enda system. Neural Network CNN FPGA PetaLinux Winograd High-level Synthesis Neuralt nätverk Faltade neurala nätverk FPGA PetaLinux Winograd Hög-nivå syntes Elektroteknik och elektronik
123	Hierarchical Clustering using Brain-like Recurrent Attractor Neural Networks / Hierarkisk klustring med hjälp av Hjärnliknande återkommande attraktor Neurala nätverk Kühn, Hannah January 2023 (has links) Hierarchical clustering is a family of machine learning methods that has many applications, amongst other data science and data mining. This thesis belongs to the research area of brain-like computing and introduces a novel approach to hierarchical clustering using a brain-like recurrent neural network. Attractor networks can cluster samples by converging to the same network state. We modulate the network behaviour by varying a parameter in the activity propagation rule such that the granularity of the resulting clustering is changed. A hierarchical clustering is then created by combining multiple levels of granularity. The method is developed for two different datasets and evaluated on a variety of clustering metrics. Its performance is compared to standard clustering algorithms and the structure and composition of the clustering is inspected. We show that the method can produce clusterings for different levels of granularity and new data without retraining. As a novel clustering method, it is relevant to machine learning applications. As a model for hierarchical recall in a memory model, it is relevant to computational neuroscience and neuromorphic computing. / Hierarkiskt klusterarbete är en grupp av maskininlärningsmetoder som har många tillämpningar, bland annat datavetenskap och datagrävning. Denna avhandling tillhör forskningsområdet för hjärnlikt databehandling och introducerar ett nytt tillvägagångssätt för hierarkiskt klusterarbete med hjälp av ett hjärnlikt återkommande neuronnätverk. Attraktornätverk kan klustra prover genom att konvergera till samma nätverksstadium. Vi modulerar nätverkets beteende genom att variera en parameter i regeln för aktivitetspropagering så att granulariteten i det resulterande klusterarbetet förändras. Ett hierarkiskt klusterarbete skapas sedan genom att kombinera flera nivåer av granularitet. Metoden utvecklas för två olika datasets och utvärderas med hjälp av olika klustringsmått. Dess prestanda jämförs med standard klusteringsalgoritmer och strukturen och sammansättningen av klusterarbetet inspekteras. Vi visar att metoden kan producera klusterarbeten för olika nivåer av granularitet och nya data utan omträning. Som en ny klusteringsmetod är den relevant för maskininlärningsapplikationer. Som en modell för hierarkisk återkallelse i en minnesmodell är den relevant för beräkningsneurovetenskap och neuromorfisk databehandling. Hierarchical Clustering Attractor Network Recurrent Neural Network Brain-like computing Hierarkisk klustring Anlockningsnätverk Återkommande neurala nätverk Hjärnliknande databehandling Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
124	User authentication through behavioral biometrics using multi-class classification algorithms : A comprehensive study of machine learning algorithms for keystroke and mouse dynamics / Användarautentisering med beteendemässig biometri och användning av multi-class klassificeringsalgoritmer : En djupgående studie av maskininlärningsalgoritmer för tangentbords- och musdynamik Lantz, Emil January 2023 (has links) User authentication is vital in a secure system. Authentication is achieved through something a genuine user knows, has, or is. The latter is called biometrics, commonly attributed with fingerprint and face modalities. It is also possible to identify a user based on their behavior, called behavioral biometrics. In this study, keyboard and mouse behavior were considered. Previous research indicate promise for this authentication method. The research however is scarce, old and often not comprehensive. This study focus on two available data sets, the CMU keystroke dynamics dataset and the ReMouse data set. The data was used together with a comprehensive set of multi-class supervised classification machine learning algorithms from the scikit-learn library for Python. By performing hyperparameter optimization, two optimal algorithms with modified hyperparameters were found that improved results compared with previous research. For keystroke dynamics a classifier based on a neural network, multi-layer perceptron, achieved an Equal Error Rate (EER) of 1.26%. For mouse dynamics, a decision tree classifier achieved an EER of 0.43%. The findings indicate that the produced biometric classifiers can be used in an authentication model and importantly to strengthen existing authentication models such as password based login as a safe alternative to traditional Multi-Factor Authentication (MFA). / Användarautentisering är vitalt i ett säkert system. Autentisering genomförs med hjälp av något en genuin användare vet, har eller är. Det senare kallas biometri, ofta ihopkopplat med fingeravtryck och ansiktigenkänning. Det är även möjligt att identifiera en användare baserat på deras beteende, så kallad beteendemässig biometri. I denna studie används tangentbords- och musanvändning. Tidigare forskning tyder på att denna autentiseringsmetod är lovande. Forskningen är dock knapp, äldre och svårbegriplig. Denna studie använder två publika dataset, CMU keystroke dynamics dataset och ReMouse data set. Datan används tillsammans med en utförlig mängd maskininlärningsalgoritmer från scitkit-learn biblioteket för programmeringsspråket Python. Genom att optimera algoritmernas hyper parametrar kunde två stycken optimala klassificerare tas fram som åstadkom förbättrade resultat mot tidigare forskning. För tangentbordsbeteende producerades en klassificerare baserat på neurala nätverk, så kallad multi-layer perceptron som åstadkom en EER på 1.26%. För musrörelser kunde en modell baserat på beslutsträd åstadkomma en EER på 0.43%. Resultatet av dessa upptäckter är att liknande klassificerare kan användas i en autentiseringsmodell men också för att förbättra säkerheten hos etablerade inloggningssätt som exempelvis lösenord och därmed utgöra ett säkert alternativ till traditionell MFA. Behavioral biometrics keystroke dynamics mouse dynamics machine learning neural networks decision trees. Beteendemässig biometri maskininlärning neurala nätverk beslutsträd. Elektroteknik och elektronik
125	Federated Learning for Time Series Forecasting Using Hybrid Model Li, Yuntao January 2019 (has links) Time Series data has become ubiquitous thanks to affordable edge devices and sensors. Much of this data is valuable for decision making. In order to use these data for the forecasting task, the conventional centralized approach has shown deficiencies regarding large data communication and data privacy issues. Furthermore, Neural Network models cannot make use of the extra information from the time series, thus they usually fail to provide time series specific results. Both issues expose a challenge to large-scale Time Series Forecasting with Neural Network models. All these limitations lead to our research question:Can we realize decentralized time series forecasting with a Federated Learning mechanism that is comparable to the conventional centralized setup in forecasting performance?In this work, we propose a Federated Series Forecasting framework, resolving the challenge by allowing users to keep the data locally, and learns a shared model by aggregating locally computed updates. Besides, we design a hybrid model to enable Neural Network models utilizing the extra information from the time series to achieve a time series specific learning. In particular, the proposed hybrid outperforms state-of-art baseline data-central models with NN5 and Ericsson KPI data. Meanwhile, the federated settings of purposed model yields comparable results to data-central settings on both NN5 and Ericsson KPI data. These results together answer the research question of this thesis. / Tidseriedata har blivit allmänt förekommande tack vare överkomliga kantenheter och sensorer. Mycket av denna data är värdefull för beslutsfattande. För att kunna använda datan för prognosuppgifter har den konventionella centraliserade metoden visat brister avseende storskalig datakommunikation och integritetsfrågor. Vidare har neurala nätverksmodeller inte klarat av att utnyttja den extra informationen från tidsserierna, vilket leder till misslyckanden med att ge specifikt tidsserierelaterade resultat. Båda frågorna exponerar en utmaning för storskalig tidsserieprognostisering med neurala nätverksmodeller. Alla dessa begränsningar leder till vår forskningsfråga:Kan vi realisera decentraliserad tidsserieprognostisering med en federerad lärningsmekanism som presterar jämförbart med konventionella centrala lösningar i prognostisering?I det här arbetet föreslår vi ett ramverk för federerad tidsserieprognos som löser utmaningen genom att låta användaren behålla data lokalt och lära sig en delad modell genom att aggregera lokalt beräknade uppdateringar. Dessutom utformar vi en hybrid modell för att möjliggöra neurala nätverksmodeller som kan utnyttja den extra informationen från tidsserierna för att uppnå inlärning av specifika tidsserier. Den föreslagna hybrida modellen presterar bättre än state-of-art centraliserade grundläggande modeller med NN5och Ericsson KPIdata. Samtidigt ger den federerade ansatsen jämförbara resultat med de datacentrala ansatserna för både NN5och Ericsson KPI-data. Dessa resultat svarar tillsammans på forskningsfrågan av denna avhandling. Federated Learning Time Series Forecasting Recurrent Neural Networks Long Short-Term Memory Hybrid Model Federerad Inlärning Tidsserieprognostisering Återkommande Neurala Nätverk LSTMs Hybrida Modeller Computer and Information Sciences Data- och informationsvetenskap
126	Unsupervised Anomaly Detection on Multi-Process Event Time Series Vendramin, Nicoló January 2018 (has links) Establishing whether the observed data are anomalous or not is an important task that has been widely investigated in literature, and it becomes an even more complex problem if combined with high dimensional representations and multiple sources independently generating the patterns to be analyzed. The work presented in this master thesis employs a data-driven pipeline for the definition of a recurrent auto-encoder architecture to analyze, in an unsupervised fashion, high-dimensional event time-series generated by multiple and variable processes interacting with a system. Facing the above mentioned problem the work investigates whether it is possible or not to use a single model to analyze patterns produced by different sources. The analysis of log files that record events of interaction between users and the radio network infrastructure is employed as realworld case-study for the given problem. The investigation aims to verify the performances of a single machine learning model applied to the learning of multiple patterns developed through time by distinct sources. The work proposes a pipeline, to deal with the complex representation of the data source and the definition and tuning of the anomaly detection model, that is based on no domain-specific knowledge and can thus be adapted to different problem settings. The model has been implemented in four different variants that have been evaluated over both normal and anomalous data, gathered partially from real network cells and partially from the simulation of anomalous behaviours. The empirical results show the applicability of the model for the detection of anomalous sequences and events in the described conditions, with scores reaching above 80% in terms of F1-score, and varying depending on the specific threshold setting. In addition, their deeper interpretation gives insights about the difference between the variants of the model and thus, their limitations and strong points. / Att fastställa huruvida observerade data är avvikande eller inte är en viktig uppgift som har studerats ingående i litteraturen och problemet blir ännu mer komplext, om detta kombineras med högdimensionella representationer och flera källor som oberoende genererar de mönster som ska analyseras. Arbetet som presenteras i denna uppsats använder en data-driven pipeline för definitionen av en återkommande auto-encoderarkitektur för att analysera, på ett oövervakat sätt, högdimensionella händelsetidsserier som genereras av flera och variabla processer som interagerar med ett system. Mot bakgrund av ovanstående problem undersöker arbetet om det är möjligt eller inte att använda en enda modell för att analysera mönster som producerats av olika källor. Analys av loggfiler som registrerar händelser av interaktion mellan användare och radionätverksinfrastruktur används som en fallstudie för det angivna problemet. Undersökningen syftar till att verifiera prestandan hos en enda maskininlärningsmodell som tillämpas för inlärning av flera mönster som utvecklats över tid från olika källor. Arbetet föreslår en pipeline för att hantera den komplexa representationen hos datakällorna och definitionen och avstämningen av anomalidetektionsmodellen, som inte är baserad på domänspecifik kunskap och därför kan anpassas till olika probleminställningar. Modellen har implementerats i fyra olika varianter som har utvärderats med avseende på både normala och avvikande data, som delvis har samlats in från verkliga nätverksceller och delvis från simulering av avvikande beteenden. De empiriska resultaten visar modellens tillämplighet för detektering av avvikande sekvenser och händelser i det föreslagna ramverket, med F1-score över 80%, varierande beroende på den specifika tröskelinställningen. Dessutom ger deras djupare tolkning insikter om skillnaden mellan olika varianter av modellen och därmed deras begränsningar och styrkor. Anomaly Detection Recurrent Neural Networks Time Series Analysis Unsupervised Learning Anomalitetsdetektering Återkommande neurala nätverk Tidsserieanalys Oövervakat lärande Computer and Information Sciences Data- och informationsvetenskap
127	Computer Vision for Document Image Analysis and Text Extraction / Datorseende för analys av dokumentbilder och textutvinning Benchekroun, Omar January 2022 (has links) Automatic document processing has been a subject of interest in the industry for the past few years, especially with the recent technological advances in Machine Learning and Computer Vision. This project investigates in-depth a major component used in Document Image Processing known as Optical Character Recognition (OCR). First, an improvement upon existing shallow CNN+LSTM is proposed, using domain-specific data synthesis. We demonstrate that this model can achieve an accuracy of up to 97% on non-handwritten text, with an accuracy improvement of 24% when using synthetic data. Furthermore, we deal with handwritten text that presents more challenges including the variance of writing style, slanting, and character ambiguity. A CNN+Transformer architecture is validated to recognize handwriting extracted from real-world insurance statements data. This model achieves a maximal accuracy of 92% on real-world data. Moreover, we demonstrate how a data pipeline relying on synthetic data can be a scalable and affordable solution for modern OCR needs. / Automatisk dokumenthantering har varit ett ämne av intresse i branschen under de senaste åren, särskilt med de senaste tekniska framstegen inom maskininlärning och datorseende. I detta projekt kommer man att på djupet undersöka en viktig komponent som används vid bildbehandling av dokument och som kallas optisk teckenigenkänning (OCR). Först kommer en förbättring av befintlig ytlig CNN+LSTM att föreslås, med hjälp av domänspecifik datasyntes. Vi kommer att visa att denna modell kan uppnå en noggrannhet på upp till 97% på icke handskriven text, med en förbättring av noggrannheten på 24% när syntetiska data används. Dessutom kommer vi att behandla handskriven text som innebär fler utmaningar, t.ex. variationer i skrivstilen, snedställningar och tvetydiga tecken. En CNN+Transformer-arkitektur kommer att valideras för att känna igen handskrift från verkliga data om försäkringsbesked. Denna modell uppnår en maximal noggrannhet på 92% på verkliga data. Dessutom kommer vi att visa hur en datapipeline som bygger på syntetiska data är en skalbar och prisvärd lösning för moderna OCR-behov. Optical Character Recognition Document Analysis Text Extraction Transformers Convolutional Neural Networks Optisk teckenigenkänning dokumentanalys textutvinning transformatorer konvolutionella neurala nätverk Computer and Information Sciences Data- och informationsvetenskap
128	The Dynamics of Neural Networks Expressivity with Applications to Remote Sensing Data / Dynamiken i neurala nätverks uttrycksförmåga med tillämpningar på fjärranalysdata Zhang, Hui January 2022 (has links) Deep neural networks (DNN) have been widely demonstrated to be more powerful than their shallower counterparts in a variety of computer vision tasks and remote sensing applications. However, as many techniques are based on trial-and-error experiments as opposed to systematic evaluation, scientific evidence for the superiority of DNN needs more theoretical and experimental foundations. Recent work has shown that the neural network expressivity, measured by the number of linear regions, is independent of the network structure, suggesting that the success of deep neural networks is attributed to its ease of training. Inspired by this, this project aims to investigate novel approaches to train neural networks and obtain desired properties of the regional properties of linear regions. In particular, it highlights the regional structure of linear regions in different decision regions and seeks to initialize the network in a better position that makes it easier to have this regional structure. By counting the total number of linear regions in the input space, we validated that the shallow wider networks and the deep narrow networks share the same upper-bound expressivity in different synthetic datasets. We also discovered that the linear regions along the decision boundary are larger in shape and fewer in number, while being denser and fitted to the data manifold when close to the data. Our experiments indicate that the proposed initialization method can generate more linear regions at initialization, make the training converge faster, and finally generate linear regions that better fit the data manifold on synthetic data. On the EuroSAT satellite dataset, the proposed initialization method does not facilitate the convergence of ResNet-18, but achieves better performance with an average increase of 0.14% on accuracy compared to pre-trained weights and 0.19% compared to He uniform initialization. / Djupa neurala nätverk (Deep Neural Networks, DNN) har i stor utsträckning visat sig vara mer kraftfulla än sina grunda motsvarigheter i en mängd olika datorseendeuppgifter och fjärranalystillämpningar. Många tekniker är dock baserade på försök och misstag snarare än systematisk utvärdering, och vetenskapliga bevis för DNN:s överlägsenhet behöver mer teoretiska och experimentella grunder. Nyligen utförda arbeten har visat att det neurala nätverkets uttrycksförmåga, mätt som antalet linjära regioner, är oberoende av nätverksstrukturen, vilket tyder på att framgången för djupa neurala nätverk beror på att de är lätta att träna. Inspirerat av detta syftar detta projekt till att undersöka nya metoder för att träna neurala nätverk och få önskade egenskaper hos de regionala egenskaperna hos linjära regioner. I synnerhet belyser det den regionala strukturen hos linjära regioner i olika beslutsregioner och försöker initiera nätverket i ett bättre läge som gör det lättare att få denna regionala struktur. Genom att räkna det totala antalet linjära regioner i ingångsutrymmet validerade vi att de grunda bredare nätverken och de djupa smala nätverken har samma övre gräns för uttrycklighet i olika syntetiska dataset. Vi upptäckte också att de linjära regionerna längs beslutsgränsen är större till formen och färre till antalet, samtidigt som de är tätare och anpassade till datamångfalden när de ligger nära data. Våra experiment visar att den föreslagna initialiseringsmetoden kan generera fler linjära regioner vid initialiseringen, få träningen att konvergera snabbare och slutligen generera linjära regioner som bättre passar datamångfalden på syntetiska data. På EuroSAT-satellitdatamängden underlättar den föreslagna initialiseringsmetoden inte konvergensen för ResNet-18, men uppnår bättre prestanda med en genomsnittlig ökning av noggrannheten med 0,14% jämfört med förtränade vikter och 0,19% jämfört med He uniform initialisering. Neural Networks Linear Regions Expressivity Initialization Remote Sensing Neurala nätverk linjära regioner uttrycksfullhet initialisering fjärranalys Elektroteknik och elektronik
129	Extracting relevant answer phrases from text : For usage in reading comprehension question generation / Extrahering av relevanta svarsfraser från text : För användning vid generering av läsförståelsefrågor Kärrfelt, Filippa January 2022 (has links) This report presents a method for extracting answer phrases, suitable as answers to reading comprehension questions, from Swedish text. All code used to produce the results is available on github. The method is developed using a Swedish BERT, a pre-trained language model based on neural networks. The BERT model is fine-tuned for three different tasks; two variations of token classification for answer extraction, and one for sentence classification with the goal of identifying relevant sentences. The dataset used for fine-tuning consists of 1814 question and answer pairs posed on 598 different texts, partitioned into a training, a validation and a test set. The models are assessed individually and are furthermore combined, using a method based on roundtrip consistency, into a system for filtering extracted answer phrases. The results for each of the models, and for the system combining them are evaluated both on quantitative measures (precision, recall and Jaccard index) and qualitative measures. Within the qualitative evaluation we both look at results produced by the models and conduct structured human evaluation with the help of four external evaluators. The final answer extraction model achieves a precision of 0.02 and recall of 0.95, with an average Jaccard index of 0.55 between the extracted answer phrases and the targets. When applying the system for filtering the precision is 0.03, the recall 0.50 and the Jaccard index 0.62 on a subset of the test data. The answer extraction model achieves the same results as the baseline on precision, outperforms it on recall by a large margin, and has worse results than the baseline on Jaccard index. The method applying filtering, which is evaluated on a subset of the test set, has worse precision than the baseline but outperform it on both recall and Jaccard index. In the qualitative evaluation we detect some flaws in the grammatical correctness of the extracted answers, as over 50% of them are classified as not grammatically correct. The joint result of the two evaluators on suitability show that 32% of the grammatically correct answers are suitable as answer phrases. / I rapporten presenteras en metod för extrahering av svarsfraser lämpliga som svar till läsförståelsefrågor på svensk text. All kod använd för att producera resultaten finns tillgänglig på github. Metoden utgår från en svensk BERT, en tränad språkmodell baserad på neurala nätverk. BERT-modellen är finjusterad (“fine-tuned“) för tre olika uppgifter; två varianter av “token classification“ för extrahering av svarsfraser samt en för “sentence classification“ med målet att identifiera relevanta meningar. Datasetet som används för finjusteringen innehåller 1814 fråge- och svarspar baserade på 598 texter, uppdelat i ett tränings-, valideringsoch testset. Resultaten utvärderas separat för varje modell, och också för ett kombinerat system av de tre modellerna. I det kombinerade systemet extraherar en modell potentiella svarsfraser medans de andra två agerar som ett filter, baserat på en variant av “roundtrip consistency“. Resultaten för varje modell och för systemet för filtrering utvärderas både kvantitativt (på “precision“, “recall“ och Jaccard index) och kvalitativt. Fyra externa utvärderare rekryterades för utvärdering av resultaten på kvalitativa grunder. Modellen med bäst resultat når en precision av 0.02 och recall av 0.95, med ett snittvärde för Jaccard index av 0.55 mellan de extraherade och korrekta svarsfraserna. Med applicering av systemet för filtrering blir resultaten för precision 0.03, recall 0.50 och Jaccard index 0.62 på en delmängd av testdatat. Den BERT-baserade modellen för extrahering av svarsfraser når samma resultat som baseline på precision, bättre resultat på recall samt sämre resultat på Jaccard index. Resultaten för metoden med filtrering, som är utvärderad på en delmängd av testdatat, har sämre resultat än baseline på precision, men bättre resultat på recall och Jaccard index. I den kvalitativa utvärderingen upptäcker vi brister i den grammatiska korrektheten av de extraherade svarsfraserna, då mer än 50% av dem klassificeras som grammatiskt felaktiga. De sammantagna resultaten av utvärderingen av svarsfrasernas lämplighet visar att 32% av de svarsfraser som är grammatiskt korrekta är lämpliga som svarsfraser. Answer phrase extraction Question generation BERT Reading comprehension Neural networks Extrahering av svarsfraser Frågegenerering BERT Läsförståelse Neurala nätverk Computer Sciences Datavetenskap (datalogi)
130	Pricing collateralized loan obligation tranches using machine learning : Machine learning applied to financial data / Prissättning av collateralized loan obligation tranches med hjälp av maskininlärning : Artificiella neurala nätverk applicerade på finansiell data Enström, Marcus January 2022 (has links) Machine learning and neural networks have recently become very popular in a large category of domains, partly thanks to their ability to solve complex problems by finding patterns in data, but also due to an increase in computing power and data availability. Successful applications of machine learning include for example image classification, natural language processing, and product recommendation. Despite the potential upside of machine learning applied to financial data there exists relatively few articles published while the ones that do exist exhibit that there exists a potential for the tools that it provides. This thesis utilizes neural networks to price collateralized loan obligations which is a type of bond that is backed by a large pool of corporate loans, rather than being issued by a single company or government like a regular bond. The large pool of corporate loans and structure of a collateralized loan obligation makes it a good candidate for this type of research as it involves regressing a large number of variables into a final single real-valued price of the bond where the relations are not necessarily linear. The thesis establishes a relatively simple model and builds upon this using a state-of-the-art ensemble method while also exploring a volatility scaled loss function. The findings of this thesis are that artificial neural networks can price collateralized loan obligations using only their structural and loan pool data with an accuracy close to that of a human. Ensemble methods outperform non-ensemble methods and boost performance by up to 28% when only considering mean squared error while scaling the loss function with the inverse of market volatility does not boost performance. The best performing model can price a collateralized loan obligation tranche rated AAA with an average absolute error of 0.88 and an equity tranche with an average mean absolute error of 4.67. / Under de senaste åren har maskininlärning samt artificiella neurala nätverk blivit väldigt populära i många olika domäner. Detta är delvis tack vare deras förmåga att lösa komplexa problem genom att hitta mönster i data, men även tack vare en ökning i beräkningskraft samt att tillgängligheten av data har blivit bättre. Några exempel på områden där maskininlärning har applicerats med framgång är klassificering av bilder, språkteknologi samt produktrekommendationer. Trots att maskininlärning skulle kunna erbjuda en stor potentiell uppsida vid lyckad tillämpning på finansiella data finns relativt lite studier publicerade kring ämnet. De studier som däremot är publicerade visar på stora möjligheter inom området. Den här studien använder artificiella neurala nätverk för att prissätta ”collateralized loan obligations” (CLOs), som tyvärr inte har någon bra svensk översättning. En CLO utfärdar obligationer vars underliggande värde härstammar från en portfölj av företagslån, och är därmed ett finansiellt instrument. Strukturen av en CLO och dess underliggande lånportfölj ger upphov till en stor mängd data, vilket gör instrumentet till en bra kandidat för maskininlärning. Studien etablerar ett relativt enkelt neuralt nätverk som sedan används för ett jämföra med en ensemblemetod samt en modifierad loss funktion som tar höjd för volatilitet. Slutsatserna av den här studien är att neurala nätverk lyckas prissätta instrumenten näst intill lika bra som vad en människa skulle kunna göra med befintliga metoder som bygger på Monte Carlo simulering. Däremot är studiens metod inte lika beroende av antaganden som gör den befintliga metoden väldigt känslig. Vidare så bidrar ensemblemetoden som används till att minska det genomsnittliga felet i kvadrat med upp till 28%. Att ta höjd för volatilitet vid inlärning bidar inte till att minska felet. Collateralized loan obligation Machine learning Artificial neural networks Financial data Ensemble methods Collateralized loan obligation Maskininlärning Artificiella neurala nätverk Finansiell data Ensemblemetoder Computer and Information Sciences Data- och informationsvetenskap

Search results