• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • Tagged with
  • 21
  • 21
  • 21
  • 21
  • 18
  • 16
  • 13
  • 13
  • 12
  • 8
  • 7
  • 7
  • 6
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Deep Learning for Prediction of Falling Blood Pressure During Surgery : Prediction of Falling Blood Pressure

Zandpour, Navid January 2022 (has links)
Perioperative hypotension corresponds to critically low blood pressure events during the pre, intra and postoperative periods. It is a common side effect of general anaesthesia and is strongly associated with an increased risk of postoperative complications, such as acute kidney injury, myocardial injury and in the worst case death. Early treatment of hypotension, preferably even before onset, is crucial in order to reduce the risk and severity of its associated complications. This work explores methods for predicting the onset of hypotension which could serve as a warning mechanism for clinicians managing the patient’s hemodynamics. More specifically, we present methods using only the arterial blood pressure curve to predict two different definitions of hypotension. The presented methods are based on a Convolutional Neural Network (CNN) trained on data from patients undergoing high-risk surgery. The experimental results show that our network can predict hypotension with 70% sensitivity and 80% specificity 5 minutes before onset. The prediction performance is then quickly reduced for longer prediction times, resulting in 60% sensitivity and 80% specificity 15 minutes before onset. / Perioperativ hypotension motsvarar perioder av kritiskt lågt blodtryck före, under och efter operation. Det är en vanlig bieffekt av generell anestesi och är starkt associerad med ökat risk av postoperativa komplikationer, så som akut leverskada, myokardskada och i värsta fall dödsfall. Tidig behandling av hypotension, helst innan perioden börjar, är avgörande för att minska risken och allvarlighetsgraden av postoperativa komplikationer. Det här arbetet utforskar metoder för att förutspå perioder av hypotension, vilket skulle kunna används för att varna vårdpersonal som ansvarar för patientens hemodynamiska övervakning. Mer specifikt så presenteras metoder som endast använder artärblodtryck för att förutspå två olika definitioner av hypotension. Metoderna som presenteras är baserade på ett Convolutional Neural Network (CNN) som tränats på data från patienter som genomgår högriskoperation. De experementella resultaten visar att våran modell kan förutspå hypotension med 70% sensitivitet och 80% specificitet 5 minuter i förväg. Förmågan att förutspå hypotension avtar sedan snabbt för längre prediktionstider, vilket resulterar i 60% sensitivitet och 80% specificitet 15 minuter i förväg.
12

Classifying and Comparing Latent Space Representation of Unstructured Log Data. / Klassificering och jämförelse av latenta rymdrepresentationer av ostrukturerad loggdata.

Sharma, Bharat January 2021 (has links)
This thesis explores and compares various methods for producing vector representation of unstructured log data. Ericsson wanted to investigate machine learning methods to analyze logs produced by their systems to reduce the cost and effort required for manual log analysis. Four NLP methods were used to produce vector embeddings for logs: Doc2Vec, DAN, XLNet, and RoBERTa. Also, a Random forest classifier was used to classify those embeddings. The experiments were performed on three different datasets and the results showed that the performance of the models varied based on the dataset being used. The results also show that in the case of log data, fine-tuning makes the transformer models computationally heavy and the performance gain is very low. RoBERTa without fine-tuning produced optimal vector representations for the first and third datasets used whereas DAN had better performance for the second dataset. The study also concluded that the NLP models were able to better understand and classify the third dataset as it contained more plain text information as contrasted against more technical and less human readable datasets. / I den här uppsatsen undersöks och jämförs olika metoder för att skapa vektorrepresentationer av ostrukturerad loggdata. Ericsson vill undersöka om det är möjligt att använda tekniker inom maskininlärning för att analysera loggdata som produceras av deras nuvarande system och på så sätt underlätta och minska kostnaderna för manuell logganalys. Fyra olika språkteknologier undersöks för att skapa vektorrepresentationer av loggdata: Doc2vec, DAN, XLNet and RoBERTa. Dessutom används en Random Forest klassificerare för att klassificera vektorrepresentationerna. Experimenten utfördes på tre olika datamängder och resultaten visade att modellernas prestanda varierade baserat på datauppsättningen som används. Resultaten visar också att finjustering av transformatormodeller gör dem beräkningskrävande och prestandavinsten är liten.. RoBERTa utan finjustering producerade optimala vektorrepresentationer för de första och tredje dataset som användes, medan DAN hade bättre prestanda för det andra datasetet. Studien visar också att språkmodellerna kunde klassificera det tredje datasetet bättre då det innehöll mer information i klartext jämfört med mer tekniska och mindre lättlästa dataseten.
13

Enhancing Deep Active Learning Using Selective Self-Training For Image Classification

Panagiota Mastoropoulou, Emmeleia January 2019 (has links)
A high quality and large scale training data-set is an important guarantee to teach an ideal classifier for image classification. Manually constructing a training data- set  with  appropriate  labels  is  an  expensive  and  time  consuming  task.    Active learning techniques have been used to improved the existing models by reducing the  number  of  required  annotations.    The  present  work  aims  to  investigate the  way  to  build  a  model  for  identifying  and  utilizing  potential  informative and  representativeness  unlabeled  samples.    To  this  end,  two  approaches  for deep image classification using active learning are proposed, implemented and evaluated.  The two versions of active leaning for deep image classification differ in  the  input  space  exploration  so  as  to  investigate  how  classifier  performance varies  when  automatic  labelization  on  the  high  confidence  unlabeled  samples is  performed.    Active  learning  heuristics  based  on  uncertainty  measurements on low confidence predicted samples,  a pseudo-labelization technique to boost active  learning  by  reducing  the  number  of  human  interactions  and  knowledge transferring  form  pre-trained  models,  are  proposed  and  combined  into  our methodology.  The experimental results on two benchmark image classification data-sets  verify  the  effectiveness  of  the  proposed  methodology.    In  addition, a  new  pool-based  active  learning  query  strategy  is  proposed.     Dealing  with retraining-based algorithms we define a ”forgetting event” to have occurred when an  individual  training  example  transitions  the  maximum  predicted  probability class over the course of retraining. We integrated the new approach with the semi- supervised learning method in order to tackle the above challenges and observedgood performance against existing methods. / En  högkvalitativ  och  storskalig  träningsdataset  är  en  viktig  garanti  för  att  bli en  idealisk  klassificerare  för  bildklassificering.     Att  manuellt  konstruera  en träningsdatasats  med  lämpliga  etiketter  är  en  dyr  och  tidskrävande  uppgift. Aktiv  inlärningstekniker  har  använts  för  att  förbättra  de  befintliga  modellerna genom att minska antalet nödvändiga annoteringar. Det nuvarande arbetet syftar till  att  undersöka  sättet  att  bygga  en  modell  för  att  identifiera  och  använda potentiella informativa och representativa omärkta prover.   För detta ändamål föreslås, genomförs och genomförs två metoder för djup bildklassificering med aktivt  lärande  utvärderas.      De  två  versionerna  av  aktivt  lärande  för  djup bildklassificering  skiljer  sig  åt  i  undersökningen  av  ingångsutrymmet  för  att undersöka hur klassificeringsprestanda varierar när automatisk märkning på de omärkta  proverna  med  hög  konfidens  utförs.   Aktiv  lärande  heuristik  baserad på  osäkerhetsmätningar  på  förutsagda  prover  med  låg  konfidens,  en  pseudo- märkningsteknik för att öka aktivt lärande genom att minska antalet mänskliga interaktioner  och  kunskapsöverföring  av  förutbildade  modeller,  föreslås  och kombineras   i   vår   metod.      Experimentella   resultat   på   två   riktmärken   för bildklassificering datauppsättningar verifierar effektiviteten hos den föreslagna metodiken.   Dessutom föreslås en ny poolbaserad aktiv inlärningsfrågestrategi. När  vi  använder  omskolningsbaserade  algoritmer  definierar  vi  en  ”glömmer händelse” som skulle ha inträffat när ett individuellt träningsexempel överskrider den maximala förutsagda sannolikhetsklassen under omskolningsprocessen.  Vi integrerade den nya metoden med den semi-övervakad inlärning för att hanteraovanstående utmaningar och observeras bra prestanda mot befintliga metoder.
14

Analyzing Radial Basis Function Neural Networks for predicting anomalies in Intrusion Detection Systems / Utvärdera prestanda av radiella basfunktionsnätverk för intrångsdetekteringssystem

Kamat, Sai Shyamsunder January 2019 (has links)
In the 21st century, information is the new currency. With the omnipresence of devices connected to the internet, humanity can instantly avail any information. However, there are certain are cybercrime groups which steal the information. An Intrusion Detection System (IDS) monitors a network for suspicious activities and alerts its owner about an undesired intrusion. These commercial IDS’es react after detecting intrusion attempts. With the cyber attacks becoming increasingly complex, it is expensive to wait for the attacks to happen and respond later. It is crucial for network owners to employ IDS’es that preemptively differentiate a harmless data request from a malicious one. Machine Learning (ML) can solve this problem by recognizing patterns in internet traffic to predict the behaviour of network users. This project studies how effectively Radial Basis Function Neural Network (RBFN) with Deep Learning Architecture can impact intrusion detection. On the basis of the existing framework, it asks how well can an RBFN predict malicious intrusive attempts, especially when compared to contemporary detection practices.Here, an RBFN is a multi-layered neural network model that uses a radial basis function to transform input traffic data. Once transformed, it is possible to separate the various traffic data points using a single straight line in extradimensional space. The outcome of the project indicates that the proposed method is severely affected by limitations. E.g. the model needs to be fine tuned over several trials to achieve a desired accuracy. The results of the implementation show that RBFN is accurate at predicting various cyber attacks such as web attacks, infiltrations, brute force, SSH etc, and normal internet behaviour on an average 80% of the time. Other algorithms in identical testbed are more than 90% accurate. Despite the lower accuracy, RBFN model is more than 94% accurate at recording specific kinds of attacks such as Port Scans and BotNet malware. One possible solution is to restrict this model to predict only malware attacks and use different machine learning algorithm for other attacks. / I det 21: a århundradet är information den nya valutan. Med allnärvaro av enheter anslutna till internet har mänskligheten tillgång till information inom ett ögonblick. Det finns dock vissa grupper som använder metoder för att stjäla information för personlig vinst via internet. Ett intrångsdetekteringssystem (IDS) övervakar ett nätverk för misstänkta aktiviteter och varnar dess ägare om ett oönskat intrång skett. Kommersiella IDS reagerar efter detekteringen av ett intrångsförsök. Angreppen blir alltmer komplexa och det kan vara dyrt att vänta på att attackerna ska ske för att reagera senare. Det är avgörande för nätverksägare att använda IDS:er som på ett förebyggande sätt kan skilja på oskadlig dataanvändning från skadlig. Maskininlärning kan lösa detta problem. Den kan analysera all befintliga data om internettrafik, känna igen mönster och förutse användarnas beteende. Detta projekt syftar till att studera hur effektivt Radial Basis Function Neural Networks (RBFN) med Djupinlärnings arkitektur kan påverka intrångsdetektering. Från detta perspektiv ställs frågan hur väl en RBFN kan förutsäga skadliga intrångsförsök, särskilt i jämförelse med befintliga detektionsmetoder.Här är RBFN definierad som en flera-lagers neuralt nätverksmodell som använder en radiell grundfunktion för att omvandla data till linjärt separerbar. Efter en undersökning av modern litteratur och lokalisering av ett namngivet dataset användes kvantitativ forskningsmetodik med prestanda indikatorer för att utvärdera RBFN: s prestanda. En Random Forest Classifier algorithm användes också för jämförelse. Resultaten erhölls efter en serie finjusteringar av parametrar på modellerna. Resultaten visar att RBFN är korrekt när den förutsäger avvikande internetbeteende i genomsnitt 80% av tiden. Andra algoritmer i litteraturen beskrivs som mer än 90% korrekta. Den föreslagna RBFN-modellen är emellertid mycket exakt när man registrerar specifika typer av attacker som Port Scans och BotNet malware. Resultatet av projektet visar att den föreslagna metoden är allvarligt påverkad av begränsningar. T.ex. så behöver modellen finjusteras över flera försök för att uppnå önskad noggrannhet. En möjlig lösning är att begränsa denna modell till att endast förutsäga malware-attacker och använda andra maskininlärnings-algoritmer för andra attacker.
15

Categorization of Swedish e-mails using Supervised Machine Learning / Kategorisering av svenska e-postmeddelanden med användning av övervakad maskininlärning

Mann, Anna, Höft, Olivia January 2021 (has links)
Society today is becoming more digitalized, and a common way of communication is to send e-mails. Currently, the company Auranest has a filtering method for categorizing e-mails, but the method is a few years old. The filter provides a classification of valuable e-mails for jobseekers, where employers can make contact. The company wants to know if the categorization can be performed with a different method and improved. The degree project aims to investigate whether the categorization can be proceeded with higher accuracy using machine learning. Three supervised machine learning algorithms, Naïve Bayes, Support Vector Machine (SVM), and Decision Tree, have been examined, and the algorithm with the highest results has been compared with Auranest's existing filter. Accuracy, Precision, Recall, and F1 score have been used to determine which machine learning algorithm received the highest results and in comparison, with Auranest's filter. The results showed that the supervised machine learning algorithm SVM achieved the best results in all metrics. The comparison between Auranest's existing filter and SVM showed that SVM performed better in all calculated metrics, where the accuracy showed 99.5% for SVM and 93.03% for Auranest’s filter. The comparative results showed that accuracy was the only factor that received similar results. For the other metrics, there was a noticeable difference. / Dagens samhälle blir alltmer digitaliserat och ett vanligt kommunikationssätt är att skicka e-postmeddelanden. I dagsläget har företaget Auranest ett filter för att kategorisera e-postmeddelanden men filtret är några år gammalt. Användningsområdet för filtret är att sortera ut värdefulla e-postmeddelanden för arbetssökande, där kontakt kan ske från arbetsgivare. Företaget vill veta ifall kategoriseringen kan göras med en annan metod samt förbättras. Målet med examensarbetet är att undersöka ifall filtreringen kan göras med högre träffsäkerhet med hjälp av maskininlärning. Tre övervakade maskininlärningsalgoritmer, Naïve Bayes, Support Vector Machine (SVM) och Decision Tree, har granskats och algoritmen med de högsta resultaten har jämförts med Auranests befintliga filter. Träffsäkerhet, precision, känslighet och F1-poäng har använts för att avgöra vilken maskininlärningsalgoritm som gav högst resultat sinsemellan samt i jämförelse med Auranests filter. Resultatet påvisade att den övervakade maskininlärningsmetoden SVM åstadkom de främsta resultaten i samtliga mätvärden. Jämförelsen mellan Auranests befintliga filter och SVM visade att SVM presterade bättre i alla kalkylerade mätvärden, där träffsäkerheten visade 99,5% för SVM och 93,03% för Auranests filter. De jämförande resultaten visade att träffsäkerheten var den enda faktorn som gav liknande resultat. För de övriga mätvärdena var det en märkbar skillnad.
16

Evaluating machine learning models for time series forecasting in smart buildings / Utvärdera maskininlärningsmodeller för tidsserieprognos inom smarta byggnader

Balachandran, Sarugan, Perez Legrand, Diego January 2023 (has links)
Temperature regulation in buildings can be tricky and expensive. A common problem when heating buildings is that an unnecessary amount of energy is supplied. This waste of energy is often caused by a faulty regulation system. This thesis presents a machine learning ap- proach, using time series data, to predict the energy supply needed to keep the inside tem- perature at around 21 degrees Celsius. The machine learning models LSTM, Ensemble LSTM, AT-LSTM, ARIMA, and XGBoost were used for this project. The validation showed that the ensemble LSTM model gave the most accurate predictions with the Mean Absolute Error of 22486.79 (Wh) and Symmetric Mean Absolute Percentage Error of 5.41 % and was the model used for comparison with the current system. From the performance of the different models, the conclusion is that machine learning can be a useful tool to pre- dict the energy supply. But on the other hand, there exist other complex factors that need to be given more attention to, to evaluate the model in a better way. / Temperaturreglering i byggnader kan vara knepigt och dyrt. Ett vanligt problem vid upp- värmning av byggnader är att det tillförs onödigt mycket energi. Detta energispill orsakas oftast av ett felaktigt regleringssystem. Denna rapport studerar möjligheten att, med hjälp av tidsseriedata, kunna träna olika maskininlärningmodeller för att förutsäga den energitill- försel som behövs för att hålla inomhustemperaturen runt 21 grader Celsius. Maskininlär- ningsmodellerna LSTM, Ensemble LSTM, AT-LSTM, ARIMA och XGBoost användes för detta projekt. Valideringen visade att ensemble LSTM-modellen gav den mest exakta förut- sägelserna med Mean Absolute Error på 22486.79 (Wh) och Symmetric Mean Absolute Percentage Error på 5.41% och var modellen som användes för att jämföra med det befint- liga systemet. Från modellernas prestation är slutsatsen att maskininlärning kan vara ett an- vändbart verktyg för att förutsäga energitillförseln. Men å andra sidan finns det andra kom- plexa faktorer som bör tas hänsyn till så att modellen kan evalueras på ett bättre sätt.
17

Advancing Keyword Clustering Techniques: A Comparative Exploration of Supervised and Unsupervised Methods : Investigating the Effectiveness and Performance of Supervised and Unsupervised Methods with Sentence Embeddings / Jämförande analys av klustringstekniker för klustring av nyckelord : Undersökning av effektiviteten och prestandan hos övervakade och oövervakade metoder med inbäddade ord

Caliò, Filippo January 2023 (has links)
Clustering keywords is an important Natural Language Processing task that can be adopted by several businesses since it helps to organize and group related keywords together. By clustering keywords, businesses can better understand the topics their customers are interested in. This thesis project provides a detailed comparison of two different approaches that might be used for performing this task and aims to investigate whether having the labels associated with the keywords improves the clusters obtained. The keywords are clustered using both supervised learning, training a neural network and applying community detection algorithms such as Louvain, and unsupervised learning algorithms, such as HDBSCAN and K-Means. The evaluation is mainly based on metrics like NMI and ARI. The results show that supervised learning can produce better clusters than unsupervised learning. By looking at the NMI score, the supervised learning approach composed by training a neural network with Margin Ranking Loss and applying Kruskal achieves a slightly better score of 0.771 against the 0.693 of the unsupervised learning approach proposed, but by looking at the ARI score, the difference is more relevant. HDBSCAN achieves a lower score of 0.112 compared to the supervised learning approach with the Margin Ranking Loss (0.296), meaning that the clusters formed by HDBSCAN may lack meaningful structure or exhibit randomness. Based on the evaluation metrics, the study demonstrates that supervised learning utilizing the Margin Ranking Loss outperforms unsupervised learning techniques in terms of cluster accuracy. However, when trained with a BCE loss function, it yields less accurate clusters (NMI: 0.473, ARI: 0.108), highlighting that the unsupervised algorithms surpass this particular supervised learning approach. / Klustring av nyckelord är en viktig uppgift inom Natural Language Processing som kan användas av flera företag eftersom den hjälper till att organisera och gruppera relaterade nyckelord tillsammans. Genom att klustra nyckelord kan företag bättre förstå vilka ämnen deras kunder är intresserade av. Detta examensarbete ger en detaljerad jämförelse av två olika metoder som kan användas för att utföra denna uppgift och syftar till att undersöka om de etiketter som är associerade med nyckelorden förbättrar de kluster som erhålls. Nyckelorden klustras med hjälp av både övervakad inlärning, träning av ett neuralt nätverk och tillämpning av algoritmer för community-detektering, t.ex. Louvain, och algoritmer för oövervakad inlärning, t.ex. HDBSCAN och KMeans. Utvärderingen baseras huvudsakligen på mått som NMI och ARI. Resultaten visar att övervakad inlärning kan ge bättre kluster än oövervakad inlärning. Om man tittar på NMI-poängen uppnår den övervakade inlärningsmetoden som består av att träna ett neuralt nätverk med Margin Ranking Loss och tillämpa Kruskal en något bättre poäng på 0,771 jämfört med 0,693 för den föreslagna oövervakade inlärningsmetoden, men om man tittar på ARI-poängen är skillnaden mer relevant. HDBSCAN uppnår en lägre poäng på 0,112 jämfört med den övervakade inlärningsmetoden med Margin Ranking Loss (0,296), vilket innebär att de kluster som bildas av HDBSCAN kan sakna meningsfull struktur eller uppvisa slumpmässighet. Baserat på utvärderingsmetrikerna visar studien att övervakad inlärning som använder Margin Ranking Loss överträffar tekniker för oövervakad inlärning när det gäller klusternoggrannhet. När den tränas med en BCEförlustfunktion ger den dock mindre exakta kluster (NMI: 0,473, ARI: 0,108), vilket belyser att de oövervakade algoritmerna överträffar denna speciella övervakade inlärningsmetod.
18

Automatic Pronoun Resolution for Swedish / Automatisk pronomenbestämning på svenska

Ahlenius, Camilla January 2020 (has links)
This report describes a quantitative analysis performed to compare two different methods on the task of pronoun resolution for Swedish. The first method, an implementation of Mitkov’s algorithm, is a heuristic-based method — meaning that the resolution is determined by a number of manually engineered rules regarding both syntactic and semantic information. The second method is data-driven — a Support Vector Machine (SVM) using dependency trees and word embeddings as features. Both methods are evaluated on an annotated corpus of Swedish news articles which was created as a part of this thesis. SVM-based methods significantly outperformed the implementation of Mitkov’s algorithm. The best performing SVM model relies on tree kernels applied to dependency trees. The model achieved an F1-score of 0.76 for the positive class and 0.9 for the negative class, where positives are pairs of pronoun and noun phrase that corefer, and negatives are pairs that do not corefer. / Rapporten beskriver en kvantitativ analys som genomförts för att jämföra två olika metoder för automatisk pronomenbestämning på svenska. Den första metoden, en implementation av Mitkovs algoritm, är en heuristisk metod vilket innebär att pronomenbestämningen görs med ett antal manuellt utformade regler som avser att fånga både syntaktisk och semantisk information. Den andra metoden är datadriven, en stödvektormaskin (SVM) som använder dependensträd och ordvektorer som särdrag. Båda metoderna utvärderades med hjälp av en annoterad datamängd bestående av svenska nyhetsartiklar som skapats som en del av denna avhandling. Den datadrivna metoden överträffade Mitkovs algoritm. Den SVM-modell som ger bäst resultat bygger på trädkärnor som tillämpas på dependensträd. Modellen uppnådde ett F1-värde på 0.76 för den positiva klassen och 0.9 för den negativa klassen, där de positiva datapunkterna utgörs av ett par av pronomen och nominalfras som korefererar, och de negativa datapunkterna utgörs av par som inte korefererar.
19

Semi- Supervised and Fully Supervised Learning for Fashion Images : A Comparison Study

Mannerstråle, Carl January 2021 (has links)
Image recognition is a subfield in computer vision, representing a set of methods for analyzing images. Image recognition systems allow computers to automatically find patterns and draw conclusions directly from images. The recent growth of the ecommerce fashion industry has sparked an increased interest from research community, and subsequently industry participants have started to apply image recognition technologies to automate various processes and applications like clothing categorization, attribute tagging, automatic product recommendations and many more. However, most research have been concerned with supervised learning, which require large labeled datasets. This thesis investigates an alternative approach which could potentially mitigate the reliance of large labeled datasets. Specifically, it investigates how Semi- Supervised Learning (SSL) compares to supervised learning in the context of fashion category classification. This thesis demonstrates that a state- of- the- art SSL method to train Deep Convolutional Neural Networks can provide very close accuracy to supervised learning by a margin of approximately 1 to 3 percent for the considered set of images. / Bildigenkänning är ett delområde inom datorseende, det representerar en uppsättning metoder för att analysera bilder. Bildigenkänningssystem tillåter datorer att automatiskt hitta mönster och dra slutsatser direkt från bilder. Den senaste tillväxten inom mode e- handeln har ökat forskningsintresset inom området, detta har bidragit till att aktörer på marknaden har börjat applicera bildigenkänningstekniker för att automatisera diverse processer och applikationer, som till exempel klädeskategorisering, märkning av attribut, automatiska produktrekommendationer med flera. Dock så har majoriteten av all forskning inom detta område har fokuserat på övervakad inlärning, vilket kräver stora annoterade dataset, den här uppsatsen undersöker istället en alternativ metod, som potentiellt kan minska beroendet på stora annoterade dataset. Specifikt så undersöks och jämförs semiövervakad inlärning med övervakad inlärning vid kategorisering av modebilder. Resultaten visar att en toppmodern semiövervakad inlärningsmetod för att träna ett djupt neuralt nätverk kan åstadkomma en precision väldigt nära övervakad inlärning, med en marginal på ungefär 1 till 3 procent för de använda modebilderna.
20

Multilingual Speech Emotion Recognition using pretrained models powered by Self-Supervised Learning / Flerspråkig känsloigenkänning från tal med hjälp av förtränade tal-modeller baserat på själv-övervakad Inlärning

Luthman, Felix January 2022 (has links)
Society is based on communication, for which speech is the most prevalent medium. In day to day interactions we talk to each other, but it is not only the words spoken that matters, but the emotional delivery as well. Extracting emotion from speech has therefore become a topic of research in the area of speech tasks. This area as a whole has in recent years adopted a Self- Supervised Learning approach for learning speech representations from raw speech audio, without the need for any supplementary labelling. These speech representations can be leveraged for solving tasks limited by the availability of annotated data, be it for low-resource language, or a general lack of data for the task itself. This thesis aims to evaluate the performances of a set of pre-trained speech models by fine-tuning them in different multilingual environments, and evaluating their performance thereafter. The model presented in this paper is based on wav2vec 2.0 and manages to correctly classify 86.58% of samples over eight different languages and four emotional classes when trained on those same languages. Experiments were conducted to garner how well a model trained on seven languages would perform on the one left out, which showed that there is quite a large margin of similarity in how different cultures express vocal emotions, and further investigations showed that as little as just a few minutes of in-domain data is able to increase the performance substantially. This shows promising results even for niche languages, as the amount of available data may not be as large of a hurdle as one might think. With that said, increasing the amount of data from minutes to hours does still garner substantial improvements, albeit to a lesser degree. / Hela vårt samhälle är byggt på kommunikation mellan olika människor, varav tal är det vanligaste mediet. På en daglig basis interagerar vi genom att prata med varandra, men det är inte bara orden som förmedlar våra intentioner, utan även hur vi uttrycker dem. Till exempel kan samma mening ge helt olika intryck beroende på ifall den sägs med ett argt eller glatt tonfall. Talbaserad forskning är ett stort vetenskapligt område i vilket talbaserad känsloigenkänning vuxit fram. Detta stora tal-område har under de senaste åren sett en tendens att utnyttja en teknik kallad själv-övervakad inlärning för att utnyttja omärkt ljuddata för att lära sig generella språkrepresentationer, vilket kan liknas vid att lära sig strukturen av tal. Dessa representationer, eller förtränade modeller, kan sedan utnyttjas som en bas för att lösa problem med begränsad tillgång till märkt data, vilket kan vara fallet för sällsynta språk eller unika uppgifter. Målet med denna rapport är att utvärdera olika applikationer av denna representations inlärning i en flerspråkig miljö genom att finjustera förtränade modeller för känsloigenkänning. I detta syfte presenterar vi en modell baserad på wav2vec 2.0 som lyckas klassifiera 86.58% av ljudklipp tagna från åtta olika språk över fyra olika känslo-klasser, efter att modellen tränats på dessa språk. För att avgöra hur bra en modell kan klassifiera data från ett språk den inte tränats på skapades modeller tränade på sju språk, och evaluerades sedan på det språk som var kvar. Dessa experiment visar att sättet vi uttrycker känslor mellan olika kulturer är tillräckligt lika för att modellen ska prestera acceptabelt även i det fall då modellen inte sett språket under träningsfasen. Den sista undersökningen utforskar hur olika mängd data från ett språk påverkar prestandan på det språket, och visar att så lite som endast ett par minuter data kan förbättra resultet nämnvärt, vilket är lovande för att utvidga modellen för fler språk i framtiden. Med det sagt är ytterligare data att föredra, då detta medför fortsatta förbättringar, om än i en lägre grad.

Page generated in 0.0903 seconds