• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 2
  • Tagged with
  • 10
  • 10
  • 8
  • 7
  • 6
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Cyklisters upplevda otrygghet i urban miljö – En studie med klusteranalys

Persson Masud, Alexander, Olsson, Viktor January 2019 (has links)
Lunds kommun har som mål att vara en ledande kommun i Sverige när det kommer till att främja användandet av cykeln som transportmedel. Genom maskininlärningstypen klusteranalys undersöker vi om det är möjligt att analysera data generad av cyklister i Lund, för att kartlägga cyklisters upplevda otrygghet i trafiken. Syftet med att utföra klusteranalysen är att kostnadseffektivare kunna vidareutveckla en säker miljö för cyklister. Detta gör vi genom att baserat på algoritmen k-means utvecklat två olika ansatser. Dels en ansats baserad på euklidisk distans och en ansats som är punktbaserad. Dessa ansatser kontrollerar storleken på kluster för att matcha de geografiska ytor som vi arbetade med. Den euklidiska ansatsen genererar kluster baserat på storlek i meter medans den punktbaserade ansatsen genererar kluster efter antalet punkter i ett kluster. I våra experiment pekar resultaten på att den euklidiska ansatsen är bättre lämpad för klusteranalyser. Vi anser även att användbarheten av att utföra klusteranalyser med våra ansatser inte är tillräcklig för att klusteranalyser ska bli mer användbart än icke maskininlärningsbaserade analyser. Genom att komplettera ytterligare variabler i datamängden och jämföra klusteranalyser över tid så anser vi att klusteranalys kan få ett mervärde. / The municipality of Lund strives to be a leading municipality in Sweden regarding bicycle usage as a means of transportation. With the machine learning type cluster analysis, we want to examine the possibility of analysing data generated by cyclist in Lund in order to understand cyclists perceived insecurity in traffic. The purpose of performing cluster analysis was to more cost efficiently further enhance a safer environment for cyclists. We perform our analysis based on the K-means algorithm and further develop two different methods. The first method is based on Euclidian distance and the second method is based on the amount of datapoints in a given cluster. These methods control for the size of a cluster in order to match the geographical space we are working with such as roads and crossings. The Euclidian method generates clusters based on size in meters and the other method generates clusters based on amount of datapoints. In our experiment the result shows that the Euclidian method is more suited for cluster analysis. We also believe that the usability of cluster analysis with our methods isn't sufficient in order for us to believe that cluster analysis is more usable than none machine learning analysis. By adding additional variables to the data collection and comparing cluster analyses over time we believe that cluster analysis could be of more value.
2

Övervakad namntaggning med domänspecifik träningsdata / Supervised named-entity recognition with domain-specific training data

Persson, Adam January 2016 (has links)
Övervakad maskininlärning har gett goda resultat för automatisk namntaggning. Detta kräver dock manuellt annoterad träningsdata, vilket är krävande att ta fram. Studier har visat att likhet mellan träningsdata och testdata är viktigt för att uppnå bra resultat, men normalt sett tränas system alltid med så mycket data som möjligt, utan hänsyn till dess relevans. Syftet med denna studie är att undersöka om bättre namntaggning kan uppnås genom att utesluta de delar av träningsdatan som inte tillhör samma textdomän som testdatan. För att genomföra detta konstrueras ett system med multinomial logistisk regression som tränas och testas på Stockholm-Umeå Corpus enligt både traditionell och föreslagen metod. Undersökningen visar en liten men signifikant försämring vid användning av enbart domänspecifik träningsdata, ett resultat som dock inte är genomgående för alla delar av undersökningen. Den stora fördelen av att reducera träningsdatan är dock att det ökar maskininlärningens hastighet. För att kunna utnyttja detta föreslås att namntaggning föregås av textklassificering.
3

Anomaly Detection in Riding Behaviours : Using Unsupervised Machine Learning Methods on Time Series Data from Micromobility Services

Hansson, Indra, Congreve Lifh, Julia January 2022 (has links)
The global micromobility market is a fast growing market valued at USD 40.19 Billion in 2020. As the market grows, it is of great importance for companies to gain market shares in order to stay competitive and be the first choice within micromobility services. This can be achieved by, e.g., offering a safe micromobility service, for both riders and other road users. With state-of-the-art technology, accident prevention and preventing misuse of scooters and cities’ infrastructure is achievable. This study is conducted in collaboration with Voi Technology, a Swedish micromobility company that is committed to eliminate all serious injuries and fatalities in their value chain by 2030. Given such an ambition, the aim of the thesis is to evaluate the possibility of using unsupervised machine learning for anomaly detection with sensor data, to distinguish abnormal and normal riding behaviours. The study evaluates two machine learning algorithms; isolation forest and artificial neural networks, namely autoencoders. Beyond assessing the models ability to detect abnormal riding behaviours in general, they are evaluated based on their ability to find certain behaviours. By simulating different abnormal riding behaviours, model evaluation can be performed. The data preparation performed for the models include transforming the time series data into non-overlapping windows of a specific size containing descriptive statistics. The result obtained shows that finding a one-size-fits all type of anomaly detection model did not work as desired for either the isolation forest or the autoencoder. Further, the result indicate that one of the abnormal riding behaviours appears to be easier to distinguish, which motivates evaluating models created with the aim of distinguishing that specific behaviour. Hence, a simple moving average is also implemented to explore the performance of a very basic forecasting method. For this method, a similar data transformation as previously described is not performed as it utilises a sliding window of specific size, which is run on a single feature corresponding to an entire scooter ride. The result show that it is possible to isolate one type of abnormal riding behaviour using the autoencoder model. Additionally, the simple moving average model can also be utilised to detect the behaviour in question. Out of the two models, it is recommended to deploy a simple moving average due to its simplicity. / Den globala mikromobilitetsmarknaden är en snabbt växande marknad som år 2020 värderades till 40,19 miljarder USD. I takt med att marknaden växer så ökar också kraven bland företag att erbjuda produkter och tjänster av hög kvalitet, för att  erhålla en stark position på marknaden, vara konkurrenskraftiga och förbli ett förstahandsval hos sina kunder. Detta kan uppnås genom att bland annat erbjuda mikromobilitetstjänster som är säkra, för både föraren och andra trafikanter. Med hjälp av den senaste tekniken kan olyckor förebyggas och skadligt bruk av skotrar och städers infrastruktur förhindras. Följande studie utförs i samarbete med Voi Technology, ett svenskt mikromobilitetsföretag som har åtagit sig ansvaret att eliminera samtliga allvarliga skador och dödsfall i deras värdekedja till och med år 2030. I linje med en sådan ambition, är syftet med avhandlingen att utvärdera möjligheten att använda oövervakad maskininlärning för anomalidetektering bland sensordata, för att särskilja onormala och normala körbeteenden. Studien utvärderar två maskininlärningsalgoritmer; isolation forest och artificiella neurala nätverk, mer specifikt autoencoders. Utöver att bedöma modellernas förmåga att upptäcka onormala körbeteenden i allmänhet, utvärderas modellerna utifrån deras förmåga att hitta särskilda körbeteenden. Genom att simulera olika onormala körbeteenden kan modellerna evalueras. Dataförberedelsen som utförs för modellerna inkluderar omvandling av den råa tidsseriedatan till icke överlappande fönster av specifik storlek, bestående av beskrivande statistik. Det erhållna resultatet visar att varken isolation forest eller autoencodern presterar som förväntat samt att önskan om att hitta en generell modell som klarar av att detektera anomalier av olika karaktär inte verkar uppfyllas. Vidare indikerar resultatet på att ett visst onormalt körbeteende verkar enklare att särskilja än resterande, vilket motiverar att utvärdera modeller skapade i syfte att detektera det specifika beteendet. Följaktligen implementeras därför ett glidande medelvärde för att utforska prestandan hos en mycket grundläggande prediktionsmetod. För denna metod utförs inte den tidigare nämnda datatransformationen eftersom metoden använder ett glidande medelvärde som appliceras på en variabel tillhörande en fullständig åktur.  Följande analys visar att autoencoder modellen klarar av att urskilja denna typ av onormalt körbeteende. Resultatet visar även att ett glidande medelvärde klarar av att detektera körbeteendet i fråga. Av de två modellerna rekommenderas en implementering av ett glidande medelvärdet på grund av dess enkelhet.
4

A semi-supervised approach to dialogue act classification using K-Means+HMM / En delvis övervakad metod för klassificering av dialoghandlingar: K-Means+HMM

Sigova, Elizaveta January 2016 (has links)
Dialogue act (DA) classification is an important step in the process of developing dialog systems. DA classification is a problem usually solved by supervised machine learning (ML) approaches that all require hand labeled data. Since hand labeling data is a resource-intensive task, many have proposed to focus on unsupervised or semi-supervised ML approaches to solve the problem of DA classification. This master’s thesis explores a novel method for semi-supervised approach to DA classification: K-Means+HMM. The method combines K- Means and Hidden Markov Model (HMM) modeling in addition to abstracting away the words in the utterances to their part-of-speech (POS) tags and the utterances to their cluster labels produced by K-Means prior to HMM training. The focus are the following hypotheses: H1) incorporating context of the utterances leads to better results (HMM is a method specifically used for sequential data and thus incorporates context, while K-Means does not); H2) increasing the number of clusters in K-Means+HMM leads to better results; H3) increasing the number of examples of cluster labels and hand labeled DAs pairs in K-Means+HMM leads to better results (the examples of pairs are used to create the emission probabilities used to define the HMM). One of the conclusions is that K-Means performs better than K-Means+HMM (the result for K-Means measured with one-to-one accuracy is 35.0%, while the result for K-Means+HMM is 31.6%) given 14 clusters and one example pair. However, when the number of examples is increased to 15 the result is 40.5% for K-Means+HMM; the biggest improvement is when the number of examples is increased to 20 resulting in 44% one-to-one accuracy. That is, K-Means+HMM outperforms K-Means provided that a certain number of examples is given. Another conclusion is that the number of examples has a much larger impact on the results - compared to the number of clusters - thus perhaps concluding that the statement “there is no data like labeled data” holds. / Klassificering av dialoghandlingar är ett viktigt steg i processen för utveckling av dialogsystem. Klassificering av dialoghandlingar är ett problem som vanligtvis löses med hjälp av övervakade maskininlärningsmetoder som alla behöver uppmärkt data. Eftersom uppmärkning av data är en resurskrävande uppgift har många föreslagit att fokusera på oövervakade eller delvis övervakade maskininlärningsmetoder för att lösa problemet av klassificering av dialoghandlingar. Denna masteruppsats utforskar en ny delvis övervakad maskininläningsmetod för klassificering av dialoghandlingar: K-Means+HMM. Föru- tom att metoden kombinerar K-Means och Hidden Markiv Model (HMM) modellering, abstraheras orden i yttranden till deras ordklasstaggar och yttranden till deras klusteretiketter som produceras av K-Means före HMM träningen. Projektets fokus är följande tre hypoteser: H1) en intergration av yttrandenas kontext leder till ett bättre resultat (HMM är en metod som används specifikt för sekventiell data och den integrerar således kontexten, medan K-Means gör inte det); H2) ökning av antalet kluster i K- Means+HMM leder till bättre resultat; H3) ökning av antalet exempel av par av klusteretiketter och dialoghandligar uppmärkta för hand i K- Means+HMM leder till bättre resultat (parexemplen används för att skapa emissionssannolikheter som definierar HMM). En av slutsatserna är att K-Means presterar bättre än K-Means+HMM (resultatet för K-means mätt med en-till-en noggrannhet är 35,0%, medan resultatet för K-Means+HMM är 31,6%) givet 14 kluster och ett exempelpar. Däremot, när antalet av exempelpar ökar till 15 ökar resultatet för K-Means+HMM till 40,5%. Den största ökningen är när antalet exempelpar är 20, vilket ger ett resulat på 44% en-till-en noggrannhet. Med andra ord, presterar K-Means+HMM bätre än K-Means då att ett visst antal exempelpar är tillgängligt. En annan slutsats är att antalet av exempelpar har en mycket större effekt på resultaten jämfört med antalet kluster, vilket då möjligtvis leder till slutsatsen att “det finns ingen bättre data än uppmärkt data”.
5

Anomaly Detection in Streaming Data from a Sensor Network / Anomalidetektion i strömmande data från sensornätverk

Vignisson, Egill January 2019 (has links)
In this thesis, the use of unsupervised and semi-supervised machine learning techniques was analyzed as potential tools for anomaly detection in the sensor network that the electrical system in a Scania truck is comprised of. The experimentation was designed to analyse the need for both point and contextual anomaly detection in this setting. For the point anomaly detection the method of Isolation Forest was experimented with and for contextual anomaly detection two different recurrent neural network architectures using Long Short Term Memory units was relied on. One model was simply a many to one regression model trained to predict a certain signal, while the other was an encoder-decoder network trained to reconstruct a sequence. Both models were trained in an semi-supervised manner, i.e. on data that only depicts normal behaviour, which theoretically should lead to a performance drop on abnormal sequences resulting in higher error terms. In both setting the parameters of a Gaussian distribution were estimated using these error terms which allowed for a convenient way of defining a threshold which would decide if the observation would be flagged as anomalous or not. Additional experimentation's using an exponential weighted moving average over a number of past observations to filter the signal was also conducted. The models performance on this particular task was very different but the regression model showed a lot of promise especially when combined with a filtering preprocessing step to reduce the noise in the data. However the model selection will always be governed by the nature the particular task at hand so the other methods might perform better in other settings. / I den här avhandlingen var användningen av oövervakad och halv-övervakad maskininlärning analyserad som ett möjligt verktyg för att upptäcka avvikelser av anomali i det sensornätverk som elektriska systemet en Scanialastbil består av. Experimentet var konstruerat för att analysera behovet av både punkt och kontextuella avvikelser av anomali i denna miljö. För punktavvikelse av anomali var metoden Isolation Forest experimenterad med och för kontextuella avvikelser av anomali användes två arkitekturer av återkommande neurala nätverk. En av modellerna var helt enkelt många-till-en regressionmodell tränad för att förutspå ett visst märke, medan den andre var ett kodare-avkodare nätverk tränat för att rekonstruera en sekvens.Båda modellerna blev tränade på ett halv-övervakat sätt, d.v.s. på data som endast visar normalt beteende, som teoretiskt skulle leda till minskad prestanda på onormala sekvenser som ger ökat antal feltermer. I båda fallen blev parametrarna av en Gaussisk distribution estimerade på grund av dessa feltermer som tillåter ett bekvämt sätt att definera en tröskel som skulle bestämma om iakttagelsen skulle bli flaggad som en anomali eller inte. Ytterligare experiment var genomförda med exponentiellt viktad glidande medelvärde över ett visst antal av tidigare iakttagelser för att filtera märket. Modellernas prestanda på denna uppgift var välidt olika men regressionmodellen lovade mycket, särskilt kombinerad med ett filterat förbehandlingssteg för att minska bruset it datan. Ändå kommer modelldelen alltid styras av uppgiftens natur så att andra metoder skulle kunna ge bättre prestanda i andra miljöer.
6

Creating a Back Stock to Increase Order Delivery and Pickup Availability / Framtagning av ett baklager för att öka tillgängligheten av leverans och upphämtning av ordrar

Nguyen, John, Lindén, Kasper January 2019 (has links)
Apotek Hjärtat wants to keep developing their e-commerce website and improve retrieval and delivery of orders to customers. Click and Collect and Click and Express are two options for retrieving e-commerce orders that are available if all products in the order are present in the store. By implementing a back stock in the stores with popular e-commercial items, all products of an order will more often be present in the store. The back stock will in such a way increase the availability of Click and Collect and Click and Express. The goals for the study are to conduct a pilot study, compare methods and possible solutions to implement a model to reach the goals. The pilot study was made by studying previous works in mathematical statistics methods and machine learning methods. The statistical method was accomplished through the analytical tool Statistical Package for the Social Sciences (SPSS) and Java. The machine learning method was accomplished through Python and the Scikit-learn library. The machine learning method was performed by a regression algorithm that was used to find relations between category sales and pollen forecasts. The statistical and machine learning methods were compared to each other. Both gave identical results, but the machine learning method was more functional and easier to further develop and consequently was chosen. Several models were created for a few selected product categories. The categories that did not work for the models had an unrealistic amount of sold products. These amounts could be negative or extremely high when unknown inputs were introduced. A simulation was made of the back stock to estimate how it would increase the availability of Click and Collect/Click and Express. The machine learning models could need more data for more accurate predictions. A conclusion could be made though that is possible to predict the amount of sold products of certain categories such as Allergy and Child Medicine with pollen halt taken into account. / Apotek Hjärtat vill fortsätta utveckla sin e-handelssida och förbättra upphämtning och leverans av ordrar till kund. Click and Collect och Click and Express är två val för att hämta upp e-handelsordrar som finns tillgängliga om alla produkter i ordern finns i butik. Genom att implementera ett baklager i butiker med populära unika ehandelsprodukter kommer alla produkter i en order oftare att finnas i butik. Baklagret kommer på så vis öka tillgängligheten av Click and Collect och Click and Express. Målen är att utföra en förstudie, samt att jämföra och hitta en bra lösning att implementera en modell för att uppnå målen. Förstudien gick ut på att analysera tidigare arbeten inom matematiska statistikmetoder och maskininlärningsmetoder. Den statistiska metoden utfördes genom det analytiska verktyget Statistical Package for the Social Sciences (SPSS) och Java. Maskininlärningsmetoden utvecklades med hjälp av Python och Scikit-learn biblioteket. Maskinlärningsmetoden utfördes genom en regressionsalgoritm som användes för att ta fram flera modeller för relationer mellan försäljning av kategorier och pollenprognoser. Statistiska metoden och maskininlärningsmetoden jämfördes med varandra. Båda gav identiska resultat men maskininlärning var mer funktionellt och enklare att vidareutveckla och därför valdes den metoden. Flera olika modeller lyckades tas fram för en del produktkategorier. De kategorier som inte fungerade för modellerna hade orealistiska mängder sålda varor. Dessa mängder kunde vara negativa eller extremt höga när okända inputs introducerades. Med hjälp av simulationen var det möjligt att uppskatta hur baklagret skulle öka tillgängligheten av Click and Collect/Express. Maskininlärningsmodellerna skulle behöva mer data, som kommer i framtiden, för att ge en mer precis prediktering mellan pollenvärden. Som slutsats är det möjligt att använda dem i framtiden för vissa kategorier som allergi och barnmedicin.
7

Predicting Customer Satisfaction in the Context of Last-Mile Delivery using Supervised and Automatic Machine Learning

Höggren, Carl January 2022 (has links)
The prevalence of online shopping has steadily risen in the last few years. In response to these changes, last-mile delivery services have emerged that enable goods to reach customers within a shorter timeframe compared to traditional logistics providers. However, with decreased lead times follows greater exposure to risks that directly influence customer satisfaction. More specifically, this report aims to investigate the extent to which Supervised and Automatic Machine Learning can be leveraged to extract those features that have the highest explanatory power dictating customer ratings. The implementation suggests that Random Forest Classifier outperforms both Multi-Layer Perceptron and Support Vector Machine in predicting customer ratings on a highly imbalanced version of the dataset, while AutoML soars when the dataset is subject to undersampling. Using Permutation Feature Importance and Shapley Additive Explanations, it was further concluded that whether the delivery is on time, whether the delivery is executed within the stated time window, and whether the delivery is executed during the morning, afternoon, or evening, are paramount drivers of customer ratings. / Förekomsten av online-shopping har kraftigt ökat de senaste åren. I kölvattnet av dessa förändringar har flertalet sista-milen företag etablerats som möjliggör för paket att nå kunder inom en kortare tidsperiod jämfört med traditionella logistikföretag. Däremot, med minskade ledtider följer större exponering mot risker som direkt påverkar kundernas upplevelse av sista-milen tjänsten. Givet detta syftar denna rapport till att undersöka huruvida övervakad och automtisk maskininlärning kan användas för att extrahera de parametrar som har störst påverkan på kundnöjdhet. Implementationen visar att slumpmässiga beslutsträd överträffar både neurala nätverk och stödvektorsmaskiner i syfte att förutspå kundnöjdhet på en obalanserad version av träningsdatan, medan automatisk maskininlärning överträffar övriga modeller på en balanserad version. Genom användning av metoderna Permutation Feature Importance och Shapley Additive Explanations, framgick att huruvida paketet är försenad, huruvida paketet levereras inom det angivet tidsfönster, och huruvida paketet anländer under morgonen, eftermiddagen, eller kvällen, har störst påverkan på kundnöjdhet.
8

Rotor temperature estimation in Induction Motors with Supervised Machine Learning / Rotor temperatur estimering i induktions motorer med övervakad maskininlärning

Gauffin, Christopher January 2023 (has links)
The electrification of the automotive industry and artificial intelligence are both growing rapidly and can be greatly beneficial for a more sustainable future when combined. Induction machines exhibit many complex relationships between physical and electromagnetic properties that must be calculated in order to produce the correct quantities of torque and speed commanded by the driver. This is why calculations that depend on sensory information are often cross-monitored and supervised to prevent unsafe conditions or damage to the equipment. Safe torque estimation has a substantial role in safety which requires the fulfillment of ASIL C defined by ISO 26262. The calculation of safe torque is based on rotor temperature among other safety parameters. Traditional methods of obtaining rotor temperature include thermal models, state observers, and active parameter estimation. These methods rely on complex mathematical equations that have the risk of being incorrect and can sometimes be unfeasible in a practical environment. Naturally, we investigate whether we can embed Artificial Neural Networks in the software since we know that they can solve complex non-linear problems exceptionally well when combined with supervised machine learning. To supervise and train the network, we must first acquire the rotor temperature in an experimental setting with a temperature sensor. Then we embed the model into the software of an electrical inverter produced by Inmotion using a microcontroller framework. This way, predictions of rotor temperature can be made in a live environment without the sensor. Using the mean squared error of the output and k-fold cross-validation we can apply a corrected t-test to make a comparison and statistical evaluation of the models. The results in this research prove that a machine learning model can in fact be used to replace the current traditional state observer model that is based on stator temperature. We find that when stator and rotor temperatures are uncorrelated and different, the machine learning model is able to generalize much more accurately passing the t-test with an alpha threshold of  α  = 0.05. Results also reveal that the obtained rotor temperature can be used as reliable input for estimating safe torque by evaluating the measurements from a live motor with a realistic safety requirement. / Elektrifieringen av fordonsindustrin och artificiell intelligens växer i snabb takt där de båda har stor potential att vara välgörande för en mer hållbar framtid när de kombineras. Induktionsmotorer grundar sig på många komplicerade förhållanden mellan fysiska och elektromagnetiska egenskaper som måste beräknas för att förse rätt vridmoment och hastighet som föraren begär. Därför är ofta beräkningar som beror på sensorisk information ofta korsövervakad för att förhindra osäkra tillstånd eller skada på utrustningen. Säker vridmoment estimering spelar en stor roll i säkerhet vilket kräver ett uppfyllande av ASIL C definerad av ISO 26262. Beräkningen av denna estimering baseras bland annat på rotor temperatur och andra säkra parametrar. Traditionella metoder för att ta fram rotor temperatur inkluderar termala metoder, tillståndsobserverare och aktiv parameter estimering. Dessa metoder grundar sig på komplexa matematiska ekvationer som har en risk att vara inkorrekta och är ibland ogenomförbara i en praktisk miljö. Naturligt sett så vill vi istället undersöka om vi kan bädda in artificiella neuronnät i mjukvaran eftersom vi vet att de är exceptionellt bra på att lösa komplexa icke-linjära problem i kombination med övervakad maskininlärning. För att övervaka och träna nätverket så måste vi först erhålla rotor temperaturen i en experimentiell miljö med en temperatur sensor. Sedan så kan vi bädda in modellen i mjukvaran för en elektrisk inverterare skapad av Inmotion med ett mikrokontroller ramverk. På så vis så kan vi göra förutsägelser av rotor temperaturen utan behovet av en sensor. Genom att använda medelkvadratfelet och en form av flerstegs validering så kan vi applicera ett korrigerat t-test för att jämföra och göra en statistisk evaluering av modellerna. Resultaten i denna studie visar på att en maskininlärning modell kan användas för att ersätta den nuvarande traditionella modellen som baserar sig på stator temperatur. Vi finner att när stator och rotor temperatur och okorrolerade och olika så generaliserar maskininlärningsmodellen mycket mer exakt och klarar t-testet med en alpha gräns på α = 0.05. Resultaten visar också på att den erhållna rotor temperaturen kan användas som en pålitlig inmatning för att estimera säkert vridmoment genom att evaluera mätningar från en riktig motor med ett realistiskt säkerhetskrav.
9

Federated Online Learning with Streaming Data for Intrusion Detection Systems : Comparing Federated and Centralized Learning Methods in Online and Offline Settings

Arvidsson, Victor January 2024 (has links)
Background. With increased pressure from both regulatory bodies and end-users, interest in privacy preserving machine learning methods have increased among companies and researchers in the last few years. One of the main areas of research regarding this is federated learning. Further, with the current situation in the world, interest in cybersecurity is also at an all time high, where intrusion detection systems are one component of interest. With anomaly-based intrusion detection systems using machine learning methods, it is desirable that these can adapt automatically over time as the network patterns change, resulting in online learning being highly relevant for this application. Previous research has studied offline federated intrusion detection systems. However, there have been very little work performed in the study of online federated learning for intrusion detection systems. Objectives. The objective of this thesis is to evaluate the performance of online federated machine learning methods for intrusion detection systems. Furthermore, the thesis will study the performance relationship between offline and online models for both centralized and federated learning, in order to draw conclusions about the ability to extrapolate from results between the different types of models. Methods. This thesis uses a quasi-experiment to evaluate two different types of models, Naive Bayes and Semi-supervised Federated Learning on Evolving Data Streams (SFLEDS), on three different datasets, NSL-KDD, UNSW-NB15, and CIC-IDS2017. For each model, four variants are implemented: centralized offline, centralized online, federated offline and federated online, and in the federated setting the models are evaluated with 20, 30, and 40 clients. Results. The results show that the best performing model in general is the federated online SFLEDS. They also highlight an important problem with using imbalanced datasets without proper care for data preprocessing and model design. Finally, the results show that there are no general relationships between offline and online models that hold in both the centralized and federated settings in terms of prediction performance. Conclusions. The main conclusion of the thesis is that online federated learning has a lot of potential for the application of intrusion detection systems, but more research is required to find the optimal models and parameters that result in satisfactory performance. / Bakgrund. Med ökat tryck från både tillsynsorgan och slutanvändare har intresset för integritetsbevarande maskininlärning ökat hos företag och forskare under de senaste åren. Ett av huvudområdena där det forskas om detta är inom federerad inlärning. Vidare, med det nuvarande läget i världen är intresset för cybersäkerhet högre än någonsin, där bland annat intrångsdetekteringssystem är av intresse. Med avvikelsebaserade intrångsdetekteringssystem som använder sig av maskininlärning så är det önskvärt att dessa automatiskt kan anpassa sig över tid när nätverksmönster förändras, vilket resulterar i att online maskininlärning är högst relevant för området. Tidigare forskning har studerat federerade offline intrångsdetekteringssystem, men det finns väldigt lite forskning gällande federerad online maskininlärning för intrångsdetekteringssystem. Syfte. Syftet med det här arbetet är att utvärdera prestandan av federerad online maskininlärning för intrångsdetekteringssystem. Vidare kommer det här arbetet att studera prestandaförhållandet mellan offline och online modeller för både centraliserad och federerad inlärning, för att kunna dra slutsatser om förmågan att extrapolera resultat mellan olika typer av modeller. \newline\textbf{Metod.} Det här arbetet använder sig av ett kvasiexperiment för att utvärdera två olika modeller, Naive Bayes och Semi-supervised Federated Learning on Evolving Data Streams (SFLEDS), på tre olika dataset, NSL-KDD, UNSW-NB15 och CIC-IDS2017. För varje modell implementeras fyra varianter: centraliserad offline, centraliserad online, federerad offline och federerad online. De federerade modellerna utvärderas med 20, 30 och 40 klienter. Resultat. Resultaten visar att den generellt bästa modellen är online SFLEDS. De belyser även ett viktigt problem med att använda obalanserade dataset utan tillräcklig hänsyn till förbearbetning av datan och modelldesign. Slutligen visar resultaten att det inte finns något generellt samband mellan offline och online modeller som stämmer för både centraliserad och federerad inlärning när det gäller modellprestanda. Slutsatser. Den huvudsakliga slutsatsen från arbetet är att federerad online maskininlärning har stor potential för intrångsdetekteringssystem, men mer forskning krävs för att hitta den bästa modellen och de bästa parametrarna för att nå ett tillfredsställande resultat.
10

Developing Automated Cell Segmentation Models Intended for MERFISH Analysis of the Cardiac Tissue by Deploying Supervised Machine Learning Algorithms / Utveckling av automatiserade cellsegmenteringsmodeller avsedda för MERFISH-analys av hjärtvävnad genom användning av övervakade maskininlärningsalgoritmer

Rune, Julia January 2023 (has links)
Följande studie behandlar utvecklandet av automatiserade cellsegmenteringsmodeller med avsikt att identifiera gränser mellan celler i hjärtvävnad. Syftet är att möjliggöra analys av data genererad från multiplexed error-robust in situ hybridization (MERFISH). MERFISH är en spatial transcriptomics-teknik som till skillnad från exempelvis single-cell RNA sequencing (ScRNA-seq) och single molecule fluorescence in situ hybridization (smFISH), möjliggör profilering av hundratals RNA-sekvenser hos enskilda celler utan att förlora dess rumsliga kontext. I Kosuri laboratoriet på Salk Institute of Biological Studies i San Diego tillämpas MERFISH på mushjärtan. Syftet är att få en djupare insikt i hur celler är organiserade i friska hjärtan, och hur denna struktur ändras i och med åldring och sjukdom. Att extrahera meningsfull information från MERFISH medför dock en betydande utmaning - en exakt cellsegmentering. Studien bidrar följaktligen till utvecklandet av segmenteringsmodeller för att kringgå de utmaningar som står i vägen för all efterföljande analys. Då klassiska segmenteringsalgoritmer är otillräckliga för att segmentera den komplexa vävnad som hjärtat utgörs av, tillämpades några av dagens mest avancerade och framstående maskininlärningsalgoritmer inom fältet, kallade Cellpose och Omnipose. Givet den täta och heterogena hjärtvävnaden, som härstammar från en bred distribution av celltyper och geometrier, utvecklades två separata modeller; en för att täcka både mindre celler och kardiomyocyter skurna på tvärsnittet; och en för att enbart segmentera kardiomyocyter skurna i longitudinell riktning. Den förstnämnda modellen utvecklades och tränades i Cellpose, och uppnådde en träffsäkerhet på 91.2%. Modellen för longitudinella kardiomyocyter utvecklades istället både i Cellpose och Omnipose för att utvärdera vilket nätverk som är bäst lämpat för ändamålet. Ingen av nätverken lyckades uppnå en tillräckligt hög träffsäkerhet för att vara applicerbar, och är därmed i behov av fortsatt träning. Modellen genererad i Omnipose bedöms dock vara mest lovande, givet dess mer heltäckande segmentering. Ytterligare utvecklingsområden för framtiden innefattar segmentering av celler i fibros-täta regioner, samt att utveckla en 3D-segmentering av hela hjärtat för att uppnå en mer komplett MERFISH-analys. Sammanfattningsvis har de genererade segmenteringsmodellerna banat väg för möjliggörandet av en rigorös MERFISH-analys av hjärtat. Genom att avslöja några av de strukturella och funktionella orsakerna till hjärtsvikt på en cellulär nivå, kan vi således på sikt bidra till utvecklingen av mer effektiva terapeutiska strategier. / The following study delves into the development of automated cell segmentation models, with the intention of identifying boundaries between cells in the cardiac tissue for analysing spatial transcriptomics data. Addressing the limitations of alternative techniques like single-cell RNA sequencing (ScRNA-seq) and single molecule fluorescence in situ hybridization (smFISH), the study underscores the innovative use of multiplexed error-robust fluorescence in situ hybridization (MERFISH) deployed by the Kosuri Lab at Salk Institute for Biological Studies. This advanced imaging-based technique allows for a single-cell transcriptome profiling of hundreds of different transcripts while retaining the spatial context of the tissue. The technique can accordingly reveal how the organization of cells within a healthy heart is altered during disease. However, the extraction of meaningful data from MERFISH poses a significant challenge - accurate cell segmentation. This thesis therefore presents the development of a robust model for cell boundary identification within cardiac tissue, leveraging some of the advanced supervised machine learning algorithms in the field, named Cellpose and Omnipose. Due to the dense and highly heterogeneous tissue- stemming from a wide distribution of cell types and shapes- two separate models had to be developed; one that covers the smaller cells and the cross-sectioned cardiomyocytes, and correspondingly one to cover the longitudinal cardiomyocytes. The cross-section model was successfully developed to achieve an accuracy of 91.2%, whereas the longitudinal model still needs further improvements before being implemented. The thesis acknowledges potential areas for improvement, emphasizing the need to further improve the segmentation of longitudinal cardiomyocytes, tackle the challenges with segmenting cells within fibrotic regions of the diseased heart, as well as achieving a precise 3D cell segmentation. Nonetheless, the generated models have paved the way towards enabling efficient downstream MERFISH analysis to ultimately understand the structural and functional dynamics of heart failure at a cellular level, aiding the development of more effective therapeutic strategies.

Page generated in 0.1083 seconds