221 |
Applicering av maskininlärning för att predicera utfall av Kickstarter-projekt / Application of machine learning to predict outcome of Kickstarter-projectsLidén, Rickard, In, Gabriel January 2021 (has links)
Crowdfunding är i den moderna digitala världen ett populärt sätt att samla in pengar till sitt projekt. Kickstarter är en av de ledande sidorna för crowdfunding. Predicering av ett Kickstarter-projekts framgång eller misslyckande kan därav vara av stort intresse för entreprenörer.Studiens syfte är att jämföra fyra olika algoritmers prediceringsförmåga på två olika Kickstarter-dataset. Det ena datasetet sträcker sig mellan åren 2020-2021, och det andra mellan åren 2016-2021. Algoritmerna som jämförs är KNN, Naive Bayes, MLP, och Random Forest.Av dessa fyra modeller så skapades i denna studie de bästa produktionsmodellerna av KNN och Random Forest. KNN var bäst för 2020-2021-datasetet, med 77,0% träffsäkerhet. Random Forest var bäst för 2016-2021-datasetet, med 76,8% träffsäkerhet. / Crowdfunding has in the modern, digitalized world become a popular method for gathering money for a project. Kickstarter is one of the most popular websites for crowdfunding. This means that predicting the success or failure of a Kickstarter-project by way of machine learning could be of great interest to entrepreneurs.The purpose of this study is to compare the predictive abilities of four different algorithms on two different Kickstarter-datasets. One dataset contains data in the span of the years 2020-2021, and the other contains data from 2016-2021. The algorithms used in this study are KNN, Naive Bayes, MLP and Random Forest.Out of these four algorithms, the top-performing prediction abilities for the two datasets were found in KNN and Random Forest. KNN was the best-performing algorithm for 2020-2021, with 77,0% accuracy. Random Forest had the top score for 2016-2021, with 76,8% accuracy. The language used in this study is Swedish.
|
222 |
Sentimentanalys av svenskt aktieforum för att förutspå aktierörelse / Sentiment analysis of Swedish stock trading forum for predicting stock market movementOuadria, Michel Sebastian, Ciobanu, Ann-Stephanie January 2020 (has links)
Förevarande studie undersöker möjligheten att förutsäga aktierörelse på en dagligbasis med sentimentanalys av inlägg från ett svenskt aktieforum. Sentimentanalys används för att finna subjektivitet i form av känslor (sentiment) ur text. Textdata extraherades från ett svenskt aktieforum för att förutsäga aktierörelsen för den relaterade aktien. All data aggregerades inom en bestämd tidsperiod på två år. Undersökningen utnyttjade maskininlärning för att träna tre maskininlärningsmodeller med textdata och aktiedata. Resultatet påvisade ingen tydlig korrelation mellan sentiment och aktierörelse. Vidare uppnåddes inte samma resultat som tidigare arbeten inom området. Den högst uppnådda noggrannheten med modellerna beräknades till 64%. / The present study examines the possibility of predicting stock movement on a daily basis with sentiment analysis of posts in a swedish stock trading forum. Sentiment analysis is used to find subjectivity in the form of emotions (sentiment) from text. Textdata was extracted from a stock forum to predict the share movement of the related share. All data was aggregated within a fixed period of two years. The analysis utilizes machine learning to train three machine learning models with textdata and stockdata. The result showed no clear correlation between sentiment and stock movement. Furthermore, the result was not able to replicate accuracy as previous work in the field. The highest accuracy achieved with the models was calculated at 64%.
|
223 |
Anomaly-based intrusion detection using Tree Augmented Naive Bayes ClassifierWester, Philip January 2021 (has links)
With the rise of information technology and the dependence on these systems, it becomes increasingly more important to keep the systems secure. The possibility to detect an intrusion with intrusion detection systems (IDS) is one of multiple fundamental technologies that may increase the security of a system. One of the bigger challenges of an IDS, is to detect types of intrusions that have previously not been encountered, so called unknown intrusions. These types of intrusions are generally detected by using methods collectively called anomaly detection methods. In this thesis I evaluate the performance of the algorithm Tree Augmented Naive Bayes Classifier (TAN) as an intrusion detection classifier. More specifically, I created a TAN program from scratch in Python and tested the program on two data sets containing data traffic. The thesis aims to create a better understanding of how TAN works and evaluate if it is a reasonable algorithm for intrusion detection. The results show that TAN is able to perform at an acceptable level with a reasonably high accuracy. The results also highlights the importance of using the smoothing operator included in the standard version of TAN. / Med informationsteknikens utveckling och det ökade beroendet av dessa system, blir det alltmer viktigt att hålla systemen säkra. Intrångsdetektionssystem (IDS) är en av många fundamentala teknologier som kan öka säkerheten i ett system. En av de större utmaningarna inom IDS, är att upptäcka typer av intrång som tidigare inte stötts på, så kallade okända intrång. Dessa intrång upptäcks oftast med hjälp av metoder som kollektivt kallas för avvikelsedetektionsmetoder. I denna uppsats utvärderar jag algoritmen Tree Augmented Naive Bayes Classifiers (TAN) prestation som en intrångsdetektionsklassificerare. Jag programmerade ett TAN-program, i Python, och testade detta program på två dataset som innehöll datatrafik. Denna uppsats ämnar att skapa en bättre förståelse för hur TAN fungerar, samt utvärdera om det är en lämplig algoritm för detektion av intrång. Resultaten visar att TAN kan prestera på en acceptabel nivå, med rimligt hög noggrannhet. Resultaten markerar även betydelsen av "smoothing operator", som inkluderas i standardversionen av TAN.
|
224 |
Real-Time Simulation of Autonomous Vehicle Safety Using Artificial Intelligence TechniqueTijani, Ahmed January 2021 (has links)
No description available.
|
225 |
A Gradient Boosting Tree Approach for Behavioural Credit Scoring / En gradientförstärkande trädmetod för beteendemässig kreditvärderingDernsjö, Axel, Blom, Ebba January 2023 (has links)
This report evaluates the possibility of using sequential learning in a material development setting to help predict material properties and speed up the development of new materials. To do this a Random forest model was built incorporating carefully calibrated prediction uncertainty estimates. The idea behind the model is to use the few data points available in this field and leverage that data to build a better representation of the input-output space as each experiment is performed. Having both predictions and uncertainties to evaluate, several different strategies were developed to investigate performance. Promising results regarding feasibility and potential cost-cutting were found using these strategies. It was found that within a specific performance region of the output space, the mean difference in alloying component price between the cheapest and most expensive material could be as high as 100 %. Also, the model performed fast extrapolation to previously unknown output regions, meaning new, differently performing materials could be found even with very poor initial data. / I denna rapport utvärderas möjligheten att använda sekventiell maskininlärning inom materialutveckling för att kunna prediktera materials egenskaper och därigenom förkorta materialutvecklingsprocessen. För att göra detta byggdes en Random forest regressionsmodell som även innehöll en uppskattning av prediktionsosäkerheten. Tanken bakom modellen är att använda de relativt få datapunkter som generellt brukar vara tillgängliga inom materialvetenskap, och med hjälp av dessa bygga en bättre representation av input-output-rummet genom varje experiment som genomförs. Med både förutsägelser och osäkerheter att utvärdera utvecklades flera olika strategier för att undersöka prestanda för de olika kandidatmaterialen. Genom att använda dessa strategier kunde lovande resultat vad gäller genomförbarhet och potentiell kostnadsbesparing hittas. Det visade sig att, för specifika prestandakrav, den genomsnittliga skillnaden i pris mellan den billigaste och den dyraste materialkemin kan vara så hög som 100 %. Vad gäller övriga resultat klarade modellen av att snabbt extrapolera initial data till tidigare okända regioner av output-rummet. Detta innebär att nya material med ny typ av prestanda kunde hittas även med mycket missanpassad initial träningsdata.
|
226 |
Sequential Machine Learning in Material Science / Sekventiell maskininlärning inom materialvetenskapBellander, Victor January 2023 (has links)
This report evaluates the possibility of using sequential learning in a material development setting to help predict material properties and speed up the development of new materials. To do this a Random forest model was built incorporating carefully calibrated prediction uncertainty estimates. The idea behind the model is to use the few data points available in this field and leverage that data to build a better representation of the input-output space as each experiment is performed. Having both predictions and uncertainties to evaluate, several different strategies were developed to investigate performance. Promising results regarding feasibility and potential cost-cutting were found using these strategies. It was found that within a specific performance region of the output space, the mean difference in alloying component price between the cheapest and most expensive material could be as high as 100 %. Also, the model performed fast extrapolation to previously unknown output regions, meaning new, differently performing materials could be found even with very poor initial data. / I denna rapport utvärderas möjligheten att använda sekventiell maskininlärning inom materialutveckling för att kunna prediktera materials egenskaper och därigenom förkorta materialutvecklingsprocessen. För att göra detta byggdes en Random forest regressionsmodell som även innehöll en uppskattning av prediktionsosäkerheten. Tanken bakom modellen är att använda de relativt få datapunkter som generellt brukar vara tillgängliga inom materialvetenskap, och med hjälp av dessa bygga en bättre representation av input-output-rummet genom varje experiment som genomförs. Med både förutsägelser och osäkerheter att utvärdera utvecklades flera olika strategier för att undersöka prestanda för de olika kandidatmaterialen. Genom att använda dessa strategier kunde lovande resultat vad gäller genomförbarhet och potentiell kostnadsbesparing hittas. Det visade sig att, för specifika prestandakrav, den genomsnittliga skillnaden i pris mellan den billigaste och den dyraste materialkemin kan vara så hög som 100 %. Vad gäller övriga resultat klarade modellen av att snabbt extrapolera initial data till tidigare okända regioner av output-rummet. Detta innebär att nya material med ny typ av prestanda kunde hittas även med mycket missanpassad initial träningsdata.
|
227 |
Direct calculation of parton distribution functions (PDFs) on the latticeManigrasso, Floriano 05 September 2022 (has links)
In dieser Arbeit befassen wir uns mit einer Reihe von entscheidenden Schritten, um die unpolarisierten Helizitäts- und Trasversitäts-Parton-Verteilungsfunktionen der Nukleonen im Rahmen der Gitter-QCD zu bewerten. Diskretisierungsartefakte werden unter Verwendung eines N_f=2+1+1 Eichensembles von Fermionen mit verdrillter Wilson-Masse untersucht, die bei einer Pionenmasse von ungefähr M=37 MeV simuliert werden. Die unpolarisierten und Helizitäts Partonverteilungsfunktionen weisen eine nicht vernachlässigbare Abhängigkeit vom Gitterabstand auf, und die Kontinuumsextrapolation ergibt eine bessere Übereinstimmung mit Phänomenologie. Die direkte Berechnung der Fourier-Transformation mit diskreten Gitterdaten kann Artefakte verursachen. Daher arbeiten wir mit einer neuen datengesteuerten Methode, die auf Gauß-Prozess-Regression basiert, die sogenannte Bayes-Gauß-Fourier-Transformation, um die Einschränkungen der diskreten Fourier-Transformation zu überwinden. Wir sind der Meinung, dass dieser datengesteuerte Ansatz die durch die Diskretisierung der Fourier-Transformation eingeführten Artefakte drastisch reduzieren kann, jedoch ist der endgültige Effekt auf die Lichtkegel-PDFs gering. Darüber hinaus präsentieren wir die Ergebnisse der ersten ab initio Berechnung der individuellen up, down und strange unpolarisierten, Helizitäts- und Transversitäts-Partonverteilungsfunktionen für das Proton. Die Analyse wird an einem durch N_f=2+1+1 verdrillten Kleeblatt-verbesserten Fermionen-Ensemble durchgeführt, das bei einer Pionenmasse von 260 MeV simuliert wird. Wir verwenden den hierarchischen Sondierungsalgorithmus, um die unzusammenhängenden Quarkschleifen auszuwerten. Dadurch erhalten wir Ergebnisse ungleich Null für den unbegundenen isoskalaren Beitrag und die strange Quark-Matrixelemente. / In this work, we address a number of crucial steps in order to evaluate the nucleon unpolarized helicity and trasversity parton distribution functions within the framework of lattice QCD. Discretization artifacts are investigated using an N_f=2+1+1 gauge ensemble of Wilson twisted mass fermions simulated at a pion mass of approximately M=370 MeV. The unpolarized and helicity parton distribution functions show a non-negligible dependence on the lattice spacing, with the continuum extrapolation producing a better agreement with phenomenology.
The direct computation of the Fourier transform using discrete lattice data may introduce artifacts and we, therefore, use a new data-driven method based on Gaussian process regression, the so-called Bayes-Gauss Fourier transform to overcome the limitations of the discrete Fourier transform. We find that this data-driven approach can drastically reduce the artifacts introduced by the discretization of the Fourier transform, however, the final effect on the light-cone PDFs is small.
Furthermore, we present results of the first ab initio calculation of the individual up, down, and strange unpolarized, helicity, and transversity parton distribution functions for the proton. The analysis is performed on an N_f=2+1+1 twisted mass clover-improved fermion ensemble simulated at a pion mass of 260 MeV. We employ the hierarchical probing algorithm to evaluate the disconnected quark loops, allowing us to obtain non-zero results for the disconnected isoscalar contribution and the strange quark matrix elements.
|
228 |
Federated Online Learning with Streaming Data for Intrusion Detection Systems : Comparing Federated and Centralized Learning Methods in Online and Offline SettingsArvidsson, Victor January 2024 (has links)
Background. With increased pressure from both regulatory bodies and end-users, interest in privacy preserving machine learning methods have increased among companies and researchers in the last few years. One of the main areas of research regarding this is federated learning. Further, with the current situation in the world, interest in cybersecurity is also at an all time high, where intrusion detection systems are one component of interest. With anomaly-based intrusion detection systems using machine learning methods, it is desirable that these can adapt automatically over time as the network patterns change, resulting in online learning being highly relevant for this application. Previous research has studied offline federated intrusion detection systems. However, there have been very little work performed in the study of online federated learning for intrusion detection systems. Objectives. The objective of this thesis is to evaluate the performance of online federated machine learning methods for intrusion detection systems. Furthermore, the thesis will study the performance relationship between offline and online models for both centralized and federated learning, in order to draw conclusions about the ability to extrapolate from results between the different types of models. Methods. This thesis uses a quasi-experiment to evaluate two different types of models, Naive Bayes and Semi-supervised Federated Learning on Evolving Data Streams (SFLEDS), on three different datasets, NSL-KDD, UNSW-NB15, and CIC-IDS2017. For each model, four variants are implemented: centralized offline, centralized online, federated offline and federated online, and in the federated setting the models are evaluated with 20, 30, and 40 clients. Results. The results show that the best performing model in general is the federated online SFLEDS. They also highlight an important problem with using imbalanced datasets without proper care for data preprocessing and model design. Finally, the results show that there are no general relationships between offline and online models that hold in both the centralized and federated settings in terms of prediction performance. Conclusions. The main conclusion of the thesis is that online federated learning has a lot of potential for the application of intrusion detection systems, but more research is required to find the optimal models and parameters that result in satisfactory performance. / Bakgrund. Med ökat tryck från både tillsynsorgan och slutanvändare har intresset för integritetsbevarande maskininlärning ökat hos företag och forskare under de senaste åren. Ett av huvudområdena där det forskas om detta är inom federerad inlärning. Vidare, med det nuvarande läget i världen är intresset för cybersäkerhet högre än någonsin, där bland annat intrångsdetekteringssystem är av intresse. Med avvikelsebaserade intrångsdetekteringssystem som använder sig av maskininlärning så är det önskvärt att dessa automatiskt kan anpassa sig över tid när nätverksmönster förändras, vilket resulterar i att online maskininlärning är högst relevant för området. Tidigare forskning har studerat federerade offline intrångsdetekteringssystem, men det finns väldigt lite forskning gällande federerad online maskininlärning för intrångsdetekteringssystem. Syfte. Syftet med det här arbetet är att utvärdera prestandan av federerad online maskininlärning för intrångsdetekteringssystem. Vidare kommer det här arbetet att studera prestandaförhållandet mellan offline och online modeller för både centraliserad och federerad inlärning, för att kunna dra slutsatser om förmågan att extrapolera resultat mellan olika typer av modeller. \newline\textbf{Metod.} Det här arbetet använder sig av ett kvasiexperiment för att utvärdera två olika modeller, Naive Bayes och Semi-supervised Federated Learning on Evolving Data Streams (SFLEDS), på tre olika dataset, NSL-KDD, UNSW-NB15 och CIC-IDS2017. För varje modell implementeras fyra varianter: centraliserad offline, centraliserad online, federerad offline och federerad online. De federerade modellerna utvärderas med 20, 30 och 40 klienter. Resultat. Resultaten visar att den generellt bästa modellen är online SFLEDS. De belyser även ett viktigt problem med att använda obalanserade dataset utan tillräcklig hänsyn till förbearbetning av datan och modelldesign. Slutligen visar resultaten att det inte finns något generellt samband mellan offline och online modeller som stämmer för både centraliserad och federerad inlärning när det gäller modellprestanda. Slutsatser. Den huvudsakliga slutsatsen från arbetet är att federerad online maskininlärning har stor potential för intrångsdetekteringssystem, men mer forskning krävs för att hitta den bästa modellen och de bästa parametrarna för att nå ett tillfredsställande resultat.
|
229 |
Bayesian classification of DNA barcodesAnderson, Michael P. January 1900 (has links)
Doctor of Philosophy / Department of Statistics / Suzanne Dubnicka / DNA barcodes are short strands of nucleotide bases taken from the cytochrome c oxidase
subunit 1 (COI) of the mitochondrial DNA (mtDNA). A single barcode may have the form C
C G G C A T A G T A G G C A C T G . . . and typically ranges in length from 255 to around
700 nucleotide bases. Unlike nuclear DNA (nDNA), mtDNA remains largely unchanged as
it is passed from mother to offspring. It has been proposed that these barcodes may be
used as a method of differentiating between biological species (Hebert, Ratnasingham, and
deWaard 2003). While this proposal is sharply debated among some taxonomists (Will
and Rubinoff 2004), it has gained momentum and attention from biologists. One issue
at the heart of the controversy is the use of genetic distance measures as a tool for species differentiation. Current methods of species classification utilize these distance measures that are heavily dependent on both evolutionary model assumptions as well as a clearly defined "gap" between intra- and interspecies variation (Meyer and Paulay 2005). We point out the limitations of such distance measures and propose a character-based method of species classification which utilizes an application of Bayes' rule to overcome these deficiencies. The proposed method is shown to provide accurate species-level classification. The proposed methods also provide answers to important questions not addressable with current methods.
|
230 |
The Effectiveness of a Random Forests Model in Detecting Network-Based Buffer Overflow AttacksJulock, Gregory Alan 01 January 2013 (has links)
Buffer Overflows are a common type of network intrusion attack that continue to plague the networked community. Unfortunately, this type of attack is not well detected with current data mining algorithms. This research investigated the use of Random Forests, an ensemble technique that creates multiple decision trees, and then votes for the best tree. The research Investigated Random Forests' effectiveness in detecting buffer overflows compared to other data mining methods such as CART and Naïve Bayes. Random Forests was used for variable reduction, cost sensitive classification was applied, and each method's detection performance compared and reported along with the receive operator characteristics. The experiment was able to show that Random Forests outperformed CART and Naïve Bayes in classification performance. Using a technique to obtain Buffer Overflow most important variables, Random Forests was also able to improve upon its Buffer Overflow classification performance.
|
Page generated in 0.0367 seconds