1 |
Automatisk dokumentklassificering med hjälp av maskininlärning / Automated Document Classification using Machine LearningDufberg, Johan January 2018 (has links)
Att manuellt hantera och klassificera stora mängder textdokument tar mycket tid och kräver mycket personal, att göra detta med hjälp av maskininlärning är för ändamålet ett alternativ. Det här arbetet önskar ge läsaren en grundläggande inblick i hur automatisk klassificering av texter fungerar, samt ge en lätt samanställning av några av de vanligt förekommande algoritmerna för ändamålet. De exempel som visas använder sig av artiklar på engelska om teknik- och finansnyheter, men arbetet har avstamp i frågan om mognadsgrad av tekniken för hantering av svenska officiella dokument. Första delen är den vetenskapliga bakgrund som den andra delen vilar på, här beskrivs flera algoritmer och tekniker som sedan används i praktiska exempel. Rapporten ämnar inte beskriva en färdig produkt, utan fungerar så som ”proof of concept” för textklassificeringens användning. Avslutningsvis diskuteras resultaten från de tester som gjorts, och en av slutsatserna är att när det finns tillräckligt med data kan en enkel klassificerare prestera nästan likvärdigt med en tekniskt sett mer utvecklad och komplex klassificerare. Relateras prestandan hos klassificeraren till tidsåtgången visar detta på att komplexa klassificerare kräver hårdvara med hög beräkningskapacitet och mycket minne för att vara gångbara. / To manually handle and classify large quantities of text documents, takes a lot of time and demands a large staff, to use machine learning for this purpose is an alternative. This thesis aims to give the reader a fundamental insight in how automatic classification of texts work and give a quick overview of the most common algorithms used for this purpose. The examples that are shown uses news articles in English about tech and finance, but the thesis takes a start in the question about how mature the technique is for handling official Swedish documents. The first part is the scientific background on which the second part rests, here several algorithms and techniques are described which is used in practice later. The report does not aim to describe a product in any form but acts as a “proof of concept” for the use of text classification. Finally, the results from the tests are discussed, and one of the conclusions drawn is that when data is abundant a relatively simple classifier can perform close to equal to a technically more developed and complex classifier. If the performance of the classifier is related to the time taken this indicates that complex classifiers need hardware with high computational power and a fair bit of memory for the classifier to be viable.
|
2 |
An Evaluation of Classical and Quantum Kernels for Machine Learning Classifiers / En utvärdering av klassiska och kvantkärnor inom maskininlärnings klassifikationsmodellerNordström, Teo, Westergren, Jacob January 2023 (has links)
Quantum computing is an emerging field with potential applications in machine learning. This research project aimed to compare the performance of a quantum kernel to that of a classical kernel in machine learning binary classification tasks. Two Support Vector Machines, a popular classification model, was implemented for the respective Variational Quantum kernel and the classical Radial Basis Function kernel and tested on the same sets of artificial quantum-based testing data. The results show that the quantum kernel significantly outperformed the classical kernel for the specific type of data and parameters used in the study. The findings suggest that quantum kernels have the potential to improve machine learning performance for certain types of problems, such as search engines and self-driving vehicles. Further research is, however, needed to confirm their utility in general situations. / Kvantberäkning är ett växande forskningsområde med möjliga tillämpningar inom maskininlärning. I detta forskningsprojekt jämfördes prestandan hos en klassisk kärna med den hos en kvantkärna i binär klassificering för maskininlärninguppgifter, och implikationerna av resultaten diskuterades. Genom att implementera två stödvektormaskiner, en populär klassifikationsmodell, för respektive variabel kvantkärna och klassisk radiell basfunktionskärna kunde vi direkt testa båda kärnorna på samma uppsättning av artificiella kvant-baserad testdata. Resultaten visar på betydande prestandafördelar för kvantkärnan jämfört med den klassiska kärnan när det gäller denna specifika typ av data och de parametrar som användes i vår studie. Vi drar slutsatsen att kvantkärnor inom maskininlärning har potential att överträffa klassiska kärnor, men att mer forskning krävs för att fastställa om detta har någon nytta i allmänna situationer. Om det finns betydande prestandafördelar kan det finnas många tillämpningar, till exempel för sökmotorer och självkörande fordon.
|
3 |
Shape Detection in Images Using Machine LearningDevlin, Axel January 2021 (has links)
Rapporten undersöker hur man ska gå tillväga för att implementera en support vector machinesom kan klassificera olika former i bilder med hjälp av OpenCV libraryt i Python. Dettakommer att göras genom att beräkna scale-invariant features. De scale-invariant features somkommer undersökas är simple features och Hu moments. Dessa features ska sedantillsammans med sina tillhörande labels matas in i en SVM för träning. SVM ska därefterkunna urskilja mellan olika former baserat på deras scale-invariant feature. Rapportenundersöker även vilken av Hu moments och simple features som fungerar bäst för attklassificera former i bilder. Rapporten tittar också på tidigare forskning i området ochrapporter som täcker olika sätt att extrahera former ut bilder.Nyckelord: Flerklass klassificering, SVM, stödvektormaskin, övervakat / The report examines the possibility to implement a support vector machine that can classifydifferent shapes in images, with the help of the OpenCV library in Python. This will be donethrough calculating scale-invariant features. The scale-invariant features that will beimplemented are simple features and Hu moments. These features will in combination withtheir labels be fed to the SVM for training. The SVM should then be able to distinguishbetween different shapes based on scale-invariant features. The report will also examinewhich of the Hu moments and simple features give the best results in classifying shapes inimages. The report also looks at earlier reports in the same area and reports covering differentways of detecting shapes in images.
|
4 |
Sentimentanalys av svenskt aktieforum för att förutspå aktierörelse / Sentiment analysis of Swedish stock trading forum for predicting stock market movementOuadria, Michel Sebastian, Ciobanu, Ann-Stephanie January 2020 (has links)
Förevarande studie undersöker möjligheten att förutsäga aktierörelse på en dagligbasis med sentimentanalys av inlägg från ett svenskt aktieforum. Sentimentanalys används för att finna subjektivitet i form av känslor (sentiment) ur text. Textdata extraherades från ett svenskt aktieforum för att förutsäga aktierörelsen för den relaterade aktien. All data aggregerades inom en bestämd tidsperiod på två år. Undersökningen utnyttjade maskininlärning för att träna tre maskininlärningsmodeller med textdata och aktiedata. Resultatet påvisade ingen tydlig korrelation mellan sentiment och aktierörelse. Vidare uppnåddes inte samma resultat som tidigare arbeten inom området. Den högst uppnådda noggrannheten med modellerna beräknades till 64%. / The present study examines the possibility of predicting stock movement on a daily basis with sentiment analysis of posts in a swedish stock trading forum. Sentiment analysis is used to find subjectivity in the form of emotions (sentiment) from text. Textdata was extracted from a stock forum to predict the share movement of the related share. All data was aggregated within a fixed period of two years. The analysis utilizes machine learning to train three machine learning models with textdata and stockdata. The result showed no clear correlation between sentiment and stock movement. Furthermore, the result was not able to replicate accuracy as previous work in the field. The highest accuracy achieved with the models was calculated at 64%.
|
5 |
Realtidsövervakning av multicastvideoström / Monitoring of multicast video streaming in realtimeHassan, Waleed, Hellström, Martin January 2017 (has links)
Den enorma ökningen av multicasttjänster har visat begränsningarna hos traditionella nätverkshanteringsverktyg vid multicastkvalitetsövervakning. Det behövs någon annan form av övervakningsteknik som inte är en hårdvaruinriktad lösning så som ökad länkgenomströmmning, buffertlängd och kapacitet för att förbättra kundupplevelsen. I rapporten undersöks användningen av biblioteken FFmpeg, och OpenCV samt no-reference image quality assessemnt algoritmen BRISQUE för att förbättra tjänstekvaliteten och kundupplevelsen. Genom att upptäcka kvalitetsbrister hos bildrutor samt bitfel i videoströmmen kan QoS och QoE förbättras. Uppgiftens ändamål är att i realtid detektera avvikelser i bildkvalitet och bitfel i en multicastvideoström för att sedan notifiera tjänsteleverantören med hjälp av SNMP traps. Undersökningen visar positiva resultat med en hybridlösning med användning av både BRISQUE och FFmpeg då båda ensamma inte är tillräckligt anpassade för multimediaövervakning. FFmpeg har möjligheten att detektera avkodningsfel som oftast beror på allvarliga bitfel, och BRISQUE algoritmen utvecklades för att analysera bilder och bestämma bildkvaliteten. Enligt testresultaten kan BRISQUE användas för multicastvideoanalysering eftersom att den subjektiva bildkvaliteten kan bestämmas med god pålitlighet. Kombinationen av dessa metoder har visat bra resultat men behöver undersökas mer för användning av multicastövervakning. / The enormous increase in multicast services has shown the limitations of traditional network management tools in multicast quality monitoring. There is a need for new monitoring technologies that are not hardware-based solutions such as increased link throughput, buffer length and capacity to enhance the quality of experience. This paper examines the use of FFmpeg, and OpenCV as well the no-reference image quality assessment algorithm BRISQUE to improve the quality of service as well as the quality of experience. By detecting image quality deficiencies as well as bit errors in the video stream, the QoS and QoE can be improved. The purpose of this project was to develop a monitoring system that has the ability to detect fluctuations in image quality and bit errors in a multicast video stream in real time and then notify the service provider using SNMP traps. The tests performed in this paper shows positive results when using the hybrid solution proposed in this paper, both BRISQUE and FFmpeg alone are not sufficiently adapted for this purpose. FFmpeg has the ability to detect decoding errors that usually occurs due to serious bit errors and the BRISQUE algorithm was developed to analyse images and determine the subjective image quality. According to the test results BRISQUE can be used for multicast video analysis because the subjective image quality can be determined with good reliability. The combination of these methods has shown good results but needs to be investigated and developed further.
|
6 |
Predicting Purchase of Airline Seating Using Machine Learning / Förutsägelse på köp av sätesreservation med maskininlärning.El-Hage, Sebastian January 2020 (has links)
With the continuing surge in digitalization within the travel industry and the increased demand of personalized services, understanding customer behaviour is becoming a requirement to survive for travel agencies. The number of cases that addresses this problem are increasing and machine learning is expected to be the enabling technique. This thesis will attempt to train two different models, a multi-layer perceptron and a support vector machine, to reliably predict whether a customer will add a seat reservation with their flight booking. The models are trained on a large dataset consisting of 69 variables and over 1.1 million historical recordings of bookings dating back to 2017. The results from the trained models are satisfactory and the models are able to classify the data with an accuracy of around 70%. This shows that this type of problem is solvable with the techniques used. The results moreover suggest that further exploration of models and additional data could be of interest since this could help increase the level of performance. / Med den fortsatta ökningen av digitalisering inom reseindustrin och det faktum att kunder idag visar ett stort behov av skräddarsydda tjänster så stiger även kraven på företag att förstå sina kunders beteende för att överleva. En uppsjö av studier har gjorts där man försökt tackla problemet med att kunna förutse kundbeteende och maskininlärning har pekats ut som en möjliggörande teknik. Inom maskininlärning har det skett en stor utveckling och specifikt inom området djupinlärning. Detta har gjort att användningen av dessa teknologier för att lösa komplexa problem spritt sig till allt fler branscher. Den här studien implementerar en Multi-Layer Perceptron och en Support Vector Machine och tränar dessa på befintliga data för att tillförlitligt kunna avgöra om en kund kommer att köpa en sätesreservation eller inte till sin bokning. Datat som användes bestod av 69 variabler och över 1.1 miljoner historiska bokningar inom tidsspannet 2017 till 2020. Resultaten från studien är tillfredställande då modellerna i snitt lyckas klassificera med en noggrannhet på 70%, men inte optimala. Multi-Layer Perceptronen presterar bäst på båda mätvärdena som användes för att estimera prestandan på modellerna, accuracy och F1 score. Resultaten pekar även på att en påbyggnad av denna studie med mer data och fler klassificeringsmodeller är av intresse då detta skulle kunna leda till en högre nivå av prestanda.
|
7 |
Programming with shapes / Programmering med formerWebb, Jack January 2024 (has links)
This thesis investigated how shapes can be mapped to programming constructs, offering a new way to compose and understand code with the long term goal of creating a tactile programming tool. By doing so it delved into the challenges of translating shapes into abstract programming concepts. Existing programming tools rely heavily on visual interfaces, making them inaccessible to individuals with visual impairments. Similar endeavours to create tactile programming tools were analysed and were shown to be domain-specific rather than Turing-complete which greatly limits their usefulness. The solution was to map a set of shapes to a set of Brainfuck (BF) instructions and classifying these shapes with a Support Vector Machine (SVM). Results are promising but are as of yet untested in less than ideal conditions, such as it would be in a real world application. More work has to be done to reach the goal of a tactile programming tool accessible to individuals with visual impairments. / Denna avhandling undersökte hur former kan kartläggas till programmerings-konstruktioner, vilket erbjuder ett nytt sätt att komponera och förstå kod med ett långsiktigt mål att skapa ett taktilt programmingsverktyg. Genom att göra det går den in på utmaningarna med att översätta former till abstrakta programmeringskoncept. Befintliga programmeringsverktyg förlitar sig i hög grad på visuella gränssnitt, vilket gör dem otillgängliga för personer med synnedsättningar. Liknande försök att skapa taktila programmeringsverktyg analyserades och visades vara domänspecifika snarare än Turing-kompletta, vilket starkt begränsar deras användbarhet. Lösningen var att kartlägga en uppsättning former till en uppsättning Brainfuck (BF)-instruktioner och klassificera dessa former med en Support Vector Machine (SVM). Resultaten är lovande men har ännu inte testats under mindre än ideala förhållanden, såsom det skulle vara i en verklig tillämpning. Mer arbete måste göras för att nå målet med ett taktilt programmeringsverktyg som är tillgängligt för personer med synnedsättningar.
|
8 |
Application of machine learning in 5G to extract prior knowledge of the underlying structure in the interference channel matrices / Applikation av maskininlärning inom 5G för att extrahera information av den underliggande strukturen i interferenskanalmatrisernaPeng, Danilo January 2019 (has links)
The data traffic has been growing drastic over the past few years due to digitization and new technologies that are introduced to the market, such as autonomous cars. In order to meet this demand, the MIMO-OFDM system is used in the fifth generation wireless network, 5G. Designing the optimal wireless network is currently the main research within the area of telecommunication. In order to achieve such a system, multiple factors has to be taken into account, such as the suppression of interference from other users. A traditional method called linear minimum mean square error filter is currently used to suppress the interferences. To derive such a filter, a selection of parameters has to be estimated. One of these parameters is the ideal interference plus noise covariance matrix. By gathering prior knowledge of the underlying structure of the interference channel matrices in terms of the number of interferers and their corresponding bandwidths, the estimation of the ideal covariance matrix could be facilitated. As for this thesis, machine learning algorithms were used to extract these prior knowledge. More specifically, a two or three hidden layer feedforward neural network and a support vector machine with a linear kernel was used. The empirical findings implies promising results with accuracies above 95% for each model. / Under de senaste åren har dataanvändningen ökat drastiskt på grund av digitaliseringen och allteftersom nya teknologier introduceras på marknaden, exempelvis självkörande bilar. För att bemöta denna efterfrågan används ett s.k. MIMO-OFDM system i den femte generationens trådlösa nätverk, 5G. Att designa det optimala trådlösa nätverket är för närvarande huvudforskningen inom telekommunikation och för att uppnå ett sådant system måste flera faktorer beaktas, bland annat störningar från andra användare. En traditionell metod som används för att dämpa störningarna kallas för linjära minsta medelkvadratfelsfilter. För att hitta ett sådant filter måste flera olika parametrar estimeras, en av dessa är den ideala störning samt bruskovariansmatrisen. Genom att ta reda på den underliggande strukturen i störningsmatriserna i termer av antal störningar samt deras motsvarande bandbredd, är något som underlättar uppskattningen av den ideala kovariansmatrisen. I följande avhandling har olika maskininlärningsalgoritmer applicerats för att extrahera dessa informationer. Mer specifikt, ett neuralt nätverk med två eller tre gömda lager samt stödvektormaskin med en linjär kärna har använts. De slutliga resultaten är lovande med en noggrannhet på minst 95% för respektive modell.
|
9 |
Performance comparison of data mining algorithms for imbalanced and high-dimensional dataRubio Adeva, Daniel January 2023 (has links)
Artificial intelligence techniques, such as artificial neural networks, random forests, or support vector machines, have been used to address a variety of problems in numerous industries. However, in many cases, models have to deal with issues such as imbalanced data or high multi-dimensionality. This thesis implements and compares the performance of support vector machines, random forests, and neural networks for a new bank account fraud detection, a use case defined by imbalanced data and high multi-dimensionality. The neural network achieved both the best AUC-ROC (0.889) and the best average precision (0.192). However, the results of the study indicate that the difference between the models’ performance is not statistically significant to reject the initial hypothesis that assumed equal model performances. / Artificiell intelligens, som artificiella neurala nätverk, random forests eller support vector machines, har använts för att lösa en mängd olika problem inom många branscher. I många fall måste dock modellerna hantera problem som obalanserade data eller hög flerdimensionalitet. Denna avhandling implementerar och jämför prestandan hos support vector machines, random forests och neurala nätverk för att upptäcka bedrägerier med nya bankkonton, ett användningsfall som definieras av obalanserade data och hög flerdimensionalitet. Det neurala nätverket uppnådde både den bästa AUC-ROC (0,889) och den bästa genomsnittliga precisionen (0,192). Resultaten av studien visar dock att skillnaden mellan modellernas prestanda inte är statistiskt signifikant för att förkasta den ursprungliga hypotesen som antog lika modellprestanda.
|
10 |
Automatic Pronoun Resolution for Swedish / Automatisk pronomenbestämning på svenskaAhlenius, Camilla January 2020 (has links)
This report describes a quantitative analysis performed to compare two different methods on the task of pronoun resolution for Swedish. The first method, an implementation of Mitkov’s algorithm, is a heuristic-based method — meaning that the resolution is determined by a number of manually engineered rules regarding both syntactic and semantic information. The second method is data-driven — a Support Vector Machine (SVM) using dependency trees and word embeddings as features. Both methods are evaluated on an annotated corpus of Swedish news articles which was created as a part of this thesis. SVM-based methods significantly outperformed the implementation of Mitkov’s algorithm. The best performing SVM model relies on tree kernels applied to dependency trees. The model achieved an F1-score of 0.76 for the positive class and 0.9 for the negative class, where positives are pairs of pronoun and noun phrase that corefer, and negatives are pairs that do not corefer. / Rapporten beskriver en kvantitativ analys som genomförts för att jämföra två olika metoder för automatisk pronomenbestämning på svenska. Den första metoden, en implementation av Mitkovs algoritm, är en heuristisk metod vilket innebär att pronomenbestämningen görs med ett antal manuellt utformade regler som avser att fånga både syntaktisk och semantisk information. Den andra metoden är datadriven, en stödvektormaskin (SVM) som använder dependensträd och ordvektorer som särdrag. Båda metoderna utvärderades med hjälp av en annoterad datamängd bestående av svenska nyhetsartiklar som skapats som en del av denna avhandling. Den datadrivna metoden överträffade Mitkovs algoritm. Den SVM-modell som ger bäst resultat bygger på trädkärnor som tillämpas på dependensträd. Modellen uppnådde ett F1-värde på 0.76 för den positiva klassen och 0.9 för den negativa klassen, där de positiva datapunkterna utgörs av ett par av pronomen och nominalfras som korefererar, och de negativa datapunkterna utgörs av par som inte korefererar.
|
Page generated in 0.0589 seconds