Global ETD Search

41	Androidapplikation för digitalisering av formulär : Minimering av inlärningstid, kostnad och felsannolikhet Fahlén, Erik January 2018 (has links) This study was performed by creating an android application that uses custom object recognition to scan and digitalize a series of checkbox form for example to correct multiple-choice questions or collect forms in a spreadsheet. The purpose with this study was to see which dataset and hardware with the machine learning library TensorFlow was cheapest, price worthy, enough reliable and fastest. A dataset of filled example forms with annotated checkboxes was created and used in the learning process. The model that was used for the object recognition was Single Show MultiBox Detector, MobileNet version, because it can detect multiple objects in the same image as well as it doesn’t have as high hardware requirements making it fitted for phones. The learning process was done in Google Clouds Machine Learning Engine with different image resolutions and cloud configurations. After the learning process on the cloud the finished TensorFlow model was converted to the TensorFlow Lite model that gets used in phones. The TensorFlow Lite model was used in the compilation of the android application so that the object recognition could work. The android application worked and could recognize the inputs in the checkbox form. Different image resolutions and cloud configurations during the learning process gave different results when it comes to which one was fastest and cheapest. In the end the conclusion was that Googles hardware setup STANDARD_1 was 20% faster than BASIC that was 91% cheaper and more price worthy with this dataset. / Denna studie genomfördes genom att skapa en fungerande androidapplikation som använder sig av en anpassad objektigenkänning för att skanna och digitalisera en serie av kryssruteformulär exempelvis för att rätta flervalsfrågor eller sammanställa enkäter i ett kalkylark. Syftet med undersökningen var att se vilka datauppsättningar och hårdvara med maskininlärningsbiblioteket TensorFlow som var billigast, mest prisvärd, tillräcklig tillförlitlig och snabbast. En datauppsättning av ifyllda exempelformulär med klassificerade kryssrutor skapades och användes i inlärningsprocessen. Modellen som användes för objektigenkänningen blev Single Shot MultiBox Detector, version MobileNet, för att denna kan känna igen flera objekt i samma bild samt att den inte har lika höga hårdvarukrav vilket gör den anpassad för mobiltelefoner. Inlärningsprocessen utfördes i Google Clouds Machine Learning Engine med olika bildupplösningar och molnkonfiguration. Efter inlärningsprocessen på molnet konverterades den färdiga TensorFlow- modellen till en TensorFlow Lite-modell som används i mobiltelefoner. TensorFlow Lite-modellen användes i kompileringen av androidapplikationen för att objektigenkänningen skulle fungera. Androidapplikationen fungerade och kunde känna igen alla inmatningar i kryssruteformuläret. Olika bildupplösningar och molnkonfigurationer under inlärningsprocessen gav olika resultat när det gäller vilken som var snabbast eller billigast. I slutändan drogs slutsatsen att Googles hårdvaruuppsättning STANDARD_1 var 20% snabbare än BASIC som var 91% billigare och mest prisvärd med denna datauppsättning. Machine learning TensorFlow object recognition computer engineering Maskininlärning TensorFlow objektigenkänning datateknik Software Engineering Programvaruteknik
42	Skräppost eller skinka? : En jämförande studie av övervakade maskininlärningsalgoritmer för spam och ham e-mailklassifikation / Spam or ham? : A comparative study of monitored machine learning algorithms for spam and ham e-mail classification. Bergens, Simon, Frykengård, Pontus January 2019 (has links) Spam messages in the form of e-mail is a growing problem in today's businesses. It is a problem that costs time and resources to counteract. Research into this has been done to produce techniques and tools aimed at addressing the growing number on incoming spam e-mails. The research on different algorithms and their ability to classify e-mail messages needs an update since both tools and spam e-mails have become more advanced. In this study, three different machine learning algorithms have been evaluated based on their ability to correctly classify e-mails as legitimate or spam. These algorithms are naive Bayes, support vector machine and decision tree. The algorithms are tested in an experiment with the Enron spam dataset and are then compared against each other in their performance. The result of the experiment was that support vector machine is the algorithm that correctly classified most of the data points. Even though support vector machine has the largest percentage of correctly classified data points, other algorithms can be useful from a business perspective depending on the task and context. Maskininlärning Spam e-mail Textklassificering Spam e-mailklassificering Övrig annan teknik
43	Att förutspå Sveriges bistånd : En jämförelse mellan Support Vector Regression och ARIMA Wågberg, Max January 2019 (has links) In recent years, the use of machine learning has increased significantly. Its uses range from making the everyday life easier with voice-guided smart devices to image recognition, or predicting the stock market. Predicting economic values has long been possible by using methods other than machine learning, such as statistical algorithms. These algorithms and machine learning models use time series, which is a set of data points observed constantly over a given time interval, in order to predict data points beyond the original time series. But which of these methods gives the best results? The overall purpose of this project is to predict Sweden’s aid curve using the machine learning model Support Vector Regression and the classic statistical algorithm autoregressive integrated moving average which is abbreviated ARIMA. The time series used in the prediction are annual summaries of Sweden’s total aid to the world from openaid.se since 1998 and up to 2019. SVR and ARIMA are implemented in python with the help of the Scikit- and Statsmodels libraries. The results from SVR and ARIMA are measured in comparison with the original value and their predicted values, while the accuracy is measured in Root Square Mean Error and presented in the results chapter. The result shows that SVR with the RBF-kernel is the algorithm that provides the best results for the data series. All predictions beyond the times series are then visually presented on a openaid prototype page using D3.js / Under det senaste åren har användningen av maskininlärning ökat markant. Dess användningsområden varierar mellan allt från att göra vardagen lättare med röststyrda smarta enheter till bildigenkänning eller att förutspå börsvärden. Att förutspå ekonomiska värden har länge varit möjligt med hjälp av andra metoder än maskininlärning, såsom exempel statistiska algoritmer. Dessa algoritmer och maskininlärningsmodeller använder tidsserier, vilket är en samling datapunkter observerade konstant över en given tidsintervall, för att kunna förutspå datapunkter bortom den originella tidsserien. Men vilken av dessa metoder ger bäst resultat? Projektets övergripande syfte är att förutse sveriges biståndskurva med hjälp av maskininlärningsmodellen Support Vector Regression och den klassiska statistiska algoritmen autoregressive integrated moving average som förkortas ARIMA. Tidsserien som används vid förutsägelsen är årliga summeringar av biståndet från openaid.se sedan år 1998 och fram till 2019. SVR och ARIMA implementeras i python med hjälp av Scikit-learn och Statsmodelsbiblioteken. Resultatet från SVR och ARIMA mäts i jämförelse mellan det originala värdet och deras förutspådda värden medan noggrannheten mäts i root square mean error och presenteras under resultatkapitlet. Resultatet visar att SVR med RBF kärnan är den algoritm som ger det bästa testresultatet för dataserien. Alla förutsägelser bortom tidsserien presenteras därefter visuellt på en openaid prototypsida med hjälp av D3.js. Machine-learning Python ARIMA SVR Timeseries Regression Maskininlärning Python ARIMA SVR Tidsserie Regression Software Engineering Programvaruteknik
44	Prediktion av gästantal för utomhusanläggning : Ett experiment huruvida prediktion av antalet gäster är möjligt utifrån en specifik skidanläggning / Prediction of guest number for outdoor facility : An experiment whether prediction of the number of guests is possible based on a specific ski resort Sördell, Erik January 2019 (has links) Syftet med denna kandidatuppsats är att undersöka om och hur det går att kunna förutspå antalet gäster för en specifik skidanläggning i Sverige. Eftersom skidanläggningar är dyra att bedriva är det en viktig aspekt att kunna planera personal kostnadseffektivt. Genom att analysera skidortens stora datamängder angående historiska kunddata, tillsammans med historiska och reala väderdata, kan prediktiva analyser genomföras. Detta leder till att skidorten kan utforma bättre tillsättning av personal för att reducera liftköer i backarna, minska matsvinnet i restauranger och även minska eventuella förluster kopplade till överbemanning. Tack vare system som framkallar beslutsunderlag, så kallade beslutsstödsystem, kan företag agera konkurrenskraftigt på marknaderna. Den här studien försöker därför undersöka huruvida det går att framkalla en eventuell prognos för framtida gästantal. Genom att samla in olika typer av både kund- respektive väderdata, har tvättning av data genomförts för att sedan låta olika prediktiva modeller förutspå framtiden. Resultatet för studien påvisar betydelsen gällande bearbetningsprocessen av data, och avslutas med intressanta tankar gällande framtida forskning. Utifrån detta kan det konstateras att en eventuell prediktion är möjlig, men endast i mån av en ungefärlig gräns utifrån antalet gäster. Ett överskridande av gränsen riskerar prediktionsförmågan att försämras. Beslutstöd prediktion datakvalité maskininlärning CRISP-DM. Information Systems
45	Automatisk genreklassifikation : en experimentell studie / Automatic genre classification : an experimental study Nolgren, Markus January 2008 (has links) This thesis aims at examining to what extent a few, algorithmically very easily extractable document features can be used to classify electronic documents according to genre. A set of experiments is therefore carried out, using only 11 such simple features in an attempt to classify 84 documents belonging to electronic academic journals into three manually identified genres: table of contents, article, and review. The 11 features are also divided into three sets, containing metrics of words and sentences; punctuation marks; and URL links, respectively. The performance when using these sets of features is then measured with regard to classification accuracy, using a k-NN classifier, four different values of k (1, 3, 5, 7), and both leave-one-out and 10-fold cross-validation. Best results are achieved when using all three feature sets (i.e. all 11 features) and k=3, with an overall accuracy of 96% (81 of the 84 documents correctly classified), regardless of method for cross-validation. These results are significantly better than those of a referential baseline, conceived as the case where all instances would be guessed as belonging to the most populated class, with a corresponding accuracy of 49%. While not considered as disappointing in any way, the results are viewed by the author as perhaps an expression of a somewhat easy classification task. He therefore concludes by advocating further research on the capability of very simple features in contributing to accurate automatic genre classification, preferably by the use of experimental settings that are better suited to shed light on this matter. / Uppsatsnivå: D automatisk genreklassifikation genre dokumentgenre automatisk klassifikation informationsåtervinning ir-system maskininlärning Social Sciences Samhällsvetenskap
46	Prognostisering inom dagligvaruhandeln : En studie om prognostiseringsteknikerns förmåga till träffsäkra kampanjprognoser. / Forecasting in the fast-moving consumer goods sector : A study of forecasting techniques’ capability of accurate promotion forecasts. Lundin, Mathias, Sandell, Carl January 2012 (has links) Prognostisering anses vara en nyckelprocess som påverkar alla delar av en verksamhet och genom att effektivt applicera prognoser kan ett flertal fördelar erhållas, däribland ökad tillgänglighet av produkter till konsumenter och minskade lagernivåer genom hela leveranskedjan. Inom dagligvaruhandeln, med dess snabba varuomsättning, skiftande konsumentbehov samt varierande produkthållbarheter är det särskilt nödvändigt att ständigt ligga steget före.ICA Sverige AB är idag den dominerande aktören inom svensk dagligvaruhandel med knappt hälften av marknadsandelarna. Likt många andra större koncerner tillämpar ICA Sverige AB prognoser för att förutse framtida försäljningsvolymer. Vad som skiljer sig är att verksamheten inte endast applicerar prognoser mot konsumenter utan även på försäljningen mot ICA-handlarna. Ett viktigt affärsområde för verksamheten är de kampanjer som dels bedrivs mot konsumenter och dels, i första hand, mot ICA-handlarna. Verksamhetens nuvarande process för kampanjprognostisering innefattar manuell planering och uppskattning av framtida kampanjers omfattning, vilket är extremt svårt.Denna studie syftar till att undersöka ett antal olika prognostiseringstekniker, från områdena informationsutvinning (eng. data mining) och maskininlärning, och deras förmåga att skapa träffsäkra kampanjprognoser. I studien jämförs även prognostiseringsteknikernas prestanda mot ICA:s befintliga manuella kampanjprognoser.Studiens resultat visar att det är möjligt att uppnå en hög träffsäkerhet på kampanjprognoser för dagligvaruhandeln med hjälp av prognostiseringstekniker. Flertalet av de studerade prognostiseringsteknikerna uppnådde dessutom en högre träffsäkerhet än ICA:s befintliga manuella kampanjprognoser. / Program: Systemarkitekturutbildningen Prognostisering Kampanjer Data Mining ICA Sverige AB Maskininlärning Engineering and Technology Teknik och teknologier
47	Hybridmodeller för prediktiv modellering skapade med genetisk programmering. / Hybrid models for predictive modeling created with genetic programming. Johansson, Fredrik, Lindgren, Markus January 2013 (has links) Det finns idag ett stort behov av att kunna klassificera stora mängder data på ett effektivt sätt. Prediktiv modellering är ett område inom data mining där prediktioner kan utföras baserat på tidigare erfarenheter. Dessa prediktioner presenteras sedan i en modell. Avvägningen mellan tolkningsbarhet och träffsäkerhet är ett begrepp som beskriver hur träffsäkra modeller ofta är ogenomskinliga, medan genomskinliga modeller ofta har lägre träffsäkerhet. Detta är ett problem eftersom det finns ett behov av modeller som är både träffsäkra och tolkningsbara.I denna studie visas hur man kan gå till väga för att skapa en modell som har en träffsäkerhet i klass med en ogenomskinlig modell, men samtidigt har en högre tolkningsbarhet. Två algoritmer presenteras för att ta fram en hybridmodell som bygger på beslutsträd där en implementering av Random Forest hanteras som alternativa lövnoder. Kontrollerade experiment och statistiska tester genomfördes för att mäta hybridmodellens träffsäkerhet mot träffsäkerheten hos J48 och Random Forest. Träffsäkerheten mättes även mot beslutsträd som genererats av den genetiska programmeringen som finns implementerad i ramverket G-REX.Resultatet visar att hybridmodellen kan uppnå en träffsäkerhet som är jämförbar med Random Forest men samtidigt hanterar de vanliga prediktionslöven i genomsnitt 39,21% av instanserna. Alltså är den hybridmodell som presenteras i studien mer tolkningsbar än Random Forest utan att ha någon signifikant skillnad i träffsäkerhet. / Program: Systemarkitekturutbildningen Data Mining Genetisk programmering Random Forest Maskininlärning Hybriddatamodeller Beslutsträd Träffsäkerhet VS. Tolkningsbarhet Engineering and Technology Teknik och teknologier
48	Prediktiv modellering av fotbollsspelares utveckling baserat på semifiktiv data / Finding promising young footballers from mining of semi-fictitious data Niklasson, Karl, Skog, Joakim January 2014 (has links) Det finns ett behov att hitta och rekrytera skickliga spelare till sin fotbollsklubb på ett kostnadseffektivt sätt. Den nuvarande processen med talangscouter är tidsödande och kostsam. Automatiserad dataanalys kan underlätta sökandet efter de önskade spelarna. Då automatiserad dataanalys med semifiktiv data inte undersökts i någon större utsträckning tidigare hade det varit intressant att ta reda på hur väl vanliga tekniker inom data mining fungerar när de appliceras på semifiktiv data.Ändamålet med studien var att med hjälp av kvantitativa experiment skapa prediktiva modeller som förutspår om en fotbollsspelare kommer att öka sina marknadsandelar i framtiden. Studien hade även för avsikt att ta reda på om det, med hjälp av semifiktiv data, gick att skapa tolkningsbara modeller som gav generella insikter om viktiga attribut hos fotbollsspelare på olika positioner.Studiens forskningsmetod var kvantitativ forskning då det är en metod som värdesätter struktur och objektivitet; vilket var viktigt för studien och dess forskningsfrågor. Den forskningsstrategi som användes under studien var experiment, vilken passade bra till den kvantitativa datainsamlingen och dataanalysen.I studien utfördes tre experiment. Det första experimentet gick ut på att, med så hög prestanda som möjligt, skapa klassificeringsmodeller som förutspår om en spelare kommer ha en positiv utveckling. Det andra experimentet gick ut på att ta reda på om det gick att skapa tolkningsbara klassificeringsmodeller för att dra generella slutsatser kring fotbollsspelares egenskaper. Det tredje experimentet gick ut på att ta reda på vilka fotbollsspelare som kommer få en positiv utveckling i framtiden.Resultaten från det första experimentet visar att modellerna har en bra prestanda vilket betyder att det går att skapa klassificeringsmodeller som kan förutspå om en spelare kommer ha en positiv utveckling i framtiden. Resultaten från det andra experimentet visar dock att det inte går att skapa tolkningsbara modeller som ger generella insikter om viktiga attribut på specifika positioner. Detta på grund av modellernas låga prestanda vilket gjorde att tilliten till träden sänktes rejält. Det tredje experimentet gav en del intressanta resultat som kan tidigast verifieras i slutet av år 2014.Då studiens resultat är positiva och originella blir påföljden att fotbollsklubbar bör få upp ögonen för mer kvantitativa angreppssätt, exempelvis dataanalys, när det kommer till värvningar av spelare. Även forskare kan ha nytta av studien då den ger en grund vilken kan utökas i framtida studier. / Program: Systemarkitekturutbildningen data mining klassificering fotboll football manager maskininlärning semifiktiv data prediktiv modellering Engineering and Technology Teknik och teknologier
49	Comparison and improvement of time aware collaborative filtering techniques : Recommender systems / Jämförelsestudie och förbättring av tidsmedvetna kollaborativa filtreringstekniker : Rekommendationssystem Grönberg, David, Denesfay, Otto January 2019 (has links) Recommender systems emerged in the mid '90s with the objective of helping users select items or products most suited for them. Whether it is Facebook recommending people you might know, Spotify recommending songs you might like or Youtube recommending videos you might want to watch, recommender systems can now be found in every corner of the internet. In order to handle the immense increase of data online, the development of sophisticated recommender systems is crucial for filtering out information, enhancing web services by tailoring them according to the preferences of the user. This thesis aims to improve the accuracy of recommendations produced by a classical collaborative filtering recommender system by utilizing temporal properties, more precisely the date on which an item was rated by a user. Three different time-weighted implementations are presented and evaluated: time-weighted prediction approach, time-weighted similarity approach and our proposed approach, weighting the mean rating of a user on time. The different approaches are evaluated using the well known MovieLens 100k dataset. Results show that it is possible to slightly increase the accuracy of recommendations by utilizing temporal properties. recommender systems machine learning collaborative filtering movielens Rekommendationssystem maskininlärning Computer and Information Sciences Data- och informationsvetenskap
50	Classification into Readability Levels : Implementation and Evaluation Larsson, Patrik January 2006 (has links) <p>The use for a readability classification model is mainly as an integrated part of an information retrieval system. By matching the user's demands of readability to the documents with the corresponding readability, the classification model can further improve the results of, for example, a search engine. This thesis presents a new solution for classification into readability levels for Swedish. The results from the thesis are a number of classification models. The models were induced by training a Support Vector Machines classifier on features that are established by previous research as good measurements of readability. The features were extracted from a corpus annotated with three readability levels. Natural Language Processing tools for tagging and parsing were used to analyze the corpus and enable the extraction of the features from the corpus. Empirical testings of different feature combinations were performed to optimize the classification model. The classification models render a good and stable classification. The best model obtained a precision score of 90.21\% and a recall score of 89.56\% on the test-set, which is equal to a F-score of 89.88.</p> / <p>Uppsatsen beskriver utvecklandet av en klassificeringsmodell för Svenska texter beroende på dess läsbarhet. Användningsområdet för en läsbaretsklassificeringsmodell är främst inom informationssökningssystem. Modellen kan öka träffsäkerheten på de dokument som anses relevanta av en sökmotor genom att matcha användarens krav på läsbarhet med de indexerade dokumentens läsbarhet. Resultatet av uppsatsen är ett antal modeller för klassificering av text beroende på läsbarhet. Modellerna har tagits fram genom att träna upp en Support Vector Machines klassificerare, på ett antal särdrag som av tidigare forskning har fastslagits vara goda mått på läsbarhet. Särdragen extraherades från en korpus som är annoterad med tre läsbarhetsnivåer. Språkteknologiska verktyg för taggning och parsning användes för att möjliggöra extraktionen av särdragen. Särdragen utvärderades empiriskt i olika särdragskombinationer för att optimera modellerna. Modellerna testades och utvärderades med goda resultat. Den bästa modellen hade en precision på 90,21 och en recall på 89,56, detta ger en F-score som är 89,88. Uppsatsen presenterar förslag på vidareutveckling samt potentiella användningsområden.</p> readability information retrieval search engines Computational linguistics läsbarhet sökmotorer informationssökning maskininlärning språkteknologi datorlingvistik Computational linguistics Datorlingvistik

Search results