51 |
Röstigenkänning med Movidius Neural Compute Stick / Voice recognition with Movidius Neural Compute StickVidmark, Stefan January 2018 (has links)
Företaget Omicron Ceti AB köpte en Intel Movidius Neural Compute Stick (NCS), som är en usb-enhet där neurala nätverk kan laddas in för att processa data. Min uppgift blev att studera hur NCS används och göra en guide med exempel. Med TensorFlow och hjälpbiblioteket TFLearn gjordes först ett testnätverk för att prova hela kedjan från träning till användning med NCS. Sedan tränades ett nätverk att kunna klassificera 14 olika ord. En mängd olika utformningar på nätverket testades, men till slut hittades ett exempel som blev en bra utgångspunkt och som efter lite justering gav en träffsäkerhet på 86% med testdatat. Vid inläsning i mikrofon så blev resultatet lite sämre, med 67% träffsäkerhet. Att processa data med NCS tog längre tid än med TFLearn men använde betydligt mindre CPU-kraft. I mindre system såsom en Raspberry Pi går det däremot inte ens att använda TensorFlow/TFLearn, så huruvida det är värt att använda NCS eller inte beror på det specifika användningsscenariot. / Omicron Ceti AB company had an Intel Movidius Neural Compute Stick (NCS), which is a usb device that may be loaded with neural networks to process data. My assignment was to study how NCS is used and to make a guide with examples. Using TensorFlow and the TFLearn help library a test network was made for the purpose of trying the work pipeline, from network training to using the NCS. After that a network was trained to classify 14 different words. Many different configurations of the network were tried, until a good example was found that was expanded upon until an accuracy of 86% with the test data was reached. The accuracy when speaking into a microphone was a bit worse at 67%. To process data with the NCS took a longer time than with TFLearn but used a lot less CPU power. However it’s not even possible to use TensorFlow/TFLearn in smaller systems like a Raspberry Pi, so whether it’s worth using the NCS depends on the specific usage scenario.
|
52 |
Automatic Classification of text regarding Child Sexual Abusive MaterialFleron, Emil January 2018 (has links)
Sexual abuse is a horrible reality for many children around the world. As technology improves the availability of encryption schemes and anonymity over the internet, the perpetrators of these acts are increasingly hard to track. There have been several advances in recent time to automate the work of trying to catch these perpetrators and especially image recognition has seen great promise. While image recognition is a natural approach to these subjects as many abuses are documented and shared between perpetrators, there are potentially many leads that go unexplored if only focusing on images and videos. This study evaluates how methods of supervised machine learning solely based on textual data can point us to posts on forums which are connected to the distribution of child sexual abusive material. Feature representation techniques such as word-vectors, paragraphvectors and the FastText algorithm were used in conjunction with supervised machine learning methods based on deep learning, including methods of multilayer perceptrons, convolutional neural networks and long-short term memory models. The models were trained and evaluated on a dataset based on forum posts from a Dark Net leak from last year, and are evaluated as well on text collected from websites that had been manually verified by Ecpat. Those models were compared to a baseline model based on logistic regression. It was found that those state-of-the-art models achieve a similar performance, all outperforming the 'benchmark' logistic regression model. Further improvements can be achieved based on the availability of more annotated data.
|
53 |
Klassificering av svenska nyhetsartiklar med hjälp av Support Vector MachinesBlomberg, Jossefin, Jansson Martén, Felicia January 2018 (has links)
Uppsatsen syftar till att minska omfattningen av påverkanskampanjer genom maskininlärningsmodellen Support Vector Machine. Arbetet utgår från en litteraturstudie samt två experiment. Litteraturstudien syftar till att ge en referensram till textklassificering med Support Vector Machines. Det första experimentet innebar träning av en Support Vector Machine för att klassificera svenska nyhetsartiklar utefter pålitlighet. Det andra experimentet innefattade en jämförelse av tränad SVM-modell och andra standardmetoder inom textklassificering. Resultaten från experimenten tyder på att SVM är ett effektivt verktyg för klassificering av svenska nyhetsartiklar men även att det finns fler modeller som är lämpliga för samma uppgift. / The aim of this paper is to reduce the extent of impact campaigns through use of the machine learning algorithm Support Vector Machine. The process involved a literature study and two experiments. The aim of the literature study was to give a frame of reference to text classification with Support Vector Machines. The first experiment involved training a SVM to be able to classify news articles written in swedish based on the reliability of the article. The second experiment involved a comparison between the trained SVM-model and other standard methods in the field. The results from the experiment indicates that SVM is a effective tool for classification of news articles written in Swedish, but also that other standard methods are suitable for the same task.
|
54 |
Classi : Bakterieklassificerare för minskad antibiotikaanvändning inom mjölkindustrin / ClaSSi : Bacteria classifier for reduced use of antibiotics in the dairy industryRiddarhaage, Teodor, Ayoub, Ilian, Gefvert, Anton, Van Gheel, David, Habib, Christian, Rosén, Carl, Sievert, Rolf January 2018 (has links)
Kor inom mjölkindustrin drabbas ofta av juverinflammationen mastit, som orsakas av en mängd olika bakterier. Eftersom olika bakterier kräver olika behandlingsplaner finns ett behov att identifiera vilken bakterie som har orsakat mastiten. I nuläget finns två sätt att göra detta på, skicka in prover till en veterinär eller utbilda personal på plats för att analysera prover. Båda dessa alternativ är tids- och resurskrävande och kan leda till att mjölkföretagarna väljer att försöka behandla sina kor med antibiotika eller andra onödiga och potentiellt ohållbara metoder. Denna rapport beskriver det arbete som utförts av sju studenter under vårterminen 2018 i samband med kursen TDDD96 - Kandidatprojekt i programvaruutveckling. I projektet utvecklades en prototyp för ett system som med hjälp av ett neuralt nätverk klassificerar bakterier hos mastitdrabbade kor utifrån bilder på bakterieodlingar. Som gränssnitt mellan mjölkföretagare och klassificerare utvecklades en Android-applikation där slutanvändaren lätt kan ta bilder och mata in relevant information för att sedan skicka dessa till en server. Under implementationen av produkten delades projektgruppen in i tre delgrupper, varje delgrupp arbetade på ett av de tre delsystemen applikation, server och klassificerare. Projektgruppen använde sig av en Scrum-liknande arbetsmetodik där utvecklingsfasen delades upp i olika sprints. Den klassificerare som tagits fram har lyckats få en klassifikationssäkerhet som är i underkant med veterinärerna. Dock har klassificeraren stor potential och kan utvecklas till att vara en bra lösning till det presenterade problemet inom mjölkindustrin.
|
55 |
Tolka musiktecken från bilder : Optisk musikigenkänning med maskininlärningPayerl, Anders January 2018 (has links)
The objective of the project was to examine the possibility to use machine lear- ning without prior knowledge of machine learning or of mathematics and if that is possible also explore the possibility to use machine learning to interpret a picture of a piece of sheet music. The capacity of detecting notes from images of sheet music in the produced model was then compared to an existing pro- gram called Audiveris. The result became a model later used in a comparison with the program Audiveris. The comparison resulted in Audiveris finding al- most 100% of the notes but the new model only being able to detect about a third. The reasons for the big difference were probably: first that Audiveris has been in development for many years and secondly that the training data used for the new model wasn’t enough varied and complicated. To further increase the ability of the new model ́s skill the main point would be the need for more trai- ning data at the training of the model. Even then you need to supply a variation in the data ́s content and its degree of difficulty which is more varied then the first training data. / Målet med projektet har varit att undersöka om det går att applicera maskininlärning utan att ha kunskaper av maskininlärning och matematik sedan tidigare samt om detta är möjligt också undersöka om det går att använda maskininlärning för att tolka en bild av nottecken för musik. Detta användes sedan för att jämföra dess förmåga att upptäcka noter med ett redan existerande program kallat Audiveris. Metoden som användes var att bilder märktes med information om dess innehåll och sedan användes dessa bilder för att träna en maskininlärningsmodell att tolka bilder av nottecken. Sedan gjordes en manuell jämförelse av Audiveris resultat samt resultatet från maskininlärningsmodellen efter att den tränats på de nya notbilderna. Resultatet blev en modell som sedan användes vid jämförelsen med Audiveris. Den jämförelsen resulterade i att Audiveris visade sig bättre än den nytränade modellen då Audiveris hittade nästan 100% av noterna på bilden medan den nya modellen bara hittade cirka 33.3%. Orsaken till den stora skillnaden på upptäckande av nottecken berodde antagligen till stor del på två saker: den första att Audiveris utvecklats under många år och den andra att träningsdatat som användes till den nya modellen inte var tillräckligt varierat och komplicerat. För att vidareutveckla den nya modellens färdighet skulle framför allt mer träningsdata behöva användas vid träningsmomentet. Även då behövde man se till att variationen av material och dess svårighetsgrad blev mer varierat än vid grundmaterialet.
|
56 |
Identifiera känslig data inom ramen för GDPR : Med K-Nearest NeighborsDarborg, Alex January 2018 (has links)
General Data Protection Regulation, GDPR, is a regulation coming into effect on May 25th 2018. Due to this, organizations face large decisions concerning how sensitive data, stored in databases, are to be identified. Meanwhile, there is an expansion of machine learning on the software market. The goal of this project has been to develop a tool which, through machine learning, can identify sensitive data. The development of this tool has been accomplished through the use of agile methods and has included comparisions of various algorithms and the development of a prototype. This by using tools such as Spyder and XAMPP. The results show that different types of sensitive data give variating results in the developed software solution. The kNN algorithm showed strong results in such cases when the sensitive data concerned Swedish Social Security numbers of 10 digits, and phone numbers in the length of ten or eleven digits, either starting with 46-, 070, 072 or 076 and also addresses. Regular expression showed strong results concerning e-mails and IP-addresses. / General Data Protection Regulation, GDPR, är en reglering som träder i kraft 25 maj 2018. I och med detta ställs organisationer inför stora beslut kring hur de ska finna känsliga data som är lagrad i databaser. Samtidigt expanderar maskininlärning på mjukvarumarknaden. Målet för detta projekt har varit att ta fram ett verktyg som med hjälp av maskininlärning kan identifiera känsliga data. Utvecklingen av detta verktyg har skett med hjälp av agila metoder och har innefattat jämförelser av olika algoritmer och en framtagning av en prototyp. Detta med hjälp av verktyg såsom Spyder och XAMPP. Resultatet visar på att olika typer av känsliga data ger olika starka resultat i den utvecklade programvaran. kNN-algoritmen visade starka resultat i de fall då den känsliga datan rörde svenska, tiosiffriga personnummer samt telefonnummer i tio- eller elva-siffrigt format, och antingen inleds med 46, 070, 072 eller 076 samt då den rörde adresser. Regular expression visade på starka resultat när det gällde e- mails och IP-adresser.
|
57 |
Maskininlärning applicerat på data över biståndsinsatser : En studie i hur prediktiva modeller kan tillämpas för analys på Sida / Machine learning applied to data of aid contributionsAronsson, Erik, Crondahl, Olle January 2017 (has links)
The purpose of this master's thesis was to study if machine learning can be used asdecision support at the Swedish International Development Agency (Sida) in their work to provide financial aid. The aim was to examine the recurringphenomenon of increased number of aid disbursements towards the end of the year. A study and presentation of the data has been done to show the disbursementdistribution of Sida's operating departments. Moreover, qualitative interviews with different roles at Sida have been done to highlight the complexity of the agency and toexplain why and how different disbursement patterns occur. The approach has been to use classification models as well as regression models applied to data ofaid contributions from Sida's database. The classification models used were Decision Tree, k-Nearest Neighbour and Gradient Boosted Tree and thepurpose with the models was to illustrate which features of a contribution that are likely to be of importance for whether a disbursement occurs in December or earlier.The regression models used were linear models with the aim to predict if disbursements are likely to be delayed relative to the prognosis. The classificationmodel succeeded to point out three attributes that had influence on the classification result. The general conclusions of the report are that data ofcontributions generated in different IT-systems and various work routines at Sida's departments affect the quality of the data and the models’ accuracies negatively.Furthermore, insufficient amounts of data due to changes in Sida's information management has created difficulties when using data driven models to predict latedisbursements.
|
58 |
Maskininlärning inom bokförings- och faktureringssystemJansson, Christofer, Karlsson, Sebastian January 2017 (has links)
The study has a purpose designed to investigate within which framework automation of accounting and billing systems processes is possible through machine learning, as a result of providing guidance for when and where an implementation is relevant in the systems. For the study, a data collection has been carried out on a company that offers accounting and billing systems and works within the machine learning area. Interviews have been made at the company conducted to capture relevant empirical results. Aspects categorized from collected data are presented in possibilities, implementation, ethics and alternative approaches. Together with literature studies, the empirical categories have been analyzed and four frameworks identified. The frameworks identified are: competitiveness, technical factors, knowledge and skills as well as impact on occupational groups.Each frame contains information and examples of factors that should be considered. Companies can investigate important aspects of when and where an implementation of machine learning is possible and relevant in accounting and billing systems. / Studien har ett utformat syfte som handlar om att undersöka inom vilka ramar automatisering av processer inom bokförings- och faktureringssystem är möjligt med hjälp av maskininlärning, med anledning av att skapa en vägledning för när och var en implementation är relevant i systemen. För studien har en datainsamling utförts på ett företag som erbjuder bokförings- och faktureringssystem samt arbetar med maskininlärning för området. Hos verksamheten har intervjuer utförts för att fånga in relevant empiri som resultat. Aspekter som kategoriserats från insamlad data presenteras i möjligheter, implementering, etik och alternativa tillvägagångssätt. Tillsammans med litteraturstudier har kategorierna ur empirin analyserats och fyra ramar identifierats. Ramarna som identifierats är följande: konkurrenskraft, tekniska faktorer, kunskap och kompetens samt påverkan på yrkesgrupper.Varje ram innehåller information och exempel på faktorer som bör beaktas. Företag kan med hjälp av ramarna utreda viktiga aspekter gällande när och var en implementation av maskininlärning är möjlig och relevant i bokförings- och faktureringssystem.
|
59 |
Evaluation of a Machine Learning Approach To Heat Prediction / Utvärdering av en maskininlärningssyn på värmeprediktionSvensson, Kenny January 2002 (has links)
This is a report about machine learning in the field of computer science. The problem handled is prediction of energy consumption in district heating systems. Prediction of energy consumption in district heating systems is a delicate problem because of the social behaviours, weather and distribution time that has to be accounted for. One algorithm is introduced and three different experiments are made to determine if the algorithm is useful. The results from the experiments were good. This report differs in approach to the problem then other reports found in this field. The difference is that this report tries to handle social behaviours and looks at a decentralized view of the problem instead of centralized. / Denna rapport är om maskininlärning och hur mna kan använda en maskinlärningsalgoritm för att förutspå konsumption i fjärrvärmenät. Rapporten skiljer sig markant i synsätt jämt emot andra rapporter i ämnet genom att den tittar även på de sociala faktorerna.
|
60 |
Övervakad namntaggning med domänspecifik träningsdata / Supervised named-entity recognition with domain-specific training dataPersson, Adam January 2016 (has links)
Övervakad maskininlärning har gett goda resultat för automatisk namntaggning. Detta kräver dock manuellt annoterad träningsdata, vilket är krävande att ta fram. Studier har visat att likhet mellan träningsdata och testdata är viktigt för att uppnå bra resultat, men normalt sett tränas system alltid med så mycket data som möjligt, utan hänsyn till dess relevans. Syftet med denna studie är att undersöka om bättre namntaggning kan uppnås genom att utesluta de delar av träningsdatan som inte tillhör samma textdomän som testdatan. För att genomföra detta konstrueras ett system med multinomial logistisk regression som tränas och testas på Stockholm-Umeå Corpus enligt både traditionell och föreslagen metod. Undersökningen visar en liten men signifikant försämring vid användning av enbart domänspecifik träningsdata, ett resultat som dock inte är genomgående för alla delar av undersökningen. Den stora fördelen av att reducera träningsdatan är dock att det ökar maskininlärningens hastighet. För att kunna utnyttja detta föreslås att namntaggning föregås av textklassificering.
|
Page generated in 0.1369 seconds