  The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

Bildklassificering av bilar med hjälp av deep learning / Image Classification of Cars using Deep Learning

Lindespång, Victor January 2017 (has links)
Den här rapporten beskriver hur en bildklassificerare skapades med förmågan att via en given bild på en bil avgöra vilken bilmodell bilen är av. Klassificeringsmodellen utvecklades med hjälp av bilder som företaget CAB sparat i samband med försäkringsärenden som behandlats via deras nuvarande produkter. Inledningsvis i rapporten så beskrivs teori för maskininlärning och djupinlärning på engrundläggande nivå för att leda in läsaren på ämnesområdet som rör rapporten, och fortsätter sedan med problemspecifika metoder som var till nytta för det aktuella problemet. Rapporten tar upp metoder för hur datan bearbetats i förväg, hur träningsprocessen gick  till med de valda verktygen samt diskussion kring resultatet och vad som påverkade det – med kommentarer om vad som kan göras i framtiden för att förbättra slutprodukten. / This report describes how an image classifier was created with the ability to identify car makeand model from a given picture of a car. The classifier was developed using pictures that the company CAB had saved from insurance errands that was managed through their current products. First of all the report begins with a brief theoretical introduction to machine learning and deep learning to guide the reader in to the subject of the report, and then continues with problemspecific methods that were of good use for the project. The report brings up methods for how the data was processed before training took place, how the training process went with the chosen tools for this project and also discussion about the result and what effected it – with comments about what can be done in the future to improve the end product.

Image Comparing and Recognition : Food Classification

Häggqvist, Victor, Lundberg, Peter January 2015 (has links)
Bildigenkänning och jämförelse är ett ämne som har varit i fokus under en lång tid inom datavetenskap. Många företag har försökt att skapa produkter, som utnyttjar olika lösningar för att känna igen objekt och människor. Dock har ingen lyckats skapa en lösning som kan göra detta felfritt. Lifesum vill ha en lösning till deras kaloriräknarapplikation. Denna ska erbjuda användaren möjligheten att fotografera en maträtt, för att sedan kunna ta fram vilken maträtt som bilden illustrerar. Histogramjämförelse är ett av lösningsalternativen, dock inte den mest optimala bildjämförelsealgoritmen. Att använda en algoritm som utnyttjar nyckelpunktsdetektion är den mest optimala lösningen, om träning av algoritmen är ett alternativ. En av idéerna för att öka precisionen är att låta användaren välja mellan de fem bästa maträtterna som algoritmen rekommenderar. På så sätt ökar man sannolikheten att maträtten som söks är en av de rekommenderade maträtterna. Framtida arbeten inom detta ämne kan involvera forskning i hur träning utav HOG, Histogram of Oriented Gradients, algoritmen skulle fungera. Detta för att få ett bättre resultat som låter FLANN, Fast Approximate Nearest Neighbor Search Library, algoritmen arbeta snabbare. / Image recognition and comparison is a topic that has been in focus for a long time within computer science. Many companies have tried to create products that use different solutions to recognize objects and people. However, none of these companies have managed to create a solution that can do this flawlessly. Lifesum want a solution to their calorie counting application. This will offer the user the opportunity to take a picture of a dish and then be able to retrieve which dish the image illustrates. Histogram comparison is one solution to this problem, thought not the most optimal one. Using an algorithm that uses keypoint detection is the most optimal solution, if training of the algorithm is an option. One of the ideas to improve the precision is to allow the user to choose between the five best dishes that the algorithm recommends. In this way one increase the probability of that the wanted dish is one of the recommended dishes. Future work in this topic can involve researching on how training the HOG, Histogram of Oriented Gradients, algorithm would work, to get a better result that could let the FLANN, Fast Approximate Nearest Neighbor Search Library, algorithm work faster.

Comparing the Cost-effectiveness of Image Recognition for Elastic Cloud Computing : A cost comparison between Amazon Web Services EC2 instances / Jämför kostnadseffetiviten av bildigenkänning för Elastic Cloud Computing : En kostnadsjämförelse mellan Amazon Web Services EC2 instanser

Gauffin, Christopher, Rehn, Erik January 2021 (has links)
With the rise of the usage of AI, the need for computing power has grown exponentially. This has made cloud computing a popular option with its cost- effective and highly scalable capabilities. However, due to its popularity there exists thousands of possible services to choose from, making it hard to find the right tool for the job. The purpose of this thesis is to provide a methodological approach for evaluating which alternative is the best for machine learning applications deployed in the cloud. Nine different instances were evaluated on a major cloud provider and compared for their performance relative to their cost. This was accomplished by developing a cost evaluation model together with a test environment for image recognition models. The environment can be used on any type of cloud instance to aid in the decision-making. The results derived from the specific premises used in this study indicate that the higher the hourly cost an instance had, the less cost-effective it was. However, when making the same comparison within an instance family of similar machines the same conclusion can not be made. Regardless of the conclusions made in this thesis, the problem addressed remains, as the domain is too large to cover in one report. But the methodology used holds great value as it can act as guidance for similar evaluation with a different set of premises. / Användingen av Artificiell Intelligens har aldrig varit så stor som den är idag och behovet av att kunna göra tyngre och mer komplexa beräkningar har växt exponentiellt. Detta har gjort att molnet, cloud, ett mycket populärt alternativt för sin kostadseffektiva och skalbara förmåga. Däremot så finns det tusentals alternativ att välja emellan vilket gör det svårt att hitta rätt verktyg för jobbet. Syftet med denna uppsats är att förse läsaren med en användbar metodik för att evaluera vilket instans som passar bäst för maskininlärnings applikationer som distribueras i molnet. Nio stycken olika instanser evaluerades på en molnleverantör genom att jämföra deras prestanda kontra deras kostnad. Detta gjordes genom att utveckla en kostnadsmodell tillsammans med en testmiljö för bildigenkänningsmodeller. Testmiljön som användes kan appliceras på flertal instanser som inte ingick i denna rapport för att tillåta andra att använda den för egna tester. Resultaten för studien var att de instanserna med högre timkostnad tenderar till att vara mindre kostnadseffektiva. Gör man samma jämförelse med endast instanser av samma typ som är anpassade för maskininlärning så är samma slutsats inte lika självklar. Oavsett slutsatser som ges i denna rapport så består problemet. Detta beror på att molnet berör så många olika faktorer som bör värderas i evalueringen, till exempel utvecklingstid och modellens förmåga att förutspå en bild vilket alla kräver sin egna tes. Men metodiken som används kan definitivt vara till stor nytta om man vill göra en liknande utvärdering med andra premisser.

Specialization of an Existing Image Recognition Service Using a Neural Network

Ersson, Sara, Dahl, Oskar January 2018 (has links)
To help combat the environmental impacts caused by humans this project is about investigating one way to simplify the waste management process. The idea is to use image recognition to identify what material the recyclable object is made of. A large data set containing labeled images of trash, called Trashnet, was analyzed using Google Cloud Vision. Since this API is not written for material detection specifically, a feed forward neural network was created using Tensorflow and trained with the output from Google Cloud Vision. Thus, the network learned how different word combinations from Google Cloud Vision implicated one of five different materials; glass, plastic, paper, metal and combustible waste. The network checked for 518 unique words in the input and ran them through two hidden layers with a size of 1000 nodes each, before having a one hot output layer. This neural network received an accuracy of around 60%, which beat Google Cloud Vision’s meager accuracy of around 30%. An application, with which the user can take pictures of the object he or she would like to recycle, could be developed with an educational purpose to let its user know what material the waste is made of, and with this information be able to throw the waste in the right bin. / För att hjälpa till att motverka människans negativa påverkan på miljön kommer detta projekt handla om att undersöka hur man kan göra det enklare att källsortera. Grundidén är att använda bildigenkänning för att identifiera vilket återvinningsbart material som objektet i bilden består av. Ett stort dataset med bilder indelade i olika återvinningsbara material, kallat Trashnet, analyserades med hjälp av Google Cloud Vision, vilket är ett API för bildigenkänning och inte specifikt igenkänning av material. Med hjälp av Tensorflow skapades ett neuralt nätverk som använder utdatan från Google Cloud Vision som indata, vilket i sin tur kan ge ett av fem olika material som utdata; glas, plast, papper, metall eller brännbart. Nätverket lärde sig hur olika ordkombinationer från Google Cloud Vision implikerade ett av de fem materialen. Nätverkets indata-lager består av de 518 unika orden som Google Cloud Vision sammanlagt gav som utdata efter att ha analyserade Trashnets dataset. Dessa ord körs igenom två dolda lager, vilka båda består av 1000 noder var, innan det sista lagret, som är ett ”one hot”-utdatalager. Detta nätverk fick en träffsäkerhet på cirka 60%, vilket slog Google Cloud Visions träffsäkerhet på cirka 30%. Detta skulle kunna användas i en applikation, där användaren tar en bild på det skräp som önskas återvinnas, som utvecklas i utbildningssyfte att lära användaren vilket material dennes återvinningsbara föremål är gjort av, och med denna information bättre kunna källsortera.

Interpretation of Swedish Sign Language using Convolutional Neural Networks and Transfer Learning

Halvardsson, Gustaf, Peterson, Johanna January 2020 (has links)
The automatic interpretation of signs of a sign language involves image recognition. An appropriate approach for this task is to use Deep Learning, and in particular, Convolutional Neural Networks. This method typically needs large amounts of data to be able to perform well. Transfer learning could be a feasible approach to achieve high accuracy despite using a small data set. The hypothesis of this thesis is to test if transfer learning works well to interpret the hand alphabet of the Swedish Sign Language. The goal of the project is to implement a model that can interpret signs, as well as to build a user-friendly web application for this purpose. The final testing accuracy of the model is 85%. Since this accuracy is comparable to those received in other studies, the project’s hypothesis is shown to be supported. The final network is based on the pre-trained model InceptionV3 with five frozen layers, and the optimization algorithm mini-batch gradient descent with a batch size of 32, and a step-size factor of 1.2. Transfer learning is used, however, not to the extent that the network became too specialized in the pre-trained model and its data. The network has shown to be unbiased for diverse testing data sets. Suggestions for future work include integrating dynamic signing data to interpret words and sentences, evaluating the method on another sign language’s hand alphabet, and integrate dynamic interpretation in the web application for several letters or words to be interpreted after each other. In the long run, this research could benefit deaf people who have access to technology and enhance good health, quality education, decent work, and reduced inequalities. / Automatisk tolkning av tecken i ett teckenspråk involverar bildigenkänning. Ett ändamålsenligt tillvägagångsätt för denna uppgift är att använda djupinlärning, och mer specifikt, Convolutional Neural Networks. Denna metod behöver generellt stora mängder data för att prestera väl. Därför kan transfer learning vara en rimlig metod för att nå en hög precision trots liten mängd data. Avhandlingens hypotes är att utvärdera om transfer learning fungerar för att tolka det svenska teckenspråkets handalfabet. Målet med projektet är att implementera en modell som kan tolka tecken, samt att bygga en användarvänlig webapplikation för detta syfte. Modellen lyckas klassificera 85% av testinstanserna korrekt. Då denna precision är jämförbar med de från andra studier, tyder det på att projektets hypotes är korrekt. Det slutgiltiga nätverket baseras på den förtränade modellen InceptionV3 med fem frysta lager, samt optimiseringsalgoritmen mini-batch gradient descent med en batchstorlek på 32 och en stegfaktor på 1,2. Transfer learning användes, men däremot inte till den nivå så att nätverket blev för specialiserat på den förtränade modellen och dess data. Nätverket har visat sig vara ickepartiskt för det mångfaldiga testningsdatasetet. Förslag på framtida arbeten inkluderar att integrera dynamisk teckendata för att kunna tolka ord och meningar, evaluera metoden på andra teckenspråkshandalfabet, samt att integrera dynamisk tolkning i webapplikationen så flera bokstäver eller ord kan tolkas efter varandra. I det långa loppet kan denna studie gagna döva personer som har tillgång till teknik, och därmed öka chanserna för god hälsa, kvalitetsundervisning, anständigt arbete och minskade ojämlikheter.

Impact of data augmentations when training the Inception model for image classification

Barai, Milad, Heikkinen, Anthony January 2017 (has links)
Image classification is the process of identifying to which class a previously unobserved object belongs to. Classifying images is a commonly occurring task in companies. Currently many of these companies perform this classification manually. Automated classification however, has a lower expected accuracy. This thesis examines how automated classification could be improved by the addition of augmented data into the learning process of the classifier. We conduct a quantitative empirical study on the effects of two image augmentations, random horizontal/vertical flips and random rotations (<180◦). The data set that is used is from an auction house search engine under the commercial name of Barnebys. The data sets contain 700 000, 50 000 and 28 000 images with each set containing 28 classes. In this bachelor’s thesis, we re-trained a convolutional neural network model called the Inception-v3 model with the two larger data sets. The remaining set is used to get more class specific accuracies. In order to get a more accurate value of the effects we used a tenfold cross-validation method. Results of our quantitative study shows that the Inception-v3 model can reach a base line mean accuracy of 64.5% (700 000 data set) and a mean accuracy of 51.1% (50 000 data set). The overall accuracy decreased with augmentations on our data sets. However, our results display an increase in accuracy for some classes. The highest flat accuracy increase observed is in the class "Whine & Spirits" in the small data set where it went from 42.3% correctly classified images to 72.7% correctly classified images of the specific class. / Bildklassificering är uppgiften att identifiera vilken klass ett tidigare osett objekt tillhör. Att klassificera bilder är en vanligt förekommande uppgift hos företag. För närvarande utför många av dessa företag klassificering manuellt. Automatiserade klassificerare har en lägre förväntad nogrannhet. I detta examensarbete studeradas hur en maskinklassificerar kan förbättras genom att lägga till ytterligare förändrad data i inlärningsprocessen av klassificeraren. Vi genomför en kvantitativ empirisk studie om effekterna av två bildförändringar, slumpmässiga horisontella/vertikala speglingar och slumpmässiga rotationer (<180◦). Bilddatasetet som används är från ett auktionshus sökmotor under det kommersiella namnet Barnebys. De dataseten som används består av tre separata dataset, 700 000, 50 000 och 28 000 bilder. Var och en av dataseten innehåller 28 klasser vilka mappas till verksamheten. I det här examensarbetet har vi tränat Inception-v3-modellen med dataset av storlek 700 000 och 50 000. Vi utvärderade sedan noggrannhet av de tränade modellerna genom att klassificera 28 000-datasetet. För att få ett mer exakt värde av effekterna använde vi en tiofaldig korsvalideringsmetod. Resultatet av vår kvantitativa studie visar att Inceptionv3-modellen kan nå en genomsnittlig noggrannhet på 64,5% (700 000 dataset) och en genomsnittlig noggrannhet på 51,1% (50 000 dataset). Den övergripande noggrannheten minskade med förändringar på vårat dataset. Dock visar våra resultat en ökad noggrannhet i vissa klasser. Den observerade högsta noggrannhetsökningen var i klassen Åhine & Spirits", där vi gick från 42,3 % korrekt klassificerade bilder till 72,7 % korrekt klassificerade bilder i det lilla datasetet med förändringar.

Real-time object detection robotcontrol : Investigating the use of real time object detection on a Raspberry Pi for robot control / Autonom robot styrning via realtids bildigenkänning : Undersökning av användningen av realtids bildigenkänning på en Raspberry Pi för robotstyrning

Ryberg, Simon, Jansson, Jonathan January 2022 (has links)
The field of autonomous robots have been explored more and more over the last decade. The combination of machine learning advances and increases in computational power have created possibilities to explore the usage of machine learning models on edge devices. The usage of object detection on edge devices is bottlenecked by the edge devices' limited computational power and they therefore have constraints when compared to the usage of machine learning models on other devices. This project explored the possibility to use real time object detection on a Raspberry Pi as input in different control systems. The Raspberry with the help of a coral USB accelerator was able to find a specified object and drive to it, and it did so successfully with all the control systems tested. As the robot was able to navigate to the specified object with all control systems, the possibility of using real time object detection in faster paced situations can be explored. / Ämnet autonoma robotar har blivit mer och mer undersökt under de senaste årtiondet. Kombinationen av maskin inlärnings förbättringar och ökade beräknings möjligheter hos datorer och chip har gjort det möjligt att undersöka användningen av maskin inlärningsmodeller på edge enheter. Användandet av bildigenkänning på edge enheter är begränsad av edge enheten begränsade datorkraft, och har därför mer begränsningar i jämförelse med om man använder bildigenkänning på en annan typ av enhet. Det här projektet har undersökt möjligheten att använda bildigenkänning i realtid som input för kontrollsystem på en Raspberry Pi. Raspberry Pien med hjälp av en Coral USB accelerator lyckades att lokalisera och köra till ett specificerat objekt, Raspberryn gjorde detta med alla kontrollsystem som testades på den. Eftersom roboten lyckades med detta, så öppnas möjligheten att använda bildigenkänning på edge enheter i snabbare situationer.

Automatic identification of northern pike (Exos Lucius) with convolutional neural networks

Lavenius, Axel January 2020 (has links)
The population of northern pike in the Baltic sea has seen a drasticdecrease in numbers in the last couple of decades. The reasons for this are believed to be many, but the majority of them are most likely anthropogenic. Today, many measures are being taken to prevent further decline of pike populations, ranging from nutrient runoff control to habitat restoration. This inevitably gives rise to the problem addressed in this project, namely: how can we best monitor pike populations so that it is possible to accurately assess and verify the effects of these measures over the coming decades? Pike is currently monitored in Sweden by employing expensive and ineffective manual methods of individual marking of pike by a handful of experts. This project provides evidence that such methods could be replaced by a Convolutional Neural Network (CNN), an automatic artificial intelligence system, which can be taught how to identify pike individuals based on their unique patterns. A neural net simulates the functions of neurons in the human brain, which allows it to perform a range of tasks, while a CNN is a neural net specialized for this type of visual recognition task. The results show that the CNN trained in this project can identify pike individuals in the provided data set with upwards of 90% accuracy, with much potential for improvement.

Multi-modal Models for Product Similarity : Comparative evaluation of unimodal and multi-modal architectures for product similarity prediction and product retrieval / Multimodala modeller för produktlikhet

Frantzolas, Christos January 2023 (has links)
With the rapid growth of e-commerce, enabling effective product recommendation systems and improving product search for shoppers plays a crucial role in driving customer satisfaction. Traditional product retrieval approaches have mainly relied on unimodal models focusing on text data. However, to capture auxiliary context and improve the accuracy of similarity predictions, it is crucial to explore architectures that can leverage additional sources of information, such as images. This thesis compares the performance of multi- and unimodal methods for product similarity prediction and product retrieval. Both approaches are applied to two e-commerce datasets, one containing English and another containing Swedish product descriptions. A pre-trained multi-modal model called CLIP is used as a feature extractor. Different models are trained on CLIP embeddings using either text-only, image-only or image-text inputs. An extension of triplet loss with margins is tested, along with various training setups. Given the lack of similarity labels between products, product similarity prediction is studied by measuring the performance of a K-Nearest Neighbour classifier implemented on features extracted by the trained models. The thesis results demonstrate that multi-modal architectures outperform unimodal models in predicting product similarity. The same is true for product retrieval. Combining textual and visual information seems to lead to more accurate predictions than models relying on only one modality. The findings of this research have considerable implications for e-commerce platforms and recommendation systems, providing insights into the effectiveness of multi-modal models for product-related tasks. Overall, the study contributes to the existing body of knowledge by highlighting the advantages of leveraging multiple sources of information for deep learning. It also presents recommendations for designing and implementing effective multi-modal architectures. / I och med den snabba tillväxten av e-handel spelar att möjliggöra effektivare produktrekommendationssystem och att förbättra produktsök för konsumenter en viktig roll för att öka kundnöjdheten. Traditionella angreppsätt för produktsök har huvudsakligen tillförlitat sig på unimodala textmodeller. För att fånga ett bredare kontext och förbättra exaktheten av prediktioner av likhet mellan produkter är det viktigt att utforska arkitekturer som kan utnyttja fler informationskällor så som bilder. Den här avhandlingen jämför prestanda hos multimodala och unimodala metoder för produktlikhetsprediktioner och produktsök. Båda angreppsätten är tillämpade på två e-handelsdatamängder, en med engelska produktbeskrivningar och en med svenska. En förtränad multimodal modell kallad CLIP används för att skapa produktrepresentationer. Olika modeller har tränats på CLIPs representationer, antingen med enbart text, enbart bild eller både bild och text. En utökning av ett triplettmått med marginaler har testats som träningskriterium, i kombination med olika träningsinställningar. Givet en avsaknad av likhetsannoteringar mellan produkter så har produktlikhetsprediktion studerats genom att mäta prestandan av K-närmaste-grannar-klassificering genom att använda vektor-representationer från de tränade modellerna. Avhandlingens resultat visar att multimodala arkitekturer överträffar unimodala modeller för produktlikhetsprediktion. Att kombinera textuell och visuell information verkar leda till mer korrekta prediktioner jämfört med modeller som förlitar sig på endast en modalitet. Forskningsresultaten har markanta implikationer för e-handelsplattformar och rekommendationssystem, genom att tillhandahålla insikter i multimodala modellers effektivitet i produktrelaterade uppgifter. Överlag så bidrar studien till den existerande litteraturen genom att förtydliga fördelarna av att utnyttja flera informationskällor för djupinlärning. Den resulterar också i rekommendationer för att designa och implementera effektiva multimodala modellarkitekturer.

Matching Sticky Notes Using Latent Representations / Matchning av klisterlappar med hjälp av latent representation

García San Vicent, Javier January 2022 (has links)
his project addresses the issue of accurately identifying repeated images of sticky notes. Due to environmental conditions and the 3D location of the camera, different pictures taken of sticky notes may look distinct enough to be hard to determine if they belong to the same note. More specifically, this thesis aims to create latent representations of these pictures of sticky notes to encode their content so that all the pictures of the same note have a similar representation that allows to identify them. Thus, those representations must be invariant to light conditions, blur and camera position. To that end, a Siamese neural architecture will be trained based on data augmentation methods. The method consists of learning to embed two augmented versions of the same image into similar representations. This architecture has been trained with unsupervised learning and fine-tuned with supervised learning to detect if two representations belong or not to the same note. The performance of ResNet, EfficientNet and Vision Transformers in encoding the images into their representations has been compared with different configurations. The results show that, while the most complex models overfit small amounts of data, the simplest encoders are capable of properly identifying more than 95% of the sticky notes in grey scale. Those models can create invariant representations that are close to each other in the latent space for pictures of the same sticky note. Gathering more data could result in an improvement of the performance of the model and the possibility of applying it to other fields such as handwritten documents. / Detta projekt tar upp frågan om att identifiera upprepade bilder av klisterlappar. På grund av miljöförhållanden och kamerans 3D-placering kan olika bilder som tagits till klisterlappar se tillräckligt distinkta ut för att det ska vara svårt att avgöra om de faktiskt tillhör samma klisterlappar. Mer specifikt är syftet med denna avhandling att skapa latenta representationer av bilder av klisterlappar som kodar deras innehåll, så att alla bilder av en klisterlapp har en liknande representation som gör det möjligt att identifiera dem. Sålunda måste representationerna vara oföränderliga för ljusförhållanden, oskärpa och kameraposition. För det ändamålet kommer en enkel siamesisk neural arkitektur att tränas baserad på dataförstärkningsmetoder. Metoden går ut på att lära sig att göra representationerna av två förstärkta versioner av en bild så lika som möjligt. Genomatt tillämpa vissa förbättringar av arkitekturen kan oövervakat lärande användas för att träna nätverket. Prestandan hos ResNet, EfficientNet och Vision Transformers när det gäller att koda bilderna till deras representationer har jämförts med olika konfigurationer. Resultaten visar att även om de mest komplexa modellerna överpassar små mängder data, kan de enklaste kodarna korrekt identifiera mer än 95% av klisterlapparna. Dessa modeller kan skapa oföränderliga representationer som är nära i det latenta utrymmet för bilder av samma klisterlapp. Att samla in mer data kan resultera i en förbättring av modellens prestanda och möjligheten att tillämpa den på andra områden som till exempel handskrivna dokument.

