Global ETD Search

1	Androidapplikation för digitalisering av formulär : Minimering av inlärningstid, kostnad och felsannolikhet Fahlén, Erik January 2018 (has links) This study was performed by creating an android application that uses custom object recognition to scan and digitalize a series of checkbox form for example to correct multiple-choice questions or collect forms in a spreadsheet. The purpose with this study was to see which dataset and hardware with the machine learning library TensorFlow was cheapest, price worthy, enough reliable and fastest. A dataset of filled example forms with annotated checkboxes was created and used in the learning process. The model that was used for the object recognition was Single Show MultiBox Detector, MobileNet version, because it can detect multiple objects in the same image as well as it doesn’t have as high hardware requirements making it fitted for phones. The learning process was done in Google Clouds Machine Learning Engine with different image resolutions and cloud configurations. After the learning process on the cloud the finished TensorFlow model was converted to the TensorFlow Lite model that gets used in phones. The TensorFlow Lite model was used in the compilation of the android application so that the object recognition could work. The android application worked and could recognize the inputs in the checkbox form. Different image resolutions and cloud configurations during the learning process gave different results when it comes to which one was fastest and cheapest. In the end the conclusion was that Googles hardware setup STANDARD_1 was 20% faster than BASIC that was 91% cheaper and more price worthy with this dataset. / Denna studie genomfördes genom att skapa en fungerande androidapplikation som använder sig av en anpassad objektigenkänning för att skanna och digitalisera en serie av kryssruteformulär exempelvis för att rätta flervalsfrågor eller sammanställa enkäter i ett kalkylark. Syftet med undersökningen var att se vilka datauppsättningar och hårdvara med maskininlärningsbiblioteket TensorFlow som var billigast, mest prisvärd, tillräcklig tillförlitlig och snabbast. En datauppsättning av ifyllda exempelformulär med klassificerade kryssrutor skapades och användes i inlärningsprocessen. Modellen som användes för objektigenkänningen blev Single Shot MultiBox Detector, version MobileNet, för att denna kan känna igen flera objekt i samma bild samt att den inte har lika höga hårdvarukrav vilket gör den anpassad för mobiltelefoner. Inlärningsprocessen utfördes i Google Clouds Machine Learning Engine med olika bildupplösningar och molnkonfiguration. Efter inlärningsprocessen på molnet konverterades den färdiga TensorFlow- modellen till en TensorFlow Lite-modell som används i mobiltelefoner. TensorFlow Lite-modellen användes i kompileringen av androidapplikationen för att objektigenkänningen skulle fungera. Androidapplikationen fungerade och kunde känna igen alla inmatningar i kryssruteformuläret. Olika bildupplösningar och molnkonfigurationer under inlärningsprocessen gav olika resultat när det gäller vilken som var snabbast eller billigast. I slutändan drogs slutsatsen att Googles hårdvaruuppsättning STANDARD_1 var 20% snabbare än BASIC som var 91% billigare och mest prisvärd med denna datauppsättning. Machine learning TensorFlow object recognition computer engineering Maskininlärning TensorFlow objektigenkänning datateknik Software Engineering Programvaruteknik
2	Evaluating rain removal image processing solutions for fast and accurate object detection / Utvärdering av regnborttagningsalgoritmer för snabboch pålitlig objektigenkänning Köylüoglu, Tugay, Hennicks, Lukas January 2019 (has links) Autonomous vehicles are an important topic in modern day research, both for the private and public sector. One of the reasons why self-driving cars have not yet reached consumer market is because of levels of uncertainty. This is often tackled with multiple sensors of different kinds which helps gaining robust- ness in the vehicle’s system. Radars, lidars and cameras are often the sensors used and the expenses can rise up quickly, which is not always feasible for different markets. This could be addressed with using fewer, but more robust sensors for visualization. This thesis addresses the issue of one particular failure mode for camera sensors, which is reduced view range affected by rainy weather. Kalman filter and discrete wavelet transform with bilateral filtering are evaluated as rain removal algorithms and tested with the state-of-the-art object detection algorithm, You Only Look Once (YOLOv3). Filtered videos in daylight and evening light were tested with YOLOv3 and results show that the accuracy is not improved enough to be worth implementing in autonomous vehicles. With the graphics card available for this thesis YOLOv3 is not fast enough for a vehicle to stop in time when driving in 110km/h and an obstacle appears 80m ahead, however an Nvidia Titan X is assumed to be fast enough. There is potential within the research area and this thesis suggests that other object detection methods are evaluated as future work. / Autonoma fordon är för privat samt offentlig sektor ett viktigt område i modern forskning. Osäkerheten med autonoma fordon är en viktig anledning till varför de idag inte nått konsumentmarknaden. Systemen för autonoma fordon blir mer robusta med inkludering av flera sensorer av olika typer, vilka oftast är kameror, radar och lidars. Fordon med dessa sensorer kan snabbt öka i pris vilket gör dem mindre tillgängliga för olika marknader. Detta skulle kunna lösas med färre sensorer som däremot är mer robusta. Denna avhandling diskuterar problemet med en specific felmodell för kameror, vilket är minskat synfält som påverkas av regnigt väder. Kalman filter och diskret vågkomponent-transformation med bilateral filtrering utvärderades som regnborttagningsalgoritmer och testades med You Only Look Once (YOLOv3), en modern objektigenkänningsmetod. Filtrerade videofilmer i dagstid och kvällstid testades med YOLOv3 och resultaten visade att noggrannheten inte ökade tillräckligt mycket för att vara användbara för autonoma fordon. Med grafikkorten tillgängliga för denna avhandling är inte YOLOv3 snabb nog för ett fordon att hinna stanna i tid före kollision om bilen kör i 110km/h och ett föremål dyker upp 80m framför. Däremot antas det att fordon utrustade med Nvidias Titan X borde hinna stanna i tid före kollision. Avhandlingen ser däremot potential inom detta forskningsområde och föreslår att liknande test fast med andra objektigenkänningsmetoder bör utföras. object detection failure modes autonomous vehicles objektigenkänning felmodell autonoma fordon Engineering and Technology Teknik och teknologier
3	A visual approach to web information extraction : Extracting information from e-commerce web pages using object detection Brokking, Alexander January 2023 (has links) Internets enorma omfattning har resulterat i ett överflöd av information som är oorganiserad och spridd över olika hemsidor. Det har varit motivationen för automatisk informationsextraktion av hemsidor sedan internets begynnelse. Nuvarande strategier använder främst heuristik och metoder för naturlig språkbehandling på HTML-koden för hemsidorna. Med tanke på att hemsidor utformas för att vara visuella och interaktiva för mänsklig användning utforskar denna studie potentialen för datorseendebaserade metoder för informationsextraktion från webben. I denna studie tränas och utvärderas state-of-the-art modeller för objektigenkänning i flera experiment på dataset av e-handelswebbplatser för att utvärdera modellernas potential. Resultaten indikerar att en förtränad Conditional DETR-arkitektur med en ResNet50 ryggrad kan finjusteras för att konsekvent identifiera måletiketter från nya domäner med ett mAP_50 >80%. Visuell extraktion på nya exempel inom kända domänstrukturer visade en ännu högre mAP_50 över 98%. Slutligen granskar denna studie den nuvarande litteraturen för dataset som kan användas inom visuell extraktion och belyser vikten av domänmångfald i träningsdata. Genom detta arbete ges initiala insikter i tillämpningen av datorseende inom informationsextraktion från webben, i hopp om att inspirera vidare forskning i denna riktning. / The vastness of the internet has resulted in an abundance of information that is unorganized and dispersed across numerous web pages. This has been the motivation for automatic web page extraction since the dawn of the internet era. Current strategies primarily employ heuristics and natural language processing methods to the HTML of web pages. However, considering the visual and interactive nature of web pages designed for human use, this thesis explores the potential of computer-vision-based approaches for web page extraction. In this thesis, state-of-the-art object detection models are trained and evaluated in several experiments on datasets of e-commerce websites to determine their viability. The results indicate that a pre-trained Conditional DETR architecture with a ResNet50 backbone can be fine-tuned to consistently identify target labels of new domains with an mAP_50 >80%. Visual extraction on new examples within known domain structures showed an even higher mAP_50 above 98%. Finally, this thesis surveys the state-of-the datasets that can be used for visual extraction and highlights the importance of domain diversity in the training data. Through this work, initial insights are offered into the application of computer vision in web page extraction, with the hope of inspiring further research in this direction. Web information extraction computer vision object detection deep learning Informationsextraktion från webben datorseende objektigenkänning djupinlärning Computer Sciences Datavetenskap (datalogi)
4	En jämförelse mellan två öppna ramverk för objektigenkänning : En undersökning gällande noggrannhet och tidsåtgång vidträning och test / A comparison between two open frameworks for object detection - Astudy regarding precision and duration with training and test Tirus, Nicklas January 2018 (has links) Samarbetspartnern som denna studie har gjorts för har som mål att konstruera en detektor för tågtrafiken som bygger på bildigenkänning och artificiell intelligens. Problemet är att de lösningar som finns idag är dyra, och därför är en förutsättning att den ska vara byggd med konsumentprodukter för att få ner kostnaden samt att den ska vara enkel att installera och underhålla. Flera ramverk för objektigenkänning existerar, men dessa bygger på olika metoder och tekniker. Studien har därför utförts som en fallstudie vars syfte har varit att jämföra två välanvända ramverk för objektigenkänning för att identifiera olika för- och nackdelar gällande noggrannhet och tidsåtgång vid träning och test med hjälp av dessa ramverk. Även vilka olika utmaningar som stötts på under tillvägagångssättet har lyfts fram. Studien sammanfattar sedan dessa för att skapa idéer och diskussion för hur dessa skulle kunna implementeras på den nya tågdetektorn. Ramverken som har jämförts är OpenCV och Google TensorFlow. Dessa bygger på olika objektigenkänningstekniker, i huvudsak kaskadklassificering och neurala nät. Ramverken testades med en datamängd på 400 bilder på olika tågfordon där hjulaxlarna användes som parameter för objektigenkänningen. Testerna bedömdes efter kriterier gällande noggrannhet, tidsåtgång för träning samt komplexitet för konfiguration och användning. Resultatet visade att OpenCV hade en snabb träningsprocess, men visade låg precision och en mer komplex konfigurerings- och användningsprocess. TensorFlow hade en långsammare träningsprocess, men visade istället bättre precision och en mindre komplex konfigurering. Slutsatsen av studien är att TensorFlow visade bäst resultat och har mest potential att användas i den nya tågdetektorn. Detta baseras på studiens resultat samt att den bygger på modernare tekniker med neurala nät för objektigenkänning. / The research in this thesis is conducted with the partners aim to construct a new train detection system that uses image recognition and artificial intelligence. Detectors like these that exists today are expensive, so the construction is going to be based around the use of consumer electronics to lower the cost and simplify installation and maintenance. Several frameworks for object detection are available, but they use different approaches and methods. This thesis is therefore carried out as a case study that compares two widely used frameworks for image recognition tasks. The purpose is to identify advantages and disadvantages regarding training and testing when using these frameworks. Also highlighted is different challenges encountered in the process. The summary of the results is used to form ideas and a discussion about how to implement a framework in the new detection system. The frameworks compared in this study are OpenCV and Google TensorFlow. These frameworks use different methods for object detection, mainly cascade classifiers and convolutional neural nets. The frameworks were tested using a dataset of 400 images on different trains where the wheel-axles were used as the object of interest. The results were analyzed based on criteria regarding precision, total training time and also complexity regarding configuration and usage. The results showed that OpenCV had a faster training process but had low precision and more complex configuration. TensorFlow had a much longer training process but had better precision and less complex configuration. The conclusion of the study is that TensorFlow overall showed the best result and has a better potential for implementation in the new detection system. This is based on the results from the study, but also that the framework is developed with a more modern approach using convolutional neural nets for bject detection. Computer vision machine vision condition-based monitoring/maintenance object detection artificial intelligence Datorseende maskinseende objektigenkänning artificiell intelligens Information Systems
5	Tolkning av handskrivna siffror i formulär : Betydelsen av datauppsättningens storlek vid maskininlärning Kirik, Engin January 2021 (has links) Forskningen i denna studie har varit att tag fram hur mycket betydelse storleken på datauppsättningen har för inverkan på resultat inom objektigenkänning. Forskningen implementerades i att träna en modell inom datorseende som skall kunna identifiera och konvertera handskrivna siffror från fysisk-formulär till digitaliserad-format. Till denna process användes två olika ramverk som heter TensorFlow och PyTorch. Processen tränades inom två olika miljöer, ena modellen tränades i CPU-miljö och den andra i Google Clouds GPU-miljö. Tanken med studien är att förbättra resultat från tidigare examensarbete och forska vidare till att utöka utvecklingen extra genom att skapa en modell som identifierar och digitaliserar flera handskrivna siffror samtidigt på ett helt formulär. För att vidare i fortsättningen kunna användas till applikationer som räknar ihop tex poängskörden på ett formulär med hjälp av en mobilkamera för igenkänning. Projektet visade ett resultat av ett felfritt igenkännande av flera siffror samtidigt, när datauppsättningen ständigt utökades. Resultat kring enskilda siffror lyckades identifiera alla siffror från 0 till 9 med både ramverket TensorFlow och PyTorch. / The research in this study has been to extract how important the size of the dataset is for the impact on results within object recognition. The research was implemented in training a model in computer vision that should be able to identify and convert handwritten numbers from physical forms to digitized format. Two different frameworks called TensorFlow and PyTorch were used for this process. The process was trained in two different environments, one model was trained in the CPU environment and the other in the Google Cloud GPU environment. The idea of the study is to improve results from previous degree projects and further research to expand the development extra by creating a model that identifies and digitizes several handwritten numbers simultaneously on a complete form, which will continue to be able to help and be used in the future for applications that sums up points on a form using a mobile camera for recognition. The project showed a result of an error-free recognition of several numbers at the same time, when the data set was constantly expanded. Results around individual numbers managed to identify all numbers from 0 to 9 with both the TensorFlow and PyTorch frameworks. Machine learning Neural networks Object recognition TensorFlow PyTorch CPU GPU Maskininlärning Neurala nätverk Objektigenkänning TensorFlow PyTorch CPU GPU Software Engineering Programvaruteknik
6	SORTED : Serial manipulator with Object Recognition Trough Edge Detection Bodén, Rikard, Pernow, Jonathan January 2019 (has links) Today, there is an increasing demand for smart robots that can make decisions on their own and cooperate with humans in changing environments. The application areas for robotic arms with camera vision are likely to increase in the future of artificial intelligence as algorithms become more adaptable and intelligent than ever. The purpose of this bachelor’s thesis is to develop a robotic arm that recognises arbitrarily placed objects with camera vision and has the ability to pick and place the objects when they appear in unpredictable positions. The robotic arm has three degrees of freedom and the construction is modularised and 3D-printed with respect to maintenance, but also in order to be adaptive to new applications. The camera vision sensor is integrated in an external camera tripod with its field of view over the workspace. The camera vision sensor recognises objects through colour filtering and it uses an edge detection algorithm to return measurements of detected objects. The measurements are then used as input for the inverse kinematics, that calculates the rotation of each stepper motor. Moreover, there are three different angular potentiometers integrated in each axis to regulate the rotation by each stepper motor. The results in this thesis show that the robotic arm is able to pick up to 90% of the detected objects when using barrel distortion correction in the algorithm. The findings in this thesis is that barrel distortion, that comes with the camera lens, significantly impacts the precision of the robotic arm and thus the results. It can also be stated that the method for barrel distortion correction is affected by the geometry of detected objects and differences in illumination over the workspace. Another conclusion is that correct illumination is needed in order for the vision sensor to differentiate objects with different hue and saturation. / Idag ökar efterfrågan på smarta robotar som kan ta egna beslut och samarbeta med människor i föränderliga miljöer. Tillämpningsområdena för robotar med kamerasensorer kommer sannolikt att öka i en framtid av artificiell intelligens med algoritmer som blir mer intelligenta och anpassningsbara än tidigare. Syftet med detta kandidatexamensarbete är att utveckla en robotarm som, med hjälp av en kamerasensor, kan ta upp och sortera godtyckliga objekt när de uppträder på oförutsägbara positioner. Robotarmen har tre frihetsgrader och hela konstruktionen är 3D-printad och modulariserad för att vara underhållsvänlig, men också anpassningsbar för nya tillämpningsområden. Kamerasensorn ¨ar integrerad i ett externt kamerastativ med sitt synfält över robotarmens arbetsyta. Kamerasensorn detekterar objekt med hjälp av en färgfiltreringsalgoritm och returnerar sedan storlek, position och signatur för objekten med hjälp av en kantdetekteringsalgoritm. Objektens storlek används för att kalibrera kameran och kompensera för den radiella förvrängningen hos linsen. Objektens relativa position används sedan till invers kinematik för att räkna ut hur mycket varje stegmotor ska rotera för att erhålla den önskade vinkeln på varje axel som gör att gripdonet kan nå det detekterade objektet. Robotarmen har även tre olika potentiometrar integrerade i varje axel för att reglera rotationen av varje stegmotor. Resultaten i denna rapport visar att robotarmen kan detektera och plocka upp till 90% av objekten när kamerakalibrering används i algoritmen. Slutsatsen från rapporten är att förvrängningen från kameralinsen har störst påverkan på robotarmens precision och därmed resultatet. Det går även att konstatera att metoden som används för att korrigera kameraförvrängningen påverkas av geometrin samt orienteringen av objekten som ska detekteras, men framför allt variationer i belysning och skuggor över arbetsytan. En annan slutsats är att belysningen över arbetsytan är helt avgörande för om kamerasensorn ska kunna särskilja objekt med olika färgmättad och nyans. Mechatronics Inverse kinematics Camera vision Barrel distortion Object recognition Colour filtering Edge detection Mekatronik Invers kinematik Kamerasensor Fish-eye förvrängning Objektigenkänning Färgigenkänning Kantdetektering Engineering and Technology Teknik och teknologier
7	A Deep Learning Based Approach to Object Recognition from LiDAR Data Along Swedish Railroads / En djupinlärningsbaserad metod för objektigenkänning längs svensk järnväg Morast, Egil January 2022 (has links) Malfunction in the overhead contact line system is a common cause of disturbances in the train traffic in Sweden. Due to the preventive methods being inefficient, the Swedish Transport Administration has stated the need to develop the railroad maintenance services and has identified Artificial Intelligence (AI) as an important tool for this undertaking. Light Detection and Ranging (LiDAR) is a remote sensing technology that has been gaining popularity in recent years due to its high ranging accuracy and decreasing data acquisition cost. LiDAR is commonly used within the railroad industry and companies such as WSP collects large amount of data through LiDAR measurements every year. There is currently no reliable fully automatic method to process the point cloud data structure. Several studies propose innovative methods based on traditional machine learning to extract railroad system components from point clouds and have been able to do so with good results. However, these methods have limited applicability in real world problems, as they build upon hand-crafted features based on previous knowledge of the data on which they are applied. Deep learning technology may be a better alternative for the task as it does not require the same amount of human interaction for feature engineering and knowledge about the data in advance. This thesis investigates if contact line poles can be recognized from LiDAR data with the use of the neural network architecture DGCNN. Data from two Swedish railroad lines, Saltsjöbanan and Roslagsbanan, provided by WSP was used. Point labels were predicted through semantic segmentation from which objects were distinguished using the clustering algorithm DBSCAN. The network was trained and validated on Saltsjöbanan using k-fold cross-validation and was later tested on Roslagsbanan to simulate the application of trained models on an unknown dataset. On point level the network achieved an estimated precision of 0.87 and a recall of 0.89 on the data from Saltsjöbanan and an estimated precision of 0.92 and recall of 0.83 on the data from Roslagsbanan. In the object recognition task, the approach achieved an average precision of 0.93 and recall of 0.998 on the data from Saltsjöbanan and on the data from Roslagsbanan, an average precision of 0.96 and a recall of 1 was achieved, indicating that it is possible to apply this method on railroad segments other than the one the network was trained on. Despite not being accurate or reliable enough on point level to be used for thorough inspection of the contact line system, this approach has various applications in terms of object recognition along Swedish railroads. Future research should investigate how adding additional classes beyond contact line poles would affect the results and what changes can be done to the parameters to optimize the performance. A side-by-side comparison with the current methods and traditional machine learning-based methods would be valuable as well. / Fel i kontaktledningssystemet är en vanlig orsak till störningar i tågtrafiken i Sverige. Då dagens metoder för att förebygga dessa fel är ineffektiva har Trafikverket uttryckt behovet av att utveckla underhållsarbetet av den svenska järnvägen och har identifierat artificiell intelligens (AI) som ett viktigt verktyg i det syftet. Light Detection and Ranging (LiDAR) är en fjärranalysteknologi som har blivit allt mer populär med åren tack vare sin höga mätnoggrannheten och allt billigare datainsamling. LiDAR används regelbundet inom järnvägsindustrin och företag som WSP samlar årligen in stora mängder data med denna teknologi. I dagsläget finns det däremot ingen tillräckligt pålitlig automatisk metod för att segmentera och klassificera punktmoln. Ett flertal studier föreslår lösningar baserade på traditionell maskininlärning för att ta ut järnvägskomponenter ur punktmolnsdata. Eftersom dessa metoder bygger på förkunskap och noga utvecklade funktioner för att hitta mönster i datan är de svåra att tillämpa i verkliga problem. Istället kan djupinlärning som inte kräver samma förkunskap eller noggranna matematiska modellering tillämpas. I det här arbetet identifierades kontaktledningsstolpar ur LiDAR data med hjälp av det neurala nätverket DGCNN. Datan som användes var punktmolnsdata från Saltsjöbanan och Roslagsbanan försedd av WSP. Först klassificerades punkter genom semantisk segmentering och från klassificeringen kunde objekt identifierades genom att tillämpa klusteringsalgoritmen DBSCAN. Nätverket tränades med hjälp av korsvalidering på data över Saltsjöbanan och testades därefter på data över Roslagsbanan för att undersöka om tränade modeller kan tillämpas på andra järnvägslinjer. På datan över Saltsjöbanan uppnådde nätverket en estimerad specificitet på 0.87 och sensitivitet på 0.89 på punktnivå. Motsvarande värden på datan över Roslagsbanan låg på 0.92 och 0.83. Metoden för objektigenkänning uppnådde en genomsnittlig specificitet på 0.93 och sensitivitet på 0.998 på datan över Saltsjöbanan och motsvarande värden på datan över Roslagsbanan låg på 0.96 och 1. Resultatet indikerar att metoden går att tillämpa på andra järnvägslinjer utan specifik träning för dessa. Trots att metoden inte är träffsäker nog på punktnivå för att användas för grundlig besiktning av kontaktledningssystemet kan den användas för objektigenkänning längs svensk järnväg. Framtida forskning bör undersöka hur resultatet påverkas om ytterligare klasser utöver kontaktledningsstolpar används och vilka förändringar bör göras bland parametrarna för att optimera det undersökta tillvägagångssättet. En utförlig jämförelse mot nuvarande metoder och metoder baserade på traditionell maskininlärning skulle dessutom vara av värde. Deep learning DGCNN LiDAR Object recognition Railroad Automatisation Sweden Point cloud Djupinlärning DGCNN LiDAR Objektigenkänning Järnväg Automatisering Sverige Punktmoln Engineering and Technology Teknik och teknologier
8	Produktmatchning EfficientNet vs. ResNet : En jämförelse / Product matching EfficientNet vs. ResNet Malmgren, Emil, Järdemar, Elin January 2021 (has links) E-handeln ökar stadigt och mellan åren 2010 och 2014 var det en ökning på antalet konsumenter som handlar online från 28,9% till 34,2%. Otillräcklig information kring en produkts pris tvingar köpare att leta bland flera olika återförsäljare efter det bästa priset. Det finns olika sätt att ta fram informationen som krävs för att kunna jämföra priser. En metod för att kunna jämföra priser är automatiserad produktmatchning. Denna metod använder algoritmer för bildigenkänning där dess syfte är att detektera, lokalisera och känna igen objekt i bilder. Bildigenkänningsalgoritmer har ofta problem med att hitta objekt i bilder på grund av yttre faktorer såsom belysning, synvinklar och om bilden innehåller mycket onödig information. Tidigare har algoritmer såsom ANN (artificial neural network), random forest classifier och support vector machine används men senare undersökningar har visat att CNN (convolutional neural network) är bättre på att hitta viktiga egenskaper hos objekt som gör dem mindre känsliga mot dessa yttre faktorer. Två exempel på alternativa CNN-arkitekturer som vuxit fram är EfficientNet och ResNet som båda har visat bra resultat i tidigare forskning men det finns inte mycket forskning som hjälper en välja vilken CNN-arkitektur som leder till ett så bra resultat som möjligt. Vår frågeställning är därför: Vilken av EfficientNet- och ResNetarkitekturerna ger det högsta resultatet på produktmatchning med utvärderingsmåtten f1-score, precision och recall? Resultatet av studien visar att EfficientNet är den över lag bästa arkitekturen för produktmatchning på studiens datamängd. Resultatet visar också att ResNet var bättre än EfficientNet på att föreslå rätt matchningar av bilderna. De matchningarna ResNet gör stämmer mer än de matchningar EfficientNet föreslår då Resnet fick ett högre recall än vad EfficientNet fick. EfficientNet uppnår dock en bättre recall som visar att EfficientNet är bättre än ResNet på att hitta fler eller alla korrekta matchningar bland sina potentiella matchningar. Men skillnaden i recall är större mellan modellerna vilket göra att EfficientNet får en högre f1-score och är över lag bättre än ResNet, men vad som är viktigast kan diskuteras. Är det viktigt att de föreslagna matchningarna är korrekta eller att man hittar alla korrekta matchningar. Är det viktigaste att de föreslagna matchningarna är korrekta har ResNet ett övertag men är det viktigare att hitta alla korrekta matchningar har EfficientNet ett övertag. Resultatet beror därför på vad som anses vara viktigast för att avgöra vilken av arkitekturerna som ger bäst resultat. / E-commerce is steadily increasing and between the years 2010 and 2014, there was an increase in the number of consumers shopping online from 28,9% to 34,2%. Insufficient information about the price of a product forces buyers to search among several different retailers for the best price. There are different ways to produce the information required to be able to compare prices. One method to compare prices is automated product matching. This method uses image recognition algorithms where its purpose is to detect, locate and recognize objects in images. Image recognition algorithms often have problems finding objects in images due to external factors such as brightness, viewing angles and if the image contains a lot of unnecessary information. In the past, algorithms such as ANN, random forest classifier and support vector machine have been used, but recent studies have shown that CNN is better at finding important properties of objects that make them less sensitive to these external factors. Two examples of alternative CNN architectures that have emerged are EfficientNet and ResNet, both of which have shown good results in previous studies, but there is not a lot of research that helps one choose which CNN architecture that leads to the best possible result. Our question is therefore: Which of the EfficientNet and ResNet architectures gives the highest result on product matching with the evaluation measures f1-score, precision, and recall? The results of the study show that EfficientNet is the overall best architecture for product matching on the dataset. The results also show that ResNet was better than EfficientNet in proposing the right matches for the images. The matches ResNet makes are more accurate than the matches EfficientNet suggests when Resnet received a higher precision than EfficientNet. However, EfficientNet achieves a better recall that shows that EfficientNet is better than ResNet at finding more or all correct matches among its potential matches. The difference in recall is greater than the difference in precision between the models, which means that EfficientNet gets a higher f1-score and is generally better than ResNet, but what is most important can be discussed. Is it important that the suggested matches are correct or that you find all the correct matches? If the most important thing is that the proposed matches are correct, ResNet has an advantage, but if it is more important to find all correct matches, EfficientNet has an advantage. The result therefore depends on what is considered to be most important in determining which of the architectures gives the best results EfficientNet ResNet CNN Convolutional Neural Network image classification product matching price matching object recognition. EfficientNet ResNet CNN Convolutional Neural Network bildklassificering produktmatchning prismatchning objektigenkänning. Computer and Information Sciences Data- och informationsvetenskap
9	Utveckling av intelligens för en robotplattform AIDA / Developing intelligence for a robot platform AIDA Tran, Danny, Norgren, Bo Valdemar, Winbladh, Hugo, Tsai, Emily, Magnusson, Jim, Kallström, Ebba, Tegnell, Fredrik January 2022 (has links) Rapporten beskriver utvecklingsarbetet och resultatet från utvecklingen av en robotplattform vid namn AIDA (AI Design Assistant), som utvecklades åt Institutionen för datavetenskap vid Linköpings universitet. Plattformen består av en robotarm som utgörs av sex stycken servomotorer, som är anslutna till en enkortsdator. En Android-surfplatta sitter integrerad på robotarmen och har en applikation installerad som utgör användargränssnittet. Tre huvudsakliga funktioner för plattformen utvecklades. Dessa funktioner är objektigenkänning, objektspårning och taligenkänning. Objektigenkänningen kan klassificera fyra olika fruktsorter, objektspårningen kan spåra objekt och följa dem med robotarmen genom inverskinematik, och taligenkänningen kan transkribera tal till text och svara på kommandon. Utifrån resultatet och diskussionen härleds slutsatser över fyra frågeställningar relaterade till utvecklingsarbetet. Projektet utfördes som en del av kursen TDDD96 Kandidatprojekt i programvaruutveckling, och varje projektmedlem har även skrivit ett individuellt bidrag till rapporten som behandlar områden kopplade till projektarbetet. / This report describes the development process and the resulting product from the development of a robot platform named AIDA (AI Design Assistant), that was developed on a request from the Department of Computer and Information Science at Linköping University. The platform consists of a robot arm that is made up by six servo motors connected to a single-board computer. An Android tablet is attached to the robot arm and has an application installed which constitutes the user interface. Three main functions were developed for the platform. These functions constitute object recognition, object tracking, and speech recognition. The object recognition module can classify four different types of fruit, the object tracking module can track objects and follow them by moving the robot arm using inverse kinematics, and the speech recognition module can transcribe speech to text and respond to audible commands. Conclusions over four questions related to the development of the product are derived from the results and discussion chapters of the report. The project was conducted as a part of the course TDDD96 Software Engineering – Bachelor Project, and each project member has produced an individual contribution to the report which covers subjects related to the project. AI Artificial intelligence Machine learning Object recognition Object tracking Speech recognition Convolutional neural networks Deep learning Hyperparameters Inverse kinematics Image classification Optimization AI Artificiell intelligens Maskininlärning Objektigenkänning Objektspårning Taligenkänning Neurala faltningsnätverk Djupinlärning Hyperparametrar Inverskinematik Bildklassificering Optimering Software Engineering Programvaruteknik
10	Unsupervised Domain Adaptation for 3D Object Detection Using Adversarial Adaptation : Learning Transferable LiDAR Features for a Delivery Robot / Icke-vägledd Domänanpassning för 3D-Objektigenkänning Genom Motspelaranpassning : Inlärning av Överförbara LiDAR-Drag för en Leveransrobot Hansson, Mattias January 2023 (has links) 3D object detection is the task of detecting the full 3D pose of objects relative to an autonomous platform. It is an important perception system that can be used to plan actions according to the behavior of other dynamic objects in an environment. Due to the poor generalization of object detectors trained and tested on different datasets, this thesis concerns the utilization of unsupervised domain adaptation to train object detectors fit for mobile robotics without any labeled training data. To tackle the problem a novel approach Unsupervised Adversarial Domain Adaptation 3D (UADA3D) is presented to adapt LiDAR-based detectors, through drawing inspiration from the success of adversarial adaptation for 2D object detection in RGB images. The method adds learnable discriminator layers that discriminate between the features and bounding box predictions in the labeled source and unlabeled target data. The gradients are then reversed through gradient reversal layers during backpropagation to the base detector, which in turn learns to extract features that are similar between the domains in order to fool the discriminator. The method works for multi-class detection by simultaneous adaptation of all classes in an end-to-end trainable network and works for both point-based and voxel-based single-stage detectors. The results show that the proposed method increases detection scores for adaptation from dense to sparse point clouds and from simulated data toward the data of a mobile delivery robot, successfully handling the two relevant domain gaps given by differences in marginal and conditional probability distributions. / 3D-objektdetektering handlar om att upptäcka hela 3D-positionen för objekt i förhållande till en autonom plattform. Det är ett viktigt perceptionsystem som kan användas för att planera åtgärder baserat på beteendet hos andra dynamiska objekt i en miljö. På grund av den dåliga generaliseringen av objektavkännare som tränats och testats på olika datamängder, handlar denna avhandling om användningen av osuperviserad domänanpassning för att träna objektavkännare som är anpassade för mobila robotar utan några märkta träningsdata. För att tackla problemet presenteras ett nytt tillvägagångssätt Unsupervised Adversarial Domain Adaptation 3D (UADA3D) för att anpassa LiDAR-baserade avkännare, genom att ta inspiration från framgången av mospelaranpassning för 2D-objektdetektering i RGB-bilder. Metoden lägger till inlärbara diskriminatorlager som diskriminerar mellan egenskaperna och prediktionerna i annoterad käll- och oannoterad måldata. Gradienterna är sedan reverserae genom gradientreversering under bakåtpropagering till basdetekorn, som i sin tur lär sig att extrahera egenskaper som är liknande mellan domänerna för att lura diskriminatorn. Metoden fungerar för flerklassdetektering genom samtidig anpassning av alla klasser i ett end-to-end-träningsbart nätverk och fungerar för både punktbaserade och voxelbaserade enstegs detektorere. Resultaten visar att den föreslagna metoden förbättrar detektionen för domänanpassning från täta till glesa punktmoln och från simulerad data till data från en mobil leveransrobot, därmed hanterar metoden framgångsrikt de två relevanta domänskillnaderna i marginella- och betingade sannolikhetsfördelningar. Unsupervised Domain Adaptation 3D Object Detection Mobile Robotics Adversarial Adaptation Computer Vision Oövervakad Domänanpassning 3D Objektigenkänning Mobila Robotar Motspelaranpassning Datorseende Robotics Robotteknik och automation Computer and Information Sciences Data- och informationsvetenskap

Search results