• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 1
  • Tagged with
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Objektklassificering med Djup Maskininlärning : med CNN (Convolutional Neural Network)

Lindell, Linus, Medlock, Samuel, Norling, Markus January 2022 (has links)
Digitaliseringen medför ett allt större utbud av datoriserad teknik, med maskininlärning i framkanten. Allt ifrån industrirobotar till självkörande bilar kan dra nytta av maskininlärning för att fungera, men även andra komplexa problem kan lösas med maskininlärning. Ett problem med maskininlärning är dock energikostnaden av att träna stora modeller, varför effektivisering av modellerna och deras träning är aktuellt. I detta projekt utvecklas maskininlärningsmodeller av typen Convolutional Neural Network, som sedan används för att utföra objektklassificering på datasetet CIFAR-10, vilket består av 60 000 bilder i storleken 32x32 pixlar, tillhörande tio olika kategorier. Åtta olika modeller konstruerades med varierande antal konvolutionerande lager och maxbredd på de konvolutionerande lagerna, och olika aktiveringsfunktioner testades. Den modell som valdes ut som projektets slutprodukt består av åtta konvolutionerande lager med mellan 64 och 512 kanaler, vilket ger totalt 5,7 miljoner parametrar. Detta nätverk åstadkom en noggrannhet på 91% på 10 000 testbilder efter att det tränats i 120 epoker på datasetets 50 000 träningsbilder. Därefter kunde träningen av denna modell effektiviseras genom att tränas på endast hälften av träningsdatan, vilket resulterade i att träningstiden minskade från ca. 1 timme och 12 minuter till 40 minuter, samtidigt som accuracy sjönk med endast fyra procentenheter, till 87%.
2

Bildigenkänning för ett halvautonomt program som spelar kortspelet UNO / Utilizing Image Recognition for the Creation of a Semi-autonomous Program to Play the Card Game UNO

Forslund, John, Hellqvist, Johan, Pitkälä, Samuli, Toll, Hugo January 2023 (has links)
I detta projekt utvecklas ett halvautonomt program för att spela kortspelet UNO med fysiska kort. Objektdetektering med Cannymetoden och kontursökning används för att hitta korten på spelplanen. Dessa kort klassificeras med avseende på valör av ett egendesignat neuronnät. För färgade kort bestäms sedan färgen med traditionell bildanalys. Utifrån klassificering av valör och färg väljer programmet ett giltigt drag och fungerar därmed som en spelare. Valörklassificeringens prestanda jämfördes med neuronnäten ResNet-18 och SqueezeNet, medan färgigenkänningens prestanda enbart jämfördes med SqueezeNet. Klassificering av valör sker cirka fem respektive tre gånger snabbare i det egendesignade neuronnätet än i ResNet-18 respektive SqueezeNet. Dessutom är färgigenkänningen med traditionell bildanalys cirka 600 gånger snabbare än SqueezeNet. Vårt program har dock en riktighet på cirka 99% vid klassificering av valör och färg, vilket var lägre än riktigheten för ResNet-18 och SqueezeNet.
3

Datainsamling till simulering med hjälp av videokamera och bildbehandling / Data acquisition for simulation using video camera and image processing

Saiti, Adel, Ringbom, Jonas January 2019 (has links)
Syftet med studien är att undersöka möjligheten att använda en videokamera och bildbehandlings-algoritmer för att inhämta data till simulering genom att spåra personers rörelse. Den teoretiska referensramen och litteraturstudie används för att få en fördjupad kunskap om simulering och hur personer spåras med spårningsalgoritmer. För att undersöka möjligheten har en kod skapats som använder bildbehandlingsalgoritmer från OpenCv. Algoritmerna som används har utvärderats med fyra experiment i två olika miljöer, en affärsmiljö och en industrimiljö. Experimenten har använts till att spela in videomaterial på personernas förflyttning i miljöerna. Videomaterialen har använts med den skapade koden och bildbehandlingsalgoritmer för att analysera spårnings-algoritmernas prestanda och om tider kan erhållas. Resultatet från analysen påvisar att tider kan erhållas om en person spåras i videoscenen. De erhållna tiderna har jämfört med manuella tidsstudier och påvisar att medelfelet är 0,1 sekunder och standardavvikelsen är 0,27 sekunder. När det är flera personer som spåras i videoscenen visar resultatet att de inte är möjligt att erhålla tider till simulering. Detta beror på att algoritmerna misslyckas att spåra, faktorer som samman-fogning, färg, riktning, ocklusion och förflyttning av statiska objekt påverkar spårningen på algoritmerna. Detta bidrar till att tiderna som erhålls inte är tillförlitliga och därmed har inte tiderna jämfört med manuella tidsstudier. / The purpose of the study is to investigate the possibility of using a video camera and the image processing algorithms to obtain data for simulation through tracking people’s movement. The theoretical frame of reference and literature studies are used to get an in-depth knowledge about simulation and how people are tracked with tracking algorithms. To investigate the possibility, a code has been created that uses image processing algorithms from OpenCv. These algorithms that have been used have been evaluated with four experiments in two different environments, one store environment and one industrial environment. The experiments have been used to record video on people’s movements in these two environments. The video recordings have been made with the created code and the image processing algorithms to analyze the performance of the tracking algorithms and if time can be obtained. The result of the analysis shows that the time can be obtained if a person is used in the video scene. The obtained times have been compared with manual time studies. The result shows that the average error is 0, 1 seconds and the standard deviation is 0, 27 seconds. When there are more people that are being tracked in the video scene, the result shows that they are not possible to obtain times for simulation. This is because the algorithms are failing to track, factors such as joining, color, direction, occlusion and movement of static objects affect the tracking of the algorithms. This contributes that the times obtained are not reliable and thereby have not been compared with manual time’s studies.
4

Sportanalys för skytte : En metod för automatisk detektion och analys av träffar / Sport analysis for shooting : A method for automatic detection and analysis of hits

Stenhager, Elinore January 2019 (has links)
Poängräkning och resultatanalys vid skytteträning är en viktig aspekt i utvecklingen av skyttens skjutförmåga. En bildbaserad träffpunktdetektionsalgoritm skulle automatisera denna process och bidra med digital presentation av resultatet. Befintliga lösningar är högkvalitativa metoder som detekterar träffpunkter med hög precision. Dessa lösningar är dock anpassade efter orealistiska användningsfall där måltavlor i gott skick som beskjutits vid ett enda tillfälle fotograferas i gynnsamma miljöer. Realistiska skytteförhållanden förekommer utomhus där träffpunkterna täcks med klisterlappar mellan skottrundorna och måltavlorna återanvänds tills dem faller sönder. Detta kandidatarbete introducerar en metod för automatisk detektion av träffar anpassad efter realistiska användningssituationer och bygger på tillgängliga bildanalystekniker. Den föreslagna metoden detekterar punkter med 40 procent noggrannhet i lågkvalitativa måltavlor och uppnår 88 procents noggrannhet i måltavlor av hög kvalitet. Dock produceras ett betydande antal falska positiva utfall. Resultatet påvisar möjligheten att utveckla ett sådant system och belyser de problem som tillkommer en sådan implementation. / Score calculation and performance analysis on shooting targets is an important aspect in development of shooting ability. An image based automatic scoring algorithm would provide automation of this procedure and digital visualization of the result. Prevailing solutions are high quality algorithms detecting hit points with high precision. However, these methods are adapted to unrealistic use cases where single-used, high-quality target boards are photographed in favourable environments. Usually gun shooting is performed outdoors where bullet holes are covered with stickers between shooting rounds, and targets are reused until they fall apart. This bachelor thesis introduces a method of automatic hit point detection adapted to realistic shooting conditions and relies solely on available image processing techniques. The proposed algorithm detects holes with 40 percent detection rate in low-quality target boards, reaching 88 percent detection rate in targets of higher quality. However, producing a significant number of false positives. The result demonstrates the possibilities of developing such a system and highlights the difficulties associated with such an implementation.
5

Meta-Pseudo Labelled Multi-View 3D Shape Recognition / Meta-pseudomärking med Bilder från Flera Kameravinklar för 3D Objektigenkänning

Uçkun, Fehmi Ayberk January 2023 (has links)
The field of computer vision has long pursued the challenge of understanding the three-dimensional world. This endeavour is further fuelled by the increasing demand for technologies that rely on accurate perception of the 3D environment such as autonomous driving and augmented reality. However, the labelled data scarcity in the 3D domain continues to be a hindrance to extensive research and development. Semi-Supervised Learning is a valuable tool to overcome data scarcity yet most of the state-of-art methods are primarily developed and tested for two-dimensional vision problems. To address this challenge, there is a need to explore innovative approaches that can bridge the gap between 2D and 3D domains. In this work, we propose a technique that both leverages the existing abundance of two-dimensional data and makes the state-of-art semi-supervised learning methods directly applicable to 3D tasks. Multi-View Meta Pseudo Labelling (MV-MPL) combines one of the best-performing architectures in 3D shape recognition, Multi-View Convolutional Neural Networks, together with the state-of-art semi-supervised method, Meta Pseudo Labelling. To evaluate the performance of MV-MPL, comprehensive experiments are conducted on widely used shape recognition benchmarks ModelNet40, ShapeNetCore-v1, and ShapeNetCore-v2, as well as, Objaverse-LVIS. The results demonstrate that MV-MPL achieves competitive accuracy compared to fully supervised models, even when only \(10%\) of the labels are available. Furthermore, the study reveals that the object descriptors extracted from the MV-MPL model exhibit strong performance on shape retrieval tasks, indicating the effectiveness of the approach beyond classification objectives. Further analysis includes the evaluation of MV-MPL under more restrained scenarios, the enhancements to the view aggregation and pseudo-labelling processes; and the exploration of the potential of employing multi-views as augmentations for semi-supervised learning. / Forskningsområdet för datorseende har länge strävat efter utmaningen att förstå den tredimensionella världen. Denna strävan drivs ytterligare av den ökande efterfrågan på teknologier som är beroende av en korrekt uppfattning av den tredimensionella miljön, såsom autonom körning och förstärkt verklighet. Dock fortsätter bristen på märkt data inom det tredimensionella området att vara ett hinder för omfattande forskning och utveckling. Halv-vägledd lärning (semi-supervised learning) framträder som ett värdefullt verktyg för att övervinna bristen på data, ändå är de flesta av de mest avancerade semisupervised-metoderna primärt utvecklade och testade för tvådimensionella problem inom datorseende. För att möta denna utmaning krävs det att utforska innovativa tillvägagångssätt som kan överbrygga klyftan mellan 2D- och 3D-domänerna. I detta arbete föreslår vi en teknik som både utnyttjar den befintliga överflöd av tvådimensionella data och gör det möjligt att direkt tillämpa de mest avancerade semisupervised-lärandemetoderna på 3D-uppgifter. Multi-View Meta Pseudo Labelling (MV-MPL) kombinerar en av de bästa arkitekturerna för 3D-formigenkänning, Multi-View Convolutional Neural Networks, tillsammans med den mest avancerade semisupervised-metoden, Meta Pseudo Labelling. För att utvärdera prestandan hos MV-MPL genomförs omfattande experiment på väl använda uvärderingar för formigenkänning., ModelNet40, ShapeNetCore-v1 och ShapeNetCore-v2. Resultaten visar att MV-MPL uppnår konkurrenskraftig noggrannhet jämfört med helt vägledda modeller, även när endast \(10%\) av etiketterna är tillgängliga. Dessutom visar studien att objektbeskrivningarna som extraherats från MV-MPL-modellen uppvisar en stark prestanda i formåterhämtningsuppgifter, vilket indikerar effektiviteten hos tillvägagångssättet bortom klassificeringsmål. Vidare analys inkluderar utvärderingen av MV-MPL under mer begränsade scenarier, förbättringar av vyaggregerings- och pseudomärkningsprocesserna samt utforskning av potentialen att använda bilder från flera vinklar som en metod att få mer data för halv-vägledd lärande.

Page generated in 0.0835 seconds