• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 346
  • 42
  • 19
  • 13
  • 10
  • 8
  • 4
  • 4
  • 3
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 535
  • 535
  • 247
  • 204
  • 168
  • 129
  • 110
  • 110
  • 108
  • 87
  • 86
  • 79
  • 75
  • 74
  • 73
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
411

Pedestrian Multiple Object Tracking in Real-Time / Spårning av flera fotgängare i realtid

Wintzell, Samuel January 2022 (has links)
Multiple object tracking (MOT) is the task of detecting multiple objects in a scene and associating detections over time to form tracks. It is essential for many scene understanding tasks like surveillance, robotics and autonomous driving. Nowadays, the dominating tracking pipeline is to first detect all individual objects in a scene followed by a separate data association step, also known as tracking-by-detection. Recently, methods doing simultaneous detection and tracking has emerged, combining the task of detection and tracking into one single framework. In this project, we analyse performance of multiple object tracking algorithms belonging to both tracking categories. The goal is to examine strengths, weaknesses, and real-time capability of different tracking approaches in order to understand their suitability in different applications. Results show that a tracking-by-detection system with Scaled-YOLOv4 and SORT achieves 46.8% accuracy at over 28 frames per second (FPS) on Nvidia GTX 1080. By reducing the input resolution, inference speed is increased to almost 50 FPS, making it well suitable for real-time application. The addition of a deep re-identification CNN reduces the number of identity switches by 47%. However, association speed drops as low as 14 FPS for densely populated scenes. This indicates that re-identification CNNs may be impractical for safety critical applications like autonomous driving, especially in urban environments. Simultaneous detection and tracking results suggests an increased tracking robustness. The removal of a complex data association strategy improves robustness with respect to extended modules like re-identification. This indicates that the inherent simplicity in the simultaneous detection and tracking paradigm can provide robust baseline trackers for a variety of applications. We note that further research is required to strengthen this notion. / Multipel objektspårning handlar om att detektera alla objekt i bilder och associera dem över tid för att bilda spår. Det är ett viktigt ämne inom datorseende för flera applikationer, däribland kameraövervakning, robotik och självkörande fordon. Idag är det dominerande tillvägagångsättet inom objektspårning att först detektera alla objekt och sedan associera dem i ett separat steg, också kallat spårning-genom-detektion. På senare tid har det framkommit nya metoder som detekterar och spårar samtidigt. I detta projekt analyserar vi prestanda av metoder som tillämpar båda tillvägagångssätt. Målet med projektet är att undersöka styrkor, svagheter och hur väl metoderna lämpar sig för att användas i realtid. Detta för att förstå hur olika objektspårare kan anpassas till olika praktiska applikationer. Resultaten visar att ett system som tillämpar spårning-genom-detektion med Scaled-YOLOv4 och SORT, uppnår 46.8% noggrannhet med en hastighet på över 28 bildrutor per sekund. Detta på en Nvidia GTX 1080. Genom att minska bildupplösningen når hastigheten nästan hela vägen upp till 50 bildrutor per sekund, vilket gör systemet väl lämpat för realtidsapplikation. Genom att addera ett djupt nätverk för återidentifiering minskar antalet identitetsbyten med 47%. Samtidigt minskar också hastigheten för spårning till 14 bildrutor per sekund i välbefolkade miljöer. Detta indikerar att djupa nätverk för återidentifiering inte lämpar sig för säkerhetskritiska applikationer såsom självkörande fordon. Särskilt i urbana miljöer. Resultat för system som detekterar och spårar samtidigt antyder att de är mer robusta. Genom att ta bort komplexa strategier för associering blir systemen robusta mot ytterligare moduler såsom återidentifiering. Det ger en indikation på att den inneboende enkelheten i dessa system resulterar i objektspårare som kan fungera som grunder i många olika applikationer. Vi noterar att ytterligare forsking behövs för att styrka denna idé.
412

Thermal human detection for Search & Rescue UAVs / Termisk människodetektion för sök- och räddnings UAVs

Wiklund-Oinonen, Tobias January 2022 (has links)
Unmanned Aerial Vehicles (UAVs) could play an important role in Search & Rescue (SAR) operations thanks to their ability to cover large, remote, or inaccessible search areas quickly without putting any personnel at risk. As UAVs are becoming autonomous, the problem of identifying humans in a variety of conditions can be solved with computer vision implemented with a thermal camera. In some cases, it would be necessary to operate with one or several small, agile UAVs to search for people in dense and narrow environments, where flying at a high altitude is not a viable option. This could for example be in a forest, cave, or a collapsed building. A small UAV has a limitation in carrying capacity, which is why this thesis aimed to propose a lightweight thermal solution for human detection that could be applied on a small SAR-UAV for operation in dense environments. The solution included a Raspberry Pi 4 and a FLIR Lepton 3.5 thermal camera in terms of hardware, which were mainly chosen thanks to their small footprint regarding size and weight, while also fitting within budget restrictions. In terms of object detection software, EfficentDet-Lite0 in TensorFlow Lite format was incorporated thanks to good balance between speed, accuracy, and resource usage. An own dataset of thermal images was collected and trained upon. The objective was to characterize disturbances and challenges this solution might face during a UAV SAR-operation in dense environments, as well as to measure how the performance of the proposed platform varied with increasing amount of environmental coverage of a human. This was solved by conducting a literature study, an experiment in a replicated dense environment and through observations of the system behavior combined with analysis of the measurements. Disturbances that affect a thermal camera in use for human detection were found to be a mixture of objective and subjective parameters, which formed a base of what type of phenomena to include in a diverse thermal dataset. The results from the experiment showed that stable and reliable detection performance can be expected up to 75% vegetational coverage of a human. When fully covered, the solution was not reliable when trained on the dataset used in this thesis. / Obemannade drönare (UAVs) kan spela en viktig roll i sök- och räddningsuppdrag (SAR) tack vare deras förmåga att snabbt täcka stora, avlägsna eller otillgängliga sökområden utan att utsätta personal för risker. För autonoma UAVs kan problemet med att identifiera människor i en mängd olika förhållanden lösas med datorseende implementerat tillsammans med en värmekamera. I vissa fall kan det vara nödvändigt att operera med en eller flera små, smidiga UAVs för att söka efter människor i täta och trånga miljöer, där flygning på hög höjd inte är ett genomförbart alternativ. Det kan till exempel vara i en skog, grotta eller i en kollapsad byggnad. En liten UAV har begränsad bärförmåga, vilket är varför denna avhandling syftade till att föreslå en lättviktslösning för mänsklig detektering med värmekamera som skulle kunna appliceras på en liten SAR-UAV för drift i täta miljöer. Lösningen inkluderade Raspberry Pi 4 och en FLIR Lepton 3.5 värmekamera gällande hårdvara, tack vare liten formfaktor och liten vikt, samtidigt som de passade inom budgetramen. Gällande detekterings-mjukvara användes EfficentDet-Lite0 i TensorFlow Lite-format tack vare en bra balans mellan hastighet, noggrannhet och resursanvändning. En egen uppsättning av värmebilder samlades in och tränades på. Målet var att identifiera vilka störningar och utmaningar som denna lösning kan påträffa under en sökoperation med UAVs i täta miljöer, samt att mäta hur prestandan för den föreslagna plattformen varierade när täckningsgraden av en människa ökar p.g.a. omgivningen. Detta löstes genom att genomföra en litteraturstudie, ett experiment i en replikerad tät miljö och genom observationer av systemets beteende kombinerat med analys av mätningarna. Störningar som påverkar en värmekamera som används för mänsklig detektion visade sig vara en blandning av objektiva och subjektiva parametrar, vilka utgjorde en bas för vilka typer av fenomen som skulle inkluderas i en mångsidig kollektion med värmebilder. Resultaten från experimentet visade att stabil och pålitlig detekteringsprestanda kan förväntas upp till 75% täckningsgrad av en människa p.g.a. vegetation. När människan var helt täckt var lösningen inte tillförlitlig när den var tränad på kollektionen som användes i denna avhandling.
413

Layout Analysis on modern Newspapers using the Object Detection model Faster R-CNN

Funkquist, Mikaela January 2022 (has links)
As society is becoming more and more digitized the amount of digital data is increasing rapidly. Newspapers are one example of this, that many Libraries around the world are storing as digital images. This enables a great opportunity for research on Newspapers, and a particular research area is Document Layout Analysis where one divides the document into different segments and classifies them. In this thesis modern Newspaper pages, provided by KBLab, were used to investigate how well a Deep Learning model developed for General Object Detection performs in this area. In particular the Faster R-CNN Object detection model was trained on manually annotated newspaper pages from two different Swedish publishers, namely Dagens Nyheter and Aftonbladet. All newspaper pages were taken from editions published between 2010 and 2020, meaning only modern newspapers were considered. The methodology in this thesis involved sampling editions from the given publishers and time periods and then manually annotating these by marking out the desired layout elements with bounding boxes. The classes considered were: headlines, subheadlines, decks, charts/infographics, photographs, pull quotes, cartoons, fact boxes, bylines/credits, captions, tableaus and tables. Given the annotated data, a Faster R-CNN with a ResNet-50-FPN backbone was trained on both the Dagens Nyheter and Aftonbladet train sets and then evaluated on different test set. Results such as a mAP0.5:0.95 of 0.6 were achieved for all classes, while class-wise evaluation indicate precisions around 0.8 for some classes such as tableaus, decks and photographs. / I takt med att samhället blir mer och mer digitaliserat ökar mängden digital data snabbt. Tidningar är ett exempel på detta, som många bibliotek runt om i världen lagrar som digitala bilder. Detta möjliggör en stor möjlighet för forskning på tidningar, och ett särskilt forskningsområde är Dokument Layout Analys där man delar in dokumentet i olika segment och klassificerar dem. I denna avhandling användes moderna tidningssidor, tillhandahållna av KBLab, för att undersöka hur väl en djupinlärnings-modell utvecklad för generell Objektdetektering presterar inom detta område. Mer precist, tränades en Faster R-CNN Objektdetekteringsmodell på manuellt annoterade tidningssidor från två olika svenska förlag, nämligen Dagens Nyheter och Aftonbladet. Alla tidningssidor togs från utgåvor som publicerats mellan 2010 och 2020, vilket innebär att endast moderna tidningar behandlades. Metodiken i detta examensarbete innebar att först göra ett urval av utgåvor från givna förlag och tidsperioder och sedan manuellt annotera dessa genom att markera ut önskade layoutelement med begränsningsrutor. Klasserna som användes var: rubriker, underrubriker, ingress, diagram/infografik, fotografier, citat, tecknade serier, faktarutor, författares signatur, bildtexter, tablåer och tabeller. Givet den annoterade datan, tränades en Faster R-CNN med en ResNet-50-FPN ryggrad på både Dagens Nyheter och Aftonbladet träningsdatan och sedan utvärderades dem på olika testset. Resultat som mAP0.5:0.95 på 0.6 uppnåddes för alla klasser, medan klassvis utvärdering indikerar precision kring 0.8 för vissa klasser som tablåer, ingresser och fotografier.
414

A Study on Fault Tolerance of Image Sensor-based Object Detection in Indoor Navigation / En studie om feltolerans för bildsensorbaserad objektdetektering i inomhusnavigering

Wang, Yang January 2022 (has links)
With the fast development of embedded deep-learning computing systems, applications powered by deep learning are moving from the cloud to the edge. When deploying NN onto the devices under complex environments, there are various types of possible faults: soft errors caused by cosmic radiation and radioactive impurities, voltage instability, aging, temperature variations, etc. Thus, more attention is drawn on the reliability of the NN embedded system. In this project, we build a virtual simulation system in Gazebo to simulate and test the working of an embedded NN system in the virtual environment in indoor navigation. The system can detect objects in the virtual environment with the help of the virtual camera(the image sensor) and the object detection module, which is based on YOLO v3, and make corresponding control decisions. We also designed and simulated the corresponding error injection module according to the working principle of the image sensor, and tested the functionality, and fault tolerance of the YOLO network. At the same time, network pruning algorithm is also introduced to study the relationship between different degrees of network pruning and network fault tolerance to sensor faults. / Med den snabba utvecklingen av inbyggda datorsystem för djupinlärning flyttas applikationer som drivs av djupinlärning från molnet till kanten. När man distribuerar NN på enheterna under komplexa miljöer finns det olika typer av möjliga fel: mjuka fel orsakade av kosmisk strålning och radioaktiva föroreningar, spänningsinstabilitet, åldrande, temperaturvariationer, illvilliga angripare, etc. Därför är mer uppmärksamhet ritade om tillförlitligheten hos det inbyggda NN-systemet. I det här projektet bygger vi ett virtuellt simuleringssystem för att simulera och testa hur ett inbäddat NN-system fungerar i den virtuella miljö vi ställer upp. Systemet kan upptäcka objekt i den virtuella miljön enligt den virtuella kameran och objektdetekteringsmodulen, som är baserad på YOLO v3, och göra motsvarande kontrollstrategier. Vi designade och simulerade också motsvarande felinsprutningsmodul enligt bildsensorns arbetsprincip och testade funktionalitet, tillförlitlighet och feltolerans hos YOLO-nätverket. Samtidigt nätverk beskärningsalgoritm introduceras också för att studera sambandet mellan olika grader av nätverksbeskärning och nätverksfeltolerans.
415

Pruning a Single-Shot Detector for Faster Inference : A Comparison of Two Pruning Approaches / Beskärning av en enstegsdetektor för snabbare prediktering : En jämförelse av två beskärningsmetoder för djupa neuronnät

Beckman, Karl January 2022 (has links)
Modern state-of-the-art object detection models are based on convolutional neural networks and can be divided into single-shot detectors and two-stage detectors. Two-stage detectors exhibit impressive detection performance but their complex pipelines make them slow. Single-shot detectors are not as accurate as two-stage detectors, but are faster and can be used for real-time object detection. Despite the fact that single-shot detectors are faster, a large number of calculations are still required to produce a prediction that not many embedded devices are capable of doing in a reasonable time. Therefore, it is natural to ask if single-shot detectors could become faster even. Pruning is a technique to reduce the size of neural networks. The main idea behind network pruning is that some model parameters are redundant and do not contribute to the final output. By removing those redundant parameters, fewer computations are needed to produce predictions, which may lead to a faster inference and since the parameters are redundant, the model accuracy should not be affected. This thesis investigates two approaches for pruning the SSD-MobileNet- V2 single-shot detector. The first approach prunes the single-shot detector by a large portion and retrains the remaining parameters only once. In the other approach, a smaller portion is pruned, but pruning and retraining are done in an iterative fashion, where pruning and retraining constitute one iteration. Beyond comparing two pruning approaches, the thesis also studies the tradeoff between model accuracy and inference speed that pruning induces. The results from the experiments suggest that the iterative pruning approach preserves the accuracy of the original model better than the other approach where pruning and finetuning are performed once. For all four pruning levels that the two approaches are compared iterative pruning yields more accurate results. In addition, an inference evaluation indicates that iterative pruning is a good compression method for SSD-MobileNet-V2, finding models that both are faster and more accurate than the original model. The thesis findings could be used to guide future pruning research on SSD-MobileNet- V2, but also on other single-shot detectors such as RetinaNet and the YOLO models. / Moderna modeller för objektsdetektering bygger på konvolutionella neurala nätverk och kan delas in i ensteg- och tvåstegsdetektorer. Tvåstegsdetektorer uppvisar imponerande detektionsprestanda, men deras komplexa pipelines gör dem långsamma. Enstegsdetektorer uppvisar oftast inte lika bra detektionsprestanda som tvåstegsdetektorer, men de är snabbare och kan användas för objektdetektering i realtid. Trots att enstegsdetektorer är snabbare krävs det fortfarande ett stort antal beräkningar för att få fram en prediktering, vilket inte många inbyggda enheter kan göra på rimlig tid. Därför är det naturligt att fråga sig om enstegsdetektorer kan bli ännu snabbare. Nätverksbeskärning är en teknik för att minska storleken på neurala nätverk. Huvudtanken bakom nätverksbeskärning är att vissa modellparametrar är överflödiga och inte bidrar till det slutliga resultatet. Genom att ta bort dessa överflödiga parametrar krävs färre beräkningar för att producera en prediktering, vilket kan leda till att nätverket blir snabbare och eftersom parametrarna är överflödiga bör modellens detektionsprestanda inte påverkas. I den här masteruppsatsen undersöks två metoder för att beskära enstegsdetektorn SSD-MobileNet-V2. Det första tillvägagångssättet går ut på att en stor del av detektorn vikter beskärs och att de återstående parametrarna endast finjusteras en gång. I det andra tillvägagångssättet beskärs en mindre del, men beskärning och finjustering sker på ett iterativt sätt, där beskärning och finjustering utgör en iteration. Förutom att jämföra två metoder för beskärning studeras i masteruppsatsen också den kompromiss mellan modellens detektionsprestanda och inferenshastighet som beskärningen medför. Resultaten från experimenten tyder på att den iterativa beskärningsmetoden bevarar den ursprungliga modellens detektionsprestanda bättre än den andra metoden där beskärning och finjustering utförs en gång. För alla fyra beskärningsnivåer som de två metoderna jämförs ger iterativ beskärning mer exakta resultat. Dessutom visar en hastighetsutvärdering att iterativ beskärning är en bra komprimeringsmetod för SSD-MobileNet-V2, eftersom modeller som både snabbare och mer exakta än den ursprungliga modellen går att hitta. Masteruppsatsens resultat kan användas för att vägleda framtida forskning om beskärning av SSD-MobileNet-V2, men även av andra enstegsdetektorer, t.ex. RetinaNet och YOLO-modellerna.
416

A Study on Fault Tolerance of Object Detector Implemented on FPGA / En studie om feltolerans för objektdetektor Implementerad på FPGA

Yang, Tiancheng January 2023 (has links)
Objektdetektering har fått stort forskningsintresse de senaste åren, eftersom det är maskiners ögon och är en grundläggande uppgift inom datorseende som syftar till att identifiera och lokalisera föremål av intresse. Hårdvaruacceleratorer syftar vanligtvis till att öka genomströmningen för realtidskrav samtidigt som energiförbrukningen sänks. Studier av feltolerans säkerställer att algoritmen utförs korrekt även med felpresentation. Denna avhandling täcker dessa ämnen och tillhandahåller en Field-Programmable Gate Array (FPGA)-implementering av en objektdetekteringsalgoritm, You Only Look Once (YOLO), samtidigt som man undersöker implementeringens feltolerans. En baslinjeimplementering på FPGA tillhandahålls först och sedan tillämpas, implementeras och testas två feltoleranta implementeringar, en med trippelmodulär redundans och en med tidsredundans. Fastnade fel injiceras i implementeringarna för att studera feltoleransen. Vår FPGA-implementering av YOLO ger en höghastighets, låg strömförbrukning och mycket konfigurerbar hårdvaruaccelerator för objektdetektering. I detta examensarbete görs implementeringsdesignen med en kombination av egendesignade moduler med VHDL och Xilinx-försedd Intellectual Property (IP). Jämfört med andra forsknings- eller öppen källkodsversioner som använder High-Level Synthesis (HLS), är denna design mer konfigurerbar för framtida referenser och tar bort onödiga hårdvarusvarta lådor. Jämfört med andra studier om hårdvaruacceleratorer fokuserar denna avhandling på feltolerans. Detta examensarbete skapar utrymme för mer arbete med att utforska feltolerans, t.ex. skapa en mer feltolerant implementering eller undersöka hur vissa fel kan påverka resultatet. Det är också möjligt att använda implementeringen från denna avhandling som baslinje för andra forskningsändamål, eftersom implementeringen är fristående och mycket konfigurerbar. / Object detection gets great research interest in recent years, as it is the eyes of machines and is a fundamental task in computer vision that aims at identifying and locating objects of interest. Hardware accelerators usually aim at boosting the throughput for real-time requirements while lowering power consumption. Studies on fault tolerance ensure the algorithm to be performed correctly even with error presenting. This thesis covers these topics and provides a Field-Programmable Gate Array (FPGA) implementation of an object detection algorithm, You Only Look Once (YOLO), while investigating the fault tolerance of the implementation. A baseline implementation on FPGA is first provided and then two fault-tolerant implementations, one with triple-modular redundancy and one with time redundancy are applied, implemented, and tested. Stuck-at faults are injected into the implementations to study the fault tolerance. Our FPGA implementation of YOLO provides a high-speed, low-power-consumption, and highly-configurable hardware accelerator for object detection. In this thesis, the implementation design is done with a combination of self-designed modules with VHDL and Xilinx-provided Intellectual Property (IP). Compared to other research or open-source versions using High-Level Synthesis (HLS), this design is more configurable for future references and removes unnecessary hardware black boxes. Compared to other studies on hardware accelerators, this thesis focuses on fault tolerance. This thesis creates space for more work on exploring fault tolerance, e.g., creating a more fault-tolerant implementation or investigating how certain faults could affect the result. It is also possible to use the implementation from this thesis as a baseline for other research purposes, as the implementation is stand-alone and highly configurable.
417

Traffic light detection and V2I communications of an autonomous vehicle with the traffic light for an effective intersection navigation using MAVS simulation

Rahman, Mahfuzur 08 December 2023 (has links) (PDF)
Intersection Navigation plays a significant role in autonomous vehicle operation. This paper focuses on enhancing autonomous vehicle intersection navigation through advanced computer vision and Vehicle-to-Infrastructure (V2I) communication systems. The research unfolds in two phases. In the first phase, an approach utilizing YOLOv8s is proposed for precise traffic light detection and recognition, trained on the Small-Scale Traffic Light Dataset (S2TLD). The second phase establishes seamless connectivity between autonomous vehicles and traffic lights in a simulated Mississippi State University Autonomous Vehicle Simulation (MAVS) environment resembling a small city with multiple intersections. This V2I system enables the transmission of Signal Phase and Timing (SPaT) messages to vehicles, providing information on current traffic light phases and time until the next phase change which enables the vehicles to adjust their speed and behavior in real-time. The simulation demonstrates accurate traffic light detection, with vehicles receiving SPaT messages, showcasing the system’s effectiveness in a multi-intersection scenario.
418

Failure Inference in Drilling Bits: : Leveraging YOLO Detection for Dominant Failure Analysis

Akumalla, Gnana Spandana January 2023 (has links)
Detecting failures in tricone drill bits is crucial in the mining industry due to their potential consequences, including operational losses, safety hazards, and delays in drilling operations. Timely identification of failures allows for proactive maintenance and necessary measures to ensure smooth drilling processes and minimize associated risks. Accurate failure detection helps mining operations avoid financial losses by preventing unplanned breakdowns, costly repairs, and extended downtime. Moreover, it optimizes operational efficiency by enabling timely maintenance interventions, extending the lifespan of drill bits, and minimizing disruptions. Failure detection also plays a critical role in ensuring the safety of personnel and equipment involved in drilling operations. Traditionally, failure detection in tricone drill bits relies on manual inspection, which can be time-consuming and labor-intensive. Incorporating artificial intelligence-based approaches can significantly enhance efficiency and accuracy. This thesis uses machine learning methods for failure inference in tricone drill bits. A classic Convolutional Neural Network (CNN) classification method was initially explored, but its performance was insufficient due to the small dataset size and imbalanced data. The problem was reformulated as an object detection task to overcome these limitations, and a post-processing operation was incorporated. Data augmentation techniques enhanced the training and evaluation datasets, improving failure detection accuracy. Experimental results highlighted the need for revising the initial CNN classification method, given the limitations of the small and imbalanced dataset. However, You Only Look Once (YOLO) algorithms such as YOLOv5 and YOLOv8 models exhibited improved performance. The post-processing operation further refined the results obtained from the YOLO algorithm, specifically YOLOv5 and YOLOv8 models. While YOLO provides bounding box coordinates and class labels, the post-processing step enhanced drill bit failure detection through various techniques such as confidence thresholding, etc. By effectively leveraging the YOLO-based models and incorporating post-processing, this research advances failure detection in tricone drill bits. These intelligent methods enable more precise and efficient detection, preventing operational losses and optimizing maintenance processes. The findings underscore the potential of machine learning techniques in the mining industry, particularly in mechanical drilling, driving progress and enhancing overall operational efficiency
419

Instance Segmentation for Printed Circuit Board (PCB) Component Analysis : Exploring CNNs and Transformers for Component Detection on Printed Circuit Boards

Möller, Oliver January 2023 (has links)
In the intricate domain of Printed Circuit Boards (PCBs), object detection poses unique challenges, particularly given the broad size spectrum of components, ranging from a mere 2 pixels to several thousand pixels within a single high-resolution image, often averaging 4000x3000 pixels. Such resolutions are atypical in the realm of deep learning for computer vision, making the task even more demanding. Further complexities arise from the significant intra-class variability and minimal inter-class differences for certain component classes. In this master thesis, we rigorously evaluated the performance of a CNN-based object detection framework (FCOS) and a transformer model (DETR) for the task. Additionally, by integrating the novel foundational model from Meta, named ”Segment Anything,” we advanced the pipeline to include instance segmentation. The resultant model is proficient in detecting and segmenting component instances on PCB images, achieving an F1 score of 81% and 82% for the primary component classes of resistors and capacitors, respectively. Overall, when aggregated over 18 component classes, the model attains a commendable F1 score of 74%. This study not only underscores the potential of advanced deep learning techniques in PCB analysis but also paves the way for future endeavors in this interdisciplinary convergence of electronics and computer vision / I det komplicerade området med kretskort (PCB) innebär objektdetektering unika utmaningar, särskilt med tanke på det breda storleksspektrumet av komponenter, från bara 2 pixlar till flera tusen pixlar i en enda högupplöst bild, ofta i genomsnitt 4000x3000 pixlar. Sådana upplösningar är atypiska när det gäller djupinlärning för datorseende, vilket gör uppgiften ännu mer krävande. Ytterligare komplexitet uppstår från den betydande variationen inom klassen och minimala skillnader mellan klasserna för vissa komponentklasser. I denna masteruppsats utvärderade vi noggrant prestandan hos ett CNNbaserat ramverk för objektdetektering (FCOS) och en transformatormodell (DETR) för uppgiften. Genom att integrera den nya grundmodellen från Meta, med namnet ”Segment Anything”, utvecklade vi dessutom pipelinen för att inkludera instanssegmentering. Den resulterande modellen är skicklig på att upptäcka och segmentera komponentinstanser på PCB-bilder och uppnår en F1-poäng på 81% och 82% för de primära komponentklasserna resistorer respektive kondensatorer. När modellen aggregeras över 18 komponentklasser uppnår den en F1-poäng på 74%. Denna studie understryker inte bara potentialen hos avancerade djupinlärningstekniker vid PCB-analys utan banar också väg för framtida insatser inom denna tvärvetenskapliga konvergens av elektronik och datorseende.
420

Détection de tableaux dans des documents : une étude de TableBank

Yockell, Eugénie 04 1900 (has links)
L’extraction d’information dans des documents est une nécessité, particulièrement dans notre ère actuelle où il est commun d’employer un téléphone portable pour photographier des documents ou des factures. On trouve aussi une utilisation répandue de documents PDF qui nécessite de traiter une imposante quantité de documents digitaux. Par leur nature, les données des documents PDF sont complexes à extraire, nécessitant d’être analysés comme des images. Dans cette recherche, on se concentre sur une information particulière à prélever: des tableaux. En effet, les tableaux retrouvés dans les docu- ments représentent une entité significative, car ils contiennent des informations décisives. L’utilisation de modèles neuronaux pour performer des extractions automatiques permet considérablement d’économiser du temps et des efforts. Dans ce mémoire, on définit les métriques, les modèles et les ensembles de données utilisés pour la tâche de détection de tableaux. On se concentre notamment sur l’étude des ensembles de données TableBank et PubLayNet, en soulignant les problèmes d’an- notations présents dans l’ensemble TableBank. On relève que différentes combinaisons d’ensembles d’entraînement avec TableBank et PubLayNet semblent améliorer les perfor- mances du modèle Faster R-CNN, ainsi que des méthodes d’augmentations de données. On compare aussi le modèle de Faster R-CNN avec le modèle CascadeTabNet pour la détection de tableaux où ce premier demeure supérieur. D’autre part, on soulève un enjeu qui est peu discuté dans la tâche de détection d’objets, soit qu’il existe une trop grande quantité de métriques. Cette problématique rend la comparaison de modèles ardue. On génère ainsi les résultats de modèles selon plusieurs métriques afin de démontrer qu’elles conduisent généralement vers différents modèles gagnants, soit le modèle ayant les meilleures performances. On recommande aussi les métriques les plus pertinentes à observer pour la détection de tableaux, c’est-à- dire APmedium/APmedium, Pascal AP85 ou COCO AP85 et la métrique de TableBank. / Extracting information from documents is a necessity, especially in today’s age where it is common to use a cell phone to photograph documents or invoices. There is also the widespread use of PDF documents that requires processing a large amount of digital documents. Due to their nature, the data in PDF documents are complex to retrieve, needing to be analyzed as images. In this research, we focus on a particular information to be extracted: tables. Indeed, the tables found in documents represent a significant entity, as they contain decisive information. The use of neural networks to perform automatic retrieval saves time and effort. In this research, the metrics, models and datasets used for the table detection task are defined. In particular, we focus on the study of the TableBank and PubLayNet datasets, highlighting the problems of annotations present in the TableBank set. We point out that different combinations of training sets using TableBank and PubLayNet appear to improve the performance of the Faster R-CNN model, as well as data augmentation methods. We also compare the Faster R-CNN model with the CascadeTabNet model for table detection where the former remains superior. In addition, we raise an issue that is not often discussed in the object detection task, namely that there are too many metrics. This problem makes model comparison difficult. We therefore generate results from models with several metrics in order to demonstrate the influence of these metrics in defining the best performing model. We also recommend the most relevant metrics to observe for table detection, APmedium/APmedium, Pascal AP85 or COCO AP85 and the TableBank metric.

Page generated in 0.0848 seconds