Spelling suggestions: "subject:"abject detection"" "subject:"6bject detection""
421 |
Instance Segmentation for Printed Circuit Board (PCB) Component Analysis : Exploring CNNs and Transformers for Component Detection on Printed Circuit BoardsMöller, Oliver January 2023 (has links)
In the intricate domain of Printed Circuit Boards (PCBs), object detection poses unique challenges, particularly given the broad size spectrum of components, ranging from a mere 2 pixels to several thousand pixels within a single high-resolution image, often averaging 4000x3000 pixels. Such resolutions are atypical in the realm of deep learning for computer vision, making the task even more demanding. Further complexities arise from the significant intra-class variability and minimal inter-class differences for certain component classes. In this master thesis, we rigorously evaluated the performance of a CNN-based object detection framework (FCOS) and a transformer model (DETR) for the task. Additionally, by integrating the novel foundational model from Meta, named ”Segment Anything,” we advanced the pipeline to include instance segmentation. The resultant model is proficient in detecting and segmenting component instances on PCB images, achieving an F1 score of 81% and 82% for the primary component classes of resistors and capacitors, respectively. Overall, when aggregated over 18 component classes, the model attains a commendable F1 score of 74%. This study not only underscores the potential of advanced deep learning techniques in PCB analysis but also paves the way for future endeavors in this interdisciplinary convergence of electronics and computer vision / I det komplicerade området med kretskort (PCB) innebär objektdetektering unika utmaningar, särskilt med tanke på det breda storleksspektrumet av komponenter, från bara 2 pixlar till flera tusen pixlar i en enda högupplöst bild, ofta i genomsnitt 4000x3000 pixlar. Sådana upplösningar är atypiska när det gäller djupinlärning för datorseende, vilket gör uppgiften ännu mer krävande. Ytterligare komplexitet uppstår från den betydande variationen inom klassen och minimala skillnader mellan klasserna för vissa komponentklasser. I denna masteruppsats utvärderade vi noggrant prestandan hos ett CNNbaserat ramverk för objektdetektering (FCOS) och en transformatormodell (DETR) för uppgiften. Genom att integrera den nya grundmodellen från Meta, med namnet ”Segment Anything”, utvecklade vi dessutom pipelinen för att inkludera instanssegmentering. Den resulterande modellen är skicklig på att upptäcka och segmentera komponentinstanser på PCB-bilder och uppnår en F1-poäng på 81% och 82% för de primära komponentklasserna resistorer respektive kondensatorer. När modellen aggregeras över 18 komponentklasser uppnår den en F1-poäng på 74%. Denna studie understryker inte bara potentialen hos avancerade djupinlärningstekniker vid PCB-analys utan banar också väg för framtida insatser inom denna tvärvetenskapliga konvergens av elektronik och datorseende.
|
422 |
Détection de tableaux dans des documents : une étude de TableBankYockell, Eugénie 04 1900 (has links)
L’extraction d’information dans des documents est une nécessité, particulièrement dans
notre ère actuelle où il est commun d’employer un téléphone portable pour photographier
des documents ou des factures. On trouve aussi une utilisation répandue de documents
PDF qui nécessite de traiter une imposante quantité de documents digitaux. Par leur
nature, les données des documents PDF sont complexes à extraire, nécessitant d’être
analysés comme des images. Dans cette recherche, on se concentre sur une information
particulière à prélever: des tableaux. En effet, les tableaux retrouvés dans les docu-
ments représentent une entité significative, car ils contiennent des informations décisives.
L’utilisation de modèles neuronaux pour performer des extractions automatiques permet
considérablement d’économiser du temps et des efforts.
Dans ce mémoire, on définit les métriques, les modèles et les ensembles de données
utilisés pour la tâche de détection de tableaux. On se concentre notamment sur l’étude
des ensembles de données TableBank et PubLayNet, en soulignant les problèmes d’an-
notations présents dans l’ensemble TableBank. On relève que différentes combinaisons
d’ensembles d’entraînement avec TableBank et PubLayNet semblent améliorer les perfor-
mances du modèle Faster R-CNN, ainsi que des méthodes d’augmentations de données.
On compare aussi le modèle de Faster R-CNN avec le modèle CascadeTabNet pour la
détection de tableaux où ce premier demeure supérieur.
D’autre part, on soulève un enjeu qui est peu discuté dans la tâche de détection
d’objets, soit qu’il existe une trop grande quantité de métriques. Cette problématique
rend la comparaison de modèles ardue. On génère ainsi les résultats de modèles selon
plusieurs métriques afin de démontrer qu’elles conduisent généralement vers différents
modèles gagnants, soit le modèle ayant les meilleures performances. On recommande
aussi les métriques les plus pertinentes à observer pour la détection de tableaux, c’est-à-
dire APmedium/APmedium, Pascal AP85 ou COCO AP85 et la métrique de TableBank. / Extracting information from documents is a necessity, especially in today’s age where
it is common to use a cell phone to photograph documents or invoices. There is also
the widespread use of PDF documents that requires processing a large amount of digital
documents. Due to their nature, the data in PDF documents are complex to retrieve,
needing to be analyzed as images. In this research, we focus on a particular information to
be extracted: tables. Indeed, the tables found in documents represent a significant entity,
as they contain decisive information. The use of neural networks to perform automatic
retrieval saves time and effort.
In this research, the metrics, models and datasets used for the table detection task are
defined. In particular, we focus on the study of the TableBank and PubLayNet datasets,
highlighting the problems of annotations present in the TableBank set. We point out that
different combinations of training sets using TableBank and PubLayNet appear to improve
the performance of the Faster R-CNN model, as well as data augmentation methods. We
also compare the Faster R-CNN model with the CascadeTabNet model for table detection
where the former remains superior.
In addition, we raise an issue that is not often discussed in the object detection task,
namely that there are too many metrics. This problem makes model comparison difficult.
We therefore generate results from models with several metrics in order to demonstrate
the influence of these metrics in defining the best performing model. We also recommend
the most relevant metrics to observe for table detection, APmedium/APmedium, Pascal
AP85 or COCO AP85 and the TableBank metric.
|
423 |
Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv ObjektdetekteringBerta, Benjamin István January 2021 (has links)
Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk.
|
424 |
Data Synthesis in Deep Learning for Object Detection / Syntetiskt Data i Djupinlärning för ObjektdetektionHaddad, Josef January 2021 (has links)
Deep neural networks typically require large amounts of labeled data for training, but a problem is that collecting data can be expensive. Our study aims at revealing insights into how training with synthetic data affects performance in real-world object detection tasks. This is achieved by synthesising annotated image data in the automotive domain using a car simulator for the tasks of detecting cars in images from the real world. We furthermore perform experiments in the aviation domain where we incorporate synthetic images extracted from an airplane simulator with real-world data for detecting runways. In our experiments, the synthetic data sets are leveraged by pre-training a deep learning based object detector, which is then fine-tuned and evaluated on real-world data. We evaluate this approach on three real-world data sets across the two domains and furthermore evaluate how the classification performance scales as synthetic and real-world data varies in the automotive domain. In the automotive domain, we additionally perform image-to-image translation both from the synthetic domain to the real-world domain, and the other way around, as a means of domain adaptation to assess whether it further improves performance. The results show that adding synthetic data improves performance in the automotive domain and that pre-training with more synthetic data results in further performance improvements, but that the performance boost of adding more real-world data exceeds that of the addition of more synthetic data. We can not conclude that using CycleGAN for domain adaptation further improves the performance. / Djupa neurala nätverk behöver normalt stora mängder annoterad träningsdata, men ett problem är att data kan vara dyrt att sampla in. Syftet med denna studie är att undersöka hur träning med syntetiskt data påverkar en objektdetektors prestanda på verkligt data. Detta undersöks genom att syntetisera data i bildomänen med hjälp av en bilsimulator för uppgiften att identifiera bilar i den verkliga världen. Dessutom utför vi experiment i flygdomänen där vi inkorporerar syntetiskt flygbilddata från en flygsimulator med riktigt flygdata för detektion av landningsbanor. Det syntetiska datat i vår studie används till att förträna en djupinlärningsbaserad objektdetektor, som sedan fintränas och evalueras på data insamlat från den verkliga världen. Vi evaluerar denna approach på totalt tre riktiga dataset över våra två domäner och dessutom undersöker vi hur prestandan skalar när mängden syntetiskt och riktigt data varierar i bildomänen. I bildomänen tillämpar vi dessutom bildtillbild translation mellan de syntetiska och riktiga bilderna för att undersöka om denna sorts domänadaption förbättrar prestandan. Resultaten visar att tillägg av syntetiskt data förbättrar prestandan i bildomänen och att förträning med en större mängd syntetiskt data resulterar i ytterligare prestandaförbättringar, men att prestandaförbättringen när mer riktigt data läggs till är större i jämförelse. Vi kan inte dra slutsatsen att domänadaption med CycleGAN leder till förbättrad prestanda.
|
425 |
Distributed Intelligence for Multi-Robot Environment : Model Compression for Mobile Devices with Constrained Computing Resources / Distribuerad intelligens för multirobotmiljö : Modellkomprimering för mobila enheter med begränsade datorresurserSouroulla, Timotheos January 2021 (has links)
Human-Robot Collaboration (HRC), where both humans and robots work in the same environment simultaneously, is an emerging field and has increased massively during the past decade. For this collaboration to be feasible and safe, robots need to perform a proper safety analysis to avoid hazardous situations. This safety analysis procedure involves complex computer vision tasks that require a lot of processing power. Therefore, robots with constrained computing resources cannot execute these tasks without any delays, thus for executing these tasks they rely on edge infrastructures, such as remote computational resources accessible over wireless communication. In some cases though, the edge may be unavailable, or connection to it may not be possible. In such cases, robots still have to navigate themselves around the environment, while maintaining high levels of safety. This thesis project focuses on reducing the complexity and the total number of parameters of pre-trained computer vision models by using model compression techniques, such as pruning and knowledge distillation. These model compression techniques have strong theoretical and practical foundations, but work on their combination is limited, therefore it is investigated in this work. The results of this thesis project show that in the test cases, up to 90% of the total number of parameters of a computer vision model can be removed without any considerable reduction in the model’s accuracy. / Människa och robot samarbete (förkortat HRC från engelskans Human-Robot Collaboration), där både människor och robotar arbetar samtidigt i samma miljö, är ett växande forskningsområde och har ökat dramatiskt över de senaste decenniet. För att detta samarbetet ska vara möjligt och säkert behöver robotarna genomgå en ordentlig säkerhetsanalys så att farliga situationer kan undvikas. Denna säkerhetsanalys inkluderar komplexa Computer Vision uppgifter som kräver mycket processorkraft. Därför kan inte robotar med begränsad processorkraft utföra dessa beräkningar utan fördröjning, utan måste istället förlita sig på utomstående infrastruktur för att exekvera dem. Vid vissa tillfällen kan dock denna utomstående infrastruktur inte finnas på plats eller vara svår att koppla upp sig till. Även vid dessa tillfällen måste robotar fortfarande kunna navigera sig själva genom en lokal, och samtidigt upprätthålla hög grad av säkerhet. Detta projekt fokuserar på att reducera komplexiteten och det totala antalet parametrar av för-tränade Computer Vision-modeller genom att använda modellkompressionstekniker så som: Beskärning och kunskapsdestilering. Dessa modellkompressionstekniker har starka teoretiska grunder och praktiska belägg, men mängden arbeten kring deras kombinerade effekt är begränsad, därför är just det undersökt i detta arbetet. Resultaten av det här projektet visar att up till 90% av det totala antalet parametrar hos en Computer Vision-modell kan tas bort utan någon noterbar försämring av modellens säkerhet.
|
426 |
Digitizing notes using a moving smartphone : Evaluating Oriented FAST and Rotated BRIEF (ORB) / Digitalisering av notiser med en rörlig smartphone : Utvärdering av Oriented FAST and Rotated BRIEF (ORB)Wieslander, Johan January 2021 (has links)
This thesis investigates the problem of tracking objects for an Augmented Reality (AR) setting. More specifically, the issue of tracking Post-It® notes to be used in a Mobile Augmented Reality (MAR) application using the Oriented FAST and Rotated BRIEF (ORB) keypoint extractor and descriptor, is investigated. This problem explores the relatively new and unexplored territory of tracking specific objects in real-time on mobile devices. Since MAR is becoming more prevalent, this is a field that is likely to be explored in more depth in the future. A solution was implemented in an existing note scanning application. Test sequences, with accompanying ground truth, were created for the applicable scenarios. The test sequences were used to reliably verify and evaluate the implementation with regard to precision, recall, accuracy, and speed. The ground truth was generated in a Mixed-Initiative Computing (MIC) application. The results show that tracking using only ORB is not viable if high precision, recall, or accuracy is needed. While tracking via ORB may not be viable as a standalone solution, the thesis describes methods for using it in a MIC setting, which may be viable. / Denna masteruppsats undersöker spårning av objekt för användning i en AR- miljö. Mer specifikt så undersöks spårning av Post-It®-notiser för användning i en MAR applikation med hjälp av ORB. Det här problemet utforskar det relativt nya och outforksade området rörande spårning av specifika objekt i realtid på mobila enheter. Eftersom MAR blir alltmer vanligt förekommande, så kommer det här forskningsområdet troligtvis att utforskas mer ingående i framtiden. En lösning implementeras utöver en existerande applikation for att skanna notiser. Testsekvenser, med ackompanjerande faktisk data skapades för de relevanta scenarierna. Dessa testsekvenser användes för att kunna verifiera och utvärdera implementationen med avseende på precision, återkall, träffsäkerhet och snabbhet. All faktisk data genererades i en MIC-applikation. Resultaten visar att spårning med enbart ORB är inte genomförbart om höga krav på precision, återkall, träffsäkerhet eller snabbhet behövs. Medan spårning via ORB måhända inte är genomförbart i nuläget som en självstående lösning, så har den här mastersuppsatsen beskrivit metoder för att använda ORB i en MIC-applikation. Något som faktiskt kan vara genomförbart.
|
427 |
Low-power high-resolution image detectionMerchant, Caleb 09 August 2019 (has links)
Many image processing algorithms exist that can accurately detect humans and other objects such as vehicles and animals. Many of these algorithms require large amounts of processing often requiring hardware acceleration with powerful central processing units (CPUs), graphics processing units (GPUs), field programmable gate arrays (FPGAs), etc. Implementing an algorithm that can detect objects such as humans at longer ranges makes these hardware requirements even more strenuous as the numbers of pixels necessary to detect objects at both close ranges and long ranges is greatly increased. Comparing the performance of different low-power implementations can be used to determine a trade-off between performance and power. An image differencing algorithm is proposed along with selected low-power hardware that is capable of detected humans at ranges of 500 m. Multiple versions of the detection algorithm are implemented on the selected hardware and compared for run-time performance on a low-power system.
|
428 |
Real-Time Object Motion and 3D Localization from GeometryLee, Young Jin January 2014 (has links)
No description available.
|
429 |
A Real-Time Computational Decision Support System for Compounded Sterile Preparations using Image Processing and Artificial Neural NetworksRegmi, Hem Kanta January 2016 (has links)
No description available.
|
430 |
Progressively Expanded Neural Network for Automatic Material Identification in Hyperspectral ImageryPaheding, Sidike January 2016 (has links)
No description available.
|
Page generated in 0.0997 seconds