• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 18
  • 3
  • 1
  • 1
  • Tagged with
  • 23
  • 19
  • 19
  • 13
  • 12
  • 10
  • 10
  • 10
  • 9
  • 8
  • 8
  • 7
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Datainsamling till simulering med hjälp av videokamera och bildbehandling / Data acquisition for simulation using video camera and image processing

Saiti, Adel, Ringbom, Jonas January 2019 (has links)
Syftet med studien är att undersöka möjligheten att använda en videokamera och bildbehandlings-algoritmer för att inhämta data till simulering genom att spåra personers rörelse. Den teoretiska referensramen och litteraturstudie används för att få en fördjupad kunskap om simulering och hur personer spåras med spårningsalgoritmer. För att undersöka möjligheten har en kod skapats som använder bildbehandlingsalgoritmer från OpenCv. Algoritmerna som används har utvärderats med fyra experiment i två olika miljöer, en affärsmiljö och en industrimiljö. Experimenten har använts till att spela in videomaterial på personernas förflyttning i miljöerna. Videomaterialen har använts med den skapade koden och bildbehandlingsalgoritmer för att analysera spårnings-algoritmernas prestanda och om tider kan erhållas. Resultatet från analysen påvisar att tider kan erhållas om en person spåras i videoscenen. De erhållna tiderna har jämfört med manuella tidsstudier och påvisar att medelfelet är 0,1 sekunder och standardavvikelsen är 0,27 sekunder. När det är flera personer som spåras i videoscenen visar resultatet att de inte är möjligt att erhålla tider till simulering. Detta beror på att algoritmerna misslyckas att spåra, faktorer som samman-fogning, färg, riktning, ocklusion och förflyttning av statiska objekt påverkar spårningen på algoritmerna. Detta bidrar till att tiderna som erhålls inte är tillförlitliga och därmed har inte tiderna jämfört med manuella tidsstudier. / The purpose of the study is to investigate the possibility of using a video camera and the image processing algorithms to obtain data for simulation through tracking people’s movement. The theoretical frame of reference and literature studies are used to get an in-depth knowledge about simulation and how people are tracked with tracking algorithms. To investigate the possibility, a code has been created that uses image processing algorithms from OpenCv. These algorithms that have been used have been evaluated with four experiments in two different environments, one store environment and one industrial environment. The experiments have been used to record video on people’s movements in these two environments. The video recordings have been made with the created code and the image processing algorithms to analyze the performance of the tracking algorithms and if time can be obtained. The result of the analysis shows that the time can be obtained if a person is used in the video scene. The obtained times have been compared with manual time studies. The result shows that the average error is 0, 1 seconds and the standard deviation is 0, 27 seconds. When there are more people that are being tracked in the video scene, the result shows that they are not possible to obtain times for simulation. This is because the algorithms are failing to track, factors such as joining, color, direction, occlusion and movement of static objects affect the tracking of the algorithms. This contributes that the times obtained are not reliable and thereby have not been compared with manual time’s studies.
2

Detection and tracking of spruce seedlings in spatiospectral images / Detektion och följning av granplantor i spatiospektrala bilder

Löwbeer, Emma, Åkesson, Erik January 2020 (has links)
I projektet detekteras och följs granplantor i spatiospektrala bilder för att därefter skapa en hyperspektral datakub för av varje gran. För att detektera granarna prövas fyra metoder: manuell detektion, detektion med segmentering, detektion med SVM och detektion med neuralt nätverk. Minnesanvändning och körningstid jämförs mellan två implementationer, där hyperspektral rekonstruktion görs med olika metoder.
3

Detection and tracking of spruce seedlings in spatiospectral images / Detektion och följning av granplantor i spatiospektrala bilder

Löwbeer, Emma, Åkesson, Erik January 2020 (has links)
I projektet detekteras och följs granplantor i spatiospektrala bilder för att därefter skapa en hyperspektral datakub för av varje gran. För att detektera granarna prövas fyra metoder: manuell detektion, detektion med segmentering, detektion med SVM och detektion med neuralt nätverk. Minnesanvändning och körningstid jämförs mellan två implementationer, där hyperspektral rekonstruktion görs med olika metoder.
4

Detecting Faulty Tape-around Weatherproofing Cables by Computer Vision

Sun, Ruiwen January 2020 (has links)
More cables will be installed owing to setting up more radio towers when it comes to 5G. However, a large proportion of radio units are constructed high in the open space, which makes it difficult for human technicians to maintain the systems. Under these circumstances, automatic detections of errors among radio cabinets are crucial. Cables and connectors are usually covered with weatherproofing tapes, and one of the most common problems is that the tapes are not closely rounded on the cables and connectors. This makes the tape go out of the cable and look like a waving flag, which may seriously damage the radio systems. The thesis aims at detecting this flagging-tape and addressing the issues. This thesis experiments two methods for object detection, the convolutional neural network as well as the OpenCV and image processing. The former uses YOLO (You Only Look Once) network for training and testing, while in the latter method, the connected component method is applied for the detection of big objects like the cables and line segment detector is responsible for the flagging-tape boundary extraction. Multiple parameters, structurally and functionally unique, were developed to find the most suitable way to meet the requirement. Furthermore, precision and recall are used to evaluate the performance of the system output quality, and in order to improve the requirements, larger experiments were performed using different parameters. The results show that the best way of detecting faulty weatherproofing is with the image processing method by which the recall is 71% and the precision reaches 60%. This method shows better performance than YOLO dealing with flagging-tape detection. The method shows the great potential of this kind of object detection, and a detailed discussion regarding the limitation is also presented in the thesis. / Fler kablar kommer att installeras på grund av installation av fler radiotorn när det gäller 5G. En stor del av radioenheterna är dock konstruerade högt i det öppna utrymmet, vilket gör det svårt för mänskliga tekniker att underhålla systemen. Under dessa omständigheter är automatiska upptäckter av fel bland radioskåp avgörande. Kablar och kontakter täcks vanligtvis med väderbeständiga band, och ett av de vanligaste problemen är att banden inte är rundade på kablarna och kontakterna. Detta gör att tejpen går ur kabeln och ser ut som en viftande flagga, vilket allvarligt kan skada radiosystemen. Avhandlingen syftar till att upptäcka detta flaggband och ta itu med frågorna. Den här avhandlingen experimenterar två metoder för objektdetektering, det invändiga neurala nätverket såväl som OpenCV och bildbehandling. Den förstnämnda använder YOLO (You Only Look Once) nätverk för träning och testning, medan i den senare metoden används den anslutna komponentmetoden för detektering av stora föremål som kablarna och linjesegmentdetektorn är ansvarig för utvinning av bandbandgränsen. Flera parametrar, strukturellt och funktionellt unika, utvecklades för att hitta det mest lämpliga sättet att uppfylla kravet. Dessutom används precision och återkallande för att utvärdera prestandan för systemutgångskvaliteten, och för att förbättra kraven utfördes större experiment med olika parametrar. Resultaten visar att det bästa sättet att upptäcka felaktigt väderbeständighet är med bildbehandlingsmetoden genom vilken återkallelsen är 71% och precisionen når 60%. Denna metod visar bättre prestanda än YOLO som hanterar markering av flaggband. Metoden visar den stora potentialen för denna typ av objektdetektering, och en detaljerad diskussion om begränsningen presenteras också i avhandlingen.
5

VL Tasks: Which Models Suit? : Investigate Different Models for Swedish Image-Text Relation Task / VL-uppgifter: Vilka modeller passar? : Undersök olika modeller för svensk bild-text relationsuppgift

Gou, Meinan January 2022 (has links)
In common sense, modality measures the number of areas a model covers. Multi-modal or cross-modal models can handle two or more areas simultaneously. Some common cross-models include Vision-Language models, Speech-Language models, and Vision-Speech models. A Vision-Language (VL) model is a network architecture that can interpret both textual and visual inputs, which has always been challenging. Driven by the interest in exploring such an area, this thesis implements several VL models and investigates their performance on a specific VL task: The Image-Text Relation Task. Instead of using English as the context language, the thesis focuses on other languages where the available resources are less. Swedish is chosen as a case study and the results can be extended to other languages. The experiments show that the Transformer style architecture efficiently handles both textual and visual inputs, even trained with simple loss functions. The work suggests an innovative way for future development in cross-modal models, especially for VL tasks. / I vanlig mening är modalitet ett mått på hur många områden en modell täcker. Multimodala eller tvärmodala modeller kan hantera två eller flera områden samtidigt. Några vanliga tvärmodala modeller är vision-språk-modeller, tal-språk-modeller och vision-språk-modeller. En Vision-Language-modell (VL-modell) är en nätverksarkitektur som kan tolka både text- och visuell input samtidigt, vilket alltid har varit en utmaning. I denna avhandling, som drivs av intresset för att utforska ett sådant område, implementeras flera VL-modeller och deras prestanda undersöks på en specifik VL-uppgift: Uppgiften bild-text-relation. I stället för att använda engelska som kontextspråk fokuserar avhandlingen på andra språk där de tillgängliga resurserna är mindre. Svenskan har valts som fallstudie och resultaten kan utvidgas till andra språk. Experimenten visar att arkitekturen i Transformer-stilen effektivt hanterar både text- och visuella indata, även om den tränas med enkla förlustfunktioner. Arbetet föreslår en innovativ väg för framtida utveckling av intermodala modeller, särskilt för VL-uppgifter.
6

Enhancing Object Detection in Infrared Videos through Temporal and Spatial Information

Jinke, Shi January 2023 (has links)
Object detection is a prominent area of research within computer vision. While object detection based on infrared videos holds great practical significance, the majority of mainstream methods are primarily designed for visible datasets. This thesis investigates the enhancement of object detection accuracy on infrared datasets by leveraging temporal and spatial information. The Memory Enhanced Global-Local Aggregation (MEGA) framework is chosen as a baseline due to its capability to incorporate both forms of information. Based on the initial visualization result from the infrared dataset, CAMEL, the noisy characteristic of the infrared dataset is further explored. Through comprehensive experiments, the impact of temporal and spatial information is examined, revealing that spatial information holds a detrimental effect, while temporal information could be used to improve model performance. Moreover, an innovative Dual Frame Average Aggregation (DFAA) framework is introduced to address challenges related to object overlapping and appearance changes. This framework processes two global frames in parallel and in an organized manner, showing an improvement from the original configuration. / Objektdetektion är ett framträdande forskningsområde inom datorseende. Även om objektdetektering baserad på infraröda videor har stor praktisk betydelse, är majoriteten av vanliga metoder i första hand utformade för synliga datauppsättningar. Denna avhandling undersöker förbättringen av objektdetektionsnoggrannhet på infraröda datauppsättningar genom att utnyttja tids- och rumslig information. Memory Enhanced Global-Local Aggregation (MEGA)-ramverket väljs som baslinje på grund av dess förmåga att införliva båda formerna av information. Baserat på det initiala visualiseringsresultatet från den infraröda datamängden, CAMEL, utforskas den brusiga karaktäristiken för den infraröda datamängden ytterligare. Genom omfattande experiment undersöks effekten av tids- och rumslig information, vilket avslöjar att den rumsliga informationen har en skadlig effekt, medan tidsinformation kan användas för att förbättra modellens prestanda. Dessutom introduceras en innovativ Dual Frame Average Aggregation (DFAA) ramverk för att hantera utmaningar relaterade till objektöverlappning och utseendeförändringar. Detta ramverk bearbetar två globala ramar parallellt och på ett organiserat sätt, vilket visar en förbättring från den ursprungliga konfigurationen.
7

Complementary Labels and Their Impact on Deep Learning of a Target Class : Evaluated on Object Detection in the Low Data Regime / Komplementära etiketter och deras påverkan på djupinlärning av en huvudklass : Evaluerat på objektdetektion i den låga dataregimen

Sirak, Simon January 2021 (has links)
In specialized object detection tasks and domains, it is sometimes only possible to collect and annotate a small amount of data for training and evaluation, which constrains training to a low data regime that can lead to poor generalization. In this thesis, the impact of annotations from additional classes, referred to as complementary labels, when learning a target class is studied as a potential approach to improve performance in the low data regime, for object detection. In particular, the thesis aims to investigate in which data regimes complementary labels seem beneficial, whether labels from different complementary classes contribute equally to the performance on the target class, and how varying the number of complementary classes can affect the performance on the target class. Two datasets were studied; CSAW-S, a medical dataset, and MSCOCO, a natural dataset. For each of these datasets, three experiments were conducted to examine various aspects of complementary labels. First, an experiment that compares the use of all available complementary labels and no complementary labels is conducted for various data regimes. Second, an experiment that leaves out individual complementary classes during training is performed. Third, an experiment that varies the number of complementary classes used during training is performed. The results suggest that complementary labels are helpful in the low data regime, provided the complementary classes have sufficient representation in the dataset. Furthermore, complementary classes that have clear context and interaction with the target class seem to be beneficial, and the impact of individual complementary classes does not seem to be cumulative. Lastly, increasing the number of complementary classes used seems to have a stabilizing effect on the target class performance, provided enough classes are used. Due to limitations in the methodology and choice of experiments, these findings are not conclusive. Nevertheless, various improvements to the methodology of studying complementary labels have been identified, which can help future studies present stronger conclusions. / I specialiserade domäner och uppgifter inom objektdetektion är det ibland inte möjligt att samla mer än en liten mängd data för träning och evaluering. Detta kan leda till dålig generalisering av objektdetektorer när ny data påträffas. I detta examensarbete undersöks komplementära etiketter från tillagda klasser som ett potentiellt sätt att förbättra generaliseringen av objektdetektion av en huvudklass. Mer specifikt fokuserar arbetet på att förstå i vilka datamängdsstorlekar som tillagda klasser kan vara användbara för inlärning av huvudklassen, huruvida olika tillagda klasser har lika inflytande på huvudklassen samt hur tillagda klasser påverkar objektdetektorns prestation på huvudklassen när antalet klasser varieras. Två datamängder studerades; CSAW-S, som är en medicinsk datamängd, och MSCOCO, som är en naturlig datamängd. På båda datamängderna genomförs tre experiment som undersöker olika aspekter av tillagda klasser. I det första experimentet jämförs träning av en huvudklass med och utan tillagda klasser med olika mängder träningsdata. I det andra experimentet lämnas individuella tillagda klasser ur träningen. I det tredje experimentet varieras antalet tillagda klasser som används i träningen. Av resultaten föreslås att tillagda klasser är användbara för att öka prestationen på osedd data när träningen begränsas till små datamängder och de tillagda klasserna har tillräcklig representation in datamängden. Utöver detta så verkar de mest fördelaktiga tillagda klasserna vara de som bidrar med tydligt sammanhang och interagerar tydligt med huvudklassen; fördelarna och nackdelarna som enstaka tillagda klasser bidrar med verkar dock inte vara kumulativa. Slutligen verkar prestationen på huvudklassen stabiliseras när antalet tillagda klasser ökar. På grund av begränsningar i metoden och valet av experimenten bör undersökningsresultaten tas som indikationer och inte definita slutsatser. Flera förbättringspunkter har dock identifierats och föreslagits i metoden angående studerandet av tillagda klasser, vilket kan möjliggöra starkare slutsatser i framtida studier.
8

An empirical study on synthetic image generation techniques for object detectors

Arcidiacono, Claudio Salvatore January 2018 (has links)
Convolutional Neural Networks are a very powerful machine learning tool that outperformed other techniques in image recognition tasks. The biggest drawback of this method is the massive amount of training data required, since producing training data for image recognition tasks is very labor intensive. To tackle this issue, different techniques have been proposed to generate synthetic training data automatically. These synthetic data generation techniques can be grouped in two categories: the first category generates synthetic images using computer graphic software and CAD models of the objects to recognize; the second category generates synthetic images by cutting the object from an image and pasting it on another image. Since both techniques have their pros and cons, it would be interesting for industries to investigate more in depth the two approaches. A common use case in industrial scenarios is detecting and classifying objects inside an image. Different objects appertaining to classes relevant in industrial scenarios are often undistinguishable (for example, they all the same component). For these reasons, this thesis work aims to answer the research question “Among the CAD model generation techniques, the Cut-paste generation techniques and a combination of the two techniques, which technique is more suitable for generating images for training object detectors in industrial scenarios”. In order to answer the research question, two synthetic image generation techniques appertaining to the two categories are proposed.The proposed techniques are tailored for applications where all the objects appertaining to the same class are indistinguishable, but they can also be extended to other applications. The two synthetic image generation techniques are compared measuring the performances of an object detector trained using synthetic images on a test dataset of real images. The performances of the two synthetic data generation techniques used for data augmentation have been also measured. The empirical results show that the CAD models generation technique works significantly better than the Cut-Paste generation technique where synthetic images are the only source of training data (61% better),whereas the two generation techniques perform equally good as data augmentation techniques. Moreover, the empirical results show that the models trained using only synthetic images performs almost as good as the model trained using real images (7,4% worse) and that augmenting the dataset of real images using synthetic images improves the performances of the model (9,5% better). / Konvolutionella neurala nätverk är ett mycket kraftfullt verktyg för maskininlärning som överträffade andra tekniker inom bildigenkänning. Den största nackdelen med denna metod är den massiva mängd träningsdata som krävs, eftersom det är mycket arbetsintensivt att producera träningsdata för bildigenkänningsuppgifter. För att ta itu med detta problem har olika tekniker föreslagits för att generera syntetiska träningsdata automatiskt. Dessa syntetiska datagenererande tekniker kan grupperas i två kategorier: den första kategorin genererar syntetiska bilder med hjälp av datorgrafikprogram och CAD-modeller av objekten att känna igen; Den andra kategorin genererar syntetiska bilder genom att klippa objektet från en bild och klistra in det på en annan bild. Eftersom båda teknikerna har sina fördelar och nackdelar, skulle det vara intressant för industrier att undersöka mer ingående de båda metoderna. Ett vanligt fall i industriella scenarier är att upptäcka och klassificera objekt i en bild. Olika föremål som hänför sig till klasser som är relevanta i industriella scenarier är ofta oskiljbara (till exempel de är alla samma komponent). Av dessa skäl syftar detta avhandlingsarbete till att svara på frågan “Bland CAD-genereringsteknikerna, Cut-paste generationsteknikerna och en kombination av de två teknikerna, vilken teknik är mer lämplig för att generera bilder för träningsobjektdetektorer i industriellascenarier”. För att svara på forskningsfrågan föreslås två syntetiska bildgenereringstekniker som hänför sig till de två kategorierna. De föreslagna teknikerna är skräddarsydda för applikationer där alla föremål som tillhör samma klass är oskiljbara, men de kan också utökas till andra applikationer. De två syntetiska bildgenereringsteknikerna jämförs med att mäta prestanda hos en objektdetektor som utbildas med hjälp av syntetiska bilder på en testdataset med riktiga bilder. Föreställningarna för de två syntetiska datagenererande teknikerna som används för dataförökning har också uppmätts. De empiriska resultaten visar att CAD-modelleringstekniken fungerar väsentligt bättre än Cut-Paste-genereringstekniken, där syntetiska bilder är den enda källan till träningsdata (61% bättre), medan de två generationsteknikerna fungerar lika bra som dataförstoringstekniker. Dessutom visar de empiriska resultaten att modellerna som utbildats med bara syntetiska bilder utför nästan lika bra som modellen som utbildats med hjälp av riktiga bilder (7,4% sämre) och att förstora datasetet med riktiga bilder med hjälp av syntetiska bilder förbättrar modellens prestanda (9,5% bättre).
9

Incorporating Sparse Attention Mechanism into Transformer for Object Detection in Images / Inkludering av gles attention i en transformer för objektdetektering i bilder

Duc Dao, Cuong January 2022 (has links)
DEtection TRansformer, DETR, introduces an innovative design for object detection based on softmax attention. However, the softmax operation produces dense attention patterns, i.e., all entries in the attention matrix receive a non-zero weight, regardless of their relevance for detection. In this work, we explore several alternatives to softmax to incorporate sparsity into the architecture of DETR. Specifically, we replace softmax with a sparse transformation from the α-entmax family: sparsemax and entmax-1.5, which induce a set amount of sparsity, and α-entmax, which treats sparsity as a learnable parameter of each attention head. In addition to evaluating the effect on detection performance, we examine the resulting attention maps from the perspective of explainability. To this end, we introduce three evaluation metrics to quantify the sparsity, complementing the qualitative observations. Although our experimental results on the COCO detection dataset do not show an increase in detection performance, we find that learnable sparsity provides more flexibility to the model and produces more explicative attention maps. To the best of our knowledge, we are the first to introduce learnable sparsity into the architecture of transformer-based object detectors. / DEtection Transformer, DETR, introducerar en innovativ design för objektdetektering baserad på softmax attention. Softmax producerar tät attention, alla element i attention-matrisen får en vikt skild från noll, oberoende av deras relevans för objektdetektering. Vi utforskar flera alternativ till softmax för att inkludera gleshet i DETRs arkitektur. Specifikt så ersätter vi softmax med en gles transformation från α-entmax familjen: sparsemax och entmax1.5, vilka inducerar en fördefinierad mängd gleshet, och α-entmax, som ser gleshet som en träningsbar parameter av varje attention-huvud. Förutom att evaluera effekten på detekteringsprestandan, så utforskar vi de resulterande attention-matriserna från ett förklarbarhetsperspektiv. Med det som mål så introducerar vi tre olika metriker för att evaluera gleshet, som ett komplement till de kvalitativa observationerna. Trots att våra experimentella resultat på COCO, ett utmanande dataset för objektdetektering, inte visar en ökning i detekteringsprestanda, så finner vi att träningsbar gleshet ökar modellens flexibilitet, och producerar mer förklarbara attentionmatriser. Såvitt vi vet så är vi de första som introducerar träningsbar gleshet i transformer-baserade arkitekturer för objektdetektering.
10

Data Synthesis in Deep Learning for Object Detection / Syntetiskt Data i Djupinlärning för Objektdetektion

Haddad, Josef January 2021 (has links)
Deep neural networks typically require large amounts of labeled data for training, but a problem is that collecting data can be expensive. Our study aims at revealing insights into how training with synthetic data affects performance in real-world object detection tasks. This is achieved by synthesising annotated image data in the automotive domain using a car simulator for the tasks of detecting cars in images from the real world. We furthermore perform experiments in the aviation domain where we incorporate synthetic images extracted from an airplane simulator with real-world data for detecting runways. In our experiments, the synthetic data sets are leveraged by pre-training a deep learning based object detector, which is then fine-tuned and evaluated on real-world data. We evaluate this approach on three real-world data sets across the two domains and furthermore evaluate how the classification performance scales as synthetic and real-world data varies in the automotive domain. In the automotive domain, we additionally perform image-to-image translation both from the synthetic domain to the real-world domain, and the other way around, as a means of domain adaptation to assess whether it further improves performance. The results show that adding synthetic data improves performance in the automotive domain and that pre-training with more synthetic data results in further performance improvements, but that the performance boost of adding more real-world data exceeds that of the addition of more synthetic data. We can not conclude that using CycleGAN for domain adaptation further improves the performance. / Djupa neurala nätverk behöver normalt stora mängder annoterad träningsdata, men ett problem är att data kan vara dyrt att sampla in. Syftet med denna studie är att undersöka hur träning med syntetiskt data påverkar en objektdetektors prestanda på verkligt data. Detta undersöks genom att syntetisera data i bildomänen med hjälp av en bilsimulator för uppgiften att identifiera bilar i den verkliga världen. Dessutom utför vi experiment i flygdomänen där vi inkorporerar syntetiskt flygbilddata från en flygsimulator med riktigt flygdata för detektion av landningsbanor. Det syntetiska datat i vår studie används till att förträna en djupinlärningsbaserad objektdetektor, som sedan fintränas och evalueras på data insamlat från den verkliga världen. Vi evaluerar denna approach på totalt tre riktiga dataset över våra två domäner och dessutom undersöker vi hur prestandan skalar när mängden syntetiskt och riktigt data varierar i bildomänen. I bildomänen tillämpar vi dessutom bildtillbild translation mellan de syntetiska och riktiga bilderna för att undersöka om denna sorts domänadaption förbättrar prestandan. Resultaten visar att tillägg av syntetiskt data förbättrar prestandan i bildomänen och att förträning med en större mängd syntetiskt data resulterar i ytterligare prestandaförbättringar, men att prestandaförbättringen när mer riktigt data läggs till är större i jämförelse. Vi kan inte dra slutsatsen att domänadaption med CycleGAN leder till förbättrad prestanda.

Page generated in 0.2361 seconds