Spelling suggestions: "subject:"abject detection"" "subject:"6bject detection""
301 |
LiDAR Perception in a Virtual Environment Using Deep Learning : A comparative study of state-of-the-art 3D object detection models on synthetic data / LiDAR perception i en virtuell miljö med djupinlärning : En jämförelsestudie av state-of-the-art 3D objekt detekteringsmodeller på syntetisk dataSkoog, Samuel January 2023 (has links)
Perceiving the environment is a crucial aspect of autonomous vehicles. To plan the route, the autonomous vehicle needs to be able to detect objects such as cars and pedestrians. This is possible through 3D object detection. However, labeling this type of data is time-consuming. By utilizing a virtual environment, there is an opportunity to generate data and label it in a quicker manner. This thesis aims to investigate how well three selected state-of-the-art models perform on a synthetic dataset of point cloud data. The results showed that the models attain a higher average precision compared to a dataset from the real world. This is mainly due to the virtual environment’s simplicity in relation to the real world’s detail. The results also suggest that models using different representations of point cloud data have different capabilities of transferring knowledge to the real world. / Att uppfatta miljön är en avgörande aspekt av autonoma fordon. Till planera rutten behöver det autonoma fordonet kunna upptäcka föremål som bilar och fotgängare. Detta är möjligt genom 3D-objektdetektering. Att märka denna typ av data är dock tidskrävande. Genom att använda en virtuell miljö, finns det en möjlighet att generera data och märka dem på ett snabbare sätt sätt. Denna avhandling syftar till att undersöka hur väl tre valda state-of-the-art modeller utför på en syntetiskt dataset av punktmolndata. Resultaten visade att modellerna uppnår en average precision jämfört med ett dataset från den riktiga världen. Detta beror främst på den virtuella miljöns enkelhet i förhållande till den verkliga världens detaljer. Resultaten tyder också på att modeller som använder olika representationer av punktmolnsdata har olika möjligheter att överföra kunskap till den verkliga världen.
|
302 |
VL Tasks: Which Models Suit? : Investigate Different Models for Swedish Image-Text Relation Task / VL-uppgifter: Vilka modeller passar? : Undersök olika modeller för svensk bild-text relationsuppgiftGou, Meinan January 2022 (has links)
In common sense, modality measures the number of areas a model covers. Multi-modal or cross-modal models can handle two or more areas simultaneously. Some common cross-models include Vision-Language models, Speech-Language models, and Vision-Speech models. A Vision-Language (VL) model is a network architecture that can interpret both textual and visual inputs, which has always been challenging. Driven by the interest in exploring such an area, this thesis implements several VL models and investigates their performance on a specific VL task: The Image-Text Relation Task. Instead of using English as the context language, the thesis focuses on other languages where the available resources are less. Swedish is chosen as a case study and the results can be extended to other languages. The experiments show that the Transformer style architecture efficiently handles both textual and visual inputs, even trained with simple loss functions. The work suggests an innovative way for future development in cross-modal models, especially for VL tasks. / I vanlig mening är modalitet ett mått på hur många områden en modell täcker. Multimodala eller tvärmodala modeller kan hantera två eller flera områden samtidigt. Några vanliga tvärmodala modeller är vision-språk-modeller, tal-språk-modeller och vision-språk-modeller. En Vision-Language-modell (VL-modell) är en nätverksarkitektur som kan tolka både text- och visuell input samtidigt, vilket alltid har varit en utmaning. I denna avhandling, som drivs av intresset för att utforska ett sådant område, implementeras flera VL-modeller och deras prestanda undersöks på en specifik VL-uppgift: Uppgiften bild-text-relation. I stället för att använda engelska som kontextspråk fokuserar avhandlingen på andra språk där de tillgängliga resurserna är mindre. Svenskan har valts som fallstudie och resultaten kan utvidgas till andra språk. Experimenten visar att arkitekturen i Transformer-stilen effektivt hanterar både text- och visuella indata, även om den tränas med enkla förlustfunktioner. Arbetet föreslår en innovativ väg för framtida utveckling av intermodala modeller, särskilt för VL-uppgifter.
|
303 |
Federated Learning for edge computing : Real-Time Object DetectionMemia, Ardit January 2023 (has links)
In domains where data is sensitive or private, there is a great value in methods that can learn in a distributed manner without the data ever leaving the local devices. Federated Learning (FL) has recently emerged as a promising solution to collaborative machine learning challenges while maintaining data privacy. With FL, multiple entities, whether cross-device or cross-silo, can jointly train models without compromising the locality or privacy of their data. Instead of moving data to a central storage system or cloud for model training, code is moved to the data owners’ local sites, and incremental local updates are combined into a global model. In this way FL enhances data pri-vacy and reduces the probability of eavesdropping to a certain extent. In this thesis we have utilized the means of Federated Learning into a Real-Time Object Detection (RTOB) model in order to investigate its performance and privacy awareness towards a traditional centralized ML environment. Several object detection models have been built us-ing YOLO framework and training with a custom dataset for indoor object detection. Local tests have been performed and the most opti-mal model has been chosen by evaluating training and testing metrics and afterwards using NVIDIA Jetson Nano external device to train the model and integrate into a Federated Learning environment using an open-source FL framework. Experiments has been conducted through the path in order to choose the optimal YOLO model (YOLOv8) and the best fitted FL framework to our study (FEDn).We observed a gradual enhancement in balancing the APC factors (Accuracy-Privacy-Communication) as we transitioned from basic lo-cal models to the YOLOv8 implementation within the FEDn system, both locally and on the SSC Cloud production environment. Although we encountered technical challenges deploying the YOLOv8-FEDn system on the SSC Cloud, preventing it from reaching a finalized state, our preliminary findings indicate its potential as a robust foundation for FL applications in RTOB models at the edge.
|
304 |
Comparison and performance analysis of deep learning techniques for pedestrian detection in self-driving vehiclesBotta, Raahitya, Aditya, Aditya January 2023 (has links)
Background: Self-driving cars, also known as automated cars are a form of vehicle that can move without a driver or human involvement to control it. They employ numerous pieces of equipment to forecast the car’s navigation, and the car’s path is determined depending on the output of these devices. There are numerous methods available to anticipate the path of self-driving cars. Pedestrian detection is critical for autonomous cars to avoid fatalities and accidents caused by self-driving cars. Objectives: In this research, we focus on the algorithms in machine learning and deep learning to detect pedestrians on the roads. Also, to calculate the most accurate algorithm that can be used in pedestrian detection in automated cars by performing a literature review to select the algorithms. Methods: The methodologies we use are literature review and experimentation, literature review can help us to find efficient algorithms for pedestrian detection in terms of accuracy, computational complexity, etc. After performing the literature review we selected the most efficient algorithms for evaluation and comparison. The second methodology includes experimentation as it evaluates these algorithms under different conditions and scenarios. Through experimentation, we can monitor the different factors that affect the algorithms. Experimentation makes it possible for us to evaluate the algorithms using various metrics such as accuracy and loss which are mainly used to provide a quantitative measure of performance. Results: Based on the literature study, we focused on pedestrian detection deep learning models such as CNN, SSD, and RPN for this thesis project. After evaluating and comparing the algorithms using performance metrics, the outcomes of the experiments demonstrated that RPN was the highest and best-performing algorithm with 95.63% accuracy & loss of 0.0068 followed by SSD with 95.29% accuracy & loss of 0.0142 and CNN with 70.84% accuracy & loss of 0.0622. Conclusions: Among the three deep learning models evaluated for pedestrian identification, the CNN, RPN, and SSD, RPN is the most efficient model with the best performance based on the metrics assessed.
|
305 |
Determination of Biomass in Shrimp-Farm using Computer VisionTammineni, Gowtham Chowdary 30 October 2023 (has links)
The automation in the aquaculture is proving to be more and more effective these days.
The economic drain on the aquaculture farmers due to the high mortality of the shrimps can be reduced by ensuring the welfare of the animals. The health of shrimps can decline with even barest of changes in the conditions in the farm. This is the result of increase in stress. As shrimps are quite sensitive to the changes, even small changes can increase the stress in the animals which results in the decline of health. This severely dampens the mortality rate in the animals.
Also, human interference while feeding the shrimps severely induces the stress on the shrimps and thereby affecting the shrimp’s mortality. So, to ensure the optimum
efficiency of the farm, the feeding of the shrimps is made automated. The underfeeding and overfeeding also affects the growth of shrimps. To determine the right amount of food to provide for shrimps, Biomass is a very helpful parameter.
The use of artificial intelligence (AI) to calculate the farm's biomass is the project's primary area of interest. This model uses the cameras mounted on top of the tank at densely populated areas. These cameras monitor the farm, and our model detects the biomass. By doing so, it is possible to estimate how much food should be distributed at that particular area. Biomass of the shrimps can be calculated with the help of the number of shrimps and the average lengths of the shrimps detected. With the reduced human interference in calculating the biomass, the health of the animals improves and thereby making the process sustainable and economical.
|
306 |
A visual approach to web information extraction : Extracting information from e-commerce web pages using object detectionBrokking, Alexander January 2023 (has links)
Internets enorma omfattning har resulterat i ett överflöd av information som är oorganiserad och spridd över olika hemsidor. Det har varit motivationen för automatisk informationsextraktion av hemsidor sedan internets begynnelse. Nuvarande strategier använder främst heuristik och metoder för naturlig språkbehandling på HTML-koden för hemsidorna. Med tanke på att hemsidor utformas för att vara visuella och interaktiva för mänsklig användning utforskar denna studie potentialen för datorseendebaserade metoder för informationsextraktion från webben. I denna studie tränas och utvärderas state-of-the-art modeller för objektigenkänning i flera experiment på dataset av e-handelswebbplatser för att utvärdera modellernas potential. Resultaten indikerar att en förtränad Conditional DETR-arkitektur med en ResNet50 ryggrad kan finjusteras för att konsekvent identifiera måletiketter från nya domäner med ett mAP_50 >80%. Visuell extraktion på nya exempel inom kända domänstrukturer visade en ännu högre mAP_50 över 98%. Slutligen granskar denna studie den nuvarande litteraturen för dataset som kan användas inom visuell extraktion och belyser vikten av domänmångfald i träningsdata. Genom detta arbete ges initiala insikter i tillämpningen av datorseende inom informationsextraktion från webben, i hopp om att inspirera vidare forskning i denna riktning. / The vastness of the internet has resulted in an abundance of information that is unorganized and dispersed across numerous web pages. This has been the motivation for automatic web page extraction since the dawn of the internet era. Current strategies primarily employ heuristics and natural language processing methods to the HTML of web pages. However, considering the visual and interactive nature of web pages designed for human use, this thesis explores the potential of computer-vision-based approaches for web page extraction. In this thesis, state-of-the-art object detection models are trained and evaluated in several experiments on datasets of e-commerce websites to determine their viability. The results indicate that a pre-trained Conditional DETR architecture with a ResNet50 backbone can be fine-tuned to consistently identify target labels of new domains with an mAP_50 >80%. Visual extraction on new examples within known domain structures showed an even higher mAP_50 above 98%. Finally, this thesis surveys the state-of-the datasets that can be used for visual extraction and highlights the importance of domain diversity in the training data. Through this work, initial insights are offered into the application of computer vision in web page extraction, with the hope of inspiring further research in this direction.
|
307 |
Applicability of Detection Transformers in Resource-Constrained Environments : Investigating Detection Transformer Performance Under Computational Limitations and Scarcity of Annotated DataSenel, Altan January 2023 (has links)
Object detection is a fundamental task in computer vision, with significant applications in various domains. However, the reliance on large-scale annotated data and computational resource demands poses challenges in practical implementation. This thesis aims to address these complexities by exploring self-supervised training approaches for the detection transformer(DETR) family of object detectors. The project investigates the necessity of training the backbone under a semi-supervised setting and explores the benefits of initializing scene graph generation architectures with pretrained DETReg and DETR models for faster training convergence and reduced computational resource requirements. The significance of this research lies in the potential to mitigate the dependence on annotated data and make deep learning techniques more accessible to researchers and practitioners. By overcoming the limitations of data and computational resources, this thesis contributes to the accessibility of DETR and encourages a more sustainable and inclusive approach to deep learning research. / Objektigenkänning är en grundläggande uppgift inom datorseende, med betydande tillämpningar inom olika domäner. Dock skapar beroendet av storskaliga annoterade data och krav på datorkraft utmaningar i praktisk implementering. Denna avhandling syftar till att ta itu med dessa komplexiteter genom att utforska självövervakade utbildningsmetoder för detektions transformer (DETR) familjen av objektdetektorer. Projektet undersöker nödvändigheten av att träna ryggraden under en semi-övervakad inställning och utforskar fördelarna med att initiera scenegrafgenereringsarkitekturer med förtränade DETReg-modeller för snabbare konvergens av träning och minskade krav på datorkraft. Betydelsen av denna forskning ligger i potentialen att mildra beroendet av annoterade data och göra djupinlärningstekniker mer tillgängliga för forskare och utövare. Genom att övervinna begränsningarna av data och datorkraft, bidrar denna avhandling till tillgängligheten av DETR och uppmuntrar till en mer hållbar och inkluderande inställning till djupinlärning forskning.
|
308 |
Enhancing Object Detection in Infrared Videos through Temporal and Spatial InformationJinke, Shi January 2023 (has links)
Object detection is a prominent area of research within computer vision. While object detection based on infrared videos holds great practical significance, the majority of mainstream methods are primarily designed for visible datasets. This thesis investigates the enhancement of object detection accuracy on infrared datasets by leveraging temporal and spatial information. The Memory Enhanced Global-Local Aggregation (MEGA) framework is chosen as a baseline due to its capability to incorporate both forms of information. Based on the initial visualization result from the infrared dataset, CAMEL, the noisy characteristic of the infrared dataset is further explored. Through comprehensive experiments, the impact of temporal and spatial information is examined, revealing that spatial information holds a detrimental effect, while temporal information could be used to improve model performance. Moreover, an innovative Dual Frame Average Aggregation (DFAA) framework is introduced to address challenges related to object overlapping and appearance changes. This framework processes two global frames in parallel and in an organized manner, showing an improvement from the original configuration. / Objektdetektion är ett framträdande forskningsområde inom datorseende. Även om objektdetektering baserad på infraröda videor har stor praktisk betydelse, är majoriteten av vanliga metoder i första hand utformade för synliga datauppsättningar. Denna avhandling undersöker förbättringen av objektdetektionsnoggrannhet på infraröda datauppsättningar genom att utnyttja tids- och rumslig information. Memory Enhanced Global-Local Aggregation (MEGA)-ramverket väljs som baslinje på grund av dess förmåga att införliva båda formerna av information. Baserat på det initiala visualiseringsresultatet från den infraröda datamängden, CAMEL, utforskas den brusiga karaktäristiken för den infraröda datamängden ytterligare. Genom omfattande experiment undersöks effekten av tids- och rumslig information, vilket avslöjar att den rumsliga informationen har en skadlig effekt, medan tidsinformation kan användas för att förbättra modellens prestanda. Dessutom introduceras en innovativ Dual Frame Average Aggregation (DFAA) ramverk för att hantera utmaningar relaterade till objektöverlappning och utseendeförändringar. Detta ramverk bearbetar två globala ramar parallellt och på ett organiserat sätt, vilket visar en förbättring från den ursprungliga konfigurationen.
|
309 |
Using Machine Learning to Optimize Near-Earth Object Sighting Data at the Golden Ears ObservatoryMurphy, Laura January 2023 (has links)
This research project focuses on improving Near-Earth Object (NEO) detection using advanced machine learning techniques, particularly Vision Transformers (ViTs). The study addresses challenges such as noise, limited data, and class imbalance. The ViT model, initially designed for natural language tasks, has been adapted for image processing to effectively capture complex patterns and relationships in astronomical data. The methodology involved preparing a curated dataset of NEO images, resizing them to 128x128 pixels, and organizing them into triplet sequences. ViTs processed these sequences, leveraging self-attention and feed-forward neural networks (FFNNs) to distinguish NEOs from other objects as well as track the NEO’s trajectory. Multiple learning rates and batch sizes were tested, revealing the optimal combinations for stability and accuracy. The results revealed distinct behaviors associated with varying learning rates. Notably, the learning rate of 0.001 consistently demonstrated stable convergence in training and high accuracy in testing across different batch sizes. In contrast, a learning rate of 0.01 exhibited significant fluctuations in the loss function, indicating challenges in training stability. Conversely, a learning rate of 0.0001 showcased relatively low and consistent loss values during training. These insights highlight the potential of the ViT model for enhancing NEO detection by effectively capturing temporal and spatial patterns. Furthermore, the study emphasizes the significance of larger and more diverse datasets, addressing class imbalances, and enhancing model transparency for guiding future research. In summary, ViTs hold the potential to enhance NEO detection by shedding light on the dynamics of celestial objects and contributing to planetary defense initiatives. The knowledge gained from parameter exploration serves as valuable guidance for optimizing ViT models for NEO detection. Moreover, continuous advancements in NEO detection techniques pave the way for the discovery of previously unknown celestial entities. / Detta forskningsprojekt fokuserar på att förbättra detektering av Near-Earth Object (NEO) med hjälp av avancerad maskininlärningsteknik, särskilt Vision Transformers (ViTs). Studien tar upp utmaningar som buller, begränsad data och klassobalans. ViT-modellen, från början designad för naturliga språkuppgifter, har anpassats för bildbehandling för att effektivt fånga komplexa mönster och samband i astronomiska data. Metodiken innebar att förbereda en kurerad datauppsättning av NEO-bilder, ändra storlek på dem till 128x128 pixlar och organisera dem i triplettsekvenser. ViTs bearbetade dessa sekvenser, utnyttjade självuppmärksamhet och feedforward neurala nätverk (FFNNs) för att skilja NEOs från andra objekt samt spåra NEO’s bana. Flera inlärningshastigheter och batchstorlekar testades, vilket avslöjade de optimala kombinationerna för stabilitet och noggrannhet. Resultaten avslöjade distinkta beteenden associerade med varierande inlärningshastigheter. Noterbart visade inlärningshastigheten på 0,001 konsekvent stabil konvergens i träning och hög noggrannhet i testning över olika batchstorlekar. Däremot uppvisade en inlärningshastighet på 0,01 signifikanta fluktuationer i förlustfunktionen, vilket indikerar utmaningar i träningsstabilitet. Omvänt visade en inlärningshastighet på 0,0001 relativt låga och konsekventa förlustvärden under träning. Dessa insikter belyser potentialen hos ViT-modellen för att förbättra NEO-detektering genom att effektivt fånga tids- och rumsmönster. Dessutom betonar studien betydelsen av större och mer varierande datauppsättningar, tar itu med klassobalanser och förbättrar modelltransparensen för att vägleda framtida forskning.svis har ViTs potentialen att förbättra NEO-detektering genom att belysa dynamiken hos himmelska objekt och bidra till planetariska försvarsinitiativ. Kunskapen från parameterutforskning fungerar som värdefull vägledning för att optimera ViT-modeller för NEO-detektering. Dessutom banar kontinuerliga framsteg inom NEO-detektionstekniker vägen för upptäckten av tidigare okända himmelska entiteter.
|
310 |
Image-Guided Zero-Shot Object Detection in Video Games : Using Images as Prompts for Detection of Unseen 2D Icons / Bildstyrd Zero-Shot Objektdetektering i Datorspel : Användning av Bilder för att Diktera Detektion av Osedda 2D-ikonerLarsson, Axel January 2023 (has links)
Object detection deals with localization and classification of objects in images, where the task is to propose bounding boxes and predict their respective classes. Challenges in object detection include large-scale annotated datasets and re-training of models for specific tasks. Motivated by these problems, we propose a zero-shot object detection (ZSD) model in the setting of user interface icons in video games. Allowing to quickly and accurately analyze the state of a game, with potentially millions of people watching, would greatly benefit the large and fast-growing video game sector. Our resulting model is a modification of YOLOv8, which, at inference time, is prompted with the specific object to detect in an image. Many existing ZSD models exploit semantic embeddings and high-dimensional word vectors to generalize to novel classes. We hypothesize that using only visual representations is sufficient for the detection of unseen classes. To train and evaluate our model, we create synthetic data to reflect the nature of video game icons and in-game frames. Our method achieves similar performance as YOLOv8 on bounding box prediction and detection of seen classes while retaining the same average precision and recall for unseen classes, where the number of unseen classes is in the order of thousands. / Objektdetektering handlar om lokalisering och klassificering av objekt i bilder, där uppgiften är att föreslå omskrivande rektanglar och prediktera de respektive klasserna. Utmaningar i objektdetektering inkluderar storskaliga annoterade datamängder och omträning av modeller för specifika uppgifter. Motiverade av dessa problem föreslår vi en zero-shot-modell för objektdetektering riktat mot användargränssnittsikoner i datorspel. Att snabbt och precist kunna analysera tillståndet i ett spel, med potentiellt miljontals människor som tittar, skulle vara till stor nytta för den snabbväxande datorspelssektorn. Vår slutliga modell är en modifiering av YOLOv8, som vid inferens förses med det specifika objektet som ska upptäckas i en given bild. Många befintliga zero-shot-modeller inom objektdetektering utnyttjar semantiska inbäddningar och högdimensionella ordvektorer för att generalisera till nya klasser. Vi hypotiserar att det är tillräckligt att använda visuella representationer för att upptäcka osedda klasser. För att träna och utvärdera vår modell skapar vi syntetisk data för att återspegla spelbilder och ikoner från datorspel. Vår metod uppnår liknande prestanda som YOLOv8 på prediktion av omskrivande rektanglar och på sedda klasser där antalet klasser är lågt. Samtidigt upprätthåller vi samma positiva prediktionsvärde och sensitivitet för osedda klasser där antalet klasser uppgår till tusentals.
|
Page generated in 0.1042 seconds