Spelling suggestions: "subject:"[een] OBJECT DETECTION"" "subject:"[enn] OBJECT DETECTION""
261 |
Determination of Biomass in Shrimp-Farm using Computer VisionTammineni, Gowtham Chowdary 30 October 2023 (has links)
The automation in the aquaculture is proving to be more and more effective these days.
The economic drain on the aquaculture farmers due to the high mortality of the shrimps can be reduced by ensuring the welfare of the animals. The health of shrimps can decline with even barest of changes in the conditions in the farm. This is the result of increase in stress. As shrimps are quite sensitive to the changes, even small changes can increase the stress in the animals which results in the decline of health. This severely dampens the mortality rate in the animals.
Also, human interference while feeding the shrimps severely induces the stress on the shrimps and thereby affecting the shrimp’s mortality. So, to ensure the optimum
efficiency of the farm, the feeding of the shrimps is made automated. The underfeeding and overfeeding also affects the growth of shrimps. To determine the right amount of food to provide for shrimps, Biomass is a very helpful parameter.
The use of artificial intelligence (AI) to calculate the farm's biomass is the project's primary area of interest. This model uses the cameras mounted on top of the tank at densely populated areas. These cameras monitor the farm, and our model detects the biomass. By doing so, it is possible to estimate how much food should be distributed at that particular area. Biomass of the shrimps can be calculated with the help of the number of shrimps and the average lengths of the shrimps detected. With the reduced human interference in calculating the biomass, the health of the animals improves and thereby making the process sustainable and economical.
|
262 |
A visual approach to web information extraction : Extracting information from e-commerce web pages using object detectionBrokking, Alexander January 2023 (has links)
Internets enorma omfattning har resulterat i ett överflöd av information som är oorganiserad och spridd över olika hemsidor. Det har varit motivationen för automatisk informationsextraktion av hemsidor sedan internets begynnelse. Nuvarande strategier använder främst heuristik och metoder för naturlig språkbehandling på HTML-koden för hemsidorna. Med tanke på att hemsidor utformas för att vara visuella och interaktiva för mänsklig användning utforskar denna studie potentialen för datorseendebaserade metoder för informationsextraktion från webben. I denna studie tränas och utvärderas state-of-the-art modeller för objektigenkänning i flera experiment på dataset av e-handelswebbplatser för att utvärdera modellernas potential. Resultaten indikerar att en förtränad Conditional DETR-arkitektur med en ResNet50 ryggrad kan finjusteras för att konsekvent identifiera måletiketter från nya domäner med ett mAP_50 >80%. Visuell extraktion på nya exempel inom kända domänstrukturer visade en ännu högre mAP_50 över 98%. Slutligen granskar denna studie den nuvarande litteraturen för dataset som kan användas inom visuell extraktion och belyser vikten av domänmångfald i träningsdata. Genom detta arbete ges initiala insikter i tillämpningen av datorseende inom informationsextraktion från webben, i hopp om att inspirera vidare forskning i denna riktning. / The vastness of the internet has resulted in an abundance of information that is unorganized and dispersed across numerous web pages. This has been the motivation for automatic web page extraction since the dawn of the internet era. Current strategies primarily employ heuristics and natural language processing methods to the HTML of web pages. However, considering the visual and interactive nature of web pages designed for human use, this thesis explores the potential of computer-vision-based approaches for web page extraction. In this thesis, state-of-the-art object detection models are trained and evaluated in several experiments on datasets of e-commerce websites to determine their viability. The results indicate that a pre-trained Conditional DETR architecture with a ResNet50 backbone can be fine-tuned to consistently identify target labels of new domains with an mAP_50 >80%. Visual extraction on new examples within known domain structures showed an even higher mAP_50 above 98%. Finally, this thesis surveys the state-of-the datasets that can be used for visual extraction and highlights the importance of domain diversity in the training data. Through this work, initial insights are offered into the application of computer vision in web page extraction, with the hope of inspiring further research in this direction.
|
263 |
Applicability of Detection Transformers in Resource-Constrained Environments : Investigating Detection Transformer Performance Under Computational Limitations and Scarcity of Annotated DataSenel, Altan January 2023 (has links)
Object detection is a fundamental task in computer vision, with significant applications in various domains. However, the reliance on large-scale annotated data and computational resource demands poses challenges in practical implementation. This thesis aims to address these complexities by exploring self-supervised training approaches for the detection transformer(DETR) family of object detectors. The project investigates the necessity of training the backbone under a semi-supervised setting and explores the benefits of initializing scene graph generation architectures with pretrained DETReg and DETR models for faster training convergence and reduced computational resource requirements. The significance of this research lies in the potential to mitigate the dependence on annotated data and make deep learning techniques more accessible to researchers and practitioners. By overcoming the limitations of data and computational resources, this thesis contributes to the accessibility of DETR and encourages a more sustainable and inclusive approach to deep learning research. / Objektigenkänning är en grundläggande uppgift inom datorseende, med betydande tillämpningar inom olika domäner. Dock skapar beroendet av storskaliga annoterade data och krav på datorkraft utmaningar i praktisk implementering. Denna avhandling syftar till att ta itu med dessa komplexiteter genom att utforska självövervakade utbildningsmetoder för detektions transformer (DETR) familjen av objektdetektorer. Projektet undersöker nödvändigheten av att träna ryggraden under en semi-övervakad inställning och utforskar fördelarna med att initiera scenegrafgenereringsarkitekturer med förtränade DETReg-modeller för snabbare konvergens av träning och minskade krav på datorkraft. Betydelsen av denna forskning ligger i potentialen att mildra beroendet av annoterade data och göra djupinlärningstekniker mer tillgängliga för forskare och utövare. Genom att övervinna begränsningarna av data och datorkraft, bidrar denna avhandling till tillgängligheten av DETR och uppmuntrar till en mer hållbar och inkluderande inställning till djupinlärning forskning.
|
264 |
Using Machine Learning to Optimize Near-Earth Object Sighting Data at the Golden Ears ObservatoryMurphy, Laura January 2023 (has links)
This research project focuses on improving Near-Earth Object (NEO) detection using advanced machine learning techniques, particularly Vision Transformers (ViTs). The study addresses challenges such as noise, limited data, and class imbalance. The ViT model, initially designed for natural language tasks, has been adapted for image processing to effectively capture complex patterns and relationships in astronomical data. The methodology involved preparing a curated dataset of NEO images, resizing them to 128x128 pixels, and organizing them into triplet sequences. ViTs processed these sequences, leveraging self-attention and feed-forward neural networks (FFNNs) to distinguish NEOs from other objects as well as track the NEO’s trajectory. Multiple learning rates and batch sizes were tested, revealing the optimal combinations for stability and accuracy. The results revealed distinct behaviors associated with varying learning rates. Notably, the learning rate of 0.001 consistently demonstrated stable convergence in training and high accuracy in testing across different batch sizes. In contrast, a learning rate of 0.01 exhibited significant fluctuations in the loss function, indicating challenges in training stability. Conversely, a learning rate of 0.0001 showcased relatively low and consistent loss values during training. These insights highlight the potential of the ViT model for enhancing NEO detection by effectively capturing temporal and spatial patterns. Furthermore, the study emphasizes the significance of larger and more diverse datasets, addressing class imbalances, and enhancing model transparency for guiding future research. In summary, ViTs hold the potential to enhance NEO detection by shedding light on the dynamics of celestial objects and contributing to planetary defense initiatives. The knowledge gained from parameter exploration serves as valuable guidance for optimizing ViT models for NEO detection. Moreover, continuous advancements in NEO detection techniques pave the way for the discovery of previously unknown celestial entities. / Detta forskningsprojekt fokuserar på att förbättra detektering av Near-Earth Object (NEO) med hjälp av avancerad maskininlärningsteknik, särskilt Vision Transformers (ViTs). Studien tar upp utmaningar som buller, begränsad data och klassobalans. ViT-modellen, från början designad för naturliga språkuppgifter, har anpassats för bildbehandling för att effektivt fånga komplexa mönster och samband i astronomiska data. Metodiken innebar att förbereda en kurerad datauppsättning av NEO-bilder, ändra storlek på dem till 128x128 pixlar och organisera dem i triplettsekvenser. ViTs bearbetade dessa sekvenser, utnyttjade självuppmärksamhet och feedforward neurala nätverk (FFNNs) för att skilja NEOs från andra objekt samt spåra NEO’s bana. Flera inlärningshastigheter och batchstorlekar testades, vilket avslöjade de optimala kombinationerna för stabilitet och noggrannhet. Resultaten avslöjade distinkta beteenden associerade med varierande inlärningshastigheter. Noterbart visade inlärningshastigheten på 0,001 konsekvent stabil konvergens i träning och hög noggrannhet i testning över olika batchstorlekar. Däremot uppvisade en inlärningshastighet på 0,01 signifikanta fluktuationer i förlustfunktionen, vilket indikerar utmaningar i träningsstabilitet. Omvänt visade en inlärningshastighet på 0,0001 relativt låga och konsekventa förlustvärden under träning. Dessa insikter belyser potentialen hos ViT-modellen för att förbättra NEO-detektering genom att effektivt fånga tids- och rumsmönster. Dessutom betonar studien betydelsen av större och mer varierande datauppsättningar, tar itu med klassobalanser och förbättrar modelltransparensen för att vägleda framtida forskning.svis har ViTs potentialen att förbättra NEO-detektering genom att belysa dynamiken hos himmelska objekt och bidra till planetariska försvarsinitiativ. Kunskapen från parameterutforskning fungerar som värdefull vägledning för att optimera ViT-modeller för NEO-detektering. Dessutom banar kontinuerliga framsteg inom NEO-detektionstekniker vägen för upptäckten av tidigare okända himmelska entiteter.
|
265 |
Image-Guided Zero-Shot Object Detection in Video Games : Using Images as Prompts for Detection of Unseen 2D Icons / Bildstyrd Zero-Shot Objektdetektering i Datorspel : Användning av Bilder för att Diktera Detektion av Osedda 2D-ikonerLarsson, Axel January 2023 (has links)
Object detection deals with localization and classification of objects in images, where the task is to propose bounding boxes and predict their respective classes. Challenges in object detection include large-scale annotated datasets and re-training of models for specific tasks. Motivated by these problems, we propose a zero-shot object detection (ZSD) model in the setting of user interface icons in video games. Allowing to quickly and accurately analyze the state of a game, with potentially millions of people watching, would greatly benefit the large and fast-growing video game sector. Our resulting model is a modification of YOLOv8, which, at inference time, is prompted with the specific object to detect in an image. Many existing ZSD models exploit semantic embeddings and high-dimensional word vectors to generalize to novel classes. We hypothesize that using only visual representations is sufficient for the detection of unseen classes. To train and evaluate our model, we create synthetic data to reflect the nature of video game icons and in-game frames. Our method achieves similar performance as YOLOv8 on bounding box prediction and detection of seen classes while retaining the same average precision and recall for unseen classes, where the number of unseen classes is in the order of thousands. / Objektdetektering handlar om lokalisering och klassificering av objekt i bilder, där uppgiften är att föreslå omskrivande rektanglar och prediktera de respektive klasserna. Utmaningar i objektdetektering inkluderar storskaliga annoterade datamängder och omträning av modeller för specifika uppgifter. Motiverade av dessa problem föreslår vi en zero-shot-modell för objektdetektering riktat mot användargränssnittsikoner i datorspel. Att snabbt och precist kunna analysera tillståndet i ett spel, med potentiellt miljontals människor som tittar, skulle vara till stor nytta för den snabbväxande datorspelssektorn. Vår slutliga modell är en modifiering av YOLOv8, som vid inferens förses med det specifika objektet som ska upptäckas i en given bild. Många befintliga zero-shot-modeller inom objektdetektering utnyttjar semantiska inbäddningar och högdimensionella ordvektorer för att generalisera till nya klasser. Vi hypotiserar att det är tillräckligt att använda visuella representationer för att upptäcka osedda klasser. För att träna och utvärdera vår modell skapar vi syntetisk data för att återspegla spelbilder och ikoner från datorspel. Vår metod uppnår liknande prestanda som YOLOv8 på prediktion av omskrivande rektanglar och på sedda klasser där antalet klasser är lågt. Samtidigt upprätthåller vi samma positiva prediktionsvärde och sensitivitet för osedda klasser där antalet klasser uppgår till tusentals.
|
266 |
Cairn Detection in Southern Arabia Using a Supervised Automatic Detection Algorithm and Multiple Sample Data Spectroscopic ClusteringSchuetter, Jared Michael 25 August 2010 (has links)
No description available.
|
267 |
Importance sampling in deep learning : A broad investigation on importance sampling performanceJohansson, Mathias, Lindberg, Emma January 2022 (has links)
Available computing resources play a large part in enabling the training of modern deep neural networks to complete complex computer vision tasks. Improving the efficiency with which this computational power is utilized is highly important for enterprises to improve their networks rapidly. The first few training iterations over the data set often result in substantial gradients from seeing the samples and quick improvements in the network. At later stages, most of the training time is spent on samples that produce tiny gradient updates and are already properly handled. To make neural network training more efficient, researchers have used methods that give more attention to the samples that still produce relatively large gradient updates for the network. The methods used are called ''Importance Sampling''. When used, it reduces the variance in sampling and concentrates the training on the more informative examples. This thesis contributes to the studies on importance sampling by investigating its effectiveness in different contexts. In comparison to other studies, we more extensively examine image classification by exploring different network architectures over a wide range of parameter counts. Similar to earlier studies, we apply several ways of doing importance sampling across several datasets. While most previous research on importance sampling strategies applies it to image classification, our research aims at generalizing the results by applying it to object detection problems on top of image classification. Our research on image classification tasks conclusively suggests that importance sampling can speed up the training of deep neural networks. When performance in convergence is the vital metric, our importance sampling methods show mixed results. For the object detection tasks, preliminary experiments have been conducted. However, the findings lack enough data to demonstrate the effectiveness of importance sampling in object detection conclusively.
|
268 |
Assisted Annotation of Sequential Image Data With CNN and Pixel Tracking / Assisterande annotering av sekvensiell bilddata med CNN och pixelspårningChan, Jenny January 2021 (has links)
In this master thesis, different neural networks have investigated annotating objects in video streams with partially annotated data as input. Annotation in this thesis is referring to bounding boxes around the targeted objects. Two different methods have been used ROLO and GOTURN, object detection with tracking respective object tracking with pixels. The data set used for validation is surveillance footage consists of varying image resolution, image size and sequence length. Modifications of the original models have been executed to fit the test data. Promising results for modified GOTURN were shown, where the partially annotated data was used as assistance in tracking. The model is robust and provides sufficiently accurate object detections for practical use. With the new model, human resources for image annotation can be reduced by at least half. / I detta examensarbete har olika neurala nätverk undersökts för att annotera objekt i videoströmmar med partiellt annoterade data som indata. Annotering i denna uppsats syftar på avgränsninglådor runt de eftertraktade objekten. Två olika metoder har använts ROLO och GOTURN, objektdetektering med spårning respektive objektspårning av pixlar. Datasetet som användes för validering är videoströmmar från övervakningskameror i varierande bildupplösning, bildstorlek och sekvenslängd. Modifieringar av ursprungsmodellerna har utförts för att anpassa testdatat. Lovande resultat för modifierade GOTURN visades, där den partiella annoterade datan användes som assistans vid spårning. Modellen är robust och ger tillräckligt noggranna objektdetektioner för praktiskt bruk. Med den nya modellen kan mänskliga resurser för bild annotering reduceras med minst hälften.
|
269 |
Pedestrian Tracking by using Deep Neural Networks / Spårning av fotgängare med hjälp av Deep Neural NetworkPeng, Zeng January 2021 (has links)
This project aims at using deep learning to solve the pedestrian tracking problem for Autonomous driving usage. The research area is in the domain of computer vision and deep learning. Multi-Object Tracking (MOT) aims at tracking multiple targets simultaneously in a video data. The main application scenarios of MOT are security monitoring and autonomous driving. In these scenarios, we often need to track many targets at the same time which is not possible with only object detection or single object tracking algorithms for their lack of stability and usability. Therefore we need to explore the area of multiple object tracking. The proposed method breaks the MOT into different stages and utilizes the motion and appearance information of targets to track them in the video data. We used three different object detectors to detect the pedestrians in frames, a person re-identification model as appearance feature extractor and Kalman filter as motion predictor. Our proposed model achieves 47.6% MOT accuracy and 53.2% in IDF1 score while the results obtained by the model without person re-identification module is only 44.8% and 45.8% respectively. Our experiment results indicate the fact that a robust multiple object tracking algorithm can be achieved by splitted tasks and improved by the representative DNN based appearance features. / Detta projekt syftar till att använda djupinlärning för att lösa problemet med att följa fotgängare för autonom körning. For ligger inom datorseende och djupinlärning. Multi-Objekt-följning (MOT) syftar till att följa flera mål samtidigt i videodata. de viktigaste applikationsscenarierna för MOT är säkerhetsövervakning och autonom körning. I dessa scenarier behöver vi ofta följa många mål samtidigt, vilket inte är möjligt med endast objektdetektering eller algoritmer för enkel följning av objekt för deras bristande stabilitet och användbarhet, därför måste utforska området för multipel objektspårning. Vår metod bryter MOT i olika steg och använder rörelse- och utseendinformation för mål för att spåra dem i videodata, vi använde tre olika objektdetektorer för att upptäcka fotgängare i ramar en personidentifieringsmodell som utseendefunktionsavskiljare och Kalmanfilter som rörelsesprediktor. Vår föreslagna modell uppnår 47,6 % MOT-noggrannhet och 53,2 % i IDF1 medan resultaten som erhållits av modellen utan personåteridentifieringsmodul är endast 44,8%respektive 45,8 %. Våra experimentresultat visade att den robusta algoritmen för multipel objektspårning kan uppnås genom delade uppgifter och förbättras av de representativa DNN-baserade utseendefunktionerna.
|
270 |
Deep Learning for Dietary Assessment: A Study on YOLO Models and the Swedish Plate ModelChrintz-Gath, Gustav January 2024 (has links)
In recent years, the field of computer vision has seen remarkable advancements, particularly with the rise of deep learning techniques. Object detection, a challenging task in image analysis, has benefited from these developments. This thesis investigates the application of object detection models, specifically You Only Look Once (YOLO), in the context of food recognition and health assessment based on the Swedish plate model. The study aims to assess the effectiveness of YOLO models in predicting the healthiness of food compositions according to the guidelines provided by the Swedish plate model. The research utilizes a custom dataset comprising 3707 images with 42 different food classes. Various preprocessing- and augmentation techniques are applied to enhance dataset quality and model robustness. The performance of the three YOLO models (YOLOv7, YOLOv8, and YOLOv9) are evaluated using precision, recall, mean Average Precision (mAP), and F1 score metrics. Results indicate that YOLOv8 showed higher performance, making it the recommended choice for further implementation in dietary assessment and health promotion initiatives. The study contributes to the understanding of how deep learning models can be leveraged for food recognition and health assessment. Overall, this thesis underscores the potential of deep learning in advancing computational approaches to dietary assessment and promoting healthier eating habits.
|
Page generated in 0.0404 seconds