Global ETD Search

31	A Composite Field-Based Learning Framework for Pose Estimation and Object Detection : Exploring Scale Variation Adaptations in Composite Field-Based Pose Estimation and Extending the Framework for Object Detection / En sammansatt fältbaserad inlärningsramverk för posuppskattning och objektdetektering : Utforskning av skalvariationsanpassningar i sammansatt fältbaserad posuppskattning och utvidgning av ramverket för objektdetektering Guo, Jianting January 2024 (has links) This thesis aims to address the concurrent challenges of multi-person 2D pose estimation and object detection within a unified bottom-up framework. Our foundational solutions encompass a recently proposed pose estimation framework named OpenPifPaf, grounded in composite fields. OpenPifPaf employs the Composite Intensity Field (CIF) for precise joint localization and the Composite Association Field (CAF) for seamless joint connectivity. To assess the model’s robustness against scale variances, a Feature Pyramid Network (FPN) is incorporated into the baseline. Additionally, we present a variant of OpenPifPaf known as CifDet. CifDet utilizes the Composite Intensity Field to classify and detect object centers, subsequently regressing bounding boxes from these identified centers. Furthermore, we introduce an extended version of CifDet specifically tailored for enhanced object detection capabilities—CifCafDet. This augmented framework is designed to more effectively tackle the challenges inherent in object detection tasks. The baseline OpenPifPaf model outperforms most existing bottom-up pose estimation methods and achieves comparable results with some state-of-the-art top-down methods on the COCO keypoint dataset. Its variant, CifDet, adapts the OpenPifPaf’s composite field-based architecture for object detection tasks. Further modifications result in CifCafDet, which demonstrates enhanced performance on the MS COCO detection dataset over CifDet, suggesting its viability as a multi-task framework. / Denna avhandling syftar till att ta itu med de samtidiga utmaningarna med flerpersons 2D-posestimering och objektdetektion inom en enhetlig bottom-up-ram. Våra grundläggande lösningar omfattar ett nyligen föreslaget ramverk för posestimering med namnet OpenPifPaf, som grundar sig i kompositfält. OpenPifPaf använder Composite Intensity Field (CIF) för exakt leddlokalisering och Composite Association Field (CAF) för sömlös ledanslutning. För att bedöma modellens robusthet mot skalvariationer införlivas ett Feature Pyramid Network (FPN) i baslinjen. Dessutom presenterar vi en variant av OpenPifPaf känd som CifDet. CifDet använder Composite Intensity Field för att klassificera och detektera objektcentrum, för att sedan regrediera inramningslådor från dessa identifierade centrum. Vidare introducerar vi en utökad version av CifDet som är speciellt anpassad för förbättrade objektdetekteringsförmågor—CifCafDet. Detta förstärkta ramverk är utformat för att mer effektivt ta itu med de utmaningar som är inneboende i objektdetekteringsuppgifter. Basmodellen OpenPifPaf överträffar de flesta befintliga bottom-up-metoder för posestimering och uppnår jämförbara resultat med vissa toppmoderna top-down-metoder på COCO-keypoint-datasetet. Dess variant, CifDet, anpassar OpenPifPafs kompositfältbaserade arkitektur för objekt-detekteringsuppgifter. Ytterligare modifieringar resulterar i CifCafDet, som visar förbättrad prestanda på MS COCO-detektionsdatasetet över CifDet, vilket antyder dess livskraft som ett ramverk för flera uppgifter. Composite fields Pose Estimation Object Detection Computer Vision Deep Learning Sammansatta fält Pose uppskattning Objektdetektering Datorseende Djupinlärning Computer and Information Sciences Data- och informationsvetenskap
32	Objektdetektering av trafikskyltar på inbyggda system med djupinlärning / Object detection of traffic signs on embedded systems using deep learning Wikström, Pontus, Hotakainen, Johan January 2023 (has links) In recent years, AI has developed significantly and become more popular than ever before. The applications of AI are expanding, making knowledge about its application and the systems it can be applied to more important. This project compares and evaluates deep learning models for object detection of traffic signs on the embedded systems Nvidia Jetson Nano and Raspberry Pi 3 Model B. The project compares and evaluates the models YOLOv5, SSD Mobilenet V1, FOMO, and Efficientdet-lite0. The project evaluates the performance of these models on the aforementioned embedded systems, measuring metrics such as CPU usage, FPS and RAM. Deep learning models are resource-intensive, and embedded systems have limited resources. Embedded systems often have different types of processor architectures than regular computers, which means that some frameworks and libraries may not be compatible. The results show that the tested systems are capable of object detection but with varying performance. Jetson Nano performs at a level we consider sufficiently high for use in production depending on the specific requirements. Raspberry Pi 3 performs at a level that may not be acceptable for real-time recognition of traffic signs. We see the greatest potential for Efficientdet-lite0 and YOLOv5 in recognizing traffic signs. The distance at which the models detect signs seems to be important for how many signs they find. For this reason, SSD MobileNet V1 is not recommended without further trai-ning despite its superior speed. YOLOv5 stood out as the model that detected signs at the longest distance and made the most detections overall. When considering all the results, we believe that Efficientdet-lite0 is the model that performs the best. / Under de senaste åren har AI utvecklats mycket och blivit mer populärt än någonsin. Tillämpningsområdena för AI ökar och därmed blir kunskap om hur det kan tillämpas och på vilka system viktigare. I det här projektet jämförs och utvärderas djupinlärningsmodeller för objektdetektering av trafikskyltar på de inbyggda systemen Nvidia Jetson Nano och Raspberry Pi 3 Model B. Modellerna som jämförs och utvärderas är YOLOv5, SSD Mobilenet V1, FOMO och Efficientdet-lite0. För varje modell mäts blandannat CPU-användning, FPS och RAM. Modeller för djupinlärning är resurskrävande och inbyggda system har begränsat med resurser. Inbyggda system har ofta andra typer av processorarkitekturer än en vanlig dator vilket gör att olika ramverk och andra bibliotek inte är kompatibla. Resultaten visar att de testade systemen klarar av objektdetektering med varierande prestation. Jetson Nano presterar på en nivå vi anser vara tillräckligt hög för användning i produktion beroende på hur hårda krav som ställs. Raspberry Pi 3 presterar på en nivå som möjligtvis inte är acceptabel för igenkänning av trafikskyltar i realtid. Vi ser störst potential för Efficientdet-lite0 och YOLOv5 för igenkänning av trafikskyltar. Hur långt avstånd modellerna upptäcker skyltar på verkar vara viktigt för hur många skyltar de hittar. Av den anledningen är SSD MobileNet V1 inte att rekommendera utan vidare träning trots sin överlägsna hastighet. YOLOv5 utmärkte sig som den som upptäckte skyltar på längst avstånd och som gjorde flest upptäckter totalt. När alla resultat vägs in anser vi dock att Efficientdet-lite0 är den modell som presterar bäst. Deep learning Edge device Machine learning Nvidia Jetson Nano Objectdetection Raspberry Pi 3 Traffic sign recognition Djupinlärning Inbyggda system Maskininlärning Nvidia Jetson Nano Objektdetektering Raspberry Pi 3 Trafikskyltsigenkänning Computer Sciences Datavetenskap (datalogi)
33	Utveckling av stöd för synskadade med hjälp av AI och datorseende : Designprinciper för icke-visuella gränssnitt Schill, William, Berngarn, Philip January 2022 (has links) Denna studie ämnar att undersöka och identifiera lämpliga designprinciper för interaktiva system med icke-visuella gränssnitt. Genom att utveckla och ta fram ett hjälpmedel för synskadade människor med hjälp av AI och datorseende, är det möjligt att identifiera och utvärdera viktiga designprinciper. Teorier har samlats in kring interaktiva system, designprinciper, AI och datorseende för att både kunna utveckla en artefakt men också förstå befintliga designprinciper för interaktiva system. Design Science Research Methodology har använts som metod för att utveckla en artefakt i form av ett hjälpmedel som känner av olika objekt i realtid. Metoden har genom en iterativ process kunnat identifiera och utvärdera olika krav för artefakten som sedan resulterat i ett designförslag. För att identifiera kraven har kvalitativ data i form av semistrukturerade användarintervjuer samlats in från fem personer med en synskada. Avslutningsvis presenteras kopplingen mellan de krav som framkommit under intervjuerna och befintliga designprinciper för interaktiva system med grafiska användargränssnitt. Ett förslag på vidare forskning inom ämnet diskuteras också. / This study aims to examine and identify appropriate design principles for interactive systems without visual interfaces. By developing an aid for the visually impaired with the help of AI and computer vision, it is possible to identify and evaluate important design principles. Theories within interactive systems, design principles, AI and computer vision have been collected in order to develop an artifact and to understand existing design principles. Design Science Research Methodology has been used to develop an aid that can detect objects in real-time. The method has been able to identify and evaluate different requirements for the artifact through an iterative process that results in a design proposal. In order to identify the requirements, qualitative data was collected from five people with visual impairment by conducting semi-structured interviews. Finally, the connection between the requirements identified from the interviews, and the existing design principles for interactive systems with graphical user interfaces is presented. A proposal for further research within the area is also discussed. Design principles interactive systems nonvisual interfaces artificial intelligence AI computer vision object detection visual impairment aid Designprinciper interaktiva system icke-visuella gränssnitt artificiell intelligens AI datorseende objektdetektering synskada hjälpmedel Information Systems
34	Proposal networks in object detection / Förslagsnätverk för objektdetektering Grossman, Mikael January 2019 (has links) Locating and extracting useful data from images is a task that has been revolutionized in the last decade as computing power has risen to such a level to use deep neural networks with success. A type of neural network that uses the convolutional operation called convolutional neural network (CNN) is suited for image related tasks. Using the convolution operation creates opportunities for the network to learn their own ﬁlters, that previously had to be hand engineered. For locating objects in an image the state-of-the-art Faster R-CNN model predicts objects in two parts. Firstly, the region proposal network (RPN) extracts regions from the picture where it is likely to ﬁnd an object. Secondly, a detector veriﬁes the likelihood of an object being in that region.For this thesis, we review the current literature on artiﬁcial neural networks, object detection methods, proposal methods and present our new way of generating proposals. By replacing the RPN with our network, the multiscale proposal network (MPN), we increase the average precision (AP) with 12% and reduce the computation time per image by 10%. / Lokalisering av användbar data från bilder är något som har revolutionerats under det senaste decenniet när datorkraften har ökat till en nivå då man kan använda artiﬁciella neurala nätverk i praktiken. En typ av ett neuralt nätverk som använder faltning passar utmärkt till bilder eftersom det ger möjlighet för nätverket att skapa sina egna ﬁlter som tidigare skapades för hand. För lokalisering av objekt i bilder används huvudsakligen Faster R-CNN arkitekturen. Den fungerar i två steg, först skapar RPN boxar som innehåller regioner där nätverket tror det är störst sannolikhet att hitta ett objekt. Sedan är det en detektor som veriﬁerar om boxen är på ett objekt .I denna uppsats går vi igenom den nuvarande litteraturen i artiﬁciella neurala nätverk, objektdektektering, förslags metoder och presenterar ett nytt förslag att generera förslag på regioner. Vi visar att genom att byta ut RPN med vår metod (MPN) ökar vi precisionen med 12% och reducerar tiden med 10%. Deep learning Machine learning Computer vision Applied mathematics Statistics Artiﬁcial Neural Networks Object detection Faster R-CNN RPN Proposal Network Maskininlärning Neurala nätverk Objektdetektering Tillämpad matematik Matematisk statistik RPN Förslags nätverk Probability Theory and Statistics Sannolikhetsteori och statistik
35	CenterPoint-based 3D Object Detection in ONCE Dataset Du, Yuwei January 2022 (has links) High-efficiency point cloud 3D object detection is important for autonomous driving. 3D object detection based on point cloud data is naturally more complex and difficult than the 2D task based on images. Researchers keep working on improving 3D object detection performance in autonomous driving scenarios recently. In this report, we present our optimized point cloud 3D object detection model based on CenterPoint method. CenterPoint detects centers of objects using a keypoint detector on top of a voxel-based backbone, then regresses to other attributes. On the basis of this, our modified model is featured with an improved Region Proposal Network (RPN) with extended receptive field, an added sub-head that produces an IoU-aware confidence score, as well as box ensemble inference strategies with more accurate predictions. These model enhancements, together with class-balanced data pre-processing, lead to a competitive accuracy of 72.02 mAP on ONCE Validation Split, and 79.09 mAP on ONCE Test Split. Our model gains the fifth place of ICCV 2021 Workshop SSLAD Track 3D Object Detection Challenge. / Högeffektiv punktmoln 3D-objektdetektering är viktig för autonom körning. 3D-objektdetektering baserad på punktmolnsdata är naturligtvis mer komplex och svårare än 2D-uppgiften baserad på bilder. Forskare fortsätter att arbeta med att förbättra 3D-objektdetekteringsprestandan i scenarier för autonom körning nyligen. I den här rapporten presenterar vi vår optimerade 3D-objektdetekteringsmodell baserad på CenterPoint. CenterPoint upptäcker objektcentrum med hjälp av en nyckelpunktsdetektor ovanpå en voxelbaserad ryggrad och går sedan tillbaka till andra attribut. På grundval av detta presenteras vår modifierade modell med ett förbättrat regionförslagsnätverk med utökat receptivt fält, en extra underrubrik som producerar en IoU-medveten konfidenspoäng och ensemblestrategier med mer exakta förutsägelser. Dessa modellförbättringar, tillsammans med klassbalanserad dataförbehandling, leder till en konkurrenskraftig noggrannhet på 72,02 mAP på ONCE Validation Split och 79,09 mAP på ONCE Test Split. Vår modell vinner femteplatsen i ICCV 2021 Workshop SSLAD Track 3D Object Detection Challenge. 3D Object Detection Keypoint Detector Class Balance Self-Calibrated Convolution IoU-aware Detector Box Ensembles 3D-Objektdetektering Nyckelpunktsdetektor Klassbalans Självkalibrerad Faltning IoU-medveten Detektor Boxensembler Elektroteknik och elektronik
36	Performance Evaluation of Serverless Edge Computing for AI Applications : Implementation, evaluation and modeling of an object-detection application running on a serverless architecture implemented with Kubernetes / Prestandautvärdering av Serverless Edge Computing för AI-applikationer : Implementering, utvärdering och modellering av en objektdetekteringsapplikation som körs på en serverlös arkitektur implementerad med Kubernetes Wang, Zihan January 2022 (has links) Serverless edge computing is a distributed network and computing system in which the data is processed at the edge of the network based on serverless architecture. It can provide large-scale computing and storage resources with low latency, which are very useful in AI applications such as object detection. However, when analyzing serverless computing architectures, we model them using simple models, such as single server or multi-server queues, and it is important to make sure these models can explain the behaviors of real systems. Therefore, we focus on the performance evaluation of serverless edge computing for AI applications in this project. With that, we aim at proposing more realistic and accurate models for real serverless architectures. In this project, our objective is to evaluate the performance and model mathematically an object-detection application running on a serverless architecture implemented with Kubernetes. This project provides a detailed description of the implementation of the serverless platform and YOLOv5-based object detection application. After implementation, we design experiments and make performance evaluations of the time of object detection results and quality of object detection results. Finally, we conclude that the number of users in the system significantly affects the service time. We observe that there is no queue in the system, so we cannot just use mathematical models with a queue to model the system. Therefore, we consider that the processor sharing model is more appropriate for modeling this serverless architecture. This is very helpful for giving insights on how to make more realistic and accurate mathematical queueing models for serverless architectures. For future work, other researchers can also implement our serverless platform and do further development, such as deploying other serverless applications on it and making performance evaluations. They can also design other use-cases for the experiments and make further analyses on queue modeling of serverless architecture based on this project. / Serverless edge computing är ett distribuerat nätverk och datorsystem där data bearbetas i kanten av nätverket baserat på serverlös arkitektur. Det kan tillhandahålla storskaliga dator- och lagringsresurser med låg latens, vilket är mycket användbart i AI-applikationer som objektdetektering. Men när vi analyserar serverlösa datorarkitekturer modellerar vi dem med hjälp av enkla modeller, till exempel enstaka servrar eller köer med flera servrar, och det är viktigt att se till att dessa modeller kan förklara beteendet hos verkliga system. Därför fokuserar vi på prestandautvärdering av serverlös edge computing för AI-applikationer i detta projekt. Med det siktar vi på att föreslå mer realistiska och exakta modeller för riktiga serverlösa arkitekturer. I detta projekt är vårt mål att utvärdera prestandan och matematiskt modellera en objektdetekteringsapplikation som körs på en serverlös arkitektur implementerad med Kubernetes. Detta projekt ger en detaljerad beskrivning av implementeringen av den serverlösa plattformen och den YOLOv5-baserade objektdetekteringsapplikationen. Efter implementering designar vi experiment och gör prestandautvärderingar av tidpunkten för objektdetekteringsresultat och kvaliteten på objektdetekteringsresultaten. Slutligen drar vi slutsatsen att antalet användare i systemet avsevärt påverkar servicetiden. Vi observerar att det inte finns någon kö i systemet, så vi kan inte bara använda matematiska modeller med en kö för att modellera systemet. Därför anser vi att processordelningsmodellen är mer lämplig för att modellera denna serverlösa arkitektur. Detta är mycket användbart för att ge insikter om hur man gör mer realistiska och exakta matematiska kömodeller för serverlösa arkitekturer. För framtida arbete kan andra forskare också implementera vår serverlösa plattform och göra vidareutveckling, såsom att distribuera andra serverlösa applikationer på den och göra prestandautvärderingar. De kan även designa andra användningsfall för experimenten och göra ytterligare analyser av kömodellering av serverlös arkitektur utifrån detta projekt. Edge computing Serverless architecture Artificial Intelligence Object detection Docker Kubernetes Queueing theory Edge computing Serverlös arkitektur Artificiell Intelligens Objektdetektering Docker Kubernetes Queuing theory Elektroteknik och elektronik
37	Object detection for autonomous trash and litter collection / Objektdetektering för autonom skräpupplockning Edström, Simon January 2022 (has links) Trashandlitter discarded on the street is a large environmental issue in Sweden and across the globe. In Swedish cities alone it is estimated that 1.8 billion articles of trash are thrown to the street each year, constituting around 3 kilotons of waste. One avenue to combat this societal and environmental problem is to use robotics and AI. A robot could learn to detect trash in the wild and collect it in order to clean the environment. A key component of such a robot would be its computer vision system which allows it to detect litter and trash. Such systems are not trivially designed or implemented and have only recently reached high enough performance in order to work in industrial contexts. This master thesis focuses on creating and analysing such an algorithm by gathering data for use in a machine learning model, developing an object detection pipeline and evaluating the performance of that pipeline based on varying its components. Specifically, methods using hyperparameter optimisation, psuedolabeling and the preprocessing methods tiling and illumination normalisation were implemented and analysed. This thesis shows that it is possible to create an object detection algorithm with high performance using currently available state-of-the-art methods. Within the analysed context, hyperparameter optimisation did not significantly improve performance and psuedolabeling could only briefly be analysed but showed promising results. Tiling greatly increased mean average precision (mAP) for the detection of small objects, such as cigarette butts, but decreased the mAP for large objects and illumination normalisation improved mAPforimagesthat were brightly lit. Both preprocessing methods reduced the frames per second that a full detector could run at whilst psuedolabeling and hyperparameter optimisation greatly increased training times. / Skräp som slängs på marken har en stor miljöpåverkan i Sverige och runtom i världen. Enbart i Svenska städer uppskattas det att 1,8 miljarder bitar skräp slängs på gatan varje år, bestående av cirka 3 kiloton avfall. Ett sätt att lösa detta samhälleliga och miljömässiga problem är att använda robotik och AI. En robot skulle kunna lära siga att detektera skräp i utomhusmiljöer och samla in den för att på så sätt rengöra våra städer och vår natur. En nyckelkomponent av en sådan robot skulle vara dess system för datorseende som tillåter den att se och hitta skräp. Sådana system är inte triviala att designa eller implementera och har bara nyligen påvisat tillräckligt hög prestanda för att kunna användas i kommersiella sammanhang. Detta masterexamensarbete fokuserar på att skapa och analysera en sådan algoritm genom att insamla data för att använda i en maskininlärningsmodell, utveckla en objektdetekterings pipeline och utvärdera prestandan när dess komponenter modifieras. Specifikt analyseras metoderna pseudomarkering, hyperparameter optimering samt förprocesseringsmetoderna kakling och ljusintensitetsnormalisering. Examensarbetet visar att det är möjligt att skapa en objektdetekteringsalgoritm med hög prestanda med hjälp av den senaste tekniken på området. Inom det undersökta sammanhanget gav hyperparameter optimering inte någon större förbättring av prestandan och pseudomarkering kunde enbart ytligt analyseras men uppvisade preliminärt lovande resultat. Kakling förbättrade resultatet för detektering av små objekt, som cigarettfimpar, men minskade prestandan för större objekt och ljusintensitetsnormalisering förbättrade prestandan för bilder som var starkt belysta. Båda förprocesseringsmetoderna minskade bildhastigheten som en detektor skulle kunna köra i och psuedomarkering samt hyperparameter optimering ökade träningstiden kraftigt. Object detection Trash detection Machine learning Pipeline Artifical neural networks Deeplearning Dataset Preprocessing Augmentation Psuedolabel Tiling Objektdetektering Skräpigenkänning Maskininlärning Pipeline Artificiella neurala nätverk Djupinlärning Dataset Förprocessering Augmentation Psuedomarkering Kakling Computer and Information Sciences Data- och informationsvetenskap
38	Analyzing different approaches to Visual SLAM in dynamic environments : A comparative study with focus on strengths and weaknesses / Analys av olika metoder för Visual SLAM i dynamisk miljö : En jämförande studie med fokus på styrkor och svagheter Ólafsdóttir, Kristín Sól January 2023 (has links) Simultaneous Localization and Mapping (SLAM) is the crucial ability for many autonomous systems to operate in unknown environments. In recent years SLAM development has focused on achieving robustness regarding the challenges the field still faces e.g. dynamic environments. During this thesis work different existing approaches to tackle dynamics with Visual SLAM systems were analyzed by surveying the recent literature within the field. The goal was to define the advantages and drawbacks of the approaches to provide further insight into the field of dynamic SLAM. Furthermore, two methods of different approaches were chosen for experiments and their implementation was documented. Key conclusions from the literature survey and experiments are the following. The exclusion of dynamic objects with regard to camera pose estimation presents promising results. Tracking of dynamic objects provides valuable information when combining SLAM with other tasks e.g. path planning. Moreover, dynamic reconstruction with SLAM offers better scene understanding and analysis of objects’ behavior within an environment. Many solutions rely on pre-processing and heavy hardware requirements due to the nature of the object detection methods. Methods of motion confirmation of objects lack consideration of camera movement, resulting in static objects being excluded from feature extraction. Considerations for future work within the field include accounting for camera movement for motion confirmation and producing available benchmarks that offer evaluation of the SLAM result as well as the dynamic object detection i.e. ground truth for both camera and objects within the scene. / Simultaneous Localization and Mapping (SLAM) är för många autonoma system avgörande för deras förmåga att kunna verka i tidigare outforskade miljöer. Under de senaste åren har SLAM-utvecklingen fokuserat på att uppnå robusthet när det gäller de utmaningar som fältet fortfarande står inför, t.ex. dynamiska miljöer. I detta examensarbete analyserades befintliga metoder för att hantera dynamik med visuella SLAM-system genom att kartlägga den senaste litteraturen inom området. Målet var att definiera för- och nackdelar hos de olika tillvägagångssätten för att bidra med insikter till området dynamisk SLAM. Dessutom valdes två metoder från olika tillvägagångssätt ut för experiment och deras implementering dokumenterades. De viktigaste slutsatserna från litteraturstudien och experimenten är följande. Uteslutningen av dynamiska objekt vid uppskattning av kamerans position ger lovande resultat. Spårning av dynamiska objekt ger värdefull information när SLAM kombineras med andra uppgifter, t.ex. path planning. Dessutom ger dynamisk rekonstruktion med SLAM bättre förståelse om omgivningen och analys av objekts beteende i den kringliggande miljön. Många lösningar är beroende av förbehandling samt ställer höga hårdvarumässiga krav till följd av objektdetekteringsmetodernas natur. Metoder för rörelsebekräftelse av objekt tar inte hänsyn till kamerarörelser, vilket leder till att statiska objekt utesluts från funktionsextraktion. Uppmaningar för framtida studier inom området inkluderar att ta hänsyn till kamerarörelser under rörelsebekräftelse samt att ta ändamålsenliga riktmärken för att möjliggöra tydligare utvärdering av SLAM-resultat såväl som för dynamisk objektdetektion, dvs. referensvärden för både kamerans position såväl som för objekt i scenen. Visual SLAM RGB-D Vision Dynamic Objects Object Detection Multi-Object Tracking Image Segmentation Optical Flow Visual SLAM RGB-D Syn Dynamiska objekt Objektdetektering Multi-Objekt Spårning Bildsegmentation Optiskt Flöde Robotics Robotteknik och automation Computer and Information Sciences Data- och informationsvetenskap
39	Operational data extraction using visual perception Shunmugam, Nagarajan January 2021 (has links) The information era has led the manufacturer of trucks and logistics solution providers are inclined towards software as a service (SAAS) based solutions. With advancements in software technologies like artificial intelligence and deep learning, the domain of computer vision has achieved significant performance boosts that it competes with hardware based solutions. Firstly, data is collected from a large number of sensors which can increase production costs and carbon footprint in the environment. Secondly certain useful physical quantities/variables are impossible to measure or turns out to be very expensive solution. So in this dissertation, we are investigating the feasibility of providing the similar solution using a single sensor (dashboard- camera) to measure multiple variables. This provides a sustainable solution even when scaled up in huge fleets. The video frames that can be collected from the visual perception of the truck (i.e. the on-board camera of the truck) is processed by the deep learning techniques and operational data can be extracted. Certain techniques like the image classification and semantic segmentation outputs were experimented and shows potential to replace costly hardware counterparts like Lidar or radar based solutions. / Informationstiden har lett till att tillverkare av lastbilar och logistiklösningsleve -rantörer är benägna mot mjukvara som en tjänst (SAAS) baserade lösningar. Med framsteg inom mjukvaruteknik som artificiell intelligens och djupinlärnin har domänen för datorsyn uppnått betydande prestationsförstärkningar att konkurrera med hårdvarubaserade lösningar. För det första samlas data in från ett stort antal sensorer som kan öka produktionskostnaderna och koldioxidavtry -cket i miljön. För det andra är vissa användbara fysiska kvantiteter / variabler omöjliga att mäta eller visar sig vara en mycket dyr lösning. Så i denna avhandling undersöker vi möjligheten att tillhandahålla liknande lösning med hjälp av en enda sensor (instrumentbrädkamera) för att mäta flera variabler. Detta ger en hållbar lösning även när den skalas upp i stora flottor. Videoramar som kan samlas in från truckens visuella uppfattning (dvs. lastbilens inbyggda kamera) bearbetas av djupinlärningsteknikerna och operativa data kan extraher -as. Vissa tekniker som bildklassificering och semantiska segmenteringsutgång -ar experimenterades och visar potential att ersätta dyra hårdvaruprojekt som Lidar eller radarbaserade lösningar. Visual perception camera convolutional neural networks classification object detection semantic segmentation depth estimation gradient descent with restarts cosine annealing. Visuell uppfattning kamera neurologiska nätverk klassificering objektdetektering semantisk segmentering djupberäkning gradientnedstigning med omstart cosinusglödgning. Computer and Information Sciences Data- och informationsvetenskap
40	Alternative Solution to Catastrophical Forgetting on FewShot Instance Segmentation Álvarez Fernández Del Vallado, Juan January 2021 (has links) Video instance segmentation is a rapidly-growing research area within the computer vision field. Models for segmentation require data already annotated, which can be a daunting task when starting from scratch. Although there are some publicly available datasets for image instance segmentation, they are limited to the application they target. This work proposes a new approach to training an instance segmentation model using transfer learning, notably reducing the need for annotated data. Transferring knowledge from domain A to domain B can result in catastrophical forgetting, leading to an algorithm unable to properly generalize and remember the previous knowledge acquired at the initial domain. This problem is studied and a solution is proposed based on data transformations applied precisely at the process of transferring knowledge to the target domain following the empirical research method and using publicly available video instance segmentation datasets as resources for the experiments. Conclusions show there is a relationship between the data transformations and ability to generalize both domains. / Segmentering av videointervjuer är ett snabbt växande forskningsområde inom datorseende. Modeller för segmentering kräver data som redan är annoterade, vilket kan vara en krävande uppgift när man börjar från början. Även om det finns några offentligt tillgängliga datamängder för bildinstanssegmentering är de begränsade till den tillämpning de är inriktade på. I detta arbete föreslås en ny metod för att träna en modell för instanssegmentering med hjälp av överföringsinlärning, vilket framför allt minskar behovet av annoterade data. Överföring av kunskap från domän A till domän B kan resultera i katastrofal glömska, vilket leder till att en algoritm inte kan generalisera och komma ihåg den tidigare kunskap som förvärvats i den ursprungliga domänen. Detta problem studeras och en lösning föreslås som bygger på datatransformationer som tillämpas just vid överföringen av kunskap till måldomänen enligt den empiriska forskningsmetoden och med hjälp av offentligt tillgängliga datamängder för segmentering av videointervjuer som resurser för experimenten. Slutsatserna visar att det finns ett samband mellan datatransformationer och förmågan att generalisera båda områdena. Machine learning big data transfer learning computer vision instance segmentation Maskininlärning stora datamängder datorseende instanssegmentering objektdetektering detectron2 Computer and Information Sciences Data- och informationsvetenskap

Search results