Spelling suggestions: "subject:"[een] SEMANTIC SEGMENTATION"" "subject:"[enn] SEMANTIC SEGMENTATION""
121 |
Instance Segmentation on depth images using Swin Transformer for improved accuracy on indoor images / Instans-segmentering på bilder med djupinformation för förbättrad prestanda på inomhusbilderHagberg, Alfred, Musse, Mustaf Abdullahi January 2022 (has links)
The Simultaneous Localisation And Mapping (SLAM) problem is an open fundamental problem in autonomous mobile robotics. One of the latest most researched techniques used to enhance the SLAM methods is instance segmentation. In this thesis, we implement an instance segmentation system using Swin Transformer combined with two of the state of the art methods of instance segmentation namely Cascade Mask RCNN and Mask RCNN. Instance segmentation is a technique that simultaneously solves the problem of object detection and semantic segmentation. We show that depth information enhances the average precision (AP) by approximately 7%. We also show that the Swin Transformer backbone model can work well with depth images. Our results also show that Cascade Mask RCNN outperforms Mask RCNN. However, the results are to be considered due to the small size of the NYU-depth v2 dataset. Most of the instance segmentation researches use the COCO dataset which has a hundred times more images than the NYU-depth v2 dataset but it does not have the depth information of the image.
|
122 |
Multispectral Remote Sensing and Deep Learning for Wildfire Detection / Multispektral fjärranalys och djupinlärning för upptäckt av skogsbränderHu, Xikun January 2021 (has links)
Remote sensing data has great potential for wildfire detection and monitoring with enhanced spatial resolution and temporal coverage. Earth Observation satellites have been employed to systematically monitor fire activity over large regions in two ways: (i) to detect the location of actively burning spots (during the fire event), and (ii) to map the spatial extent of the burned scars (during or after the event). Active fire detection plays an important role in wildfire early warning systems. The open-access of Sentinel-2 multispectral data at 20-m resolution offers an opportunity to evaluate its complementary role to the coarse indication in the hotspots provided by MODIS-like polar-orbiting and GOES-like geostationary systems. In addition, accurate and timely mapping of burned areas is needed for damage assessment. Recent advances in deep learning (DL) provides the researcher with automatic, accurate, and bias-free large-scale mapping options for burned area mapping using uni-temporal multispectral imagery. Therefore, the objective of this thesis is to evaluate multispectral remote sensing data (in particular Sentinel-2) for wildfire detection, including active fire detection using a multi-criteria approach and burned area detection using DL models. For active fire detection, a multi-criteria approach based on the reflectance of B4, B11, and B12 of Sentinel-2 MSI data is developed for several representative fire-prone biomes to extract unambiguous active fire pixels. The adaptive thresholds for each biome are statistically determined from 11 million Sentinel-2 observations samples acquired over summertime (June 2019 to September 2019) across 14 regions or countries. The primary criterion is derived from 3 sigma prediction interval of OLS regression of observation samples for each biome. More specific criteria based on B11 and B12 are further introduced to reduce the omission errors (OE) and commission errors (CE). The multi-criteria approach proves to be effective in cool smoldering fire detection in study areas with tropical & subtropical grasslands, savannas & shrublands using the primary criterion. At the same time, additional criteria that thresholds the reflectance of B11 and B12 can effectively decrease the CE caused by extremely bright flames around the hot cores in testing sites with Mediterranean forests, woodlands & scrub. The other criterion based on reflectance ratio between B12 and B11 also avoids the effects of CE caused by hot soil pixels in sites with tropical & subtropical moist broadleaf forests. Overall, the validation performance over testing patches reveals that CE and OE can be kept at a low level (0.14 and 0.04) as an acceptable trade-off. This multi-criteria algorithm is suitable for rapid active fire detection based on uni-temporal imagery without the requirement of multi-temporal data. Medium-resolution multispectral data can be used as a complementary choice to the coarse resolution images for their ability to detect small burning areas and to detect active fires more accurately. For burned area mapping, this thesis aims to expound on the capability of deep DL models for automatically mapping burned areas from uni-temporal multispectral imagery. Various burned area detection algorithms have been developed using Sentinel-2 and/or Landsat data, but most of the studies require a pre-fire image, dense time-series data, or an empirical threshold. In this thesis, several semantic segmentation network architectures, i.e., U-Net, HRNet, Fast- SCNN, and DeepLabv3+ are applied to Sentinel-2 imagery and Landsat-8 imagery over three testing sites in two local climate zones. In addition, three popular machine learning (ML) algorithms (LightGBM, KNN, and random forests) and NBR thresholding techniques (empirical and OTSU-based) are used in the same study areas for comparison. The validation results show that DL algorithms outperform the machine learning (ML) methods in two of the three cases with the compact burned scars, while ML methods seem to be more suitable for mapping dispersed scar in boreal forests. Using Sentinel-2 images, U-Net and HRNet exhibit comparatively identical performance with higher kappa (around 0.9) in one heterogeneous Mediterranean fire site in Greece; Fast-SCNN performs better than others with kappa over 0.79 in one compact boreal forest fire with various burn severity in Sweden. Furthermore, directly transferring the trained models to corresponding Landsat-8 data, HRNet dominates in the three test sites among DL models and can preserve the high accuracy. The results demonstrate that DL models can make full use of contextual information and capture spatial details in multiple scales from fire-sensitive spectral bands to map burned areas. With the uni-temporal image, DL-based methods have the potential to be used for the next Earth observation satellite with onboard data processing and limited storage for previous scenes. In the future study, DL models will be explored to detect active fire from multi-resolution remote sensing data. The existing problem of unbalanced labeled data can be resolved via advanced DL architecture, the suitable configuration on the training dataset, and improved loss function. To further explore the damage caused by wildfire, future work will focus on the burn severity assessment based on DL models through multi-class semantic segmentation. In addition, the translation between optical and SAR imagery based on Generative Adversarial Network (GAN) model could be explored to improve burned area mapping in different weather conditions. / Fjärranalysdata har stor potential för upptäckt och övervakning av skogsbränder med förbättrad rumslig upplösning och tidsmässig täckning. Jordobservationssatelliter har använts för att systematiskt övervaka brandaktivitet över stora regioner på två sätt: (i) för att upptäcka placeringen av aktivt brinnande fläckar (under brandhändelsen) och (ii) för att kartlägga den brända ärrens rumsliga omfattning ( under eller efter evenemanget). Aktiv branddetektering spelar en viktig roll i system för tidig varning för skogsbränder. Den öppna tillgången till Sentinel-2 multispektral data vid 20 m upplösning ger en möjlighet att utvärdera dess kompletterande roll i förhållande till den grova indikationen i hotspots som tillhandahålls av MODIS-liknande polaromloppsbanesystem och GOES-liknande geostationära system. Dessutom krävs en korrekt och snabb kartläggning av brända områden för skadebedömning. Senaste framstegen inom deep learning (DL) ger forskaren automatiska, exakta och förspänningsfria storskaliga kartläggningsalternativ för kartläggning av bränt område med unitemporal multispektral bild. Därför är syftet med denna avhandling att utvärdera multispektral fjärranalysdata (särskilt Sentinel- 2) för att upptäcka skogsbränder, inklusive aktiv branddetektering med hjälp av ett multikriterietillvägagångssätt och detektering av bränt område med DL-modeller. För aktiv branddetektering utvecklas en multikriteriemetod baserad på reflektionen av B4, B11 och B12 i Stentinel-2 MSI data för flera representativa brandbenägna biom för att få fram otvetydiga pixlar för aktiv brand. De adaptiva tröskelvärdena för varje biom bestäms statistiskt från 11 miljoner Sentinel-2 observationsprover som förvärvats under sommaren (juni 2019 till september 2019) i 14 regioner eller länder. Det primära kriteriet härleds från 3-sigma-prediktionsintervallet för OLS-regression av observationsprover för varje biom. Mer specifika kriterier baserade på B11 och B12 införs vidare för att minska utelämningsfel (OE) och kommissionsfel (CE). Det multikriteriella tillvägagångssättet visar sig vara effektivt när det gäller upptäckt av svala pyrande bränder i undersökningsområden med tropiska och subtropiska gräsmarker, savanner och buskmarker med hjälp av det primära kriteriet. Samtidigt kan ytterligare kriterier som tröskelvärden för reflektionen av B11 och B12 effektivt minska det fel som orsakas av extremt ljusa lågor runt de heta kärnorna i testområden med skogar, skogsmarker och buskage i Medelhavsområdet. Det andra kriteriet som bygger på förhållandet mellan B12 och B11:s reflektionsgrad undviker också effekterna av CE som orsakas av heta markpixlar i områden med tropiska och subtropiska fuktiga lövskogar. Sammantaget visar valideringsresultatet för testområden att CE och OE kan hållas på en låg nivå (0,14 och 0,04) som en godtagbar kompromiss. Algoritmen med flera kriterier lämpar sig för snabb aktiv branddetektering baserad på unika tidsmässiga bilder utan krav på tidsmässiga data. Multispektrala data med medelhög upplösning kan användas som ett kompletterande val till bilder med kursupplösning på grund av deras förmåga att upptäcka små brinnande områden och att upptäcka aktiva bränder mer exakt. När det gäller kartläggning av brända områden syftar denna avhandling till att förklara hur djupa DL-modeller kan användas för att automatiskt kartlägga brända områden från multispektrala bilder i ett tidsintervall. Olika algoritmer för upptäckt av brända områden har utvecklats med hjälp av Sentinel-2 och/eller Landsat-data, men de flesta av studierna kräver att man har en förebränning. bild före branden, täta tidsseriedata eller ett empiriskt tröskelvärde. I den här avhandlingen tillämpas flera arkitekturer för semantiska segmenteringsnätverk, dvs. U-Net, HRNet, Fast- SCNN och DeepLabv3+, på Sentinel- 2 bilder och Landsat-8 bilder över tre testplatser i två lokala klimatzoner. Dessutom används tre populära algoritmer för maskininlärning (ML) (Light- GBM, KNN och slumpmässiga skogar) och NBR-tröskelvärden (empiriska och OTSU-baserade) i samma undersökningsområden för jämförelse. Valideringsresultaten visar att DL-algoritmerna överträffar maskininlärningsmetoderna (ML) i två av de tre fallen med kompakta brända ärr, medan ML-metoderna verkar vara mer lämpliga för kartläggning av spridda ärr i boreala skogar. Med hjälp av Sentinel-2 bilder uppvisar U-Net och HRNet jämförelsevis identiska prestanda med högre kappa (omkring 0,9) i en heterogen brandplats i Medelhavet i Grekland; Fast-SCNN presterar bättre än andra med kappa över 0,79 i en kompakt boreal skogsbrand med varierande brännskadegrad i Sverige. Vid direkt överföring av de tränade modellerna till motsvarande Landsat-8-data dominerar HRNet dessutom på de tre testplatserna bland DL-modellerna och kan bevara den höga noggrannheten. Resultaten visade att DL-modeller kan utnyttja kontextuell information fullt ut och fånga rumsliga detaljer i flera skalor från brandkänsliga spektralband för att kartlägga brända områden. Med den unika tidsmässiga bilden har DL-baserade metoder potential att användas för nästa jordobservationssatellit med databehandling ombord och begränsad lagring av tidigare scener. I den framtida studien kommer DL-modeller att undersökas för att upptäcka aktiva bränder från fjärranalysdata med flera upplösningar. Det befintliga problemet med obalanserade märkta data kan lösas med hjälp av en avancerad DL-arkitektur, lämplig konfiguration av träningsdatasetet och förbättrad förlustfunktion. För att ytterligare utforska de skador som orsakas av skogsbränder kommer det framtida arbetet att fokusera på bedömningen av brännskadornas allvarlighetsgrad baserat på DL-modeller genom semantisk segmentering av flera klasser. Dessutom kan översättningen mellan optiska bilder och SAR-bilder baserad på en GAN-modell (Generative Adversarial Network) undersökas för att förbättra kartläggningen av brända områden under olika väderförhållanden. / <p>QC 20210525</p>
|
123 |
Toward Equine Gait Analysis : Semantic Segmentation and 3D ReconstructionHult, Evelina January 2023 (has links)
Harness racing horses are exposed to high workload and consequently, they are at risk of joint injuries and lameness. In recent years, the interest in applications to improve animal welfare has increased and there is a demand for objective assessment methods that can enable early and robust diagnosis of injuries. In this thesis, experiments were conducted on video recordings collected by a helmet camera mounted on the driver of a sulky. The aim was to take the first steps toward equine gait analysis by investigating how semantic segmentation and 3D reconstruction of such data could be performed. Since these were the first experiments made on this data, no expectations of the results existed in advance. Manual pixel-wise annotations were created on a small set of extracted frames and a deep learning model for semantic segmentation was trained to localize the horse, as well as the sulky and reins. The results are promising and could probably be further improved by expanding the annotated dataset and using a larger image resolution. Structure-from-motion using COLMAP was performed to estimate the camera motion in part of a video recording. A method to filter out dynamic objects based on masks created from predicted segmentation maps was investigated and the results showed that the reconstruction was part-wise successful, but struggled when dynamic objects were not filtered out and when the equipage was moving at high speed along a straight stretch. Overall the results are promising, but further development needs to be conducted to ensure robustness and conclude whether data collected by the investigated helmet camera configuration is suitable for equine gait analysis.
|
124 |
Skyline Delineation for Localization in Occluded Environments : Improved Skyline Delineation using Environmental Context from Deep Learning-based Semantic Segmentation / Horisont Avgränsning för Lokalisering i Occluded Miljöer : Förbättrad Horisont Avgränsning med hjälp av Miljökontext från Djupet Inlärningsbaserad Semantisk SegmenteringWilliam Coble, Kyle January 2023 (has links)
This thesis addresses the problem of improving the delineation of skylines, also referred to as skyline detection, in occluded and challenging environments where existing skyline delineation methods may struggle or fail. Delineated skylines can be used in monocular camera localization methods by comparing delineated skylines to digital elevation model data to estimate a position based on known terrain. This is particularly useful in GPS-denied environments in which active sensing is either impractical or undesirable for various reasons, so that passive sensing using monocular cameras is necessary and/or strategically advantageous. This thesis presents a novel method of skyline delineation using deep learning-based semantic segmentation of monocular camera images to detect natural skylines of distant landscapes in the presence of occlusions. Skylines are extracted from semantic segmentation predictions as the boundary between pixel clusters labeled as terrain to those labeled as sky, with additional segmentation classes representing the known set of potential occlusions in a given environment. Additionally, each pixel in the detected skyline contours are assigned a confidence score based on local intensity gradients to reduce the potential impacts of erroneous skyline contours on position estimation. The utility of these delineated skylines is demonstrated by obtaining orientation and position estimates using existing methods of skyline-based localization. In these methods, the delineated natural skyline is compared to rendered skylines using digital elevation model data and the position estimate is obtained by finding the closest match. Results from the proposed skyline delineation method using semantic segmentation, with accompanying localization demonstration, is presented on two distinct data sets. The first is obtained from the Perseverance Rover operating in the Jezero Crater region of Mars, and the second is obtained from an uncrewed surface vessel operating in the Gulf of Koper, Slovenia. / Denna avhandling tar upp problemet med att förbättra avgränsningen av skylines, även kallad skylinedetektion, i tilltäppta och utmanande miljöer där befintliga skylineavgränsningsmetoder kan kämpa eller misslyckas. Avgränsade skylines kan användas i monokulära kameralokaliseringsmetoder genom att jämföra avgränsade skylines med digitala höjdmodelldata för att uppskatta en position baserat på känd terräng. Detta är särskilt användbart i GPS-nekas miljöer där aktiv avkänning är antingen opraktisk eller oönskad av olika skäl, så att passiv avkänning med användning av monokulära kameror är nödvändig och/eller strategiskt fördelaktig. Denna avhandling presenterar en ny metod för skylineavgränsning med användning av djupinlärningsbaserad semantisk segmentering av monokulära kamerabilder för att detektera naturliga skylines av avlägsna landskap i närvaro av ocklusioner. Horisonter extraheras från semantiska segmenteringsförutsägelser som gränsen mellan pixelkluster märkta som terräng till de märkta som himmel, med ytterligare segmenteringsklasser som representerar den kända uppsättningen potentiella ocklusioner i en given miljö. Dessutom tilldelas varje pixel i de detekterade skylinekonturerna ett konfidenspoäng baserat på lokala intensitetsgradienter för att minska den potentiella påverkan av felaktiga skylinekonturer på positionsuppskattning. Användbarheten av dessa avgränsade skylines demonstreras genom att erhålla orienterings- och positionsuppskattningar med hjälp av befintliga metoder för skylinebaserad lokalisering. I dessa metoder jämförs den avgränsade naturliga horisonten med renderade silhuetter med hjälp av digitala höjdmodelldata och positionsuppskattningen erhålls genom att hitta den närmaste matchningen. Resultat från den föreslagna metoden för skylineavgränsning med semantisk segmentering, med tillhörande lokaliseringsdemonstration, presenteras på två distinkta datamängder. Den första kommer från Perseverance Rover som verkar i Jezero Crater-regionen på Mars, och den andra erhålls från ett obemannat ytfartyg som verkar i Koperbukten, Slovenien.
|
125 |
Semi-Supervised Domain Adaptation for Semantic Segmentation with Consistency Regularization : A learning framework under scarce dense labels / Semi-Superviced Domain Adaption för semantisk segmentering med konsistensregularisering : Ett nytt tillvägagångsätt för lärande under brist på täta etiketterMorales Brotons, Daniel January 2023 (has links)
Learning from unlabeled data is a topic of critical significance in machine learning, as the large datasets required to train ever-growing models are costly and impractical to annotate. Semi-Supervised Learning (SSL) methods aim to learn from a few labels and a large unlabeled dataset. In another approach, Domain Adaptation (DA) leverages data from a similar source domain to train a model for a target domain. This thesis focuses on Semi-Supervised Domain Adaptation (SSDA) for the dense task of semantic segmentation, where labels are particularly costly to obtain. SSDA has not received much attention yet, even though it has a great potential and represents a realistic scenario. The few existing SSDA methods for semantic segmentation reuse ideas from Unsupervised DA, despite the di↵erences between the two settings. This thesis proposes a new semantic segmentation framework designed particularly for the SSDA setting. The approach followed was to forego domain alignment and focus instead on enhancing clusterability of target domain features, an idea from SSL. The method is based on consistency regularization, combined with pixel contrastive learning and self-training. The proposed framework is found to be e↵ective not only in SSDA, but also in SSL. Ultimately, a unified solution for SSL and SSDA semantic segmentation is presented. Experiments were conducted on the target dataset of Cityscapes and source dataset of GTA5. The method proposed is competitive in both SSL and SSDA, and sets a new state-of-the-art for SSDA achieving a 65.6% mIoU (+4.4) on Cityscapes with 100 labeled samples. This thesis has an immediate impact on practical applications by proposing a new best-performing framework for the under-explored setting of SSDA. Furthermore, it also contributes towards the more ambitious goal of designing a unified solution for learning from unlabeled data. / Inlärning med hjälp av omärkt data är ett område av stor vikt inom maskininlärning. Detta på grund av att de stora datamängder som blivit nödvändiga för att träna konstant växande modeller både är kostsamma och opraktiska att implementera. Målet med Semi-Supervised Learning (SSL) är att kombinera ett fåtal etiketter med en stor mängd omärkt data för inlärning. Som ett annat tillvägagångssätt använder Domain Adaptation (DA) data från en liknande domän för att träna en annan måldomän. I Denna avhandling används Semi-Supervised Domain Adaptation (SSDA) för att utföra sådan semantisk segmentering, i vilken etiketter är särskilt kostsamma att erhålla. SSDA är ännu inte genererat mycket uppmärksamhet, även om det har en stor potential och representerar ett realistiskt scenario. De få metoder av SSDA som existerar för semantisk segmentering återanvänder idéer från Unsupervised DA, trots de olikheter som finns mellan de två modellerna. Denna avhandling föreslår ett nytt ramverk för semantisk segmentering, designat speciellt för SSDA modellen. Detta genom att försaka domänanpassning och i stället fokusera på att förbättra klusterbarheten av måldomänens egenskaper, en idé tagen från SSL. Metoden är baserad på konsistensregularisering, i kombination med pixelkontrastinlärning och självinlärning. Det föreslagna ramverket visar sig vara effektivt, inte bara för SSDA, men även för SSL. Till slut presenteras en enad lösning för semantisk segmentering med SLL och SSDA. Experiment utfördes på måldata från Cityscapes samt källdata från GTA5. Den föreslagna metoden är konkurrenskraftig både för SSL och SSDA, och blir världsledande för SSDA genom att uppnå 65,6% mIoU (+4,4) för Cityscapes med 100 märkta testdata. Denna avhandling har en omedelbar effekt gällande praktiska applikationer genom att föreslå ett nytt ”bäst resulterande” ramverk för dåligt utforskade inställningar av SSDA. Till yttermera visso bidrar avhandlingen även till det mer ambitiösa målet att designa en enad lösning för maskininlärning från omärkta data.
|
126 |
Influence de la phénologie foliaire automnale de forêts tempérées sur la segmentation d’espèces d’arbres à partir d’imagerie de drone et d’apprentissage profondCloutier, Myriam 07 1900 (has links)
La télédétection des forêts est devenue de plus en plus accessible grâce à l'utilisation de véhicules aériens inoccupés (UAV) et à l'apprentissage profond, ce qui permet d'obtenir des images répétées à haute résolution et d’observer les changements phénologiques à des échelles spatiales et temporelles plus importantes. Dans les forêts tempérées, à l'automne, la sénescence des feuilles se produit lorsque les feuilles changent de couleur et tombent. Cependant, l'influence de la sénescence foliaire sur la segmentation des espèces d'arbres à l'aide d'un réseau neuronal convolutif (CNN) n'a pas encore été évaluée. Nous avons acquis de l’imagerie haute résolution par UAV au-dessus d’une forêt tempérée au Québec à sept reprises entre mai et octobre 2021. Nous avons segmenté et identifié 23 000 couronnes d'arbres de 14 classes différentes pour entraîner et valider un CNN pour chaque acquisition d'imagerie. La meilleure segmentation (F1-score le plus élevé) était au début de la coloration des feuilles (début septembre) et le F1-score le plus bas au pic de la coloration automnale (début octobre). La chronologie de la sénescence varie considérablement d’une espèce à l’autre et au sein d’une même espèce, ce qui entraîne une grande variabilité du signal télédétecté. Les espèces d'arbres à feuilles caduques et à feuilles persistantes qui présentaient des traits distinctifs et moins variables dans le temps entre les individus ont été mieux classées. Bien que la segmentation des arbres dans une forêt hétérogène demeure un défi, l'imagerie UAV et l'apprentissage profond démontrent un grand potentiel pour la cartographie des espèces d'arbres. Les résultats obtenus dans une forêt tempérée où la couleur des feuilles change fortement pendant la sénescence automnale montrent que la meilleure performance pour la segmentation des espèces d'arbres se produit au début de ce changement de couleur. / Remote sensing of forests has become increasingly accessible with the use of unoccupied aerial vehicles (UAV), along with deep learning, allowing for repeated high-resolution imagery and the capturing of phenological changes at larger spatial and temporal scales. In temperate forests during autumn, leaf senescence occurs when leaves change colour and drop. However, the influence of leaf senescence in temperate forests on tree species segmentation using a Convolutional Neural Network (CNN) has not yet been evaluated. Here, we acquired high-resolution UAV imagery over a temperate forest in Quebec, Canada on seven occasions between May and October 2021. We segmented and labelled 23,000 tree crowns from 14 different classes to train and validate a CNN for each imagery acquisition. The CNN-based segmentation showed the highest F1-score (0.72) at the start of leaf colouring in early September and the lowest F1-score (0.61) at peak fall colouring in early October. The timing of the events occurring during senescence, such as leaf colouring and leaf fall, varied substantially between and within species and according to environmental conditions, leading to higher variability in the remotely sensed signal. Deciduous and evergreen tree species that presented distinctive and less temporally-variable traits between individuals were better classified. While tree segmentation in a heterogenous forest remains challenging, UAV imagery and deep learning show high potential in mapping tree species. Our results from a temperate forest with strong leaf colour changes during autumn senescence show that the best performance for tree species segmentation occurs at the onset of this colour change.
|
127 |
Operational data extraction using visual perceptionShunmugam, Nagarajan January 2021 (has links)
The information era has led the manufacturer of trucks and logistics solution providers are inclined towards software as a service (SAAS) based solutions. With advancements in software technologies like artificial intelligence and deep learning, the domain of computer vision has achieved significant performance boosts that it competes with hardware based solutions. Firstly, data is collected from a large number of sensors which can increase production costs and carbon footprint in the environment. Secondly certain useful physical quantities/variables are impossible to measure or turns out to be very expensive solution. So in this dissertation, we are investigating the feasibility of providing the similar solution using a single sensor (dashboard- camera) to measure multiple variables. This provides a sustainable solution even when scaled up in huge fleets. The video frames that can be collected from the visual perception of the truck (i.e. the on-board camera of the truck) is processed by the deep learning techniques and operational data can be extracted. Certain techniques like the image classification and semantic segmentation outputs were experimented and shows potential to replace costly hardware counterparts like Lidar or radar based solutions. / Informationstiden har lett till att tillverkare av lastbilar och logistiklösningsleve -rantörer är benägna mot mjukvara som en tjänst (SAAS) baserade lösningar. Med framsteg inom mjukvaruteknik som artificiell intelligens och djupinlärnin har domänen för datorsyn uppnått betydande prestationsförstärkningar att konkurrera med hårdvarubaserade lösningar. För det första samlas data in från ett stort antal sensorer som kan öka produktionskostnaderna och koldioxidavtry -cket i miljön. För det andra är vissa användbara fysiska kvantiteter / variabler omöjliga att mäta eller visar sig vara en mycket dyr lösning. Så i denna avhandling undersöker vi möjligheten att tillhandahålla liknande lösning med hjälp av en enda sensor (instrumentbrädkamera) för att mäta flera variabler. Detta ger en hållbar lösning även när den skalas upp i stora flottor. Videoramar som kan samlas in från truckens visuella uppfattning (dvs. lastbilens inbyggda kamera) bearbetas av djupinlärningsteknikerna och operativa data kan extraher -as. Vissa tekniker som bildklassificering och semantiska segmenteringsutgång -ar experimenterades och visar potential att ersätta dyra hårdvaruprojekt som Lidar eller radarbaserade lösningar.
|
128 |
Global-Context Refinement for Semantic Image SegmentationMenart, Christopher J., Menart 14 August 2018 (has links)
No description available.
|
129 |
A Comprehensive Framework for Quality Control and Enhancing Interpretation Capability of Point Cloud DataYi-chun Lin (13960494) 14 October 2022 (has links)
<p>Emerging mobile mapping systems include a wide range of platforms, for instance, manned aircraft, unmanned aerial vehicles (UAV), terrestrial systems like trucks, tractors, robots, and backpacks, that can carry multiple sensors including LiDAR scanners, cameras, and georeferencing units. Such systems can maneuver in the field to quickly collect high-resolution data, capturing detailed information over an area of interest. With the increased volume and distinct characteristics of the data collected, practical quality control procedures that assess the agreement within/among datasets acquired by various sensors/systems at different times are crucial for accurate, robust interpretation. Moreover, the ability to derive semantic information from acquired data is the key to leveraging the complementary information captured by mobile mapping systems for diverse applications. This dissertation addresses these challenges for different systems (airborne and terrestrial), environments (urban and rural), and applications (agriculture, archaeology, hydraulics/hydrology, and transportation).</p>
<p>In this dissertation, quality control procedures that utilize features automatically identified and extracted from acquired data are developed to evaluate the relative accuracy between multiple datasets. The proposed procedures do not rely on manually deployed ground control points or targets and can handle challenging environments such as coastal areas or agricultural fields. Moreover, considering the varying characteristics of acquired data, this dissertation improves several data processing/analysis techniques essential for meeting the needs of various applications. An existing ground filtering algorithm is modified to deal with variation in point density; digital surface model (DSM) smoothing and seamline control techniques are proposed for improving the orthophoto quality in agricultural fields. Finally, this dissertation derives semantic information for diverse applications, including 1) shoreline retreat quantification, 2) automated row/alley detection for plant phenotyping, 3) enhancement of orthophoto quality for tassel/panicle detection, and 4) point cloud semantic segmentation for mapping transportation corridors. The proposed approaches are tested using multiple datasets from UAV and wheel-based mobile mapping systems. Experimental results verify that the proposed approaches can effectively assess the data quality and provide reliable interpretation. This dissertation highlights the potential of modern mobile mapping systems to map challenging environments for a variety of applications.</p>
|
130 |
Real-time hand segmentation using deep learning / Hand-segmentering i realtid som använder djupinlärningFavia, Federico January 2021 (has links)
Hand segmentation is a fundamental part of many computer vision systems aimed at gesture recognition or hand tracking. In particular, augmented reality solutions need a very accurate gesture analysis system in order to satisfy the end consumers in an appropriate manner. Therefore the hand segmentation step is critical. Segmentation is a well-known problem in image processing, being the process to divide a digital image into multiple regions with pixels of similar qualities. Classify what pixels belong to the hand and which ones belong to the background need to be performed within a real-time performance and a reasonable computational complexity. While in the past mainly light-weight probabilistic and machine learning approaches were used, this work investigates the challenges of real-time hand segmentation achieved through several deep learning techniques. Is it possible or not to improve current state-of-theart segmentation systems for smartphone applications? Several models are tested and compared based on accuracy and processing speed. Transfer learning-like approach leads the method of this work since many architectures were built just for generic semantic segmentation or for particular applications such as autonomous driving. Great effort is spent on organizing a solid and generalized dataset of hands, exploiting the existing ones and data collected by ManoMotion AB. Since the first aim was to obtain a really accurate hand segmentation, in the end, RefineNet architecture is selected and both quantitative and qualitative evaluations are performed, considering its advantages and analysing the problems related to the computational time which could be improved in the future. / Handsegmentering är en grundläggande del av många datorvisionssystem som syftar till gestigenkänning eller handspårning. I synnerhet behöver förstärkta verklighetslösningar ett mycket exakt gestanalyssystem för att tillfredsställa slutkonsumenterna på ett lämpligt sätt. Därför är handsegmenteringssteget kritiskt. Segmentering är ett välkänt problem vid bildbehandling, det vill säga processen att dela en digital bild i flera regioner med pixlar av liknande kvaliteter. Klassificera vilka pixlar som tillhör handen och vilka som hör till bakgrunden måste utföras i realtidsprestanda och rimlig beräkningskomplexitet. Medan tidigare använts huvudsakligen lättviktiga probabilistiska metoder och maskininlärningsmetoder, undersöker detta arbete utmaningarna med realtidshandsegmentering uppnådd genom flera djupinlärningstekniker. Är det möjligt eller inte att förbättra nuvarande toppmoderna segmenteringssystem för smartphone-applikationer? Flera modeller testas och jämförs baserat på noggrannhet och processhastighet. Transfer learning-liknande metoden leder metoden för detta arbete eftersom många arkitekturer byggdes bara för generisk semantisk segmentering eller för specifika applikationer som autonom körning. Stora ansträngningar läggs på att organisera en gedigen och generaliserad uppsättning händer, utnyttja befintliga och data som samlats in av ManoMotion AB. Eftersom det första syftet var att få en riktigt exakt handsegmentering, väljs i slutändan RefineNetarkitekturen och både kvantitativa och kvalitativa utvärderingar utförs med beaktande av fördelarna med det och analys av problemen relaterade till beräkningstiden som kan förbättras i framtiden.
|
Page generated in 0.0477 seconds