• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 1
  • 1
  • Tagged with
  • 11
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Evaluation and validation of deep learning strategies for bioimage analyses / Evaluation und Validierung von Deep learning Strategien für die Analyse biologischer Bilddaten

Segebarth, Dennis January 2021 (has links) (PDF)
Significant advances in fluorescence imaging techniques enable life scientists today to gain insights into biological systems at an unprecedented scale. The interpretation of image features in such bioimage datasets and their subsequent quantitative analysis is referred to as bioimage analysis. A substantial proportion of bioimage analyses is still performed manually by a human expert - a tedious process that is long known to be subjective. Particularly in tasks that require the annotation of image features with a low signal-to-noise ratio, like in fluorescence images of tissue samples, the inter-rater agreement drops. However, like any other scientific analysis, also bioimage analysis has to meet the general quality criteria of quantitative research, which are objectivity, reliability, and validity. Thus, the automation of bioimage analysis with computer-aided approaches is highly desirable. Albeit conventional hard-coded algorithms are fully unbiased, a human user has to set its respective feature extraction parameters. Thus, also these approaches can be considered subjective. Recently, deep learning (DL) has enabled impressive advances in computer vision research. The predominant difference between DL and conventional algorithms is the capability of DL models to learn the respective task on base of an annotated training dataset, instead of following user-defined rules for feature extraction. This thesis hypothesized that DL can be used to increase the objectivity, reliability, and validity of bioimage analyses, thus going beyond mere automation. However, in absence of ground truth annotations, DL models have to be trained on manual and thus subjective annotations, which could cause the model to incorporate such a bias. Moreover, model training is stochastic and even training on the same data could result in models with divergent outputs. Consequently, both the training on subjective annotations and the model-to-model variability could impair the quality of DL-based bioimage analyses. This thesis systematically assessed the impacts of these two limitations experimentally by analyzing fluorescence signals of a protein called cFOS in mouse brain sections. Since the abundance of cFOS correlates with mouse behavior, behavioral analyses could be used for cross-validation of the bioimage analysis results. Furthermore, this thesis showed that pooling the input of multiple human experts during model training and integration of multiple trained models in a model ensemble can mitigate the impact of these limitations. In summary, the present study establishes guidelines for how DL can be used to increase the general quality of bioimage analyses. / Fortschritte in den Methoden der fluoreszenz-basierten Bildgebung ermöglichen Biowissenschaftlern heutzutage noch nie dagewesene Einblicke in biologische Systeme. Die Interpretation sowie die anschließende quantitative Analyse von Bildelementen in biologischen Bilddatensätzen wird in der Wissenschaft als bioimage analysis bezeichnet. Ein wesentlicher Anteil der bioimage analysis wird noch immer von Experten per Hand durchgeführt - ein mühsamer Prozess, von dem man seit langem weiß, dass er subjektiv ist. Besonders bei Aufgabestellungen, welche die Annotierung von Bildelementen mit einem geringen Signal-Rausch-Verhältnis erfordern, wie es beispielsweise bei Fluoreszenzbildern von Gewebeproben der Fall ist, sinkt die Übereinstimmung zwischen den Bewertungen mehrerer Experten. Genauso wie jede andere wissenschaftliche Analyse, muss jedoch auch die bioimage analysis den generellen Qualitätskriterien quantitativer Forschung gerecht werden. Dies sind Objektivität, Zuverlässigkeit und Validität. Die Automatisierung der bioimage analysis mit Hilfe von computer-basierten Ansätzen ist somit erstrebenswert. Konventionelle, hartkodierte Algorithmen sind zwar vollkommen unvoreingenommen, jedoch legt ein menschlicher Benutzer jene Parameter fest, die der Algorithmus für die Extraktion der relevanten Bildelemente nutzt. Aus diesem Grund sind auch diese Ansätze zumindest partiell subjektiv. In den letzten Jahren hat Deep learning (DL) zu beeindruckenden Fortschritten auf dem Forschungsgebiet der computer vision beigetragen. Der vorherrschende Unterschied zwischen DL und konventionellen Algorithmen besteht darin, dass DL Modelle in der Lage sind die jeweilige Aufgabe auf Grundlage eines annotierten Trainingsdatensatzes zu lernen, anstatt starr den Parametern zu folgen, die der Benutzer für die Extraktion der relevanten Bildelemente vorgegeben hat. In dieser Dissertation wurde die Hypothese untersucht, ob DL, neben der Möglichkeit der automatischen Bildanalyse, auch dazu genutzt werden kann die Objektivität, die Zuverlässigkeit und die Validität der Bildanalyse zu verbessern. Ohne eine objektive Referenzannotierung muss das Training der DL Modelle jedoch auf händisch erstellten und somit also subjektiven Annotierungen durchgeführt werden. Theoretisch könnte dies dazu führen, dass das DL-Modell diese Vorgeingenommenheit übernimmt. Außerdem unterliegt das Training der Modelle stochastischen Prozessen und selbst Modelle, die auf den gleichen Trainingsdaten trainiert wurden, könnten sich danach in ihren ausgegeben Analysen unterscheiden. Demzufolge könnten also sowohl das Training auf subjektiven Annotierungen als auch die Variabilität von Modell zu Modell die Qualität der DL-basierten Analyse von biologischen Bilddaten beeinträchtigen. In dieser Dissertation werden die Einflüsse von diesen beiden Limitierungen auf Grundlage von experimentellen Daten untersucht. In den experimentellen Bilddaten werden Fluoreszenzsignale des Proteins cFOS in Hirnschnitten von Mäusen dargestellt und hier repräsentativ untersucht. Da das Vorkommen von cFOS mit dem Verhalten der Mäuse korreliert, kann die Analyse des Verhaltens der Mäuse zur Kreuzvalidierung der Analyse der biologischen Bilddaten herangezogen werden. Die Daten dieser Dissertation zeigen, dass die Integration mehrerer Experten in das Training eines Modells sowie die Integration mehrerer trainierter Modelle in ein Modell-Ensemble das Risiko einer subjektiven oder nicht reproduzierbaren Bildanalyse abschwächen können. Diese Arbeit etabliert Richtlinien dafür, wie DL verwendet werden kann, um die generelle Qualität der Analyse biologischer Bilddaten zu erhöhen.
2

Malaria Detection Using Deep Convolution Neural Network

Kapoor, Rishika January 2020 (has links)
No description available.
3

Real Time Gym Activity Detection using Monocular RGB Camera

Alshatta, Mohammad Samer January 2020 (has links)
Action detection is an attractive area for researchers in computer vision, healthcare, physiotherapy, psychology, and others. Intensive work has been done in this area due to its wide range of applications such as security surveillance, video tagging, Human-Computer Interaction (HCI), robotics, medical diagnosis, sports analysis, interactive gaming, and many others. After the deep learning booming results in computer vision tasks like image classification, many researchers have tried to extend the success of deep learning models to video classification and activity recognition. The research question of this thesis is to study the use of the 2D human poses extracted by a DNN-based model from RGB frames only, for the online activity detection task and comparing it with the state of the art solutions that utilize the human 3D skeletal data extracted by a depth sensor as an input. At the same time, this work showed the importance of input pre-processing and filtering on improving the performance of the online human activity detector. Detecting gym exercises and counting the repetitions in real-time using the human skeletal data versus the 2D poses have been studied in-depth in this work. The contributions of this work are as follows: 1) generating RGB-D dataset for a set of gym exercises, 2) proposing a novel real-time skeleton-based Double Representational RNN (DR-RNN) network architecture for the online action detection, 3) Demonstrating the ability of the proposed model to achieve satisfiable results using pose estimation models applied on RGB frames, 4) introducing a novel learnable exponential filter for the online low latency filtering applications.
4

Aspect Mining of COVID-19 Outbreak with SVM and NaiveBayes Techniques

Komara, Akhilandeswari January 2021 (has links)
The outbreak of COVID-19 is one of the major pandemics faced by the world ever and the World Health Organization (WHO) had declared it as the deadliest virus outbreak in recent times. Due to its incubation period, predicting or identifying the paints had become a tough job and thus, the impact is on a large scale. Most of the countries were affected with Coronavirus since December 2019 and the spread is still counting. Irrespective of the preventive measures being promoted on various media, still the speculations and rumors about this outbreak are peaks, that too particular with the social media platforms like Facebook and Twitter. Millions of posts or tweets are being posted on social media via various apps and due to this, the accuracy of news has become unpredictable, and further, it has increased panic among the people. To overcome these issues, a clear classification or categorization of the posts or tweets should be done to identify the accuracy of the news and this can be done by using the basic sentiment analysis technique of data sciences and machine learning. In this project, Twitter will be considered as the social media platform and the millions of tweets will be analyzed for aspect mining to categorize them into positive, negative, and neutral tweets using the NLP techniques. SVM and Naive Bayes approach of machine learning and this model will be developed.
5

Evaluation of Temporal Convolutional Networks for Nanopore DNA Sequencing

Stymne, Jakob, Welin Odeback, Oliver January 2020 (has links)
Nanopore sequencing, a recently developed methodfor DNA sequencing, involves applying a constant electricfield over a membrane and translocating single-stranded DNAmolecules through membrane pores. This results in an electricalsignal, which is dependent on the structure of the DNA. The aimof this project is to train and evaluate a non-causal temporalconvolution neural network in order to accurately translate suchelectrical raw signal into the corresponding nucleotide sequence.The training dataset is sampled from the E. coli bacterial genomeand the phage Lambda virus. We implemented and evaluatedseveral different temporal convolutional architectures. Using anetwork with five residual blocks with five convolutional layersin each block yields maximum performance, with a predictionaccuracy of 76.1% on unseen test data. This result indicates thata temporal convolution network could be an effective way tosequence DNA data. / Nanopore sequencing är en nyligen utvecklad metod för DNA-sekvensering som innebär att man applicerar ett konstant elektriskt fält över ett membran och translokerar enkelsträngade DNA-molekyler genom membranporer. Detta resulterar i en elektrisk signal som beror på DNA-strukturen.  Målet med detta projekt är att träna och evaluera icke-kausula ”temporal convolutional networks” som ska kunna översätta denna ofiltrerade elektriska signalen till den motsvarande nukleotidsekvensen. Träningsdatan är ett urval av genomen från bakterien E. coli och viruset phage Lambda. Vi implementerade och utvärderade ett antal olika nätverksstrukturer. Ett nätverk med fem residuala block med fem faltande lager i varje block gav maximal prestation, med en precision på 76.1% på testdata. Detta resultat indikerar att ett ”temporal convolution network” skulle kunna vara ett effektivt sätt att sekvensera DNA. / Kandidatexjobb i elektroteknik 2020, KTH, Stockholm
6

Samarbete mellan tekniklärare vid framtagning av undervisningsmaterial

Ingelhag, Anders January 2017 (has links)
Ingången till detta arbete är att författaren upplever framtagning av material att använda iundervisningen som en mycket tidkrävande process. För lärare som börjar undervisa i en ny kurs blirdetta extra tydligt när allt material ska tas fram. Med material menas planeringar, lektionsinnehåll,instuderingsuppgifter och bedömningsmaterial. Författaren har förförståelsen att lärare skulle vinnapå att samarbeta och dela material mellan sig.I arbetet undersöks, genom en enkätundersökning, hur gymnasielärare i teknik gör när de tar frammaterial till en ny kurs eller utvecklar materialet till en kurs. Vidare undersöks vilka eventuella hinderdet finns för samarbete och vilket material lärare helst vill få tillgång till från kollegor.Resultatet visar att den absoluta majoriteten av lärarna i den undersökta gruppen inte ser någrahinder att dela sitt material. Gymnasielärarna i teknik delar med sig. Det kan dock finnas praktiskahinder för om att läraren är ensam på sin skola att undervisa i ämnet, finns det ingen att samarbetamed. Eller att det inte finns någon gemensam lättanvänd Community, en mötesplats på internet, attdela på. I arbetet förs också en diskussion kring möjligheter med digitalisering av material.
7

RGB-D Deep Learning keypoints and descriptors extraction Network for feature-based Visual Odometry systems / RGB-D Deep Learning-nätverk för utvinning av nyckelpunkter och deskriptorer för nyckelpunktsbaserad Visuella Odometri.

Bennasciutti, Federico January 2022 (has links)
Feature extractors in Visual Odometry pipelines rarely exploit depth signals, even though depth sensors and RGB-D cameras are commonly used in later stages of Visual Odometry systems. Nonetheless, depth sensors from RGB-D cameras function even with no external light and can provide feature extractors with additional structural information otherwise invisible in RGB images. Deep Learning feature extractors, which have recently been shown to outperform their classical counterparts, still only exploit RGB information. Against this background, this thesis presents a Self-Supervised Deep Learning feature extraction algorithm that employs both RGB and depth signals as input. The proposed approach builds upon the existing deep learning feature extractors, adapting the architecture and training procedure to introduce the depth signal. The developed RGB-D system is compared with an RGB-only feature extractor in a qualitative study on keypoints’ location and a quantitative evaluation on pose estimation. The qualitative evaluation demonstrates that the proposed system exploits information from both RGB and depth domains, and it robustly adapts to the degradation of either of the two input signals. The pose estimation results indicate that the RGB-D system performs comparably to the RGB-only one in normal and low-light conditions. Thanks to the usage of depth information, the RGB-D feature extractor can still operate, showing only limited performance degradation, even in completely dark environments, where RGB methods fail due to a lack of input information. The combined qualitative and quantitative results suggest that the proposed system extracts features based on both RGB and depth input domains and can autonomously transition from normal brightness to a no-light environment, by exploiting depth signal to compensate for the degraded RGB information. / Detektering av nyckelpunkter för Visuell Odometri (VO) utnyttjar sällan information om djup i bilder, även om avståndssensorer och RGB-D-kameror ofta används i senare skeden av VO pipelinen. RGB-D-kamerors avståndsestimering fungerar även utan externt ljus. De kan förse nyckelpunktsdetektorer med ytterligare strukturell information som är svårt att extrahera enbart från RGB-bilder. Detektering av nyckelpunkter, med hjälp av Deep Learning metoder, har nyligen visat sig överträffa sina klassiska motsvarigheter som fortfarande endast utnyttjar bildinformation. Denna avhandling presenterar en algoritm för självövervakande nyckelpunktsdetektering med djupinlärning, som använder både RGB-bilder och avståndsinformation som indata. Det föreslagna tillvägagångssättet bygger på en befintlig arkitektur, som har anpassats för att också kunna hantera informationen om djupet i bilder. Den utvecklade RGB-D nyckelpunktsdetektorn har jämförts med en detektor som enbart baseras på RGB-bilder. Det har både gjorts en kvalitativ utvärdering av nyckelpunkternas läge och en kvantitativ utvärdering av detektorns förmåga på VO-tillämpningar, dvs estimering av position och orientering. Den kvalitativa utvärderingen av nyckelpunkterna visar att det föreslagna systemet kan utnyttja både information från bild- och djupdomänen. Den visar även att detektorn är robust mot försämringar av båda bilderna och djupinformationen. Evalueringen visar att den utvecklade RGB-D-metoden och en standardetektor uppnår jämförbara resultat under normala och svaga ljusförhållanden. Dock, tack vare användningen av tillgänglig djupinformation kan RGB-D-metoden fortfarande fungera i helt mörka förhållanden, med endast begränsad försämring av prestanda. I dessa scenarion misslyckas RGB-metoder på grund av brist på användbar bildinformation. De kombinerade kvalitativa och kvantitativa resultaten tyder på att det föreslagna systemet extraherar egenskaper som baseras på både bild- och djupinmatningsområden och kan självständigt övergå mellan normala och ljusfattiga förhållanden genom att utnyttja djup för att kompensera för den försämrade bildinformationen.
8

Analyse de la réduction du chatoiement sur les images radar polarimétrique à l'aide des réseaux neuronaux à convolutions

Beaulieu, Mario 04 1900 (has links)
En raison de la nature cohérente du signal RADAR à synthèse d’ouverture (RSO), les images RSO polarimétriques (RSOPOL) sont affectées par le bruit de chatoiement. L’effet du chatoiement peut être sévère au point de rendre inutilisable la donnée RSOPOL. Ceci est particulièrement vrai pour les données à une vue qui souffrent d’un chatoiement très intense.Un filtrage du bruit est nécessaire pour améliorer l’estimation des paramètres polarimétriques pouvant être calculés à partir de ce type de données. Cette opération constitue une étape importante dans le traitement et l’analyse des images RSOPOL. Récemment une nouvelle approche est apparue en traitement de données visant la solution d’une multitude de problèmes dont le filtrage, la restauration d’images, la reconnaissance de la parole, la classification ou la segmentation d’images. Cette approche est l’apprentissage profond et les réseaux de neurones à convolution (RNC). Des travaux récents montrent que les RNC sont une alternative prometteuse pour le filtrages des images RSO. En effet par leur capacité d’apprendre un modèle optimal de filtrage, ils tendent à surpasser les approches classiques du filtrage sur les images RSO. L’objectif de cette présente étude est d’analyser et d’évaluer l’efficacité du filtrage par RNC sur des données RSOPOL simulées et sur des images satellitaires RSOPOL RADARSAT-2, ALOS/PalSAR et GaoFen-3 acquises sur la région urbaine de San Francisco (Californie). Des modèles inspirés de l’architecture d’un RNC utilisé notamment en Super-résolution ont été adaptés pour le filtrage de la matrice de cohérence polarimétrique. L’effet de différents paramètres structuraux de l’architecture des RNC sur le filtrage ont été analysés, parmi ceux-ci on retrouve entre autres la profondeur du réseau (le nombre de couches empilées), la largeur du réseau (le nombre de filtres par couches convolutives) et la taille des filtres de la première couche convolutive. L’apprentissage des modèles a été effectué par la rétropropagation du gradient de l’erreur en utilisant 3 ensembles de données qui simulent la polarimétrie une vue des diffuseurs selon les classes de Cloude-Pottier. Le premier ensemble ne comporte que des zones homogènes.Les deux derniers ensembles sont composés de simulations en patchwork dont l’intensité locale est simulée par des images de texture et de cibles ponctuelles ajoutées au patchwork dans le cas du dernier ensemble. Les performances des différents filtres par RNC ont été mesurées par des indicateurs comprenant l’erreur relative sur l’estimation de signatures polarimétriques et des paramètres de décomposition ainsi que des mesures de distorsion sur la récupération des détails importants et sur la conservation des cibles ponctuelles. Les résultats montrent que le filtrage par RNC des données polarimétriques est soit équivalent ou nettement supérieur aux filtres conventionnellement utilisées en polarimétrie.Les résultats des modèles les plus profonds obtiennent les meilleures performances pour tous les indicateurs sur l’ensemble des données homogènes simulées. Dans le cas des données en patchwork, les résultats pour la restauration des détails sont nettement favorables au filtrage par RNC les plus profonds.L’application du filtrage par RNC sur les images satellitaires RADARSAT-2,ALOS/PalSAR ainsi GaoFen-3 montre des résultats comparables ou supérieurs aux filtres conventionnels. Les meilleurs résultats ont été obtenus par le modèle à 5 couches cachées(si on ne compte pas la couche d’entrée et de sortie), avec 8 filtres 3×3 par couche convolutive, sauf pour la couche d’entrée où la taille des filtres étaient de 9×9. Par contre,les données d’apprentissage doivent être bien ajustées à l’étendue des statistiques des images polarimétriques réelles pour obtenir de bon résultats. Ceci est surtout vrai au niveau de la modélisation des cibles ponctuelles dont la restauration semblent plus difficiles. / Due to the coherent nature of the Synthetic Aperture Radar (SAR) signal, polarimetric SAR(POLSAR) images are affected by speckle noise. The effect of speckle can be so severe as to render the POLSAR data unusable. This is especially true for single-look data that suffer from very intense speckle. Noise filtering is necessary to improve the estimation of polarimetric parameters that can be computed from this type of data. This is an important step in the processing and analysis of POLSAR images. Recently, a new approach has emerged in data processing aimed at solving a multi-tude of problems including filtering, image restoration, speech recognition, classification orimage segmentation. This approach is deep learning and convolutional neural networks(CONVNET). Recent works show that CONVNET are a promising alternative for filtering SAR images. Indeed, by their ability to learn an optimal filtering model only from the data, they tend to outperform classical approaches to filtering on SAR images. The objective of this study is to analyze and evaluate the effectiveness of CONVNET filtering on simulated POLSAR data and on RADARSAT-2, ALOS/PalSAR and GaoFen-3 satellite images acquired over the San Francisco urban area (California). Models inspired by the architecture of a CONVNET used in particular in super-resolution have been adapted for the filtering of the polarimetric coherency matrix. The effect of different structural parameters of theCONVNET architecture on filtering were analyzed, among which are the depth of the neural network (the number of stacked layers), the width of the neural network (the number of filters per convoluted layer) and the size of the filters of the first convolution layer. The models were learned by backpropagation of the error gradient using 3 datasets that simulate single-look polarimetry of the scatterers according to Cloude-Pottier classes. The first dataset contains only homogeneous areas. The last two datasets consist of patchwork simulations where local intensity is simulated by texture images and point target are added to the patchwork in the case of the last dataset. The performance of the different filters by CONVNET was measured by indicators including relative error on the estimation of polarimetric signatures and decomposition parameters as well as distortion measurements on the recovery of major details and on the conservation of point targets.The results show that CONVNET filtering of polarimetric data is either equivalent or significantly superior to conventional polarimetric filters. The results of the deepest models obtain the best performance for all indicators over the simulated homogeneous dataset. Inthe case of patchwork dataset, the results for detail restoration are clearly favourable to the deepest CONVNET filtering. The application of CONVNET filtering on RADARSAT-2, ALOS/PalSAR andGaoFen-3 satellite images shows results comparable or superior to conventional filters. The best results were obtained by the 5 hidden layers model (not counting the input and outputlayers), with 8 filters 3×3 per convolutional layer, except for the input layer where the filtersize was 9×9. On the other hand, the training data must be well adjusted to the statistical range of the real polarimetric images to obtain good results. This is especially true when modeling point targets that appear to be more difficult to restore.
9

Data Collection and Layout Analysis on Visually Rich Documents using Multi-Modular Deep Learning.

Stahre, Mattias January 2022 (has links)
The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. / Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN.
10

Object detection for autonomous trash and litter collection / Objektdetektering för autonom skräpupplockning

Edström, Simon January 2022 (has links)
Trashandlitter discarded on the street is a large environmental issue in Sweden and across the globe. In Swedish cities alone it is estimated that 1.8 billion articles of trash are thrown to the street each year, constituting around 3 kilotons of waste. One avenue to combat this societal and environmental problem is to use robotics and AI. A robot could learn to detect trash in the wild and collect it in order to clean the environment. A key component of such a robot would be its computer vision system which allows it to detect litter and trash. Such systems are not trivially designed or implemented and have only recently reached high enough performance in order to work in industrial contexts. This master thesis focuses on creating and analysing such an algorithm by gathering data for use in a machine learning model, developing an object detection pipeline and evaluating the performance of that pipeline based on varying its components. Specifically, methods using hyperparameter optimisation, psuedolabeling and the preprocessing methods tiling and illumination normalisation were implemented and analysed. This thesis shows that it is possible to create an object detection algorithm with high performance using currently available state-of-the-art methods. Within the analysed context, hyperparameter optimisation did not significantly improve performance and psuedolabeling could only briefly be analysed but showed promising results. Tiling greatly increased mean average precision (mAP) for the detection of small objects, such as cigarette butts, but decreased the mAP for large objects and illumination normalisation improved mAPforimagesthat were brightly lit. Both preprocessing methods reduced the frames per second that a full detector could run at whilst psuedolabeling and hyperparameter optimisation greatly increased training times. / Skräp som slängs på marken har en stor miljöpåverkan i Sverige och runtom i världen. Enbart i Svenska städer uppskattas det att 1,8 miljarder bitar skräp slängs på gatan varje år, bestående av cirka 3 kiloton avfall. Ett sätt att lösa detta samhälleliga och miljömässiga problem är att använda robotik och AI. En robot skulle kunna lära siga att detektera skräp i utomhusmiljöer och samla in den för att på så sätt rengöra våra städer och vår natur. En nyckelkomponent av en sådan robot skulle vara dess system för datorseende som tillåter den att se och hitta skräp. Sådana system är inte triviala att designa eller implementera och har bara nyligen påvisat tillräckligt hög prestanda för att kunna användas i kommersiella sammanhang. Detta masterexamensarbete fokuserar på att skapa och analysera en sådan algoritm genom att insamla data för att använda i en maskininlärningsmodell, utveckla en objektdetekterings pipeline och utvärdera prestandan när dess komponenter modifieras. Specifikt analyseras metoderna pseudomarkering, hyperparameter optimering samt förprocesseringsmetoderna kakling och ljusintensitetsnormalisering. Examensarbetet visar att det är möjligt att skapa en objektdetekteringsalgoritm med hög prestanda med hjälp av den senaste tekniken på området. Inom det undersökta sammanhanget gav hyperparameter optimering inte någon större förbättring av prestandan och pseudomarkering kunde enbart ytligt analyseras men uppvisade preliminärt lovande resultat. Kakling förbättrade resultatet för detektering av små objekt, som cigarettfimpar, men minskade prestandan för större objekt och ljusintensitetsnormalisering förbättrade prestandan för bilder som var starkt belysta. Båda förprocesseringsmetoderna minskade bildhastigheten som en detektor skulle kunna köra i och psuedomarkering samt hyperparameter optimering ökade träningstiden kraftigt.

Page generated in 0.461 seconds