• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 13
  • Tagged with
  • 13
  • 13
  • 13
  • 10
  • 7
  • 7
  • 6
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Generate synthetic datasets and scenarios by learning from the real world

Berizzi, Paolo January 2021 (has links)
The modern paradigms of machine learning algorithms and artificial intelligence base their success on processing a large quantity of data. Nevertheless, data does not come for free, and it can sometimes be practically unfeasible to collect enough data to train machine learning models successfully. That is the main reason why synthetic data generation is of great interest in the research community. Generating realistic synthetic data can empower machine learning models with vast datasets that are difficult to collect in the real world. In autonomous vehicles, it would require thousands of hours of driving recording for a machine learning model to learn how to drive a car in a safety-critical and effective way. The use of synthetic data, on the other hand, make it possible to simulate many different driving scenarios at a much lower cost. This thesis investigates the functioning of Meta-Sim, a synthetic data generator used to create datasets by learning from the real world. I evaluated the effects of replacing the stem of the Inception-V3 with the stem of the Inception- V4 as the feature extractor needed to process image data. Results showed similar behaviour of models that used the stem of the Inception-V4 instead of the Inception-V3. Slightly differences were found when the model tried to simulate more complex images. In these cases, the models that use the stem of the Inception-V4 converged in fewer iterations than those that used the Inception-V3, demonstrating superior behaviours of the Inception-V4. In the end, I proved that the Inception-V4 could be used to achieve state-of-the- art results in synthetic data generation. Moreover, in specific cases, I show that the Inception-V4 can exceed the performance attained by Meta-Sim. The outcome suggests further research in the field to validate the results on a larger scale. / De moderna paradigmen för algoritmer för maskininlärning och artificiell intelligens bygger sin framgång på att bearbeta en stor mängd data. Data är dock inte gratis, och det kan ibland vara praktiskt omöjligt att samla in tillräckligt med data för att träna upp maskininlärningsmodeller på ett framgångsrikt sätt. Det är huvudskälet till att generering av syntetiska data är av stort intresse för forskarsamhället. Genom att generera realistiska syntetiska data kan maskininlärningsmodeller få tillgång till stora datamängder som är svåra att samla in i den verkliga världen. I autonoma fordon skulle det krävas tusentals timmars körning för att en maskininlärningsmodell ska lära sig att köra en bil på ett säkerhetskritiskt och effektivt sätt. Användningen av syntetiska data gör det å andra sidan möjligt att simulera många olika körscenarier till en mycket lägre kostnad. I den här avhandlingen undersöks hur Meta-Sim fungerar, en generator för syntetiska data som används för att skapa dataset genom att lära sig av den verkliga världen. Jag utvärderade effekterna av att ersätta stammen från Inception-V3 med stammen från Inception-V4 som den funktionsextraktor som behövs för att bearbeta bilddata. Resultaten visade ett liknande beteende hos modeller som använde stammen från Inception-V4 i stället för Inception- V3. Små skillnader konstaterades när modellen försökte simulera mer komplexa bilder. I dessa fall konvergerade de modeller som använde Inception-V4:s stam på färre iterationer än de som använde Inception-V3, vilket visar att Inception- V4:s beteende är överlägset. I slutändan bevisade jag att Inception-V4 kan användas för att uppnå toppmoderna resultat vid generering av syntetiska data. Dessutom visar jag i specifika fall att Inception-V4 kan överträffa den prestanda som uppnås av Meta-Sim. Resultatet föreslår ytterligare forskning på området för att validera resultaten i större skala.
2

Interpretability of a Deep Learning Model for Semantic Segmentation : Example of Remote Sensing Application

Janik, Adrianna January 2019 (has links)
Understanding a black-box model is a major problem in domains that relies on model predictions in critical tasks. If solved, can help to evaluate the trustworthiness of a model. This thesis proposes a user-centric approach to black-box interpretability. It addresses the problem in semantic segmentation setting with an example of humanitarian remote sensing application for building detection. The question that drives this work was, Can existing methods for explaining black-box classifiers be used for a deep learning semantic segmentation model? We approached this problem with exploratory qualitative research involving a case study and human evaluation. The study showed that it is possible to explain a segmentation model with adapted methods for classifiers but not without a cost. The specificity of the model is likely to be lost in the process. The sole process could include introducing artificial classes or fragmenting image into super-pixels. Other approaches are necessary to mitigate identified drawback. The main contribution of this work is an interactive visualisation approach for exploring learned latent space via a deep segmenter, named U-Net, evaluated with a user study involving 45 respondents. We developed an artefact (accessible online) to evaluate the approach with the survey. It presents an example of this approach with a real-world satellite image dataset. In the evaluation study, the majority of users had a computer science background (80%), including a large percentage of users with machine learning specialisation (44.4% of all respondents). The model distinguishes rurality vs urbanization (58% of users). External quantitative comparison of building densities of each city concerning the location in the latent space confirmed the later. The representation of the model was found faithful to the underlying model (62% of users). Preliminary results show the utility of the pursued approach in the application domain. Limited possibility to present complex model visually requires further investigation. / Att förstå en svartboxmodell är ett stort problem inom domäner som förlitar sig på modellprognoser i kritiska uppgifter. Om det löses, kan det hjälpa till att utvärdera en modells pålitlighet. Den här avhandlingen föreslår en användarcentrisk strategi för svartboxtolkbarhet. Den tar upp problemet i semantisk segmentering med ett exempel på humanitär fjärranalysapplikation för byggnadsdetektering. Frågan som driver detta arbete var: Kan befintliga metoder för att förklara svartruta klassificerare användas för en djup semantisk segmenteringsmodell? Vi närmade oss detta problem med utforskande kvalitativ forskning som involverade en fallstudie och mänsklig utvärdering. Studien visade att det är möjligt att förklara en segmenteringsmodell med anpassade metoder för klassificerare men inte utan kostnad. Modellens specificitet kommer sannolikt att gå förlorad i processen. Den enda processen kan inkludera införande av konstgjorda klasser eller fragmentering av bild i superpixlar. Andra tillvägagångssätt är nödvändiga för att mildra identifierad nackdel. Huvudbidraget i detta arbete är en interaktiv visualiseringsmetod för att utforska lärt latent utrymme via en djup segmenter, benämnd U-Net, utvärderad med en användarstudie med 45 svarande. Vi utvecklade en artefakt (tillgänglig online) för att utvärdera tillvägagångssättet med undersökningen. Den presenterar ett exempel på denna metod med en verklig satellitbilddatasats. I utvärderingsstudien hade majoriteten av användarna en datavetenskaplig bakgrund (80%), inklusive en stor andel användare med specialisering av maskininlärning (44,4 % av alla svarande). Modellen skiljer ruralitet och urbanisering (58 % av användarna). Den externa kvantitativa jämförelsen av byggnadstätheten i varje stad angående platsen i det latenta utrymmet bekräftade det senare. Representationen av modellen visade sig vara trogen mot den underliggande modellen (62% av användarna). Preliminära resultat visar användbarheten av den eftersträvade metoden inom applikationsdomänen. Begränsad möjlighet att presentera komplexa modeller visuellt kräver ytterligare utredning.
3

Machine Learning and Computer Vision for PCB Verification

Yang, Chen January 2020 (has links)
Digitizing printed circuit boards (PCB) from images with computer science techniques is efficient in analyzing the PCB circuit. This automatic optic processing could help electronic engineers have a faster and more in-depth insight into complex multilayer PCB. This automatic optic processing could help electronic engineers have a faster and more in-depth insight of complex multi- layer PCB. In this thesis, multiple machine learning and computer vision methods for extracting PCB circuits are investigated, designed, and tested with real- world PCB data. PCB image dataset is collected by professional delayer engineers, that consist of every layer of PCB and Xray 3D models of the whole PCB. Region of interest (RoI) cropping and image alignment are applied firstly as in the pre- process stage. Detection and localization of electronic components are implemented with deep learning networks (Faster RCNN), unsupervised machine learning clustering (XOR-based K- means), and multiple template matching, their accuracy results are 71.2%, 82.3% and 96.5%, respectively. For the multilayer circuit extraction, the metallic print circuit is segmented in YCbCr color space, then the connection of every circuit net is obtained. / Digitalisering av tryckta kretskort (PCB) från bilder med datavetenskapstekniker är effektivt för att analysera PCB: s kretsar. Denna automatiska optiska bearbetning kan hjälpa elektroniska ingenjörer att få en snabbare och mer djupgående inblick i komplexa flerlagers PCB. I denna avhandling undersöks, designas och testas flera maskininlärnings- och datorvisionsmetoder för att extrahera PCB- kretsar med verkliga PCB- data. PCB- bilddataset samlas av professionella de-layer-ingenjörer, som består av varje lager av PCB och röntgen 3Dmodeller av hela PCB. Beskärning av region av intresse (RoI) och bildjustering tillämpas först som i förprocessstadiet. Upptäckt och lokalisering av elektroniska komponenter implementeras med djupinlärningsnätverk (Faster RCNN), utan tillsyn av maskininlärningskluster (XOR- based K- means) och flera mallmatchningar. För extraktion med flera lager kretsar är den metalliska utskriftskretsen segmenterad i YCbCr- färgutrymme, då erhålls anslutningen av varje kretsnät.
4

Embedded Implementation of Lane Keeping Functionality Using CNN

Bark, Filip January 2018 (has links)
The interest in autonomous vehicles has recently increased and as a consequence many companies and researchers have begun working on their own solutions to many of the issues that ensue when a car has to handle complicated decisions on its own. This project looks into the possibility of relegating as many decisions as possible to only one sensor and engine control unit (ECU) — in this work, by letting a Raspberry Pi with a camera attached control a vehicle following a road. To solve this problem, image processing, or more specifically, machine learning’s convolutional neural networks (CNN) are utilized to steer a car by monitoring the path with a single camera. The proposed CNN is designed and implemented using a machine learning library for Python known as Keras. The design of the network is based on the famous Lenet, but has been downscaled to increase computation speed and to reduce memory size while still maintaining a sufficient accuracy. The network was run on the ECU, which in turn was fastened to a RC car together with the camera. For control purposes wires were soldered to the remote controller and connected to the Raspberry Pi. As concerns steering, a simple bang-bang controller was implemented. Glass box testing was used to assess the effectiveness of the code, and to guarantee a continuous evaluation of the results. To satisfy the network’s requirements in terms of both accuracy and computation speed larger experiments were performed. The final experiments showed that the network achieved sufficient accuracy and performance to steer the prototype car in real time tasks, such as following model roads and stopping at the end of the path, as planned. This shows that despite being small with moderate accuracy, this CNN can handle the task of lane-keeping using only the data of one single camera. Since the CNN could do this while running on a small computer such as the Raspberry Pi, it has been observed that using a CNN for a lane-keeping algorithm in an embedded system looks promising. / På senare tid så har intresset angående självkörande bilar ökat. Detta har lett till att många företag och forskare har börjat jobbat på sina egna lösningar till den myriad av problem som upstår när en bil behöver ta komplicerade beslut på egen hand. Detta projekt undersöker möjligheten att lämna så många av dessa beslut som möjligt till en enda sensor och processor. I detta fall så blir det en Raspberry Pi (RPI) och en kamera som sätts på en radiostyrd bil och skall följa en väg. För att implementera detta så används bildbehandling, eller mer specifikt, convolutional neural networks (CNN) från maskininlärning för att styra bilen med en enda kamera. Det utvecklade nätverket är designat och implementerat med ett bibliotek för maskininlärning i Python som kallas för Keras. Nätverkets design är baserat på det berömda Lenet men den har skalats ner för att öka prestandan och minska storleken som nätverket tar men fortfarande uppnå en anständing träffsäkerhet. Nätverket körs på RPIn, vilken i sin tur är fastsatt på en radiostyrd bil tillsammans med kameran. Kablar har kopplats och blivit lödda mellan RPIn och handkontrollen till radiostyrda bilen så att RPIn kan styra bilen. Själva styrningen lämnats åt en simpel "Bang Bang controller". Utvärdering av nätvärket och prototypen utfördes löpande under projektets gång, enhetstester gjordes enligt glasboxmetoden för att testa och verifiera olika delar av koden. Större experiment gjordes för att säkerställa att nätverket presterar som förväntat i olika situationer. Det slutgiltiga experimentet fastställde att nätverket uppfyller en acceptabel träffsäkerhet och kan styra prototypen utan problem när denne följer olika vägar samt att den kan stanna i de fall den behöver. Detta visar att trots den begränsade storleken på nätverket så kunde det styra en bil baserat på datan från endast en sensor. Detta var dessutom möjligt när man körde nätverket på en liten och svag dator som en RPI, detta visar att CNN var kraftfulla nog i det här fallet.
5

Graphical Glitch Detection in Video Games Using CNNs / Användning av CNNs för att upptäcka felaktiga bilder i videospel

García Ling, Carlos January 2020 (has links)
This work addresses the following research question: Can we detect videogame glitches using Convolutional Neural Networks? Focusing on the most common types of glitches, texture glitches (Stretched, Lower Resolution, Missing, and Placeholder). We first systematically generate a dataset with both images with texture glitches and normal samples.  To detect the faulty images we try both Classification and Semantic Segmentation approaches, with a clear focus on the former. The best setting in classification uses a ShuffleNetV2 architecture and obtains precisions of 80.0%, 64.3%, 99.2%, and 97.0% in the respective glitch classes Stretched, Lower Resolution, Missing, and Placeholder. All of this with a low false positive rate of 6.7%. To complement this study, we also discuss how the models extrapolate to different graphical environments, which are the main sources of confusion for the model, how to estimate the confidence of the network, and ways to interpret the internal behavior of the models. / Detta projekt svarar på följande forskningsfråga: Kan man använda Convolutional Neural Networks för att upptäcka felaktiga bilder i videospel? Vi fokuserar på de vanligast förekommande grafiska defekter i videospel, felaktiga textures (sträckt, lågupplöst, saknas och platshållare). Med hjälp av en systematisk process genererar vi data med både normala och felaktiga bilder. För att hitta defekter använder vi CNN via både Classification och Semantic Segmentation, med fokus på den första metoden. Den bäst presterande Classification-modellen baseras på ShuffleNetV2 och når 80.0%, 64.3%, 99.2% och 97.0% precision på respektive sträckt-, lågupplöst-, saknas- och platshållare-buggar. Detta medan endast 6.7% av negativa datapunkter felaktigt klassifieras som positiva. Denna undersökning ser även till hur modellen generaliserar till olika grafiska miljöer, vilka de primära orsakerna till förvirring hos modellen är, hur man kan bedöma säkerheten i nätverkets prediktion och hur man bättre kan förstå modellens interna struktur.
6

Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv Objektdetektering

Berta, Benjamin István January 2021 (has links)
Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk.
7

Mobile-based 3D modeling : An indepth evaluation for the application to maintenance and supervision

De Pellegrini, Martin January 2021 (has links)
Indoor environment modeling has become a relevant topic in several applications fields including Augmented, Virtual and Mixed Reality. Furthermore, with the Digital Transformation, many industries have moved toward this technology trying to generate detailed models of an environment allowing the viewers to navigate through it or mapping surfaces to insert virtual elements in a real scene. Therefore, this Thesis project has been conducted with the purpose to review well- established deterministic methods for 3D scene reconstruction and researching the state- of- the- art, such as machine learning- based approaches, and a possible implementation on mobile devices. Initially, we focused on the well- established methods such as Structure from Motion (SfM) that use photogrammetry to estimate camera poses and depth using only RGB images. Lastly, the research has been centered on the most innovative methods that make use of machine learning to predict depth maps and camera poses from a video stream. Most of the methods reviewed are completely unsupervised and are based on a combination of two subnetwork, the disparity network (DispNet) for the depth estimation and pose network (PoseNet) for camera pose estimation. Despite the fact that the results in outdoor application show high quality depth map and and reliable odometry, there are still some limitations for the deployment of this technology in indoor environment. Overall, the results are promising. / Modellering av inomhusmiljö har blivit ett relevant ämne inom flera applikationsområden, inklusive Augmented, Virtual och Mixed Reality. Dessutom, med den digitala transformationen, har många branscher gått mot denna teknik som försöker generera detaljerade modeller av en miljö som gör det möjligt för tittarna att navigera genom den eller kartlägga ytor för att infoga virtuella element i en riktig scen. Därför har detta avhandlingsprojekt genomförts med syftet att granska väletablerade deterministiska metoder för 3Dscenrekonstruktion och undersöka det senaste inom teknik, såsom maskininlärningsbaserade metoder och en möjlig implementering på mobil. Inledningsvis fokuserade vi på de väletablerade metoderna som Structure From Motion (SfM) som använder fotogrammetri för att uppskatta kameraställningar och djup med endast RGBbilder. Slutligen har forskningen varit inriktad på de mest innovativa metoderna som använder maskininlärning för att förutsäga djupkartor och kameraposer från en videoström. De flesta av de granskade metoderna är helt utan tillsyn och baseras på en kombination av två undernätverk, skillnadsnätverket (DispNet) för djupuppskattning och posenätverk (PoseNet) för kameraposestimering. Trots att resultaten i utomhusanvändning visar djupkarta av hög kvalitet och tillförlitlig vägmätning, finns det fortfarande vissa begränsningar för användningen av denna teknik i inomhusmiljön, men ändå är resultaten lovande.
8

Pushing the boundary of Semantic Image Segmentation

Jain, Shipra January 2020 (has links)
The state-of-the-art object detection and image classification methods can perform impressively on more than 9k classes. In contrast, the number of classes in semantic segmentation datasets are fairly limited. This is not surprising , when the restrictions caused by the lack of labeled data and high computation demand are considered. To efficiently perform pixel-wise classification for c number of classes, segmentation models use cross-entropy loss on c-channel output for each pixel. The computational demand for such prediction turns out to be a major bottleneck for higher number of classes. The major goal of this thesis is to reduce the number of channels of the output prediction, thus allowing to perform semantic segmentation with very high number of classes. The reduction of dimension has been approached using metric learning for the semantic feature space. The metric learning provides us the mapping from pixel to embedding with minimal, still sufficient, number of dimensions. Our proposed approximation of groundtruth class probability for cross entropy loss helps the model to place the embeddings of same class pixels closer, reducing inter-class variabilty of clusters and increasing intra-class variability. The model also learns a prototype embedding for each class. In loss function, these class embeddings behave as positive and negative samples for pixel embeddings (anchor). We show that given a limited computational memory and resources, our approach can be used for training a segmentation model for any number of classes. We perform all experiments on one GPU and show that our approach performs similar and in some cases slightly better than deeplabv3+ baseline model for Cityscapes and ADE20K dataset. We also perform experiments to understand trade-offs in terms of memory usage, inference time and performance metrics. Our work helps in alleviating the problem of computational complexity, thus paving the way for image segmentation task with very high number of semantic classes. / De ledande djupa inlärningsmetoderna inom objektdetektion och bildklassificering kan hantera väl över 9000 klasser. Inom semantisk segmentering är däremot antalet klasser begränsat för vanliga dataset. Detta är inte förvånande då det behövs mycket annoterad data och beräkningskraft. För att effektivt kunna göra en pixelvis klassificering av c klasser, använder segmenteringsmetoder den s.k. korsentropin över c sannolikhets värden för varje pixel för att träna det djupa nätverket. Beräkningskomplexiteten från detta steg är den huvudsakliga flaskhalsen för att kunna öka antalet klasser. Det huvudsakliga målet av detta examensarbete är att minska antalet kanaler i prediktionen av nätverket för att kunna prediktera semantisk segmentering även vid ett mycket högt antal klasser. För att åstadkomma detta används metric learning för att träna slutrepresentationen av nätet. Metric learning metoden låter oss träna en representation med ett minimalt, men fortfarande tillräckligt antal dimensioner. Vi föreslår en approximation av korsentropin under träning som låter modellen placera representationer från samma klass närmare varandra, vilket reducerar interklassvarians och öka intraklarrvarians. Modellen lär sig en prototyprepresentation för varje klass. För inkärningskostnadsfunktionen ses dessa prototyper som positiva och negativa representationer. Vi visar att vår metod kan användas för att träna en segmenteringsmodell för ett godtyckligt antal klasser givet begränsade minnes- och beräkningsresurser. Alla experiment genomförs på en GPU. Vår metod åstadkommer liknande eller något bättre segmenteringsprestanda än den ursprungliga deeplabv3+ modellen på Cityscapes och ADE20K dataseten. Vi genomför också experiment för att analysera avvägningen mellan minnesanvändning, beräkningstid och segmenteringsprestanda. Vår metod minskar problemet med beräkningskomplexitet, vilket banar väg för segmentering av bilder med ett stort antal semantiska klasser.
9

Development of a Real-Time Safety System for Robotic Arms Using Computer Vision and Predictive Modeling : Enhancing Industrial Safety through YOLOv8, Kalman Filtering, and Dead Reckoning

Arabzadeh, Koray Aman January 2024 (has links)
I industriella miljöer är det avgörande att säkerställa människors säkerhet runt robotarmar för att förhindra allvarliga skador vid olyckor. Denna studie syftar till att utveckla ett realtidssystem för fara-detektering som använder datorseende och prediktiva modeller för att förbättra säkerheten. Genom att kombinera YOLOv8-algoritmen för objektigenkänning med Kalmanfiltrering (KF) och Dead Reckoning (DR) kan systemet upptäcka människors närvaro och förutsäga rörelser för att minska risken för olyckor. Det första experimentet visar att KF presterar bättre än DR, särskilt vid linjära rörelser, med lägre medelabsolutfel (MAE) och medelkvadratfel (MSE). Det andra experimentet visar att integrationen av KF med YOLOv8 resulterar i högre precision, noggrannhet och balanserad noggrannhet, även om återkallning fortfarande behöver förbättras. Dessa resultat indikerar att kombinationen av datorseende och prediktiva modeller har betydande potential att förbättra människors säkerhet. Ytterligare forskning och tester i olika scenarier är dock nödvändiga innan implementering i verkliga miljöer. / In industrial environments, ensuring human safety around robotic arms is crucial to prevent severe injuries from accidents. This study aims to develop a real-time hazard detection system using computer vision and predictive modeling techniques to improve safety. By combining the YOLOv8 object detection algorithm with Kalman Filtering (KF) and Dead Reckoning (DR), the system can detect human presence and predict movements to reduce the risk of accidents. The first experiment shows that KF outperforms DR, especially in linear movements, with lower Mean Absolute Error (MAE) and Mean Squared Error (MSE). The second experiment demonstrates that integrating KF with YOLOv8 results in higher precision, accuracy, and balanced accuracy, although recall still needs improvement. These findings indicate that combining computer vision with predictive modeling has significant potential to enhance human safety. However, further research and testing in diverse scenarios are necessary before real-world deployment.
10

Data Collection and Layout Analysis on Visually Rich Documents using Multi-Modular Deep Learning.

Stahre, Mattias January 2022 (has links)
The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. / Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN.

Page generated in 0.0513 seconds