Spelling suggestions: "subject:"transformer network"" "subject:"ransformer network""
1 |
Estimating Football Position from Context / Uppskattning av en fotbolls position utifrån kontextQueiroz Gongora, Lucas January 2021 (has links)
Tracking algorithms provide the model to recognize objects’ motion in the past. Moreover, applied to an artificial intelligence algorithm, these algorithms allow, to some degree, the capacity to forecast the future position of an object. This thesis uses deep learning algorithms to predict the ball’s position in the three-dimensional (3D) Cartesian space given the players’ motion and referees on the 2D space. The algorithms implemented are the encoder-decoder attention-based Transformer and the Inception Time, which is comprised of an ensemble of Convolutional Neural Networks. They are compared to each other under different parametrizations to understand their ability to capture temporal and spatial aspects of the tracking data on the ball prediction. The Inception Time proved to be more inconsistent on different areas of the pitches, especially on the end-lines and corners, motivating the decision to choose the Transformer network as the optimal algorithm to predict the ball position since it achieved less volatile errors on the pitch. / Spårningsalgoritmer möjliggör för modellen att känna igen objekts tidigare rörelser. Dessutom om tillämpad till en Artificiell intelligensalgoritm, de tillåter till viss mån att prognostisera ett objekts framtida position. Detta examensarbete använder djupinlärningsalgoritmer för att förutsäga bollens position i det tredimensionella (3D) kartesiska utrymmet baserat på spelarnas och domarnas rörelse i 2D-rymden. De implementerade algoritmerna är den kodare-avkodare-uppmärksamhetsbaserade Transformer och Inception Time, som består av en sammansättning faltningsnätverk (CNN). De jämförs med varandra med olika parametriseringar för att se deras förmåga att fånga upp tidsmässiga och rumsliga aspekter av spårningsdata för att förutsäga bollens rörelse. Inception Time visade sig vara mer inkonsekvent på olika områden på planen. Det var extra tydligt på slutlinjerna och i hörnen. Det motiverade beslutet att välja Transformer-nätverket som den optimala algoritmen för att förutsäga bollpositionen, eftersom den resulterade i färre ojämna fel på planen.
|
2 |
Rozpoznávání historických textů pomocí hlubokých neuronových sítí / Convolutional Networks for Historic Text RecognitionKišš, Martin January 2018 (has links)
The aim of this work is to create a tool for automatic transcription of historical documents. The work is mainly focused on the recognition of texts from the period of modern times written using font Fraktur. The problem is solved with a newly designed recurrent convolutional neural networks and a Spatial Transformer Network. Part of the solution is also an implemented generator of artificial historical texts. Using this generator, an artificial data set is created on which the convolutional neural network for line recognition is trained. This network is then tested on real historical lines of text on which the network achieves up to 89.0 % of character accuracy. The contribution of this work is primarily the newly designed neural network for text line recognition and the implemented artificial text generator, with which it is possible to train the neural network to recognize real historical lines of text.
|
3 |
Data Collection and Layout Analysis on Visually Rich Documents using Multi-Modular Deep Learning.Stahre, Mattias January 2022 (has links)
The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. / Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN.
|
Page generated in 0.062 seconds