Global ETD Search

201	Data Collection and Layout Analysis on Visually Rich Documents using Multi-Modular Deep Learning. Stahre, Mattias January 2022 (has links) The use of Deep Learning methods for Document Understanding has been embraced by the research community in recent years. A requirement for Deep Learning methods and especially Transformer Networks, is access to large datasets. The objective of this thesis was to evaluate a state-of-the-art model for Document Layout Analysis on a public and custom dataset. Additionally, the objective was to build a pipeline for building a dataset specifically for Visually Rich Documents. The research methodology consisted of a literature study to find the state-of-the-art model for Document Layout Analysis and a relevant dataset used to evaluate the chosen model. The literature study also included research on how existing datasets in the domain were collected and processed. Finally, an evaluation framework was created. The evaluation showed that the chosen multi-modal transformer network, LayoutLMv2, performed well on the Docbank dataset. The custom build dataset was limited by class imbalance, although good performance for the larger classes. The annotator tool and its auto-tagging feature performed well and the proposed pipelined showed great promise for creating datasets with Visually Rich Documents. In conclusion, this thesis project answers the research questions and suggests two main opportunities. The first is to encourage others to build datasets with Visually Rich Documents using a similar pipeline to the one presented in this paper. The second is to evaluate the possibility of creating the visual token information for LayoutLMv2 as part of the transformer network rather than using a separate CNN. / Användningen av Deep Learning-metoder för dokumentförståelse har anammats av forskarvärlden de senaste åren. Ett krav för Deep Learning-metoder och speciellt Transformer Networks är tillgång till stora datamängder. Syftet med denna avhandling var att utvärdera en state-of-the-art modell för analys av dokumentlayout på en offentligt tillgängligt dataset. Dessutom var målet att bygga en pipeline för att bygga en dataset specifikt för Visuallt Rika Dokument. Forskningsmetodiken bestod av en litteraturstudie för att hitta modellen för Document Layout Analys och ett relevant dataset som användes för att utvärdera den valda modellen. Litteraturstudien omfattade också forskning om hur befintliga dataset i domänen samlades in och bearbetades. Slutligen skapades en utvärderingsram. Utvärderingen visade att det valda multimodala transformatornätverket, LayoutLMv2, fungerade bra på Docbank-datasetet. Den skapade datasetet begränsades av klassobalans även om bra prestanda för de större klasserna erhölls. Annotatorverktyget och dess autotaggningsfunktion fungerade bra och den föreslagna pipelinen visade sig vara mycket lovande för att skapa dataset med VVisuallt Rika Dokument.svis besvarar detta examensarbete forskningsfrågorna och föreslår två huvudsakliga möjligheter. Den första är att uppmuntra andra att bygga datauppsättningar med Visuallt Rika Dokument med en liknande pipeline som den som presenteras i denna uppsats. Det andra är att utvärdera möjligheten att skapa den visuella tokeninformationen för LayoutLMv2 som en del av transformatornätverket snarare än att använda en separat CNN. DeepLearning Machine Learning Dataset Collection Annotation Labeling Transformer Network Multi-Modal Computer Vision Natural Language Processing Embedding LayoutLMv2 DocBank Djupinlärning Maskininlärning Datasamling Annotering Märkning Transformernätverk Multi-modulär Datorsyn Naturlig Språkbehandling Inbäddning LayoutLMv2 DocBank Computer Sciences Datavetenskap (datalogi)
202	Automatic Question Paraphrasing in Swedish with Deep Generative Models / Automatisk frågeparafrasering på svenska med djupa generativa modeller Lindqvist, Niklas January 2021 (has links) Paraphrase generation refers to the task of automatically generating a paraphrase given an input sentence or text. Paraphrase generation is a fundamental yet challenging natural language processing (NLP) task and is utilized in a variety of applications such as question answering, information retrieval, conversational systems etc. In this study, we address the problem of paraphrase generation of questions in Swedish by evaluating two different deep generative models that have shown promising results on paraphrase generation of questions in English. The first model is a Conditional Variational Autoencoder (C-VAE) and the other model is an extension of the first one where a discriminator network is introduced into the model to form a Generative Adversarial Network (GAN) architecture. In addition to these models, a method not based on machine-learning was implemented to act as a baseline. The models were evaluated using both quantitative and qualitative measures including grammatical correctness and equivalence to source question. The results show that the deep generative models outperformed the baseline across all quantitative metrics. Furthermore, from the qualitative evaluation it was shown that the deep generative models outperformed the baseline at generating grammatically correct sentences, but there was no noticeable difference in terms of equivalence to the source question between the models. / Parafrasgenerering syftar på uppgiften att, utifrån en given mening eller text, automatiskt generera en parafras, det vill säga en annan text med samma betydelse. Parafrasgenerering är en grundläggande men ändå utmanande uppgift inom naturlig språkbehandling och används i en rad olika applikationer som informationssökning, konversionssystem, att besvara frågor givet en text etc. I den här studien undersöker vi problemet med parafrasgenerering av frågor på svenska genom att utvärdera två olika djupa generativa modeller som visat lovande resultat på parafrasgenerering av frågor på engelska. Den första modellen är en villkorsbaserad variationsautokodare (C-VAE). Den andra modellen är också en C-VAE men introducerar även en diskriminator vilket gör modellen till ett generativt motståndarnätverk (GAN). Förutom modellerna presenterade ovan, implementerades även en icke maskininlärningsbaserad metod som en baslinje. Modellerna utvärderades med både kvantitativa och kvalitativa mått inklusive grammatisk korrekthet och likvärdighet mellan parafras och originalfråga. Resultaten visar att de djupa generativa modellerna presterar bättre än baslinjemodellen på alla kvantitativa mätvärden. Vidare, visade the kvalitativa utvärderingen att de djupa generativa modellerna kunde generera grammatiskt korrekta frågor i större utsträckning än baslinjemodellen. Det var däremot ingen större skillnad i semantisk ekvivalens mellan parafras och originalfråga för de olika modellerna. Paraphrase Generation Variational Autoencoder Generative Adversarial Networks Natural Language Generation Deep Learning Word Embeddings Parafrasgenerering Variational Autoencoder generativa adversariala nätverk naturlig språkgenerering djupinlärning ordinbäddning Computer and Information Sciences Data- och informationsvetenskap
203	Visual Attention Guided Adaptive Quantization for x265 using Deep Learning / Visuellt fokus baserad adaptiv kvantisering för x265 med djup inlärning Gärde, Mikaela January 2023 (has links) The video on demand streaming is raising drastically in popularity, bringing new challenges to the video coding field. There is a need for new video coding techniques that improve performance and reduce the bitrates. One of the most promising areas of research is perceptual video coding where attributes of the human visual system are considered to minimize visual redundancy. The visual attention only makes it possible for humans to focus on a smaller region at the time, which is led by different cues, and with deep neural networks it has become possible to create high-accuracy models of this. The purpose of this study is therefore to investigate how adaptive quantization (AQ) based on a deep visual attention model can be used to improve the subjective video quality for low bitrates. A deep visual attention model was integrated into the encoder x265 to control how the bits are distributed on frame level by adaptively setting the quantization parameter. The effect on the subjective video quality was evaluated through A/B testing where the solution was compared to one of the standard methods for AQ in x265. The results show that the ROI-based AQ was perceived to be of better quality in one out of ten cases. The results can partly be explained by certain methodological choices, but also highlights a need for more research on how to make use of visual attention modeling in more complex real-world streaming scenarios to make streaming content more accessible and reduce bitrates. / "Video on demand"-streamingen ökar kraftigt i popularitet vilket skapar nya utmaningar inom video kodning. Det finns ett behov av nya videokodningstekniker som ökar prestanda och reducerar bithastigheten. Ett av de mest lovade forskningsområdena är perceptuell videokodning där man tar hänsyn till synens egenskaper för att minimera visuell redundans. Det visuella fokuset gör att människan bara kan fokusera på ett mindre områden åt gången, lett av olika typer av signaler, och med hjälp av djupa neurala nätverk har det blivit möjligt att skapa välpresterande modeller av det. Syftet med denna studie är därför att undersöka hur adaptiv kvantisering baserat på en djupinlärningsmodell av visuellt fokus kan användas för att förbättra den subjektiva videokvaliteten för låga bithastigheter. En djup modell av visuellt fokus var integrerad i videokodaren x265 för att kontrollera hur bitarna ditribueras på bildnivå genom att adaptivt sätta kvantiseringsparametern. Den subjektiva videokvaliteten utvärderades genom A/B tester där lösningen jämfördes med en standardmetod för adaptiv kvantisering i x265. Resultaten visar att den visuellt fokus-baserade adaptiva kvantiseringen upplevdes ge bättre kvalitet i ett av tio fall. Detta resultat kan delvis förklaras av vissa metodval, men visar också på ett behov för mer forskning på hur modeller för visuellt fokus kan användas i mer komplexa och verkliga streamingscenarion för att kunna göra innehållet mer tillgängligt och reducera bithastigheten. video encoding deep learning visual attention adaptive quantization videokodning djupinlärning visuellt fokus adaptiv kvantisering Computer Sciences Datavetenskap (datalogi) Media and Communication Technology Medieteknik Computer and Information Sciences Data- och informationsvetenskap
204	LSTM-based Directional Stock Price Forecasting for Intraday Quantitative Trading / LSTM-baserad aktieprisprediktion för intradagshandel Mustén Ross, Isabella January 2023 (has links) Deep learning techniques have exhibited remarkable capabilities in capturing nonlinear patterns and dependencies in time series data. Therefore, this study investigates the application of the Long-Short-Term-Memory (LSTM) algorithm for stock price prediction in intraday quantitative trading using Swedish stocks in the OMXS30 index from February 28, 2013, to March 1, 2023. Contrary to previous research [12, 32] suggesting that past movements or trends in stock prices cannot predict future movements, our analysis finds limited evidence supporting this claim during periods of high volatility. We discover that incorporating stock-specific technical indicators does not significantly enhance the predictive capacity of the model. Instead, we observe a trade-off: by removing the seasonal component and leveraging feature engineering and hyperparameter tuning, the LSTM model becomes proficient at predicting stock price movements. Consequently, the model consistently demonstrates high accuracy in determining price direction due to consistent seasonality. Additionally, training the model on predicted return differences, rather than the magnitude of prices, further improves accuracy. By incorporating a novel long-only and long-short trading strategy using the one-day-ahead predictive price, our model effectively captures stock price movements and exploits market inefficiencies, ultimately maximizing portfolio returns. Consistent with prior research [14, 15, 31, 32], our LSTM model outperforms the ARIMA model in accurately predicting one-day-ahead stock prices. Portfolio returns consistently outperforms the stock market index, generating profits over the entire time period. The optimal portfolio achieves an average daily return of 1.2%, surpassing the 0.1% average daily return of the OMXS30 Index. The algorithmic trading model demonstrates exceptional precision with a 0.996 accuracy rate in executing trades, leveraging predicted directional stock movements. The algorithmic trading model demonstrates an impressive 0.996 accuracy when executing trades based on predicted directional stock movements. This remarkable performance leads to cumulative and annualized excessive returns that surpass the index return for the same period by a staggering factor of 800. / Djupinlärningstekniker har visat en enastående förmåga att fånga icke-linjära mönster och samband i tidsseriedata. Med detta som utgångspunkt undersöker denna studie användningen av Long-Short-Term-Memory (LSTM)-algoritmen för att förutsäga aktiepriser med svenska aktier i OMXS30-indexet från den 28 februari 2013 till den 1 mars 2023. Vår analys finner begränsat stöd till tidigare forskning [12, 32] som hävdar att historisk aktierörelse eller trend inte kan användas för att prognostisera framtida mönster. Genom att inkludera aktiespecifika tekniska indikatorer observerar vi ingen betydande förbättring i modellens prognosförmåga. genom att extrahera den periodiska komponenten och tillämpa metoder för egenskapskonstruktion och optimering av hyperparametrar, lär sig LSTM-modellen användbara egenskaper och blir därmed skicklig på att förutsäga akrieprisrörelser. Modellen visar konsekvent högre noggrannhet när det gäller att bestämma prisriktning på grund av den regelbundna säsongsvariationen. Genom att träna modellen att förutse avkastningsskillnader istället för absoluta prisvärden, förbättras noggrannheten avsevärt. Resultat tillämpas sedan på intradagshandel, där förutsagda stängningspriser för nästkommande dag integreras med både en lång och en lång-kort strategi. Vår modell lyckas effektivt fånga aktieprisrörelser och dra nytta av ineffektiviteter på marknaden, vilket resulterar i maximal portföljavkastning. LSTM-modellen är överlägset bättre än ARIMA-modellen när det gäller att korrekt förutsäga aktiepriser för nästkommande dag, i linje med tidigare forskning [14, 15, 31, 32], är . Resultat från intradagshandeln visar att LSTM-modellen konsekvent genererar en bättre portföljavkastning jämfört med både ARIMA-modellen och dess jämförelseindex. Dessutom uppnår strategin positiv avkastning under hela den analyserade tidsperioden. Den optimala portföljen uppnår en genomsnittlig daglig avkastning på 1.2%, vilket överstiger OMXS30-indexets genomsnittliga dagliga avkastning på 0.1%. Handelsalgoritmen är oerhört exakt med en korrekthetsnivå på 0.996 när den genomför affärer baserat på förutsagda rörelser i aktiepriset. Detta resulterar i en imponerande avkastning som växer exponentiellt och överträffar jämförelseindex med en faktor på 800 under samma period. Deep Learning Long-Short-Term-Memory (LSTM) ARIMA Financial Time Series Forecasting Algorithmic Trading Intraday Trading Stock Prediction Djupinlärning LSTM ARIMA finansiella tidsserier algoritmisk aktiehandel intradagshandel aktieprediktion Computer and Information Sciences Data- och informationsvetenskap
205	Improving accuracy of speech recognition for low resource accents : Testing the performance of fine-tuned Wav2vec2 models on accented Swedish / Förbättrad taligenkänning för lågresurs-brytningar : Testning av prestandan för finjusterade Wav2vec2-modeller på bryten svenska Dabiri, Arash January 2023 (has links) While the field of speech recognition has recently advanced quickly, even the highest performing models struggle with accents. There are several methods of improving the performance on accents, but many are hard to implement or need high amounts of data and are therefore costly to implement. Therefore, examining the performance of the Wav2vec2 architecture, which previously has performed well on small amounts of labeled data, becomes relevant. Using a model trained in Swedish, this thesis fine-tunes the model on small datasets of three Swedish accents, to create both accent-dependent specialized models as well as an accent-independent general model. The specialized models perform better than the original model, and the general model performs approximately as well as each specialized model without sacrificing performance on non-accented Swedish. This means that the Wav2vec2 framework offers a low cost method of improving speech recognition that can be used to improve private and public services for larger parts of the population. / Trots att området för taligenkänning nyligen har avancerat snabbt, presterar även de bästa modellerna sämre vid språk med utländsk brytning. Det finns flera metoder för att förbättra prestandan på accenter, men många är komplexa eller behöver stora mängder data och är därför dyra att implementera. Därför blir det relevant att undersöka prestandan för Wav2vec2-arkitekturen, som tidigare har presterat väl med små mängder märkt träningsdata. En modell tränad i svenska finjusteras i denna avhandling på tre små datamängder bestående av olika svenska brytningar, för att skapa både brytningsberoende specialiserade modeller såväl som en brytningsoberoende generell modell. De specialiserade modellerna presterar bättre än originalmodellen, och den allmänna modellen presterar ungefär lika bra som varje specialiserad modell utan att ge avkall på prestanda på ickebruten svenska. Detta innebär att ramverket Wav2vec2 erbjuder en lågkostnadsmetod för att förbättra taligenkänning som kan användas för att förbättra privata och offentliga tjänster för större delar av befolkningen. Speech-to-text deep learning accents wav2vec tal-till-text djupinlärning brytningar wav2vec Computer Sciences Datavetenskap (datalogi) Computer and Information Sciences Data- och informationsvetenskap
206	Submap Correspondences for Bathymetric SLAM Using Deep Neural Networks / Underkarta Korrespondenser för Batymetrisk SLAM med Hjälp av Djupa Neurala Nätverk Tan, Jiarui January 2022 (has links) Underwater navigation is a key technology for exploring the oceans and exploiting their resources. For autonomous underwater vehicles (AUVs) to explore the marine environment efficiently and securely, underwater simultaneous localization and mapping (SLAM) systems are often indispensable due to the lack of the global positioning system (GPS). In an underwater SLAM system, an AUV maps its surroundings and estimates its own pose at the same time. The pose of the AUV can be predicted by dead reckoning, but navigation errors accumulate over time. Therefore, sensors are needed to calibrate the state of the AUV. Among various sensors, the multibeam echosounder (MBES) is one of the most popular ones for underwater SLAM since it can acquire bathymetric point clouds with depth information of the surroundings. However, there are difficulties in data association for seabeds without distinct landmarks. Previous studies have focused more on traditional computer vision methods, which have limited performance on bathymetric data. In this thesis, a novel method based on deep learning is proposed to facilitate underwater perception. We conduct two experiments on place recognition and point cloud registration using data collected during a survey. The results show that, compared with the traditional methods, the proposed neural network is able to detect loop closures and register point clouds more efficiently. This work provides a better data association solution for designing underwater SLAM systems. / Undervattensnavigering är en viktig teknik för att utforska haven och utnyttja deras resurser. För att autonoma undervattensfordon (AUV) ska kunna utforska havsmiljön effektivt och säkert är underwater simultaneous localization and mapping (SLAM) system ofta oumbärliga på grund av bristen av det globala positioneringssystemet (GPS). I ett undervattens SLAM-system kartlägger ett AUV sin omgivning och uppskattar samtidigt sin egen position. AUV:s position kan förutsägas med hjälp av dödräkning, men navigeringsfel ackumuleras med tiden. Därför behövs sensorer för att kalibrera AUV:s tillstånd. Bland olika sensorer är multibeam ekolod (MBES) en av de mest populära för undervattens-SLAM eftersom den kan samla in batymetriska punktmoln med djupinformation om omgivningen. Det finns dock svårigheter med dataassociation för havsbottnar utan tydliga landmärken. Tidigare studier har fokuserat mer på traditionella datorvisionsmetoder som har begränsad prestanda för batymetriska data. I den här avhandlingen föreslås en ny metod baserad på djup inlärning för att underlätta undervattensuppfattning. Vi genomför två experiment på punktmolnregistrering med hjälp av data som samlats in under en undersökning. Resultaten visar att jämfört med de traditionella metoderna kan det föreslagna neurala nätverket upptäcka slingförslutningar och registrera punktmoln mer effektivt. Detta arbete ger en bättre lösning för dataassociation för utformning av undervattens SLAM-system. Multibeam echosounder Point cloud registration Deep learning Multibeam ekolod Punktmolnsregistrering Djupinlärning Computer Sciences Datavetenskap (datalogi) Computer and Information Sciences Data- och informationsvetenskap
207	Image-classification for Brain Tumor using Pre-trained Convolutional Neural Network : Bildklassificering för hjärntumör medhjälp av förtränat konvolutionell tneuralt nätverk Osman, Ahmad, Alsabbagh, Bushra January 2023 (has links) Brain tumor is a disease characterized by uncontrolled growth of abnormal cells inthe brain. The brain is responsible for regulating the functions of all other organs,hence, any atypical growth of cells in the brain can have severe implications for itsfunctions. The number of global mortality in 2020 led by cancerous brains was estimatedat 251,329. However, early detection of brain cancer is critical for prompttreatment and improving patient’s quality of life as well as survival rates. Manualmedical image classification in diagnosing diseases has been shown to be extremelytime-consuming and labor-intensive. Convolutional Neural Networks (CNNs) hasproven to be a leading algorithm in image classification outperforming humans. Thispaper compares five CNN architectures namely: VGG-16, VGG-19, AlexNet, EffecientNetB7,and ResNet-50 in terms of performance and accuracy using transferlearning. In addition, the authors discussed in this paper the economic impact ofCNN, as an AI approach, on the healthcare sector. The models’ performance isdemonstrated using functions for loss and accuracy rates as well as using the confusionmatrix. The conducted experiment resulted in VGG-19 achieving best performancewith 97% accuracy, while EffecientNetB7 achieved worst performance with93% accuracy. / Hjärntumör är en sjukdom som kännetecknas av okontrollerad tillväxt av onormalaceller i hjärnan. Hjärnan är ansvarig för att styra funktionerna hos alla andra organ,därför kan all onormala tillväxt av celler i hjärnan ha allvarliga konsekvenser för dessfunktioner. Antalet globala dödligheten ledda av hjärncancer har uppskattats till251329 under 2020. Tidig upptäckt av hjärncancer är dock avgörande för snabb behandlingoch för att förbättra patienternas livskvalitet och överlevnadssannolikhet.Manuell medicinsk bildklassificering vid diagnostisering av sjukdomar har visat sigvara extremt tidskrävande och arbetskrävande. Convolutional Neural Network(CNN) är en ledande algoritm för bildklassificering som har överträffat människor.Denna studie jämför fem CNN-arkitekturer, nämligen VGG-16, VGG-19, AlexNet,EffecientNetB7, och ResNet-50 i form av prestanda och noggrannhet. Dessutom diskuterarförfattarna i studien CNN:s ekonomiska inverkan på sjukvårdssektorn. Modellensprestanda demonstrerades med hjälp av funktioner om förlust och noggrannhetsvärden samt med hjälp av en Confusion matris. Resultatet av det utfördaexperimentet har visat att VGG-19 har uppnått bästa prestanda med 97% noggrannhet,medan EffecientNetB7 har uppnått värsta prestanda med 93% noggrannhet. Brain tumor Deep learning Convolutional Neural Network (CNN) diagnosis Image classification pre-trained models dataset economic impact. Cancer Hjärntumör Artificiell intelligens (AI) djupinlärning konvolutionellt neuralt nätverk (CNN) Diagnostik Bildklassificering förtränade modeller dataset. Computer Engineering Datorteknik
208	Object Detection via Contextual Information / Objektdetektion via Kontextuell Information Stålebrink, Lovisa January 2022 (has links) Using computer vision to automatically process and understand images is becoming increasingly popular. One frequently used technique in this area is object detection, where the goal is to both localize and classify objects in images. Today's detection models are accurate, but there is still room for improvement. Most models process objects independently and do not take any contextual information into account in the classification step. This thesis will therefore investigate if a performance improvement can be achieved by classifying all objects jointly with the use of contextual information. An architecture that has the ability to learn relationships of this type of information is the transformer. To investigate what performance that can be achieved, a new architecture is constructed where the classification step is replaced by a transformer block. The model is trained and evaluated on document images and shows promising results with a mAP score of 87.29. This value is compared to a mAP of 88.19, which was achieved by the object detector, Mask R-CNN, that the new model is built upon. Although the proposed model did not improve the performance, it comes with some benefits worth exploring further. By using contextual information the proposed model can eliminate the need for Non-Maximum Suppression, which can be seen as a benefit since it removes one hand-crafted process. Another benefit is that the model tends to learn relatively quickly and a single pass over the dataset seems sufficient. The model, however, comes with some drawbacks, including a longer inference time due to the increase in model parameters. The model predictions are also less secure than for Mask R-CNN. With some further investigation and optimization, these drawbacks could be reduced and the performance of the model be improved. computer vision machine learning object detection deep learning contextual information transformers document object detection datorseende maskininlärning objektdetektion djupinlärning kontextuell information transformer detektering av dokumentobjekt
209	Tracking a ball during bounce and roll using recurrent neural networks / Följning av en boll under studs och rull med hjälp av återkopplande neurala nätverk Rosell, Felicia January 2018 (has links) In many types of sports, on-screen graphics such as an reconstructed ball trajectory, can be displayed for spectators or players in order to increase understanding. One sub-problem of trajectory reconstruction is tracking of ball positions, which is a difficult problem due to the fast and often complex ball movement. Historically, physics based techniques have been used to track ball positions, but this thesis investigates using a recurrent neural network design, in the application of tracking bouncing golf balls. The network is trained and tested on synthetically created golf ball shots, created to imitate balls shot out from a golf driving range. It is found that the trained network succeeds in tracking golf balls during bounce and roll, with an error rate of under 11 %. / Grafik visad på en skärm, så som en rekonstruerad bollbana, kan användas i många typer av sporter för att öka en åskådares eller spelares förståelse. För att lyckas rekonstruera bollbanor behöver man först lösa delproblemet att följa en bolls positioner. Följning av bollpositioner är ett svårt problem på grund av den snabba och ofta komplexa bollrörelsen. Tidigare har fysikbaserade tekniker använts för att följa bollpositioner, men i den här uppsatsen undersöks en metod baserad på återkopplande neurala nätverk, för att följa en studsande golfbolls bana. Nätverket tränas och testas på syntetiskt skapade golfslag, där bollbanorna är skapade för att imitera golfslag från en driving range. Efter träning lyckades nätverket följa golfbollar under studs och rull med ett fel på under 11 %. machine learning ML recurrent neural networks RNN deep learning tracking golf bounce synthetic data maskininlärning ML recurrent neural networks RNN djupinlärning följning golf studs syntetiskt data Computer Sciences Datavetenskap (datalogi)
210	The Optimal Hardware Architecture for High Precision 3D Localization on the Edge. : A Study of Robot Guidance for Automated Bolt Tightening. / Den Optimala Hårdvaruarkitekturen för 3D-lokalisering med Hög Precision på Nätverksgränsen. Edström, Jacob, Mjöberg, Pontus January 2019 (has links) The industry is moving towards a higher degree of automation and connectivity, where previously manual operations are being adapted for interconnected industrial robots. This thesis focuses specifically on the automation of tightening applications with pre-tightened bolts and collaborative robots. The use of 3D computer vision is investigated for direct localization of bolts, to allow for flexible assembly solutions. A localization algorithm based on 3D data is developed with the intention to create a lightweight software to be run on edge devices. A restrictive use of deep learning classification is therefore included, to enable product flexibility while minimizing the computational load. The cloud-to-edge and cluster-to-edge trade-offs for the chosen application are investigated to identify smart offloading possibilities to cloud or cluster resources. To reduce operational delay, image partitioning to sub-image processing is also evaluated, to more quickly start the operation with a first coordinate and to enable processing in parallel with robot movement. Four different hardware architectures are tested, consisting of two different Single Board Computers (SBC), a cluster of SBCs and a high-end computer as an emulated local cloud solution. All systems but the cluster is seen to perform without operational delay for the application. The optimal hardware architecture is therefore found to be a consumer grade SBC, being optimized on energy efficiency, cost and size. If only the variance in communication time can be minimized, the cluster shows potential to reduce the total calculation time without causing an operational delay. Smart offloading to deep learning optimized cloud resources or a cluster of interconnected robot stations is found to enable increasing complexity and robustness of the algorithm. The SBC is also found to be able to switch between an edge and a cluster setup, to either optimize on the time to start the operation or the total calculation time. This offers a high flexibility in industrial settings, where product changes can be handled without the need for a change in visual processing hardware, further enabling its integration in factory devices. / Industrin rör sig mot en högre grad av automatisering och uppkoppling, där tidigare manuella operationer anpassas för sammankopplade industriella robotar. Denna masteruppsats fokuserar specifikt på automatiseringen av åtdragningsapplikationer med förmonterade bultar och kollaborativa robotar. Användningen av 3D-datorseende undersöks för direkt lokalisering av bultar, för att möjliggöra flexibla monteringslösningar. En lokaliseringsalgoritm baserad på 3Ddata utvecklas med intentionen att skapa en lätt mjukvara för att köras på Edge-enheter. En restriktiv användning av djupinlärningsklassificering är därmed inkluderad, för att möjliggöra produktflexibilitet tillsammans med en minimering av den behövda beräkningskraften. Avvägningarna mellan edge- och moln- eller klusterberäkning för den valda applikationen undersöks för att identifiera smarta avlastningsmöjligheter till moln- eller klusterresurser. För att minska operationell fördröjning utvärderas även bildpartitionering, för att snabbare kunna starta operationen med en första koordinat och möjliggöra beräkningar parallellt med robotrörelser. Fyra olika hårdvaruarkitekturer testas, bestående av två olika enkortsdatorer, ett kluster av enkortsdatorer och en marknadsledande dator som en efterliknad lokal molnlösning. Alla system utom klustret visar sig prestera utan operationell fördröjning för applikationen. Den optimala hårdvaruarkitekturen visar sig därmed vara en konsumentklassad enkortsdator, optimerad på energieffektivitet, kostnad och storlek. Om endast variansen i kommunikationstid kan minskas visar klustret potential för att kunna reducera den totala beräkningstiden utan att skapa operationell fördröjning. Smart avlastning till djupinlärningsoptimerade molnresurser eller kluster av sammankopplade robotstationer visar sig möjliggöra ökad komplexitet och tillförlitlighet av algoritmen. Enkortsdatorn visar sig även kunna växla mellan en edge- och en klusterkonfiguration, för att antingen optimera för tiden att starta operationen eller för den totala beräkningstiden. Detta medför en hög flexibilitet i industriella sammanhang, där produktändringar kan hanteras utan behovet av hårdvaruförändringar för visuella beräkningar, vilket ytterligare möjliggör dess integrering i fabriksenheter. Computer Vision Robot Guidance Automated Assembly Edge Computing Cloud Computing Cluster Computing Deep Learning Industrial Robots Flexible Automation. Datorseende Robotstyrning Automatiserad Montering Edge-beräkning Molnberäkning Klusterberäkning Djupinlärning Industrirobotar Flexibel Automatisering. Engineering and Technology Teknik och teknologier

Search results