• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 1
  • Tagged with
  • 18
  • 18
  • 17
  • 16
  • 16
  • 14
  • 12
  • 11
  • 10
  • 9
  • 8
  • 8
  • 7
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Using Mask R-CNN for Instance Segmentation of Eyeglass Lenses / Användning av Mask R-CNN för instanssegmentering av glasögonlinser

Norrman, Marcus, Shihab, Saad January 2021 (has links)
This thesis investigates the performance of Mask R-CNN when utilizing transfer learning on a small dataset. The aim was to instance segment eyeglass lenses as accurately as possible from self-portrait images. Five different models were trained, where the key difference was the types of eyeglasses the models were trained on. The eyeglasses were grouped into three types, fully rimmed, semi-rimless, and rimless glasses. 1550 images were used for training, validation, and testing. The model's performances were evaluated using TensorBoard training data and mean Intersection over Union scores (mIoU). No major differences in performance were found in four of the models, which grouped all three types of glasses into one class. Their mIoU scores range from 0.913 to 0.94 whereas the model with one class for each group of glasses, performed worse, with a mIoU of 0.85. The thesis revealed that one can achieve great instance segmentation results using a limited dataset when taking advantage of transfer learning. / Denna uppsats undersöker prestandan för Mask R-CNN vid användning av överföringsinlärning på en liten datamängd. Syftet med arbetet var att segmentera glasögonlinser så exakt som möjligt från självporträttbilder. Fem olika modeller tränades, där den viktigaste skillnaden var de typer av glasögon som modellerna tränades på. Glasögonen delades in i 3 typer, helbåge, halvbåge och båglösa. Totalt samlades 1550 träningsbilder in, dessa annoterades och användes för att träna modellerna.  Modellens prestanda utvärderades med TensorBoard träningsdata samt genomsnittlig Intersection over Union (IoU). Inga större skillnader i prestanda hittades mellan modellerna som endast tränades på en klass av glasögon. Deras genomsnittliga IoU varierar mellan 0,913 och 0,94. Modellen där varje glasögonkategori representerades som en unik klass, presterade sämre med en genomsnittlig IoU på 0,85. Resultatet av uppsatsen påvisar att goda instanssegmenteringsresultat går att uppnå med hjälp av en begränsad datamängd om överföringsinlärning används.
2

Representation and Efficient Computation of Sparse Matrix for Neural Networks in Customized Hardware

Yan, Lihao January 2022 (has links)
Deep Neural Networks are widely applied to various kinds of fields nowadays. However, hundreds of thousands of neurons in each layer result in intensive memory storage requirement and a massive number of operations, making it difficult to employ deep neural networks on mobile devices where the hardware resources are limited. One common technique to address the memory limitation is to prune and quantize the neural networks. Besides, due to the frequent usage of Rectified Linear Unit (ReLU) function or network pruning, majority of the data in the weight matrices will be zeros, which will not only take up a large amount of memory space but also cause unnecessary computation operations. In this thesis, a new value-based compression method is put forward to represent sparse matrix more efficiently by eliminating these zero elements, and a customized hardware is implemented to realize the decompression and computation operations. The value-based compression method is aimed to replace the nonzero data in each column of the weight matrix with a reference value (arithmetic mean) and the relative differences between each nonzero element and the reference value. Intuitively, the data stored in each column is likely to contain similar values. Therefore, the differences will have a narrow range, and fewer bits rather than the full form will be sufficient to represent all the differences. In this way, the weight matrix can be further compressed to save memory space. The proposed value-based compression method reduces the memory storage requirement for the fully-connected layers of AlexNet to 37%, 41%, 47% and 68% of the compressed model, e.g., the Compressed Sparse Column (CSC) format, when the data size is set to 8 bits and the sparsity is 20%, 40%, 60% and 80% respectively. In the meanwhile, 41%, 53% and 63% compression rates of the fully-connected layers of the compressed AlexNet model with respect to 8-bit, 16-bit and 32-bit data are achieved when the sparsity is 40%. Similar results are obtained for VGG16 experiment. / Djupa neurala nätverk används i stor utsträckning inom olika fält nuförtiden. Emellertid ställer hundratusentals neuroner per lager krav på intensiv minneslagring och ett stort antal operationer, vilket gör det svårt att använda djupa neurala nätverk på mobila enheter där hårdvaruresurserna är begränsade. En vanlig teknik för att hantera minnesbegränsningen är att beskära och kvantifiera de neurala nätverken. På grund av den frekventa användningen av Rectified Linear Unit (ReLU) -funktionen eller nätverksbeskärning kommer majoriteten av datat i viktmatriserna att vara nollor, vilket inte bara tar upp mycket minnesutrymme utan också orsakar onödiga beräkningsoperationer. I denna avhandling presenteras en ny värdebaserad komprimeringsmetod för att representera den glesa matrisen mer effektivt genom att eliminera dessa nollelement, och en anpassad hårdvara implementeras för att realisera dekompressions- och beräkningsoperationerna. Den värdebaserade komprimeringsmetoden syftar till att ersätta icke-nolldata i varje kolumn i viktmatrisen med ett referensvärde (aritmetiskt medelvärde) och de relativa skillnaderna mellan varje icke-nollelement och referensvärdet. Intuitivt kommer data som lagras i varje kolumn sannolikt att innehålla liknande värden. Därför kommer skillnaderna att ha ett smalt intervall, och färre bitar snarare än den fullständiga formen kommer att räcka för att representera alla skillnader. På så sätt kan viktmatrisen komprimeras ytterligare för att spara minnesutrymme. Den föreslagna värdebaserade komprimeringsmetoden minskar minneslagringskravet för de helt anslutna lagren av AlexNet till 37%, 41%, 47% och 68% av den komprimerade modellen, t.ex. Compressed Sparse Column (CSC) format, när datastorleken är inställd på 8 bitar och sparsiteten är 20%, 40%, 60% respektive 80%. Under tiden uppnås 41%, 53% och 63% komprimeringshastigheter för de helt anslutna lagren i den komprimerade AlexNet-modellen med avseende på 8- bitars, 16-bitars och 32-bitars data när sparsiteten är 40%. Liknande resultat erhålls för VGG16-experiment.
3

Machine learning-assisted image analysis and metabarcoding for monitoring of plankton in the seas surrounding Sweden / Maskininlärningsbaserad bildanalys och DNA-streckkodning för övervakning av plankton i svenska havsområden

Garefelt, Karin January 2023 (has links)
I miljöövervakningen av haven runt Sverige har manuell mikroskopi av plankton länge varit den huvudsakliga tekniken för att övervaka växtplanktonbestånden och algblomningar. Nya tekniker utvärderas, men det är inte känt hur resultaten från de nyare teknikerna relaterar till varandra. Två tekniker som utvärderas av SMHI, flödesmikroskopi och DNA-streckkodning, har inte tidigare jämförts i litteraturen. Båda teknikerna har dock jämförts med traditionell mikroskopi. I det här projektet har provserier för DNA-streckkodning och automatiserad mikroskopi med Imaging FlowCytobot (IFCB) samlats in parallellt under en expedition i Egentliga Östersjön, Öresund, Kattegatt och Skagerrak. En bildklassificerare konstruerades med ett konvolutionellt neuronnät, som användes för att klassificera bilderna som tagits med IFCB:n. Resultaten från IFCB:n jämfördes med dem från DNA-streckkodning av 18S rRNA-genen. Jämförelsen visade stark korrelation mellan klassificeringen av bilder och DNA-streckkodning för vissa kiselalger (R>0.8), men teknikernas resultat skilde sig också åt i många fall. Skillnaderna kan studeras för att hitta svagheter i de båda teknikerna och utveckla dem vidare. / In environmental monitoring of the seas around Sweden, manual counting with microscopy is used to monitor the plankton communities and algal blooms. New techniques are currently being evaluated, including imaging flow cytometry and DNA metabarcoding, but it is not known how results from the different techniques relate to one another. Previous work has not compared imaging flow cytometry with metabarcoding, although both methods have been compared to traditional microscopy. In this project, samples for DNA metabarcoding and imaging flow cytometry with the Imaging FlowCytobot (IFCB) have been collected in parallel in the Baltic Proper, Öresund, Kattegat, and Skagerrak. To be able to process the large number of images from cytometry, an image classification algorithm based on convolutional neural networks and transfer learning was developed, which was used to classify the images collected. The results were compared to those obtained with 18S rRNA metabarcoding of the protist community. This new approach of comparing imaging flow cytometry with metabarcoding resulted in a strong (R>0.8) correlation for some diatom taxa, but discrepancies between the technologies were also observed. The discrepancies can be further studied to identify weaknesses in both techniques and refine them further.
4

Computer Vision for Document Image Analysis and Text Extraction / Datorseende för analys av dokumentbilder och textutvinning

Benchekroun, Omar January 2022 (has links)
Automatic document processing has been a subject of interest in the industry for the past few years, especially with the recent technological advances in Machine Learning and Computer Vision. This project investigates in-depth a major component used in Document Image Processing known as Optical Character Recognition (OCR). First, an improvement upon existing shallow CNN+LSTM is proposed, using domain-specific data synthesis. We demonstrate that this model can achieve an accuracy of up to 97% on non-handwritten text, with an accuracy improvement of 24% when using synthetic data. Furthermore, we deal with handwritten text that presents more challenges including the variance of writing style, slanting, and character ambiguity. A CNN+Transformer architecture is validated to recognize handwriting extracted from real-world insurance statements data. This model achieves a maximal accuracy of 92% on real-world data. Moreover, we demonstrate how a data pipeline relying on synthetic data can be a scalable and affordable solution for modern OCR needs. / Automatisk dokumenthantering har varit ett ämne av intresse i branschen under de senaste åren, särskilt med de senaste tekniska framstegen inom maskininlärning och datorseende. I detta projekt kommer man att på djupet undersöka en viktig komponent som används vid bildbehandling av dokument och som kallas optisk teckenigenkänning (OCR). Först kommer en förbättring av befintlig ytlig CNN+LSTM att föreslås, med hjälp av domänspecifik datasyntes. Vi kommer att visa att denna modell kan uppnå en noggrannhet på upp till 97% på icke handskriven text, med en förbättring av noggrannheten på 24% när syntetiska data används. Dessutom kommer vi att behandla handskriven text som innebär fler utmaningar, t.ex. variationer i skrivstilen, snedställningar och tvetydiga tecken. En CNN+Transformer-arkitektur kommer att valideras för att känna igen handskrift från verkliga data om försäkringsbesked. Denna modell uppnår en maximal noggrannhet på 92% på verkliga data. Dessutom kommer vi att visa hur en datapipeline som bygger på syntetiska data är en skalbar och prisvärd lösning för moderna OCR-behov.
5

Classification and localization of extreme outliers in computer vision tasks in surveillance scenarios / Klassificering och lokalisering av extremvärden för datorseende i övervakningsscenarion

Daoud, Tariq, Zere Goitom, Emanuel January 2022 (has links)
Convolutional neural networks (CNN) have come a long way and can be trained toclassify many of the objects around us. Despite this, researchers do not fullyunderstand how CNN models learn features (edges, shapes, contours, etc.) fromdata. For this reason, it is reasonable to investigate if a CNN model can learn toclassify objects under extreme conditions. An example of such an extreme conditioncould be a car that drives towards the camera at night, and therefore does not haveany distinct features because the light from the headlights covers large parts of thecar.The aim of this thesis is to investigate how the performance of a CNN model isaffected, when trained on objects under extreme conditions. A YOLOv4 model willbe trained on three different extreme cases: light polluted vehicles, nighttimeobjects and snow-covered vehicles. A validation will then be conducted on a testdataset to see if the performance decreases or improves, compared to when themodel trained is on normal conditions. Generally, the training was stable for allextreme cases and the results show an improved or similar performance incomparison to the normal cases. This indicates that models can be trained with allextreme cases. Snow-covered vehicles with mosaic data augmentation and the IOUthreshold 0,25 had the best overall performance compared to the normal cases, witha difference of +14,95% in AP for cars, −0,73% in AP for persons, +8,08% in AP fortrucks, 0 in precision and +9% in recall. / Konvolutionella neurala nätverk (CNN) har kommit långt och kan tränas till attklassificera de flesta objekten i vår omgivning. Trots detta har forskare intefullständigt förstått hur CNN modeller lär sig att klassificera drag (kanter, former,konturer, osv), på grund av detta är det rimligt att undersöka om en CNN-modellkan lära sig att klassificera objekt som befinner sig under extrema förhållanden.Ett exempel på ett sådant extremfall kan vara när en bil kör mot kameran undernattetid och inte har några distinkta drag, eftersom ljuset från framlyktorna täckerstora delar av bilen.Målet med detta arbete är att undersöka hur en CNN-modells prestanda påverkas,när den tränats på objekt som befinner sig under extrema förhållanden. EnYOLOV4 modell ska tränas på tre olika extrema fall: ljus bländade fordon,nattetidobjekt samt snötäckta fordon. En validering ska sedan utföras på ett test setför att se om prestandan försämras eller förbättras, jämfört med modellen somtränat på normala förhållanden. Generellt sett var träningen stabil för alla extremafall och resultatet visade förbättring eller liknande prestanda, i förhållande tillnormala fallen. Detta indikerar att modeller kan tränas med alla extrema fall. Bästprestanda erhölls av snötäckta bilar med mosaik data augmentering och IOUtröskeln 0,25 jämfört med normala fallen, med en skillnad på -0,73% i AP förpersoner, +14,95% i AP för bilar, +8,08% skillnad i AP för lastbilar, 0 i precisionoch +9% i recall.
6

Evaluating CNN Architectures on the CSAW-M Dataset / Evaluering av olika CNN Arkitekturer på CSAW-M

Kristoffersson, Ludwig, Zetterman, Noa January 2022 (has links)
CSAW-M is a dataset that contains about 10 000 x-ray images created from mammograms. Mammograms are used to identify patients with breast cancer through a screening process with the goal of catching cancer tumours early. Modern convolutional neural networks are very sophisticated and capable of identifying patterns nearly indistinguishable to humans. CSAW-M doesn’t contain images of active cancer tumours, rather, whether the patient will develop cancer or not. Classification tasks such as this are known to require large datasets for training, which is cumbersome to acquire in the biomedical domain. In this paper we investigate how classification performance of non-trivial classification tasks scale with the size of available annotated images. To research this, a wide range of data-sets are generated from CSAW-M, with varying sample size and cancer types. Three different convolutional neural networks were trained on all data-sets. The study showed that classification performance does increase with the size of the annotated dataset. All three networks generally improved their prediction on the supplied benchmarking dataset. However, the improvements were very small and the research question could not be conclusively answered. The primary reasons for this was the challenging nature of the classification task, and the size of the data-set. Further research is required to gain more understanding of how much data is needed to yield a usable model. / CSAW-M är ett dataset som innehåller ungefär 10 000 röntgenbilder skapade från ett stort antal mammografier. Mammografi används för att identifiera patienter med bröstcancer genom en screeningprocess med målet att fånga cancerfall tidigt. Moderna konvolutionella neurala nätverk är mycket sofistikerade och kan tränas till att identifiera mönster i bilder mycket bättre än människor. CSAW-M innehåller inga bilder av cancertumörer, utan istället data på huruvida patienten kommer att utveckla cancer eller inte. Klassificeringsuppgifter som denna är kända för att kräva stora datamängder för träning, vilket är svårt att införskaffa inom den biomedicinska domänen. I denna artikel undersöker vi hur klassificerings prestanda för svåra klassificeringsuppgifter skalar med storleken på tillgänglig annoterad data. För att undersöka detta, genererades ett antal nya dataset från CSAW-M, med varierande storleksurval och cancertyp. Tre olika konvolutionella neurala nätverk tränades på alla nya data-set. Studien visar att klassificeringsprestanda ökar med storleken på den annoterade datamängden. Alla tre nätverk förbättrade generellt sin klassificeringsprestanda desto större urval som gjordes från CSAW-M. Förbättringarna var dock små och den studerade frågan kunde inte besvaras fullständigt. De främsta anledningarna till detta var klassificeringsuppgiftens utmanande karaktär och storleken på det tillgängliga datat i CSAW-M. Ytterligare forskning krävs för att få mer förståelse för hur mycket data som behövs för att skapa en användbar modell.
7

Polar Codes for Biometric Identification Systems / Polära Koder för Biometriska Identifieringssystem

Bao, Yicheng January 2022 (has links)
Biometrics are widely used in identification systems, such as face, fingerprint, iris, etc. Polar code is the only code that can be strictly proved to achieve channel capacity, and it has been proved to be optimal for channel and source coding. In this degree project, our goal is to apply polar codes algorithms to biometric identification systems, and to design a biometric identification system with high identification accuracy, low system complexity, and good privacy preservation. This degree project has carried out specific and in-depth research in four aspects, following results are achieved: First, idea of polar codes is learnt, for example channel combination, channel splitting, successive cancellation decoding. The successive cancellation and successive cancellation list algorithm are also applied to encoding, which further realizes polar codes for source coding. Second, using autoencoder to process biometrics. Autoencoder is introduced to compress fingerprints into binary sequences of length 1024, it has 5 encoding layers and 12 decoding layers, achieved reconstruction error is 0.03. The distribution is close to Gaussian distribution, and compressed codes are quantized into binary sequences. Properties of sequences are similar with random sequences in terms of entropy, correlation, variance. Third, the identification system under Wyner-Ziv problem is studied with fingerprints. In enrollment phase, encoding algorithms are designed to compress biometrics, and in identification phase, decoding algorithms are designed to estimate the original sequence based on decoded results and noisy sequence. Maximum mutual information method is used to identify users. Results show that with smaller number of users, longer code length, smaller noise, then recognition error rate is lower. Fourth, human faces are used in the generated secret key system. After fully considering the trade off to achieve optimal results, in enrollment phase both public data and secure data are generated, in identification phase user’s index and secret key are estimated. A hierarchical structure is further studied. First, CNN is used to classify the age of faces, and then the generated secret key system is used for identification after narrowing the range. The system complexity is reduced by 80% and the identification accuracy is not reduced. / Biometriska kännetecken används i stor utsträckning i identifieringssystem, kännetecken såsom ansikte, fingeravtryck, iris, etc. Polär kod är den enda koden som strikt bevisats uppnå kanalkapacitet och den har visat sig vara optimal för kanal- och källkodning. Målet med detta examensarbete är att tillämpa polära kodalgoritmer på biometriska identifieringssystem, och att designa ett biometriskt identifieringssystem med hög identifieringsnoggrannhet, låg systemkomplexitet och bra integritetsskydd. Under examensarbetet har det genomförts specifik och djupgående forskning i fyra aspekter, följande resultat har uppnåtts: För det första introduceras idén om polära koder, till exempel kanalkombination, kanaluppdelning, successiv annulleringsavkodning. Algoritmerna för successiv annullering och successiv annulleringslista tillämpas även på kodning,vilket ytterligare realiserar polära koders användning för källkodning. För det andra används autoencoder för att bearbeta biometriska uppgifter. Autoencoder introduceras för att komprimera fingeravtryck till binära sekvenser med längden 1024, den har 5 kodningslager och 12 avkodningslager, det uppnådda rekonstruktionsfelet är 0,03. Fördelningen liknar en normaldistribution och komprimerade koder kvantiseras till binära sekvenser. Egenskaperna för sekvenserna liknar slumpmässiga sekvenser vad gäller entropi, korrelation, varians. För det tredje studeras identifieringssystemet under Wyner-Ziv-problemet med fingeravtryck. I inskrivningsfasen är kodningsalgoritmer utformade för att komprimera biometriska kännetecken, och i identifieringsfasen är avkodningsalgoritmer utformade för att estimera den ursprungliga sekvensen baserat på avkodade resultat och brusiga sekvenser. Maximal ömsesidig informationsmetod används för att identifiera användare. Resultaten visar att med ett mindre antal användare, längre kodlängd och mindre brus så är identifieringsfelfrekvensen lägre. För det fjärde används mänskliga ansikten i det genererade hemliga nyckelsystemet. Efter att noggrant ha övervägt kompromisser fullt ut för att uppnå det optimala resultatet genereras både offentlig data och säker data under registreringsfasen, i identifieringsfasen uppskattas användarens index och säkerhetsnyckel. En hierarkisk struktur studeras vidare. Först används CNN för att klassificera ålder baserat på ansikten och sedan används det genererade hemliga nyckelsystemet för identifiering efter att intervallet har begränsats. Systemkomplexiteten reduceras med 80% men identifieringsnoggrannheten reduceras inte.
8

A Cycle-Accurate Simulator for Accelerating Convolution on AXI4-based Network-on-Chip Architecture / En cykelexakt simulator för att accelerera konvolution på AXI4-baserad nätverk-på-chip-arkitektur

Liu, Mingrui January 2024 (has links)
Artificial intelligence is probably one of the most prevalent research topics in computer science area, because the technology, if well developed and used properly, is promising to affect the daily lives of ordinaries or even reshape the structure of society. In the meantime, the end of Moore’s Law has promoted the development trend towards domain-specific architectures. The upsurge in researching specific architectures for artificial intelligence applications is unprecedented. Network-on-Chip (NoC) was proposed to address the scalability problem of multi-core system. Recently, NoC has gradually appeared in deep learning computing engines. NoC-based deep learning accelerator is an area worthy of research and currently understudied. Simulating a system is an important step in computer architecture research because it not only allows for rapid verification and measurement of design’s performance, but also provides guidance for subsequent hardware design. In this thesis, we present CNNoCaXiM, a flexible and cycle-accurate simulator for accelerating 2D convolution based on NoC interconnection and AXI4 protocol. We demonstrate its ability by simulating and measuring a convolution example with two different data flows. This simulator can be very useful for upcoming research, either as a baseline case or as a building block for further research. / Artificiell intelligens är förmodligen ett av de vanligaste forskningsämnena inom datavetenskap, eftersom tekniken, om den väl utvecklas och används på rätt sätt, lovar att påverka vanliga människors vardag eller till och med omforma samhällets struktur. Under tiden har slutet av Moores lag främjat utvecklingstrenden mot domänspecifika arkitekturer. Uppsvinget i forskning om specifika arkitekturer för tillämpningar av artificiell intelligens är utan motstycke. Network-on-Chip (NoC) föreslogs för att ta itu med skalbarhetsproblemet med flerkärniga system. Nyligen har NoC gradvis dykt upp i djuplärande datormotorer. NoC-baserad accelerator för djupinlärning är ett område som är värt forskning och för närvarande understuderat. Simulering av ett system är ett viktigt steg i forskning om datorarkitektur eftersom det inte bara möjliggör snabb verifiering och mätning av designens prestanda, utan också ger vägledning för efterföljande hårdvarudesign. I detta examensarbete presenterar vi CNNoCaXiM, en flexibel och cykelnoggrann simulator för att accelerera 2D-faltning baserad på NoC-interconnection och AXI4-protokoll. Vi visar dess förmåga genom att simulera och mäta ett faltningsexempel med två olika dataflöden. Denna simulator kan vara mycket användbar för kommande forskning, antingen som ett grundfall eller som en byggsten för vidare forskning.
9

Empirisk Modellering av Trafikflöden : En spatio-temporal prediktiv modellering av trafikflöden i Stockholms stad med hjälp av neurala nätverk / Empirical Modeling of Traffic Flow : A spatio-temporal prediction model of the traffic flow in Stockholm city using neural networks

Björkqvist, Niclas, Evestam, Viktor January 2024 (has links)
A better understanding of the traffic flow in a city helps to smooth transport resulting in a better street environment, affecting not only road users and people in proximity. Good predictions of the flow of traffic helps to control and further develop the road network in order to avoid congestion and unneccessary time spent while traveling. This study investigates three different machine learning models with the purpose of predicting traffic flow on different road types inurban Stockholm using loop sensor data between 2013 and 2023. The models used was Long short term memory (LSTM), Temporal convolutional network (TCN) and a hybrid model of LSTM and TCN. The results from the hybrid model indicates a slightly better mean absolute error than TCN suggesting that a hybrid model might be advantagous when predicting traffic flow using loop sensor data. LSTM struggled to capture the complexity of the data and was unable to provide a proper prediction as a result. TCN produced a mean absolute error slightly bigger than the hybrid model and was to an extent able to capture the trends of the traffic flow, but struggled with capturing the scale of the traffic flow suggesting the need for further data preprocessing. Furthermore, this study suggests that the loop sensor data was able to act as a foundation for predicting the traffic flow using machine learning methods. However, it suggest that improvements to the data itself such as incorporating more related parameters might be advantageous to further improve traffic flow prediction.
10

SU-MIMO Port Selection Using Convolutional Neural Networks

Jonsson, Samuel January 2024 (has links)
Background: The exponential increase in user equipment (UE) units within mobile networks necessitates more efficient Massive MIMOalgorithms. To address this demand, integrating artificial intelligence (AI) into various network aspects is gaining traction. Goal: This thesis explores the feasibility of employing a lightweight convolutional neural network (CNN) to optimize port selection in single-usermultiple-input multiple-output (SU-MIMO) networks. Port selection, a critical component of all forms of MIMO networks, determines theoptimal ports on a UE for data transmission. The objective is to enhance selection speed, reduce computational complexity,and minimize memory consumption. Method: The methodology involves a quasi-experiment where a CNN model, trained on data transfer logs between a basestation and a UE, specifically a mobile phone, is compared with a self-implemented version of the port selection algorithm utilised in Ericssonbase stations. The evaluation criteria include time-, computational-, and spatial complexity. The accuracy of the port selection capabilities of themodels is also recorded. Results: Despite the complexity of the CNN models, the results indicate subpar performance and low test accuracies.This suggests that achieving satisfactory performance would either necessitate an increased model complexity and size or that a convolutionalneural network is not the correct choice for replacing the algorithm. Conclusion: In conclusion, the thesis finds that a lightweight CNN may not be the optimal solution for port selectionoptimization in SU-MIMO networks. However, it suggests potential avenues for further research to explore alternative approaches to this task. / Bakgrund: Den exponentiella ökningen av användarutrustning (UE-enheter) inom mobila nätverk kräver mer effektiva massive MIMO-algoritmer.För att möta detta behov har intresset för att integrera artificiell intelligens (AI) i olika delar av de modila nätverkan ökat mer och mer. Mål: Denna avhandling utforskar möjligheten att använda ett lättviktigt konvolutionellt neuralt nätverk för att optimera port selection i single usermultiple-input multiple-output (SU-MIMO) nätverk. Port selection, en viktig komponent i alla former av MIMO-nätverk, avgör de optimala portarna på enUE för dataöverföring. Det slutliga målet är att förbättra valhastigheten, minska beräkningskomplexiteten och minimeraminnesanvändningen, jämfört med den nuvarande algoritmen som används på Ericsson basstationer. Metod: Metodiken innefattar ett kvasiexperiment där en CNN-modell, tränad på dataöverföringsloggar mellan en basstation och en UE, specifikt enmobiltelefon, jämförs med en egenimplementerad version av portvalsalgoritmen som används i Ericssons basstationer. Utvärderingskriterierna inkluderartids-, beräknings- och rumskomplexitet. Även noggrannheten i portvalsmodellerna mätes. Resultat: Trots den komplexa naturen hos modellerna indikerar resultaten undermålig prestanda och låga testnoggrannheter.Detta antyder att för att uppnå tillfredsställande prestanda antinge skulle kräva en ökad modellkomplexitet och storlek, eller att ett konvolutionelltneuralt nätverk inte är den optimala lösningen för att ersätta den nuvarande algorithmen. Slutsats: Slutligen konstaterar avhandlingen att ett konvolutionellt neuralt nätverk inte är den optimala lösningen för optimering av port selectioni SU-MIMO-nätverk, då ett lättviktigt sådant inte kan uppnå en acceptabel prestanda. Dock föreslår den potentiella riktningar för vidare forskningför att utforska alternativa tillvägagångssätt för denna uppgift.

Page generated in 0.1109 seconds