Machine learning is a popular topic that has become a scientific research tool in many fields. Overfitting is a common challenge in machine learning, where the model fits the training data too well and performs poorly on new data. Stochastic regularization is one method used to prevent overfitting, by artificially constraining the model to be simpler. In this thesis, we investigate the use of tools from information and coding theory as regularization methods in machine learning. The motivation for this project comes from recent results that successfully related generalization capability of learning algorithms to the information stored in the model parameters. This has led us to explore the use of stochastic regularization techniques like Dropout and DropConnect, which add sparsity to the networks and can help control and limit the information that the parameters store on the training data. Specifically, we explore the use of parity-check matrices from coding theory as masks in the DropConnect method. Parity-check matrices describe linear relations that codewords must satisfy, and have been shown to perform well as measurement matrices in compressed sensing. We build a new family of neural networks that apply Low-Density Parity-Check (LDPC) matrices as DropConnect masks, so-called Low-Density Parity-Check DropConnect (LDPC DropConnect). We evaluate the performance of this neural network with popular datasets in classification and track the generalization capability with statistics of the LDPC matrices. Our experiments show that adopting LDPC matrices does not significantly improve the generalization performance, but it helps provide a more robust evidence lower bound in the Bayesian approach. Our work may provide insights for further research on applying machine learning in compressed sensing, distributed computation, and other related areas. / Maskininlärning är ett populärt ämne som har blivit ett vetenskapligt forskningsverktyg inom många områden. Overfitting är en vanlig utmaning inom maskininlärning, där modellen anpassar sig till träningsdatan för bra och presterar dåligt på nya data. Stokastisk regularisering är en metod som används för att förhindra överanpassning, genom att artificiellt begränsa modellen till att vara enklare. I detta examensarbete undersöker vi användningen av verktyg från informations och kodningsteorin som regulariseringsmetoder inom maskininlärning. Motivationen för detta projekt kommer från nya resultat som framgångsrikt relaterade generaliseringsförmågan hos inlärningsalgoritmer till informationen som lagras i modellparametrarna. Detta har lett oss till att utforska användningen av stokastiska regulariseringstekniker som Dropout och DropConnect, som leder till glesa nätverken och kan hjälpa till att kontrollera och begränsa informationen som parametrarna lagrar am träningsdatan. Specifikt utforskar vi användningen av paritetskontrollmatriser från kodningsteori som masker i DropConnect-metoden. Paritetskontrollmatriser beskriver linjära relationer som kodord måste uppfylla, och har visat sig fungera bra som mätmatriser vid komprimerad avkänning. Vi bygger en ny familj av neurala nätverk som tillämpar low-density parity-check (LDPC)-matriser som DropConnect-masker, så kallade LDPC DropConnect. Vi utvärderar prestandan för detta neurala nätverk med populära datauppsättningar i klassificering och spårar generaliseringsförmågan med statistik över LDPC-matriserna. Våra experiment visar att antagandet av LDPC-matriser inte signifikant förbättrar generaliseringsprestandan, men det hjälper till att ge en mer robust bevis nedre gräns i den Bayesianska metoden. Vårt arbete kan ge insikter för ytterligare forskning om tillämpning av maskininlärning i komprimerad avkänning, distribuerad beräkning och andra relaterade områden.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325858 |
Date | January 2023 |
Creators | Chen, Xi |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:108 |
Page generated in 0.003 seconds