In this thesis, two different architecture designs of a Multi-Layer Perceptron network have been implemented. One architecture being an ordinary MLP, and in the other adding DenseNet inspired skip connections to an MLP architecture. The models were used and evaluated on the classification task, where the goal was to classify if subjects were diagnosed with Parkinson’s disease or not based on vocal features. The models were trained on an openly available dataset for Parkinson’s classification and evaluated on a hold-out set from this dataset and on two datasets recorded in another sound recording environment than the training data. The thesis searched for the answer to two questions; How insensitive models for Parkinson’s classification are to the sound recording environment and how the proposed skip connections in an MLP model could help improve performance and generalization capacity. The thesis results show that the sound environment affects the accuracy. Nevertheless, it concludes that one would be able to overcome this with more time and allow for good accuracy when models are exposed to data from a new sound environment than the training data. As for the question, if the skip connections improve accuracy and generalization, the thesis cannot draw any broad conclusions due to the data that were used. The models had, in general, the best performance with shallow networks, and it is with deeper networks that the skip connections are argued to help improve these attributes. However, when evaluating on the data from a different sound recording environment than the training data, the skip connections had the best performance in two out of three tests. / I denna avhandling har två olika arkitektur designer för ett artificiellt flerskikts neuralt nätverk implementerats. En arkitektur som följer konventionen för ett vanlig MLP nätverk, samt en ny arkitektur som introducerar DenseNet inspirerade genvägs kopplingar i MLP nätverk. Modellerna användes och utvärderades för klassificering, vars mål var att urskilja försökspersoner som friska eller diagnostiserade med Parkinsons sjukdom baserat på röst attribut. Modellerna tränades på ett öppet tillgänglig dataset för Parkinsons klassificering och utvärderades på en delmängd av denna data som inte hade använts för träningen, samt två dataset som kommer från en annan ljudinspelnings miljö än datan för träningen. Avhandlingen sökte efter svaret på två frågor; Hur okänsliga modeller för Parkinsons klassificering är för ljudinspelnings miljön och hur de föreslagna genvägs kopplingarna i en MLP-modell kan bidra till att förbättra prestanda och generalisering kapacitet. Resultaten av avhandlingen visar att ljudmiljön påverkar noggrannheten, men drar slutsatsen att med mer tid skulle man troligen kunna övervinna detta och möjliggöra god noggrannhet i nya ljudmiljöer. När det kommer till om genvägs kopplingarna förbättrar noggrannhet och generalisering, är avhandlingen inte i stånd att dra några breda slutsatser på grund av den data som användes. Modellerna hade generellt bästa prestanda med grunda nätverk, och det är i djupare nätverk som genvägs kopplingarna argumenteras för att förbättra dessa egenskaper. Med det sagt, om man bara kollade på resultaten på datan som är ifrån en annan ljudinspelnings miljö så hade genvägs arkitekturen bättre resultat i två av de tre testerna som utfördes.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-303130 |
Date | January 2021 |
Creators | Steinholtz, Tim |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:527 |
Page generated in 0.003 seconds