Spelling suggestions: "subject:"skip connections"" "subject:"skip bonnections""
1 |
Skip connection in a MLP network for Parkinson’s classificationSteinholtz, Tim January 2021 (has links)
In this thesis, two different architecture designs of a Multi-Layer Perceptron network have been implemented. One architecture being an ordinary MLP, and in the other adding DenseNet inspired skip connections to an MLP architecture. The models were used and evaluated on the classification task, where the goal was to classify if subjects were diagnosed with Parkinson’s disease or not based on vocal features. The models were trained on an openly available dataset for Parkinson’s classification and evaluated on a hold-out set from this dataset and on two datasets recorded in another sound recording environment than the training data. The thesis searched for the answer to two questions; How insensitive models for Parkinson’s classification are to the sound recording environment and how the proposed skip connections in an MLP model could help improve performance and generalization capacity. The thesis results show that the sound environment affects the accuracy. Nevertheless, it concludes that one would be able to overcome this with more time and allow for good accuracy when models are exposed to data from a new sound environment than the training data. As for the question, if the skip connections improve accuracy and generalization, the thesis cannot draw any broad conclusions due to the data that were used. The models had, in general, the best performance with shallow networks, and it is with deeper networks that the skip connections are argued to help improve these attributes. However, when evaluating on the data from a different sound recording environment than the training data, the skip connections had the best performance in two out of three tests. / I denna avhandling har två olika arkitektur designer för ett artificiellt flerskikts neuralt nätverk implementerats. En arkitektur som följer konventionen för ett vanlig MLP nätverk, samt en ny arkitektur som introducerar DenseNet inspirerade genvägs kopplingar i MLP nätverk. Modellerna användes och utvärderades för klassificering, vars mål var att urskilja försökspersoner som friska eller diagnostiserade med Parkinsons sjukdom baserat på röst attribut. Modellerna tränades på ett öppet tillgänglig dataset för Parkinsons klassificering och utvärderades på en delmängd av denna data som inte hade använts för träningen, samt två dataset som kommer från en annan ljudinspelnings miljö än datan för träningen. Avhandlingen sökte efter svaret på två frågor; Hur okänsliga modeller för Parkinsons klassificering är för ljudinspelnings miljön och hur de föreslagna genvägs kopplingarna i en MLP-modell kan bidra till att förbättra prestanda och generalisering kapacitet. Resultaten av avhandlingen visar att ljudmiljön påverkar noggrannheten, men drar slutsatsen att med mer tid skulle man troligen kunna övervinna detta och möjliggöra god noggrannhet i nya ljudmiljöer. När det kommer till om genvägs kopplingarna förbättrar noggrannhet och generalisering, är avhandlingen inte i stånd att dra några breda slutsatser på grund av den data som användes. Modellerna hade generellt bästa prestanda med grunda nätverk, och det är i djupare nätverk som genvägs kopplingarna argumenteras för att förbättra dessa egenskaper. Med det sagt, om man bara kollade på resultaten på datan som är ifrån en annan ljudinspelnings miljö så hade genvägs arkitekturen bättre resultat i två av de tre testerna som utfördes.
|
2 |
On challenges in training recurrent neural networksAnbil Parthipan, Sarath Chandar 11 1900 (has links)
Dans un problème de prédiction à multiples pas discrets, la prédiction à chaque instant peut dépendre de l’entrée à n’importe quel moment dans un passé lointain. Modéliser une telle dépendance à long terme est un des problèmes fondamentaux en apprentissage automatique. En théorie, les Réseaux de Neurones Récurrents (RNN) peuvent modéliser toute dépendance à long terme. En pratique, puisque la magnitude des gradients peut croître ou décroître exponentiellement avec la durée de la séquence, les RNNs ne peuvent modéliser que les dépendances à court terme. Cette thèse explore ce problème dans les réseaux de neurones récurrents et propose de nouvelles solutions pour celui-ci.
Le chapitre 3 explore l’idée d’utiliser une mémoire externe pour stocker les états cachés d’un réseau à Mémoire Long et Court Terme (LSTM). En rendant l’opération d’écriture et de lecture de la mémoire externe discrète, l’architecture proposée réduit le taux de décroissance des gradients dans un LSTM. Ces opérations discrètes permettent également au réseau de créer des connexions dynamiques sur de longs intervalles de temps. Le chapitre 4 tente de caractériser cette décroissance des gradients dans un réseau de neurones récurrent et propose une nouvelle architecture récurrente qui, grâce à sa conception, réduit ce problème. L’Unité Récurrente Non-saturante (NRUs) proposée n’a pas de fonction d’activation saturante et utilise la mise à jour additive de cellules au lieu de la mise à jour multiplicative.
Le chapitre 5 discute des défis de l’utilisation de réseaux de neurones récurrents dans un contexte d’apprentissage continuel, où de nouvelles tâches apparaissent au fur et à mesure. Les dépendances dans l’apprentissage continuel ne sont pas seulement contenues dans une tâche, mais sont aussi présentes entre les tâches. Ce chapitre discute de deux problèmes fondamentaux dans l’apprentissage continuel: (i) l’oubli catastrophique d’anciennes tâches et (ii) la capacité de saturation du réseau. De plus, une solution est proposée pour régler ces deux problèmes lors de l’entraînement d’un réseau de neurones récurrent. / In a multi-step prediction problem, the prediction at each time step can depend on the input at any of the previous time steps far in the past. Modelling such long-term dependencies is one of the fundamental problems in machine learning. In theory, Recurrent Neural Networks (RNNs) can model any long-term dependency. In practice, they can only model short-term dependencies due to the problem of vanishing and exploding gradients. This thesis explores the problem of vanishing gradient in recurrent neural networks and proposes novel solutions for the same.
Chapter 3 explores the idea of using external memory to store the hidden states of a Long Short Term Memory (LSTM) network. By making the read and write operations of the external memory discrete, the proposed architecture reduces the rate of gradients vanishing in an LSTM. These discrete operations also enable the network to create dynamic skip connections across time. Chapter 4 attempts to characterize all the sources of vanishing gradients in a recurrent neural network and proposes a new recurrent architecture which has significantly better gradient flow than state-of-the-art recurrent architectures. The proposed Non-saturating Recurrent Units (NRUs) have no saturating activation functions and use additive cell updates instead of multiplicative cell updates.
Chapter 5 discusses the challenges of using recurrent neural networks in the context of lifelong learning. In the lifelong learning setting, the network is expected to learn a series of tasks over its lifetime. The dependencies in lifelong learning are not just within a task, but also across the tasks. This chapter discusses the two fundamental problems in lifelong learning: (i) catastrophic forgetting of old tasks, and (ii) network capacity saturation. Further, it proposes a solution to solve both these problems while training a recurrent neural network.
|
Page generated in 0.0722 seconds