Global ETD Search

211	Reparametrization in deep learning Dinh, Laurent 02 1900 (has links) No description available. Neural networks Deep neural networks Machine learning Deep learning Unsupervised learning Probabilistic modelling Probabilistic models Generative modelling Generative models Generator networks Variational inference Generalization Reparametrization trick Réseaux de neurones Réseaux neuronaux Réseaux de neurones profonds Réseaux neuronaux profonds Apprentissage automatique Apprentissage profond Apprentissage non-supervisé Modélisation probabiliste Modélisation générative Modèles probabilistes Modèles génératifs Réseaux générateurs Inférence variationnelle Généralisation Astuce de la reparamétrisation
212	Deep neural networks for natural language processing and its acceleration Lin, Zhouhan 08 1900 (has links) Cette thèse par article comprend quatre articles qui contribuent au domaine de l'apprentissage profond, en particulier à l'accélération de l’apprentissage par le biais de réseaux à faible précision et à l'application de réseaux de neurones profonds au traitement du langage naturel. Dans le premier article, nous étudions un schéma d’entraînement de réseau de neurones qui élimine la plupart des multiplications en virgule flottante. Cette approche consiste à binariser ou à ternariser les poids dans la propagation en avant et à quantifier les états cachés dans la propagation arrière, ce qui convertit les multiplications en changements de signe et en décalages binaires. Les résultats expérimentaux sur des jeux de données de petite à moyenne taille montrent que cette approche produit des performances encore meilleures que l’approche standard de descente de gradient stochastique, ouvrant la voie à un entraînement des réseaux de neurones rapide et efficace au niveau du matériel. Dans le deuxième article, nous avons proposé un mécanisme structuré d’auto-attention d’enchâssement de phrases qui extrait des représentations interprétables de phrases sous forme matricielle. Nous démontrons des améliorations dans 3 tâches différentes: le profilage de l'auteur, la classification des sentiments et l'implication textuelle. Les résultats expérimentaux montrent que notre modèle génère un gain en performance significatif par rapport aux autres méthodes d’enchâssement de phrases dans les 3 tâches. Dans le troisième article, nous proposons un modèle hiérarchique avec graphe de calcul dynamique, pour les données séquentielles, qui apprend à construire un arbre lors de la lecture de la séquence. Le modèle apprend à créer des connexions de saut adaptatives, ce qui facilitent l'apprentissage des dépendances à long terme en construisant des cellules récurrentes de manière récursive. L’entraînement du réseau peut être fait soit par entraînement supervisée en donnant des structures d’arbres dorés, soit par apprentissage par renforcement. Nous proposons des expériences préliminaires dans 3 tâches différentes: une nouvelle tâche d'évaluation de l'expression mathématique (MEE), une tâche bien connue de la logique propositionnelle et des tâches de modélisation du langage. Les résultats expérimentaux montrent le potentiel de l'approche proposée. Dans le quatrième article, nous proposons une nouvelle méthode d’analyse par circonscription utilisant les réseaux de neurones. Le modèle prédit la structure de l'arbre d'analyse en prédisant un scalaire à valeur réelle, soit la distance syntaxique, pour chaque position de division dans la phrase d'entrée. L'ordre des valeurs relatives de ces distances syntaxiques détermine ensuite la structure de l'arbre d'analyse en spécifiant l'ordre dans lequel les points de division seront sélectionnés, en partitionnant l'entrée de manière récursive et descendante. L’approche proposée obtient une performance compétitive sur le jeu de données Penn Treebank et réalise l’état de l’art sur le jeu de données Chinese Treebank. / This thesis by article consists of four articles which contribute to the field of deep learning, specifically in the acceleration of training through low-precision networks, and the application of deep neural networks on natural language processing. In the first article, we investigate a neural network training scheme that eliminates most of the floating-point multiplications. This approach consists of binarizing or ternarizing the weights in the forward propagation and quantizing the hidden states in the backward propagation, which converts multiplications to sign changes and binary shifts. Experimental results on datasets from small to medium size show that this approach result in even better performance than standard stochastic gradient descent training, paving the way to fast, hardware-friendly training of neural networks. In the second article, we proposed a structured self-attentive sentence embedding that extracts interpretable sentence representations in matrix form. We demonstrate improvements on 3 different tasks: author profiling, sentiment classification and textual entailment. Experimental results show that our model yields a significant performance gain compared to other sentence embedding methods in all of the 3 tasks. In the third article, we propose a hierarchical model with dynamical computation graph for sequential data that learns to construct a tree while reading the sequence. The model learns to create adaptive skip-connections that ease the learning of long-term dependencies through constructing recurrent cells in a recursive manner. The training of the network can either be supervised training by giving golden tree structures, or through reinforcement learning. We provide preliminary experiments in 3 different tasks: a novel Math Expression Evaluation (MEE) task, a well-known propositional logic task, and language modelling tasks. Experimental results show the potential of the proposed approach. In the fourth article, we propose a novel constituency parsing method with neural networks. The model predicts the parse tree structure by predicting a real valued scalar, named syntactic distance, for each split position in the input sentence. The order of the relative values of these syntactic distances then determine the parse tree structure by specifying the order in which the split points will be selected, recursively partitioning the input, in a top-down fashion. Our proposed approach was demonstrated with competitive performance on Penn Treebank dataset, and the state-of-the-art performance on Chinese Treebank dataset. Machine Learning Natural Language Processing Deep Learning Neural Networks Syntactic Parser Constituency Parsing Recursive Networks Recurrent Networks Dynamic Computational Graph Sentiment Analysis Natural Language Inference Self-Attention Sentence Embedding Binary Connect Ternary Connect Quantized Neural Networks Apprentissage Automatique Langage Naturel Traitement Apprentissage Profond Réseaux Neuronaux Analyseur Syntaxique Réseaux Récurrents Graphe de Calcul Dynamique Analyse des Sentiments Inférence en Langage Naturel Auto-Attention Enchâssement de Phrase Connexion Binaire Connexion Ternaire Réseaux Neuronaux Quantifiés
213	On Deep Multiscale Recurrent Neural Networks Chung, Junyoung 04 1900 (has links) No description available. Apprentissage profond Réseaux de neurones Réseaux de neurones récurrents Modélisation du langage Traduction automatique Synthèse de parole Synthèse d’écriture manuscrite Auto-encodeur variationel Deep learning Neural networks Recurrent neural networks Hierarchical recurrent neural networks Multiscale recurrent neural networks Language modelling Machine translation Speech generation Handwriting generation Variational auto-encoders
214	Patient-Derived Tumour Growth Modelling from Multi-Parametric Analysis of Combined Dynamic PET/MR Data Martens, Corentin 03 March 2021 (has links) (PDF) Gliomas are the most common primary brain tumours and are associated with poor prognosis. Among them, diffuse gliomas – which include their most aggressive form glioblastoma (GBM) – are known to be highly infiltrative. The diagnosis and follow-up of gliomas rely on positron emission tomography (PET) and magnetic resonance imaging (MRI). However, these imaging techniques do not currently allow to assess the whole extent of such infiltrative tumours nor to anticipate their preferred invasion patterns, leading to sub-optimal treatment planning. Mathematical tumour growth modelling has been proposed to address this problem. Reaction-diffusion tumour growth models, which are probably the most commonly used for diffuse gliomas growth modelling, propose to capture the proliferation and migration of glioma cells by means of a partial differential equation. Although the potential of such models has been shown in many works for patient follow-up and therapy planning, only few limited clinical applications have seemed to emerge from these works. This thesis aims at revisiting reaction-diffusion tumour growth models using state-of-the-art medical imaging and data processing technologies, with the objective of integrating multi-parametric PET/MRI data to further personalise the model. Brain tissue segmentation on MR images is first addressed with the aim of defining a patient-specific domain to solve the model. A previously proposed method to derive a tumour cell diffusion tensor from the water diffusion tensor assessed by diffusion-tensor imaging (DTI) is then implemented to guide the anisotropic migration of tumour cells along white matter tracts. The use of dynamic [S-methyl-11C]methionine ([11C]MET) PET is also investigated to derive patient-specific proliferation potential maps for the model. These investigations lead to the development of a microscopic compartmental model for amino acid PET tracer transport in gliomas. Based on the compartmental model results, a novel methodology is proposed to extract parametric maps from dynamic [11C]MET PET data using principal component analysis (PCA). The problem of estimating the initial conditions of the model from MR images is then addressed by means of a translational MRI/histology study in a case of non-operated GBM. Numerical solving strategies based on the widely used finite difference and finite element methods are finally implemented and compared. All these developments are embedded within a common framework allowing to study glioma growth in silico and providing a solid basis for further research in this field. However, commonly accepted hypothesis relating the outlines of abnormalities visible on MRI to tumour cell density iso-contours have been invalidated by the translational study carried out, leaving opened the questions of the initialisation and the validation of the model. Furthermore, the analysis of the temporal evolution of real multi-treated glioma patients demonstrates the limitations of the formulated model. These latter statements highlight current obstacles to the clinical application of reaction-diffusion tumour growth models and pave the way to further improvements. / Les gliomes sont les tumeurs cérébrales primitives les plus communes et sont associés à un mauvais pronostic. Parmi ces derniers, les gliomes diffus – qui incluent la forme la plus agressive, le glioblastome (GBM) – sont connus pour être hautement infiltrants. Le diagnostic et le suivi des gliomes s'appuient sur la tomographie par émission de positons (TEP) ainsi que l'imagerie par résonance magnétique (IRM). Cependant, ces techniques d'imagerie ne permettent actuellement pas d'évaluer l'étendue totale de tumeurs aussi infiltrantes ni d'anticiper leurs schémas d'invasion préférentiels, conduisant à une planification sous-optimale du traitement. La modélisation mathématique de la croissance tumorale a été proposée pour répondre à ce problème. Les modèles de croissance tumorale de type réaction-diffusion, qui sont probablement les plus communément utilisés pour la modélisation de la croissance des gliomes diffus, proposent de capturer la prolifération et la migration des cellules tumorales au moyen d'une équation aux dérivées partielles. Bien que le potentiel de tels modèles ait été démontré dans de nombreux travaux pour le suivi des patients et la planification de thérapies, seules quelques applications cliniques restreintes semblent avoir émergé de ces derniers. Ce travail de thèse a pour but de revisiter les modèles de croissance tumorale de type réaction-diffusion en utilisant des technologies de pointe en imagerie médicale et traitement de données, avec pour objectif d'y intégrer des données TEP/IRM multi-paramétriques pour personnaliser davantage le modèle. Le problème de la segmentation des tissus cérébraux dans les images IRM est d'abord adressé, avec pour but de définir un domaine propre au patient pour la résolution du modèle. Une méthode proposée précédemment permettant de dériver un tenseur de diffusion tumoral à partir du tenseur de diffusion de l'eau évalué par imagerie DTI a ensuite été implémentée afin de guider la migration anisotrope des cellules tumorales le long des fibres de matière blanche. L'utilisation de l'imagerie TEP dynamique à la [S-méthyl-11C]méthionine ([11C]MET) est également investiguée pour la génération de cartes de potentiel prolifératif propre au patient afin de nourrir le modèle. Ces investigations ont mené au développement d'un modèle compartimental pour le transport des traceurs TEP dérivés des acides aminés dans les gliomes. Sur base des résultats du modèle compartimental, une nouvelle méthodologie est proposée utilisant l'analyse en composantes principales pour extraire des cartes paramétriques à partir de données TEP dynamiques à la [11C]MET. Le problème de l'estimation des conditions initiales du modèle à partir d'images IRM est ensuite adressé par le biais d'une étude translationelle combinant IRM et histologie menée sur un cas de GBM non-opéré. Différentes stratégies de résolution numérique basées sur les méthodes des différences et éléments finis sont finalement implémentées et comparées. Tous ces développements sont embarqués dans un framework commun permettant d'étudier in silico la croissance des gliomes et fournissant une base solide pour de futures recherches dans le domaine. Cependant, certaines hypothèses communément admises reliant les délimitations des anormalités visibles en IRM à des iso-contours de densité de cellules tumorales ont été invalidée par l'étude translationelle menée, laissant ouverte les questions de l'initialisation et de la validation du modèle. Par ailleurs, l'analyse de l'évolution temporelle de cas réels de gliomes multi-traités démontre les limitations du modèle. Ces dernières affirmations mettent en évidence les obstacles actuels à l'application clinique de tels modèles et ouvrent la voie à de nouvelles possibilités d'amélioration. / Doctorat en Sciences de l'ingénieur et technologie / info:eu-repo/semantics/nonPublished Ingénierie biomédicale Cancérologie Analyse numérique Intelligence artificielle Programmation du calcul numérique Statistique appliquée Amino Acid Transport Deep Learning Finite Difference Method Finite Element Method Glioma Histology Magnetic Resonance Imaging Positron Emission Tomography Pharmacokinetic Modelling Reaction-Diffusion Equation Tumour Growth Modelling Transport des acides aminés Apprentissage profond Méthode des différences finies Méthode des éléments finis Gliome Histologie Imagerie par résonance magnétique Tomographie par émission de positons Modélisation pharmacocinétique
215	A deep learning theory for neural networks grounded in physics Scellier, Benjamin 12 1900 (has links) Au cours de la dernière décennie, l'apprentissage profond est devenu une composante majeure de l'intelligence artificielle, ayant mené à une série d'avancées capitales dans une variété de domaines. L'un des piliers de l'apprentissage profond est l'optimisation de fonction de coût par l'algorithme du gradient stochastique (SGD). Traditionnellement en apprentissage profond, les réseaux de neurones sont des fonctions mathématiques différentiables, et les gradients requis pour l'algorithme SGD sont calculés par rétropropagation. Cependant, les architectures informatiques sur lesquelles ces réseaux de neurones sont implémentés et entraînés souffrent d’inefficacités en vitesse et en énergie, dues à la séparation de la mémoire et des calculs dans ces architectures. Pour résoudre ces problèmes, le neuromorphique vise à implementer les réseaux de neurones dans des architectures qui fusionnent mémoire et calculs, imitant plus fidèlement le cerveau. Dans cette thèse, nous soutenons que pour construire efficacement des réseaux de neurones dans des architectures neuromorphiques, il est nécessaire de repenser les algorithmes pour les implémenter et les entraîner. Nous présentons un cadre mathématique alternative, compatible lui aussi avec l’algorithme SGD, qui permet de concevoir des réseaux de neurones dans des substrats qui exploitent mieux les lois de la physique. Notre cadre mathématique s'applique à une très large classe de modèles, à savoir les systèmes dont l'état ou la dynamique sont décrits par des équations variationnelles. La procédure pour calculer les gradients de la fonction de coût dans de tels systèmes (qui dans de nombreux cas pratiques ne nécessite que de l'information locale pour chaque paramètre) est appelée “equilibrium propagation” (EqProp). Comme beaucoup de systèmes en physique et en ingénierie peuvent être décrits par des principes variationnels, notre cadre mathématique peut potentiellement s'appliquer à une grande variété de systèmes physiques, dont les applications vont au delà du neuromorphique et touchent divers champs d'ingénierie. / In the last decade, deep learning has become a major component of artificial intelligence, leading to a series of breakthroughs across a wide variety of domains. The workhorse of deep learning is the optimization of loss functions by stochastic gradient descent (SGD). Traditionally in deep learning, neural networks are differentiable mathematical functions, and the loss gradients required for SGD are computed with the backpropagation algorithm. However, the computer architectures on which these neural networks are implemented and trained suffer from speed and energy inefficiency issues, due to the separation of memory and processing in these architectures. To solve these problems, the field of neuromorphic computing aims at implementing neural networks on hardware architectures that merge memory and processing, just like brains do. In this thesis, we argue that building large, fast and efficient neural networks on neuromorphic architectures also requires rethinking the algorithms to implement and train them. We present an alternative mathematical framework, also compatible with SGD, which offers the possibility to design neural networks in substrates that directly exploit the laws of physics. Our framework applies to a very broad class of models, namely those whose state or dynamics are described by variational equations. This includes physical systems whose equilibrium state minimizes an energy function, and physical systems whose trajectory minimizes an action functional (principle of least action). We present a simple procedure to compute the loss gradients in such systems, called equilibrium propagation (EqProp), which requires solely locally available information for each trainable parameter. Since many models in physics and engineering can be described by variational principles, our framework has the potential to be applied to a broad variety of physical systems, whose applications extend to various fields of engineering, beyond neuromorphic computing. deep learning machine learning physics equilibrium propagation energy-based model variational principle principle of least action local learning rule stochastic gradient descent Hopfield network resistive network neuromorphic computing circuit theory principle of minimum dissipated power co-content Apprentissage profond Apprentissage machine Système physique Modèle à énergie Principe variationnel Principe de moindre action Règle d’apprentissage locale Algorithme du gradient stochastique Réseau de Hopfield Réseau resistif Théorie des circuits électriques Calcul neuromorphique
216	Neural approaches to dialog modeling Sankar, Chinnadhurai 08 1900 (has links) Cette thèse par article se compose de quatre articles qui contribuent au domaine de l’apprentissage profond, en particulier dans la compréhension et l’apprentissage des ap- proches neuronales des systèmes de dialogue. Le premier article fait un pas vers la compréhension si les architectures de dialogue neuronal couramment utilisées capturent efficacement les informations présentes dans l’historique des conversations. Grâce à une série d’expériences de perturbation sur des ensembles de données de dialogue populaires, nous constatons que les architectures de dialogue neuronal couramment utilisées comme les modèles seq2seq récurrents et basés sur des transformateurs sont rarement sensibles à la plupart des perturbations du contexte d’entrée telles que les énoncés manquants ou réorganisés, les mots mélangés, etc. Le deuxième article propose d’améliorer la qualité de génération de réponse dans les systèmes de dialogue de domaine ouvert en modélisant conjointement les énoncés avec les attributs de dialogue de chaque énoncé. Les attributs de dialogue d’un énoncé se réfèrent à des caractéristiques ou des aspects discrets associés à un énoncé comme les actes de dialogue, le sentiment, l’émotion, l’identité du locuteur, la personnalité du locuteur, etc. Le troisième article présente un moyen simple et économique de collecter des ensembles de données à grande échelle pour modéliser des systèmes de dialogue orientés tâche. Cette approche évite l’exigence d’un schéma d’annotation d’arguments complexes. La version initiale de l’ensemble de données comprend 13 215 dialogues basés sur des tâches comprenant six domaines et environ 8 000 entités nommées uniques, presque 8 fois plus que l’ensemble de données MultiWOZ populaire. / This thesis by article consists of four articles which contribute to the ﬁeld of deep learning, speciﬁcally in understanding and learning neural approaches to dialog systems. The ﬁrst article takes a step towards understanding if commonly used neural dialog architectures eﬀectively capture the information present in the conversation history. Through a series of perturbation experiments on popular dialog datasets, weﬁndthatcommonly used neural dialog architectures like recurrent and transformer-based seq2seq models are rarely sensitive to most input context perturbations such as missing or reordering utterances, shuﬄing words, etc. The second article introduces a simple and cost-eﬀective way to collect large scale datasets for modeling task-oriented dialog systems. This approach avoids the requirement of a com-plex argument annotation schema. The initial release of the dataset includes 13,215 task-based dialogs comprising six domains and around 8k unique named entities, almost 8 times more than the popular MultiWOZ dataset. The third article proposes to improve response generation quality in open domain dialog systems by jointly modeling the utterances with the dialog attributes of each utterance. Dialog attributes of an utterance refer to discrete features or aspects associated with an utterance like dialog-acts, sentiment, emotion, speaker identity, speaker personality, etc. The ﬁnal article introduces an embedding-free method to compute word representations on-the-ﬂy. This approach signiﬁcantly reduces the memory footprint which facilitates de-ployment in on-device (memory constraints) devices. Apart from being independent of the vocabulary size, we ﬁnd this approach to be inherently resilient to common misspellings. task-oriented dialog systems dialog-acts multiwoz locality sensitive hashing self-attention recurrent networks neural networks deep learning natural language processing reinforcement learning machine learning Actes de dialogue Hachage sensible àla localité Auto-attention Inférence en langage naturel Analyse dessentiments Graphique de calcul dynamique Réseaux récurrents Réseaux récursifs Réseaux de neurones Apprentissage profond Naturel traitement du langage Apprentissage par renforcement Apprentissage automatique Dynamic computational graph Recursive networks Wizard-of-oz Natural language inference Sentiment analysis

Page generated in 0.1014 seconds