Global ETD Search

81	Neural language models : Dealing with large vocabularies / Modèles de langue neuronaux : Gestion des grands vocabulaires Labeau, Matthieu 21 September 2018 (has links) Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots. / This work investigates practical methods to ease training and improve performances of neural language models with large vocabularies. The main limitation of neural language models is their expensive computational cost: it depends on the size of the vocabulary, with which it grows linearly. Despite several training tricks, the most straightforward way to limit computation time is to limit the vocabulary size, which is not a satisfactory solution for numerous tasks. Most of the existing methods used to train large-vocabulary language models revolve around avoiding the computation of the partition function, ensuring that output scores are normalized into a probability distribution. Here, we focus on sampling-based approaches, including importance sampling and noise contrastive estimation. These methods allow an approximate computation of the partition function. After examining the mechanism of self-normalization in noise-contrastive estimation, we first propose to improve its efficiency with solutions that are adapted to the inner workings of the method and experimentally show that they considerably ease training. Our second contribution is to expand on a generalization of several sampling based objectives as Bregman divergences, in order to experiment with new objectives. We use Beta divergences to derive a set of objectives from which noise contrastive estimation is a particular case. Finally, we aim at improving performances on full vocabulary language models, by augmenting output words representation with subwords. We experiment on a Czech dataset and show that using character-based representations besides word embeddings for output representations gives better results. We also show that reducing the size of the output look-up table improves results even more. Réseaux de Neurones Modèles de Langue Grands Vocabulaires Neural Networks Language Modelling Large Vocabularies
82	Réseaux de neurones récurrents pour le traitement automatique de la parole / Speech processing using recurrent neural networks Gelly, Grégory 22 September 2017 (has links) Le domaine du traitement automatique de la parole regroupe un très grand nombre de tâches parmi lesquelles on trouve la reconnaissance de la parole, l'identification de la langue ou l'identification du locuteur. Ce domaine de recherche fait l'objet d'études depuis le milieu du vingtième siècle mais la dernière rupture technologique marquante est relativement récente et date du début des années 2010. C'est en effet à ce moment qu'apparaissent des systèmes hybrides utilisant des réseaux de neurones profonds (DNN) qui améliorent très notablement l'état de l'art. Inspirés par le gain de performance apporté par les DNN et par les travaux d'Alex Graves sur les réseaux de neurones récurrents (RNN), nous souhaitions explorer les capacités de ces derniers. En effet, les RNN nous semblaient plus adaptés que les DNN pour traiter au mieux les séquences temporelles du signal de parole. Dans cette thèse, nous nous intéressons tout particulièrement aux RNN à mémoire court-terme persistante (Long Short Term Memory (LSTM) qui permettent de s'affranchir d'un certain nombre de difficultés rencontrées avec des RNN standards. Nous augmentons ce modèle et nous proposons des processus d'optimisation permettant d'améliorer les performances obtenues en segmentation parole/non-parole et en identification de la langue. En particulier, nous introduisons des fonctions de coût dédiées à chacune des deux tâches: un simili-WER pour la segmentation parole/non-parole dans le but de diminuer le taux d'erreur d'un système de reconnaissance de la parole et une fonction de coût dite de proximité angulaire pour les problèmes de classification multi-classes tels que l'identification de la langue parlée. / Automatic speech processing is an active field of research since the 1950s. Within this field the main area of research is automatic speech recognition but simpler tasks such as speech activity detection, language identification or speaker identification are also of great interest to the community. The most recent breakthrough in speech processing appeared around 2010 when speech recognition systems using deep neural networks drastically improved the state-of-the-art. Inspired by this gains and the work of Alex Graves on recurrent neural networks (RNN), we decided to explore the possibilities brought by these models on realistic data for two different tasks: speech activity detection and spoken language identification. In this work, we closely look at a specific model for the RNNs: the Long Short Term Memory (LSTM) which mitigates a lot of the difficulties that can arise when training an RNN. We augment this model and introduce optimization methods that lead to significant performance gains for speech activity detection and language identification. More specifically, we introduce a WER-like loss function to train a speech activity detection system so as to minimize the word error rate of a downstream speech recognition system. We also introduce two different methods to successfully train a multiclass classifier based on neural networks for tasks such as LID. The first one is based on a divide-and-conquer approach and the second one is based on an angular proximity loss function. Both yield performance gains but also speed up the training process. Réseaux de neurones récurrents Reconnaissance de la parole LSTM Recurrent neural networks Speech recognition LSTM
83	Neural Methods for Event Extraction / Méthodes neuronales pour l'extraction d'événements Boroş, Emanuela 27 September 2018 (has links) Du point de vue du traitement automatique des langues (TAL), l’extraction des événements dans les textes est la forme la plus complexe des processus d’extraction d’information, qui recouvrent de façon plus générale l’extraction des entités nommées et des relations qui les lient dans les textes. Le cas des événements est particulièrement ardu car un événement peut être assimilé à une relation n-aire ou à une configuration de relations. Alors que la recherche en extraction d’information a largement bénéficié des jeux de données étiquetés manuellement pour apprendre des modèles permettant l’analyse des textes, la disponibilité de ces ressources reste un problème important. En outre, de nombreuses approches en extraction d’information fondées sur l’apprentissage automatique reposent sur la possibilité d’extraire à partir des textes de larges en sembles de traits définis manuellement grâce à des outils de TAL élaborés. De ce fait, l’adaptation à un nouveau domaine constitue un défi supplémentaire. Cette thèse présente plusieurs stratégies pour améliorer la performance d’un système d’extraction d’événements en utilisant des approches fondées sur les réseaux de neurones et en exploitant les propriétés morphologiques, syntaxiques et sémantiques des plongements de mots. Ceux-ci ont en effet l’avantage de ne pas nécessiter une modélisation a priori des connaissances du domaine et de générer automatiquement un ensemble de traits beaucoup plus vaste pour apprendre un modèle. Nous avons proposé plus spécifiquement différents modèles d’apprentissage profond pour les deux sous-tâches liées à l’extraction d’événements : la détection d’événements et la détection d’arguments. La détection d’événements est considérée comme une sous-tâche importante de l’extraction d’événements dans la mesure où la détection d’arguments est très directement dépendante de son résultat. La détection d’événements consiste plus précisément à identifier des instances d’événements dans les textes et à les classer en types d’événements précis. En préalable à l’introduction de nos nouveaux modèles, nous commençons par présenter en détail le modèle de l’état de l’art qui en constitue la base. Des expériences approfondies sont menées sur l’utilisation de différents types de plongements de mots et sur l’influence des différents hyperparamètres du modèle en nous appuyant sur le cadre d’évaluation ACE 2005, standard d’évaluation pour cette tâche. Nous proposons ensuite deux nouveaux modèles permettant d’améliorer un système de détection d’événements. L’un permet d’augmenter le contexte pris en compte lors de la prédiction d’une instance d’événement (déclencheur d’événement) en utilisant un contexte phrastique, tandis que l’autre exploite la structure interne des mots en profitant de connaissances morphologiques en apparence moins nécessaires mais dans les faits importantes. Nous proposons enfin de reconsidérer la détection des arguments comme une extraction de relation d’ordre supérieur et nous analysons la dépendance de cette détection vis-à-vis de la détection d’événements. / With the increasing amount of data and the exploding number data sources, the extraction of information about events, whether from the perspective of acquiring knowledge or from a more directly operational perspective, becomes a more and more obvious need. This extraction nevertheless comes up against a recurring difficulty: most of the information is present in documents in a textual form, thus unstructured and difficult to be grasped by the machine. From the point of view of Natural Language Processing (NLP), the extraction of events from texts is the most complex form of Information Extraction (IE) techniques, which more generally encompasses the extraction of named entities and relationships that bind them in the texts. The event extraction task can be represented as a complex combination of relations linked to a set of empirical observations from texts. Compared to relations involving only two entities, there is, therefore, a new dimension that often requires going beyond the scope of the sentence, which constitutes an additional difficulty. In practice, an event is described by a trigger and a set of participants in that event whose values are text excerpts. While IE research has benefited significantly from manually annotated datasets to learn patterns for text analysis, the availability of these resources remains a significant problem. These datasets are often obtained through the sustained efforts of research communities, potentially complemented by crowdsourcing. In addition, many machine learning-based IE approaches rely on the ability to extract large sets of manually defined features from text using sophisticated NLP tools. As a result, adaptation to a new domain is an additional challenge. This thesis presents several strategies for improving the performance of an Event Extraction (EE) system using neural-based approaches exploiting morphological, syntactic, and semantic properties of word embeddings. These have the advantage of not requiring a priori modeling domain knowledge and automatically generate a much larger set of features to learn a model. More specifically, we proposed different deep learning models for two sub-tasks related to EE: event detection and argument detection and classification. Event Detection (ED) is considered an important subtask of event extraction since the detection of arguments is very directly dependent on its outcome. ED specifically involves identifying instances of events in texts and classifying them into specific event types. Classically, the same event may appear as different expressions and these expressions may themselves represent different events in different contexts, hence the difficulty of the task. The detection of the arguments is based on the detection of the expression considered as triggering the event and ensures the recognition of the participants of the event. Among the difficulties to take into account, it should be noted that an argument can be common to several events and that it does not necessarily identify with an easily recognizable named entity. As a preliminary to the introduction of our proposed models, we begin by presenting in detail a state-of-the-art model which constitutes the baseline. In-depth experiments are conducted on the use of different types of word embeddings and the influence of the different hyperparameters of the model using the ACE 2005 evaluation framework, a standard evaluation for this task. We then propose two new models to improve an event detection system. One allows increasing the context taken into account when predicting an event instance by using a sentential context, while the other exploits the internal structure of words by taking advantage of seemingly less obvious but essentially important morphological knowledge. We also reconsider the detection of arguments as a high-order relation extraction and we analyze the dependence of arguments on the ED task. Extraction d'événements Extraction d'information Réseaux de neurones Plongements de mots Information extraction Event extraction Word embeddings Neural networks
84	Mécanismes spinaux et supraspinaux impliqués dans le couplage entre les réseaux locomoteurs et posturaux / Mécanismes spinaux et supraspinaux impliqués dans le couplage entre les réseaux locomoteurs et posturaux Beliez, Lauriane 05 December 2014 (has links) Les fonctions locomotrices et posturales sont contrôlées par un ensemble de réseaux neuronaux qui doivent interagir afin de produire un comportement locomoteur optimal, adaptable aux contraintes internes et externes de l’organisme. Le maintien d’un équilibre dynamique au cours de la locomotion repose sur des processus internes de coordination entre les réseaux nerveux spinaux et supraspinaux qui commandent les différents segments du corps (membres, tête et tronc). C’est dans ce contexte que nous nous sommes intéressés aux interactions entre la fonction locomotrice et la fonction posturale, sur des préparations réduites de tronc cérébral-moelle épinière de rats nouveau-nés, au sein desquelles les CPGs locomoteurs spinaux et les noyaux vestibulaires sont intacts. Des approches combinées électrophysiologiques, pharmacologiques, neuroanatomique et lésionnelles nous ont permis de mettre en évidence une partie des mécanismes à l’origine du couplage entre les différents réseaux neuronaux étudiés. Dans cette étude nous avons montré que les réseaux locomoteurs lombaires contrôlent l’activité des réseaux thoraciques axiaux, de manière à produire une activation coordonnée des réseaux moteurs des membres et du tronc. Cette coordination est sous influence des entrées supraspinales. Les amines induisent une organisation temporelle spécifique de l’activité des réseaux thoraco-lombo-sacrés, et les informations en provenance des noyaux vestibulaires influencent le rythme locomoteur. Ces données apportent des éléments nouveaux concernant les processus neuronaux à l’origine de la coordination des réseaux moteurs et posturaux. / Locomotor and postural functions are controlled by a set of neural networks that must interact to produce optimal locomotor behavior, adaptable to internal and external constraints of the body. Maintaining a dynamic balance during locomotion is based on internal coordination processes between spinal and supraspinal neuronal networks controlling different parts of the body (limbs, head and trunk). In this context, we have interested in the interactions between locomotor and postural functions, in spinal and supraspinal networks. The experiments were conducted on isolated brainstem-spinal cord preparations from neonatal rats, in which the spinal locomotor CPGs and the vestibular nuclei are intact. Electrophysiological, pharmacological, and neuroanatomical approaches allowed us to highlight some of the mechanisms involved in the coupling of the different neural networks. In this study we showed that the lumbar locomotor networks control the activity of axial thoracic networks, in order to produce a coordinated activation of motors networks of limbs and trunk. This coordination is modulated by amines and information from the vestibular nuclei. These data provide new evidence for spinal mechanisms involved in the coordination of motor and postural networks. Tronc cérébral- moelle épinière Réseaux de neurones Locomotion Posture Brainstem- spinal cord Neuronal networks Locomotion Posture
85	Modélisation de grands réseaux de neurones par processus de Hawkes / Modelling large neural networks via Hawkes processes Chevallier, Julien 09 September 2016 (has links) Comment fonctionne le cerveau ? Peut-on créer un cerveau artificiel ? Une étape essentielle en vue d'obtenir une réponse à ces questions est la modélisation mathématique des phénomènes à l'œuvre dans le cerveau. Ce manuscrit se focalise sur l'étude de modèles de réseaux de neurones inspirés de la réalité.Cette thèse se place à la rencontre entre trois grands domaines des mathématiques - l'étude des équations aux dérivées partielles (EDP), les probabilités et la statistique - et s'intéresse à leur application en neurobiologie. Dans un premier temps, nous établissons les liens qui existent entre deux échelles de modélisation neurobiologique. À un niveau microscopique, l'activité électrique de chaque neurone est représentée par un processus ponctuel. À une plus grande échelle, un système d'EDP structuré en âge décrit la dynamique moyenne de ces activités. Il est alors montré que le modèle macroscopique peut se retrouver de deux manières distinctes : en étudiant la dynamique moyenne d'un neurone typique ou bien en étudiant la dynamique d'un réseau de $n$ neurones en champ-moyen quand $n$ tend vers l’infini. Dans le second cas, la convergence vers une dynamique limite est démontrée et les fluctuations de la dynamique microscopique autour de cette limite sont examinées. Dans un second temps, nous construisons une procédure de test d'indépendance entre processus ponctuels, ces derniers étant destinés à modéliser l'activité de certains neurones. Ses performances sont contrôlées théoriquement et vérifiées d'un point de vue pratique par une étude par simulations. Pour finir, notre procédure est appliquée sur de vraies données / How does the brain compute complex tasks? Is it possible to create en artificial brain? In order to answer these questions, a key step is to build mathematical models for information processing in the brain. Hence this manuscript focuses on biological neural networks and their modelling. This thesis lies in between three domains of mathematics - the study of partial differential equations (PDE), probabilities and statistics - and deals with their application to neuroscience. On the one hand, the bridges between two neural network models, involving two different scales, are highlighted. At a microscopic scale, the electrical activity of each neuron is described by a temporal point process. At a larger scale, an age structured system of PDE gives the global activity. There are two ways to derive the macroscopic model (PDE system) starting from the microscopic one: by studying the mean dynamics of one typical neuron or by investigating the dynamics of a mean-field network of $n$ neurons when $n$ goes to infinity. In the second case, we furthermore prove the convergence towards an explicit limit dynamics and inspect the fluctuations of the microscopic dynamics around its limit. On the other hand, a method to detect synchronisations between two or more neurons is proposed. To do so, tests of independence between temporal point processes are constructed. The level of the tests are theoretically controlled and the practical validity of the method is illustrated by a simulation study. Finally, the method is applied on real data Réseaux de neurones Processus ponctuels Champ-moyen Théorèmes limites Neural networks Point processes Mean-field Limit theorems
86	Construction sociale d'une esthétique artificielle : Berenson, un robot amateur d'art / Social construction of artificial aesthetic. : Berenson, an art lover robot Karaouzene, Ali 28 February 2017 (has links) Dans cette thèse nous nous intéressons à la problématique de la construction de l'esthétiquechez les humains. Nous proposons d'utiliser un robot comme modèle pour étudier les briquesde bases qui participent au développement des préférences esthétiques. Nous utilisons le termed'esthétique artificielle (E.A ) pour désigner les préférences du robot.Plusieurs travaux de recherche tentent d'établir des théories de l'esthétique que nous séparons icien deux approches. D'une part, les approches empiriques qui étudientles préférences esthétiques d'un point de vue expérimental. Nous nous intéressons notamment àune branche plus radicale des approches empiriques, nommée la neuroesthétique. Celle-ci postulel'existence de structures cérébrales dédiées à l'appréciation des scènes visuelles en général et de l'art en particulier.D'autre part, les approches sociales qui avancent que les préférences esthétiques se transmettent de générationen génération et se construisent selon l'historique de l'individu et de ses interactions avec les autres.Le contextualisme historique est une branchedes approches sociales qui établit un lien entre le contexte dans lequel une œuvre est observée et son appréciation.Sans remettre en cause l'approche neuroscientifique, nous avons choisi de nous positionner dans une approche sociale et développementaleen utilisant des méthodes expérimentales telles que celles utilisées en esthétique empirique.Nous étudions l'émergence du sens esthétique dans le cadre de la référenciation sociale.On appelle référenciation sociale la capacité à attribuer des valences émotionnelles à des objets a priori neutre.Nous testons nos hypothèses sur robot mobile dans un cadre d'interaction triadique : homme-robot objet.Ceci dans un milieu naturel centré sur des humains non initiés à la robotique.Les humains jouent le rôle d'enseignants (professeur) du robot. Ils ont la tâche de suivre le robot dans son développementet de lui enseigner leurs préférences pour lui permettre de développer son propre "goût".Nous avons choisi de mener nos expériences dans des milieux dominés par l'esthétique comme les musées ou les galeries d'art.Toutefois, ces expériences peuvent être menées en tout lieu où des humains et des objets seraient disponibles.Notre robot, nommé Berenson en référence à un célèbre historien de l'art du 19ème siècle, est un outilpour comprendre d'une part comment s'installent des interactions sociales et comment les humainsprêtent des intentions aux machines, et d'autres part il permet d'étudier les briques minimalesd'intelligence artificielle à mettre en place pour construire une esthétique artificielle. / In this thesis we propose a robot as tool to study minimal bricks that helps human develop their aesthetic preferences. We refer to the robot preference using the term Artificial Esthetics (A.E).Several research work tries to establish a unified theory of esthetics. We divide them into two approaches. In one side, the empirical approaches which study esthetic preferences in an experimental manner. We mainly discuss the more radical branch of those approaches named "Neuroesthetic". Neuroesthetic advocates the existence of neural structures dedicated to visual scene preference and particularly to art appreciation. In another side, the social approaches which advocate that esthetic preferences are transmitted generation after generation, and they are built according to the individual historic and his interaction with others. Historical contextualism is a branch of the social approaches of art that draws a link between the appreciation of an artwork and the context where the artwork is observed.Without rejecting the neuroscientific approach, we choose a social and developmental way to study artificial esthetic using experimental methods from the empirical esthetic. We study the esthetic preferences development in the social referencing framework. Social referencing is the ability to attribute emotional values to à priori neutral objects. We test our hypothesis on a mobile robot in a triadic interaction : human-robot-object. This in a natural human centered environment. Humans play the role of the teachers. They have to fololow the robot in his development and teach it their preferences in order to help it develop its own "taste".We chose to conduct our experiment in places dominated by art and esthetics like museums and art galleries, however, this kind of experiment can take place anyway where human and objects are present.We named our robot Berenson in reference to a famous art historian of the 19th century. Berenson is a tool to understand how human project intentions into machines in one hand, and in the other hand the robot helps scientist build and understand minimal artificial intelligence bricks to build an artificial esthetic. Neuroscience. Robotique. Réseaux de neurones. Art. Cybernetique. Bio-Inspiré. Neuroscience Robotic Neural network Art Cybernetic Bio-Inspired
87	Dynamics of eigenvectors of random matrices and eigenvalues of nonlinear models of matrices / Dynamique de vecteurs propres de matrices aléatoires et valeurs propres de modèles non-linéaires de matrices Benigni, Lucas 20 June 2019 (has links) Cette thèse est constituée de deux parties indépendantes. La première partie concerne l'étude des vecteurs propres de matrices aléatoires de type Wigner. Dans un premier temps, nous étudions la distribution des vecteurs propres de matrices de Wigner déformées, elles consistent en une perturbation d'une matrice de Wigner par une matrice diagonale déterministe. Si les deux matrices sont du même ordre de grandeur, il a été prouvé que les vecteurs propres se délocalisent complètement et les valeurs propres rentrent dans la classe d'universalité de Wigner-Dyson-Mehta. Nous étudions ici une phase intermédiaire où la perturbation déterministe domine l'aléa: les vecteurs propres ne sont pas totalement délocalisés alors que les valeurs propres restent universelles. Les entrées des vecteurs propres sont asymptotiquement gaussiennes avec une variance qui les localise dans une partie explicite du spectre. De plus, leur masse est concentrée autour de cette variance dans le sens d'une unique ergodicité quantique. Ensuite, nous étudions des corrélations de différents vecteur propres. Pour se faire, une nouvelle observable sur les moments de vecteurs propres du mouvement brownien de Dyson est étudiée. Elle suit une équation parabolique close qui est un pendant fermionique du flot des moments de vecteurs propres de Bourgade-Yau. En combinant l'étude de ces deux observables, il est possible d'analyser certaines corrélations.La deuxième partie concerne l'étude de la distribution des valeurs propres de modèles non-linéaires de matrices aléatoires. Ces modèles apparaissent dans l'étude de réseaux de neurones aléatoires et correspondent à une version non-linéaire de matrice de covariance dans le sens où une fonction non-linéaire, appelée fonction d'activation, est appliquée entrée par entrée sur la matrice. La distribution des valeurs propres convergent vers une distribution déterministe caractérisée par une équation auto-consistante de degré 4 sur sa transformée de Stieltjes. La distribution ne dépend de la fonction que sur deux paramètres explicites et pour certains choix de paramètres nous retrouvons la distribution de Marchenko-Pastur qui reste stable après passage sous plusieurs couches du réseau de neurones. / This thesis consists in two independent parts. The first part pertains to the study of eigenvectors of random matrices of Wigner-type. Firstly, we analyze the distribution of eigenvectors of deformed Wigner matrices which consist in a perturbation of a Wigner matrix by a deterministic diagonal matrix. If the two matrices are of the same order of magnitude, it was proved that eigenvectors are completely delocalized and eigenvalues belongs to the Wigner-Dyson-Mehta universality class. We study here an intermediary phase where the deterministic perturbation dominates the randomness of the Wigner matrix : eigenvectors are not completely delocalized but eigenvalues are still universal. The eigenvector entries are asymptotically Gaussian with a variance which localize them onto an explicit part of the spectrum. Moreover, their mass is concentrated around their variance in a sense of a quantum unique ergodicity property. Then, we consider correlations of different eigenvectors. To do so, we exhibit a new observable on eigenvector moments of the Dyson Brownian motion. It follows a closed parabolic equation which is a fermionic counterpart of the Bourgade-Yau eigenvector moment flow. By combining the study of these two observables, it becomes possible to study some eigenvector correlations.The second part concerns the study of eigenvalue distribution of nonlinear models of random matrices. These models appear in the study of random neural networks and correspond to a nonlinear version of sample covariance matrices in the sense that a nonlinear function, called the activation function, is applied entrywise to the matrix. The empirical eigenvalue distribution converges to a deterministic distribution characterized by a self-consistent equation of degree 4 followed by its Stieltjes transform. The distribution depends on the function only through two explicit parameters. For a specific choice of these parameters, we recover the Marchenko-Pastur distribution which stays stable after going through several layers of the network. Unique ergodicité quantique Réseaux de neurones Méthode des moments Quantum unique ergodicity Neural networks Moment method
88	Apprentissage de représentation pour la prédiction et la classification de séries temporelles / Representation Learning for Time-Series Forecasting and Classification Ziat, Ali Yazid 16 October 2017 (has links) Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée. / This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted. Séries temporelles Apprentissage de représentation Réseaux de neurones Prédiction Classification Données relationnelles Neural network Time-series Prediction 004.2
89	Enhancing and evolving a rule-based system using historical data : a neuro-fuzzy approach Mai, Gang January 2002 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Système à base de règles Arbre de décision flous Système de régression flous Prédiction de qualité des logiciels Réseaux de neurones
90	FETA : fairness enforced verifying, training, and predicting algorithms for neural networks Mohammadi, Kiarash 06 1900 (has links) L’automatisation de la prise de décision dans des applications qui affectent directement la qualité de vie des individus grâce aux algorithmes de réseaux de neurones est devenue monnaie courante. Ce mémoire porte sur les enjeux d’équité individuelle qui surviennent lors de la vérification, de l’entraînement et de la prédiction des réseaux de neurones. Une approche populaire pour garantir l’équité consiste à traduire une notion d’équité en contraintes sur les paramètres du modèle. Néanmoins, cette approche ne garantit pas toujours des prédictions équitables des modèles de réseaux de neurones entraînés. Pour relever ce défi, nous avons développé une technique de post-traitement guidée par les contre-exemples afin de faire respecter des contraintes d’équité lors de la prédiction. Contrairement aux travaux antérieurs qui ne garantissent l’équité qu’aux points entourant les données de test ou d’entraînement, nous sommes en mesure de garantir l’équité sur tous les points du domaine. En outre, nous proposons une technique de prétraitement qui repose sur l’utilisation de l’équité comme biais inductif. Cette technique consiste à incorporer itérativement des contre-exemples plus équitables dans le processus d’apprentissage à travers la fonction de perte. Les techniques que nous avons développé ont été implémentées dans un outil appelé FETA. Une évaluation empirique sur des données réelles indique que FETA est non seulement capable de garantir l’équité au moment de la prédiction, mais aussi d’entraîner des modèles précis plus équitables. / Algorithmic decision-making driven by neural networks has become very prominent in applications that directly affect people’s quality of life. This paper focuses on the problem of ensuring individual fairness in neural network models during verification, training, and prediction. A popular approach for enforcing fairness is to translate a fairness notion into constraints over the parameters of the model. However, such a translation does not always guarantee fair predictions of the trained neural network model. To address this challenge, we develop a counterexample-guided post-processing technique to provably enforce fairness constraints at prediction time. Contrary to prior work that enforces fairness only on points around test or train data, we are able to enforce and guarantee fairness on all points in the domain. Additionally, we propose a counterexample guided loss as an in-processing technique to use fairness as an inductive bias by iteratively incorporating fairness counterexamples in the learning process. We have implemented these techniques in a tool called FETA. Empirical evaluation on real-world datasets indicates that FETA is not only able to guarantee fairness on-the-fly at prediction time but also is able to train accurate models exhibiting a much higher degree of individual fairness. Fairness Bias Mitigation Neural Networks Verification Équité Réseaux de Neurones Vérification

Search results