Spelling suggestions: "subject:"réseaux dde neurones"" "subject:"réseaux dee neurones""
161 |
Processing and learning deep neural networks on chip / Traitement et apprentissage des réseaux de neurones profonds sur puceBoukli Hacene, Ghouthi 03 October 2019 (has links)
Dans le domaine de l'apprentissage machine, les réseaux de neurones profonds sont devenus la référence incontournable pour un très grand nombre de problèmes. Ces systèmes sont constitués par un assemblage de couches, lesquelles réalisent des traitements élémentaires, paramétrés par un grand nombre de variables. À l'aide de données disponibles pendant une phase d'apprentissage, ces variables sont ajustées de façon à ce que le réseau de neurones réponde à la tâche donnée. Il est ensuite possible de traiter de nouvelles données. Si ces méthodes atteignent les performances à l'état de l'art dans bien des cas, ils reposent pour cela sur un très grand nombre de paramètres, et donc des complexités en mémoire et en calculs importantes. De fait, ils sont souvent peu adaptés à l'implémentation matérielle sur des systèmes contraints en ressources. Par ailleurs, l'apprentissage requiert de repasser sur les données d'entraînement plusieurs fois, et s'adapte donc difficilement à des scénarios où de nouvelles informations apparaissent au fil de l'eau. Dans cette thèse, nous nous intéressons dans un premier temps aux méthodes permettant de réduire l'impact en calculs et en mémoire des réseaux de neurones profonds. Nous proposons dans un second temps des techniques permettant d'effectuer l'apprentissage au fil de l'eau, dans un contexte embarqué. / In the field of machine learning, deep neural networks have become the inescapablereference for a very large number of problems. These systems are made of an assembly of layers,performing elementary operations, and using a large number of tunable variables. Using dataavailable during a learning phase, these variables are adjusted such that the neural networkaddresses the given task. It is then possible to process new data.To achieve state-of-the-art performance, in many cases these methods rely on a very largenumber of parameters, and thus large memory and computational costs. Therefore, they are oftennot very adapted to a hardware implementation on constrained resources systems. Moreover, thelearning process requires to reuse the training data several times, making it difficult to adapt toscenarios where new information appears on the fly.In this thesis, we are first interested in methods allowing to reduce the impact of computations andmemory required by deep neural networks. Secondly, we propose techniques for learning on thefly, in an embedded context.
|
162 |
Regularization schemes for transfer learning with convolutional networks / Stratégies de régularisation pour l'apprentissage par transfert des réseaux de neurones à convolutionLi, Xuhong 10 September 2019 (has links)
L’apprentissage par transfert de réseaux profonds réduit considérablement les coûts en temps de calcul et en données du processus d’entraînement des réseaux et améliore largement les performances de la tâche cible par rapport à l’apprentissage à partir de zéro. Cependant, l’apprentissage par transfert d’un réseau profond peut provoquer un oubli des connaissances acquises lors de l’apprentissage de la tâche source. Puisque l’efficacité de l’apprentissage par transfert vient des connaissances acquises sur la tâche source, ces connaissances doivent être préservées pendant le transfert. Cette thèse résout ce problème d’oubli en proposant deux schémas de régularisation préservant les connaissances pendant l’apprentissage par transfert. Nous examinons d’abord plusieurs formes de régularisation des paramètres qui favorisent toutes explicitement la similarité de la solution finale avec le modèle initial, par exemple, L1, L2, et Group-Lasso. Nous proposons également les variantes qui utilisent l’information de Fisher comme métrique pour mesurer l’importance des paramètres. Nous validons ces approches de régularisation des paramètres sur différentes tâches de segmentation sémantique d’image ou de calcul de flot optique. Le second schéma de régularisation est basé sur la théorie du transport optimal qui permet d’estimer la dissimilarité entre deux distributions. Nous nous appuyons sur la théorie du transport optimal pour pénaliser les déviations des représentations de haut niveau entre la tâche source et la tâche cible, avec le même objectif de préserver les connaissances pendant l’apprentissage par transfert. Au prix d’une légère augmentation du temps de calcul pendant l’apprentissage, cette nouvelle approche de régularisation améliore les performances des tâches cibles et offre une plus grande précision dans les tâches de classification d’images par rapport aux approches de régularisation des paramètres. / Transfer learning with deep convolutional neural networks significantly reduces the computation and data overhead of the training process and boosts the performance on the target task, compared to training from scratch. However, transfer learning with a deep network may cause the model to forget the knowledge acquired when learning the source task, leading to the so-called catastrophic forgetting. Since the efficiency of transfer learning derives from the knowledge acquired on the source task, this knowledge should be preserved during transfer. This thesis solves this problem of forgetting by proposing two regularization schemes that preserve the knowledge during transfer. First we investigate several forms of parameter regularization, all of which explicitly promote the similarity of the final solution with the initial model, based on the L1, L2, and Group-Lasso penalties. We also propose the variants that use Fisher information as a metric for measuring the importance of parameters. We validate these parameter regularization approaches on various tasks. The second regularization scheme is based on the theory of optimal transport, which enables to estimate the dissimilarity between two distributions. We benefit from optimal transport to penalize the deviations of high-level representations between the source and target task, with the same objective of preserving knowledge during transfer learning. With a mild increase in computation time during training, this novel regularization approach improves the performance of the target tasks, and yields higher accuracy on image classification tasks compared to parameter regularization approaches.
|
163 |
Etude cellulaire de la genèse et de l'apprentissage d'un comportement motivé chez l'aplysie / Cellular study of the genesis and learning of a motivated behavior in AplysiaBedecarrats, Alexis 19 December 2014 (has links)
Les comportements motivés tels que les comportements alimentaires ou sexuels sont émis de façon irrégulière sous l’impulsion du système nerveux central. Ils sont régulés par des informations sensorielles et des apprentissages. Dans un apprentissage associatif, le conditionnement opérant appétitif, l’animal apprend les conséquences de son action parl’association d’une action à l’obtention d’une récompense (un stimulus à forte valeur appétitive). Il est établi que cet apprentissage induit la transition d’une motricité initialement peu fréquente et irrégulière en une motricité rythmique, fréquente et régulière. Cependant, les mécanismes cellulaires du système nerveux central qui sont responsables de cettetransition, restent largement méconnus. Notre étude chez le mollusque aplysie nous a permis d’identifier ces mécanismes dans un réseau neuronal identifié et générateur des patterns moteurs du comportement alimentaire. Sur des préparations du système nerveux isolé, nous avons sélectivement contrôlé l’expression fréquente d’une part et régulièred’autre part de la motricité apprise grâce à la manipulation expérimentale de la plasticité fonctionnelle de neurones pacemakers identifiés. Ainsi, nous avons nouvellement établi un lien de causalité entre (1) des modifications membranaires et l’accélération motrice et (2) le renforcement de synapses électriques et la régularité motrice. Nous avons mis en évidence le rôle du transmetteur dopamine dans l’induction de ces plasticités fonctionnelles et l’expression de la motricité fréquente et régulière. Enfin, nous avons analysé les propriétés intrinsèques du neurone responsable de l’impulsion spontanée et irrégulière de la motricité des animaux naïfs. Pour conclure, l’ensemble de ces travaux de thèse offre une vue étendue des mécanismes cellulaires qui déterminent la variabilité d’un comportement motivé et sarégulation par apprentissage. / Motivated behaviors such as feeding or sexual behavior are irregularly expressed by impulsive drives from the central nervous system. However, such goal-directed acts are regulated by sensory inputs and learning. In a form of associative learning, appetitive operant conditioning, an animal learns the consequences of its own actions by making the contingentassociation between an emitted act and delivery of a rewarding (highly appetitive) stimulus. It is now established that this learning procedure induces the transition from an initially infrequent and irregular motor activity to a frequent and regular behavior. However the cellular and central network mechanisms that mediate this behavioral plasticity remain poorlyunderstood. Our study on the marine sea slug Aplysia has allowed us to analyze these mechanisms in an identified neuronal network that is responsible for generating the motor patterns of the animal's feeding behavior. Using in vitro neuronal preparations, we selectively controlled the frequency and regularity of the motor activity induced by operant learning with experimental manipulations of the functional plasticity in identified pacemaker neurons. We found for the first time a causal relationship between the learning-induced plasticity and (1) changes in pacemaker neuron membrane properties and the increased frequency of feeding motor activity, and (2), in the strength of their interconnecting electrical synapses and the regularized phenotype of this motor activity. We then addressed the role of the transmitterdopamine in the induction of this functional plasticity and specifically the expression of a frequent and stereotyped rhythmic feeding motor pattern. Finally, we analyzed the intrinsic membrane properties of the essential pacemaker neuron for generating the irregular motor drive in naïve animals. In conclusion, the data from this thesis work have provided novelinsights into the cellular and synaptic mechanisms underlying the intrinsic variability of a motivated behavior and its regulation by learning.
|
164 |
Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale / Localization and enhancement of speech from the Ambisonics formatPerotin, Lauréline 31 October 2019 (has links)
Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels. / This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments.
|
165 |
Adéquation algorithme-architecture de réseaux de neurones à spikes pour les architectures matérielles massivement parallèles / Algorithm-architecture adequacy of spiking neural networks for massively parallel processing hardwareFerré, Paul 11 July 2018 (has links)
Cette dernière décennie a donné lieu à la réémergence des méthodes d'apprentissage machine basées sur les réseaux de neurones formels sous le nom d'apprentissage profond. Bien que ces méthodes aient permis des avancées majeures dans le domaine de l'apprentissage machine, plusieurs obstacles à la possibilité d'industrialiser ces méthodes persistent, notamment la nécessité de collecter et d'étiqueter une très grande quantité de données ainsi que la puissance de calcul nécessaire pour effectuer l'apprentissage et l'inférence avec ce type de réseau neuronal. Dans cette thèse, nous proposons d'étudier l'adéquation entre des algorithmes d'inférence et d'apprentissage issus des réseaux de neurones biologiques pour des architectures matérielles massivement parallèles. Nous montrons avec trois contributions que de telles adéquations permettent d'accélérer drastiquement les temps de calculs inhérents au réseaux de neurones. Dans notre premier axe, nous réalisons l'étude d'adéquation du moteur BCVision de Brainchip SAS pour les plate-formes GPU. Nous proposons également l'introduction d'une architecture hiérarchique basée sur des cellules complexes. Nous montrons que l'adéquation pour GPU accélère les traitements par un facteur sept, tandis que l'architecture hiérarchique atteint un facteur mille. La deuxième contribution présente trois algorithmes de propagation de décharges neuronales adaptés aux architectures parallèles. Nous réalisons une étude complète des modèles computationels de ces algorithmes, permettant de sélectionner ou de concevoir un système matériel adapté aux paramètres du réseau souhaité. Dans notre troisième axe nous présentons une méthode pour appliquer la règle Spike-Timing-Dependent-Plasticity à des données images afin d'apprendre de manière non-supervisée des représentations visuelles. Nous montrons que notre approche permet l'apprentissage d'une hiérarchie de représentations pertinente pour des problématiques de classification d'images, tout en nécessitant dix fois moins de données que les autres approches de la littérature. / The last decade has seen the re-emergence of machine learning methods based on formal neural networks under the name of deep learning. Although these methods have enabled a major breakthrough in machine learning, several obstacles to the possibility of industrializing these methods persist, notably the need to collect and label a very large amount of data as well as the computing power necessary to perform learning and inference with this type of neural network. In this thesis, we propose to study the adequacy between inference and learning algorithms derived from biological neural networks and massively parallel hardware architectures. We show with three contribution that such adequacy drastically accelerates computation times inherent to neural networks. In our first axis, we study the adequacy of the BCVision software engine developed by Brainchip SAS for GPU platforms. We also propose the introduction of a coarse-to-fine architecture based on complex cells. We show that GPU portage accelerates processing by a factor of seven, while the coarse-to-fine architecture reaches a factor of one thousand. The second contribution presents three algorithms for spike propagation adapted to parallel architectures. We study exhaustively the computational models of these algorithms, allowing the selection or design of the hardware system adapted to the parameters of the desired network. In our third axis we present a method to apply the Spike-Timing-Dependent-Plasticity rule to image data in order to learn visual representations in an unsupervised manner. We show that our approach allows the effective learning a hierarchy of representations relevant to image classification issues, while requiring ten times less data than other approaches in the literature.
|
166 |
Apprentissage de représentation pour des données générées par des utilisateurs / Representation learning of user-generated dataPoussevin, Mickael 21 January 2015 (has links)
Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles. / In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles.
|
167 |
Modélisation et synthèse de voix chantée à partir de descripteurs visuels extraits d'images échographiques et optiques des articulateurs / Singing voice modeling and synthesis using visual features extracted from ultrasound and optical images of articulatorsJaumard-Hakoun, Aurore 05 September 2016 (has links)
Le travail présenté dans cette thèse porte principalement sur le développement de méthodes permettant d'extraire des descripteurs pertinents des images acquises des articulateurs dans les chants rares : les polyphonies traditionnelles Corses, Sardes, la musique Byzantine, ainsi que le Human Beat Box. Nous avons collecté des données, et employons des méthodes d'apprentissage statistique pour les modéliser, notamment les méthodes récentes d'apprentissage profond (Deep Learning).Nous avons étudié dans un premier temps des séquences d'images échographiques de la langue apportant des informations sur l'articulation, mais peu lisibles sans connaissance spécialisée en échographie. Nous avons développé des méthodes pour extraire de façon automatique le contour supérieur de la langue montré par les images échographiques. Nos travaux ont donné des résultats d'extraction du contour de la langue comparables à ceux obtenus dans la littérature, ce qui pourrait permettre des applications en pédagogie du chant.Ensuite, nous avons prédit l'évolution des paramètres du filtre qu'est le conduit vocal depuis des séquences d'images de langue et de lèvres, sur des bases de données constituées de voyelles isolées puis de chants traditionnels Corses. L'utilisation des paramètres du filtre du conduit vocal, combinés avec le développement d'un modèle acoustique de source vocale exploitant l'enregistrement électroglottographique, permet de synthétiser des extraits de voix chantée en utilisant les images articulatoires (de la langue et des lèvres)et l'activité glottique, avec des résultats supérieurs à ceux obtenus avec les techniques existant dans la littérature. / This thesis reports newly developed methods which can be applied to extract relevant features from articulator images in rare singing: traditional Corsican and Sardinian polyphonies, Byzantine music, as well as Human Beat Box. We collected data, and modeled these using machine learning methods, specifically novel deep learning methods. We first modelled tongue ultrasound image sequences, carrying relevant articulatory information which would otherwise be difficult to interpret without specialized skills in ultrasound imaging. We developed methods to extract automatically the superior contour of the tongue displayed on ultrasound images. Our tongue contour extraction results are comparable with those obtained in the literature, which could lead to applications in singing pedagogy. Afterwards, we predicted the evolution of the vocal tract filter parameters from sequences of tongue and lip images, first on isolated vowel databases then on traditional Corsican singing. Applying the predicted filter parameters, combined with the development of a vocal source acoustic model exploiting electroglottographic recordings, allowed us to synthesize singing voice excerpts using articulatory images (of tongue and lips) and glottal activity, with results superior to those obtained using existing technics reported in the literature.
|
168 |
Approche prédictive de l'efficacité énergétique dans les Clouds Datacenters / Predictive approach of power efficiency into Clouds DatacentersGbaguidi, Fréjus A. Roméo 22 December 2017 (has links)
Avec la démocratisation des technologies du numérique, la construction d'un cyberespace globalisé s'est faite insidieusement, transformant littéralement notre mode de vie et notre vécu quotidien. Faire communiquer plus de 4 milliards d'individus à une vitesse devenue incontrôlable, nécessite l'invention de nouveaux concepts pour la production des services informatiques capable de s'adapter à ce défis. Le Cloud Computing, dans cette optique permet de fournir à travers des Datacenters, une partie ou la totalité des composants nécessaires aux entreprises pour la délivrance de leurs services dans les délais et avec des performances conformes aux exigences de leurs clients. Dès lors, la prolifération conséquente des Datacenters aux quatre coins du monde a mis au jour la préoccupante question de la quantité d'énergie nécessaire pour leur fonctionnement et la difficulté qui en résulte pour l'humanité dont les réserves actuelles ne sont pas extensibles à l'infini. Ainsi, il est apparu nécessaire de développer des techniques permettant de réduire la consommation électrique des Datacenters en minimisant les pertes d'énergie orchestrées sur les serveurs dont le moindre watt gaspillé entraine par effet de cascade une augmentation substantielle de la facture globale des Datacenters. Notre travail a consisté à faire dans un premier temps une revue de la littérature sur le sujet, puis de tester la capacité de quelques outils de prédiction à améliorer l'anticipation des risques de pertes d'énergie engendrer par la mauvaise allocation des machines virtuelles sur les serveurs. Cette étude s'est focalisée notamment sur les outil ARMA et les réseaux de neurones qui dans la littérature ont produit des résultats intéressants dans des domaines proches. Après cette étape, il nous est apparu que les outils ARMA bien qu'ayant des performances inférieures aux réseaux de neurones dans notre contexte, s'exécute dans plus rapidement et sont les plus adaptés pour être implémenter dans les environnements de Cloud Computing. Ainsi, nous avons utilisé les résultats de cette méthode pour améliorer le processus de prise de décision, notamment pour la re-allocation proactive des machines virtuelles avant qu'il n'entraine des sous-consommations des ressources sur les serveurs physiques ou des surconsommation pouvant induire des violations des accords de niveaux de service. Cette démarche a permis sur la base de nos simulations de réduire de plus de 5Kwh la consommation d'énergie dans une ferme de 800 serveurs et sur une durée d'une journée. Ce gain pourrait se révéler important lorsque l'on considère la taille énorme des datacenters modernes et que l'on se projette dans une durée relativement longue. Il serait encore plus intéressant d'approfondir cette recherche afin de généraliser l'intégration de cette approche prédictive dans les techniques existantes afin d'optimiser de façon significative les consommations d'énergie au sein des Datacenters tout en préservant les performances et la qualité de service indispensable dans le concept de Cloud Computing. / With the democratization of digital technologies, the construction of a globalized cyberspace insidiously transforms our lifestyle. Connect more than 4 billion people at high speed, requires the invention of new concept of service provision and trafic management that are capable to face the challenges. For that purpose, Cloud Computing have been set up to enable Datacenters to provide part or total IT components needed by companies for timely services delivering with performance that meets the requirements of their clients. Consequently, the proliferation of Datacenters around the world has brought to light the worrying question about the amount of energy needed for their function and the resulting difficulty for the humanity, whose current reserves are not extensible indefinitely. It was therefore necessary to develop techniques that reduce the power consumption of Datacenters by minimizing the energy losses orchestrated on servers where each wasted watt results in a chain effect on a substantial increase in the overall bill of Datacenters. Our work consisted first in making a review of the literature on the subject and then testing the ability of some prediction tools to improve the anticipation of the risks of energy loss caused by the misallocation of virtual equipment on servers. This study focused particularly on the ARMA tools and neural networks which in the literature have produced interesting results in related fields. After this step, it appeared to us that ARMA tools, although having less performance than neural networks in our context, runs faster and are best suited to be implemented in cloud computing environments. Thus, we used the results of this method to improve the decision-making process, notably for the proactive re-allocation of virtual equipment before it leads to under-consumption of resources on physical servers or over-consumption inducing breaches of SLAs. Based on our simulations, this approach enabled us to reduce energy consumption on a firm of 800 servers over a period of one day by more than 5Kwh. This gain could be significant when considering the enormous size of modern data centers and projected over a relatively long period of time. It would be even more interesting to deepen this research in order to generalize the integration of this predictive approach into existing techniques in order to significantly optimize the energy consumption within Datacenters while preserving performance and quality of service which are key requirements in the concept of Cloud Computing
|
169 |
Prévision statistique de la qualité de l’air et d’épisodes de pollution atmosphérique en Corse / Statistical forecast of air quality and episodes of atmospheric pollution in CorsicaTamas, Wani Théo 17 November 2015 (has links)
L’objectif de ces travaux de doctorat est de développer un modèle prédictif capable de prévoir correctement les concentrations en polluants du jour pour le lendemain en Corse. Nous nous sommes intéressés aux PM10 et à l’ozone, les deux polluants les plus problématiques sur l’île. Le modèle devait correspondre aux contraintes d’un usage opérationnel au sein d’une petite structure, comme Qualitair Corse, l’association locale de surveillance de la qualité de l’air.La prévision a été réalisée à l’aide de réseaux de neurones artificiels. Ces modèles statistiques offrent une grande précision tout en nécessitant peu de ressources informatiques. Nous avons choisi le Perceptron MultiCouche (PMC), avec en entrée à la fois des mesures de polluants, des mesures météorologiques, et des sorties de modèles de chimie-transport (CHIMERE via la plate-forme AIRES) et de modèles météorologiques (AROME).La configuration des PMC a été optimisée avant leur apprentissage automatique, en conformité avec le principe de parcimonie. Pour en améliorer les performances, une étude de sélection de variables a été au préalable menée. Nous avons comparé l’usage d’algorithmes génétiques, de recuits simulés et d’analyse en composantes principales afin d’optimiser le choix des variables d’entrées. L’élagage du PMC a été également mis en œuvre.Nous avons ensuite proposé un nouveau type de modèle hybride, combinaison d’un classifieur et de plusieurs PMC, chacun spécialisé sur un régime météorologique particulier. Ces modèles, qui demandent un large historique de données d’apprentissage, permettent d’améliorer la prévision des valeurs extrêmes et rares, correspondant aux pics de pollution. La classification non-supervisée a été menée avec des cartes auto-organisatrices couplées à l’algorithme des k-means, ainsi que par classification hiérarchique ascendante. L’analyse de sensibilité à été menée grâce à l’usage de courbes ROC.Afin de gérer les jeux de données utilisés, de mener les expérimentations de manière rigoureuse et de créer les modèles destinés à l’usage opérationnel, nous avons développé l’application « Aria Base », fonctionnant sous Matlab à l’aide de la Neural Network Toolbox.Nous avons également développé l’application « Aria Web » destinée à l’usage quotidien à Qualitair Corse. Elle est capable de mener automatiquement les prévisions par PMC et de synthétiser les différentes informations qui aident la prévision rendues disponibles sur internet par d’autres organismes. / The objective of this doctoral work is to develop a forecasting model able to correctly predict next day pollutant concentrations in Corsica. We focused on PM10 and ozone, the two most problematic pollutants in the island. The model had to correspond to the constraints of an operational use in a small structure like Qualitair Corse, the local air quality monitoring association.The prediction was performed using artificial neural networks. These statistical models offer a great precision while requiring few computing resources. We chose the MultiLayer Perceptron (MLP), with input data coming from pollutants measurements, meteorological measurements, chemical transport model (CHIMERE via AIRES platform) and numerical weather prediction model (AROME).The configuration of the MLP was optimized prior to machine learning, in accordance with the principle of parsimony. To improve forecasting performances, we led a feature selection study. We compared the use of genetic algorithms, simulated annealing and principal component analysis to optimize the choice of input variables. The pruning of the MLP was also implemented.Then we proposed a new type of hybrid model, combination of a classification model and various MLPs, each specialized on a specific weather pattern. These models, which need large learning datasets, allow an improvement of the forecasting for extreme and rare values, corresponding to pollution peaks. We led unsupervised classification with self organizing maps coupled with k-means algorithm, and with hierarchical ascendant classification. Sensitivity analysis was led with ROC curves.We developed the application “Aria Base” running with Matlab and its Neural Network Toolbox, able to manage our datasets, to lead rigorously the experiments and to create operational models.We also developed the application “Aria Web” to be used daily by Qualitair Corse. It is able to lead automatically the prevision with MLP, and to synthesize forecasting information provided by other organizations and available on the Internet.
|
170 |
Dynamics of learning and generalization in neural networksPezeshki, Mohammad 08 1900 (has links)
Les réseaux neuronaux sont remarquablement performants pour une grande variété de tâches d'apprentissage automatique et ont eu un impact profond sur la définition même de l'intelligence artificielle (IA). Cependant, malgré leur rôle important dans l'état actuel de l'IA, il est important de réaliser que nous sommes encore loin d'atteindre une intelligence de niveau humain. Une étape cruciale à l'amélioration de la performance des réseaux neuronaux consiste à faire progresser notre compréhension théorique, qui est en retard par rapport aux développements pratiques. Les dynamiques d'optimisation complexes des réseaux neuronaux, qui résultent d’interactions en haute dimension entre les nombreux paramètres du réseau, constituent un défi majeur pour l'élaboration des fondements théoriques de l'apprentissage profond. Ces dynamiques non triviales donnent lieu à des comportements empiriques déroutants qui, dans certains cas, contrastent fortement avec les prédictions théoriques. L'absence de surapprentissage dans les réseaux sur-paramétrés, leur recours à des corrélations fallacieuses et les courbes de généralisation non monotones font partie des comportements de généralisation des réseaux neuronaux qui laissent perplexe.
Dans cette thèse, notre objectif est d'étudier certains de ces phénomènes perplexes en tant que pièces différentes d'un même casse-tête; un casse-tête dans lequel chaque phénomène sert de signal d'orientation pour développer une meilleure compréhension des réseaux neuronaux. Nous présentons trois articles en vue d’atteindre cet objectif; Le premier article sur multi-scale feature learning dynamics étudie les raisons qui sous-tendent la courbe de généralisation à double descente observée dans les réseaux neuronaux modernes. L'une des principales conclusions est que la double descente à travers les époques peut être attribuée à l'apprentissage de traits caractéristiques distincts à différentes échelles : Alors que les représentations faciles/rapides à apprendre sont en sur-apprentissage, les représentations plus complexes/lentes commencent à bien apprendre, ce qui entraîne une deuxième descente de l'erreur sur l’ensemble de test. Le deuxième article sur la famine de gradient identifie un phénomène fondamental qui peut entraîner une inclination à l'apprentissage dans les réseaux neuronaux. La famine de gradient se produit lorsqu'un réseau neuronal apprend à minimiser la perte en ne capturant qu'un sous-ensemble des traits caractéristiques pertinents à la classification, malgré la présence d'autres traits caractéristiques informatifs qui ne sont pas découverts. La famine de gradient a des conséquences bénéfiques et néfastes dont nous discutons. Le troisième article sur les méthodes simples de ré-équilibrage des données présente une étude empirique sur le problème de la généralisation à des groupes sous-représentés lorsque les données d'entraînement souffrent de déséquilibres importants. Ce travail porte sur les modèles qui généralisent bien en moyenne mais ne parviennent pas à généraliser à des groupes minoritaires. Notre principale conclusion est que des méthodes simples de ré-équilibrage de données permettent d'atteindre l’état de l’art pour la précision sur les groupes minoritaires, ce qui appelle à une examination plus approfondie des valeurs de référence et des méthodes de recherche sur la généralisation en-dehors du support de la distribution.
Nos résultats permettent de mieux comprendre la mécanique interne des réseaux neuronaux et d'identifier les obstacles à la construction de modèles plus fiables, et ont des implications pratiques quant à l'entraînement des réseaux neuronaux. / Neural networks perform remarkably well in a wide variety of machine learning tasks and have had a profound impact on the very definition of artificial intelligence (AI). However, despite their significant role in the current state of AI, it is important to realize that we are still far from achieving human-level intelligence. A critical step in further improving neural networks is to advance our theoretical understanding which is in fact lagging behind our practical developments. A key challenge in building theoretical foundations for deep learning is the complex optimization dynamics of neural networks, resulting from the high-dimensional interactions between a large number of network parameters. Such non-trivial dynamics lead to puzzling empirical behaviors that, in some cases, appear in stark contrast with existing theoretical predictions. Lack of overfitting in over-parameterized networks, their reliance on spurious correlations, and double-descent generalization curves are among the perplexing generalization behaviors of neural networks.
In this dissertation, our goal is to study some of these perplexing phenomena as different pieces of the same puzzle. A puzzle in which every phenomenon serves as a guiding signal towards developing a better understanding of neural networks. We present three articles towards this goal; The first article on multi-scale feature learning dynamics investigates the reasons underlying the double-descent generalization curve observed in modern neural networks. A central finding is that epoch-wise double descent can be attributed to distinct features being learned at different scales: as fast-learning features overfit, slower-learning features start to fit, resulting in a second descent in test error. The second article on gradient starvation identifies a fundamental phenomenon that can result in a learning proclivity in neural networks. Gradient starvation arises when a neural network learns to minimize the loss by capturing only a subset of features relevant for classification, despite the presence of other informative features which fail to be discovered. We discuss how gradient starvation can have both beneficial and adverse consequences on generalization performance. The third article on simple data balancing methods conducts an empirical study on the problem of generalization to underrepresented groups when the training data suffers from substantial imbalances. This work looks into models that generalize well on average but fail to generalize to minority groups of examples. Our key finding is that simple data balancing methods already achieve state-of-the-art accuracy on minority groups which calls for closer examination of benchmarks and methods for research in out-of-distribution generalization. These three articles take steps towards bringing insights into the inner mechanics of neural networks, identifying the obstacles in the way of building reliable models, and providing practical suggestions for training neural networks.
|
Page generated in 0.0726 seconds