• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 182
  • 79
  • 21
  • 1
  • Tagged with
  • 303
  • 235
  • 234
  • 204
  • 137
  • 107
  • 105
  • 105
  • 103
  • 91
  • 83
  • 80
  • 78
  • 77
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Towards adaptive deep model-based reinforcement learning

Rahimi-Kalahroudi, Ali 08 1900 (has links)
L'une des principales caractéristiques comportementales utilisées en neurosciences afin de déterminer si le sujet d'étude --- qu'il s'agisse d'un rongeur ou d'un humain --- démontre un apprentissage basé sur un modèle (model-based) est une adaptation efficace aux changements locaux de l'environnement. Dans l'apprentissage par renforcement (RL), cependant, nous démontrons, en utilisant une version améliorée de la configuration d'adaptation au changement local (LoCA) récemment introduite, que les méthodes bien connues d'apprentissage par renforcement basées sur un modèle (MBRL) telles que PlaNet et DreamerV2 présentent un déficit dans leur capacité à s'adapter aux changements environnementaux locaux. En combinaison avec des travaux antérieurs qui ont fait une observation similaire sur l'autre méthode populaire basée sur un modèle, MuZero, une tendance semble émerger, suggérant que les méthodes MBRL profondes actuelles ont de sérieuses limites. Nous approfondissons les causes de ces mauvaises performances en identifiant les éléments qui nuisent au comportement adaptatif et en les reliant aux techniques sous-jacentes fréquemment utilisées dans la RL basée sur un modèle profond, à la fois en matière d'apprentissage du modèle mondial et de la routine de planification. Nos résultats démontrent qu'une exigence particulièrement difficile pour les méthodes MBRL profondes est qu'il est difficile d'atteindre un modèle mondial suffisamment précis dans toutes les parties pertinentes de l'espace d'état en raison de l'oubli catastrophique. Et tandis qu'un tampon de relecture peut atténuer les effets de l'oubli catastrophique, un tampon de relecture traditionnel premier-entré-premier-sorti empêche une adaptation efficace en raison du maintien de données obsolètes. Nous montrons qu'une variante conceptuellement simple de ce tampon de relecture traditionnel est capable de surmonter cette limitation. En supprimant uniquement les échantillons du tampon de la région locale des échantillons nouvellement observés, des modèles de monde profond peuvent être construits qui maintiennent leur précision dans l'espace d'état, tout en étant capables de s'adapter efficacement aux changements locaux de la fonction de récompense. Nous démontrons qu’en appliquant notre variation de tampon de relecture à une version profonde de la méthode Dyna classique, ainsi qu'à des méthodes récentes telles que PlaNet et DreamerV2, les méthodes basées sur des modèles profonds peuvent également s'adapter efficacement aux changements locaux de l'environnement. / One of the key behavioral characteristics used in neuroscience to determine whether the subject of study---be it a rodent or a human---exhibits model-based learning is effective adaptation to local changes in the environment. In reinforcement learning (RL), however, we demonstrate, using an improved version of the recently introduced Local Change Adaptation (LoCA) setup, that well-known model-based reinforcement learning (MBRL) methods such as PlaNet and DreamerV2 perform poorly in their ability to adapt to local environmental changes. Combined with prior work that made a similar observation about the other popular model-based method, MuZero, a trend appears to emerge, suggesting that current deep MBRL methods have serious limitations. We dive deeper into the causes of this poor performance by identifying elements that hurt adaptive behavior and linking these to underlying techniques frequently used in deep model-based RL, both in terms of learning the world model and the planning routine. Our findings demonstrate that one particularly challenging requirement for deep MBRL methods is that attaining a world model that is sufficiently accurate throughout relevant parts of the state-space is challenging due to catastrophic forgetting. And while a replay buffer can mitigate the effects of catastrophic forgetting, the traditional first-in-first-out replay buffer precludes effective adaptation due to maintaining stale data. We show that a conceptually simple variation of this traditional replay buffer is able to overcome this limitation. By removing only samples from the buffer from the local neighbourhood of the newly observed samples, deep world models can be built that maintain their accuracy across the state-space, while also being able to effectively adapt to local changes in the reward function. We demonstrate this by applying our replay-buffer variation to a deep version of the classical Dyna method, as well as to recent methods such as PlaNet and DreamerV2, demonstrating that deep model-based methods can adapt effectively as well to local changes in the environment.
152

3D quantification of osteoclast resorption of equine bone in vitro

Moreira Grass, Debora 07 1900 (has links)
Des charges cycliques élevées induisent la formation de microfissures dans l'os, déclenchant un processus de remodelage ciblé, mené par les ostéoclastes et suivi par les ostéoblastes, visant à réparer et à prévenir l'accumulation des dommages. L'os de cheval de course est un modèle idéal pour étudier les effets d'une charge de haute intensité, car il est sujet à une accumulation focale de microfissures et à la résorption qui s'ensuit dans les articulations. Les ostéoclastes équins ont rarement été étudiés in vitro. Le volume de résorption des ostéoclastes est considéré comme un paramètre direct de l'activité des ostéoclastes, mais des méthodes indirectes de quantification en 2D de la résorption osseuse sont plus souvent utilisées. L'objectif de cette étude était de développer une méthode précise, à haut débit et assistée par l'apprentissage profond pour quantifier le volume de résorption des ostéoclastes équins dans les images micro tomodensitométrie (µCT) 3D. Des ostéoclastes équins ont été cultivés sur des tranches d'os équins, imagés par μCT avant et après la culture. Le volume, le ratio de forme et la profondeur maximale de chaque événement de résorption ont été mesurés dans les images volumétriques de trois tranches d'os. Un convolution neural network (CNN) a ensuite été entraîné à identifier les événements de résorption sur les images μCT post-culture, puis le modèle a été appliqué à des tranches d'os d'archives (n=21), pour lesquelles l’aire de résorption en 2D, et la concentration du biomarqueur de résorption CTX-I étaient connues. Cela a permis d'obtenir des informations 3D sur la résorption des tranches d’os pour lesquels aucune imagerie n'avait été réalisée avant la mise en culture. La valeur modale du volume, la profondeur maximale et le ratio de forme des événements de résorption discrète étaient respectivement de 2,7*103µm3, 12 µm et 0,18. Le volume de résorption moyen par tranche d'os archivés était de 34155,34*103µm3. Le volume de résorption mesuré par le CNN était en forte corrélation avec les mesures de CTX-I (p <0,001) et d’aire (p <0,001). Cette technique de segmentation des images µCT des coupes osseuses assistée par apprentissage profond pour quantifier le volume de résorption osseuse des ostéoclastes équins permettra des recherches futures plus précises et plus approfondies sur l'activité des ostéoclastes. Par exemple, les effets antirésorptifs de médicaments tels que les corticostéroïdes et les bisphosphonates pourront être étudiés à l'avenir. / High cyclic loads induce the formation of microcracks in bone, initiating a process of targeted remodeling, led by osteoclasts, and followed by osteoblasts, aimed at repairing and preventing accumulation of damage. Racehorse bone is an ideal model for studying the effects of high-intensity loading, as it is subject to focal accumulation of microcracks and subsequent resorption within joints. Equine osteoclasts have rarely been investigated in vitro. The volume of osteoclast resorption is considered a direct parameter of osteoclast activity, but indirect 2D quantification methods are used more often. The objective of this study was to develop an accurate, high-throughput, deep learning-aided method to quantify equine osteoclast resorption volume in µCT 3D images. Equine osteoclasts were cultured on equine bone slices, imaged with μCT pre- and post-culture. Volume, aspect ratio (shape factor) and maximum depth of each resorption event were measured in volumetric images of three bone slices. A convolutional neural network (U-Net-like) was then trained to identify resorption events on post-culture μCT images and then the network was applied to archival bone slices (n=21), for which the area of resorption in 2D, and the concentration of a resorption biomarker CTX-I were known. This unlocked the 3D information on resorption for bone slices where no pre-culture imaging was done. The modal volume, maximum depth, and aspect ratio of discrete resorption events were 2.7*103µm3, 12 µm and 0.18 respectively. The mean resorption volume per bone slice on achieved bone samples was 34155.34*103µm3. The CNN-labeled resorption volume correlated strongly with both CTX-I (p <0.001) and area measurements (p <0.001). This technique of deep learning-aided feature segmentation of µCT images of bone slices for quantifying equine osteoclast bone resorption volume allows for more accurate and extensive future investigations on osteoclast activity. For example, the antiresorptive effects of medications like corticosteroids and bisphosphonates can be investigated in the future.
153

Neurobiologically-inspired models : exploring behaviour prediction, learning algorithms, and reinforcement learning

Spinney, Sean 11 1900 (has links)
Le développement du domaine de l’apprentissage profond doit une grande part de son avancée aux idées inspirées par la neuroscience et aux études sur l’apprentissage humain. De la découverte de l’algorithme de rétropropagation à la conception d’architectures neuronales comme les Convolutional Neural Networks, ces idées ont été couplées à l’ingénierie et aux améliorations technologiques pour engendrer des algorithmes performants en utilisation aujourd’hui. Cette thèse se compose de trois articles, chacun éclairant des aspects distincts du thème central de ce domaine interdisciplinaire. Le premier article explore la modélisation prédictive avec des données d’imagerie du cerveau de haute dimension en utilisant une nouvelle approche de régularisation hybride. Dans de nombreuses applications pratiques (comme l’imagerie médicale), l’attention se porte non seulement sur la précision, mais également sur l’interprétabilité d’un modèle prédictif formé sur des données haute dimension. Cette étude s’attache à combiner la régularisation l1 et l2, qui régularisent la norme des gradients, avec l’approche récemment proposée pour la modélisation prédictive robuste, l’Invariant Learning Consistency, qui impose l’alignement entre les gradients de la même classe lors de l’entraînement. Nous examinons ici la capacité de cette approche combinée à identifier des prédicteurs robustes et épars, et nous présentons des résultats prometteurs sur plusieurs ensembles de données. Cette approche tend à améliorer la robustesse des modèles épars dans presque tous les cas, bien que les résultats varient en fonction des conditions. Le deuxième article se penche sur les algorithmes d’apprentissage inspirés de la biologie, en se concentrant particulièrement sur la méthode Difference Target Propagation (DTP) tout en l’intégrant à l’optimisation Gauss-Newton. Le développement de tels algorithmes biologiquement plausibles possède une grande importance pour comprendre les processus d’apprentissage neuronale, cependant leur extensibilité pratique à des tâches réelles est souvent limitée, ce qui entrave leur potentiel explicatif pour l’apprentissage cérébral réel. Ainsi, l’exploration d’algorithmes d’apprentissage qui offrent des fondements théoriques solides et peuvent rivaliser avec la rétropropagation dans des tâches complexes gagne en importance. La méthode Difference Target Propagation (DTP) se présente comme une candidate prometteuse, caractérisée par son étroite relation avec les principes de l’optimisation Gauss-Newton. Néanmoins, la rigueur de cette relation impose des limites, notamment en ce qui concerne la formation couche par couche des poids synaptiques du chemin de rétroaction, une configuration considérée comme plus biologiquement plausible. De plus, l’alignement entre les mises à jour des poids DTP et les gradients de perte est conditionnel et dépend des scénarios d’architecture spécifiques. Cet article relève ces défis en introduisant un schéma innovant d’entraînement des poids de rétroaction. Ce schéma harmonise la DTP avec la BP, rétablissant la viabilité de la formation des poids de rétroaction couche par couche sans compromettre l’intégrité théorique. La validation empirique souligne l’efficacité de ce schéma, aboutissant à des performances exceptionnelles de la DTP sur CIFAR-10 et ImageNet 32×32. Enfin, le troisième article explore la planification efficace dans la prise de décision séquentielle en intégrant le calcul adaptatif à des architectures d’apprentissage profond existantes, dans le but de résoudre des casse-tête complexes. L’étude introduit des principes de calcul adaptatif inspirés des processus cognitifs humains, ainsi que des avancées récentes dans le domaine du calcul adaptatif. En explorant en profondeur les comportements émergents du modèle de mémoire adaptatif entraîné, nous identifions plusieurs comportements reconnaissables similaires aux processus cognitifs humains. Ce travail élargit la discussion sur le calcul adaptatif au-delà des gains évidents en efficacité, en explorant les comportements émergents en raison des contraintes variables généralement attribuées aux processus de la prise de décision chez les humains. / The development of the field of deep learning has benefited greatly from biologically inspired insights from neuroscience and the study of human learning more generally, from the discovery of backpropagation to neural architectures such as the Convolutional Neural Network. Coupled with engineering and technological improvements, the distillation of good strategies and algorithms for learning inspired from biological observation is at the heart of these advances. Although it would be difficult to enumerate all useful biases that can be learned by observing humans, they can serve as a blueprint for intelligent systems. The following thesis is composed of three research articles, each shedding light on distinct facets of the overarching theme. The first article delves into the realm of predictive modeling on high-dimensional fMRI data, a landscape where not only accuracy but also interpretability are crucial. Employing a hybrid approach blending l1 and l2 regularization with Invariant Learning Consistency, this study unveils the potential of identifying robust, sparse predictors capable of transmuting noise laden datasets into coherent observations useful for pushing the field forward. Conversely, the second article delves into the domain of biologically-plausible learning algorithms, a pivotal endeavor in the comprehension of neural learning processes. In this context, the investigation centers upon Difference Target Propagation (DTP), a prospective framework closely related to Gauss-Newton optimization principles. This exploration delves into the intricate interplay between DTP and the tenets of biologically-inspired learning mechanisms, revealing an innovative schema for training feedback weights. This schema reinstates the feasibility of layer-wise feedback weight training within the DTP framework, while concurrently upholding its theoretical integrity. Lastly, the third article explores the role of memory in sequential decision-making, and proposes a model with adaptive memory. This domain entails navigating complex decision sequences within discrete state spaces, where the pursuit of efficiency encounters difficult scenarios such as the risk of critical irreversibility. The study introduces adaptive computation principles inspired by human cognitive processes, as well as recent advances in adaptive computing. By studying in-depth the emergent behaviours exhibited by the trained adaptive memory model, we identify several recognizable behaviours akin to human cognitive processes. This work expands the discussion of adaptive computing beyond the obvious gains in efficiency, but to behaviours emerging due to varying constraints usually attributable to dynamic response times in humans.
154

Optimizing vertical farming : control and scheduling algorithms for enhanced plant growth

Vu, Cong Vinh 10 1900 (has links)
L’agriculture verticale permet de contrôler presque totalement les conditions pour croître des plantes, qu’il s’agisse des conditions météorologiques, des nutriments nécessaires à la croissance des plantes ou même de la lutte contre les parasites. Il est donc possible de trouver et de définir des paramètres susceptibles d’augmenter le rendement et la qualité des récoltes et de minimiser la consommation d’énergie dans la mesure du possible. À cette fin, ce mémoire présente des algorithmes d’optimisation tels qu’une version améliorée du recuit simulé qui peut être utilisée pour trouver et donner des lignes directrices pour les paramètres de l’agriculture verticale. Nous présentons égalementune contribution sur la façon dont les algorithmes de contrôle, p. ex. l’apprentissage par renforcement profond avec les méthodes critiques d’acteurs, peuvent être améliorés grâce à une exploration plus efficace en prenant en compte de l’incertitude épistémique lors de la sélection des actions. cette contribution peut profiter aux systèmes de contrôle conçus pour l’agriculture verticale. Nous montrons que notre travail est capable de surpasser certains algorithmes utilisés pour l’optimisation et le contrôle continu. / Vertical farming provides a way to have almost total control over agriculture, whether it be controlling weather conditions, nutrients necessary for plant growth, or even pest control. As such, it is possible to find and set parameters that can increase crop yield, and quality, and minimize energy consumption where possible. To that end, this thesis presents optimization algorithms such as an enhanced version of Simulated Annealing that can be used to find and give guidelines for those parameters. We also present work on how real-time control algorithms such as Actor-Critic methods can be made to perform better through more efficient exploration by taking into account epistemic uncertainty during action selection which can also benefit control systems made for vertical farming. We show that our work is able to outperform some algorithms used for optimization and continuous control.
155

Identification des électrons dans l'expérience ATLAS à l'aide de réseaux de neurones convolutifs entraînés dans les données expérimentales

Denis, Olivier 11 1900 (has links)
Ce mémoire s’inscrit dans une optique d’innovation dans le domaine de l’identification des électrons dans l’expérience ATLAS. ATLAS est l’un des quatre détecteurs principaux installés sur le plus puissant accélérateur de particules au monde, le LHC. Cette recherche pousse encore plus loin un projet s’intéressant à l’identification des électrons, qui sont presque omniprésents dans les analyses de la collaboration ATLAS, à l’aide de réseaux de neurones convolutifs. Le réseau entraîné avec des données de simulation de collision proton-proton à √s = 13 TeV dans ATLAS montrant déjà des résultats probants, ce mémoire investigue la possibilité d’entraîner le réseau avec des données expérimentales. D’abord, une étude des ensembles de données expérimentales et de simulation montre des différences entre les distributions des variables de haut niveau données en entrée au réseau de neurones. Ensuite, nous avons entraîné deux réseaux de neurones : un premier sur un échantillon où le bruit de fond principal, les saveurs légères, a été remplacé par des données expérimentales et un second, sur la simulation. Ces deux réseaux ont alors été validés sur l’échantillon contenant des données expérimentales. Les résultats préliminaires montrent que l’utilisation des données expérimentales améliore le rejet du bruit de fond de type saveur légère jusqu’à 1,4 fois par rapport au réseau de neurones entraîné sur la simulation et améliore jusqu’à 3,6 fois le rejet du bruit de fond combiné par rapport à l’algorithme de vraisemblance présentement utilisé dans ATLAS. / This memoir follows a perspective of innovation in the field of electron identification in the ATLAS experiment. ATLAS is one of the four major detectors installed on the LHC ring, the most powerful particle accelerator in the world. This research pushes the boundaries of an earlier project about identifying electrons, a particle which is almost ubiquitous in ATLAS analysis, using convolutional neural networks. Since the network trained with simulated data of proton-proton collisions at √s = 13 TeV in the ATLAS detector has already shown good results, this memoir investigates the possibility to train a convolutional network with real data. We first study the data samples and show that there are significant differences in the distribution of high level variables given as input to the neural network. We then train two neural networks : one of which the most prominent background, light flavour faking electrons, is replaced by real data in the training sample, and a second where the training sample is left untouched. These two networks are then validated on the sample containing real data light flavours. The preliminary results show that using real data to train our classifier improves the background rejection with respect to the light flavour background by a factor up to 1.4 in comparison with the Monte Carlo trained network. We also have an improvement with respect to the combined background by a factor up to 3.6 when comparing both networks to the Likelihood algorithm currently used in ATLAS.
156

Apprentissage de descripteurs locaux pour l’amélioration des systèmes de SLAM visuel

Luttun, Johan 12 1900 (has links)
This thesis covers the topic of image matching in a visual SLAM or SfM context. These problems are generally based on a vector representation of the keypoints of one image, called a descriptor, which we seek to map to the keypoints of another, using a similarity measure to compare the descriptors. However, it remains difficult to perform this matching successfully, especially for challenging scenes where illumination changes, occlusions, motion, textureless and similar features are present, leading to mis-matched points. In this thesis, we develop a self-supervised contrastive deep learning framework for computing robust descriptors, particularly for these challenging situations.We use the TartanAir dataset built explicitly for this task, and in which these difficult scene cases are present. Our results show that descriptor learning works, improves scores, and that our method is competitive with traditional methods such as ORB. In particular, the invariance built implicitly by training pairs of positive examples through the construction of a trajectory from a sequence of images, as well as the controlled introduction of ambiguous negative examples during training, have a real observable effect on the scores obtained. / Le présent mémoire traite du sujet de mise en correspondance entre deux images dans un contexte de SLAM visuel ou de SfM. Ces problèmes reposent généralement sur une représentation vectorielle de points saillants d’une image, appelée descripteur, et qu’on cherche à mettre en correspondance avec les points saillants d’une autre, en utilisant une mesure de similarité pour comparer les descripteurs. Cependant, il reste difficile de réaliser cette mise en correspondance avec succès, en particulier pour les scènes difficiles où des changements d’illumination, des occultations, des mouvements, des éléments sans texture, et des éléments similaires sont présents, conduisant à des mises en correspondance incorrectes. Nous développons dans ce mémoire une méthode d’apprentissage profond contrastif auto-supervisé pour calculer des descripteurs robustes, particulièrement à ces situations difficiles. Nous utilisons le jeu de données TartanAir construit explicitement pour cette tâche, et dans lequel ces cas de scènes difficiles sont présents. Nos résultats montrent que l’apprentissage de descripteurs fonctionne, améliore les scores, et que notre méthode est compétitive avec les méthodes traditionnelles telles que ORB. En particulier, l’invariance bâtie implicitement en formant des paires d’exemples positifs grâce à la construction d’une trajectoire depuis une séquence d’images, ainsi que l’introduction contrôlée d’exemples négatifs ambigus pendant l’entraînement a un réel effet observable sur les scores obtenus.
157

Building sample-efficient reinforcement learning

Schwarzer, Max Allen 11 1900 (has links)
L’efficacité des données est un défi clé pour l’apprentissage par renforcement profond (DRL), limitant souvent son utilisation aux environnements où des quantités illimitées de données simulées sont disponibles. J’envisage une gamme de solutions pour résoudre ce problème. Nous commençons par proposer une méthode permettant d’exploiter des données non étiquetées pour pré-entraîner des représentations qui sont ensuite affinées sur une petite quantité de données spécifiques à la tâche. Pour apprendre des représentations qui capturent divers aspects de la tâche sous-jacente, j’emploie une combinaison de modélisation des dynamiques latentes et de RL conditionné par objectif non supervisé. Cette approche surpasse nettement les travaux antérieurs combinant le pré-entraînement des représentations hors ligne avec l’affinement spécifique à la tâche, et se compare favorablement à d’autres méthodes de pré-entraînement nécessitant des ordres de grandeur plus de données. Nous identifions ensuite et discutons d’un défaut commun des algorithmes de DRL : une tendance à se fier aux interactions précoces et à ignorer les preuves utiles rencontrées plus tard. Les agents de DRL encourent un risque de surapprentissage par rapport aux expériences antérieures, affectant négativement le reste du processus d’apprentissage. Inspirés par les sciences cognitives, je fais référence à cet effet comme étant le biais de primauté. Nous proposons un mécanisme simple mais généralement applicable qui s’attaque au biais de primauté en réinitialisant périodiquement une partie de l’agent. Nous appliquons ce mécanisme aux algorithmes dans les domaines d’action discrets (Atari 100k) et continus (DeepMind Control Suite), améliorant constamment leurs performances. Nous démontrons ensuite que, poussée à l’extrême, cette approche basée sur la réinitialisation permet d’augmenter considérablement les ressources computationnelles même avec des données limitées, un phénomène que j’appelle franchir le mur du ratio de relecture. Les algorithmes basés sur cette stratégie sont capables d’exhiber un apprentissage beaucoup plus efficace que les travaux antérieurs, et permettent dans de nombreux cas un échange libre entre computation et données. Enfin, je conclue en démontrant qu’il est également possible de mettre à l’échelle les réseaux neuronaux utilisés dans le RL efficace en termes de données, simplement en modifiant certains hyperparamètres. En combinaison avec les autres avancées réalisées jusqu’à présent, cela nous permet d’atteindre une efficacité d’apprentissage surhumaine sur Atari 100k même en apprenant purement à partir de zéro et sans utiliser un modèle pour la planification. / Data efficiency is a key challenge for deep reinforcement learning (RL), often limiting its use to settings where unlimited quantities of simulated data are available. I consider a range of solutions to address this problem. I begin by proposing a method to leverage unlabeled data to pretrain representations that are then finetuned on a small amount of task-specific data. To learn representations that capture diverse aspects of the underlying task, I employ a combination of latent dynamics modeling and unsupervised goal-conditioned RL. This approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning and compares favorably with other pretraining methods that require orders of magnitude more data. I then identify and discuss a common flaw of deep RL algorithms: a tendency to rely on early interactions and ignore useful evidence encountered later. Deep RL agents incur a risk of overfitting to earlier experiences, negatively affecting the rest of the learning process. Inspired by cognitive science, I refer to this effect as the primacy bias. I propose a simple yet generally applicable mechanism that tackles the primacy bias by periodically resetting a part of the agent. I apply this mechanism to algorithms in both discrete (Atari 100k) and continuous action (DeepMind Control Suite) domains, consistently improving their performance. I then demonstrate that when taken to the extreme, this reset-based approach allows computational resources to be scaled up enormously even with limited data, a phenomenon which I call breaking the replay ratio barrier. Algorithms based on this strategy are able to exhibit far more efficient learning than prior work and allow computation and data to be freely exchanged in many cases. Finally, I conclude by demonstrating that it is also possible to scale up the neural networks used in sample-efficient RL, simply by changing certain hyperparameters. In combination with the other advances made so far, this allows us to achieve super-human learning efficiency on Atari 100k even when learning purely from scratch and not using a model for planning.
158

Finer grained evaluation methods for better understanding of deep neural network representations

Bordes, Florian 08 1900 (has links)
Établir des méthodes d'évaluation pour les systèmes d'intelligence artificielle (IA) est une étape importante pour précisément connaître leurs limites et ainsi prévenir les dommages qu'ils pourraient causer et savoir quels aspects devraient être améliorés. Cela nécessite d'être en mesure de dresser des portraits précis des limitations associées à un système d'IA donné. Cela demande l'accès à des outils et des principes fiables, transparent, à jour et faciles à utiliser. Malheureusement, la plupart des méthodes d'évaluation utilisées à ce jour ont un retard significatif par rapport aux performances toujours croissantes des réseaux de neurones artificiels. Dans cette thèse par articles, je présente des méthodes et des principes d'évaluation plus rigoureux pour obtenir une meilleur compréhension des réseaux de neurones et de leurs limitations. Dans le premier article, je présente Representation Conditional Diffusion Model (RCDM), une méthode d'évaluation à l'état de l'art qui permet, à partir d'une représentation donnée -- par exemple les activations d'une couche donnée d'un réseau de neurones artificiels -- de générer une image. En utilisant les dernières avancées dans la génération d'images, RCDM permet aux chercheur·euse·s de visualiser l'information contenue à l'intérieur d'une représentation. Dans le deuxième article, j'introduis la régularisation par Guillotine qui est une technique bien connue dans la littérature sur l'apprentissage par transfert mais qui se présente différemment dans la littérature sur l'auto-apprentissage. Pour améliorer la généralisation à travers différentes tâches, on montre qu'il est important d'évaluer un modèle en coupant un certain nombre de couches. Dans le troisième article, j'introduis le score DéjaVu qui quantifie à quel point un réseau de neurones a mémorisé les données d'entraînement. Ce score utilise une petite partie d'une image d'entraînement puis évalue quelles informations il est possible d'inférer à propos du reste de l'image. Dans le dernier article, je présente les jeux de données photo-réalistes PUG (Photorealistic Unreal Graphics) que nous avons développés. Au contraire de données réelles, pour lesquelles générer des annotations est un processus coûteux, l'utilisation de données synthétiques offre un contrôle total sur la scène générée et sur les annotations. On utilise un moteur de jeux vidéo qui permet la synthèse d'images photo-réalistes de haute qualité, afin d'évaluer la robustesse d'un réseau de neurones pré-entraîné, ceci sans avoir besoin d'adapter ce réseau avec un entraînement additionnel. / Carefully designing benchmarks to evaluate the safety of Artificial Intelligent (AI) agents is a much-needed step to precisely know the limits of their capabilities and thus prevent potential damages they could cause if used beyond these limits. Researchers and engineers should be able to draw precise pictures of the failure modes of a given AI system and find ways to mitigate them. Drawing such portraits requires reliable tools and principles that are transparent, up-to-date, and easy to use by practitioners. Unfortunately, most of the benchmark tools used in research are often outdated and quickly fall behind the fast pace of improvement of the capabilities of deep neural networks. In this thesis by article, I focus on establishing more fine-grained evaluation methods and principles to gain a better understanding of deep neural networks and their limitations. In the first article, I present Representation Conditional Diffusion Model (RCDM), a state-of-the-art visualization method that can map any deep neural network representation to the image space. Using the latest advances in generative modeling, RCDM sheds light on what is learned by deep neural networks by allowing practitioners to visualize the richness of a given representation. In the second article, I (re)introduce Guillotine Regularization (GR) -- a trick that has been used for a long time in transfer learning -- from a novel understanding and viewpoint grounded in the self-supervised learning outlook. We show that evaluating a model by removing its last layers is important to ensure better generalization across different downstream tasks. In the third article, I introduce the DejaVu score which quantifies how much models are memorizing their training data. This score relies on leveraging partial information from a given image such as a crop, and evaluates how much information one can retrieve about the entire image based on only this partial content. In the last article, I introduce the Photorealistic Unreal Graphics (PUG) datasets and benchmarks. In contrast to real data for which getting annotations is often a costly and long process, synthetic data offers complete control of the elements in the scene and labeling. In this work, we leverage a powerful game engine that produces high-quality and photorealistic images to evaluate the robustness of pre-trained neural networks without additional finetuning.
159

Open source quality control tool for translation memory using artificial intelligence

Bhardwaj, Shivendra 08 1900 (has links)
La mémoire de traduction (MT) joue un rôle décisif lors de la traduction et constitue une base de données idéale pour la plupart des professionnels de la langue. Cependant, une MT est très sujète au bruit et, en outre, il n’y a pas de source spécifique. Des efforts importants ont été déployés pour nettoyer des MT, en particulier pour former un meilleur système de traduction automatique. Dans cette thèse, nous essayons également de nettoyer la MT mais avec un objectif plus large : maintenir sa qualité globale et la rendre suffisament robuste pour un usage interne dans les institutions. Nous proposons un processus en deux étapes : d’abord nettoyer une MT institutionnelle (presque propre), c’est-à-dire éliminer le bruit, puis détecter les textes traduits à partir de systèmes neuronaux de traduction. Pour la tâche d’élimination du bruit, nous proposons une architecture impliquant cinq approches basées sur l’heuristique, l’ingénierie fonctionnelle et l’apprentissage profond. Nous évaluons cette tâche à la fois par annotation manuelle et traduction automatique (TA). Nous signalons un gain notable de +1,08 score BLEU par rapport à un système de nettoyage état de l’art. Nous proposons également un outil Web qui annote automatiquement les traductions incorrectes, y compris mal alignées, pour les institutions afin de maintenir une MT sans erreur. Les modèles neuronaux profonds ont considérablement amélioré les systèmes MT, et ces systèmes traduisent une immense quantité de texte chaque jour. Le matériel traduit par de tels systèmes finissent par peuplet les MT, et le stockage de ces unités de traduction dans TM n’est pas idéal. Nous proposons un module de détection sous deux conditions: une tâche bilingue et une monolingue (pour ce dernier cas, le classificateur ne regarde que la traduction, pas la phrase originale). Nous rapportons une précision moyenne d’environ 85 % en domaine et 75 % hors domaine dans le cas bilingue et 81 % en domaine et 63 % hors domaine pour le cas monolingue en utilisant des classificateurs d’apprentissage profond. / Translation Memory (TM) plays a decisive role during translation and is the go-to database for most language professionals. However, they are highly prone to noise, and additionally, there is no one specific source. There have been many significant efforts in cleaning the TM, especially for training a better Machine Translation system. In this thesis, we also try to clean the TM but with a broader goal of maintaining its overall quality and making it robust for internal use in institutions. We propose a two-step process, first clean an almost clean TM, i.e. noise removal and then detect texts translated from neural machine translation systems. For the noise removal task, we propose an architecture involving five approaches based on heuristics, feature engineering, and deep-learning and evaluate this task by both manual annotation and Machine Translation (MT). We report a notable gain of +1.08 BLEU score over a state-of-the-art, off-the-shelf TM cleaning system. We also propose a web-based tool “OSTI: An Open-Source Translation-memory Instrument” that automatically annotates the incorrect translations (including misaligned) for the institutions to maintain an error-free TM. Deep neural models tremendously improved MT systems, and these systems are translating an immense amount of text every day. The automatically translated text finds a way to TM, and storing these translation units in TM is not ideal. We propose a detection module under two settings: a monolingual task, in which the classifier only looks at the translation; and a bilingual task, in which the source text is also taken into consideration. We report a mean accuracy of around 85% in-domain and 75% out-of-domain for bilingual and 81% in-domain and 63% out-of-domain from monolingual tasks using deep-learning classifiers.
160

Steepest descent as Linear Quadratic Regulation

Dufort-Labbé, Simon 08 1900 (has links)
Concorder un modèle à certaines observations, voilà qui résume assez bien ce que l’apprentissage machine cherche à accomplir. Ce concept est maintenant omniprésent dans nos vies, entre autre grâce aux percées récentes en apprentissage profond. La stratégie d’optimisation prédominante pour ces deux domaines est la minimisation d’un objectif donné. Et pour cela, la méthode du gradient, méthode de premier-ordre qui modifie les paramètres du modèle à chaque itération, est l’approche dominante. À l’opposé, les méthodes dites de second ordre n’ont jamais réussi à s’imposer en apprentissage profond. Pourtant, elles offrent des avantages reconnus qui soulèvent encore un grand intérêt. D’où l’importance de la méthode du col, qui unifie les méthodes de premier et second ordre sous un même paradigme. Dans ce mémoire, nous établissons un parralèle direct entre la méthode du col et le domaine du contrôle optimal ; domaine qui cherche à optimiser mathématiquement une séquence de décisions. Et certains des problèmes les mieux compris et étudiés en contrôle optimal sont les commandes linéaires quadratiques. Problèmes pour lesquels on connaît très bien la solution optimale. Plus spécifiquement, nous démontrerons l’équivalence entre une itération de la méthode du col et la résolution d’une Commande Linéaire Quadratique (CLQ). Cet éclairage nouveau implique une approche unifiée quand vient le temps de déployer nombre d’algorithmes issus de la méthode du col, tel que la méthode du gradient et celle des gradients naturels, sans être limitée à ceux-ci. Approche que nous étendons ensuite aux problèmes à horizon infini, tel que les modèles à équilibre profond. Ce faisant, nous démontrons pour ces problèmes que calculer les gradients via la différentiation implicite revient à employer l’équation de Riccati pour solutionner la CLQ associée à la méthode du gradient. Finalement, notons que l’incorporation d’information sur la courbure du problème revient généralement à rencontrer une inversion matricielle dans la méthode du col. Nous montrons que l’équivalence avec les CLQ permet de contourner cette inversion en utilisant une approximation issue des séries de Neumann. Surprenamment, certaines observations empiriques suggèrent que cette approximation aide aussi à stabiliser le processus d’optimisation quand des méthodes de second-ordre sont impliquées ; en agissant comme un régularisateur adaptif implicite. / Machine learning entails training a model to fit some given observations, and recent advances in the field, particularly in deep learning, have made it omnipresent in our lives. Fitting a model usually requires the minimization of a given objective. When it comes to deep learning, first-order methods like gradient descent have become a default tool for optimization in deep learning. On the other hand, second-order methods did not see widespread use in deep learning. Yet, they hold many promises and are still a very active field of research. An important perspective into both methods is steepest descent, which allows you to encompass first and second-order approaches into the same framework. In this thesis, we establish an explicit connection between steepest descent and optimal control, a field that tries to optimize sequential decision-making processes. Core to it is the family of problems known as Linear Quadratic Regulation; problems that have been well studied and for which we know optimal solutions. More specifically, we show that performing one iteration of steepest descent is equivalent to solving a Linear Quadratic Regulator (LQR). This perspective gives us a convenient and unified framework for deploying a wide range of steepest descent algorithms, such as gradient descent and natural gradient descent, but certainly not limited to. This framework can also be extended to problems with an infinite horizon, such as deep equilibrium models. Doing so reveals that retrieving the gradient via implicit differentiation is equivalent to recovering it via Riccati’s solution to the LQR associated with gradient descent. Finally, incorporating curvature information into steepest descent usually takes the form of a matrix inversion. However, casting a steepest descent step as a LQR also hints toward a trick that allows to sidestep this inversion, by leveraging Neumann’s series approximation. Empirical observations provide evidence that this approximation actually helps to stabilize the training process, by acting as an adaptive damping parameter.

Page generated in 0.1441 seconds