• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 149
  • 28
  • 18
  • Tagged with
  • 217
  • 217
  • 189
  • 187
  • 123
  • 98
  • 96
  • 96
  • 84
  • 79
  • 79
  • 75
  • 75
  • 74
  • 74
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Deep learning and reinforcement learning methods for grounded goal-oriented dialogue

de Vries, Harm 03 1900 (has links)
Les systèmes de dialogues sont à même de révolutionner l'interaction entre l'homme et la machine. Pour autant, les efforts pour concevoir des agents conversationnels se sont souvent révélés infructueux, et ceux, malgré les dernières avancées en apprentissage profond et par renforcement. Les systèmes de dialogue palissent de devoir opérer sur de nombreux domaines d'application mais pour lesquels aucune mesure d'évaluation claire n'a été définie. Aussi, cette thèse s'attache à étudier les dialogues débouchant sur un objectif clair (goal-oriented dialogue) permettant de guider l'entrainement, et ceci, dans des environnements multimodaux. Plusieurs raisons expliquent ce choix : (i) cela contraint le périmètre de la conversation, (ii) cela introduit une méthode d'évaluation claire, (iii) enfin, l'aspect multimodal enrichie la représentation linguistique en reliant l'apprentissage du langage avec des expériences sensorielles. En particulier, nous avons développé GuessWhat?! (Qu-est-ce donc?!), un jeu imagé coopératif où deux joueurs tentent de retrouver un objet en posant une série de questions. Afin d’apprendre aux agents de répondre aux questions sur les images, nous avons développés une méthode dites de normalisation conditionnée des données (Conditional Batch Nornalization). Ainsi, cette méthode permet d'adapter simplement mais efficacement des noyaux de convolutions visuels en fonction de la question en cours. Enfin, nous avons étudié les tâches de navigation guidée par dialogue, et introduit la tâche Talk the Walk (Raconte-moi le Chemin) à cet effet. Dans ce jeu, deux agents, un touriste et un guide, s'accordent afin d'aider le touriste à traverser une reconstruction virtuelle des rues de New-York et atteindre une position prédéfinie. / While dialogue systems have the potential to fundamentally change human-machine interaction, developing general chatbots with deep learning and reinforce-ment learning techniques has proven difficult. One challenging aspect is that these systems are expected to operate in broad application domains for which there is not a clear measure of evaluation. This thesis investigates goal-oriented dialogue tasks in multi-modal environments because it (i) constrains the scope of the conversa-tion, (ii) comes with a better-defined objective, and (iii) enables enriching language representations by grounding them to perceptual experiences. More specifically, we develop GuessWhat, an image-based guessing game in which two agents cooper-ate to locate an unknown object through asking a sequence of questions. For the subtask of visual question answering, we propose Conditional Batch Normalization layers as a simple but effective conditioning method that adapts the convolutional activations to the specific question at hand. Finally, we investigate the difficulty of dialogue-based navigation by introducing Talk The Walk, a new task where two agents (a “tourist” and a “guide”) collaborate to have the tourist navigate to target locations in the virtual streets of New York City.
142

Towards Understanding Generalization in Gradient-Based Meta-Learning

Guiroy, Simon 08 1900 (has links)
Dans ce mémoire, nous étudions la généralisation des réseaux de neurones dans le contexte du méta-apprentissage, en analysant divers propriétés des surface leurs fonctions objectifs. La recherche en apprentissage automatique portant sur les surfaces de fonctions objectifs des réseaux de neurones ayant aidé à comprendre leur généralisation en apprentissage supervisé standard, nous proposons l'étude de telles surfaces dans le but d'approfondir nos connaissances sur la généralisation en méta-apprentissage. Nous introduisons d'abord la littérature sur les fonctions objectifs des réseaux de neurones à la Section \ref{sec:intro:objective_landscapes}, puis celle portant sur le méta-apprentissage à la Section \ref{sec:intro:meta-learning}, pour enfin terminer notre introduction avec le méta-apprentissage par descente de gradient, très similaire à l'entraînement des réseaux de neurones par descente de gradient stochastique et pour une tâche unique. Nous présentons par la suite notre travail sur les fonctions objectifs en méta-apprentissage au Chapitre \ref{chap:prof_forcing}, lequel nous avons soumis à la conférence NeurIPS 2019 en tant qu'article scientifique. Au moment d'écrire ce mémoire, et au meilleur de notre connaissance, ce travail est le premier à étudier empiriquement les surfaces des fonctions objectifs en méta-apprentissage, particulièrement dans le contexte de l'apprentissage profond, et nous mettons notamment en lumière certaines propriétés de ces surfaces qui apparaissent liées à la généralisation des réseaux de neurones à de nouvelles tâches. Nous démontrons empiriquement qu'alors que progresse la phase de méta-entraînement, pour les solutions aux nouvelles tâches obtenues via quelques itérations de descente de gradient, la courbure de la fonction objective décroit monotoniquement, la valeur de la fonction objective diminue, tandis que la distance euclidienne avec la solution ``méta-entraînement" augmente. Cependant, nous observons que la courbure des minima continue de décroître même lorsque le sur-apprentissage devient apparent et que la généralisation commence à se dégrader, indiquant que la courbure des minima semble peu corrélée à la généralisation en méta-apprentissage par descente de gradient. De plus, nous montrons empiriquement que la généralisation aux nouvelles tâches semble plutôt liée à la cohérence de leurs trajectoires d'adaptation dans l'espace des paramètres, mesurée par la similarité cosinus moyenne entre les trajectoires. Nous montrons également que la cohérence des gradients ''meta-test", mesurée par le produit scalaire moyen entre les vecteurs de gradients spécifiques aux nouvelles tâches, évalué à solution meta-entraînement, est également corrélée à la généralisation. Nous basant sur ces observations, nous proposons un nouveau terme de régularisation pour l'algorithme de méta-apprentissage Model Agnostic Meta-Learning (MAML). / In this master's thesis, we study the generalization of neural networks in gradient-based meta-learning by analyzing various properties of the objective landscapes. Meta-learning, a challenging paradigm where models not only have to learn a task but beyond that, are trained for ``learning to learn" as they must adapt to new tasks and environments with very limited data about them. With research on the objective landscapes of neural networks in classical supervised having provided some answers regarding their ability to generalize for new data points, we propose similar analyses aimed at understanding generalization in meta-learning. We first introduce the literature on objective landscapes of neural networks in Section \ref{sec:intro:objective_landscapes}. We then introduce the literature of meta-learning in Section \ref{chap:prof_forcing}, concluding our introduction with the approach of gradient-based meta-learning, a meta-learning setup that bears strong similarities to the traditional supervised learning setup through stochastic gradient-based optimization. At the time of writing of this thesis, and to the best of our knowledge, this is the first work to empirically study the objective landscapes in gradient-based meta-learning, especially in the context of deep learning. We notably provide some insights on some properties of those landscapes that appear correlated to the generalization to new tasks. We experimentally demonstrate that as meta-training progresses, the meta-test solutions, obtained after adapting the meta-train solution of the model, to new tasks via few steps of gradient-based fine-tuning, become flatter, lower in loss, and further away from the meta-train solution. We also show that those meta-test solutions become flatter even as generalization starts to degrade, thus providing experimental evidence against the correlation between generalization and flat minima in the paradigm of gradient-based meta-leaning. Furthermore, we provide empirical evidence that generalization to new tasks is correlated with the coherence between their adaptation trajectories in parameter space, measured by the average cosine similarity between task-specific trajectory directions, starting from a same meta-train solution. We also show that coherence of meta-test gradients, measured by the average inner product between the task-specific gradient vectors evaluated at meta-train solution, is also correlated with generalization. Based on these observations, we propose a novel regularizer for the Model Agnostic Meta-Learning (MAML) algorithm and provide experimental evidence for its effectiveness.
143

Compression in Sequence to Sequence Learning for Natural Language Processing

Prato, Gabriele 12 1900 (has links)
Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. / In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4.
144

Apprentissage de modèles causaux par réseaux de neurones artificiels

Brouillard, Philippe 07 1900 (has links)
Dans ce mémoire par articles, nous nous intéressons à l’apprentissage de modèles causaux à partir de données. L’intérêt de cette entreprise est d’obtenir une meilleure compréhension des données et de pouvoir prédire l’effet qu’aura un changement sur certaines variables d’un système étudié. Comme la découverte de liens causaux est fondamentale en sciences, les méthodes permettant l’apprentissage de modèles causaux peuvent avoir des applications dans une pléthore de domaines scientifiques, dont la génomique, la biologie et l’économie. Nous présentons deux nouvelles méthodes qui ont la particularité d’être des méthodes non-linéaires d’apprentissage de modèles causaux qui sont posées sous forme d’un problème d’optimisation continue sous contrainte. Auparavant, les méthodes d’apprentissage de mo- dèles causaux abordaient le problème de recherche de graphes en utilisant des stratégies de recherche voraces. Récemment, l’introduction d’une contrainte d’acyclicité a permis d’abor- der le problème différemment. Dans un premier article, nous présentons une de ces méthodes: GraN-DAG. Sous cer- taines hypothèses, GraN-DAG permet d’apprendre des graphes causaux à partir de données observationnelles. Depuis la publication du premier article, plusieurs méthodes alternatives ont été proposées par la communauté pour apprendre des graphes causaux en posant aussi le problème sous forme d’optimisation continue avec contrainte. Cependant, aucune de ces méthodes ne supportent les données interventionnelles. Pourtant, les interventions réduisent le problème d’identifiabilité et permettent donc l’utilisation d’architectures neuronales plus expressives. Dans le second article, nous présentons une autre méthode, DCDI, qui a la particularité de pouvoir utiliser des données avec différents types d’interventions. Comme le problème d’identifiabilité est moins important, une des deux instanciations de DCDI est un approximateur de densité universel. Pour les deux méthodes proposées, nous montrons que ces méthodes ont de très bonnes performances sur des données synthétiques et réelles comparativement aux méthodes traditionelles. / In this thesis by articles, we study the learning of causal models from data. The goal of this entreprise is to gain a better understanding of data and to be able to predict the effect of a change on some variables of a given system. Since discovering causal relationships is fundamental in science, causal structure learning methods have applications in many fields that range from genomics, biology, and economy. We present two new methods that have the particularity of being non-linear methods learning causal models casted as a continuous optimization problem subject to a constraint. Previously, causal strutural methods addressed this search problem by using greedy search heuristics. Recently, a new continuous acyclity constraint has allowed to address the problem differently. In the first article, we present one of these non-linear method: GraN-DAG. Under some assumptions, GraN-DAG can learn a causal graph from observational data. Since the publi- cation of this first article, several alternatives methods have been proposed by the community by using the same continuous-constrained optimization formulation. However, none of these methods support interventional data. Nevertheless, interventions reduce the identifiability problem and allow the use of more expressive neural architectures. In the second article, we present another method, DCDI, that has the particularity to leverage data with several kinds of interventions. Since the identifiabiliy issue is less severe, one of the two instantia- tions of DCDI is a universal density approximator. For both methods, we show that these methods have really good performances on synthetic and real-world tasks comparatively to other classical methods.
145

Leveraging deep reinforcement learning in the smart grid environment

Desage, Ysaël 05 1900 (has links)
L’apprentissage statistique moderne démontre des résultats impressionnants, où les or- dinateurs viennent à atteindre ou même à excéder les standards humains dans certaines applications telles que la vision par ordinateur ou les jeux de stratégie. Pourtant, malgré ces avancées, force est de constater que les applications fiables en déploiement en sont encore à leur état embryonnaire en comparaison aux opportunités qu’elles pourraient apporter. C’est dans cette perspective, avec une emphase mise sur la théorie de décision séquentielle et sur les recherches récentes en apprentissage automatique, que nous démontrons l’applica- tion efficace de ces méthodes sur des cas liés au réseau électrique et à l’optimisation de ses acteurs. Nous considérons ainsi des instances impliquant des unités d’emmagasinement éner- gétique ou des voitures électriques, jusqu’aux contrôles thermiques des bâtiments intelligents. Nous concluons finalement en introduisant une nouvelle approche hybride qui combine les performances modernes de l’apprentissage profond et de l’apprentissage par renforcement au cadre d’application éprouvé de la recherche opérationnelle classique, dans le but de faciliter l’intégration de nouvelles méthodes d’apprentissage statistique sur différentes applications concrètes. / While modern statistical learning is achieving impressive results, as computers start exceeding human baselines in some applications like computer vision, or even beating pro- fessional human players at strategy games without any prior knowledge, reliable deployed applications are still in their infancy compared to what these new opportunities could fathom. In this perspective, with a keen focus on sequential decision theory and recent statistical learning research, we demonstrate efficient application of such methods on instances involving the energy grid and the optimization of its actors, from energy storage and electric cars to smart buildings and thermal controls. We conclude by introducing a new hybrid approach combining the modern performance of deep learning and reinforcement learning with the proven application framework of operations research, in the objective of facilitating seamlessly the integration of new statistical learning-oriented methodologies in concrete applications.
146

Data-efficient reinforcement learning with self-predictive representations

Schwarzer, Max 08 1900 (has links)
L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes. Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs. / Data efficiency remains a key challenge in deep reinforcement learning. Although modern techniques have been shown to be capable of attaining high performance in extremely complex tasks, including strategy games such as StarCraft, Chess, Shogi, and Go as well as in challenging visual domains such as Atari games, doing so generally requires enormous amounts of interactional data, limiting how broadly reinforcement learning can be applied. In this thesis, we propose SPR, a method drawing from recent advances in self-supervised representation learning designed to enhance the data efficiency of deep reinforcement learning agents. We evaluate this method on the Atari Learning Environment, and show that it dramatically improves performance with limited computational overhead. When given roughly the same amount of learning time as human testers, a reinforcement learning agent augmented with SPR achieves super-human performance on 7 out of 26 games, an increase of 350% over the previous state of the art, while also strongly improving mean and median performance. We also evaluate this method on a set of continuous control tasks, showing substantial improvements over previous methods. Chapter 1 introduces concepts necessary to understand the work presented, including overviews of Deep Reinforcement Learning and Self-Supervised Representation learning. Chapter 2 contains a detailed description of our contributions towards leveraging self-supervised representation learning to improve data-efficiency in reinforcement learning. Chapter 3 provides some conclusions drawn from this work, including a number of proposals for future work.
147

Quantitative follow-up of pulmonary diseases using deep learning models / Suivi quantitatif de pathologies pulmonaires à base de modèles d'apprentissage profond

Tarando, Sebastian Roberto 16 May 2018 (has links)
Les pathologies infiltrantes diffuses recensent un large groupe de désordres pulmonaires et nécessitent un suivi régulier en imagerie tomodensitométrique (TDM). Une évaluation quantitative est nécessaire pour établir la progression (régionale) de la maladie et/ou l’impact thérapeutique. Cela implique le développement d’outils automatiques de diagnostic assisté par ordinateur (DAO) pour la segmentation du tissu pathologique dans les images TDM, problème adressé comme classification de texture. Traditionnellement, une telle classification repose sur une analyse des caractéristiques texturales 2D dans les images TDM axiales selon des critères définis par l’utilisateur. Récemment, des techniques d’intelligence artificielle fondées sur l’apprentissage profond, notamment les réseaux neuronaux convolutionnels (CNN), ont démontré des performances meilleures pour résoudre des tâches visuelles. Toutefois, pour les architectures CNN « classiques » il a été prouvé que les performances étaient moins bonnes en classification de texture par rapport à la reconnaissance d’objets, en raison de la dimensionnalité intrinsèque élevée des données texturales. Dans ce contexte, ce travail propose un système automatique pour l’analyse quantitative des pathologies infiltrantes diffuses du poumon fondé sur une architecture CNN en cascade (conçue spécialement pour l’analyse de texture) et sur un prétraitement spécifique des données d’entrée par filtrage localement connexe (permettant d’atténuer l’intensité des vaisseaux pulmonaires et d’augmenter ainsi le contraste des régions pathologiques). La classification, s’appliquant à l’ensemble du volume pulmonaire, atteint une précision moyenne de 84% (75.8% pour le tissu normal, 90% pour l’emphysème et la fibrose, 81.5% pour le verre dépoli) / Infiltrative lung diseases (ILDs) enclose a large group of irreversible lung disorders which require regular follow-up with computed tomography (CT) imaging. A quantitative assessment is mandatory to establish the (regional) disease progression and/or the therapeutic impact. This implies the development of automated computer-aided diagnosis (CAD) tools for pathological lung tissue segmentation, problem addressed as pixel-based texture classification. Traditionally, such classification relies on a two-dimensional analysis of axial CT images by means of handcrafted features. Recently, the use of deep learning techniques, especially Convolutional Neural Networks (CNNs) for visual tasks, has shown great improvements with respect to handcrafted heuristics-based methods. However, it has been demonstrated the limitations of "classic" CNN architectures when applied to texture-based datasets, due to their inherently higher dimension compared to handwritten digits or other object recognition datasets, implying the need of redesigning the network or enriching the system to learn meaningful textural features from input data. This work addresses an automated quantitative assessment of different disorders based on lung texture classification. The proposed approach exploits a cascade of CNNs (specially redesigned for texture categorization) for a hierarchical classification and a specific preprocessing of input data based on locally connected filtering (applied to the lung images to attenuate the vessel densities while preserving high opacities related to pathologies). The classification targeting the whole lung parenchyma achieves an average of 84% accuracy (75.8% for normal, 90% for emphysema and fibrosis, 81.5% for ground glass)
148

Modélisation du carnet d’ordres, Applications Market Making / Limit order book modelling, Market Making Applications

Lu, Xiaofei 04 October 2018 (has links)
Cette thèse aborde différents aspects de la modélisation de la microstructure du marché et des problèmes de Market Making, avec un accent particulier du point de vue du praticien. Le carnet d’ordres, au cœur du marché financier, est un système de files d’attente complexe à haute dimension. Nous souhaitons améliorer la connaissance du LOB pour la communauté de la recherche, proposer de nouvelles idées de modélisation et développer des applications pour les Market Makers. Nous remercions en particuler l’équipe Automated Market Making d’avoir fourni la base de données haute-fréquence de très bonne qualité et une grille de calculs puissante, sans laquelle ces recherches n’auraient pas été possible. Le Chapitre 1 présente la motivation de cette recherche et reprend les principaux résultats des différents travaux. Le Chapitre 2 se concentre entièrement sur le LOB et vise à proposer un nouveau modèle qui reproduit mieux certains faits stylisés. A travers cette recherche, non seulement nous confirmons l’influence des flux d’ordres historiques sur l’arrivée de nouveaux, mais un nouveau modèle est également fourni qui réplique beaucoup mieux la dynamique du LOB, notamment la volatilité réalisée en haute et basse fréquence. Dans le Chapitre 3, l’objectif est d’étudier les stratégies de Market Making dans un contexte plus réaliste. Cette recherche contribueà deux aspects : d’une part le nouveau modèle proposé est plus réaliste mais reste simple à appliquer pour la conception de stratégies, d’autre part la stratégie pratique de Market Making est beaucoup améliorée par rapport à une stratégie naive et est prometteuse pour l’application pratique. La prédiction à haute fréquence avec la méthode d’apprentissage profond est étudiée dans le Chapitre 4. De nombreux résultats de la prédiction en 1- étape et en plusieurs étapes ont retrouvé la non-linéarité, stationarité et universalité de la relation entre les indicateurs microstructure et le changement du prix, ainsi que la limitation de cette approche en pratique. / This thesis addresses different aspects around the market microstructure modelling and market making problems, with a special accent from the practitioner’s viewpoint. The limit order book (LOB), at the heart of financial market, is a complex continuous high-dimensional queueing system. We wish to improve the knowledge of LOB for the research community, propose new modelling ideas and develop concrete applications to the interest of Market Makers. We would like to specifically thank the Automated Market Making team for providing a large high frequency database of very high quality as well as a powerful computational grid, without whom these researches would not have been possible. The first chapter introduces the incentive of this research and resumes the main results of the different works. Chapter 2 fully focuses on the LOB and aims to propose a new model that better reproduces some stylized facts. Through this research, not only do we confirm the influence of historical order flows to the arrival of new ones, but a new model is also provided that captures much better the LOB dynamic, notably the realized volatility in high and low frequency. In chapter 3, the objective is to study Market Making strategies in a more realistic context. This research contributes in two aspects : from one hand the newly proposed model is more realistic but still simple enough to be applied for strategy design, on the other hand the practical Market Making strategy is of large improvement compared to the naive one and is promising for practical use. High-frequency prediction with deep learning method is studied in chapter 4. Many results of the 1-step and multi-step prediction have found the non-linearity, stationarity and universality of the relationship between microstructural indicators and price change, as well as the limitation of this approach in practice.
149

IIRC : Incremental Implicitly-Refined Classification

Abdelsalam, Mohamed 05 1900 (has links)
Nous introduisons la configuration de la "Classification Incrémentale Implicitement Raffinée / Incremental Implicitly-Refined Classification (IIRC)", une extension de la configuration de l'apprentissage incrémental des classes où les lots de classes entrants possèdent deux niveaux de granularité, c'est-à-dire que chaque échantillon peut avoir une étiquette (label) de haut niveau (brute), comme "ours”, et une étiquette de bas niveau (plus fine), comme "ours polaire". Une seule étiquette (label) est fournie à la fois, et le modèle doit trouver l’autre étiquette s’il l’a déjà apprise. Cette configuration est plus conforme aux scénarios de la vie réelle, où un apprenant aura tendance à interagir avec la même famille d’entités plusieurs fois, découvrant ainsi encore plus de granularité à leur sujet, tout en essayant de ne pas oublier les connaissances acquises précédemment. De plus, cette configuration permet d’évaluer les modèles pour certains défis importants liés à l’apprentissage tout au long de la vie (lifelong learning) qui ne peuvent pas être facilement abordés dans les configurations existantes. Ces défis peuvent être motivés par l’exemple suivant: “si un modèle a été entraîné sur la classe ours dans une tâche et sur ours polaire dans une autre tâche; oubliera-t-il le concept d’ours, déduira-t-il à juste titre qu’un ours polaire est également un ours ? et associera-t-il à tort l’étiquette d’ours polaire à d’autres races d’ours ?” Nous développons un benchmark qui permet d’évaluer les modèles sur la configuration de l’IIRC. Nous évaluons plusieurs algorithmes d’apprentissage ”tout au long de la vie” (lifelong learning) de l’état de l’art. Par exemple, les méthodes basées sur la distillation sont relativement performantes mais ont tendance à prédire de manière incorrecte un trop grand nombre d’étiquettes par image. Nous espérons que la configuration proposée, ainsi que le benchmark, fourniront un cadre de problème significatif aux praticiens. / We introduce the "Incremental Implicitly-Refined Classification (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learned it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners.
150

Locality and compositionality in representation learning for complex visual tasks

Sylvain, Tristan 03 1900 (has links)
L'utilisation d'architectures neuronales profondes associée à des innovations spécifiques telles que les méthodes adversarielles, l’entraînement préalable sur de grands ensembles de données et l'estimation de l'information mutuelle a permis, ces dernières années, de progresser rapidement dans de nombreuses tâches de vision par ordinateur complexes telles que la classification d'images de catégories préalablement inconnues (apprentissage zéro-coups), la génération de scènes ou la classification multimodale. Malgré ces progrès, il n’est pas certain que les méthodes actuelles d’apprentissage de représentations suffiront à atteindre une performance équivalente au niveau humain sur des tâches visuelles arbitraires et, de fait, cela pose des questions quant à la direction de la recherche future. Dans cette thèse, nous nous concentrerons sur deux aspects des représentations qui semblent nécessaires pour atteindre de bonnes performances en aval pour l'apprentissage des représentations : la localité et la compositionalité. La localité peut être comprise comme la capacité d'une représentation à retenir des informations locales. Ceci sera pertinent dans de nombreux cas, et bénéficiera particulièrement à la vision informatique, domaine dans lequel les images naturelles comportent intrinsèquement des informations locales, par exemple des parties pertinentes d’une image, des objets multiples présents dans une scène... D'autre part, une représentation compositionnelle peut être comprise comme une représentation qui résulte d'une combinaison de parties plus simples. Les réseaux neuronaux convolutionnels sont intrinsèquement compositionnels, et de nombreuses images complexes peuvent être considérées comme la composition de sous-composantes pertinentes : les objets et attributs individuels dans une scène, les attributs sémantiques dans l'apprentissage zéro-coups en sont deux exemples. Nous pensons que ces deux propriétés détiennent la clé pour concevoir de meilleures méthodes d'apprentissage de représentations. Dans cette thèse, nous présentons trois articles traitant de la localité et/ou de la compositionnalité, et de leur application à l'apprentissage de représentations pour des tâches visuelles complexes. Dans le premier article, nous introduisons des méthodes de mesure de la localité et de la compositionnalité pour les représentations d'images, et nous démontrons que les représentations locales et compositionnelles sont plus performantes dans l'apprentissage zéro-coups. Nous utilisons également ces deux notions comme base pour concevoir un nouvel algorithme d'apprentissage des représentations qui atteint des performances de pointe dans notre cadre expérimental, une variante de l'apprentissage "zéro-coups" plus difficile où les informations externes, par exemple un pré-entraînement sur d'autres ensembles de données d'images, ne sont pas autorisées. Dans le deuxième article, nous montrons qu'en encourageant un générateur à conserver des informations locales au niveau de l'objet, à l'aide d'un module dit de similarité de graphes de scène, nous pouvons améliorer les performances de génération de scènes. Ce modèle met également en évidence l'importance de la composition, car de nombreux composants fonctionnent individuellement sur chaque objet présent. Pour démontrer pleinement la portée de notre approche, nous effectuons une analyse détaillée et proposons un nouveau cadre pour évaluer les modèles de génération de scènes. Enfin, dans le troisième article, nous montrons qu'en encourageant une forte information mutuelle entre les représentations multimodales locales et globales des images médicales en 2D et 3D, nous pouvons améliorer la classification et la segmentation des images. Ce cadre général peut être appliqué à une grande variété de contextes et démontre les avantages non seulement de la localité, mais aussi de la compositionnalité, car les représentations multimodales sont combinées pour obtenir une représentation plus générale. / The use of deep neural architectures coupled with specific innovations such as adversarial methods, pre-training on large datasets and mutual information estimation has in recent years allowed rapid progress in many complex vision tasks such as zero-shot learning, scene generation, or multi-modal classification. Despite such progress, it is still not clear if current representation learning methods will be enough to attain human-level performance on arbitrary visual tasks, and if not, what direction should future research take. In this thesis, we will focus on two aspects of representations that seem necessary to achieve good downstream performance for representation learning: locality and compositionality. Locality can be understood as a representation's ability to retain local information. This will be relevant in many cases, and will specifically benefit computer vision where natural images inherently feature local information, i.e. relevant patches of an image, multiple objects present in a scene... On the other hand, a compositional representation can be understood as one that arises from a combination of simpler parts. Convolutional neural networks are inherently compositional, and many complex images can be seen as composition of relevant sub-components: individual objects and attributes in a scene, semantic attributes in zero-shot learning are two examples. We believe both properties hold the key to designing better representation learning methods. In this thesis, we present 3 articles dealing with locality and/or compositionality, and their application to representation learning for complex visual tasks. In the first article, we introduce ways of measuring locality and compositionality for image representations, and demonstrate that local and compositional representations perform better at zero-shot learning. We also use these two notions as the basis for designing class-matching deep info-max, a novel representation learning algorithm that achieves state-of-the-art performance on our proposed "Zero-shot from scratch" setting, a harder zero-shot setting where external information, e.g. pre-training on other image datasets is not allowed. In the second article, we show that by encouraging a generator to retain local object-level information, using a scene-graph similarity module, we can improve scene generation performance. This model also showcases the importance of compositionality as many components operate individually on each object present. To fully demonstrate the reach of our approach, we perform detailed analysis, and propose a new framework to evaluate scene generation models. Finally, in the third article, we show that encouraging high mutual information between local and global multi-modal representations of 2D and 3D medical images can lead to improvements in image classification and segmentation. This general framework can be applied to a wide variety of settings, and demonstrates the benefits of not only locality, but also of compositionality as multi-modal representations are combined to obtain a more general one.

Page generated in 0.0938 seconds