Global ETD Search

11	On iterated learning for task-oriented dialogue Singhal, Soumye 01 1900 (has links) Dans le traitement de langue et des système de dialogue, il est courant de pré-entraîner des modèles de langue sur corpus humain avant de les affiner par le biais d'un simulateur et de résolution de tâches. Malheuresement, ce type d'entrainement tend aussi à induire un phénomène connu sous le nom de dérive du langage. Concrétement, les propriétés syntaxiques et sémantiques de la langue intiallement apprise se détériorent: les agents se concentrent uniquement sur la résolution de la tâche, et non plus sur la préservation de la langue. En s'inspirant des travaux en sciences cognitives, et notamment l'apprentigssage itératif Kirby and Griffiths (2014), nous proposons ici une approche générique pour contrer cette dérive du langage. Nous avons appelé cette méthode Seeded iterated learning (SIL), ou apprentissage itératif capitalisé. Ce travail a été publié sous le titre (Lu et al., 2020b) et est présenté au chapitre 2. Afin d'émuler la transmission de la langue entre chaque génération d'agents, un agent étudiant est d'abord pré-entrainé avant d'être affiné de manière itérative, et ceci, en imitant des données échantillonnées à partir d'un agent enseignant nouvellement formé. À chaque génération, l'enseignant est créé en copiant l'agent étudiant, avant d'être de nouveau affiné en maximisant le taux de réussite de la tâche sous-jacente. Dans un second temps, nous présentons Supervised Seeded iterated learning (SSIL) dans le chapitre 3, où apprentissage itératif capitalisé avec supervision, qui a été publié sous le titre (Lu et al., 2020b). SSIL s'appuie sur SIL en le combinant avec une autre méthode populaire appelée Supervised SelfPlay (S2P) (Gupta et al., 2019), où apprentissage supervisé par auto-jeu. SSIL est capable d'atténuer les problèmes de S2P et de SIL, i.e. la dérive du langage dans les dernier stades de l'entrainement tout en préservant une plus grande diversité linguistique. Tout d'abord, nous évaluons nos méthodes dans sous la forme d'une preuve de concept à traver le Jeu de Lewis avec du langage synthetique. Dans un second temps, nous l'étendons à un jeu de traduction se utilisant du langage naturel. Dans les deux cas, nous soulignons l'efficacité de nos méthodes par rapport aux autres méthodes de la litterature. Dans le chapitre 1, nous discutons des concepts de base nécessaires à la compréhension des articles présentés dans les chapitres 2 et 3. Nous décrivons le problème spécifique du dialogue orienté tâche, y compris les approches actuelles et les défis auxquels ils sont confrontés : en particulier, la dérive linguistique. Nous donnons également un aperçu du cadre d'apprentissage itéré. Certaines sections du chapitre 1 sont empruntées aux articles pour des raisons de cohérence et de facilité de compréhension. Le chapitre 2 comprend les travaux publiés sous le nom de (Lu et al., 2020b) et le chapitre 3 comprend les travaux publiés sous le nom de (Lu et al., 2020a), avant de conclure au chapitre 4. / In task-oriented dialogue, pretraining on human corpus followed by finetuning in a simulator using selfplay suffers from a phenomenon called language drift. The syntactic and semantic properties of the learned language deteriorates as the agents only focuses on solving the task. Inspired by the iterative learning framework in cognitive science Kirby and Griffiths (2014), we propose a generic approach to counter language drift called Seeded iterated learning (SIL). This work was published as (Lu et al., 2020b) and is presented in Chapter 2. In an attempt to emulate transmission of language between generations, a pretrained student agent is iteratively refined by imitating data sampled from a newly trained teacher agent. At each generation, the teacher is created by copying the student agent, before being finetuned to maximize task completion.We further introduce Supervised Seeded iterated learning (SSIL) in Chapter 3, work which was published as (Lu et al., 2020a). SSIL builds upon SIL by combining it with the other popular method called Supervised SelfPlay (S2P) (Gupta et al., 2019). SSIL is able to mitigate the problems of both S2P and SIL namely late-stage training collapse and low language diversity. We evaluate our methods in a toy setting of Lewis Game, and then scale it up to the translation game with natural language. In both settings, we highlight the efficacy of our methods compared to the baselines. In Chapter 1, we talk about the core concepts required for understanding the papers presented in Chapters 2 and 3. We describe the specific problem of task-oriented dialogue including current approaches and the challenges they face: particularly, the challenge of language drift. We also give an overview of the iterated learning framework. Some sections in Chapter 1 are borrowed from the papers for coherence and ease of understanding. Chapter 2 comprises of the work published as (Lu et al., 2020b) and Chapter 3 comprises of the work published as (Lu et al., 2020a). Chapter 4 gives a conclusion on the work. deep-learning multi-agent learning task-oriented dialogue iterated learning multi-task learning language drift apprentissage en profondeur apprentissage multi-agents dialogue orienté tâche apprentissage itératif apprentissage multi-tâches dérive du langage natural language processing traitement du langage naturel
12	Control of robotic mobile manipulators : application to civil engineering / Commande de manipulateurs mobiles robotisés : application au génie civil Mohy El Dine, Kamal 23 May 2019 (has links) Malgré le progrès de l'automatisation industrielle, les solutions robotiques ne sont pas encore couramment utilisées dans le secteur du génie civil. Plus spécifiquement, les tâches de ponçage, telles que le désamiantage, sont toujours effectuées par des opérateurs humains utilisant des outils électriques et hydrauliques classiques. Cependant, avec la diminution du coût relatif des machines par rapport au travail humain et les réglementations sanitaires strictes applicables à des travaux aussi risqués, les robots deviennent progressivement des alternatives crédibles pour automatiser ces tâches et remplacer les humains.Dans cette thèse, des nouvelles approches de contrôle de ponçage de surface sont élaborées. Le premier contrôleur est un contrôleur hybride position-force avec poignet conforme. Il est composé de 3 boucles de commande, force, position et admittance. La commutation entre les commandes pourrait créer des discontinuités, ce qui a été résolu en proposant une commande de transition. Dans ce contrôleur, la force de choc est réduite par la commande de transition proposée entre les modes espace libre et contact. Le second contrôleur est basé sur un modèle de ponçage développé et un contrôleur hybride adaptatif position-vitesse-force. Les contrôleurs sont validés expérimentalement sur un bras robotique à 7 degrés de liberté équipé d'une caméra et d'un capteur de force-couple. Les résultats expérimentaux montrent de bonnes performances et les contrôleurs sont prometteurs. De plus, une nouvelle approche pour contrôler la stabilité des manipulateurs mobiles en temps réel est présentée. Le contrôleur est basé sur le « zero moment point », il a été testé dans des simulations et il a été capable de maintenir activement la stabilité de basculement du manipulateur mobile tout en se déplaçant. En outre, les incertitudes liées à la modélisation et aux capteurs sont prises en compte dans les contrôleurs mentionnés où des observateurs sont proposés.Les détails du développement et de l'évaluation des différents contrôleurs proposés sont présentés, leurs mérites et leurs limites sont discutés et des travaux futurs sont suggérés. / Despite the advancements in industrial automation, robotic solutions are not yet commonly used in the civil engineering sector. More specifically, grinding tasks such as asbestos removal, are still performed by human operators using conventional electrical and hydraulic tools. However, with the decrease in the relative cost of machinery with respect to human labor and with the strict health regulations on such risky jobs, robots are progressively becoming credible alternatives to automate these tasks and replace humans.In this thesis, novel surface grinding control approaches are elaborated. The first controller is based on hybrid position-force controller with compliant wrist and a smooth switching strategy. In this controller, the impact force is reduced by the proposed smooth switching between free space and contact modes. The second controller is based on a developed grinding model and an adaptive hybrid position-velocity-force controller. The controllers are validated experimentally on a 7-degrees-of-freedom robotic arm equipped with a camera and a force-torque sensor. The experimental results show good performances and the controllers are promising. Additionally, a new approach for controlling the stability of mobile manipulators in real time is presented. The controller is based on zero moment point, it is tested in simulations and it was able to actively maintain the tip-over stability of the mobile manipulator while moving. Moreover, the modeling and sensors uncertainties are taken into account in the mentioned controllers where observers are proposed. The details of the development and evaluation of the several proposed controllers are presented, their merits and limitations are discussed and future works are suggested. Contrôle hybride vitesse-position-force Contrôle adaptatif Ponçage mural robotisé Modèle de ponçage Apprentissage en profondeur Capteur de force-couple Observateurs de perturbations Manipulateurs mobiles « Zero moment point » Stabilité de basculement Hybrid velocity-position-force control Adaptive control Robotic wall grinding Grinding model Deep learning Force-torque sensor Disturbance observers Mobile manipulators Zero-moment-point Tip-over stability
13	PatchUp : a feature-space block-level regularization technique for convolutional neural networks Faramarzi, Mojtaba 07 1900 (has links) Les modèles d’apprentissage profond à large capacité ont souvent tendance à présenter de hauts écarts de généralisation lorsqu’ils sont entrainés avec une quantité limitée de données étiquetées. Dans ce cas, des réseaux de neurones très profonds et larges auront tendance à mémoriser les échantillons de données et donc ils risquent d’être vulnérables lors d’un léger décalage dans la distribution des données au moment de tester. Ce problème produit une généralisation pauvre lors de changements dans la répartition des données au moment du test. Pour surmonter ce problème, certaines méthodes basées sur la dépendance et l’indépendance de données ont été proposées. Une récente classe de méthodes efficaces pour aborder ce problème utilise plusieurs manières de contruire un nouvel échantillon d’entrainement, en mixant une paire (ou plusieurs) échantillons d’entrainement. Dans cette thèse, nous introduisons PatchUp, une régularisation de l’espace des caractéristiques au niveau des blocs dépendant des données qui opère dans l’espace caché en masquant des blocs contigus parmi les caractéristiques mappées, sélectionnés parmi une paire aléatoire d’échantillons, puis en mixant (Soft PatchUp) ou en échangeant (Hard PatchUp) les blocs contigus sélectionnés. Notre méthode de régularisation n’ajoute pas de surcharge de calcul significative au CNN pendant l’entrainement du modèle. Notre approche améliore la robustesse des modèles CNN face au problème d’intrusion du collecteur qui pourrait apparaitre dans d’autres approches de mixage telles que Mixup et CutMix. De plus, vu que nous mixons des blocs contigus de caractéristiques dans l’espace caché, qui a plus de dimensions que l’espace d’entrée, nous obtenons des échantillons plus diversifiés pour entrainer vers différentes dimensions. Nos expériences sur les ensembles de données CIFAR-10, CIFAR-100, SVHN et Tiny-ImageNet avec des architectures ResNet telles que PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101 et ResNet152 montrent que PatchUp dépasse ou égalise les performances de méthodes de régularisation pour CNN considérée comme état de l’art actuel. Nous montrons aussi que PatchUp peut fournir une meilleure généralisation pour des transformations affines d’échantillons et est plus robuste face à des attaques d’exemples contradictoires. PatchUp aide aussi les modèles CNN à produire une plus grande variété de caractéristiques dans les blocs résiduels en comparaison avec les méthodes de pointe de régularisation pour CNN telles que Mixup, Cutout, CutMix, ManifoldMixup et Puzzle Mix. Mots clés: Apprentissage en profondeur, Réseau Neuronal Convolutif, Généralisation,Régularisation, Techniques de régularisation dépendantes et indépendantes des données, Robustesse aux attaques adverses. / Large capacity deep learning models are often prone to a high generalization gap when trained with a limited amount of labeled training data. And, in this case, very deep and wide networks have a tendency to memorize the samples, and therefore they might be vulnerable under a slight distribution shift at testing time. This problem yields poor generalization for data outside of the training data distribution. To overcome this issue some data-dependent and data-independent methods have been proposed. A recent class of successful methods to address this problem uses various ways to construct a new training sample by mixing a pair (or more) of training samples. In this thesis, we introduce PatchUp, a feature-space block-level data-dependent regularization that operates in the hidden space by masking out contiguous blocks of the feature map of a random pair of samples, and then either mixes (Soft PatchUp) or swaps (Hard PatchUp) these selected contiguous blocks. Our regularization method does not incur significant computational overhead for CNNs during training. Our approach improves the robustness of CNN models against the manifold intrusion problem that may occur in other state-of-the-art mixing approaches like Mixup and CutMix. Moreover, since we are mixing the contiguous block of features in the hidden space, which has more dimensions than the input space, we obtain more diverse samples for training towards different dimensions. Our experiments on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet datasets using ResNet architectures including PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101, and ResNet152 models show that PatchUp improves upon, or equals, the performance of current state-of-the-art regularizers for CNNs. We also show that PatchUp can provide a better generalization to affine transformations of samples and is more robust against adversarial attacks. PatchUp also helps a CNN model to produce a wider variety of features in the residual blocks compared to other state-of-the-art regularization methods for CNNs such as Mixup, Cutout, CutMix, ManifoldMixup, and Puzzle Mix. Key words: Deep Learning, Convolutional Neural Network, Generalization, Regular-ization, Data-dependent and Data-independent Regularization Techniques, Robustness to Adversarial Attacks. Deep learning Convolutional Neural Network (CNN) Generalization Regularization Robustness to Adversarial Attacks Apprentissage en profondeur Réseau Neuronal Convolutif Généralisation Régularisation Robustesse aux attaques adverses

Page generated in 0.1186 seconds