• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 124
  • 109
  • 15
  • 3
  • Tagged with
  • 255
  • 229
  • 158
  • 112
  • 65
  • 64
  • 64
  • 58
  • 58
  • 55
  • 54
  • 54
  • 51
  • 50
  • 46
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Emergence of language-like latents in deep neural networks

Lu, Yuchen 05 1900 (has links)
L'émergence du langage est considérée comme l'une des marques de l'intelligence humaine. Par conséquent, nous émettons l'hypothèse que l'émergence de latences ou de représentations similaires au langage dans un système d'apprentissage profond pourrait aider les modèles à obtenir une meilleure généralisation compositionnelle et hors distribution. Dans cette thèse, nous présentons une série d'articles qui explorent cette hypothèse dans différents domaines, notamment l'apprentissage interactif du langage, l'apprentissage par imitation et la vision par ordinateur. / The emergence of language is regarded as one of the hallmarks of human intelligence. Therefore, we hypothesize that the emergence of language-like latents or representations in a deep learning system could help models achieve better compositional and out-of-distribution generalization. In this thesis, we present a series of papers that explores this hypothesis in different fields including interactive language learning, imitation learning and computer vision.
162

Leveraging self-supervision for visual embodied navigation with neuralized potential fields

Saavedra Ruiz, Miguel Angel 05 1900 (has links)
Une tâche fondamentale en robotique consiste à naviguer entre deux endroits. En particulier, la navigation dans le monde réel nécessite une planification à long terme à l'aide d'images RVB (RGB) en haute dimension, ce qui constitue un défi considérable pour les approches d'apprentissage de bout-en-bout. Les méthodes semi-paramétriques actuelles parviennent plutôt à atteindre des objectifs éloignés en combinant des modèles paramétriques avec une mémoire topologique de l'environnement, souvent représentée sous forme d'un graphe ayant pour nœuds des images précédemment vues. Cependant, l'utilisation de ces graphes implique généralement l'ajustement d'heuristiques d'élagage afin d'éviter les arêtes superflues, limiter la mémoire requise et permettre des recherches raisonnablement rapides dans le graphe. Dans cet ouvrage, nous montrons comment les approches de bout-en-bout basées sur l'apprentissage auto-supervisé peuvent exceller dans des tâches de navigation à long terme. Nous présentons initialement Duckie-Former (DF), une approche de bout-en-bout pour la navigation visuelle dans des environnements routiers. En utilisant un Vision Transformer (ViT) pré-entraîné avec une méthode auto-supervisée, nous nous inspirons des champs de potentiels afin de dériver une stratégie de navigation utilisant en entrée un masque de segmentation d'image de faible résolution. DF est évalué dans des tâches de navigation de suivi de voie et d'évitement d'obstacles. Nous présentons ensuite notre deuxième approche intitulée One-4-All (O4A). O4A utilise l'apprentissage auto-supervisé et l'apprentissage de variétés afin de créer un pipeline de navigation de bout-en-bout sans graphe permettant de spécifier l'objectif à l'aide d'une image. La navigation est réalisée en minimisant de manière vorace une fonction de potentiel définie de manière continue dans l'espace latent O4A. Les deux systèmes sont entraînés sans interagir avec le simulateur ou le robot sur des séquences d'exploration de données RVB et de contrôles non experts. Ils ne nécessitent aucune mesure de profondeur ou de pose. L'évaluation est effectuée dans des environnements simulés et réels en utilisant un robot à entraînement différentiel. / A fundamental task in robotics is to navigate between two locations. Particularly, real-world navigation can require long-horizon planning using high-dimensional RGB images, which poses a substantial challenge for end-to-end learning-based approaches. Current semi-parametric methods instead achieve long-horizon navigation by combining learned modules with a topological memory of the environment, often represented as a graph over previously collected images. However, using these graphs in practice typically involves tuning various pruning heuristics to prevent spurious edges, limit runtime memory usage, and allow reasonably fast graph queries. In this work, we show how end-to-end approaches trained through Self-Supervised Learning (SSL) can excel in long-horizon navigation tasks. We initially present Duckie-Former (DF), an end-to-end approach for visual servoing in road-like environments. Using a Vision Transformer (ViT) pretrained with a self-supervised method, we derive a potential-fields-like navigation strategy based on a coarse image segmentation model. DF is assessed in the navigation tasks of lane-following and obstacle avoidance. Subsequently, we introduce our second approach called One-4-All (O4A). O4A leverages SSL and manifold learning to create a graph-free, end-to-end navigation pipeline whose goal is specified as an image. Navigation is achieved by greedily minimizing a potential function defined continuously over the O4A latent space. O4A is evaluated in complex indoor environments. Both systems are trained offline on non-expert exploration sequences of RGB data and controls, and do not require any depth or pose measurements. Assessment is performed in simulated and real-world environments using a differential-drive robot.
163

Self-supervision for reinforcement learning

Anand, Ankesh 03 1900 (has links)
Cette thèse tente de construire de meilleurs agents d'apprentissage par renforcement (RL) en tirant parti de l'apprentissage auto-supervisé. Il se présente sous la forme d'une thèse par article qui contient trois travaux. Dans le premier article, nous construisons un benchmark basé sur les jeux Atari pour évaluer systématiquement les méthodes d'apprentissage auto-supervisé dans les environnements RL. Nous comparons un éventail de ces méthodes à travers une suite de tâches de sondage pour identifier leurs forces et leurs faiblesses. Nous montrons en outre qu'une nouvelle méthode contrastive ST-DIM excelle à capturer la plupart des facteurs génératifs dans les environnements étudiés, sans avoir besoin de s'appuyer sur des étiquettes ou des récompenses. Dans le deuxième article, nous proposons des représentations auto-prédictives (SPR) qui apprennent un modèle latent auto-supervisé de la dynamique de l'environnement parallèlement à la résolution de la tâche RL en cours. Nous montrons que SPR réalise des améliorations spectaculaires dans l'état de l'art sur le benchmark Atari 100k difficile où les agents n'ont droit qu'à 2 heures d'expérience en temps réel. Le troisième article étudie le rôle de la RL basée sur un modèle et de l'apprentissage auto-supervisé dans le contexte de la généralisation en RL. Grâce à des contrôles minutieux, nous montrons que la planification et l'apprentissage de représentation basé sur un modèle contribuent tous deux à une meilleure généralisation pour l'agent Muzero. Nous améliorons encore MuZero avec des objectifs d'apprentissage auto-supervisés auxiliaires, et montrons que cet agent MuZero++ obtient des résultats de pointe sur les benchmarks Procgen et Metaworld. / This thesis tries to build better Reinforcement Learning (RL) agents by leveraging self-supervised learning. It is presented as a thesis by article that contains three pieces of work. In the first article, we construct a benchmark based on Atari games to systematically evaluate self-supervised learning methods in RL environments. We compare an array of such methods across a suite of probing tasks to identify their strengths and weaknesses. We further show that a novel contrastive method ST-DIM excels at capturing most generative factors in the studied environments, without needing to rely on labels or rewards. In the second article, we propose Self-Predictive Representations (SPR) that learns a self-supervised latent model of the environment dynamics alongside solving the RL task at hand. We show that SPR achieves dramatic improvements in state-of-the-art on the challenging Atari 100k benchmark where agents are allowed only 2 hours of real-time experience. The third article studies the role of model-based RL and self-supervised learning in the context of generalization in RL. Through careful controls, we show that planning and model-based representation learning both contribute towards better generalization for the Muzero agent. We further improve MuZero with auxiliary self-supervised learning objectives, and show that this MuZero++ agent achieves state-of-the-art results on the Procgen and Metaworld benchmarks.
164

Finer grained evaluation methods for better understanding of deep neural network representations

Bordes, Florian 08 1900 (has links)
Établir des méthodes d'évaluation pour les systèmes d'intelligence artificielle (IA) est une étape importante pour précisément connaître leurs limites et ainsi prévenir les dommages qu'ils pourraient causer et savoir quels aspects devraient être améliorés. Cela nécessite d'être en mesure de dresser des portraits précis des limitations associées à un système d'IA donné. Cela demande l'accès à des outils et des principes fiables, transparent, à jour et faciles à utiliser. Malheureusement, la plupart des méthodes d'évaluation utilisées à ce jour ont un retard significatif par rapport aux performances toujours croissantes des réseaux de neurones artificiels. Dans cette thèse par articles, je présente des méthodes et des principes d'évaluation plus rigoureux pour obtenir une meilleur compréhension des réseaux de neurones et de leurs limitations. Dans le premier article, je présente Representation Conditional Diffusion Model (RCDM), une méthode d'évaluation à l'état de l'art qui permet, à partir d'une représentation donnée -- par exemple les activations d'une couche donnée d'un réseau de neurones artificiels -- de générer une image. En utilisant les dernières avancées dans la génération d'images, RCDM permet aux chercheur·euse·s de visualiser l'information contenue à l'intérieur d'une représentation. Dans le deuxième article, j'introduis la régularisation par Guillotine qui est une technique bien connue dans la littérature sur l'apprentissage par transfert mais qui se présente différemment dans la littérature sur l'auto-apprentissage. Pour améliorer la généralisation à travers différentes tâches, on montre qu'il est important d'évaluer un modèle en coupant un certain nombre de couches. Dans le troisième article, j'introduis le score DéjaVu qui quantifie à quel point un réseau de neurones a mémorisé les données d'entraînement. Ce score utilise une petite partie d'une image d'entraînement puis évalue quelles informations il est possible d'inférer à propos du reste de l'image. Dans le dernier article, je présente les jeux de données photo-réalistes PUG (Photorealistic Unreal Graphics) que nous avons développés. Au contraire de données réelles, pour lesquelles générer des annotations est un processus coûteux, l'utilisation de données synthétiques offre un contrôle total sur la scène générée et sur les annotations. On utilise un moteur de jeux vidéo qui permet la synthèse d'images photo-réalistes de haute qualité, afin d'évaluer la robustesse d'un réseau de neurones pré-entraîné, ceci sans avoir besoin d'adapter ce réseau avec un entraînement additionnel. / Carefully designing benchmarks to evaluate the safety of Artificial Intelligent (AI) agents is a much-needed step to precisely know the limits of their capabilities and thus prevent potential damages they could cause if used beyond these limits. Researchers and engineers should be able to draw precise pictures of the failure modes of a given AI system and find ways to mitigate them. Drawing such portraits requires reliable tools and principles that are transparent, up-to-date, and easy to use by practitioners. Unfortunately, most of the benchmark tools used in research are often outdated and quickly fall behind the fast pace of improvement of the capabilities of deep neural networks. In this thesis by article, I focus on establishing more fine-grained evaluation methods and principles to gain a better understanding of deep neural networks and their limitations. In the first article, I present Representation Conditional Diffusion Model (RCDM), a state-of-the-art visualization method that can map any deep neural network representation to the image space. Using the latest advances in generative modeling, RCDM sheds light on what is learned by deep neural networks by allowing practitioners to visualize the richness of a given representation. In the second article, I (re)introduce Guillotine Regularization (GR) -- a trick that has been used for a long time in transfer learning -- from a novel understanding and viewpoint grounded in the self-supervised learning outlook. We show that evaluating a model by removing its last layers is important to ensure better generalization across different downstream tasks. In the third article, I introduce the DejaVu score which quantifies how much models are memorizing their training data. This score relies on leveraging partial information from a given image such as a crop, and evaluates how much information one can retrieve about the entire image based on only this partial content. In the last article, I introduce the Photorealistic Unreal Graphics (PUG) datasets and benchmarks. In contrast to real data for which getting annotations is often a costly and long process, synthetic data offers complete control of the elements in the scene and labeling. In this work, we leverage a powerful game engine that produces high-quality and photorealistic images to evaluate the robustness of pre-trained neural networks without additional finetuning.
165

Classification de situations de conduite et détection des événements critiques d'un deux roues motorisé / Powered Two Wheelers riding patterns classification and critical events recognition

Attal, Ferhat 06 July 2015 (has links)
L'objectif de cette thèse est de développer des outils d'analyse de données recueillies sur les deux roues motorisés (2RMs). Dans ce cadre, des expérimentations sont menées sur des motos instrumentés dans un contexte de conduite réelle incluant à la fois des conduites normales dites naturelles et des conduites à risques (presque chute et chute). Dans la première partie de la thèse, des méthodes d'apprentissage supervisé ont été utilisées pour la classification de situations de conduite d'un 2RM. Les approches développées dans ce contexte ont montré l'intérêt de prendre en compte l'aspect temporel des données dans la conduite d'un 2RM. A cet effet, nous avons montré l'efficacité des modèles de Markov cachés. La seconde partie de cette thèse porte sur le développement d'outils de détection et de classification hors ligne des évènements critiques de conduite, ainsi que, la détection en ligne des situations de chute d'un 2RM. L'approche proposée pour la détection hors ligne des évènements critiques de conduite repose sur l'utilisation d'un modèle de mélange de densités gaussiennes à proportions logistiques. Ce modèle sert à la segmentation non supervisée des séquences de conduite. Des caractéristiques extraites du paramètre du modèle de mélange sont utilisées comme entrées d'un classifieur pour classifier les évènements critiques. Pour la détection en ligne de chute, une méthode simple de détection séquentielle d'anomalies basée sur la carte de contrôle MCUSUM a été proposée. Les résultats obtenus sur une base de données réelle ont permis de montrer l'efficacité des méthodologies proposées à la fois pour la classification de situations de conduite et à la détection des évènements critiques de conduite / This thesis aims to develop framework tools for analyzing and understanding the riding of Powered Two Wheelers (PTW). Experiments are conducted using instrumented PTW in real context including both normal (naturalistic) riding behaviors and critical riding behaviors (near fall and fall). The two objectives of this thesis are the riding patterns classification and critical riding events detection. In the first part of this thesis, a machine-learning framework is used for riding pattern recognition problem. Therefore, this problem is formulated as a classification task to identify the class of riding patterns. The approaches developed in this context have shown the interest to take into account the temporal aspect of the data in PTW riding. Moreover, we have shown the effectiveness of hidden Markov models for such problem. The second part of this thesis focuses on the development of the off-line detection and classification of critical riding events tools and the on-line fall detection. The problem of detection and classification of critical riding events has been performed towards two steps: (1) the segmentation step, where the multidimensional time of data were modeled and segmented by using a mixture model with quadratic logistic proportions; (2) the classification step, which consists in using a pattern recognition algorithm in order to assign each event by its extracted features to one of the three classes namely Fall, near Fall and Naturalistic riding. Regarding the fall detection problem, it is formulated as a sequential anomaly detection problem. The Multivariate CUmulative SUM (MCUSUM) control chart was applied on the data collected from sensors mounted on the motorcycle. The obtained results on a real database have shown the effectiveness of the proposed methodology for both riding pattern recognition and critical riding events detection problems
166

Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals

Wood, Sean 12 1900 (has links)
On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante. / We study the application of unsupervised matrix decomposition algorithms such as Non-negative Matrix Factorization (NMF) to frequency domain representations of music audio signals. These algorithms, driven by a given reconstruction error function, learn a set of basis functions and a set of corresponding coefficients that approximate the input signal. We compare the use of three reconstruction error functions when NMF is applied to monophonic and harmonized musical scales: least squares, Kullback-Leibler divergence, and a recently introduced “phase-aware” divergence measure. Novel supervised methods for interpreting the resulting decompositions are presented and compared to previously used methods that rely on domain knowledge. Finally, the ability of the learned basis functions to generalize across musical parameter values including note amplitude, note duration and instrument type, are analyzed. To do so, we introduce two basis function labeling algorithms that outperform the previous labeling approach in the majority of our tests, instrument type with monophonic audio being the only notable exception.
167

Apprentissage des modèles de situations afin de fournir des services <br />sensibles au contexte

Brdiczka, Oliver 25 May 2007 (has links) (PDF)
Cette thèse porte sur l'apprentissage des modèles de situations afin<br />de fournir des services sensibles au contexte dans un environnement<br />intelligent. D'abord, nous motivons et introduisons la notion de contexte<br />pour la modélisation du comportement humain. Ce dernier est représenté par un<br />modèle de situations décrivant l'environnement, ses occupants et leurs<br />activités. Nous proposons deux exemples d'implémentation du modèle de<br />situations. Puis, nous introduisons un cadre conceptuel pour l'acquisition<br />automatique et l'évolution des différentes couches d'un modèle de situations.<br />Ce cadre regroupe différentes méthodes d'apprentissage: la détection de rôles<br />par entité, l'extraction non-supervisée de situations à partir de données<br />multimodales, l'apprentissage supervisé de situations et l'évolution d'un<br />modèle de situations basée sur les retours de l'utilisateur. Ce cadre<br />conceptuel ainsi que les méthodes associées ont été implémentées et évaluées<br />dans un environnement domestique augmenté.
168

Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals

Wood, Sean 12 1900 (has links)
On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante. / We study the application of unsupervised matrix decomposition algorithms such as Non-negative Matrix Factorization (NMF) to frequency domain representations of music audio signals. These algorithms, driven by a given reconstruction error function, learn a set of basis functions and a set of corresponding coefficients that approximate the input signal. We compare the use of three reconstruction error functions when NMF is applied to monophonic and harmonized musical scales: least squares, Kullback-Leibler divergence, and a recently introduced “phase-aware” divergence measure. Novel supervised methods for interpreting the resulting decompositions are presented and compared to previously used methods that rely on domain knowledge. Finally, the ability of the learned basis functions to generalize across musical parameter values including note amplitude, note duration and instrument type, are analyzed. To do so, we introduce two basis function labeling algorithms that outperform the previous labeling approach in the majority of our tests, instrument type with monophonic audio being the only notable exception.
169

Classification de situations de conduite et détection des événements critiques d'un deux roues motorisé / Powered Two Wheelers riding patterns classification and critical events recognition

Attal, Ferhat 06 July 2015 (has links)
L'objectif de cette thèse est de développer des outils d'analyse de données recueillies sur les deux roues motorisés (2RMs). Dans ce cadre, des expérimentations sont menées sur des motos instrumentés dans un contexte de conduite réelle incluant à la fois des conduites normales dites naturelles et des conduites à risques (presque chute et chute). Dans la première partie de la thèse, des méthodes d'apprentissage supervisé ont été utilisées pour la classification de situations de conduite d'un 2RM. Les approches développées dans ce contexte ont montré l'intérêt de prendre en compte l'aspect temporel des données dans la conduite d'un 2RM. A cet effet, nous avons montré l'efficacité des modèles de Markov cachés. La seconde partie de cette thèse porte sur le développement d'outils de détection et de classification hors ligne des évènements critiques de conduite, ainsi que, la détection en ligne des situations de chute d'un 2RM. L'approche proposée pour la détection hors ligne des évènements critiques de conduite repose sur l'utilisation d'un modèle de mélange de densités gaussiennes à proportions logistiques. Ce modèle sert à la segmentation non supervisée des séquences de conduite. Des caractéristiques extraites du paramètre du modèle de mélange sont utilisées comme entrées d'un classifieur pour classifier les évènements critiques. Pour la détection en ligne de chute, une méthode simple de détection séquentielle d'anomalies basée sur la carte de contrôle MCUSUM a été proposée. Les résultats obtenus sur une base de données réelle ont permis de montrer l'efficacité des méthodologies proposées à la fois pour la classification de situations de conduite et à la détection des évènements critiques de conduite / This thesis aims to develop framework tools for analyzing and understanding the riding of Powered Two Wheelers (PTW). Experiments are conducted using instrumented PTW in real context including both normal (naturalistic) riding behaviors and critical riding behaviors (near fall and fall). The two objectives of this thesis are the riding patterns classification and critical riding events detection. In the first part of this thesis, a machine-learning framework is used for riding pattern recognition problem. Therefore, this problem is formulated as a classification task to identify the class of riding patterns. The approaches developed in this context have shown the interest to take into account the temporal aspect of the data in PTW riding. Moreover, we have shown the effectiveness of hidden Markov models for such problem. The second part of this thesis focuses on the development of the off-line detection and classification of critical riding events tools and the on-line fall detection. The problem of detection and classification of critical riding events has been performed towards two steps: (1) the segmentation step, where the multidimensional time of data were modeled and segmented by using a mixture model with quadratic logistic proportions; (2) the classification step, which consists in using a pattern recognition algorithm in order to assign each event by its extracted features to one of the three classes namely Fall, near Fall and Naturalistic riding. Regarding the fall detection problem, it is formulated as a sequential anomaly detection problem. The Multivariate CUmulative SUM (MCUSUM) control chart was applied on the data collected from sensors mounted on the motorcycle. The obtained results on a real database have shown the effectiveness of the proposed methodology for both riding pattern recognition and critical riding events detection problems
170

Designing Regularizers and Architectures for Recurrent Neural Networks

Krueger, David 01 1900 (has links)
No description available.

Page generated in 0.0324 seconds