Spelling suggestions: "subject:"supervisé"" "subject:"supervisée""
221 |
Data-efficient reinforcement learning with self-predictive representationsSchwarzer, Max 08 1900 (has links)
L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes.
Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs. / Data efficiency remains a key challenge in deep reinforcement learning. Although modern techniques have been shown to be capable of attaining high performance in extremely complex tasks, including strategy games such as StarCraft, Chess, Shogi, and Go as well as in challenging visual domains such as Atari games, doing so generally requires enormous amounts of interactional data, limiting how broadly reinforcement learning can be applied. In this thesis, we propose SPR, a method drawing from recent advances in self-supervised representation learning designed to enhance the data efficiency of deep reinforcement learning agents. We evaluate this method on the Atari Learning Environment, and show that it dramatically improves performance with limited computational overhead. When given roughly the same amount of learning time as human testers, a reinforcement learning agent augmented with SPR achieves super-human performance on 7 out of 26 games, an increase of 350% over the previous state of the art, while also strongly improving mean and median performance. We also evaluate this method on a set of continuous control tasks, showing substantial improvements over previous methods.
Chapter 1 introduces concepts necessary to understand the work presented, including overviews of Deep Reinforcement Learning and Self-Supervised Representation learning. Chapter 2 contains a detailed description of our contributions towards leveraging self-supervised representation learning to improve data-efficiency in reinforcement learning. Chapter 3 provides some conclusions drawn from this work, including a number of proposals for future work.
|
222 |
Contribution à l'analyse et à la détection automatique d'anomalies ECG dans le cas de l'ischémie myocardique / Contribution to analysis and automatic detection of ECG anomalies in case of myocardial ischemiaHadjem, Medina 29 March 2016 (has links)
Les récentes avancées dans le domaine de la miniaturisation des capteurs biomédicaux à ultra-faible consommation énergétique, permettent aujourd’hui la conception de systèmes de télésurveillance médicale, à la fois plus intelligents et moins invasifs. Ces capteurs sont capables de collecter des signaux vitaux tels que le rythme cardiaq ue, la température, la saturation en oxygène, la pression artérielle, l'ECG, l'EMG, etc., et de les transmettre sans fil à un smartphone ou un autre dispositif distant. Ces avancées sus-citées ont conduit une large communauté scientifique à s'intéresser à la conception de nouveaux systèmes d'analyse de données biomédicales, en particulier de l’électrocardiogramme (ECG). S’inscrivant dans cette thématique de recherche, la présente thèse s’intéresse principalement à l’analyse et à la détection automatique des maladies cardiaques coronariennes, en particulier l’ischémie myocardique et l’infarctus du myocarde (IDM). A cette fin, et compte tenu de la nature non stationnaire et fortement bruitée du signal ECG, le premier défi a été d'extraire les paramètres pertinents de l’ECG, sans altérer leurs caractéristiques essentielles. Cette problématique a déjà fait l’objet de plusieurs travaux et ne représente pas l’objectif principal de cette thèse. Néanmoins, étant un prérequis incontournable, elle a nécessité une étude et une compréhension de l'état de l'art afin de sélectionner la méthode la plus appropriée. En s'appuyant sur les paramètres ECG extraits, en particulier les paramètres relatifs au segment ST et à l'onde T, nous avons contribué dans cette thèse par deux approches d'analyse ECG : (1) Une première analyse réalisée au niveau de la série temporelle des paramètres ECG, son objectif est de détecter les élévations anormales du segment ST et de l'onde T, connues pour être un signe précoce d'une ischémie myocardique ou d’un IDM. (2) Une deuxième analyse réalisée au niveau des battements de l’ECG, dont l’objectif est la classification des anomalies du segment ST et de l’onde T en différentes catégories. Cette dernière approche est la plus utilisée dans la littérature, cependant, il est difficile d’interpréter les résultats des travaux existants en raison de l'absence d’une méthodologie standard de classification. Nous avons donc réalisé notre propre étude comparative des principales méthodes de classification utilisées dans la littérature, en prenant en compte diverses classes d'anomalies ST et T, plusieurs paramètres d'évaluation des performances ainsi que plusieurs dérivations du signal ECG. Afin d'aboutir à des résultats plus significatifs, nous avons également réalisé la même étude en prenant en compte la présence d'autres anomalies cardiaques fréquentes dans l’ECG (arythmies). Enfin, en nous basant sur les résultats de cette étude comparative, nous avons proposé une nouvelle approche de classification des anomalies ST-T en utilisant une combinaison de la technique du Boosting et du sous-échantillonnage aléatoire, notre objectif étant de trouver le meilleur compromis entre vrais-positifs et faux-positifs. / Recent advances in sensing and miniaturization of ultra-low power devices allow for more intelligent and wearable health monitoring sensor-based systems. The sensors are capable of collecting vital signs, such as heart rate, temperature, oxygen saturation, blood pressure, ECG, EMG, etc., and communicate wirelessly the collected data to a remote device and/or smartphone. Nowadays, these aforementioned advances have led a large research community to have interest in the design and development of new biomedical data analysis systems, particularly electrocardiogram (ECG) analysis systems. Aimed at contributing to this broad research area, we have mainly focused in this thesis on the automatic analysis and detection of coronary heart diseases, such as Ischemia and Myocardial Infarction (MI), that are well known to be the leading death causes worldwide. Toward this end, and because the ECG signals are deemed to be very noisy and not stationary, our challenge was first to extract the relevant parameters without losing their main features. This particular issue has been widely addressed in the literature and does not represent the main purpose of this thesis. However, as it is a prerequisite, it required us to understand the state of the art proposed methods and select the most suitable one for our work. Based on the ECG parameters extracted, particularly the ST segment and the T wave parameters, we have contributed with two different approaches to analyze the ECG records: (1) the first analysis is performed in the time series level, in order to detect abnormal elevations of the ST segment and the T wave, known to be an accurate predictor of ischemia or MI; (2) the second analysis is performed at the ECG beat level to automatically classify the ST segment and T wave anomalies within different categories. This latter approach is the most commonly used in the literature. However, lacking a performance comparison standard in the state of the art existing works, we have carried out our own comparison of the actual classification methods by taking into account diverse ST and T anomaly classes, several performance evaluation parameters, as well as several ECG signal leads. To obtain more realistic performances, we have also performed the same study in the presence of other frequent cardiac anomalies, such as arrhythmia. Based on this substantial comparative study, we have proposed a new classification approach of seven ST-T anomaly classes, by using a hybrid of the boosting and the random under sampling methods, our goal was ultimately to reach the best tradeoff between true-positives and false-positives.
|
223 |
Analyse du contenu expressif des gestes corporels / Analysis of gestures expressive contentTruong, Arthur 21 September 2016 (has links)
Aujourd’hui, les recherches portant sur le geste manquent de modèles génériques. Les spécialistes du geste doivent osciller entre une formalisation excessivement conceptuelle et une description purement visuelle du mouvement. Nous reprenons les concepts développés par le chorégraphe Rudolf Laban pour l’analyse de la danse classique contemporaine, et proposons leur extension afin d’élaborer un modèle générique du geste basé sur ses éléments expressifs. Nous présentons également deux corpus de gestes 3D que nous avons constitués. Le premier, ORCHESTRE-3D, se compose de gestes pré-segmentés de chefs d’orchestre enregistrés en répétition. Son annotation à l’aide d’émotions musicales est destinée à l’étude du contenu émotionnel de la direction musicale. Le deuxième corpus, HTI 2014-2015, propose des séquences d’actions variées de la vie quotidienne. Dans une première approche de reconnaissance dite « globale », nous définissons un descripteur qui se rapporte à l’entièreté du geste. Ce type de caractérisation nous permet de discriminer diverses actions, ainsi que de reconnaître les différentes émotions musicales que portent les gestes des chefs d’orchestre de notre base ORCHESTRE-3D. Dans une seconde approche dite « dynamique », nous définissons un descripteur de trame gestuelle (e.g. défini pour tout instant du geste). Les descripteurs de trame sont utilisés des poses-clés du mouvement, de sorte à en obtenir à tout instant une représentation simplifiée et utilisable pour reconnaître des actions à la volée. Nous testons notre approche sur plusieurs bases de geste, dont notre propre corpus HTI 2014-2015 / Nowadays, researches dealing with gesture analysis suffer from a lack of unified mathematical models. On the one hand, gesture formalizations by human sciences remain purely theoretical and are not inclined to any quantification. On the other hand, the commonly used motion descriptors are generally purely intuitive, and limited to the visual aspects of the gesture. In the present work, we retain Laban Movement Analysis (LMA – originally designed for the study of dance movements) as a framework for building our own gesture descriptors, based on expressivity. Two datasets are introduced: the first one is called ORCHESTRE-3D, and is composed of pre-segmented orchestra conductors’ gestures, which have been annotated with the help of lexicon of musical emotions. The second one, HTI 2014-2015, comprises sequences of multiple daily actions. In a first experiment, we define a global feature vector based upon the expressive indices of our model and dedicated to the characterization of the whole gesture. This descriptor is used for action recognition purpose and to discriminate the different emotions of our orchestra conductors’ dataset. In a second approach, the different elements of our expressive model are used as a frame descriptor (e.g., describing the gesture at a given time). The feature space provided by such local characteristics is used to extract key poses of the motion. With the help of such poses, we obtain a per-frame sub-representation of body motions which is available for real-time action recognition purpose
|
224 |
Remote sensing representation learning for a species distribution modeling case studyElkafrawy, Sara 08 1900 (has links)
Les changements climatiques et les phénomènes météorologiques extrêmes sont devenus des moteurs importants de changements de la biodiversité, posant une menace pour la perte d’habitat et l’extinction d’espèces. Comprendre l’état actuel de la biodiversité et identifier les zones hautement adaptées (still strugling with this expression, high suitability for who or what?) sont essentiels afin de lutter contre la perte de biodiversité et guider les processus décisionnels en lien avec les études scientifiques (added scientifiques, as in scientific surveys), les mesures de protection et les efforts de restauration.
Les modèles de distribution des espèces (MDE ou SDM en anglais) sont des outils statistiques permettant de prédire la distribution géographique potentielle d’une espèce en fonction de variables environnementales et des données recueillies à cet endroit. Cependant, les MDE conventionnels sont souvent confrontés à des limitations dues à la résolution spatiale et à la couverture restreinte des variables environnementales, lesquelles sont obtenues suite à des mesures au sol ou à l’aide de stations météorologiques.
Pour mieux comprendre la distribution des espèces à des fins de conservation, le défi GeoLifeCLEF 2022 a été organisé. Cette compétiion comprend un vaste ensemble de données composé de 1,6 million géo-observations liées à la présence de 17 000 espèces végétales et animales. L’objectif principal de ce défi est d’explorer le potentiel des données de télédétection afin de prédire la présence d’espèces à des géolocalisations spécifiques.
Dans ce mémoire, nous étudions diverses techniques d’apprentissage automatique et leur performance en lien avec le défi GeoLifeCLEF 2022. Nous explorons l’efficacité d’algorithmes bien connus en apprentissage par transfert, établissons un cadre d’apprentissage non supervisé et étudions les approches d’apprentissage auto-supervisé lors de la phase d’entraînement. Nos résultats démontrent qu’un ajustement fin des encodeurs pré-entraînés sur différents domaines présente les résultats les plus prometteurs lors de la phase de test. / Climate change and extreme weather events have emerged as significant drivers of biodiversity changes, posing a threat of habitat loss and species extinction. Understanding the current state of biodiversity and identifying areas with high suitability for different species are vital in combating biodiversity loss and guiding decision-making processes for protective measures and restoration efforts.
Species distribution models (SDMs) are statistical tools for predicting a species' potential geographic distribution based on environmental variables and occurrence data. However, conventional SDMs often face limitations due to the restricted spatial resolution and coverage of environmental variables derived from ground-based measurements or weather station data.
To better understand species distribution for conservation purposes, the GeoLifeCLEF 2022 challenge was introduced. This competition encompasses a large dataset of 1.6 million geo-observations linked to the presence of 17,000 plant and animal species. The primary objective of this challenge is to explore the potential of remote sensing data in forecasting species' presence at specific geolocations.
In this thesis, we investigate various machine learning techniques and their performance on the GeoLifeCLEF 2022 challenge. We explore the effectiveness of standard transfer learning algorithms, establish an unsupervised learning framework, and investigate self-supervised learning approaches for training. Our findings demonstrate that fine-tuning pre-trained encoders on different domains yields the most promising test set performance results.
|
225 |
Sur l'élaboration de meilleures techniques pour l'apprentissage auto-supervisé des représentations du codeMaes, Lucas 07 1900 (has links)
Les représentations du code apprises par les modèles d’apprentissage profond sont une composante cruciale pour certaines applications en génie logiciel telles que la recherche de code ou la détection de clones. Les performances de ces applications dépendent de la qualité des représentations apprises par les modèles. De fait, des représentations possédant
peu de bruit et contenant des informations avec un haut niveau d’abstraction, comme la sémantique fonctionnelle, facilitent la résolution de ces tâches. En effet, la recherche de code nécessite de comprendre les objectifs des morceaux de code pour les comparer avec une requête en langage naturel, tandis que la détection de clone exige de déterminer si deux morceaux de code ont la même sémantique fonctionnelle. La capacité des modèles à apprendre des représentations contenant de telles informations abstraites est donc cruciale pour la bonne résolution de ces tâches. Cependant, il est toujours difficile pour les modèles de code d’apprendre des représentations abstraites indépendantes de la syntaxe, par exemple la sémantique fonctionnelle. Ce mémoire se consacre donc à l’élaboration de meilleures techniques pour l’apprentissage des représentations du code via l’apprentissage auto-supervisé. Plus spécifiquement, nous nous sommes concentrés sur deux tâches centrales dans l’automatisation du génie logiciel nécessitant un minimum de compréhension de la sémantique fonctionnelle, à savoir, la recherche de code et la détection de clones de type 4. Ce mémoire propose différentes approches à différents degrés d’entraînement. Le premier degré est le pré-entraînement et
consiste à apprendre des représentations génériques du code adaptables à n’importe quels problèmes. Le second est le peaufinage, modifiant les représentations apprises pour un problème spécifique. Tout d’abord, nous proposons un nouvel algorithme de pré-entraînement pour les modèles de code utilisant une méthode non contrastive régularisée adaptée de VICReg, permettant l’apprentissage de représentations génériques. Ensuite, nous proposons un nouvel objectif de peaufinage des modèles de code utilisant la distillation des connaissances d’un ensemble de modèles déjà peaufinés, appelés enseignants, sur un modèle étudiant, lui permettant ainsi l’apprentissage de représentations plus abstraites.
L’ensemble des contributions vise à améliorer les représentations du code et à maximiser les performances des modèles d’apprentissage automatique pour le code, mais aussi à déterminer quel est le meilleur degré d’entraînement à adopter pour cela. Les résultats expérimentaux et les analyses menées dans ce mémoire sont préliminaires et ne permettent pas de tirer de conclusions définitives. Néanmoins, il est important de souligner que la deuxième contribution surpasse la méthode classique de peaufinage des modèles pour la recherche de code. De plus, les approches décrites proposent des pistes de directions de recherche innovantes et non conventionnelles. / Code representations learned by deep learning models are a crucial component for certain
software engineering applications such as code search or clone detection. The performance
of these applications depends on the quality of the representations learned by the models.
In fact, low-noise representations containing highly abstract information, such as functional
semantics, facilitate the resolution of these tasks. Indeed, code search requires understanding the objectives of code snippets in order to compare them with a natural language
query, while clone detection requires determining whether two code snippets have the
same functional semantics. The ability of models to learn representations containing such
abstract information is therefore crucial to the successful resolution of these tasks.
However, it is still difficult for code models to learn abstract representations that are
independent of syntax, such as functional semantics. This thesis is therefore dedicated to
developing better techniques for learning code representations via self-supervised learning.
More specifically, we focus on two central tasks in software engineering automation requiring
a minimum understanding of functional semantics, namely, code search and type 4 clone
detection. This work proposes different approaches with different degrees of training. The
first, pre-training, consists in learning generic code representations that can be adapted to
any problem. The second is fine-tuning, modifying the representations learned for a specific
problem.
First, we propose a new pre-training algorithm for code models using a regularized
non-contrastive method adapted from VICReg [14] enabling the learning of generic representations. Secondly, we propose a new code model refinement objective using knowledge
distillation of a set of already refined models, called teachers, on a student model allowing
it to learn more abstract representations.
The aim of all these contributions is not only to improve code representations and
maximize the performance of machine learning models for code, but also to determine the
best degree of training to adopt for this purpose. The experimental results and analyses carried out in this thesis are preliminary and do not allow to draw formal conclusions.
Nevertheless, it is important to underline that the second contribution outperforms the
classical model refinement method for code search. Moreover, the approaches described
suggest innovative and unconventional research directions.
|
226 |
On discovering and learning structure under limited supervisionMudumba, Sai Rajeswar 08 1900 (has links)
Les formes, les surfaces, les événements et les objets (vivants et non vivants) constituent le monde. L'intelligence des agents naturels, tels que les humains, va au-delà de la simple reconnaissance de formes. Nous excellons à construire des représentations et à distiller des connaissances pour comprendre et déduire la structure du monde. Spécifiquement, le développement de telles capacités de raisonnement peut se produire même avec une supervision limitée.
D'autre part, malgré son développement phénoménal, les succès majeurs de l'apprentissage automatique, en particulier des modèles d'apprentissage profond, se situent principalement dans les tâches qui ont accès à de grands ensembles de données annotées. Dans cette thèse, nous proposons de nouvelles solutions pour aider à combler cette lacune en permettant aux modèles d'apprentissage automatique d'apprendre la structure et de permettre un raisonnement efficace en présence de tâches faiblement supervisés.
Le thème récurrent de la thèse tente de s'articuler autour de la question « Comment un système perceptif peut-il apprendre à organiser des informations sensorielles en connaissances utiles sous une supervision limitée ? » Et il aborde les thèmes de la géométrie, de la composition et des associations dans quatre articles distincts avec des applications à la vision par ordinateur (CV) et à l'apprentissage par renforcement (RL).
Notre première contribution ---Pix2Shape---présente une approche basée sur l'analyse par synthèse pour la perception. Pix2Shape exploite des modèles génératifs probabilistes pour apprendre des représentations 3D à partir d'images 2D uniques. Le formalisme qui en résulte nous offre une nouvelle façon de distiller l'information d'une scène ainsi qu'une représentation puissantes des images. Nous y parvenons en augmentant l'apprentissage profond non supervisé avec des biais inductifs basés sur la physique pour décomposer la structure causale des images en géométrie, orientation, pose, réflectance et éclairage.
Notre deuxième contribution ---MILe--- aborde les problèmes d'ambiguïté dans les ensembles de données à label unique tels que ImageNet. Il est souvent inapproprié de décrire une image avec un seul label lorsqu'il est composé de plus d'un objet proéminent. Nous montrons que l'intégration d'idées issues de la littérature linguistique cognitive et l'imposition de biais inductifs appropriés aident à distiller de multiples descriptions possibles à l'aide d'ensembles de données aussi faiblement étiquetés.
Ensuite, nous passons au paradigme d'apprentissage par renforcement, et considérons un agent interagissant avec son environnement sans signal de récompense. Notre troisième contribution ---HaC--- est une approche non supervisée basée sur la curiosité pour apprendre les associations entre les modalités visuelles et tactiles. Cela aide l'agent à explorer l'environnement de manière autonome et à utiliser davantage ses connaissances pour s'adapter aux tâches en aval. La supervision dense des récompenses n'est pas toujours disponible (ou n'est pas facile à concevoir), dans de tels cas, une exploration efficace est utile pour générer un comportement significatif de manière auto-supervisée.
Pour notre contribution finale, nous abordons l'information limitée contenue dans les représentations obtenues par des agents RL non supervisés. Ceci peut avoir un effet néfaste sur la performance des agents lorsque leur perception est basée sur des images de haute dimension. Notre approche a base de modèles combine l'exploration et la planification sans récompense pour affiner efficacement les modèles pré-formés non supervisés, obtenant des résultats comparables à un agent entraîné spécifiquement sur ces tâches. Il s'agit d'une étape vers la création d'agents capables de généraliser rapidement à plusieurs tâches en utilisant uniquement des images comme perception. / Shapes, surfaces, events, and objects (living and non-living) constitute the world. The intelligence of natural agents, such as humans is beyond pattern recognition. We excel at building representations and distilling knowledge to understand and infer the structure of the world. Critically, the development of such reasoning capabilities can occur even with limited supervision.
On the other hand, despite its phenomenal development, the major successes of machine learning, in particular, deep learning models are primarily in tasks that have access to large annotated datasets. In this dissertation, we propose novel solutions to help address this gap by enabling machine learning models to learn the structure and enable effective reasoning in the presence of weakly supervised settings.
The recurring theme of the thesis tries to revolve around the question of "How can a perceptual system learn to organize sensory information into useful knowledge under limited supervision?" And it discusses the themes of geometry, compositions, and associations in four separate articles with applications to computer vision (CV) and reinforcement learning (RL).
Our first contribution ---Pix2Shape---presents an analysis-by-synthesis based approach(also referred to as inverse graphics) for perception. Pix2Shape leverages probabilistic generative models to learn 3D-aware representations from single 2D images. The resulting formalism allows us to perform a novel view synthesis of a scene and produce powerful representations of images. We achieve this by augmenting unsupervised learning with physically based inductive biases to decompose a scene structure into geometry, pose, reflectance and lighting.
Our Second contribution ---MILe--- addresses the ambiguity issues in single-labeled datasets such as ImageNet. It is often inappropriate to describe an image with a single label when it is composed of more than one prominent object. We show that integrating ideas from Cognitive linguistic literature and imposing appropriate inductive biases helps in distilling multiple possible descriptions using such weakly labeled datasets.
Next, moving into the RL setting, we consider an agent interacting with its environment without a reward signal. Our third Contribution ---HaC--- is a curiosity based unsupervised approach to learning associations between visual and tactile modalities. This aids the agent to explore the environment in an analogous self-guided fashion and further use this knowledge to adapt to downstream tasks.
In the absence of reward supervision, intrinsic movitivation is useful to generate meaningful behavior in a self-supervised manner.
In our final contribution, we address the representation learning bottleneck in unsupervised RL agents that has detrimental effect on the performance on high-dimensional pixel based inputs. Our model-based approach combines reward-free exploration and planning to efficiently fine-tune unsupervised pre-trained models, achieving comparable results to task-specific baselines. This is a step towards building agents that can generalize quickly on more than a single task using image inputs alone.
|
227 |
Sequential decision modeling in uncertain conditionsKastner, Kyle 08 1900 (has links)
Cette thèse consiste en une série d’approches pour la modélisation de décision structurée - c’est-à-dire qu’elle propose des solutions utilisant des modèles génératifs pour des tâches intégrant plusieurs entrées et sorties, ces entrées et sorties étant dictées par des interactions complexes entre leurs éléments. Un aspect crucial de ces problèmes est la présence en plus d’un résultat correct, des résultats structurellement différents mais considérés tout aussi corrects, résultant d’une grande mais nécessaire incertitude sur les sorties du système. Cette thèse présente quatre articles sur ce sujet, se concentrent en particulier sur le domaine de la synthèse vocale à partir de texte, génération symbolique de musique, traitement de texte, reconnaissance automatique de la parole, et apprentissage de représentations pour la parole et le texte. Chaque article présente une approche particulière à un problème dans ces domaines respectifs, en proposant et étudiant des architectures profondes pour ces domaines. Bien que ces techniques d’apprentissage profond utilisées dans ces articles sont suffisamment versatiles et expressives pour être utilisées dans d’autres domaines, nous resterons concentrés sur les applications décrites dans chaque article.
Le premier article présente une approche permettant le contrôle détaillé, au niveau phonétique et symbolique, d’un système de synthèse vocale, en utilisant une méthode d’échange efficace permettant de combiner des représentations à un niveau lexical. Puisque cette combinaison permet un contrôle proportionné sur les conditions d’entrée, et améliore les prononciations faisant uniquement usage de caractères, ce système de combinaison pour la synthèse vocale a été préféré durant des tests A/B par rapport à des modèles de référence équivalents utilisant les mêmes modalités. Le deuxième article se concentre sur un autre système de synthèse vocale, cette fois-ci centré sur la construction d’une représentation multi-échelle de la parole à travers une décomposition structurée des descripteurs audio. En particulier, l’intérêt de ce travail est dans sa méthodologie économe en calcul malgré avoir été bâti à partir de travaux antérieurs beaucoup plus demandant en ressources de calcul. Afin de bien pouvoir faire de la synthèse vocale sous ces contraintes computationelles, plusieurs nouvelles composantes ont été conçues et intégrées à ce qui devient un modèle efficace de synthèse vocale. Le troisième article un nouveau modèle auto-régressif pour modéliser des chaînes de symboles. Ce modèle fait usage de prédictions et d’estimations itérative et répétées afin de construire une sortie structurée respectant plusieurs contraintes correspondant au domaine sous-jacent. Ce modèle est testé dans le cadre de la génération symbolique de musique et la modélisation de texte, faisant preuve d’excellentes performances en particulier quand la quantité de données s’avère limitée. Le dernier article de la thèse se concentre sur l’étude des représentations pour la parole et le texte apprise à partir d’un système de reconnaissance vocale d’un travail antérieur. À travers une série d’études systématiques utilisant des modèles pré-entraînés de texte et de durée, relations qualitatives entre les données de texte et de parole, et études de performance sur la récupération transmodal “few shot”, nous exposons plusieurs propriétés essentielles sous-jacent à la performance du système, ouvrant la voie pour des développements algorithmiques futurs. De plus, les différents modèles résultants de cette étude obtiennent des résultats impressionnants sur un nombre de tâches de référence utilisant des modèles pré-entraîné transféré sans modification. / This thesis presents a sequence of approaches to structured decision modeling - that is, proposing generative solutions to tasks with multiple inputs and outputs, featuring complicated interactions between input elements and output elements. Crucially, these problems also include a high amount of uncertainty about the correct outcome and many largely equivalent but structurally different outcomes can be considered equally correct. This thesis presents four articles about these topics, particularly focusing on the domains of text-to-speech synthesis, symbolic music generation, text processing, automatic speech recognition, and speech-text representation learning. Each article presents a particular approach to solving problems in these respective domains, focused on proposing and understanding deep learning architectures for these domains. The deep learning techniques used in these articles are broadly applicable, flexible, and powerful enough that these general approaches may find application to other areas however we remain focused on the domains discussed in each respective article.
The first article presents an approach allowing for flexible phonetic and character control of a text-to-speech system, utilizing an efficient "swap-out" method for blending representations at the word level. This blending allows for smooth control over input conditions, and also strengthens character only pronunciations, resulting in a preference for a blended text-to-speech system in A/B testing, compared to an equivalent baselines even when using the same input information modalities. The second article focuses on another text-to-speech system, this time centered on building multi-scale representations of speech audio using a structured decomposition of audio features. Particularly this work focuses on a compute efficient methodology, while building on prior work which requires a much greater computational budget than the proposed system. In order to effectively perform text-to-speech synthesis under these computational constraints, a number of new components are constructed and integrated, resulting in an efficient model for text-to-speech synthesis. The third article presents a new non-autoregressive model for modeling symbolic sequences. This model uses iterative prediction and re-estimation in order to build structured outputs, which respect numerous constraints in the underlying sequence domain. This model is applied to symbolic music modeling and text modeling, showing excellent performance particularly in limited data generative settings. The final article in this thesis focuses on understanding the speech-text representations learned by a text-injected speech recognition system from prior literature. Through a systematic series of studies utilizing pre-trained text and duration models, qualitative relations between text and speech sequences, and performance studies in few-shot cross-modal retrieval, we reveal a number of crucial properties underlying the performance of this system, paving the way for future algorithmic development. In addition, model variants built during this study achieve impressive performance results on a number of benchmark tasks using partially frozen and transferred parameters.
|
228 |
Sur la génération d'exemples pour réduire le coût d'annotationPiedboeuf, Frédéric 03 1900 (has links)
L'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée.
La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace. / Modern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis.
The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.
|
229 |
Multi-brain decoding for precision psychiatryRanjbaran, Ghazaleh 04 1900 (has links)
Le trouble du spectre de l'autisme (TSA) est un trouble neurodéveloppemental caractérisé par
des interactions sociales atypiques. L’hyperscanning est une technique émergente permettant
l'enregistrement simultané de l'activité cérébrale de plusieurs individus lors d'interactions
sociales. Dans cette étude, des données d'EEG hyperscanning issues de participants autistes et
neurotypiques seront traitées par des techniques d’apprentissage profond (AP), améliorées par
l'apprentissage auto-supervisé (AAS) pour analyser et discerner des schémas indicatifs de TSA.
L'AP est utilisé pour extraire des schémas à partir des données brutes de l'EEG, réduisant la
dépendance à l'ingénierie de caractéristiques manuelles, puis l’AAS est appliqué aux des données
EEG non étiquetées. Cependant, malgré le potentiel des techniques d’AP, leur application au TSA
reste largement inexplorée, notamment en hyperscanning. Afin de combler cette lacune, nous
avons adapté et personnalisé des techniques d'AAS proposée par Banville et al., (2020), en
incorporant deux encodeurs AP distincts entraînés pour extraire des caractéristiques
significatives à partir de données EEG individuelles, et affinés dans un modèle d’AP de
classificateur binaire. Des comparaisons ont été réalisées avec des encodeurs initialement
aléatoires et des caractéristiques extraites manuellement des données EEG utilisées comme
entrées pour un modèle de régression logistique. Le classificateur binaire entraîné sur des
caractéristiques apprises par AAS surpasse systématiquement le classificateur de régression
logistique et les encodeurs initialisés aléatoirement, atteignant une précision de 78 %,
comparable à la performance la plus élevée rapportée par Banville et al. (2020) de 79,4 %. Nos
résultats soulignent l'importance des représentations acquises à partir de signaux EEG individuels
dans l'architecture multi-cerveaux adaptée à la classification d’EEG hyperscanning. Cette étude
encourage ainsi l’utilisation des modèles d’AP dans les analyses d’EEG hyperscanning, notamment
pour le développement d'outils de diagnostic et d'interventions plus précis et efficaces pour les
personnes autistes, et ce même avec un nombre limité d'échantillons de données. / Autism spectrum condition (ASC) is a neurodevelopmental condition characterized by atypical
social interactions. Traditional research on ASC has primarily focused on individual brain signals,
but the emerging technique of hyperscanning enables simultaneous recording of multiple
individuals' brain activity during social interactions. In this study, we leverage hyperscanning EEG
data and employ Deep Learning (DL) techniques, augmented by self-supervised learning (SSL), to
analyze and discern patterns indicative of ASC. DL is utilized to extract patterns from raw EEG
data, reducing the reliance on manual feature engineering. SSL further enhances DL's efficacy by
training on unlabeled EEG data, particularly useful when labeled datasets are limited. Despite the
potential of DL techniques, their application in ASC diagnosis and treatment, particularly in
hyperscanning, remains largely unexplored. This project aimed to bridge this gap by analyzing
hyperscanning EEG data from autistic and neurotypical participants. Specifically, we adapted and
customized SSL techniques proposed by Banville et al., incorporating two distinct DL embedders.
These embedders are trained to extract meaningful features from single-brain EEG data and finetuned
within a binary classifier DL model using hyperscanning EEG data from autistic and control
dyads. Baseline comparisons were conducted with supervised, randomly initialized embedders,
and hand-engineered features extracted from hyperscanning EEG using as inputs to a logistic
regression model. Notably, the binary classifier trained on SSL-learned features consistently
outperforms the logistic regression classifier and randomly initialized embedders, achieving an
accuracy of 78%. This accuracy is comparable to Banville et al.'s highest reported performance of
79.4%. Our results underscore the significance of representations acquired from individual EEG
signals within the multi-brain architecture tailored for hyperscanning EEG classification.
Moreover, they hold promise for broader utilization of DL models in hyperscanning EEG analyses,
especially for developing more accurate and efficient diagnostic tools and interventions for
autistic individuals, even with limited data samples available.
|
230 |
Apprentissage machine efficace : théorie et pratiqueDelalleau, Olivier 03 1900 (has links)
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée).
Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre.
Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique. / Despite constant progress in terms of available computational power, memory and amount of data, machine learning algorithms need to be efficient in how they use them. Although minimizing cost is an obvious major concern, another motivation is to attempt to design algorithms that can learn as efficiently as intelligent species. This thesis tackles the problem of efficient learning through various papers dealing with a wide range of machine learning algorithms: this topic is seen both from the point of view of computational efficiency (processing power and memory required by the algorithms) and of statistical efficiency (n
umber of samples necessary to solve a given learning task).The first contribution of this thesis is in shedding light on various statistical inefficiencies in existing algorithms. Indeed, we show that decision trees do not generalize well on tasks with some particular properties (chapter 3), and that a similar flaw affects typical graph-based semi-supervised learning algorithms (chapter 5). This flaw is a form of curse of dimensionality that is specific to each of these algorithms. For a subclass of neural networks, called sum-product networks, we prove that using networks with a single hidden layer can be exponentially less efficient than when using deep networks (chapter 4). Our analyses help better understand some inherent flaws found in these algorithms, and steer research towards approaches that may potentially overcome them.
We also exhibit computational inefficiencies in popular graph-based semi-supervised learning algorithms (chapter 5) as well as in the learning of mixtures of Gaussians with missing data (chapter 6). In both cases we propose new algorithms that make it possible to scale to much larger datasets. The last two chapters also deal with computational efficiency, but in different ways. Chapter 7 presents a new view on the contrastive divergence algorithm (which has been used for efficient training of restricted Boltzmann machines). It provides additional insight on the reasons why this algorithm has been so successful. Finally, in chapter 8 we describe an application of machine learning to video games, where computational efficiency is tied to software and hardware engineering constraints which, although often ignored in research papers, are ubiquitous in practice.
|
Page generated in 0.071 seconds