• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 253
  • 244
  • 46
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 562
  • 562
  • 367
  • 355
  • 111
  • 108
  • 107
  • 105
  • 93
  • 92
  • 90
  • 89
  • 88
  • 72
  • 70
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Estimation robuste et apprentissage aveugle de modèles pour la séparation de sources sonores

Arberet, Simon Gribonval, Rémi Bimbot, Frédéric January 2008 (has links) (PDF)
Thèse doctorat : Traitement du signal et télécommunications : Rennes 1 : 2008. / Titre provenant de la page du titre du document électronique. Bibliogr. p. 182-192.
52

Étude des mécanismes de gestion des erreurs dans les systèmes à base de connaissances de pilotage de programmes /

Vincent, Régis. January 1900 (has links)
Th. doct.--Informatique--Nice, 1997. / Bibliogr. p. 159-165. Résumé en français et en anglais. 1997 d'après la déclaration de dépôt légal.
53

Techniques d'analyse de contenu appliquées à l'imagerie spatiale / Machine learning applied to remote sensing images

Le Goff, Matthieu 20 October 2017 (has links)
Depuis les années 1970, la télédétection a permis d’améliorer l’analyse de la surface de la Terre grâce aux images satellites produites sous format numérique. En comparaison avec les images aéroportées, les images satellites apportent plus d’information car elles ont une couverture spatiale plus importante et une période de revisite courte. L’essor de la télédétection a été accompagné de l’émergence des technologies de traitement qui ont permis aux utilisateurs de la communauté d’analyser les images satellites avec l’aide de chaînes de traitement de plus en plus automatiques. Depuis les années 1970, les différentes missions d’observation de la Terre ont permis d’accumuler une quantité d’information importante dans le temps. Ceci est dû notamment à l’amélioration du temps de revisite des satellites pour une même région, au raffinement de la résolution spatiale et à l’augmentation de la fauchée (couverture spatiale d’une acquisition). La télédétection, autrefois cantonnée à l’étude d’une seule image, s’est progressivement tournée et se tourne de plus en plus vers l’analyse de longues séries d’images multispectrales acquises à différentes dates. Le flux annuel d’images satellite est supposé atteindre plusieurs Péta octets prochainement. La disponibilité d’une si grande quantité de données représente un atout pour développer de chaines de traitement avancées. Les techniques d’apprentissage automatique beaucoup utilisées en télédétection se sont beaucoup améliorées. Les performances de robustesse des approches classiques d’apprentissage automatique étaient souvent limitées par la quantité de données disponibles. Des nouvelles techniques ont été développées pour utiliser efficacement ce nouveau flux important de données. Cependant, la quantité de données et la complexité des algorithmes mis en place nécessitent une grande puissance de calcul pour ces nouvelles chaînes de traitement. En parallèle, la puissance de calcul accessible pour le traitement d’images s’est aussi accrue. Les GPUs («Graphic Processing Unit ») sont de plus en plus utilisés et l’utilisation de cloud public ou privé est de plus en plus répandue. Désormais, pour le traitement d’images, toute la puissance nécessaire pour les chaînes de traitements automatiques est disponible à coût raisonnable. La conception des nouvelles chaînes de traitement doit prendre en compte ce nouveau facteur. En télédétection, l’augmentation du volume de données à exploiter est devenue une problématique due à la contrainte de la puissance de calcul nécessaire pour l’analyse. Les algorithmes de télédétection traditionnels ont été conçus pour des données pouvant être stockées en mémoire interne tout au long des traitements. Cette condition est de moins en moins respectée avec la quantité d’images et leur résolution. Les algorithmes de télédétection traditionnels nécessitent d’être revus et adaptés pour le traitement de données à grande échelle. Ce besoin n’est pas propre à la télédétection et se retrouve dans d’autres secteurs comme le web, la médecine, la reconnaissance vocale,… qui ont déjà résolu une partie de ces problèmes. Une partie des techniques et technologies développées par les autres domaines doivent encore être adaptées pour être appliquée aux images satellites. Cette thèse se focalise sur les algorithmes de télédétection pour le traitement de volumes de données massifs. En particulier, un premier algorithme existant d’apprentissage automatique est étudié et adapté pour une implantation distribuée. L’objectif de l’implantation est le passage à l’échelle c’est-à-dire que l’algorithme puisse traiter une grande quantité de données moyennant une puissance de calcul adapté. Enfin, la deuxième méthodologie proposée est basée sur des algorithmes récents d’apprentissage automatique les réseaux de neurones convolutionnels et propose une méthodologie pour les appliquer à nos cas d’utilisation sur des images satellites. / Since the 1970s, remote sensing has been a great tool to study the Earth in particular thanks to satellite images produced in digital format. Compared to airborne images, satellite images provide more information with a greater spatial coverage and a short revisit period. The rise of remote sensing was followed by the development of processing technologies enabling users to analyze satellite images with the help of automatic processing chains. Since the 1970s, the various Earth observation missions have gathered an important amount of information over time. This is caused in particular by the frequent revisiting time for the same region, the improvement of spatial resolution and the increase of the swath (spatial coverage of an acquisition). Remote sensing, which was once confined to the study of a single image, has gradually turned into the analysis of long time series of multispectral images acquired at different dates. The annual flow of satellite images is expected to reach several Petabytes in the near future. The availability of such a large amount of data is an asset to develop advanced processing chains. The machine learning techniques used in remote sensing have greatly improved. The robustness of traditional machine learning approaches was often limited by the amount of available data. New techniques have been developed to effectively use this new and important data flow. However, the amount of data and the complexity of the algorithms embedded in the new processing pipelines require a high computing power. In parallel, the computing power available for image processing has also increased. Graphic Processing Units (GPUs) are increasingly being used and the use of public or private clouds is becoming more widespread. Now, all the power required for image processing is available at a reasonable cost. The design of the new processing lines must take this new factor into account. In remote sensing, the volume of data currently available for exploitation has become a problem due to the constraint of the computing power required for the analysis. Traditional remote sensing algorithms have often been designed for data that can be stored in internal memory throughout processing. This condition is violated with the quantity of images and their resolution taken into account. Traditional remote sensing algorithms need to be reviewed and adapted for large-scale data processing. This need is not specific to remote sensing and is found in other sectors such as the web, medicine, speech recognition ... which have already solved some of these problems. Some of the techniques and technologies developed by the other domains still need to be adapted to be applied to satellite images. This thesis focuses on remote sensing algorithms for processing massive data volumes. In particular, a first algorithm of machine learning is studied and adapted for a distributed implementation. The aim of the implementation is the scalability, i.e. the algorithm can process a large quantity of data with a suitable computing power. Finally, the second proposed methodology is based on recent algorithms of learning convolutional neural networks and proposes a methodology to apply them to our cases of use on satellite images.
54

Modélisation de fautes et diagnostic pour les circuits mixtes/RF nanométriques / Fault Modeling and diagnostics for nanometric mixted-signal/RF circuits

Huang, Ke 16 November 2011 (has links)
Le diagnostic de fautes est essentiel pour atteindre l'objectif de temps avant mise sur le marché (time to market) des premiers prototypes de circuits intégrés. Une autre application du diagnostic est dans l'environnement de production. Les informations du diagnostic sont très utiles pour les concepteurs de circuits afin d'améliorer la conception et ainsi augmenter le rendement de production. Dans le cas où le circuit est une partie d'un système d'importance critique pour la sûreté (e.g. automobile, aérospatial), il est important que les fabricants s'engagent à identifier la source d'une défaillance dans le cas d'un retour client pour ensuite améliorer l'environnement de production afin d'éviter la récurrence d'un tel défaut et donc améliorer la sûreté. Dans le cadre de cette thèse, nous avons développé une méthodologie de modélisation et de diagnostic de fautes pour les circuits analogiques/mixtes. Une nouvelle approche basée sur l'apprentissage automatique a été proposée afin de considérer les fautes catastrophiques et paramétriques en même temps dans le diagnostic. Ensuite, nous avons focalisé sur le diagnostic de défauts spot qui sont considérés comme le mécanisme de défauts principal de circuits intégrés. Enfin, la méthodologie du diagnostic proposée a été validée par les données de circuits défectueux fournies par NXP Semiconductors - Netherlands. Mots clés: Diagnostic de fautes, modélisation de fautes, test analogique, analyse de défauts, apprentissage automatique / Fault diagnosis of ICs has grown into a special field of interest in semiconductor industry. At the design stage, diagnosing the sources of failures in IC prototypes is very critical to reduce design iterations in order to meet the time-to-market goal. In a high-volume production environment, diagnosing the sources of failures can assist the designers in gathering information regarding the underlying failure mechanisms. In cases where the IC is part of a larger system that is safety critical (e.g. automotive, aerospace), it is important to identify the root-cause of failure and apply corrective actions that will prevent failure reoccurrence and, thereby, expand the safety features. In this thesis, we have developed a methodology for fault modelling and fault diagnosis of analog/mixed circuits. A new approach has been proposed to diagnose both catastrophic and parametric faults based on machine learning. We then focused on spot defects which are more probable to occur in reality in order to develop an efficient diagnosis approach. The proposed diagnosis methodology has been demonstrated on data of failed devices provided by NXP Semiconductors - Netherlands.
55

Prédire la structure des forêts à partir d'images PolInSAR par apprentissage de descripteurs LIDAR / Prediction of forests structure from PolInSAR images by machine learning using LIDAR derived features

Brigot, Guillaume 20 December 2017 (has links)
Ce travail de thèse a pour objectif la prédiction des paramètres structurels des forêts à grande échelle, grâce aux images de télédétection. La démarche consiste à étendre la précision des données LIDAR spatiales, en les utilisant là où elles sont disponibles, en tant que donnée d'apprentissage pour les images radar à synthèse d'ouverture polarimétriques et interférométrique (PolInSAR). A partir de l'analyse des propriétés géométriques de la forme de cohérence PolInSAR, nous avons proposé un ensemble de paramètres susceptibles d'avoir une corrélation forte avec les profils de densité LIDAR en milieu forestier. Cette description a été utilisée comme données d'entrée de techniques SVM, de réseaux de neurones, et de forêts aléatoires, afin d'apprendre un ensemble de descripteurs de forêts issus du LIDAR : la hauteur totale, le type de profil vertical, et la couverture horizontale. L'application de ces techniques à des données réelles aéroportées de forêts boréales en Suède et au Canada, et l'évaluation de leur précision, démontrent la pertinence de la méthode. Celle-ci préfigure les traitements qui pourront être appliqués à l'échelle planétaires aux futures missions satellites dédiées à la forêt : Biomass, Tandem-L et NiSAR. / The objective of this thesis is to predict the structural parameters of forests on a large scale using remote sensing images. The approach is to extend the accuracy of LIDAR full waveforms, on a larger area covered by polarimetric and interferometric (PolInSAR) synthetic aperture radar images using machine learning methods. From the analysis of the geometric properties of the PolInSAR coherence shape, we proposed a set of parameters that are likely to have a strong correlation with the LIDAR density profiles on forest lands. These features were used as input data for SVM techniques, neural networks, and random forests, in order to learn a set of forest descriptors deduced from LIDAR: the canopy height, the vertical profile type, and the canopy cover. The application of these techniques to airborne data over boreal forests in Sweden and Canada, and the evaluation of their accuracy, demonstrate the relevance of the method. This approach can be soon be adapted for future satellite missions dedicated to the forest: Biomass, Tandem-L and NiSAR.
56

Apprentissage des espaces de forme du modèle 3d humain habillé en mouvement / Learning shape spaces of dressed 3D human models in motion

Yang, Jinlong 28 March 2019 (has links)
Les représentations virtuelles 3D de l'humain habillé apparaissent dans les films, les jeux vidéo, et depuis peu, dans les contenus VR.Ces représentations sont souvent générées par l'acquisition 3D ou par la synthétisation des séquences avec les simulations basées sur la physique ou d'autres techniques d'infographie telles que le riggin et skinning. Ces méthodes traditionnelles nécessitent généralement une intervention manuelle fastidieuse, elles génèrent à faible vitesse des contenus de mauvaise qualité, en raison de la complexité du mouvement des vêtements. Afin de résoudre ce problème, nous proposons dans ce travail une approche d'apprentissage pilotée par les données, ce qui peut prendre à la fois des captures réelles et des séquences simulées comme données d'apprentissage, et produire sans les avoir vu des formes 3D de l'humain habillé ayant différentes formes et mouvements corporels, dans les vêtements de différentes adaptations et de matériaux variés.En raison du manque de la cohérence temporelle et des informations sémantiques, il est difficile d'utiliser directement les captures brutes dans l'analyse et l'apprentissage. Par conséquent, nous proposons d'abord une méthode automatique pour extraire le corps humain sous des vêtements à partir de séquences 3D non structurées. Il est réalisé en exploitant un modèle de corps humain statistique et en optimisant les paramètres du modèle, de sorte que la surface du corps reste toujours à l'intérieur de la surface vêtue observée, et aussi près que possible de celle-ci. Nous montrons que notre méthode peut atteindre un résultat similaire ou meilleur que d'autres méthodes de pointe et na pas besoin de l'intervention manuelle.Après avoir extrait le corps humain sous les vêtements, nous proposons une méthode pour enregistrer la surface du vêtement à l'aide de patchs isométriques. Certains points anatomiques du modèle du corps humain sont d'abord projetés sur la surface du vêtement dans chaque cadre de la séquence. Ces points projetés donnent la correspondance de départ entre les surfaces de vêtement sur une séquence. Nous développons isométriquement des plaques autour de ces points afin de propager les correspondances sur la surface du vêtement. Par la suite, ces correspondances denses sont utilisées pour guider l'enregistrement non rigide afin que nous puissions déformer le maillage du modèle pour obtenir la cohérence temporelle des captures brutes.Sur la base des captures traitées et des données simulées, nous proposons enfin une analyse complète des statistiques de la couche de vêtements avec un modèle simple à deux composants. Il est basé, d'une part, sur la réduction des sous-espaces PCA des informations de couche, et de l'autre, sur un modèle de régression de paramètres génériques utilisant des réseaux neuronaux, conu pour régresser de tous les paramètres sémantiques dont la variation est observée dans l'ensemble des données d'entraînement. Nous montrons que notre modèle permet non seulement de reproduire des travaux précédents sur le ré-ciblage, mais aussi de généraliser les capacités de synthèse de données à d'autres paramètres sémantiques tels que les mouvements corporels, l'adaptation des vêtements et les matériaux physiques, ce qui ouvre la voie pour de nombreuses applications des créations et des augmentations axées sur les données. / The 3D virtual representations of dressed humans appear in movies, video games and since recently, VR contents. To generate these representations, we usually perform 3D acquisitions or synthesize sequences with physics-based simulation or other computer graphics techniques such as rigging and skinning. These traditional methods generally require tedious manual intervention and generate new contents with low speed or low quality, due to the complexity of clothing motion. To deal with this problem, we propose in this work, a data-driven learning approach, which can take both captures and simulated sequences as learning data, and output unseen 3D shapes of dressed human with different body shape, body motion, clothing fit and clothing materials.Due to the lack of temporal coherence and semantic information, raw captures can hardly be used directly for analysis and learning. Therefore, we first propose an automatic method to extract the human body under clothing from unstructured 3D sequences. It is achieved by exploiting a statistical human body model and optimizing the model parameters so that the body surface stays always within while as close as possible to the observed clothed surface throughout the sequence. We show that our method can achieve similar or better result compared with other state-of-the-art methods, and does not need any manual intervention.After extracting the human body under clothing, we propose a method to register the clothing surface with the help of isometric patches. Some anatomical points on the human body model are first projected to the clothing surface in each frame of the sequence. Those projected points give the starting correspondence between clothing surfaces across a sequence. We isometrically grow patches around these points in order to propagate the correspondences on the clothing surface. Subsequently, those dense correspondences are used to guide non-rigid registration so that we can deform the template mesh to obtain temporal coherence of the raw captures.Based on processed captures and simulated data, we finally propose a comprehensive analysis of the statistics of the clothing layer with a simple two-component model. It is based on PCA subspace reduction of the layer information on one hand, and a generic parameter regression model using neural networks on the other hand, designed to regress from any semantic parameter whose variation is observed in a training set, to the layer parameterization space. We show that our model not only allows to reproduce previous re-targeting works, but generalizes the data synthesizing capabilities to other semantic parameters such as body motion, clothing fit, and physical material parameters, paving the way for many kinds of data-driven creation and augmentation applications.
57

Machine Learning for Predictive Maintenance in Aviation / Apprentissage Automatique pour la Maintenance Predictive dans le Domaine de l’Aviation

Korvesis, Panagiotis 21 November 2017 (has links)
L'augmentation des données disponibles dans presque tous les domaines soulève la nécessité d'utiliser des algorithmes pour l'analyse automatisée des données. Cette nécessité est mise en évidence dans la maintenance prédictive, où l'objectif est de prédire les pannes des systèmes en observant continuellement leur état, afin de planifier les actions de maintenance à l'avance. Ces observations sont générées par des systèmes de surveillance habituellement sous la forme de séries temporelles et de journaux d'événements et couvrent la durée de vie des composants correspondants. Le principal défi de la maintenance prédictive est l'analyse de l'historique d'observation afin de développer des modèles prédictifs.Dans ce sens, l'apprentissage automatique est devenu omniprésent puisqu'il fournit les moyens d'extraire les connaissances d'une grande variété de sources de données avec une intervention humaine minimale. L'objectif de cette thèse est d'étudier et de résoudre les problèmes dans l'aviation liés à la prévision des pannes de composants à bord. La quantité de données liées à l'exploitation des avions est énorme et, par conséquent, l'évolutivité est une condition essentielle dans chaque approche proposée.Cette thèse est divisée en trois parties qui correspondent aux différentes sources de données que nous avons rencontrées au cours de notre travail. Dans la première partie, nous avons ciblé le problème de la prédiction des pannes des systèmes, compte tenu de l'historique des Post Flight Reports. Nous avons proposé une approche statistique basée sur la régression précédée d'une formulation méticuleuse et d'un prétraitement / transformation de données. Notre méthode estime le risque d'échec avec une solution évolutive, déployée dans un environnement de cluster en apprentissage et en déploiement. À notre connaissance, il n'y a pas de méthode disponible pour résoudre ce problème jusqu'au moment où cette thèse a été écrite.La deuxième partie consiste à analyser les données du livre de bord, qui consistent en un texte décrivant les problèmes d'avions et les actions de maintenance correspondantes. Le livre de bord contient des informations qui ne sont pas présentes dans les Post Flight Reports bien qu'elles soient essentielles dans plusieurs applications, comme la prédiction de l'échec. Cependant, le journal de bord contient du texte écrit par des humains, il contient beaucoup de bruit qui doit être supprimé afin d'extraire les informations utiles. Nous avons abordé ce problème en proposant une approche basée sur des représentations vectorielles de mots. Notre approche exploite des similitudes sémantiques, apprises par des neural networks qui ont généré les représentations vectorielles, afin d'identifier et de corriger les fautes d'orthographe et les abréviations. Enfin, des mots-clés importants sont extraits à l'aide du Part of Speech Tagging.Dans la troisième partie, nous avons abordé le problème de l'évaluation de l'état des composants à bord en utilisant les mesures des capteurs. Dans les cas considérés, l'état du composant est évalué par l'ampleur de la fluctuation du capteur et une tendance à l'augmentation monotone. Dans notre approche, nous avons formulé un problème de décomposition des séries temporelles afin de séparer les fluctuations de la tendance en résolvant un problème convexe. Pour quantifier l'état du composant, nous calculons à l'aide de Gaussian Mixture Models une fonction de risque qui mesure l'écart du capteur par rapport à son comportement normal. / The increase of available data in almost every domain raises the necessity of employing algorithms for automated data analysis. This necessity is highlighted in predictive maintenance, where the ultimate objective is to predict failures of hardware components by continuously observing their status, in order to plan maintenance actions well in advance. These observations are generated by monitoring systems usually in the form of time series and event logs and cover the lifespan of the corresponding components. Analyzing this history of observation in order to develop predictive models is the main challenge of data driven predictive maintenance.Towards this direction, Machine Learning has become ubiquitous since it provides the means of extracting knowledge from a variety of data sources with the minimum human intervention. The goal of this dissertation is to study and address challenging problems in aviation related to predicting failures of components on-board. The amount of data related to the operation of aircraft is enormous and therefore, scalability is a key requirement in every proposed approach.This dissertation is divided in three main parts that correspond to the different data sources that we encountered during our work. In the first part, we targeted the problem of predicting system failures, given the history of Post Flight Reports. We proposed a regression-based approach preceded by a meticulous formulation and data pre-processing/transformation. Our method approximates the risk of failure with a scalable solution, deployed in a cluster environment both in training and testing. To our knowledge, there is no available method for tackling this problem until the time this thesis was written.The second part consists analyzing logbook data, which consist of text describing aircraft issues and the corresponding maintenance actions and it is written by maintenance engineers. The logbook contains information that is not reflected in the post-flight reports and it is very essential in several applications, including failure prediction. However, since the logbook contains text written by humans, it contains a lot of noise that needs to be removed in order to extract useful information. We tackled this problem by proposing an approach based on vector representations of words (or word embeddings). Our approach exploits semantic similarities of words, learned by neural networks that generated the vector representations, in order to identify and correct spelling mistakes and abbreviations. Finally, important keywords are extracted using Part of Speech Tagging.In the third part, we tackled the problem of assessing the health of components on-board using sensor measurements. In the cases under consideration, the condition of the component is assessed by the magnitude of the sensor's fluctuation and a monotonically increasing trend. In our approach, we formulated a time series decomposition problem in order to separate the fluctuation from the trend by solving a convex program. To quantify the condition of the component, we compute a risk function which measures the sensor's deviation from it's normal behavior, which is learned using Gaussian Mixture Models.
58

A General Machine Reading Comprehension pipeline

Debruyker, Roxane 19 September 2022 (has links)
Savoir lire est une compétence qui va de la capacité à décoder des caractères à la compréhension profonde du sens de textes. Avec l'émergence de l'intelligence artificielle, deux questions se posent : Comment peut-on apprendre à une intelligence artificielle à lire? Qu'est-ce que cela implique? En essayant de répondre à ces questions, une première évidence nous est rappelée : savoir lire ne peut pas se réduire à savoir répondre à des questions sur des textes. Étant donné que les modèles d'apprentissage machine apprennent avec des exemples d'essai erreur, ils vont apprendre à lire en apprenant à répondre correctement à des questions sur des textes. Cependant, il ne faut pas perdre de vue que savoir lire, c'est comprendre différents types de textes et c'est cette compréhension qui permet de répondre à des questions sur un texte. En d'autres termes, répondre à des questions sur des textes est un des moyens d'évaluation de la compétence de lecture plus qu'une fin en soi. Aujourd'hui, il existe différents types de jeux de données qui sont utilisées pour apprendre à des intelligences artificielles à apprendre à lire. Celles ci proposent des textes avec des questions associées qui requièrent différents types de raisonnement : associations lexicales, déductions à partir d'indices disséminés dans le texte, paraphrase, etc. Le problème est que lorsqu'une intelligence artificielle apprend à partir d'un seul de ces jeux de données, elle n'apprend pas à lire mais est plutôt formée à répondre à un type de question, sur un certain type de texte et avec un certain style d'écriture. Outre la problématique de la généralisation des compétences de lecture, les modèles d'intelligence artificielle qui apprennent à lire en apprenant à répondre à des questions retournent des réponses sans systématiquement indiquer sur quelles phrases du texte sources ils se basent. Cela pose un problème d'explicabilité et peut entrainer une mécompréhension des capacités de ces modèles. Dans ce mémoire, nous proposons de résoudre le problème de généralisation de l'apprentissage en proposant une méthodologie générale adaptée à n'importe quel jeu de données. Ainsi, en ayant une méthodologie commune à tous les types de jeux de données pour apprendre à répondre à tout type de question, sur tout type de texte, nous pourrions apprendre aux modèles d'intelligence artificielle à se concentrer sur les compétences générales de lecture plutôt que sur la capacité spécifique à répondre aux questions. Afin de résoudre également le problème de l'explicabilité, la méthodologie que nous proposons impose à tout modèle de compréhension de lecture automatique de renvoyer les extraits du texte source sur lequel ces réponses sont basées. / Reading is a skill that ranges from the ability to decode characters to a deep understanding of the meaning of a text. With the emergence of artificial intelligence, two questions arise: How can an artificial intelligence be taught to read? What does this imply? In trying to answer these questions, we are reminded of the obvious: knowing how to read cannot be reduced to knowing how to answer questions about texts. Since machine learning models learn with trial-and-error examples, they will learn to read by learning to answer correctly questions about the text they read. However, one should not forget the fact that knowing how to read means understanding different types of texts sufficiently well, and it is this that enables answering questions about a text. In other words, answering questions about texts is one of the means of assessing reading skills rather than an end in itself. Today, there are different types of datasets that are used to teach artificial intelligences to learn to read. These provide texts with associated questions that require different types of reasoning: lexical associations, deductions from discrete clues in the text, paraphrasing, etc. The problem is that when an artificial intelligence learns from only one of these datasets, it does not learn to read but is instead trained to answer a certain type of question, on a certain type of text and with a certain writing style. In addition to the problem of generalizing reading skills, artificial intelligence models that learn to read by learning to answer questions return answers without systematically indicating which sentences in the source text they are based on. This poses a problem of explicability and can lead to a misunderstanding of the capabilities of these models. In this thesis, we propose to solve the generalization issue of learning from one dataset by proposing a general methodology suiting to any machine reading comprehension dataset. Thus, by having a methodology common to all types of datasets to learn how to answer any type of question, on any type of text, we could teach artificial intelligence models to focus on general reading skills rather than on the specific ability to answer questions. In order to also solve the issue of explanability, the methodology we propose impose any machine reading comprehension model to return the span of the source text its answers are based on.
59

Sample Compressed PAC-Bayesian Bounds and learning algorithms

Shanian, Sara 18 April 2018 (has links)
Dans le domaine de la classification, les algorithmes d'apprentissage par compression d'échantillons sont des algorithmes qui utilisent les données d'apprentissage disponibles pour construire l'ensemble de classificateurs possibles. Si les données appartiennent seulement à un petit sous-espace de l'espace de toutes les données «possibles», ces algorithmes possédent l'intéressante capacité de ne considérer que les classificateurs qui permettent de distinguer les exemples qui appartiennent à notre domaine d'intérêt. Ceci contraste avec d'autres algorithmes qui doivent considérer l'ensemble des classificateurs avant d'examiner les données d'entraînement. La machine à vecteurs de support (le SVM) est un algorithme d'apprentissage très performant qui peut être considéré comme un algorithme d'apprentissage par compression d'échantillons. Malgré son succès, le SVM est actuellement limité par le fait que sa fonction de similarité doit être un noyau symétrique semi-défini positif. Cette limitation rend le SVM difficilement applicable au cas où on désire utiliser une mesure de similarité quelconque. / In classification, sample compression algorithms are the algorithms that make use of the available training data to construct the set of possible predictors. If the data belongs to only a small subspace of the space of all "possible" data, such algorithms have the interesting ability of considering only the predictors that distinguish examples in our areas of interest. This is in contrast with non sample compressed algorithms which have to consider the set of predictors before seeing the training data. The Support Vector Machine (SVM) is a very successful learning algorithm that can be considered as a sample-compression learning algorithm. Despite its success, the SVM is currently limited by the fact that its similarity function must be a symmetric positive semi-definite kernel. This limitation by design makes SVM hardly applicable for the cases where one would like to be able to use any similarity measure of input example. PAC-Bayesian theory has been shown to be a good starting point for designing learning algorithms. In this thesis, we propose a PAC-Bayes sample-compression approach to kernel methods that can accommodate any bounded similarity function. We show that the support vector classifier is actually a particular case of sample-compressed classifiers known as majority votes of sample-compressed classifiers. We propose two different groups of PAC-Bayesian risk bounds for majority votes of sample-compressed classifiers. The first group of proposed bounds depends on the KL divergence between the prior and the posterior over the set of sample-compressed classifiers. The second group of proposed bounds has the unusual property of having no KL divergence when the posterior is aligned with the prior in some precise way that we define later in this thesis. Finally, for each bound, we provide a new learning algorithm that consists of finding the predictor that minimizes the bound. The computation times of these algorithms are comparable with algorithms like the SVM. We also empirically show that the proposed algorithms are very competitive with the SVM.
60

Généralisations de la théorie PAC-bayésienne pour l'apprentissage inductif, l'apprentissage transductif et l'adaptation de domaine

Germain, Pascal 23 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2015-2016 / En apprentissage automatique, l’approche PAC-bayésienne permet d’obtenir des garanties statistiques sur le risque de votes de majorité pondérés de plusieurs classificateurs (nommés votants). La théorie PAC-bayésienne «classique», initiée par McAllester (1999), étudie le cadre d’apprentissage inductif, sous l’hypothèse que les exemples d’apprentissage sont générés de manière indépendante et qu’ils sont identiquement distribués (i.i.d.) selon une distribution de probabilité inconnue mais fixe. Les contributions de la thèse se divisent en deux parties. Nous présentons d’abord une analyse des votes de majorité, fondée sur l’étude de la marge comme variable aléatoire. Il en découle une conceptualisation originale de la théorie PACbayésienne. Notre approche, très générale, permet de retrouver plusieurs résultats existants pour le cadre d’apprentissage inductif, ainsi que de les relier entre eux. Nous mettons notamment en lumière l’importance de la notion d’espérance de désaccord entre les votants. Bâtissant sur une compréhension approfondie de la théorie PAC-bayésienne, acquise dans le cadre inductif, nous l’étendons ensuite à deux autres cadres d’apprentissage. D’une part, nous étudions le cadre d’apprentissage transductif, dans lequel les descriptions des exemples à classifier sont connues de l’algorithme d’apprentissage. Dans ce contexte, nous formulons des bornes sur le risque du vote de majorité qui améliorent celles de la littérature. D’autre part, nous étudions le cadre de l’adaptation de domaine, dans lequel la distribution génératrice des exemples étiquetés de l’échantillon d’entraînement diffère de la distribution générative des exemples sur lesquels sera employé le classificateur. Grâce à une analyse théorique – qui se révèle être la première approche PAC-bayésienne de ce cadre d’apprentissage –, nous concevons un algorithme d’apprentissage automatique dédié à l’adaptation de domaine. Nos expérimentations empiriques montrent que notre algorithme est compétitif avec l’état de l’art. / In machine learning, the PAC-Bayesian approach provides statistical guarantees on the risk of a weighted majority vote of many classifiers (named voters). The “classical” PAC-Bayesian theory, initiated by McAllester (1999), studies the inductive learning framework under the assumption that the learning examples are independently generated and are identically distributed (i.i.d.) according to an unknown but fixed probability distribution. The thesis contributions are divided in two major parts. First, we present an analysis of majority votes based on the study of the margin as a random variable. It follows a new conceptualization of the PAC-Bayesian theory. Our very general approach allows us to recover several existing results for the inductive PAC-Bayesian framework, and link them in a whole. Among other things, we highlight the notion of expected disagreement between the voters. Building upon an improved understanding of the PAC-Bayesian theory, gained by studying the inductive framework, we then extend it to two other learning frameworks. On the one hand, we study the transductive framework, where the learning algorithm knows the description of the examples to be classified. In this context, we state risk bounds on majority votes that improve those from the current literature. On the other hand, we study the domain adaptation framework, where the generating distribution of the labelled learning examples differs from the generating distribution of the examples to be classified. Our theoretical analysis is the first PAC-Bayesian approach of this learning framework, and allows us to conceive a new machine learning algorithm for domain adaptation. Our empirical experiments show that our algorithm is competitive with other state-of-the-art algorithms.

Page generated in 0.1346 seconds