• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 246
  • 244
  • 41
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 550
  • 550
  • 362
  • 350
  • 108
  • 105
  • 105
  • 102
  • 92
  • 90
  • 90
  • 87
  • 86
  • 69
  • 66
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Étude des mécanismes de gestion des erreurs dans les systèmes à base de connaissances de pilotage de programmes /

Vincent, Régis. January 1900 (has links)
Th. doct.--Informatique--Nice, 1997. / Bibliogr. p. 159-165. Résumé en français et en anglais. 1997 d'après la déclaration de dépôt légal.
52

Techniques d'analyse de contenu appliquées à l'imagerie spatiale / Machine learning applied to remote sensing images

Le Goff, Matthieu 20 October 2017 (has links)
Depuis les années 1970, la télédétection a permis d’améliorer l’analyse de la surface de la Terre grâce aux images satellites produites sous format numérique. En comparaison avec les images aéroportées, les images satellites apportent plus d’information car elles ont une couverture spatiale plus importante et une période de revisite courte. L’essor de la télédétection a été accompagné de l’émergence des technologies de traitement qui ont permis aux utilisateurs de la communauté d’analyser les images satellites avec l’aide de chaînes de traitement de plus en plus automatiques. Depuis les années 1970, les différentes missions d’observation de la Terre ont permis d’accumuler une quantité d’information importante dans le temps. Ceci est dû notamment à l’amélioration du temps de revisite des satellites pour une même région, au raffinement de la résolution spatiale et à l’augmentation de la fauchée (couverture spatiale d’une acquisition). La télédétection, autrefois cantonnée à l’étude d’une seule image, s’est progressivement tournée et se tourne de plus en plus vers l’analyse de longues séries d’images multispectrales acquises à différentes dates. Le flux annuel d’images satellite est supposé atteindre plusieurs Péta octets prochainement. La disponibilité d’une si grande quantité de données représente un atout pour développer de chaines de traitement avancées. Les techniques d’apprentissage automatique beaucoup utilisées en télédétection se sont beaucoup améliorées. Les performances de robustesse des approches classiques d’apprentissage automatique étaient souvent limitées par la quantité de données disponibles. Des nouvelles techniques ont été développées pour utiliser efficacement ce nouveau flux important de données. Cependant, la quantité de données et la complexité des algorithmes mis en place nécessitent une grande puissance de calcul pour ces nouvelles chaînes de traitement. En parallèle, la puissance de calcul accessible pour le traitement d’images s’est aussi accrue. Les GPUs («Graphic Processing Unit ») sont de plus en plus utilisés et l’utilisation de cloud public ou privé est de plus en plus répandue. Désormais, pour le traitement d’images, toute la puissance nécessaire pour les chaînes de traitements automatiques est disponible à coût raisonnable. La conception des nouvelles chaînes de traitement doit prendre en compte ce nouveau facteur. En télédétection, l’augmentation du volume de données à exploiter est devenue une problématique due à la contrainte de la puissance de calcul nécessaire pour l’analyse. Les algorithmes de télédétection traditionnels ont été conçus pour des données pouvant être stockées en mémoire interne tout au long des traitements. Cette condition est de moins en moins respectée avec la quantité d’images et leur résolution. Les algorithmes de télédétection traditionnels nécessitent d’être revus et adaptés pour le traitement de données à grande échelle. Ce besoin n’est pas propre à la télédétection et se retrouve dans d’autres secteurs comme le web, la médecine, la reconnaissance vocale,… qui ont déjà résolu une partie de ces problèmes. Une partie des techniques et technologies développées par les autres domaines doivent encore être adaptées pour être appliquée aux images satellites. Cette thèse se focalise sur les algorithmes de télédétection pour le traitement de volumes de données massifs. En particulier, un premier algorithme existant d’apprentissage automatique est étudié et adapté pour une implantation distribuée. L’objectif de l’implantation est le passage à l’échelle c’est-à-dire que l’algorithme puisse traiter une grande quantité de données moyennant une puissance de calcul adapté. Enfin, la deuxième méthodologie proposée est basée sur des algorithmes récents d’apprentissage automatique les réseaux de neurones convolutionnels et propose une méthodologie pour les appliquer à nos cas d’utilisation sur des images satellites. / Since the 1970s, remote sensing has been a great tool to study the Earth in particular thanks to satellite images produced in digital format. Compared to airborne images, satellite images provide more information with a greater spatial coverage and a short revisit period. The rise of remote sensing was followed by the development of processing technologies enabling users to analyze satellite images with the help of automatic processing chains. Since the 1970s, the various Earth observation missions have gathered an important amount of information over time. This is caused in particular by the frequent revisiting time for the same region, the improvement of spatial resolution and the increase of the swath (spatial coverage of an acquisition). Remote sensing, which was once confined to the study of a single image, has gradually turned into the analysis of long time series of multispectral images acquired at different dates. The annual flow of satellite images is expected to reach several Petabytes in the near future. The availability of such a large amount of data is an asset to develop advanced processing chains. The machine learning techniques used in remote sensing have greatly improved. The robustness of traditional machine learning approaches was often limited by the amount of available data. New techniques have been developed to effectively use this new and important data flow. However, the amount of data and the complexity of the algorithms embedded in the new processing pipelines require a high computing power. In parallel, the computing power available for image processing has also increased. Graphic Processing Units (GPUs) are increasingly being used and the use of public or private clouds is becoming more widespread. Now, all the power required for image processing is available at a reasonable cost. The design of the new processing lines must take this new factor into account. In remote sensing, the volume of data currently available for exploitation has become a problem due to the constraint of the computing power required for the analysis. Traditional remote sensing algorithms have often been designed for data that can be stored in internal memory throughout processing. This condition is violated with the quantity of images and their resolution taken into account. Traditional remote sensing algorithms need to be reviewed and adapted for large-scale data processing. This need is not specific to remote sensing and is found in other sectors such as the web, medicine, speech recognition ... which have already solved some of these problems. Some of the techniques and technologies developed by the other domains still need to be adapted to be applied to satellite images. This thesis focuses on remote sensing algorithms for processing massive data volumes. In particular, a first algorithm of machine learning is studied and adapted for a distributed implementation. The aim of the implementation is the scalability, i.e. the algorithm can process a large quantity of data with a suitable computing power. Finally, the second proposed methodology is based on recent algorithms of learning convolutional neural networks and proposes a methodology to apply them to our cases of use on satellite images.
53

Modélisation de fautes et diagnostic pour les circuits mixtes/RF nanométriques / Fault Modeling and diagnostics for nanometric mixted-signal/RF circuits

Huang, Ke 16 November 2011 (has links)
Le diagnostic de fautes est essentiel pour atteindre l'objectif de temps avant mise sur le marché (time to market) des premiers prototypes de circuits intégrés. Une autre application du diagnostic est dans l'environnement de production. Les informations du diagnostic sont très utiles pour les concepteurs de circuits afin d'améliorer la conception et ainsi augmenter le rendement de production. Dans le cas où le circuit est une partie d'un système d'importance critique pour la sûreté (e.g. automobile, aérospatial), il est important que les fabricants s'engagent à identifier la source d'une défaillance dans le cas d'un retour client pour ensuite améliorer l'environnement de production afin d'éviter la récurrence d'un tel défaut et donc améliorer la sûreté. Dans le cadre de cette thèse, nous avons développé une méthodologie de modélisation et de diagnostic de fautes pour les circuits analogiques/mixtes. Une nouvelle approche basée sur l'apprentissage automatique a été proposée afin de considérer les fautes catastrophiques et paramétriques en même temps dans le diagnostic. Ensuite, nous avons focalisé sur le diagnostic de défauts spot qui sont considérés comme le mécanisme de défauts principal de circuits intégrés. Enfin, la méthodologie du diagnostic proposée a été validée par les données de circuits défectueux fournies par NXP Semiconductors - Netherlands. Mots clés: Diagnostic de fautes, modélisation de fautes, test analogique, analyse de défauts, apprentissage automatique / Fault diagnosis of ICs has grown into a special field of interest in semiconductor industry. At the design stage, diagnosing the sources of failures in IC prototypes is very critical to reduce design iterations in order to meet the time-to-market goal. In a high-volume production environment, diagnosing the sources of failures can assist the designers in gathering information regarding the underlying failure mechanisms. In cases where the IC is part of a larger system that is safety critical (e.g. automotive, aerospace), it is important to identify the root-cause of failure and apply corrective actions that will prevent failure reoccurrence and, thereby, expand the safety features. In this thesis, we have developed a methodology for fault modelling and fault diagnosis of analog/mixed circuits. A new approach has been proposed to diagnose both catastrophic and parametric faults based on machine learning. We then focused on spot defects which are more probable to occur in reality in order to develop an efficient diagnosis approach. The proposed diagnosis methodology has been demonstrated on data of failed devices provided by NXP Semiconductors - Netherlands.
54

Développement d'outils bioinformatiques et de méthodologies d'apprentissage machine pour une meilleure compréhension des éléments génétiques sous-jacents à la susceptibilité au cancer du sein

Lemaçon, Audrey January 2019 (has links)
Le cancer du sein est l'une des principales causes de décès par cancer chez les Canadiennes (1 sur 8 le développera au cours de sa vie et 1 sur 31 en décédera). Les études suggèrent que la majorité des cancers du sein se développent dans une faible portion de femmes ayant une susceptibilité génétique à la maladie. L'évaluation personnalisée de ce risque étant basée sur la conviction que la population peut se diviser en plusieurs groupes selon le risque génétique individuel inhérent, il est indispensable d'identier les acteurs responsables de cette susceptibilit é génétique pour pouvoir offrir, à ces femmes à risque, des mesures préventives adaptées à leur risque. Ainsi, depuis la découverte des gènes associés au cancer du sein, BRCA1 en 1994 et BRCA2 en 1995, d'énormes efforts ont été fournis an d'identier les éléments génétiques sous-jacents au risque du cancer du sein et de nombreuses autres mutations délétères ont été découvertes dans des gènes de susceptibilité tels que PTEN, PALB2 ou CHEK2. Malheureusement, malgr é les efforts engagés dans cette recherche, les gènes/loci de susceptibilité connus à ce jour n'expliquent qu'environ la moitié du risque génétique liée à cette maladie. Conscients des enjeux, de nombreux groupes d'études internationaux se sont associés en consortiums tels que le Breast Cancer Association Consortium (BCAC) ou le Consortium of Investigators of Modi ers of BRCA1/2 (CIMBA), an d'unir leur ressources pour l'identication de ce qu'on a appelé "l'héritabilité manquante" du cancer du sein. Plusieurs hypothèses ont été formulées quant aux sources de cette héritabilité manquante et, parmi ces hypothèses, nous en avons exploré deux. Dans un premier temps, nous avons testé l'hypothèse selon laquelle il resterait de nombreux variants génétiques communs de faible pénétrance à découvrir à travers une vaste étude d'association pangénomique réalisée dans le cadre de l'OncoArray Network. Dans un second temps, nous avons testé l'hypothèse selon laquelle des variants, plus rares mais de pénétrance plus forte, seraient à découvrir dans les régions codantes du génome, à travers l'évaluation du potentiel prédictif de ces variants via une approche innovante d'analyse de données d'exomes. Ainsi, nous avons pu démontrer la véracité de la première hypothèse par la découverte de 65 nouveaux locus associés à la susceptibilité au cancer du sein global. De plus, ces travaux ayant mis en lumière des besoins en terme d'assistance à l'analyse des signaux d'association, nous avons développé deux outils d'aide à la priorisation des variants génétiques humains. Enn, la seconde hypothèse a été testée à travers le développement d'une nouvelle méthodologie multi-étapes, combinant l'analyse de génotypes et d'haplotypes. Cette approche, mettant à prot la puissance de l'apprentissage machine, a permis d'identier des nouveaux marqueurs (variants individuels ou combinés dans des haplotypes) codants potentiellement associés au phénotype. Pour les locus de susceptibilité comme pour les gènes candidats identiés lors de l'analyse des données d'exomes, il sera indispensable de conrmer leur implication ainsi que l'ampleur de leurs effets sur des cohortes externes de grande taille et puis procéder à leur caractérisation fonctionnelle. Si ces derniers sont validés, ils pourront alors être intégrés aux outils actuels de prédiction du risque du cancer du sein et favoriser ainsi une prise en charge précoce et la prescription d'interventions thérapeutiques mieux adaptées pour les femmes à risque. / Breast cancer is one of the leading causes of death from cancer among Canadian women (about 1 in 8 Canadian women will develop breast cancer during her lifetime and 1 in 31 will die from the disease). Evidence suggests that most breast cancer cases develop in a small proportion of women with a genetic susceptibility to the disease. Since the personalized assessment of this risk is based on the certainty that women can be divided into several groups according to their inherent genetic risk, it is essential to identify the actors responsible for this genetic susceptibility to breast cancer in order to offer these at-risk women, personalized preventive measures. Thus, since the discovery of the associated genes BRCA1 in 1994 and BRCA2 in 1995, tremendous efforts have been made to identify the genetic components underlying breast cancer risk and many other deleterious mutations have been uncovered in susceptibility genes such as PTEN, PALB2 or CHEK2. Unfortunately, despite these efforts, the susceptibility genes/loci known to date only explain about half of the genetic risk associated with this disease. Acknowledging the challenges, many international groups have partnered in consortia such as the Breast Cancer Consortium (BCAC) or the Consortium of Investigators of Modiers of BRCA1/2 (CIMBA) to join their resources for the identication of what has been called breast cancer "missing heritability". Several hypotheses have been formulated as to the sources of this missing heritability and, among these hypotheses, we have explored two. First, we tested the hypothesis of many common low penetrance genetic variants still to be discovered through a large genome-wide association study conducted within the OncoArray Network. In a second step, we tested the hypothesis according to which rarer variants of higher penetrance, could be discovered in the coding regions of the genome, through the evaluation of the predictive power of these variants by an innovative approach of exomes data analysis. Thus, we were able to demonstrate the veracity of the rst hypothesis by the discovery of 65 new loci associated with overall breast cancer susceptibility. In addition, these studies having highlighted the need for assistance tools for prioritization analysis, we developed two softwares to help prioritize human genetic variants. Finally, we developed a new multi-step methodology, combining the analysis of genotypes and haplotypes in order to assess the predictive power of coding variants. This approach, taking advantage of the power of machine learning, enabled the identication of new credible coding markers (variants alone or combined into haplotypes), signicantly associated with the phenotype. For susceptibility loci as well as for candidate genes identied during the analysis of exome data, it will be essential to conrm their involvement and effect size on large external sample sets and then perform their functional characterization. If they are validated, their integration into current risk prediction tools could help promote early management and well-calibrated therapeutic interventions for at-risk women.
55

Prédire la structure des forêts à partir d'images PolInSAR par apprentissage de descripteurs LIDAR / Prediction of forests structure from PolInSAR images by machine learning using LIDAR derived features

Brigot, Guillaume 20 December 2017 (has links)
Ce travail de thèse a pour objectif la prédiction des paramètres structurels des forêts à grande échelle, grâce aux images de télédétection. La démarche consiste à étendre la précision des données LIDAR spatiales, en les utilisant là où elles sont disponibles, en tant que donnée d'apprentissage pour les images radar à synthèse d'ouverture polarimétriques et interférométrique (PolInSAR). A partir de l'analyse des propriétés géométriques de la forme de cohérence PolInSAR, nous avons proposé un ensemble de paramètres susceptibles d'avoir une corrélation forte avec les profils de densité LIDAR en milieu forestier. Cette description a été utilisée comme données d'entrée de techniques SVM, de réseaux de neurones, et de forêts aléatoires, afin d'apprendre un ensemble de descripteurs de forêts issus du LIDAR : la hauteur totale, le type de profil vertical, et la couverture horizontale. L'application de ces techniques à des données réelles aéroportées de forêts boréales en Suède et au Canada, et l'évaluation de leur précision, démontrent la pertinence de la méthode. Celle-ci préfigure les traitements qui pourront être appliqués à l'échelle planétaires aux futures missions satellites dédiées à la forêt : Biomass, Tandem-L et NiSAR. / The objective of this thesis is to predict the structural parameters of forests on a large scale using remote sensing images. The approach is to extend the accuracy of LIDAR full waveforms, on a larger area covered by polarimetric and interferometric (PolInSAR) synthetic aperture radar images using machine learning methods. From the analysis of the geometric properties of the PolInSAR coherence shape, we proposed a set of parameters that are likely to have a strong correlation with the LIDAR density profiles on forest lands. These features were used as input data for SVM techniques, neural networks, and random forests, in order to learn a set of forest descriptors deduced from LIDAR: the canopy height, the vertical profile type, and the canopy cover. The application of these techniques to airborne data over boreal forests in Sweden and Canada, and the evaluation of their accuracy, demonstrate the relevance of the method. This approach can be soon be adapted for future satellite missions dedicated to the forest: Biomass, Tandem-L and NiSAR.
56

Apprentissage des espaces de forme du modèle 3d humain habillé en mouvement / Learning shape spaces of dressed 3D human models in motion

Yang, Jinlong 28 March 2019 (has links)
Les représentations virtuelles 3D de l'humain habillé apparaissent dans les films, les jeux vidéo, et depuis peu, dans les contenus VR.Ces représentations sont souvent générées par l'acquisition 3D ou par la synthétisation des séquences avec les simulations basées sur la physique ou d'autres techniques d'infographie telles que le riggin et skinning. Ces méthodes traditionnelles nécessitent généralement une intervention manuelle fastidieuse, elles génèrent à faible vitesse des contenus de mauvaise qualité, en raison de la complexité du mouvement des vêtements. Afin de résoudre ce problème, nous proposons dans ce travail une approche d'apprentissage pilotée par les données, ce qui peut prendre à la fois des captures réelles et des séquences simulées comme données d'apprentissage, et produire sans les avoir vu des formes 3D de l'humain habillé ayant différentes formes et mouvements corporels, dans les vêtements de différentes adaptations et de matériaux variés.En raison du manque de la cohérence temporelle et des informations sémantiques, il est difficile d'utiliser directement les captures brutes dans l'analyse et l'apprentissage. Par conséquent, nous proposons d'abord une méthode automatique pour extraire le corps humain sous des vêtements à partir de séquences 3D non structurées. Il est réalisé en exploitant un modèle de corps humain statistique et en optimisant les paramètres du modèle, de sorte que la surface du corps reste toujours à l'intérieur de la surface vêtue observée, et aussi près que possible de celle-ci. Nous montrons que notre méthode peut atteindre un résultat similaire ou meilleur que d'autres méthodes de pointe et na pas besoin de l'intervention manuelle.Après avoir extrait le corps humain sous les vêtements, nous proposons une méthode pour enregistrer la surface du vêtement à l'aide de patchs isométriques. Certains points anatomiques du modèle du corps humain sont d'abord projetés sur la surface du vêtement dans chaque cadre de la séquence. Ces points projetés donnent la correspondance de départ entre les surfaces de vêtement sur une séquence. Nous développons isométriquement des plaques autour de ces points afin de propager les correspondances sur la surface du vêtement. Par la suite, ces correspondances denses sont utilisées pour guider l'enregistrement non rigide afin que nous puissions déformer le maillage du modèle pour obtenir la cohérence temporelle des captures brutes.Sur la base des captures traitées et des données simulées, nous proposons enfin une analyse complète des statistiques de la couche de vêtements avec un modèle simple à deux composants. Il est basé, d'une part, sur la réduction des sous-espaces PCA des informations de couche, et de l'autre, sur un modèle de régression de paramètres génériques utilisant des réseaux neuronaux, conu pour régresser de tous les paramètres sémantiques dont la variation est observée dans l'ensemble des données d'entraînement. Nous montrons que notre modèle permet non seulement de reproduire des travaux précédents sur le ré-ciblage, mais aussi de généraliser les capacités de synthèse de données à d'autres paramètres sémantiques tels que les mouvements corporels, l'adaptation des vêtements et les matériaux physiques, ce qui ouvre la voie pour de nombreuses applications des créations et des augmentations axées sur les données. / The 3D virtual representations of dressed humans appear in movies, video games and since recently, VR contents. To generate these representations, we usually perform 3D acquisitions or synthesize sequences with physics-based simulation or other computer graphics techniques such as rigging and skinning. These traditional methods generally require tedious manual intervention and generate new contents with low speed or low quality, due to the complexity of clothing motion. To deal with this problem, we propose in this work, a data-driven learning approach, which can take both captures and simulated sequences as learning data, and output unseen 3D shapes of dressed human with different body shape, body motion, clothing fit and clothing materials.Due to the lack of temporal coherence and semantic information, raw captures can hardly be used directly for analysis and learning. Therefore, we first propose an automatic method to extract the human body under clothing from unstructured 3D sequences. It is achieved by exploiting a statistical human body model and optimizing the model parameters so that the body surface stays always within while as close as possible to the observed clothed surface throughout the sequence. We show that our method can achieve similar or better result compared with other state-of-the-art methods, and does not need any manual intervention.After extracting the human body under clothing, we propose a method to register the clothing surface with the help of isometric patches. Some anatomical points on the human body model are first projected to the clothing surface in each frame of the sequence. Those projected points give the starting correspondence between clothing surfaces across a sequence. We isometrically grow patches around these points in order to propagate the correspondences on the clothing surface. Subsequently, those dense correspondences are used to guide non-rigid registration so that we can deform the template mesh to obtain temporal coherence of the raw captures.Based on processed captures and simulated data, we finally propose a comprehensive analysis of the statistics of the clothing layer with a simple two-component model. It is based on PCA subspace reduction of the layer information on one hand, and a generic parameter regression model using neural networks on the other hand, designed to regress from any semantic parameter whose variation is observed in a training set, to the layer parameterization space. We show that our model not only allows to reproduce previous re-targeting works, but generalizes the data synthesizing capabilities to other semantic parameters such as body motion, clothing fit, and physical material parameters, paving the way for many kinds of data-driven creation and augmentation applications.
57

Machine Learning for Predictive Maintenance in Aviation / Apprentissage Automatique pour la Maintenance Predictive dans le Domaine de l’Aviation

Korvesis, Panagiotis 21 November 2017 (has links)
L'augmentation des données disponibles dans presque tous les domaines soulève la nécessité d'utiliser des algorithmes pour l'analyse automatisée des données. Cette nécessité est mise en évidence dans la maintenance prédictive, où l'objectif est de prédire les pannes des systèmes en observant continuellement leur état, afin de planifier les actions de maintenance à l'avance. Ces observations sont générées par des systèmes de surveillance habituellement sous la forme de séries temporelles et de journaux d'événements et couvrent la durée de vie des composants correspondants. Le principal défi de la maintenance prédictive est l'analyse de l'historique d'observation afin de développer des modèles prédictifs.Dans ce sens, l'apprentissage automatique est devenu omniprésent puisqu'il fournit les moyens d'extraire les connaissances d'une grande variété de sources de données avec une intervention humaine minimale. L'objectif de cette thèse est d'étudier et de résoudre les problèmes dans l'aviation liés à la prévision des pannes de composants à bord. La quantité de données liées à l'exploitation des avions est énorme et, par conséquent, l'évolutivité est une condition essentielle dans chaque approche proposée.Cette thèse est divisée en trois parties qui correspondent aux différentes sources de données que nous avons rencontrées au cours de notre travail. Dans la première partie, nous avons ciblé le problème de la prédiction des pannes des systèmes, compte tenu de l'historique des Post Flight Reports. Nous avons proposé une approche statistique basée sur la régression précédée d'une formulation méticuleuse et d'un prétraitement / transformation de données. Notre méthode estime le risque d'échec avec une solution évolutive, déployée dans un environnement de cluster en apprentissage et en déploiement. À notre connaissance, il n'y a pas de méthode disponible pour résoudre ce problème jusqu'au moment où cette thèse a été écrite.La deuxième partie consiste à analyser les données du livre de bord, qui consistent en un texte décrivant les problèmes d'avions et les actions de maintenance correspondantes. Le livre de bord contient des informations qui ne sont pas présentes dans les Post Flight Reports bien qu'elles soient essentielles dans plusieurs applications, comme la prédiction de l'échec. Cependant, le journal de bord contient du texte écrit par des humains, il contient beaucoup de bruit qui doit être supprimé afin d'extraire les informations utiles. Nous avons abordé ce problème en proposant une approche basée sur des représentations vectorielles de mots. Notre approche exploite des similitudes sémantiques, apprises par des neural networks qui ont généré les représentations vectorielles, afin d'identifier et de corriger les fautes d'orthographe et les abréviations. Enfin, des mots-clés importants sont extraits à l'aide du Part of Speech Tagging.Dans la troisième partie, nous avons abordé le problème de l'évaluation de l'état des composants à bord en utilisant les mesures des capteurs. Dans les cas considérés, l'état du composant est évalué par l'ampleur de la fluctuation du capteur et une tendance à l'augmentation monotone. Dans notre approche, nous avons formulé un problème de décomposition des séries temporelles afin de séparer les fluctuations de la tendance en résolvant un problème convexe. Pour quantifier l'état du composant, nous calculons à l'aide de Gaussian Mixture Models une fonction de risque qui mesure l'écart du capteur par rapport à son comportement normal. / The increase of available data in almost every domain raises the necessity of employing algorithms for automated data analysis. This necessity is highlighted in predictive maintenance, where the ultimate objective is to predict failures of hardware components by continuously observing their status, in order to plan maintenance actions well in advance. These observations are generated by monitoring systems usually in the form of time series and event logs and cover the lifespan of the corresponding components. Analyzing this history of observation in order to develop predictive models is the main challenge of data driven predictive maintenance.Towards this direction, Machine Learning has become ubiquitous since it provides the means of extracting knowledge from a variety of data sources with the minimum human intervention. The goal of this dissertation is to study and address challenging problems in aviation related to predicting failures of components on-board. The amount of data related to the operation of aircraft is enormous and therefore, scalability is a key requirement in every proposed approach.This dissertation is divided in three main parts that correspond to the different data sources that we encountered during our work. In the first part, we targeted the problem of predicting system failures, given the history of Post Flight Reports. We proposed a regression-based approach preceded by a meticulous formulation and data pre-processing/transformation. Our method approximates the risk of failure with a scalable solution, deployed in a cluster environment both in training and testing. To our knowledge, there is no available method for tackling this problem until the time this thesis was written.The second part consists analyzing logbook data, which consist of text describing aircraft issues and the corresponding maintenance actions and it is written by maintenance engineers. The logbook contains information that is not reflected in the post-flight reports and it is very essential in several applications, including failure prediction. However, since the logbook contains text written by humans, it contains a lot of noise that needs to be removed in order to extract useful information. We tackled this problem by proposing an approach based on vector representations of words (or word embeddings). Our approach exploits semantic similarities of words, learned by neural networks that generated the vector representations, in order to identify and correct spelling mistakes and abbreviations. Finally, important keywords are extracted using Part of Speech Tagging.In the third part, we tackled the problem of assessing the health of components on-board using sensor measurements. In the cases under consideration, the condition of the component is assessed by the magnitude of the sensor's fluctuation and a monotonically increasing trend. In our approach, we formulated a time series decomposition problem in order to separate the fluctuation from the trend by solving a convex program. To quantify the condition of the component, we compute a risk function which measures the sensor's deviation from it's normal behavior, which is learned using Gaussian Mixture Models.
58

Nouveaux algorithmes d'apprentissage pour classificateurs de type SCM

Choquette, Philippe 13 April 2018 (has links)
Dans le cadre de l'apprentissage automatique supervisé, un des outils disponibles pour la classification binaire est la Set Covering Machine (SCM). Rapidement construite et en général très performante, elle n'est cependant pas systématiquement infaillible. Il existe encore, à ce jour, une marge pour une amélioration. Ce mémoire présente deux nouvelles façons de construire des SCM. Ces algorithmes sont décrits, expliqués et leur performance est analysée. La première façon est de minimiser une approximation d'une borne sur le risque à l'aide d'un branch-and-bound. La deuxième est d'utiliser le bagging. Lors des tests, les nouveaux classificateurs se sont montrés aussi performants que les SCM originales. Nous avons découvert que celles-ci sont soit déjà optimales au sens du critère utilisé pour le branch-and-bound, soit aussi performantes que les SCM optimales. / In the supervised machine learning field, one of the available tools for binary classification is the Set Covering Machine (SCM). Quickly built and generally having high performance, it's however not proven that they always give optimal results. There is still, to date, a margin for improvement. This study presents two new ways of building SCM. Theses algorithms are described, explained and their performance is analyzed. The first way is to minimize an approximated bound on the risk with a branch-and-bound. The second is using bagging. The new classifiers had the same test-set performance than the original SCM. We discovered that the latter are either already optimal according to the branch-and-bound criterion or having the same performance as the optimal SCM.
59

Amélioration du contrôle de qualité de produits sanguins utilisant la spectrométrie de masse à haut-débit et l'apprentissage automatique

Brochu, Francis 30 May 2018 (has links)
Ce mémoire décrit plusieurs travaux concernant le traitement de données et l’analyse de spectres de masse à haut débit. La spectrométrie de masse est une méthode connue de mesure chimique. Appliquée à des échantillons biologiques, la spectrométrie de masse devient alors une technique de mesure métabolomique, c’est-à-dire mesurant l’ensemble des métabolites de l’échantillon, soit les petites molécules composant le fluide biologique et qui interagissent avec le métabolisme. Le projet présenté ici est effectué en partenariat avec Héma-Québec afin de concevoir de nouveaux tests de contrôle de qualité à partir de spectrométrie de masse. L’application de la technologie de la source LDTD à la spectrométrie de masse permet d’acquérir des spectres à haut-débit. Cela représente un bénéfice au coût de l’acquisition des spectres ainsi qu’à la rapidité du processus. On peut ainsi obtenir de grandes quantités de spectres afin de construire des ensembles de données. On peut ensuite appliquer le domaine informatique de l’apprentissage automatique à ces données. On peut utiliser ce domaine afin de classifier les spectres d’échantillons de produits sanguins et fournir des garanties statistiques sur cette classification. L’utilisation d’algorithmes parcimonieux et interprétables peut aussi mener à la découverte de biomarqueurs. Les travaux présentés ici concernent la conception de deux méthodes de traitement des spectres de masse. La première méthode est la correction par masses de verrouillage virtuelles, utilisée pour corriger les biais de mesure uniformes. La seconde est une méthode d’alignement, qui est un outil de correction d’erreurs de lecture. De plus, une nouvelle méthode à noyau, soit une méthode mathématique de comparaison entre des exemples, fut mise au point spécifiquement pour le travail avec des spectres de masse. Finalement, des résultats de classification sur spectres de masse acquis par LDTD et par spectrométrie de masse avec chromatographie liquide sont présentés. / This memoir describes work concerning the treatment and analysis of high-throughput mass spectrometry. Mass spectrometry is a tried and tested method of chemical measurement in a sample. Applied to biological samples, mass spectrometry becomes a metabolomic measurement technique, meaning that it measures the metabolites contained in a sample, which are small molecules present in the biological fluid that interact with the individual’s metabolism. The project that is presented here is a partnership with Hema-Québec in order to conceive new quality control tests from mass spectrometry measurements. The application of the LDTD ionisation source in mass spectrometry makes the acquisition of spectra in high-throughput possible. This represents a large benefit in terms of experimental costs and in time. Large datasets of mass spectra can then be obtained in a short period of time. The computer science domain of machine learning can then be applied to this data. Statistical machine learning can then be used to classify the spectra of blood product samples and provide statistical guarantees on this classification. The use of sparse and interpretable machine learning algorithms can also lead to the discovery of biomarkers. The work presented in this memoir concerns the design of two methods of treatment of mass spectra. The first of these methods is the correction by virtual lock masses, used to correct any uniform shift in the masses in a spectra. The second is a new method of peak alignment used to correct slight measuring errors. In addition, a new kernel method, a method to mathematically compare examples, was designed specifically for application on mass spectra data. Finally, results of classification on mass spectra acquired with an LDTD ionisation source and by liquid chromatography mass spectrometry will be presented.
60

Agnostic Bayes

Lacoste, Alexandre 20 April 2018 (has links)
Tableau d'honneur de la Faculté des études supérieures et postdorales, 2014-2015 / L’apprentissage automatique correspond à la science de l’apprentissage à partir d’exemples. Des algorithmes basés sur cette approche sont aujourd’hui omniprésents. Bien qu’il y ait eu un progrès significatif, ce domaine présente des défis importants. Par exemple, simplement sélectionner la fonction qui correspond le mieux aux données observées n’offre aucune garantie statistiques sur les exemples qui n’ont pas encore été observées. Quelques théories sur l’apprentissage automatique offrent des façons d’aborder ce problème. Parmi ceux-ci, nous présentons la modélisation bayésienne de l’apprentissage automatique et l’approche PACbayésienne pour l’apprentissage automatique dans une vue unifiée pour mettre en évidence d’importantes similarités. Le résultat de cette analyse suggère que de considérer les réponses de l’ensemble des modèles plutôt qu’un seul correspond à un des éléments-clés pour obtenir une bonne performance de généralisation. Malheureusement, cette approche vient avec un coût de calcul élevé, et trouver de bonnes approximations est un sujet de recherche actif. Dans cette thèse, nous présentons une approche novatrice qui peut être appliquée avec un faible coût de calcul sur un large éventail de configurations d’apprentissage automatique. Pour atteindre cet objectif, nous appliquons la théorie de Bayes d’une manière différente de ce qui est conventionnellement fait pour l’apprentissage automatique. Spécifiquement, au lieu de chercher le vrai modèle à l’origine des données observées, nous cherchons le meilleur modèle selon une métrique donnée. Même si cette différence semble subtile, dans cette approche, nous ne faisons pas la supposition que le vrai modèle appartient à l’ensemble de modèles explorés. Par conséquent, nous disons que nous sommes agnostiques. Plusieurs expérimentations montrent un gain de généralisation significatif en utilisant cette approche d’ensemble de modèles durant la phase de validation croisée. De plus, cet algorithme est simple à programmer et n’ajoute pas un coût de calcul significatif à la recherche d’hyperparamètres conventionnels. Finalement, cet outil probabiliste peut également être utilisé comme un test statistique pour évaluer la qualité des algorithmes sur plusieurs ensembles de données d’apprentissage. / Machine learning is the science of learning from examples. Algorithms based on this approach are now ubiquitous. While there has been significant progress, this field presents important challenges. Namely, simply selecting the function that best fits the observed data was shown to have no statistical guarantee on the examples that have not yet been observed. There are a few learning theories that suggest how to address this problem. Among these, we present the Bayesian modeling of machine learning and the PAC-Bayesian approach to machine learning in a unified view to highlight important similarities. The outcome of this analysis suggests that model averaging is one of the key elements to obtain a good generalization performance. Specifically, one should perform predictions based on the outcome of every model instead of simply the one that best fits the observed data. Unfortunately, this approach comes with a high computational cost problem, and finding good approximations is the subject of active research. In this thesis, we present an innovative approach that can be applied with a low computational cost on a wide range of machine learning setups. In order to achieve this, we apply the Bayes’ theory in a different way than what is conventionally done for machine learning. Specifically, instead of searching for the true model at the origin of the observed data, we search for the best model according to a given metric. While the difference seems subtle, in this approach, we do not assume that the true model belongs to the set of explored model. Hence, we say that we are agnostic. An extensive experimental setup shows a significant generalization performance gain when using this model averaging approach during the cross-validation phase. Moreover, this simple algorithm does not add a significant computational cost to the conventional search of hyperparameters. Finally, this probabilistic tool can also be used as a statistical significance test to evaluate the quality of learning algorithms on multiple datasets.

Page generated in 0.5498 seconds