Global ETD Search

31	Méthodes d'extraction de connaissances à partir de données modélisables par des graphes. Application à des problèmes de synthèse organique. Pennerath, Frédéric 02 July 2009 (has links) (PDF) Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. [INFO] Computer Science Fouille de données fouille de graphes recherche des motifs fréquents classification supervisée chémoinformatique
32	Contribution à la détection et à l'analyse des signaux EEG épileptiques : débruitage et séparation de sources Romo-Vázquez, Rebeca 24 February 2010 (has links) (PDF) L'objectif principal de cette thèse est le pré-traitement des signaux d'électroencéphalographie (EEG). En particulier, elle vise à développer une méthodologie pour obtenir un EEG dit "propre" à travers l'identification et l'élimination des artéfacts extra-cérébraux (mouvements oculaires, clignements, activité cardiaque et musculaire) et du bruit. Après identification, les artéfacts et le bruit doivent être éliminés avec une perte minimale d'information, car dans le cas d'EEG, il est de grande importance de ne pas perdre d'information potentiellement utile à l'analyse (visuelle ou automatique) et donc au diagnostic médical. Plusieurs étapes sont nécessaires pour atteindre cet objectif : séparation et identification des sources d'artéfacts, élimination du bruit de mesure et reconstruction de l'EEG "propre". A travers une approche de type séparation aveugle de sources (SAS), la première partie vise donc à séparer les signaux EEG dans des sources informatives cérébrales et des sources d'artéfacts extra-cérébraux à éliminer. Une deuxième partie vise à classifier et éliminer les sources d'artéfacts et elle consiste en une étape de classification supervisée. Le bruit de mesure, quant à lui, il est éliminé par une approche de type débruitage par ondelettes. La mise en place d'une méthodologie intégrant d'une manière optimale ces trois techniques (séparation de sources, classification supervisée et débruitage par ondelettes) constitue l'apport principal de cette thèse. La méthodologie développée, ainsi que les résultats obtenus sur une base de signaux d'EEG réels (critiques et inter-critiques) importante, sont soumis à une expertise médicale approfondie, qui valide l'approche proposée.
33	Apprentissage automatique pour la détection de relations d'affaire Capo-chichi, Grâce Prudencia 04 1900 (has links) Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire. / Documents published by companies such as press releases, contain a wealth of information on various business activities. This is a valuable source for business intelligence analysis; but automatic tools are needed to exploit such large volume data. The work described in this thesis is part of a research project on business intelligence, namely we aim at the detection of business relationships between companies described in press releases. In this thesis, we consider business relation detection as a problem of classification. However, the existing classification methods do not allow us to obtain a satisfactory performance. This is mainly due to two problems: the representation of text using all the content words, which do not necessarily a business relationship; and the imbalance between classes. To address the first problem, we propose representations based on words that are between or close to the names of companies involved (which we call pivot words) in order to focus on words having a higher chance to describe a relation. For the second problem, we propose a two-stage classification. This method is more effective than the traditional resampling methods. We tested our approach on a collection of press releases in the automotive industry. Our experiments show that both proposed approaches can improve the classification performance. They perform much better than the traditional feature selection methods and the resampling method. This work shows the feasibility of automatic detection of business relations. The result of this detection could be used in an analysis of business intelligence. Relation d’affaire Business relation Classification supervisée Supervised classification Sélection de caractéristiques Feature selection Unbalanced data Déséquilibre de classes
34	Enrichissement d’une classification supervisée par l’ajout d’attributs issus d’observateurs d’état : application au diagnostic de défaillances d’un siège d’avion robotisé / Enrichment of a supervised classification by the addition of attributes coming from state observers : application to the fault diagnosis of an actuated seat Taleb, Rabih 06 December 2017 (has links) Ce travail de thèse s’inscrit dans le cadre d’une Convention Industrielle de Formation par la REcherche (CIFRE) ayant pour objectif la mise en place de solutions innovantes pour le diagnostic de défaillances. Il s’agit de répondre au besoin de la société Zodiac Actuation Systems afin de diagnostiquer les défaillances pouvant survenir sur leurs systèmes d’actionnement de sièges d’avion. Premièrement, le cadre ainsi que les motivations de l’étude sont exposés. Ensuite un état de l’art sur les méthodes de diagnostic de défaillances est donné. Puis la problématique de l’hybridation de ces méthodes est abordée. Ceci a permis d’adopter la méthode de classification supervisée pour le diagnostic. Ensuite, les campagnes de mesures, le processus de construction des bases de données ainsi que les différents algorithmes nécessaires pour la classification sont présentés. Une expérimentation sur la partie du dossier d’un siège d’avion est exposée et les résultats sont donnés. Afin d’améliorer les résultats obtenus, une approche de classification renforcée par des observateurs d’état est proposée et appliquée sur le dossier du siège. Ce renforcement est réalisé à l’aide des données estimées par les observateurs tout en construisant des bases de données augmentées. Trois types d’observateurs, linéaire, Takagi-Sugeno (TS) et TS à entrées inconnues (TSEI) sont employés. L’observateur TSEI apparait comme le mieux adapté à notre application. Finalement, une extension de l'approche proposée sur l’ensemble du siège d’avion est proposée. Celle-ci consiste en la mise en œuvre d’observateurs décentralisés TSEI pour chaque sous-ensemble du siège en tenant compte de leurs interconnexions. Ces derniers ont permis d’améliorer les résultats de détection de défaillances sur l’ensemble du siège d’avion. / This study was supported by Zodiac Actuation Systems within the framework of a ``CIFRE'' project which aims to design a Fault Detection and Diagnosis (FDD) approach for actuation systems of passengers seats in commercial aircrafts. First of all, the industrial context as well as the motivations of our project have been explained. Then, a state of the art on FDD methods is presented. Among them, hybridization of FDD methods can be found and seems interesting to our application. In a first step, the supervised classification method for the FDD has been considered. To do this, the process measurements and the concept of databases construction are presented. Then, different types of classification algorithms are explained. From experimental measurements, the classification results for FDD purpose on the recline of the seat are given. In a second step, an enhanced classification approach is proposed. It consists in estimating non-measurable variables by the state observers. These variables are then added, as estimated attributes, to the measured database. The aim is to enrich the knowledge used by the classifier and thus to improve the rate of FDD. Three types of state observers are considered: linear, then Takagi-Sugeno (TS) and Unknown Input Takagi-Sugeno (UITS) observers. It appears that the UITS observer-based results are more accurate for our application. Finally, the proposed FDD approach is extended to the hole of the seat by considering a decentralized approach. In this context, decentralized UITS are proposed for each segment of the seat by taking into account their interconnexions. It is shown that these decentralized observers improve the FDD results of the considered aircraft seat. Observateurs d’état Modèles Takagi-Sugeno Classification supervisée Siège d'avion robotisé Fault detection and diagnosis State observers Takagi-Sugeno models Supervised classification Actuated seat
35	Analyse de données fonctionnelles en télédétection hyperspectrale : application à l'étude des paysages agri-forestiers / Functional data analysis in hyperspectral remote sensing : application to the study of agri-forest landscape Zullo, Anthony 19 September 2016 (has links) En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d'onde). On se retrouve souvent dans une situation où la taille d'échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé "fléau de la dimension" est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction univariée de la longueur d'onde, sa représentation produisant une courbe. L'utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l'ordre des bandes spectrales, et de s'affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L'objectif principal de cette thèse est d'évaluer la pertinence de l'approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l'analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l'approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L'approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l'on dispose d'une petite taille d'échantillon d'apprentissage combinée à des classes relativement homogènes (c'est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l'approche fonctionnelle pour s'affranchir du fléau de la dimension a été développée à l'aide d'un modèle parcimonieux. Ce dernier permet, à travers la sélection d'un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l'interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi-systématique où l'on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d'échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante. / In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The mored increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger dis compared to n, the more effective the functional statistical methodis. Télédétection hyperspectrale Données fonctionnelles Régression non-paramétrique Classification supervisée Signal bruité Méthodes parcimonieuses Hyperspectral remote sensing Functional data Nonparametric regression Supervised classification Noised signal Parsimonious methods
36	Développement de modèles spécifiques aux séquences génomique virales / Developing viral genomic data-specific classification models Schmitt, Louise-Amelie 19 July 2017 (has links) Le séquençage ADN d'échantillons complexes contenant plusieurs espèces est une technique de choix pour étudier le paysage viral d'un milieu donné. Or les génomes viraux sont difficiles à identifier, de par leur extrême variabilité et la relation étroite qu'ils entretiennent avec leurs hôtes. Nous proposons de nouvelles pistes de recherche pour apporter une solution spécifique aux séquences virales afin de répondre au besoin d'identification pour lequel les solutions génériques existantes n'apportent pas de réponse satisfaisante. / DNA sequencing of complex samples containing various living species is a choice approach to study the viral landscape of a given environment. Viral genomes are hard to identify due to their extreme variability and the tight relationship they have with their hosts. We hereby provide new leads for the development of a virusesspecific solution to the need for accurate identification that hasn't found a satisfactory solution in the existing universal software so far. Métagénomique Apprentissage machine Environnement Phylogénie Assignation taxonomique Classification supervisée K-mers Signature Virologie Metagenomics Machine learning Environment Phylogeny Taxonomic assignment Supervised classification K-mers Signature Virology
37	Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens / Contributions to fault detection and diagnosis in systems by Bayesian networks Atoui, Mohamed Amine 29 September 2015 (has links) Les fautes systèmes peuvent conduire à des conséquences sérieuses pour l’humain, l’environnement et le matériel. Or, y remédier peut s’avérer coûteux voire même dangereux. Ainsi, afin d’éviter ces situations, il est devenu essentiel pour les systèmes complexes modernes de détecter et d’identifier tout changement dans leur fonctionnement nominal avant que cela ne devienne critique. De ce fait, plusieurs méthodes de détection et de diagnostic ont été proposées ou améliorées durant les dernières décennies. Parmi ces méthodes, celles présentant un fort intérêt se basent sur un outil statistique et probabiliste nommé réseau Bayésien. Toutefois, la majorité d’entre elles ne tiennent pas compte du risque de fausse alarme dans leur prise de décision. L’intérêt de cette thèse est alors d’introduire sous réseau Bayésien des limites probabilistes permettant le respect d’un niveau de signification considéré. Plus exactement, nous proposons une modélisation des statistiques quadratiques et les limites leurs correspondant sur réseau Bayésien. Ceci nous permet de généraliser sous réseau Bayésien des schémas de détection de fautes comme par exemple ceux basés sur l’analyse en composantes principale. Cette modélisation nous permet également de proposer une famille de réseaux Bayésiens permettant de faire de la détection et du diagnostic de façon simultanée, tout en tenant compte d’un rejet de distance. Enfin, nous proposons un cadre probabiliste permettant d’unifier les différents réseaux Bayésiens pouvant être utilisés pour la détection ou le diagnostic de fautes. / Systems failures can potentially lead to serious consequences forhuman, environment and material, and sometimes fixing them could be expensive and even dangerous. Thus, in order to avoid these undesirable situations, it becomes very important and essential for modern complex systems to detect and identify any changes in their nominal operations before they become critical. To do so, several detection and diagnosis methods have been proposed or enhanced during the last decades. Among these methods, those with a great interest are based on a statistical and probabilistic tool named Bayesian network. However, the majority of these methods do not handle the risk of false alarm in their decision-making. The interest of this thesis is to introduce, under Bayesian network, probabilistic limits able to respect a given significance level. More precisely, we propose to model the quadratic statistics and their limits in Bayesian network. This allows us to generalize under Bayesian network fault detection schemes as those associated to the principal component analysis. This modeling allows us also to propose a family of Bayesian networks that can make detection and diagnosis simultaneously, while taking into account the distance rejection.Finally, we propose a probabilistic framework able to unify different BNs dedicated to the detection or diagnosis of systems faults. Détection et diagnostic de fautes Réseaux Bayésiens Réseaux conditionnels Gaussiens Statistiques Classification supervisée Faults detection and diagnosis Bayesian networks Conditional Gaussian networks Statistics Supervised classification 621
38	Modèles prudents en apprentissage statistique supervisé / Cautious models in supervised machine learning Yang, Gen 22 March 2016 (has links) Dans certains champs d’apprentissage supervisé (e.g. diagnostic médical, vision artificielle), les modèles prédictifs sont non seulement évalués sur leur précision mais également sur la capacité à l'obtention d'une représentation plus fiable des données et des connaissances qu'elles induisent, afin d'assister la prise de décisions de manière prudente. C'est la problématique étudiée dans le cadre de cette thèse. Plus spécifiquement, nous avons examiné deux approches existantes de la littérature de l'apprentissage statistique pour rendre les modèles et les prédictions plus prudents et plus fiables: le cadre des probabilités imprécises et l'apprentissage sensible aux coûts. Ces deux domaines visent tous les deux à rendre les modèles d'apprentissage et les inférences plus fiables et plus prudents. Pourtant peu de travaux existants ont tenté de les relier, en raison de problèmes à la fois théorique et pratique. Nos contributions consistent à clarifier et à résoudre ces problèmes. Sur le plan théorique, peu de travaux existants ont abordé la manière de quantifier les différentes erreurs de classification quand des prédictions sous forme d'ensembles sont produites et quand ces erreurs ne se valent pas (en termes de conséquences). Notre première contribution a donc été d'établir des propriétés générales et des lignes directrices permettant la quantification des coûts d'erreurs de classification pour les prédictions sous forme d'ensembles. Ces propriétés nous ont permis de dériver une formule générale, le coût affaiblie généralisé (CAG), qui rend possible la comparaison des classifieurs quelle que soit la forme de leurs prédictions (singleton ou ensemble) en tenant compte d'un paramètre d'aversion à la prudence. Sur le plan pratique, la plupart des classifieurs utilisant les probabilités imprécises ne permettent pas d'intégrer des coûts d'erreurs de classification génériques de manière simple, car la complexité du calcul augmente de magnitude lorsque des coûts non unitaires sont utilisés. Ce problème a mené à notre deuxième contribution, la mise en place d'un classifieur qui permet de gérer les intervalles de probabilités produits par les probabilités imprécises et les coûts d'erreurs génériques avec le même ordre de complexité que dans le cas où les probabilités standards et les coûts unitaires sont utilisés. Il s'agit d'utiliser une technique de décomposition binaire, les dichotomies emboîtées. Les propriétés et les pré-requis de ce classifieur ont été étudiés en détail. Nous avons notamment pu voir que les dichotomies emboîtées sont applicables à tout modèle probabiliste imprécis et permettent de réduire le niveau d'indétermination du modèle imprécis sans perte de pouvoir prédictif. Des expériences variées ont été menées tout au long de la thèse pour appuyer nos contributions. Nous avons caractérisé le comportement du CAG à l’aide des jeux de données ordinales. Ces expériences ont mis en évidence les différences entre un modèle basé sur les probabilités standards pour produire des prédictions indéterminées et un modèle utilisant les probabilités imprécises. Ce dernier est en général plus compétent car il permet de distinguer deux sources d'indétermination (l'ambiguïté et le manque d'informations), même si l'utilisation conjointe de ces deux types de modèles présente également un intérêt particulier dans l'optique d'assister le décideur à améliorer les données ou les classifieurs. De plus, des expériences sur une grande variété de jeux de données ont montré que l'utilisation des dichotomies emboîtées permet d'améliorer significativement le pouvoir prédictif d'un modèle imprécis avec des coûts génériques. / In some areas of supervised machine learning (e.g. medical diagnostics, computer vision), predictive models are not only evaluated on their accuracy but also on their ability to obtain more reliable representation of the data and the induced knowledge, in order to allow for cautious decision making. This is the problem we studied in this thesis. Specifically, we examined two existing approaches of the literature to make models and predictions more cautious and more reliable: the framework of imprecise probabilities and the one of cost-sensitive learning. These two areas are both used to make models and inferences more reliable and cautious. Yet few existing studies have attempted to bridge these two frameworks due to both theoretical and practical problems. Our contributions are to clarify and to resolve these problems. Theoretically, few existing studies have addressed how to quantify the different classification errors when set-valued predictions are produced and when the costs of mistakes are not equal (in terms of consequences). Our first contribution has been to establish general properties and guidelines for quantifying the misclassification costs for set-valued predictions. These properties have led us to derive a general formula, that we call the generalized discounted cost (GDC), which allow the comparison of classifiers whatever the form of their predictions (singleton or set-valued) in the light of a risk aversion parameter. Practically, most classifiers basing on imprecise probabilities fail to integrate generic misclassification costs efficiently because the computational complexity increases by an order (or more) of magnitude when non unitary costs are used. This problem has led to our second contribution, the implementation of a classifier that can manage the probability intervals produced by imprecise probabilities and the generic error costs with the same order of complexity as in the case where standard probabilities and unitary costs are used. This is to use a binary decomposition technique, the nested dichotomies. The properties and prerequisites of this technique have been studied in detail. In particular, we saw that the nested dichotomies are applicable to all imprecise probabilistic models and they reduce the imprecision level of imprecise models without loss of predictive power. Various experiments were conducted throughout the thesis to illustrate and support our contributions. We characterized the behavior of the GDC using ordinal data sets. These experiences have highlighted the differences between a model based on standard probability framework to produce indeterminate predictions and a model based on imprecise probabilities. The latter is generally more competent because it distinguishes two sources of uncertainty (ambiguity and the lack of information), even if the combined use of these two types of models is also of particular interest as it can assist the decision-maker to improve the data quality or the classifiers. In addition, experiments conducted on a wide variety of data sets showed that the use of nested dichotomies significantly improves the predictive power of an indeterminate model with generic costs. Classification supervisée Probabilités imprécises Apprentissage sensible aux coûts Modèles prudents Prédictions partielles Coûts de classification Apprentissage statistique Cluster analysis Discriminant analysis Machine learning Probabilities Prediction theory
39	Plug-in methods in classification / Méthodes de type plug-in en classification Chzhen, Evgenii 25 September 2019 (has links) Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification / This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case Classification contrainte Classification supervisée Classification semi-Supervisée Analyse minimax Classification par plug-In Ensembles de confiance Constrained classification Supervised classification Semi-Supervised classification Minimax analysis Plug-In classification Confidence sets
40	Stratégie d'évaluation de l'état des transformateurs : esquisse de solutions pour la gestion intégrée des transformateurs vieillissants / Transformer condition assesment strategy : Outline solutions for aging transformers integrated management Eke, Samuel 11 June 2018 (has links) Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles. / This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data. Transformateur de puissance Analyse des gaz dissous Classification supervisée Classification non supervisée Maintenance Classifieur Evaluation Données Vieillissement Huile Isolante Isolation solide Power transformer Dissolved gas analysis Supervised classification Unsupervised classification Maintenance Classifier Evaluation Data Aging Insulating oil Solid insulation

Search results