Spelling suggestions: "subject:"classification none supervisé"" "subject:"classification noun supervisé""
51 |
Stratégie d'évaluation de l'état des transformateurs : esquisse de solutions pour la gestion intégrée des transformateurs vieillissants / Transformer condition assesment strategy : Outline solutions for aging transformers integrated managementEke, Samuel 11 June 2018 (has links)
Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles. / This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data.
|
52 |
Quelques contributions en classification, régression et étude d'un problème inverse en financeMonnier, Jean-Baptiste 06 December 2011 (has links) (PDF)
On s'intéresse aux problèmes de régression, classification et à un problème inverse en finance. Nous abordons dans un premier temps le problème de régression en design aléatoire à valeurs dans un espace euclidien et dont la loi admet une densité inconnue. Nous montrons qu'il est possible d'élaborer une stratégie d'estimation optimale par projections localisées sur une analyse multi-résolution. Cette méthode originale offre un avantage calculatoire sur les méthodes d'estimation à noyau traditionnellement utilisées dans un tel contexte. On montre par la même occasion que le classifieur plug-in construit sur cette nouvelle procédure est optimal. De plus, il hérite des avantages calculatoires mentionnés plus haut, ce qui s'avère être un atout crucial dans de nombreuses applications. On se tourne ensuite vers le problème de régression en design aléatoire uniformément distribué sur l'hyper-sphère et on montre comment le tight frame de needlets permet de généraliser les méthodes traditionnelles de régression en ondelettes à ce nouveau contexte. On s'intéresse finalement au problème d'estimation de la densité risque-neutre à partir des prix d'options cotés sur les marchés. On exhibe une décomposition en valeurs singulières explicite d'opérateurs de prix restreints et on montre qu'elle permet d'élaborer une méthode d'estimation de la densité risque-neutre qui repose sur la résolution d'un simple programme quadratique.
|
53 |
Une approche collaborative segmentation - classification pour l'analyse descendante d'images multirésolutionsKurtz, Camille 11 September 2012 (has links) (PDF)
Depuis la fin des années 1990, les images optiques à très hautes résolutions spatiales issues de capteurs satellitaires sont de plus en plus accessibles par une vaste communauté d'utilisateurs. En particulier, différents systèmes satellitaires sont maintenant disponibles et produisent une quantité de données importante, utilisable pour l'observation de la Terre. En raison de cet important volume de données,les méthodes analytiques manuelles deviennent inadaptées pour un traitement efficace de ces données. Il devient donc crucial d'automatiser ces méthodes par des procédés informatiques, capables de traiter cette quantité de données hétérogènes.Dans le cadre de cette thèse, nos recherches se sont focalisées sur le développement de nouvelles approches basées régions (i.e., segmentation et classification) permettant l'extraction de plusieurs niveaux de connaissance et d'information à partir d'ensembles d'images à différentes résolutions spatiales. De telles images offrent en effet des vues différentes de la scène étudiée, ce qui peut permettre de faciliter l'extraction des objets d'intérêt. Ces derniers étant structurés sous la forme de hiérarchies d'objets complexes, nos travaux se sont naturellement tournés (1) vers l'utilisation d'approches de segmentation hiérarchique fournissant des ensembles de partitions de la scène à différents niveaux de détail et (2) vers l'intégration de connaissances de haut-niveau dans les processus de fouille de données. De manière plus générale, nous nous sommes intéressés à élaborer un outil informatique reposant sur une stratégie d'analyse descendante,similaire à celle d'un utilisateur, qui consiste à interpréter la scène en considérant, en premier lieu, les grandes zones composant les territoires (à partir des images aux résolutions les plus grossières) puis à affiner récursivement le niveau d'interprétation pour en extraire des zones plus spécialisées (à partir des images aux résolutions les plus fines).L'ensemble de ces travaux a été implanté dans une bibliothèque logicielle et validé dans le contexte de l'analyse d'environnements urbains à partir d'ensembles d'images multi résolutions.
|
54 |
Classification non supervisée : de la multiplicité des données à la multiplicité des analysesSublemontier, Jacques-Henri 07 December 2012 (has links) (PDF)
La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l'Intelligence Artificielle, de l'Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l'automatiser pour la rendre applicable à un grand nombre d'objets (ou individus) à classer. Des visées plus applicatives s'intéressent à l'organisation automatique de grands ensembles d'objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d'informations sont disponibles pour compléter et guider la recherche d'une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu'un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d'utiliser des connaissances externes sur les données pour guider et améliorer la recherche d'une classification d'objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d'atteindre au choix les objectifs de consensus et d'alternatives pour la classification d'objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d'une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances.
|
55 |
Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire.Giacofci, Madison 22 October 2013 (has links) (PDF)
Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte.
|
56 |
Méthodologie d'extraction et d'analyse de réseaux de régulation de gènes : analyse de la réponse transcriptionnelle à l'irradiation chez S. cerevisiæTouleimat, Nizar 26 November 2008 (has links) (PDF)
La réponse cellulaire aux dommages de l'ADN provoqués par l'irradiation (IR) est relativement bien étudiée mais de nombreuses observations montrent l'implication de l'expression de nombreux gènes. Nous souhaitons identifier les différentes formes de la réponse transcriptionnelle à l'IR et reconstruire un réseau de régulation génique impliqué dans son contrôle. La problématique réside dans l'exploitation de dynamiques d'expression de gènes dans des conditions de perturbations génétiques et dans l'intégration d'informations biologiques systémiques. Nous définissons une approche constituée d'une étape automatisée de déduction de régulations à partir de perturbations et de deux étapes d'induction qui permettent d'analyser la dynamique d'expression des gènes et d'extraire des régulations des données additionnelles. Cela nous a permis d'identifier, chez la levure, une réponse complexe à l'IR et de proposer un modèle de régulation dont certaines relations ont été validées expérimentalement.
|
57 |
Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques / Improvement of the information system of the Semantic Group Company through the creation of semantic resourcesYahaya Alassan, Mahaman Sanoussi 05 October 2017 (has links)
Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles. / Taking into account the semantic aspect of the textual data during the classification task has become a real challenge in the last ten years. This difficulty is in addition to the fact that most of the data available on social networks are short texts, which in particular results in making methods based on the "bag of words" representation inefficient. The approach proposed in this research project is different from the approaches proposed in previous work on the enrichment of short messages for three reasons. First, we do not use external knowledge like Wikipedia because typically short messages that are processed by the company come from specific domains. Secondly, the data to be processed are not used for the creation of resources because of the operation of the tool. Thirdly, to our knowledge there is no work on the one hand, which uses structured data such as the company's data to constitute semantic resources, and on the other hand, which measure the impact of enrichment on a system Interactive grouping of text flows. In this thesis, we propose the creation of resources enabling to enrich the short messages in order to improve the performance of the tool of the semantic grouping of the company Succeed Together. The tool implements supervised and unsupervised classification methods. To build these resources, we use sequential data mining techniques.
|
58 |
Classification non supervisée : de la multiplicité des données à la multiplicité des analyses / Clustering : from multiple data to multiple analysisSublemontier, Jacques-Henri 07 December 2012 (has links)
La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l’Intelligence Artificielle, de l’Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l’automatiser pour la rendre applicable à un grand nombre d’objets (ou individus) à classer. Des visées plus applicatives s’intéressent à l’organisation automatique de grands ensembles d’objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d’informations sont disponibles pour compléter et guider la recherche d’une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu’un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d’utiliser des connaissances externes sur les données pour guider et améliorer la recherche d’une classification d’objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d’atteindre au choix les objectifs de consensus et d’alternatives pour la classification d’objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d’une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances. / Data clustering is a major problem encountered mainly in related fields of Artificial Intelligence, Data Analysis and Cognitive Sciences. This topic is concerned by the production of synthetic tools that are able to transform a mass of information into valuable knowledge. This knowledge extraction is done by grouping a set of objects associated with a set of descriptors such that two objects in a same group are similar or share a same behaviour while two objects from different groups does not. This thesis present a study about some extensions of the classical clustering problem for multi-view data,where each datum can be represented by several sets of descriptors exhibing different behaviours or aspects of it. Our study impose to explore several nearby problems such that semi-supervised clustering, multi-view clustering or collaborative approaches for consensus or alternative clustering. In a first chapter, we propose an algorithm solving the multi-view clustering problem. In the second chapter, we propose a boosting-inspired algorithm and an optimization based algorithm closely related to boosting that allow the integration of external knowledge leading to the improvement of any clustering algorithm. This proposition bring an answer to the semi-supervised clustering problem. In the last chapter, we introduce an unifying framework allowing the discovery even of a set of consensus clustering solution or a set of alternative clustering solutions for mono-view data and or multi-viewdata. Such unifying approach offer a methodology to answer some current and actual hot topic in Data Mining and Knowledge Discovery in Data.
|
59 |
Mathématiques appliquées et traitement du signal pour l’évaluation de la dégradation de la biomasse lignocellulosique / Applied Mathematics and signal processing for the study of the evolution of plant litter during the biodegradation processRammal, Abbas 25 January 2016 (has links)
Dans cette thèse nous proposons de mettre en œuvre des méthodes des mathématiques appliquées et du traitement du signal pour l’étude à partir de spectres infrarouges (IR) de l’évolution des litières végétales au cours du processus de biodégradation. Nous présentons tout d’abord une nouvelle méthode de classification floue fondée sur une optimisation de type non supervisée, basée sur le facteur de covariance qui permet de classer des données IR de forme sphérique ou non sphérique afin d’identifier les méthodes de prétraitement et de choix de gammes spectrales les mieux adaptées. Nous développons des outils mathématiques et des algorithmes innovants permettant de combiner des informations spectrales moyen IR (MIR) et proche IR (MIR) afin d’identifier des marqueurs spectroscopiques discriminants de résidus lignocellulosiques en fonction de leur niveau de dégradation. Pour cela, nous proposons une méthode d'optimisation stochastique basée sur un algorithme génétique avec paramètres adaptés. Nous montrons que l’analyse conjoints des spectres MIR et NIR fusionnés par le produit extérieur permet de mieux discriminer la biomasse lignocellulosique au cours du processus de dégradation qu’un traitement séparé. Nous proposons ensuite une nouvelle approche d’optimisation non linéaire basée sur la sélection d’un vecteur qui met en évidence les poids des bandes spectrales. Enfin, nous développons une méthode de modélisation mathématique basée sur l’extension de l’algorithme AG-PLS en combinant les informations spectrales MIR et NIR par le produit extérieur (OP-AG-PLS). Cette méthode permet d’améliorer les performances de prédiction de l’état de dégradation de la biomasse. / In this thesis we propose to implement methods of applied mathematics and signal processing for the study of the evolution of plant biomass during the biodegradation process. The degradation of plant biomass is identified by FTIR spectroscopy, particularly in the MIR and NIR ranges. We proposed a new unsupervised classification method of Fuzzy C-Means based on the covariance factor to classify the IR data with spherical and not spherical form to identify the pre-treatment methods and the choice of spectral ranges that are the best adapted for our study. We have developed mathematical tools and innovative algorithms to combine these spectral information and identifying infrared spectroscopic markers that are discriminative in the lignocellulosic residues according to their level of degradation. For this, we have proposed a stochastic optimization method based on a genetic algorithm by choosing the appropriate parameters. We have shown that the joint analysis of the MIR and NIR spectra by the outer product (OP) provides better results than the separate analysis for the discrimination of the lignocellulosic biomass during the degradation process. Then, we proposed a new nonlinear optimization approach based on the built of vector which highlights the weight of spectral bands. Finally, we have developed a mathematical modelisation based on the extension of the GA-PLS algorithm combining the MIR and NIR spectral information by outer product (OP-GA-PLS) which significantly improves the prediction performance of the state of degradation of biomass.
|
60 |
Modélisation et techniques d'optimisation en bio-informatique et fouille de données / Modelling and techniques of optimization in bioinformatics and data miningBelghiti, Moulay Tayeb 01 February 2008 (has links)
Cette thèse est particulièrement destinée à traiter deux types de problèmes : clustering et l'alignement multiple de séquence. Notre objectif est de résoudre de manière satisfaisante ces problèmes globaux et de tester l'approche de la Programmation DC et DCA sur des jeux de données réelles. La thèse comporte trois parties : la première partie est consacrée aux nouvelles approches de l'optimisation non convexe. Nous y présentons une étude en profondeur de l'algorithme qui est utilisé dans cette thèse, à savoir la programmation DC et l'algorithme DC (DCA). Dans la deuxième partie, nous allons modéliser le problème clustering en trois sous-problèmes non convexes. Les deux premiers sous-problèmes se distinguent par rapport au choix de la norme utilisée, (clustering via les normes 1 et 2). Le troisième sous-problème utilise la méthode du noyau, (clustering via la méthode du noyau). La troisième partie sera consacrée à la bio-informatique. On va se focaliser sur la modélisation et la résolution de deux sous-problèmes : l'alignement multiple de séquence et l'alignement de séquence d'ARN par structure. Tous les chapitres excepté le premier se terminent par des tests numériques. / This Ph.D. thesis is particularly intended to treat two types of problems : clustering and the multiple alignment of sequence. Our objective is to solve efficiently these global problems and to test DC Programming approach and DCA on real datasets. The thesis is divided into three parts : the first part is devoted to the new approaches of nonconvex optimization-global optimization. We present it a study in depth of the algorithm which is used in this thesis, namely the programming DC and the algorithm DC ( DCA). In the second part, we will model the problem clustering in three nonconvex subproblems. The first two subproblems are distinguished compared to the choice from the norm used, (clustering via norm 1 and 2). The third subproblem uses the method of the kernel, (clustering via the method of the kernel). The third part will be devoted to bioinformatics, one goes this focused on the modeling and the resolution of two subproblems : the multiple alignment of sequence and the alignment of sequence of RNA. All the chapters except the first end in numerical tests.
|
Page generated in 0.1161 seconds