Global ETD Search

81	Apprentissage automatique pour la détection de relations d'affaire Capo-Chichi, Grâce Prudencia 04 1900 (has links) No description available. Relation d’affaire Business relation Classification supervisée Supervised classification Sélection de caractéristiques Feature selection Unbalanced data Déséquilibre de classes
82	SALZA : mesure d’information universelle entre chaînes pour la classificationet l’inférence de causalité / SALZA : universal information measure between strings for classifiation and causality Revolle, Marion 25 October 2018 (has links) Les données sous forme de chaîne de symboles sont très variées (ADN, texte, EEG quantifié,…) et ne sont pas toujours modélisables. Une description universelle des chaînes de symboles indépendante des probabilités est donc nécessaire. La complexité de Kolmogorov a été introduite en 1960 pour répondre à cette problématique. Le concept est simple : une chaîne de symboles est complexe quand il n'en existe pas une description courte. La complexité de Kolmogorov est le pendant algorithmique de l’entropie de Shannon et permet de définir la théorie algorithmique de l’information. Cependant, la complexité de Kolmogorov n’est pas calculable en un temps fini ce qui la rend inutilisable en pratique.Les premiers à rendre opérationnelle la complexité de Kolmogorov sont Lempel et Ziv en 1976 qui proposent de restreindre les opérations de la description. Une autre approche est d’utiliser la taille de la chaîne compressée par un compresseur sans perte. Cependant ces deux estimateurs sont mal définis pour le cas conditionnel et le cas joint, il est donc difficile d'étendre la complexité de Lempel-Ziv ou les compresseurs à la théorie algorithmique de l’information.Partant de ce constat, nous introduisons une nouvelle mesure d’information universelle basée sur la complexité de Lempel-Ziv appelée SALZA. L’implémentation et la bonne définition de notre mesure permettent un calcul efficace des grandeurs de la théorie algorithmique de l’information.Les compresseurs sans perte usuels ont été utilisés par Cilibrasi et Vitányi pour former un classifieur universel très populaire : la distance de compression normalisée [NCD]. Dans le cadre de cette application, nous proposons notre propre estimateur, la NSD, et montrons qu’il s’agit d’une semi-distance universelle sur les chaînes de symboles. La NSD surclasse la NCD en s’adaptant naturellement à davantage de diversité des données et en définissant le conditionnement adapté grâce à SALZA.En utilisant les qualités de prédiction universelle de la complexité de Lempel-Ziv, nous explorons ensuite les questions d’inférence de causalité. Dans un premier temps, les conditions algorithmiques de Markov sont rendues calculables grâce à SALZA. Puis en définissant pour la première l’information dirigée algorithmique, nous proposons une interprétation algorithmique de la causalité de Granger algorithmique. Nous montrons, sur des données synthétiques et réelles, la pertinence de notre approche. / Data in the form of strings are varied (DNA, text, quantify EEG) and cannot always be modeled. A universal description of strings, independent of probabilities, is thus necessary. The Kolmogorov complexity was introduced in 1960 to address the issue. The principle is simple: a string is complex if a short description of it does not exist. The Kolmogorov complexity is the counterpart of the Shannon entropy and defines the algorithmic information theory. Yet, the Kolmogorov complexity is not computable in finit time making it unusable in practice.The first ones to make operational the Kolmogorov complexity are Lempel and Ziv in 1976 who proposed to restrain the operations of the description. Another approach uses the size of the compressed string by a lossless data compression algorithm. Yet these two estimators are not well-defined regarding the joint and conditional complexity cases. So, compressors and Lempel-Ziv complexity are not valuable to estimate algorithmic information theory.In the light of this observation, we introduce a new universal information measure based on the Lempel-Ziv complexity called SALZA. The implementation and the good definition of our measure allow computing efficiently values of the algorithmic information theory.Usual lossless compressors have been used by Cilibrasi and Vitányi to define a very popular universal classifier: the normalized compression distance [NCD]. As part of this application, we introduce our own estimator, called the NSD, and we show that the NSD is a universal semi-distance between strings. NSD surpasses NCD because it gets used to a large data set and uses the adapted conditioning with SALZA.Using the accurate universal prediction quality of the Lempel-Ziv complexity, we explore the question of causality inference. At first, we compute the algorithmic causal Markov condition thanks to SALZA. Then we define, for the first time, the algorithmic directed information and based on it we introduce the algorithmic Granger causality. The relevance of our approach is demonstrated on real and synthetic data. Complexité de Lempel Ziv Mesure d’information universelle Classification non supervisée Causalité Lempel-Ziv complexity Algorithmic information theory Universal information measure Unsupervised classification Causality 004 620
83	Contributions à l'étude de la classification spectrale et applications / Contributions to the study of spectral clustering and applications Mouysset, Sandrine 07 December 2010 (has links) La classification spectrale consiste à créer, à partir des éléments spectraux d'une matrice d'affinité gaussienne, un espace de dimension réduite dans lequel les données sont regroupées en classes. Cette méthode non supervisée est principalement basée sur la mesure d'affinité gaussienne, son paramètre et ses éléments spectraux. Cependant, les questions sur la séparabilité des classes dans l'espace de projection spectral et sur le choix du paramètre restent ouvertes. Dans un premier temps, le rôle du paramètre de l'affinité gaussienne sera étudié à travers des mesures de qualités et deux heuristiques pour le choix de ce paramètre seront proposées puis testées. Ensuite, le fonctionnement même de la méthode est étudié à travers les éléments spectraux de la matrice d'affinité gaussienne. En interprétant cette matrice comme la discrétisation du noyau de la chaleur définie sur l'espace entier et en utilisant les éléments finis, les vecteurs propres de la matrice affinité sont la représentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces résultats permettent de définir des propriétés de classification et des conditions sur le paramètre gaussien. A partir de ces éléments théoriques, deux stratégies de parallélisation par décomposition en sous-domaines sont formulées et testées sur des exemples géométriques et de traitement d'images. Enfin dans le cadre non supervisé, le classification spectrale est appliquée, d'une part, dans le domaine de la génomique pour déterminer différents profils d'expression de gènes d'une légumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des régions du cerveau présentant les mêmes courbes d'activités temporelles. / The Spectral Clustering consists in creating, from the spectral elements of a Gaussian affinity matrix, a low-dimension space in which data are grouped into clusters. This unsupervised method is mainly based on Gaussian affinity measure, its parameter and its spectral elements. However, questions about the separability of clusters in the projection space and the spectral parameter choices remain open. First, the rule of the parameter of Gaussian affinity will be investigated through quality measures and two heuristics for choosing this setting will be proposed and tested. Then, the method is studied through the spectral element of the Gaussian affinity matrix. By interpreting this matrix as the discretization of the heat kernel defined on the whole space and using finite elements, the eigenvectors of the affinity matrix are asymptotic representation of functions whose support is included in one connected component. These results help define the properties of clustering and conditions on the Gaussian parameter. From these theoretical elements, two parallelization strategies by decomposition into sub-domains are formulated and tested on geometrical examples and images. Finally, as unsupervised applications, the spectral clustering is applied, first in the field of genomics to identify different gene expression profiles of a legume and the other in the imaging field functional PET, to segment the brain regions with similar time-activity curves. Classification non supervisée Classification spectrale Noyau gaussien Equation de la chaleur Éléments finis Parallélisation Imagerie médicale Clustering Spectral clustering Gaussian kernel Heat equation Finite elements Parallelization Medical imaging
84	Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées. / Self-Organizing Maps for the clustering of mixed feature-type symbolic data, of interval-valued data and of binned data Hajjar, Chantal 10 February 2014 (has links) Cette thèse s'inscrit dans le cadre de la classification automatique de données symboliques par des méthodes géométriques bio-inspirées, plus spécifiquement par les cartes auto-organisatrices. Nous mettons en place plusieurs algorithmes d'apprentissage des cartes auto-organisatrices pour classifier des données symboliques mixtes ainsi que des données de type intervalle et des données discrétisées. Plusieurs jeux de données symboliques simulées et réelles, dont deux construits dans le cadre de cette thèse, sont utilisés pour tester les méthodes proposées. En plus, nous proposons une carte auto-organisatrice pour les données discrétisées (binned data) dans le but d'accélérer l'apprentissage des cartes classiques et nous appliquons la méthode proposée à la segmentation d'images. / This thesis concerns the clustering of symbolic data with bio-inspired geometric methods, more specifically with Self-Organizing Maps. We set up several learning algorithms for the self-organizing maps in order to cluster mixed-feature symbolic data as well as interval-valued data and binned data. Several simulated and real symbolic data sets, including two sets built as part of this thesis, are used to test the proposed methods. In addition, we propose a self-organizing map for binned data in order to accelerate the learning of standard maps, and we use the proposed method for image segmentation. Cartes auto-organisatrices Classification non supervisée Données symboliques Données de type intervalle Données discrétisées Self-Organizing Maps Clustering Symbolic Data Interval-valued data Binned Data 378.242
85	Estimation et sélection en classification semi-supervisée Vandewalle, Vincent 09 December 2009 (has links) (PDF) Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. [MATH] Mathematics modèles de mélange estimation par maximum de vraisemblance données manquantes algorithme EM analyse discriminante classification semi-supervisée modèles parcimonieux choix de modèle
86	MÉLIDIS : Reconnaissance de formes par modélisation mixte intrinsèque/discriminante à base de systèmes d'inférence floue hiérarchisés Ragot, Nicolas 28 October 2003 (has links) (PDF) La problématique de la reconnaissance de formes manuscrites est particulièrement riche et complexe. Il existe en effet un grand nombre de problèmes différents à traiter dans lesquels les formes à reconnaître sont nombreuses, soumises à une variabilité importante et donc sources de confusions. De plus, les contraintes applicatives, et notamment celles résultant de la volonté de diffusion des moyens informatiques au travers de l'informatique nomade (PDA, smart phone...), font que la conception et l'adaptation de systèmes de reconnaissance à des contextes précis d'utilisation sont particulièrement délicats.<br /><br />Pour faciliter cette mise au point nous proposons une méthodologie de classification visant à réunir un ensemble de propriétés rarement satisfaites dans une même approche : performances, généricité, fiabilité, robustesse, compacité et interprétabilité. Ce dernier point est particulièrement important puisqu'il permet au concepteur d'adapter, de maintenir et d'optimiser le système plus facilement. L'approche proposée, centrée sur la notion de connaissances dans un classifieur, est entièrement guidée par les données. L'originalité réside notamment dans l'exploitation conjointe de connaissances intrinsèques et discriminantes extraites automatiquement et organisées sur deux niveaux pour bénéficier au mieux de leur complémentarité. Le premier niveaux modélise les classes de façon explicite par des prototypes flous. Ceux-ci sont notamment utilisés pour décomposer le problème initial en sous-problèmes dans lesquels les formes possèdant des propriétés intrinsèques similaires sont regroupées. Le second niveau effectue ensuite une discrimination ciblée sur ces sous-problèmes par des arbres de décision flous. L'ensemble est formalisé de façon homogène par des systèmes d'inférence floue qui sont combinés pour la classification.<br /><br />Cette approche a conduit à la réalisation du système Mélidis qui a été validé sur plusieurs benchmarks dont des problèmes de reconnaissance de caractères manuscrits en ligne. Reconnaissance de formes logique floue systèmes d'inférence floue classification non supervisée arbres de décision flous combinaison de classifieurs reconnaissance de formes manuscrites
87	Méthodes d'extraction de connaissances à partir de données modélisables par des graphes. Application à des problèmes de synthèse organique. Pennerath, Frédéric 02 July 2009 (has links) (PDF) Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. [INFO] Computer Science Fouille de données fouille de graphes recherche des motifs fréquents classification supervisée chémoinformatique
88	Analyse de Signaux Sociaux pour la Modélisation de l'interaction face à face Mahdhaoui, Ammar 13 December 2010 (has links) (PDF) Cette thèse se situe à la frontière des domaines de la reconnaissance de signaux émotionnels et de l'analyse de l'interaction sociale. Dans un premier temps, nous avons étudié une émotion non prototypique, appelée motherese, qui joue un rôle important dans l'interaction parent-enfant. Afin d'étudier cette émotion, nous avons développé un système de détection automatique des émotions basé d'abord sur l'apprentissage supervisé. Ensuite pour pallier au manque de données étiquetées, nous avons développé une approche semi-supervisée permettant une meilleure qualité de classification avec un coût inférieur. Cette approche permet de combiner des exemples étiquetés et non étiquetés pour l'apprentissage. Le système proposé est une extension de l'algorithme de co-apprentissage. Cette approche est dite multi-vue car elle consiste à combiner différentes vues (descripteur+classifieur) afin d'obtenir une prédiction unique par exemple de test. Au-delà de la reconnaissance de signaux émotionnels, il s'agit de structurer et d'interpréter les différents signaux de communication dans un contexte d'interaction face à face. Nous avons proposé un modèle computationnel de l'interaction parent-enfant. Il consiste à modéliser les réponses des enfants par rapport aux stimulations des parents. Nous avons proposé ainsi des analyses quantitative et statistique afin d'étudier l'interdépendance des signaux d'interaction et les comportements humains, en particulier le rôle de motherese pour l'engagement de l'interaction parent-enfant. Enfin, dans le but d'identifier les groupes de comportements les plus pertinents, nous avons développé une technique de regroupement automatique de signaux qui permet d'extraire les différents patterns interactifs. Cette extraction de comportements interactifs permet de discriminer différents groupes: enfants avec développement typique, autistique et avec retard mental. [INFO] Computer Science Apprentissage automatique classification semi-supervisée co-apprentissage fusion signaux émotionnels motherese films familiaux interaction affective
89	Contribution à la détection et à l'analyse des signaux EEG épileptiques : débruitage et séparation de sources Romo-Vázquez, Rebeca 24 February 2010 (has links) (PDF) L'objectif principal de cette thèse est le pré-traitement des signaux d'électroencéphalographie (EEG). En particulier, elle vise à développer une méthodologie pour obtenir un EEG dit "propre" à travers l'identification et l'élimination des artéfacts extra-cérébraux (mouvements oculaires, clignements, activité cardiaque et musculaire) et du bruit. Après identification, les artéfacts et le bruit doivent être éliminés avec une perte minimale d'information, car dans le cas d'EEG, il est de grande importance de ne pas perdre d'information potentiellement utile à l'analyse (visuelle ou automatique) et donc au diagnostic médical. Plusieurs étapes sont nécessaires pour atteindre cet objectif : séparation et identification des sources d'artéfacts, élimination du bruit de mesure et reconstruction de l'EEG "propre". A travers une approche de type séparation aveugle de sources (SAS), la première partie vise donc à séparer les signaux EEG dans des sources informatives cérébrales et des sources d'artéfacts extra-cérébraux à éliminer. Une deuxième partie vise à classifier et éliminer les sources d'artéfacts et elle consiste en une étape de classification supervisée. Le bruit de mesure, quant à lui, il est éliminé par une approche de type débruitage par ondelettes. La mise en place d'une méthodologie intégrant d'une manière optimale ces trois techniques (séparation de sources, classification supervisée et débruitage par ondelettes) constitue l'apport principal de cette thèse. La méthodologie développée, ainsi que les résultats obtenus sur une base de signaux d'EEG réels (critiques et inter-critiques) importante, sont soumis à une expertise médicale approfondie, qui valide l'approche proposée.
90	Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. Baudry, Jean-Patrick 03 December 2009 (has links) (PDF) Le cadre principal de cette thèse est la classification non supervisée, traitée par une approche statistique dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude théorique consiste à considérer un contraste adapté à la classification non supervisée : ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés et étudiés. Des solutions pratiques pour leur calcul s'accompagnent de retombées positives pour le calcul du maximum de vraisemblance dans les modèles de mélange. La méthode de l'heuristique de pente est appliquée pour la calibration des critères pénalisés considérés. Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application sont étudiées. Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question du choix des composantes à regrouper. Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu'il est identifié au nombre de classes, à une éventuelle classification externe connue a priori. [MATH] Mathematics Classification non supervisée Sélection de modèle Modèles de mélange Vraisemblance classifiante Critères pénalisés BIC ICL Minimisation de contraste Sélection de modèle data-driven Heuristique de pente EM Point d'effondrement Mélanges de mélanges SICL

Search results