Global ETD Search

21	Une approche collaborative segmentation - classification pour l'analyse descendante d'images multirésolutions / A collaborative region-based approach for the top-down analysis of multiresolution images Kurtz, Camille 11 September 2012 (has links) Depuis la fin des années 1990, les images optiques à très hautes résolutions spatiales issues de capteurs satellitaires sont de plus en plus accessibles par une vaste communauté d’utilisateurs. En particulier, différents systèmes satellitaires sont maintenant disponibles et produisent une quantité de données importante, utilisable pour l’observation de la Terre. En raison de cet important volume de données,les méthodes analytiques manuelles deviennent inadaptées pour un traitement efficace de ces données. Il devient donc crucial d’automatiser ces méthodes par des procédés informatiques, capables de traiter cette quantité de données hétérogènes.Dans le cadre de cette thèse, nos recherches se sont focalisées sur le développement de nouvelles approches basées régions (i.e., segmentation et classification) permettant l’extraction de plusieurs niveaux de connaissance et d’information à partir d’ensembles d’images à différentes résolutions spatiales. De telles images offrent en effet des vues différentes de la scène étudiée, ce qui peut permettre de faciliter l’extraction des objets d’intérêt. Ces derniers étant structurés sous la forme de hiérarchies d’objets complexes, nos travaux se sont naturellement tournés (1) vers l’utilisation d’approches de segmentation hiérarchique fournissant des ensembles de partitions de la scène à différents niveaux de détail et (2) vers l’intégration de connaissances de haut-niveau dans les processus de fouille de données. De manière plus générale, nous nous sommes intéressés à élaborer un outil informatique reposant sur une stratégie d’analyse descendante,similaire à celle d’un utilisateur, qui consiste à interpréter la scène en considérant, en premier lieu, les grandes zones composant les territoires (à partir des images aux résolutions les plus grossières) puis à affiner récursivement le niveau d’interprétation pour en extraire des zones plus spécialisées (à partir des images aux résolutions les plus fines).L’ensemble de ces travaux a été implanté dans une bibliothèque logicielle et validé dans le contexte de l’analyse d’environnements urbains à partir d’ensembles d’images multi résolutions. / In the field of remote sensing image analysis, the recognition of complex patterns from satellite images presents several challenges related to the size, the accuracy and the complexity of the considered data. Indeed, due tothe large amount of ground details provided by these images, the classical photo-interpretation approachesdo not provide satisfactory results. In this context, it is then relevant to develop new automatic tools adaptedto the extraction of complex patterns from such data.In this thesis, we have proposed new region-based approaches (i.e., segmentation and classification) enablingto extract different levels of information from sets of images at different spatial resolutions. Indeed, suchmultiresolution sets of images provide different (complementary) views on the represented objects of interestand can be used to make easier the extraction process of these objects. The main principle of the propose d'approach is to progressively extract and classify segments/objects of interest from the lowest to the highestresolution data, and then finally to determine complex patterns from VHSR images. This approach, inspired by the principle of photo-interpretation and human vision, merges hierarchical segmentation approaches withmultiresolution clustering strategies combined to the integration of high-level background knowledge.The proposed framework has been validated in the context of the urban mapping of complex objects.Experiments have been carried out on multiresolution sets of satellite images sensed over different cities. Theresults obtained have shown that the quality and the accuracy of the extracted patterns seem sufficient tofurther accurately perform both classification or object detection in an operational context. Analyse d’images Segmentation hiérarchique Classification non-supervisée Images multirésolutions Télédétection Image analysis Hierarchical segmentation Clustering Remote sensing 006.6 006.3
22	Détection automatique de cibles dans des fonds complexes. Pour des images ou séquences d'images / Automatical detection in complex background Thivin, Solenne 16 December 2015 (has links) L'objectif principal de ces travaux de thèse a été la mise en place d'un algorithme de détection de cibles sous-résolues pour des images infra-rouges de ciel.Pour cela, nous avons d'abord cherché à modéliser les images réelles dont nous disposions. Après une étude de ces images, nous avons proposé plusieurs modèles gaussiens prenant en compte la covariance spatiale. Dans ces modèles, nous avons supposé que les images pouvaient être segmentées en zones stationnaires. Dans chaque zone, nous avons supposé une structure forte sur la matrice de covariance (comme les modèles auto-régressifs en deux dimensions par exemple).Il a ensuite fallu choisir entre ces modèles. Pour cela, nous avons appliqué une méthode de sélection de modèles par critère de vraisemblance pénalisée introduite par Birgé et Massart. Nous avons obtenu comme résultats théoriques une inégalité oracle qui a permis de démontrer les propriétés statistiques du modèle choisi. Une fois le modèle sélectionné, nous avons pu bâtir un test de détection. Nous nous sommes inspirés de la théorie de Neyman-Pearson et du test du rapport de vraisemblance généralisé. Notre contrainte principale a été le respect du taux de fausses alarmes par image. Pour le garantir, nous avons appris le comportement du test sur les images réelles pour en déduire le seuil à appliquer.~~Nous avons ensuite remarqué que le comportement de ce test variait fortement selon la texture de l'image : image de ciel bleu uniforme, image de nuage très texturé, etc. Après avoir caractérisé les différentes textures rencontrées avec les coefficients de scattering de Stéphane Mallat, nous avons décidé de classer ces textures. Le seuil appliqué lors de la détection a alors été adapté à la texture locale du fond. Nous avons finalement mesuré les performances de cet algorithme sur des images réelles et nous les avons comparées à d'autres méthodes de détection.Mots-clés: Détection, Covariance spatiale, Sélection de modèles, Apprentissage, Classification non supervisée. / During this PHD, we developped an detection algorithm. Our principal objective was to detect small targets in a complex background like clouds for example.For this, we used the spatial covariate structure of the real images.First, we developped a collection of models for this covariate structure. Then, we selected a special model in the previous collection. Once the model selected, we applied the likelihood ratio test to detect the potential targets.We finally studied the performances of our algorithm by testing it on simulated and real images. Détection Test du rapport de vraisemblance Performances Covariance spatiale Sélection de modèles Apprentissage Classification non supervisée DetectionLikelihood test Raw likelihood test Performances
23	Méthodes de séparation aveugle de sources fondées sur des transformées temps-fréquence. Application à des signaux de parole. Puigt, Mathieu 13 December 2007 (has links) (PDF) Plusieurs méthodes de séparation aveugle de source (SAS), fondées sur des transformées temps-fréquence (TF), ont été proposées au cours de cette thèse. En sortie des systèmes utilisés, une contribution de chaque source est estimée, uniquement à l'aide des signaux mélangés. Toutes les méthodes étudiées dans ce manuscrit trouvent des petites zones du plan TF où une seule source est présente et estiment dans ces zones les paramètres de mélange. Ces approches sont particulièrement adaptées aux sources non-stationnaires.<br />Nous avons tout d'abord étudié et amélioré des méthodes proposées précédemment par l'équipe, basées sur des critères de variance ou de corrélation, pour des mélanges linéaires instantanés. Elles apportent d'excellentes performances pour des signaux de parole et peuvent aussi séparer des spectres issus de données astrophysiques. Cependant, la nature des mélanges qu'elles peuvent traiter limite leur champ d'application.<br />Nous avons donc étendu ces approches à des mélanges plus réalistes. Les premières extensions considèrent des mélanges de sources atténuées et décalées temporellement, ce qui correspond physiquement aux mélanges en chambre anéchoïque. Elles nécessitent des hypothèses de parcimonie beaucoup moins fortes que certaines approches de la littérature, tout en traitant le même type de mélanges. Nous avons étudié l'apport de méthodes de classification non-supervisée sur nos approches et avons obtenu de bonnes performances pour des mélanges de signaux de parole.<br />Enfin, une extension théorique aux mélanges convolutifs généraux est décrite mais nécessite de fortes hypothèses de parcimonie et le réglage d'indéterminations propres aux méthodes fréquentielles. séparation aveugle de sources mélanges linéaires instantanés mélanges convolutifs parcimonie analyse temps-fréquence sources non-stationnaires classification non-supervisée
24	Aide au diagnostic de cancers cutanés et de la leucémie lymphoïde chronique par microspectroscopies vibrationnelles couplées à des analyses numériques multivariées / Vibrational spectroscopies coupled with numerical multivariate analyzes as an aid to diagnose skin cancers and chronic lymphocytic leukemia Happillon, Teddy 12 December 2013 (has links) La spectroscopie vibrationnelle est une technologie permettant de générer une grande quantité de données très informatives quant à la composition moléculaire des échantillons analysés. Lorsqu'elle est couplée à des méthodes chimiométriques de traitement et de classification de données, elle devient un outil très performant pour l'identification de structures et sous-structures des échantillons. Appliqué dans le domaine du biomédical, cet outil présente alors un fort potentiel pour le diagnostic de maladie. C'est dans ce cadre qu'ont été réalisés les travaux de ce manuscrit. Dans une première étude relevant du développement algorithmique, un algorithme automatique de classification non supervisée (basé sur les Fuzzy C-Means) et récemment implémenté au sein du laboratoire pour apporter une aide au diagnostic de cancers cutanés par imagerie infrarouge, a été amélioré afin de i) considérablement réduire le temps nécessaire à son exécution ii) augmenter la qualité des résultats obtenus sur les données infrarouge et iii) étendre son champs d'application à des données réelles et simulées, habituellement employées dans la littérature. Cet outil a été testé sur des données infrarouge acquises sur 16 échantillons de cancers cutanés (BCC, SCC, maladie de Bowen et mélanomes), et sur 49 jeux de données réels et simulés. Les résultats obtenus ont montré la capacité de ce nouvel algorithme à estimer des partitions proches de la réalité quelque soit le type de données étudié. La seconde étude de ce manuscrit avait pour but de mettre au point un outil chimiométrique autonome d'aide au diagnostic de la leucémie lymphoïde chronique par spectroscopie Raman. Dans ce travail, des traitements numériques et l'algorithme de classification supervisée Support Vector Machines, ont été appliqués à des données acquises sur des cellules sanguine de 27 témoins et 49 patients présentant une leucémie lymphoïde chronique. Les résultats de classification obtenus ont montré une sensibilité de 80% et une spécificité de 100% dans la détection de la maladie. / Vibrational spectroscopy is a technology able to record a large amount of molecular information from studied samples. Coupled with chemometrics and classification methods, vibrational spectroscopy is an efficient tool to identify sample structures and substructures. When applied to the biomedical field, this tool shows a high potential for disease diagnosis. It is in this context that the works presented in this thesis have been realized. In a first study, dealing with algorithmic development, an automatic and unsupervised classification algorithm (based on the Fuzzy C-Means) and developed by our laboratory in order to help for skin cancer diagnosis using IR spectroscopy, was improved in order to i) reduce the computational time needed to realize clustering, ii) increase results quality obtained on infrared data, iii) and extend its application fields to simulated and real datasets, commonly used in the literature. This tool has been tested on 16 infrared spectral images of skin cancers (BCC, SCC, Bowen's disease and melanoma), and 49 real and simulated datasets. The obtained results showed the ability of this new algorithm to estimate realistic data partitions regardless the considered dataset. The second study of this work aimed at developing an independent chemometric tool to assist for chronic lymphocytic leukemia diagnosis by Raman spectroscopy. In this second work, different numerical preprocessing steps and a supervised classification algorithm, Support Vector Machines, have been applied on data recorded on blood cells coming from 27 healthy persons and 49 patients with chronic lymphocytic leukemia. The classification results showed a sensitivity of 80% and a specificity of 100% in the disease diagnosis. Classification non supervisée Classification supervisée Spectroscopie infrarouge Cancers cutanés Leucémie lymphoïde chronique Spectroscopie Raman Unsupervised clustering Supervised clustering Infrared spectroscopy Skin cancers Chronic lymphocytic leukemia Raman spectroscopy 610
25	Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole / Acoustic model structuring for improving automatic speech recognition performance Gorin, Arseniy 26 November 2014 (has links) Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit) / This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise) Reconnaissance de la parole Classification non supervisée Modèles de classes de locuteurs Modèles stochastiques de trajectoire Variabilité de locuteur Speech recognition Unsupervised clustering Speaker class modeling Stochastic trajectory modeling Speaker variability 006.454
26	SALZA : mesure d’information universelle entre chaînes pour la classificationet l’inférence de causalité / SALZA : universal information measure between strings for classifiation and causality Revolle, Marion 25 October 2018 (has links) Les données sous forme de chaîne de symboles sont très variées (ADN, texte, EEG quantifié,…) et ne sont pas toujours modélisables. Une description universelle des chaînes de symboles indépendante des probabilités est donc nécessaire. La complexité de Kolmogorov a été introduite en 1960 pour répondre à cette problématique. Le concept est simple : une chaîne de symboles est complexe quand il n'en existe pas une description courte. La complexité de Kolmogorov est le pendant algorithmique de l’entropie de Shannon et permet de définir la théorie algorithmique de l’information. Cependant, la complexité de Kolmogorov n’est pas calculable en un temps fini ce qui la rend inutilisable en pratique.Les premiers à rendre opérationnelle la complexité de Kolmogorov sont Lempel et Ziv en 1976 qui proposent de restreindre les opérations de la description. Une autre approche est d’utiliser la taille de la chaîne compressée par un compresseur sans perte. Cependant ces deux estimateurs sont mal définis pour le cas conditionnel et le cas joint, il est donc difficile d'étendre la complexité de Lempel-Ziv ou les compresseurs à la théorie algorithmique de l’information.Partant de ce constat, nous introduisons une nouvelle mesure d’information universelle basée sur la complexité de Lempel-Ziv appelée SALZA. L’implémentation et la bonne définition de notre mesure permettent un calcul efficace des grandeurs de la théorie algorithmique de l’information.Les compresseurs sans perte usuels ont été utilisés par Cilibrasi et Vitányi pour former un classifieur universel très populaire : la distance de compression normalisée [NCD]. Dans le cadre de cette application, nous proposons notre propre estimateur, la NSD, et montrons qu’il s’agit d’une semi-distance universelle sur les chaînes de symboles. La NSD surclasse la NCD en s’adaptant naturellement à davantage de diversité des données et en définissant le conditionnement adapté grâce à SALZA.En utilisant les qualités de prédiction universelle de la complexité de Lempel-Ziv, nous explorons ensuite les questions d’inférence de causalité. Dans un premier temps, les conditions algorithmiques de Markov sont rendues calculables grâce à SALZA. Puis en définissant pour la première l’information dirigée algorithmique, nous proposons une interprétation algorithmique de la causalité de Granger algorithmique. Nous montrons, sur des données synthétiques et réelles, la pertinence de notre approche. / Data in the form of strings are varied (DNA, text, quantify EEG) and cannot always be modeled. A universal description of strings, independent of probabilities, is thus necessary. The Kolmogorov complexity was introduced in 1960 to address the issue. The principle is simple: a string is complex if a short description of it does not exist. The Kolmogorov complexity is the counterpart of the Shannon entropy and defines the algorithmic information theory. Yet, the Kolmogorov complexity is not computable in finit time making it unusable in practice.The first ones to make operational the Kolmogorov complexity are Lempel and Ziv in 1976 who proposed to restrain the operations of the description. Another approach uses the size of the compressed string by a lossless data compression algorithm. Yet these two estimators are not well-defined regarding the joint and conditional complexity cases. So, compressors and Lempel-Ziv complexity are not valuable to estimate algorithmic information theory.In the light of this observation, we introduce a new universal information measure based on the Lempel-Ziv complexity called SALZA. The implementation and the good definition of our measure allow computing efficiently values of the algorithmic information theory.Usual lossless compressors have been used by Cilibrasi and Vitányi to define a very popular universal classifier: the normalized compression distance [NCD]. As part of this application, we introduce our own estimator, called the NSD, and we show that the NSD is a universal semi-distance between strings. NSD surpasses NCD because it gets used to a large data set and uses the adapted conditioning with SALZA.Using the accurate universal prediction quality of the Lempel-Ziv complexity, we explore the question of causality inference. At first, we compute the algorithmic causal Markov condition thanks to SALZA. Then we define, for the first time, the algorithmic directed information and based on it we introduce the algorithmic Granger causality. The relevance of our approach is demonstrated on real and synthetic data. Complexité de Lempel Ziv Mesure d’information universelle Classification non supervisée Causalité Lempel-Ziv complexity Algorithmic information theory Universal information measure Unsupervised classification Causality 004 620
27	Contributions à l'étude de la classification spectrale et applications / Contributions to the study of spectral clustering and applications Mouysset, Sandrine 07 December 2010 (has links) La classification spectrale consiste à créer, à partir des éléments spectraux d'une matrice d'affinité gaussienne, un espace de dimension réduite dans lequel les données sont regroupées en classes. Cette méthode non supervisée est principalement basée sur la mesure d'affinité gaussienne, son paramètre et ses éléments spectraux. Cependant, les questions sur la séparabilité des classes dans l'espace de projection spectral et sur le choix du paramètre restent ouvertes. Dans un premier temps, le rôle du paramètre de l'affinité gaussienne sera étudié à travers des mesures de qualités et deux heuristiques pour le choix de ce paramètre seront proposées puis testées. Ensuite, le fonctionnement même de la méthode est étudié à travers les éléments spectraux de la matrice d'affinité gaussienne. En interprétant cette matrice comme la discrétisation du noyau de la chaleur définie sur l'espace entier et en utilisant les éléments finis, les vecteurs propres de la matrice affinité sont la représentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces résultats permettent de définir des propriétés de classification et des conditions sur le paramètre gaussien. A partir de ces éléments théoriques, deux stratégies de parallélisation par décomposition en sous-domaines sont formulées et testées sur des exemples géométriques et de traitement d'images. Enfin dans le cadre non supervisé, le classification spectrale est appliquée, d'une part, dans le domaine de la génomique pour déterminer différents profils d'expression de gènes d'une légumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des régions du cerveau présentant les mêmes courbes d'activités temporelles. / The Spectral Clustering consists in creating, from the spectral elements of a Gaussian affinity matrix, a low-dimension space in which data are grouped into clusters. This unsupervised method is mainly based on Gaussian affinity measure, its parameter and its spectral elements. However, questions about the separability of clusters in the projection space and the spectral parameter choices remain open. First, the rule of the parameter of Gaussian affinity will be investigated through quality measures and two heuristics for choosing this setting will be proposed and tested. Then, the method is studied through the spectral element of the Gaussian affinity matrix. By interpreting this matrix as the discretization of the heat kernel defined on the whole space and using finite elements, the eigenvectors of the affinity matrix are asymptotic representation of functions whose support is included in one connected component. These results help define the properties of clustering and conditions on the Gaussian parameter. From these theoretical elements, two parallelization strategies by decomposition into sub-domains are formulated and tested on geometrical examples and images. Finally, as unsupervised applications, the spectral clustering is applied, first in the field of genomics to identify different gene expression profiles of a legume and the other in the imaging field functional PET, to segment the brain regions with similar time-activity curves. Classification non supervisée Classification spectrale Noyau gaussien Equation de la chaleur Éléments finis Parallélisation Imagerie médicale Clustering Spectral clustering Gaussian kernel Heat equation Finite elements Parallelization Medical imaging
28	Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées. / Self-Organizing Maps for the clustering of mixed feature-type symbolic data, of interval-valued data and of binned data Hajjar, Chantal 10 February 2014 (has links) Cette thèse s'inscrit dans le cadre de la classification automatique de données symboliques par des méthodes géométriques bio-inspirées, plus spécifiquement par les cartes auto-organisatrices. Nous mettons en place plusieurs algorithmes d'apprentissage des cartes auto-organisatrices pour classifier des données symboliques mixtes ainsi que des données de type intervalle et des données discrétisées. Plusieurs jeux de données symboliques simulées et réelles, dont deux construits dans le cadre de cette thèse, sont utilisés pour tester les méthodes proposées. En plus, nous proposons une carte auto-organisatrice pour les données discrétisées (binned data) dans le but d'accélérer l'apprentissage des cartes classiques et nous appliquons la méthode proposée à la segmentation d'images. / This thesis concerns the clustering of symbolic data with bio-inspired geometric methods, more specifically with Self-Organizing Maps. We set up several learning algorithms for the self-organizing maps in order to cluster mixed-feature symbolic data as well as interval-valued data and binned data. Several simulated and real symbolic data sets, including two sets built as part of this thesis, are used to test the proposed methods. In addition, we propose a self-organizing map for binned data in order to accelerate the learning of standard maps, and we use the proposed method for image segmentation. Cartes auto-organisatrices Classification non supervisée Données symboliques Données de type intervalle Données discrétisées Self-Organizing Maps Clustering Symbolic Data Interval-valued data Binned Data 378.242
29	Estimation et sélection en classification semi-supervisée Vandewalle, Vincent 09 December 2009 (has links) (PDF) Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. [MATH] Mathematics modèles de mélange estimation par maximum de vraisemblance données manquantes algorithme EM analyse discriminante classification semi-supervisée modèles parcimonieux choix de modèle
30	MÉLIDIS : Reconnaissance de formes par modélisation mixte intrinsèque/discriminante à base de systèmes d'inférence floue hiérarchisés Ragot, Nicolas 28 October 2003 (has links) (PDF) La problématique de la reconnaissance de formes manuscrites est particulièrement riche et complexe. Il existe en effet un grand nombre de problèmes différents à traiter dans lesquels les formes à reconnaître sont nombreuses, soumises à une variabilité importante et donc sources de confusions. De plus, les contraintes applicatives, et notamment celles résultant de la volonté de diffusion des moyens informatiques au travers de l'informatique nomade (PDA, smart phone...), font que la conception et l'adaptation de systèmes de reconnaissance à des contextes précis d'utilisation sont particulièrement délicats.<br /><br />Pour faciliter cette mise au point nous proposons une méthodologie de classification visant à réunir un ensemble de propriétés rarement satisfaites dans une même approche : performances, généricité, fiabilité, robustesse, compacité et interprétabilité. Ce dernier point est particulièrement important puisqu'il permet au concepteur d'adapter, de maintenir et d'optimiser le système plus facilement. L'approche proposée, centrée sur la notion de connaissances dans un classifieur, est entièrement guidée par les données. L'originalité réside notamment dans l'exploitation conjointe de connaissances intrinsèques et discriminantes extraites automatiquement et organisées sur deux niveaux pour bénéficier au mieux de leur complémentarité. Le premier niveaux modélise les classes de façon explicite par des prototypes flous. Ceux-ci sont notamment utilisés pour décomposer le problème initial en sous-problèmes dans lesquels les formes possèdant des propriétés intrinsèques similaires sont regroupées. Le second niveau effectue ensuite une discrimination ciblée sur ces sous-problèmes par des arbres de décision flous. L'ensemble est formalisé de façon homogène par des systèmes d'inférence floue qui sont combinés pour la classification.<br /><br />Cette approche a conduit à la réalisation du système Mélidis qui a été validé sur plusieurs benchmarks dont des problèmes de reconnaissance de caractères manuscrits en ligne. Reconnaissance de formes logique floue systèmes d'inférence floue classification non supervisée arbres de décision flous combinaison de classifieurs reconnaissance de formes manuscrites

Search results