Global ETD Search

1	Nouvelle approche d'identification dans les bases de données biométriques basée sur une classification non supervisée / A new identification approach in biometric databases based on unsupervised classification Chaari, Anis 06 October 2009 (has links) Les travaux effectués dans le cadre de cette thèse portent sur l’identification automatique de visages dans des bases de données d’images numériques. L’objectif est de simplifier le déroulement de l’identification biométrique qui consiste à la recherche de l’identité requête parmi l’ensemble des individus de la base de données préenregistrée, appelée aussi galerie. En effet, le schéma d’identification classique est complexe et très coûteux notamment dans le cas de grandes bases de données biométriques. Le processus original que nous proposons ici a pour objectif de réduire la complexité et d’améliorer les performances en terme de temps de calcul et de taux d’identification. Dans ce cadre biométrique, nous avons proposé une étape de classification non supervisée ou clustering des visages pour partitionner la base d’images en plusieurs sous ensembles cohérents et bien discriminés. Pour ce faire, l’algorithme de clustering vise à extraire, pour chaque visage, un ensemble de descripteurs, appelé signature, qui lui soit spécifique. Trois techniques de représentation faciales ont été développées dans le but d’extraire des informations différentes et complémentaires décrivant le visage humain : deux méthodes factorielles d’analyse multidimensionnelle et de projection des données (méthodes dites « Eigenfaces » et « Fisherfaces ») ainsi qu’une méthode d’extraction des moments géométriques de Zernike. Sur la base des différentes classes de signatures extraites pour chaque visage plusieurs méthodes de clustering sont mises en compétition afin de dégager la classification optimale qui conduit à une meilleure réduction de la galerie. Les méthodes retenues sont, soit de type « centres mobiles » telles que les K-moyennes et les centres mobiles de Forgy, ou de type « agglomérative » telle que la méthode de BIRCH. Sur la base de la dépendance des partitions générées, ces différentes stratégies classificatoires sont ensuite combinées suivant une architecture parallèle de manière à optimiser la réduction de l’espace de recherche à un sous ensemble de la base de données. Les clusters retenus in fine étant ceux pour lesquels la probabilité d’appartenance de l’identité requête est quasi certaine. / The work done in the framework of this thesis deal with the automatic faces identification in databases of digital images. The goal is to simplify biometric identification process that is seeking the query identity among all identities enrolled in the database, also called gallery. Indeed, the classical identification scheme is complex and requires large computational time especially in the case of large biometric databases. The original process that we propose here aims to reduce the complexity and to improve the computing time and the identification rate performances. In this biometric context, we proposed an unsupervised classification or clustering of facial images in order to partition the enrolled database into several coherent and well discriminated subsets. In fact, the clustering algorithm aims to extract, for each face, a specific set of descriptors, called signature. Three facial representation techniques have been developed in order to extract different and complementary information which describe the human face: two factorial methods of multidimensional analysis and data projection (namely called "Eigenfaces" and "Fisherfaces") and a method of extracting geometric Zernike moments. On the basis of the different signatures obtained for each face, several clustering methods are used in competing way in order to achieve the optimal classification which leads to a greater reduction of the gallery. We used either "mobile centers" methods type such as the K-means algorithm of MacQueen and that of Forgy, and the "agglomerative" method of BIRCH. Based on the dependency of the generated partitions, these different classifying strategies are then combined using a parallel architecture in order to maximize the reduction of the search space to the smallest subset of the database. The retained clusters in fine are those which contain the query identity with an almost certain probability. Read more Classification non supervisée
2	Contribution à la classification par modèles de mélange et classification simultanée d’échantillons d’origines multiples / Contribution to Model-Based Clustering and Simultaneous Clustering of Samples Arising from Multiple Origins Lourme, Alexandre 17 June 2011 (has links) Dans la première partie de cette thèse nous passons en revue la classification par modèle de mélange. En particulier nous décrivons une famille de mélanges gaussiens d’un usage courant, dont la parcimonie porte sur des paramètres d’interprétation géométrique. Comme ces modèles possèdent des inconvénients majeurs, nous leur opposons une nouvelle famille de mélanges dont la parcimonie porte sur des paramètres statistiques. Ces nouveaux modèles possèdent de nombreuses propriétés de stabilité qui les rendent mathématiquement cohérents et facilitent leur interprétation. Dans la seconde partie de ce travail nous présentons une méthode nouvelle dite de classification simultanée. Nous montrons que la classification d'un échantillon revient très souvent au partitionnement de plusieurs échantillons ; puis nous proposons d'établir un lien entre la population d'origine des différents échantillons. Ce lien, dont la nature varie selon le contexte, a toujours pour vocation de formaliser de façon réaliste une information commune aux données à classifier.Lorsque les échantillons sont décrits par des variables de même signification et que l'on cherche le même nombre de groupes dans chacun d'eux, nous établissons un lien stochastique entre populations conditionnelles. Lorsque les variables sont différentes mais sémantiquement proches d'un échantillon à l'autre, il se peut que leur pouvoir discriminant soit similaire et que l'imbrication des données conditionnelles soit comparable. Nous envisageons des mélanges spécifiques à ce contexte, liés par un chevauchement homogène de leurs composantes. / In the first part of this work we review the mixture model-based clustering method. In particular we describe a family of common Gaussian mixtures the parsimony of which is about geometrical parameters. As these models suffer from major drawbacks, we display new Gaussian mixtures the parsimony of which focuses on statistical parameters. These new models own many stability properties that make them mathematically consistent and facilitate their interpretation. In the second part of this work we display the so-called simultaneous clustering method. We highlight that the classification of a single sample can often be seen as a multiple sample clustering problem; then we propose to establish a link between the original population of the diverse samples. This link varies depending on the context but it always tries to formalize in a realistic way some common information of the samples to classify. When samples are described by variables with identical meaning and when the same number of groups is researched within each of them, we establish a stochastic link between the conditional populations. When the variables are different but semantically close through the diverse samples nevertheless their discriminant power may be similar and the nesting of the conditional data can be comparable. We consider specific mixtures dedicated to this context: the link between the populations consists in an homogeneous overlap of the components. Read more Classification non-supervisée Mélanges gaussiens 519.537
3	Sélection de variables pour la classification non supervisée par mélanges gaussiens. Application à l'étude de données transcriptomes. Maugis, Cathy 21 November 2008 (has links) (PDF) Nous nous intéressons à la sélection de variables en classification non supervisée par mélanges gaussiens. Ces travaux sont en particulier motivés par la classification de gènes à partir de données transcriptomes. Dans les deux parties de cette thèse, le problème est ramené à celui de la sélection de modèles.<br />Dans la première partie, le modèle proposé, généralisant celui de Raftery et Dean (2006) permet de spécifier le rôle des variables vis-à-vis du processus de classification. Ainsi les variables non significatives peuvent être dépendantes d'une partie des variables retenues pour la classification. Ces modèles sont comparés grâce à un critère de type BIC. Leur identifiabilité est établie et la consistance du critère est démontrée sous des conditions de régularité. En pratique, le statut des variables est obtenu grâce à un algorithme imbriquant deux algorithmes descendants de sélection de variables pour la classification et pour la régression linéaire. L'intérêt de cette procédure est en particulier illustré sur des données transcriptomes. Une amélioration de la modélisation du rôle des variables, consistant à répartir les variables déclarées non significatives entre celles dépendantes et celles indépendantes des variables significatives pour la classification, est ensuite proposée pour pallier une surpénalisation de certains modèles. Enfin, la technologie des puces à ADN engendrant de nombreuses données manquantes, une extension de notre procédure tenant compte de l'existence de ces valeurs manquantes est suggérée, évitant leur<br />estimation préalable.<br />Dans la seconde partie, des mélanges gaussiens de formes spécifiques sont considérés et un critère pénalisé non asymptotique est proposé pour sélectionner simultanément le nombre de composantes du mélange et l'ensemble des variables pertinentes pour la classification. Un théorème général de sélection de modèles pour l'estimation de densités par maximum de vraisemblance, proposé par Massart (2007), est utilisé pour déterminer la forme de la pénalité. Ce théorème nécessite le contrôle de l'entropie à crochets des familles de mélanges gaussiens multidimensionnels étudiées. Ce critère dépendant de constantes multiplicatives inconnues, l'heuristique dite "de la pente" est mise en oeuvre pour permettre une utilisation effective de ce critère. Read more [MATH] Mathematics Sélection de variables classification non supervisée mélanges gaussiens données transcriptomes
4	Diversité des interneurones dans le cortex en tonneau de la souris Perrenoud, Quentin 24 November 2011 (has links) (PDF) Les interneurones GABAergiques sont des composants cruciaux du réseau neocortical et la caractérisation fonctionnelle du neocortex a été fortement ralentie par l'absence de consensus concernant leur classification. Les interneurones se différencient du point de vue électrophysiologique et morphologique ainsi que par l'expression de marqueurs moléculaires. Une controverse demeure cependant, pour déterminer si la combinaison de ces caractéristiques définit des classes séparées ou au contraire, un continuum phénotypique où chaque cellule est unique. Pendant ma thèse, je me suis proposé d'étudier la diversité des interneurons neocorticaux en prenant en compte l'ensemble de ces critères. Des enregistrements de patch-clamp couplés à la technique de PCR sur cellule unique ont été réalisés sur un échantillon de plus de 300 interneurones et l'arborisation de près de 200 d'entre eux a été reconstruites en 3 dimensions. Les phénotypes électrophysiologiques, morphologiques et moléculaires de notre échantillon ont été quantifiés au travers d'un ensemble de 56 paramètres quantitatifs. Cet échantillon a d'abord été utilisé pour caractériser les interneurones dans la couche VI du neocortex, une région où ils n'avaient été que partiellement décrits. En utilisant une approche non supervisée, 4 classes d'interneurones ont pu être identifiées sur la base de propriétés électrophysiologiques, morphologiques et moléculaires. Additionnellement, en utilisant des immunomarquages sur des souris GAD67::GFP Knock-In, les distributions d'interneurones exprimant des marqueurs caractéristiques ont été cartographiées à travers la couche VI, mettant en évidence que des populations distinctes s'accumulent dans des sous-couches particulières. Ces analyses ont été soumises pour publication. Nous avons ensuite entrepris de caractériser la diversité des interneurones à travers l'ensemble des couches du neocortex. En utilisant des méthodes non supervisées reposant sur les propriétés électrophysiologiques et moléculaires des interneurones, nous avons montré que les classes que nous avions caractérisées dans la couche VI pouvaient être identifiées sur l'ensemble de notre échantillon. Toutefois, en analysant la séparation de ces classes avec des méthodes analytiques, nous avons trouvé que, si certaines formaient des archétypes distincts, une fraction substantielle de notre échantillon présentait des phénotypes intermédiaires à des classes particulières. Ce travail suggère donc que les interneurones du neocortex se séparent bien en plusieurs populations, mais que ces groupes ne constituent pas des classes distinctes mais plutôt des archétypes phénotypiques. Ces résultats supportent une nouvelle façon de regarder la diversité des interneurones GABAErgiques et seront rapportés dans un second article. Read more neocortex interneurones classification non supervisée continuum
5	Estimation et sélection en classification semi-supervisée / Estimation and selection in semi-supervised classification Vandewalle, Vincent 09 December 2009 (has links) Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AICcond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée.Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. / The subject of this thesis is the semi-supervised classification which is considered in decision-making perpective. We are interested in model choice issue in when models are estimated using both labeled data and many unlabeled data. We focus our research on generative models for which the semi-supervised classification is considered without difficulty, unlike predictive framework that requires additional unnatural assumptions. Having developed a state of the art of semi-supervised classification, we describe the estimation of parameters of a classification model using labeled data and unlabeled data by the EM algorithm. Our contributions on models selection closely watched in the two following chapters. In Chapter 3, we present a statistical test where unlabeled data are used to test the model. In Chapter 4 we present a model selection criterion, AICcond, derived from the AIC criterion in a predictive point of view. We prove the asymptotic convergence of this test particularly well suited to semi-supervised setting and his good practical performance compared to the cross-validation and other penalized likelihood criteria.A second part of the thesis, not directly connected with the semi-supervised setting, the multinomial models for classification of qualitative variables are considered. We designed these models to address the limitations of parsimonious multinomial models proposed in the program MIXMOD. For this setting, we propose a BIC-type criterion which takes into account specifically the complexity of the constrained multinomial models. Read more Classification semi-supervisée Variables qualitatives Modèles génératifs Modèles multinomiaux parcimonieux
6	Techniques d'identification d'entités nommées et de classification non-supervisée pour des requêtes de recherche web à l'aide d'informations contenues dans les pages web visitées Goulet, Sylvain January 2014 (has links) Le web est maintenant devenu une importante source d’information et de divertissement pour un grand nombre de personnes et les techniques pour accéder au contenu désiré ne cessent d’évoluer. Par exemple, en plus de la liste de pages web habituelle, certains moteurs de recherche présentent maintenant directement, lorsque possible, l’information recherchée par l’usager. Dans ce contexte, l’étude des requêtes soumises à ce type de moteur de recherche devient un outil pouvant aider à perfectionner ce genre de système et ainsi améliorer l’expérience d’utilisation de ses usagers. Dans cette optique, le présent document présentera certaines techniques qui ont été développées pour faire l’étude des requêtes de recherche web soumises à un moteur de recherche. En particulier, le travail présenté ici s’intéresse à deux problèmes distincts. Le premier porte sur la classification non-supervisée d’un ensemble de requêtes de recherche web dans le but de parvenir à regrouper ensemble les requêtes traitant d’un même sujet. Le deuxième problème porte quant à lui sur la détection non-supervisée des entités nommées contenues dans un ensemble de requêtes qui ont été soumises à un moteur de recherche. Les deux techniques proposées utilisent l’information supplémentaire apportée par la connaissance des pages web qui ont été visitées par les utilisateurs ayant émis les requêtes étudiées. Read more Classification non-supervisée Requête de recherche web Détection d’entités nommées Topic modeling Fouille du web
7	Contributions à l'étude de la classification spectrale et applications Mouysset, Sandrine 07 December 2010 (has links) (PDF) La classification spectrale consiste à créer, à partir des éléments spectraux d'une matrice d'affinité gaussienne, un espace de dimension réduite dans lequel les données sont regroupées en classes. Cette méthode non supervisée est principalement basée sur la mesure d'affinité gaussienne, son paramètre et ses éléments spectraux. Cependant, les questions sur la séparabilité des classes dans l'espace de projection spectral et sur le choix du paramètre restent ouvertes. Dans un premier temps, le rôle du paramètre de l'affinité gaussienne sera étudié à travers des mesures de qualités et deux heuristiques pour le choix de ce paramètre seront proposées puis testées. Ensuite, le fonctionnement même de la méthode est étudié à travers les éléments spectraux de la matrice d'affinité gaussienne. En interprétant cette matrice comme la discrétisation du noyau de la chaleur définie sur l'espace entier et en utilisant les éléments finis, les vecteurs propres de la matrice affinité sont la représentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces résultats permettent de définir des propriétés de classification et des conditions sur le paramètre gaussien. A partir de ces éléments théoriques, deux stratégies de parallélisation par décomposition en sous-domaines sont formulées et testées sur des exemples géométriques et de traitement d'images. Enfin dans le cadre non supervisé, le classification spectrale est appliquée, d'une part, dans le domaine de la génomique pour déterminer différents profils d'expression de gènes d'une légumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des régions du cerveau présentant les mêmes courbes d'activités temporelles. Read more [MATH] Mathematics classification non supervisée classification spectrale noyau gaussien équation de la chaleur éléments finis parallélisation imagerie médicale
8	Unsupervised Gaussian mixture models for the classification of outdoor environments using 3D terrestrial lidar data / Modèles de mélange gaussien sans surveillance pour la classification des environnements extérieurs en utilisant des données 3D de lidar terrestre Fernandes maligo, Artur otavio 28 January 2016 (has links) Le traitement de nuages de points 3D de lidars permet aux robots mobiles autonomes terrestres de construire des modèles sémantiques de l'environnement extérieur dans lequel ils évoluent. Ces modèles sont intéressants car ils représentent des informations qualitatives, et ainsi donnent à un robot la capacité de raisonner à un niveau plus élevé d'abstraction. Le coeur d'un système de modélisation sémantique est la capacité de classifier les observations venant du capteur. Nous proposons un système de classification centré sur l'apprentissage non-supervisé. La prémière couche, la couche intermédiaire, consiste en un modèle de mélange gaussien. Ce modèle est déterminé de manière non-supervisée lors d'une étape de training. Il definit un ensemble de classes intermédiaires qui correspond à une partition fine des classes présentes dans l'environnement. La deuxième couche, la couche finale, consiste en un regroupement des classes intermédiaires dans un ensemble de classes finales qui, elles, sont interprétables dans le contexte de la tâche ciblée. Le regroupement est déterminé par un expert lors de l'étape de training, de manière supervisée, mais guidée par les classes intermédiaires. L'évaluation est basée sur deux jeux de données acquis avec de différents lidars et possédant différentes caractéristiques. L'évaluation est quantitative pour l'un des jeux de données, et qualitative pour l'autre. La concéption du système utilise la procédure standard de l'apprentissage, basée sur les étapes de training, validation et test. L'opération suit la pipeline standard de classification. Le système est simple, et ne requiert aucun pré-traitement ou post-traitement. / The processing of 3D lidar point clouds enable terrestrial autonomous mobile robots to build semantic models of the outdoor environments in which they operate. Such models are interesting because they encode qualitative information, and thus provide to a robot the ability to reason at a higher level of abstraction. At the core of a semantic modelling system, lies the capacity to classify the sensor observations. We propose a two-layer classi- fication model which strongly relies on unsupervised learning. The first, intermediary layer consists of a Gaussian mixture model. This model is determined in a training step in an unsupervised manner, and defines a set of intermediary classes which is a fine-partitioned representation of the environment. The second, final layer consists of a grouping of the intermediary classes into final classes that are interpretable in a considered target task. This grouping is determined by an expert during the training step, in a process which is supervised, yet guided by the intermediary classes. The evaluation is done for two datasets acquired with different lidars and possessing different characteristics. It is done quantitatively using one of the datasets, and qualitatively using another. The system is designed following the standard learning procedure, based on a training, a validation and a test steps. The operation follows a standard classification pipeline. The system is simple, with no requirement of pre-processing or post-processing stages. Read more Classification non-supervisée Mélange de gaussiennes Données 3D Lidar Gaussian mixtures Lidar point-clouds Unsupervised classification 629.8
9	Analyse des données évolutives : application aux données d'usage du Web Gomes Da Silva, Alzennyr 24 September 2009 (has links) (PDF) Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée. Read more [INFO] Computer Science Analyse de données classification non supervisée données évolutives fouille d'usage du Web
10	Méthodes probabilistes pour l'analyse exploratoire de données textuelles Rigouste, Loïs 11 1900 (has links) (PDF) Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques. Read more

Search results