Global ETD Search

11	Segmentation/classification de processus. Application a l'analyse de donnees de microarrays CGH. Picard, Franck 16 November 2005 (has links) (PDF) Dans cette thèse nous proposons un nouveau modèle statistique pour l'analyse des problèmes de segmentation/classification dont l'objectif <br /> est de partitionner des données en zones homogènes, et de regrouper ces zones en un nombre fini de classes. Les problèmes de segmentation/classification sont traditionnellement étudiés à l'aide <br /> des modèles de chaînes de Markov cachées. Nous proposons un modèle alternatif qui combine un modèle de segmentation et un modèle de mélange.<br /> <br /> Nous construisons notre modèle dans le cas gaussien et nous proposons une généralisation à des variables discrètes dépendantes. Les paramètres de ce modèle sont estimés par maximum de vraisemblance à l'aide d'un algorithme hybride fondé sur la programmation dynamique et sur l'algorithme EM. Nous abordons un nouveau problème de sélection de modèle qui est la sélection simultanée du nombre de groupes et du nombre de segments et proposons une heuristique pour ce choix. <br /> <br /> Notre modèle est appliqué à l'analyse de données issues d'une nouvelle technologie, les microarrays CGH (Comparative Genomic Hybridization). Cette technique permet de compter le nombre de milliers de gènes le long du génome en une seule expérience. L'application de notre méthode à ces données permet de localiser des zones délétées ou amplifiées le long des chromosomes. Nous proposons également une application à l'analyse des séquences d'ADN pour l'identification de régions homogènes en terme de composition en nucléotides. [MATH] Mathematics [SDV] Life Sciences détection de ruptures modèles de mélange sélection de modèles programmation dynamique algorithme EM microarray CGH sequences d'ADN
12	Modèles de mélange semi-paramétriques et applications aux tests multiples. Nguyen, Van Hanh 01 October 2013 (has links) (PDF) Dans un contexte de test multiple, nous considérons un modèle de mélange semi-paramétrique avec deux composantes. Une composante est supposée connue et correspond à la distribution des p-valeurs sous hypothèse nulle avec probabilité a priori p. L'autre composante f est nonparamétrique et représente la distribution des p-valeurs sous l'hypothèse alternative. Le problème d'estimer les paramètres p et f du modèle apparaît dans les procédures de contrôle du taux de faux positifs (''false discovery rate'' ou FDR). Dans la première partie de cette dissertation, nous étudions l'estimation de la proportion p. Nous discutons de résultats d'efficacité asymptotique et établissons que deux cas différents arrivent suivant que f s'annule ou non surtout un intervalle non-vide. Dans le premier cas (annulation surtout un intervalle), nous présentons des estimateurs qui convergent \' la vitesse paramétrique, calculons la variance asymptotique optimale et conjecturons qu'aucun estimateur n'est asymptotiquement efficace (i.e atteint la variance asymptotique optimale). Dans le deuxième cas, nous prouvons que le risque quadratique de n'importe quel estimateur ne converge pas à la vitesse paramétrique. Dans la deuxième partie de la dissertation, nous nous concentrons sur l'estimation de la composante inconnue nonparamétrique f dans le mélange, en comptant sur un estimateur préliminaire de p. Nous proposons et étudions les propriétés asymptotiques de deux estimateurs différents pour cette composante inconnue. Le premier estimateur est un estimateur à noyau avec poids aléatoires. Nous établissons une borne supérieure pour son risque quadratique ponctuel, en montrant une vitesse de convergence nonparamétrique classique sur une classe de Holder. Le deuxième estimateur est un estimateur du maximum de vraisemblance régularisée. Il est calculé par un algorithme itératif, pour lequel nous établissons une propriété de décroissance d'un critère. De plus, ces estimateurs sont utilisés dans une procédure de test multiple pour estimer le taux local de faux positifs (''local false discovery rate'' ou lfdr). Modèles de mélange Semi-paramétrique Tests multiple Estimateurs à noyau Estimateurs par histogramme
13	Méthodes de géométrie de l'information pour les modèles de mélange Schwander, Olivier 15 October 2013 (has links) (PDF) Cette thèse présente de nouvelles méthodes pour l'apprentissage de modèles de mélanges basées sur la géométrie de l'information. Les modèles de mélanges considérés ici sont des mélanges de familles exponentielles, permettant ainsi d'englober une large part des modèles de mélanges utilisés en pratique. Grâce à la géométrie de l'information, les problèmes statistiques peuvent être traités avec des outils géométriques. Ce cadre offre de nouvelles perspectives permettant de mettre au point des algorithmes à la fois rapides et génériques. Deux contributions principales sont proposées ici. La première est une méthode de simplification d'estimateurs par noyaux. Cette simplification est effectuée à l'aide un algorithme de partitionnement, d'abord avec la divergence de Bregman puis, pour des raisons de rapidité, avec la distance de Fisher-Rao et des barycentres modèles. La seconde contribution est une généralisation de l'algorithme k-MLE permettant de traiter des mélanges où toutes les composantes ne font pas partie de la même famille: cette méthode est appliquée au cas des mélanges de Gaussiennes généralisées et des mélanges de lois Gamma et est plus rapide que les méthodes existantes. La description de ces deux méthodes est accompagnée d'une implémentation logicielle complète et leur efficacité est évaluée grâce à des applications en bio-informatique et en classification de textures. géométrie de l'information modèles de mélange famille exponentielle loi Gamma Gaussienne généralisée
14	Contributions aux méthodes bayésiennes approchées pour modèles complexes / Contributions to Bayesian Computing for Complex Models Grazian, Clara 15 April 2016 Récemment, la grande complexité des applications modernes, par exemple dans la génétique, l’informatique, la finance, les sciences du climat, etc. a conduit à la proposition des nouveaux modèles qui peuvent décrire la réalité. Dans ces cas,méthodes MCMC classiques ne parviennent pas à rapprocher la distribution a posteriori, parce qu’ils sont trop lents pour étudier le space complet du paramètre. Nouveaux algorithmes ont été proposés pour gérer ces situations, où la fonction de vraisemblance est indisponible. Nous allons étudier nombreuses caractéristiques des modèles complexes: comment éliminer les paramètres de nuisance de l’analyse et faire inférence sur les quantités d’intérêt,dans un cadre bayésienne et non bayésienne et comment construire une distribution a priori de référence. / Recently, the great complexity of modern applications, for instance in genetics,computer science, finance, climatic science etc., has led to the proposal of newmodels which may realistically describe the reality. In these cases, classical MCMCmethods fail to approximate the posterior distribution, because they are too slow toinvestigate the full parameter space. New algorithms have been proposed to handlethese situations, where the likelihood function is unavailable. We will investigatemany features of complex models: how to eliminate the nuisance parameters fromthe analysis and make inference on key quantities of interest, both in a Bayesianand not Bayesian setting, and how to build a reference prior. Abc Modèles de mélange Loi a priori de Jeffreys Vraisemblance integrée Modèles copula Abc Mixture models Jeffreys prior Integrated likelihood Copula models 519.2
15	Adaptation de modèles statistiques pour la séparation de sources mono-capteur Texte imprimé : application à la séparation voix / musique dans les chansons Ozerov, Alexey 15 December 2006 (has links) (PDF) La séparation de sources avec un seul capteur est un problème très récent, qui attire de plus en plus d'attention dans le monde scientifique. Cependant, il est loin d'être résolu et, même plus, il ne peut pas être résolu en toute généralité. La difficulté principale est que, ce problème étant extrêmement sous déterminé, il faut disposer de fortes connaissances sur les sources pour pouvoir les séparer. Pour une grande partie des méthodes de séparation, ces connaissances sont représentées par des modèles statistiques des sources, notamment par des Modèles de Mélange de Gaussiennes (MMG), qui sont appris auparavant à partir d'exemples. L'objet de cette thèse est d'étudier les méthodes de séparation basées sur des modèles statistiques en général, puis de les appliquer à un problème concret, tel que la séparation de la voix par rapport à la musique dans des enregistrements monophoniques de chansons. Apporter des solutions à ce problème, qui est assez difficile et peu étudié pour l'instant, peut être très utile pour faciliter l'analyse du contenu des chansons, par exemple dans le contexte de l'indexation audio. Les méthodes de séparation existantes donnent de bonnes performances à condition que les caractéristiques des modèles statistiques utilisés soient proches de celles des sources à séparer. Malheureusement, il n'est pas toujours possible de construire et d'utiliser en pratique de tels modèles, à cause de l'insuffisance des exemples d'apprentissage représentatifs et des ressources calculatoires. Pour remédier à ce problème, il est proposé dans cette thèse d'adapter a posteriori les modèles aux sources à séparer. Ainsi, un formalisme général d'adaptation est développé. En s'inspirant de techniques similaires utilisées en reconnaissance de la parole, ce formalisme est introduit sous la forme d'un critère d'adaptation Maximum A Posteriori (MAP). De plus, il est montré comment optimiser ce critère à l'aide de l'algorithme EM à différents niveaux de généralité. Ce formalisme d'adaptation est ensuite appliqué dans certaines formes particulières pour la séparation voix / musique. Les résultats obtenus montrent que pour cette tâche, l'utilisation des modèles adaptés permet d'augmenter significativement (au moins de 5 dB) les performances de séparation par rapport aux modèles non adaptés. Par ailleurs, il est observé que la séparation de la voix chantée facilite l'estimation de sa fréquence fondamentale (pitch), et que l'adaptation des modèles ne fait qu'améliorer ce résultat. modèles statistiques adaptation bayésienne maximum a posteriori réseaux bayésiens expectation maximization modèles de mélange de gaussiennes fitrage de Wiener adaptatif
16	Détection et classification de signatures temporelles CAN pour l'aide à la maintenance de sous-systèmes d'un véhicule de transport collectif CHEIFETZ, Nicolas 09 September 2013 (has links) (PDF) Le problème étudié dans le cadre de cette thèse porte essentiellement sur l'étape de détection de défaut dans un processus de diagnostic industriel. Ces travaux sont motivés par la surveillance de deux sous-systèmes complexes d'un autobus impactant la disponibilité des véhicules et leurs coûts de maintenance : le système de freinage et celui des portes. Cette thèse décrit plusieurs outils dédiés au suivi de fonctionnement de ces deux systèmes. On choisit une approche de diagnostic par reconnaissance des formes qui s'appuie sur l'analyse de données collectées en exploitation à partir d'une nouvelle architecture télématique embarquée dans les autobus. Les méthodes proposées dans ces travaux de thèse permettent de détecter un changement structurel dans un flux de données traité séquentiellement, et intègrent des connaissances disponibles sur les systèmes surveillés. Le détecteur appliqué aux freins s'appuie sur les variables de sortie (liées au freinage) d'un modèle physique dynamique du véhicule qui est validé expérimentalement dans le cadre de nos travaux. L'étape de détection est ensuite réalisée par des cartes de contrôle multivariées à partir de données multidimensionnelles. La stratégie de détection pour l'étude du système porte traite directement les données collectées par des capteurs embarqués pendant des cycles d'ouverture et de fermeture, sans modèle physique a priori. On propose un test séquentiel à base d'hypothèses alimenté par un modèle génératif pour représenter les données fonctionnelles. Ce modèle de régression permet de segmenter des courbes multidimensionnelles en plusieurs régimes. Les paramètres de ce modèle sont estimés par un algorithme de type EM dans un mode semi-supervisé. Les résultats obtenus à partir de données réelles et simulées ont permis de mettre en évidence l'efficacité des méthodes proposées aussi bien pour l'étude des freins que celle des portes [SPI:OTHER] Engineering Sciences/Other Diagnostic et maintenance préventive Détection de changement Tests séquentiels d'hypothèses Séquence de courbes Algorithme EM et modèles de mélange Système de freinage et portes d'autobus
17	Modèles de mélange semi-paramétriques et applications aux tests multiples / Semi-parametric mixture models and applications to multiple testing Nguyen, Van Hanh 01 October 2013 (has links) Dans un contexte de test multiple, nous considérons un modèle de mélange semi-paramétrique avec deux composantes. Une composante est supposée connue et correspond à la distribution des p-valeurs sous hypothèse nulle avec probabilité a priori p. L'autre composante f est nonparamétrique et représente la distribution des p-valeurs sous l'hypothèse alternative. Le problème d'estimer les paramètres p et f du modèle apparaît dans les procédures de contrôle du taux de faux positifs (``false discovery rate'' ou FDR). Dans la première partie de cette dissertation, nous étudions l'estimation de la proportion p. Nous discutons de résultats d'efficacité asymptotique et établissons que deux cas différents arrivent suivant que f s'annule ou non surtout un intervalle non-vide. Dans le premier cas (annulation surtout un intervalle), nous présentons des estimateurs qui convergent \`{a} la vitesse paramétrique, calculons la variance asymptotique optimale et conjecturons qu'aucun estimateur n'est asymptotiquement efficace (i.e atteint la variance asymptotique optimale). Dans le deuxième cas, nous prouvons que le risque quadratique de n'importe quel estimateur ne converge pas à la vitesse paramétrique. Dans la deuxième partie de la dissertation, nous nous concentrons sur l'estimation de la composante inconnue nonparamétrique f dans le mélange, en comptant sur un estimateur préliminaire de p. Nous proposons et étudions les propriétés asymptotiques de deux estimateurs différents pour cette composante inconnue. Le premier estimateur est un estimateur à noyau avec poids aléatoires. Nous établissons une borne supérieure pour son risque quadratique ponctuel, en montrant une vitesse de convergence nonparamétrique classique sur une classe de Holder. Le deuxième estimateur est un estimateur du maximum de vraisemblance régularisée. Il est calculé par un algorithme itératif, pour lequel nous établissons une propriété de décroissance d'un critère. De plus, ces estimateurs sont utilisés dans une procédure de test multiple pour estimer le taux local de faux positifs (``local false discovery rate'' ou lfdr). / In a multiple testing context, we consider a semiparametric mixture model with two components. One component is assumed to be known and corresponds to the distribution of p-values under the null hypothesis with prior probability p. The other component f is nonparametric and stands for the distribution under the alternative hypothesis. The problem of estimating the parameters p and f of the model appears from the false discovery rate control procedures. In the first part of this dissertation, we study the estimation of the proportion p. We discuss asymptotic efficiency results and establish that two different cases occur whether f vanishes on a non-empty interval or not. In the first case, we exhibit estimators converging at parametric rate, compute the optimal asymptotic variance and conjecture that no estimator is asymptotically efficient (i.e. attains the optimal asymptotic variance). In the second case, we prove that the quadratic risk of any estimator does not converge at parametric rate. In the second part of the dissertation, we focus on the estimation of the nonparametric unknown component f in the mixture, relying on a preliminary estimator of p. We propose and study the asymptotic properties of two different estimators for this unknown component. The first estimator is a randomly weighted kernel estimator. We establish an upper bound for its pointwise quadratic risk, exhibiting the classical nonparametric rate of convergence over a class of Holder densities. The second estimator is a maximum smoothed likelihood estimator. It is computed through an iterative algorithm, for which we establish a descent property. In addition, these estimators are used in a multiple testing procedure in order to estimate the local false discovery rate. Modèles de mélange Semi-paramétrique Tests multiple Semi-paramétrique Estimateurs à noyau Estimateurs par histogramme Mixture models Semi-parametric Multiple testing False discovery rate Kernel estimators Histogram based estimators
18	Inégalités d'oracle et mélanges / Oracle inequalities and mixtures Montuelle, Lucie 04 December 2014 (has links) Ce manuscrit se concentre sur deux problèmes d'estimation de fonction. Pour chacun, une garantie non asymptotique des performances de l'estimateur proposé est fournie par une inégalité d'oracle. Pour l'estimation de densité conditionnelle, des mélanges de régressions gaussiennes à poids exponentiels dépendant de la covariable sont utilisés. Le principe de sélection de modèle par maximum de vraisemblance pénalisé est appliqué et une condition sur la pénalité est établie. Celle-ci est satisfaite pour une pénalité proportionnelle à la dimension du modèle. Cette procédure s'accompagne d'un algorithme mêlant EM et algorithme de Newton, éprouvé sur données synthétiques et réelles. Dans le cadre de la régression à bruit sous-gaussien, l'agrégation à poids exponentiels d'estimateurs linéaires permet d'obtenir une inégalité d'oracle en déviation, au moyen de techniques PAC-bayésiennes. Le principal avantage de l'estimateur proposé est d'être aisément calculable. De plus, la prise en compte de la norme infinie de la fonction de régression permet d'établir un continuum entre inégalité exacte et inexacte. / This manuscript focuses on two functional estimation problems. A non asymptotic guarantee of the proposed estimator’s performances is provided for each problem through an oracle inequality.In the conditional density estimation setting, mixtures of Gaussian regressions with exponential weights depending on the covariate are used. Model selection principle through penalized maximum likelihood estimation is applied and a condition on the penalty is derived. If the chosen penalty is proportional to the model dimension, then the condition is satisfied. This procedure is accompanied by an algorithm mixing EM and Newton algorithm, tested on synthetic and real data sets. In the regression with sub-Gaussian noise framework, aggregating linear estimators using exponential weights allows to obtain an oracle inequality in deviation,thanks to pac-bayesian technics. The main advantage of the proposed estimator is to be easily calculable. Furthermore, taking the infinity norm of the regression function into account allows to establish a continuum between sharp and weak oracle inequalities. Inégalité d'oracle Sélection de modèle Pénalisation Poids exponentiels Apprentissage Agrégation Modèles de mélange Maximum de vraisemblance Oracle inequality Model selection Penalization Exponential weight Learning Aggregation Mixture model Maximum likelihood
19	Analyse et modélisation de la Dominance Temporelle des Sensations à l'aide de processus stochastiques / Analysis and modeling of Temporal Dominance of Sensations with stochastic processes Lecuelle, Guillaume 01 October 2019 (has links) La Dominance Temporelle des Sensations (DTS) est une méthode d’analyse sensorielle qui mesure la perception temporelle d’un produit au cours de sa dégustation. Pour un panéliste, la DTS consiste à choisir parmi une liste de descripteurs lequel est dominant à chaque instant. Ce travail a pour but la modélisation des données DTS à l’aide de processus stochastiques et propose d’utiliser les processus semi-markoviens (PSM), une généralisation des chaînes de Markov qui permet de modéliser librement les durées de dominance. Le modèle obtenu peut être utilisé pour comparer des échantillons DTS en réalisant un rapport de vraisemblance. Étant donné que les probabilités de transition entre les descripteurs peuvent dépendre du temps, nous proposons d’utiliser des modèles différents par période et nous proposons un algorithme pour déterminer le nombre et les frontières de ces périodes de manière optimale. Le modèle est représenté sous forme d’un graphe montrant les transitions entre descripteurs les plus observées. Finalement, ce travail introduit les modèles de mélange de processus semi-markoviens afin de segmenter le panel en fonction des différences de perception interindividuelles.Les méthodes développées sont appliquées à des jeux de données DTS variés : chocolats, fromages frais et Goudas. Les résultats montrent que la modélisation par un PSM apporte de nouvelles informations sur la perception temporelle, en particulier sur la variabilité de perception au sein d’un panel, alors que les méthodes classiques se focalisent sur une vision moyenne de la perception du panel. De plus, à notre connaissance, ce travail est le premier à proposer l’identification d’un modèle de mélange de processus semi-markoviens. / Temporal Dominance of Sensations (TDS) is a technique to measure temporal perception of food product during tasting. For a panelist, it consists in choosing in a list of attributes which one is dominant at any time. This work aims to model TDS data with a stochastic process and proposes to use semi-Markov processes (SMP), a generalization of Markov chains which allows dominance durations to be modeled by any type of distribution. The model can then be used to compare TDS samples based on likelihood ratio. Because probabilities of transition from one attribute to another one can also depend on time, we propose to model TDS by period and we propose a method to select optimally the number of periods and the frontiers between periods. Graphs built upon the stochastic pattern can be plotted to represent main chronological transitions between attributes. Finally, this work introduces new statistical models based on finite mixtures of semi-Markov processes in order to derive consumer segmentation based on individual differences in temporal perception of a product.The methods are applied to various TDS datasets: chocolates, fresh cheeses and Gouda cheeses. Results show that SMP modeling gives new information about temporal perception compared to classical methods. It particularly emphasizes the existence of several perceptions for a same product in a panel, whereas classical methods only provide a mean panel overview. Furthermore, as far as we know, this work is the first one that considers mixtures of semi-Markov processes. Analyse sensorielle Dominance Temporelle des Sensations Processus semi-Markoviens Modèles de mélange Sensory analysis Temporal Dominance of Sensations Semi-Markov processes Mixture models 664.07
20	Estimation et sélection en classification semi-supervisée Vandewalle, Vincent 09 December 2009 (has links) (PDF) Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints. [MATH] Mathematics modèles de mélange estimation par maximum de vraisemblance données manquantes algorithme EM analyse discriminante classification semi-supervisée modèles parcimonieux choix de modèle

Search results