Global ETD Search

1	Contribution à la classification de variables dans les modèles de régression en grande dimension / Contribution to variable clusteringin high dimensional linear regression models Yengo, Loïc 28 May 2014 (has links) Cette thèse propose une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. Nous montrons dans cette thèse que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle.Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle, nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Cette thèse présente aussi une extension de notre méthodologie dans le cadre de la régression Probit pour données binaires. Notre modèle modèle a de plus été généralisé en relâchant l'hypothèse de l'égalité des variances pour les composantes du mélange Gaussien. Les performances de ce modèle généralisé ont été comparées à celles du modèle initial à travers différents scénarios de simulations. Ce travail de recherche a conduit au développement du package R clere. Ce dernier package met en œuvre tous les algorithmes décrits dans cette thèse. / We proposed in this thesis an original contribution to the field of variable clustering in linear regression through a model-based approach. This contribution was made via a hierarchical modeling of the regression coefficients as random variables drawn from a mixture of Gaussian distributions with equal variances. Parameter estimation in the proposed model was shown to be challenging since the classical EM algorithm could not apply. We then developped a more efficient algorithm for parameter estimation, through the use of the SEM-Gibbs algorithm. Along with this computational improvement, we also enhanced our model to allow variable selection. Given the good predictive performances of the CLERE method compared to standard techniques for dimension reduction, we considred an extension of the latter to binary response data. This extension was studied in the context of Probit regression. We generalized our model by relaxing the assumption of equal variance for the components in the mixture of Gaussians. The performances of this generalization were compared to those of the initial model under different scenarios on simulated data. This research led to the development of the R package clere which implements most of the algorithms described in this thesis. Modèles de mélanges gaussiens Régression binaire 519.536
2	Méthodes bioinformatiques pour l'analyse de données de séquençage dans le contexte du cancer / Bioinformatics methods for cancer sequencing data analysis Rudewicz, Justine 30 June 2017 (has links) Le cancer résulte de la prolifération excessive de cellules qui dérivent toutes de la même cellule initiatrice et suivent un processus Darwinien de diversification et de sélection. Ce processus est défini par l'accumulation d'altérations génétiques et épigénétiques dont la caractérisation est un élément majeur pour pouvoir proposer une thérapie ciblant spécifiquement les cellules tumorales. L'avènement des nouvelles technologies de séquençage haut débit permet cette caractérisation à un niveau moléculaire. Cette révolution technologique a entraîné le développement de nombreuses méthodes bioinformatiques. Dans cette thèse, nous nous intéressons particulièrement au développement de nouvelles méthodes computationnelles d'analyse de données de séquençage d'échantillons tumoraux permettant une identification précise d'altérations spécifiques aux tumeurs et une description fine des sous populations tumorales. Dans le premier chapitre, il s'agît d'étudier des méthodes d'identification d'altérations ponctuelles dans le cadre de séquençage ciblé, appliquées à une cohorte de patientes atteintes du cancer du sein. Nous décrivons deux nouvelles méthodes d'analyse, chacune adaptée à une technologie de séquençage, spécifiquement Roche 454 et Pacifique Biosciences.Dans le premier cas, nous avons adapté des approches existantes au cas particulier de séquences de transcrits. Dans le second cas, nous avons été confronté à un bruit de fond élevé entraînant un fort taux de faux positifs lors de l'utilisation d'approches classiques. Nous avons développé une nouvelle méthode, MICADo, basée sur les graphes de De Bruijn et permettant une distinction efficace entre les altérations spécifiques aux patients et les altérations communes à la cohorte, ce qui rend les résultats exploitables dans un contexte clinique. Le second chapitre aborde l'identification d'altérations de nombre de copies. Nous décrivons l'approche mise en place pour leur identification efficace à partir de données de très faible couverture. L'apport principal de ce travail consiste en l'élaboration d'une stratégie d'analyse statistique afin de mettre en évidence des changements locaux et globaux au niveau du génome survenus durant le traitement administré à des patientes atteintes de cancer du sein. Notre méthode repose sur la construction d'un modèle linéaire permettant d'établir des scores de différences entre les échantillons avant et après traitement. Dans le troisième chapitre, nous nous intéressons au problème de reconstruction clonale. Cette problématique récente est actuellement en plein essor, mais manque cependant d'un cadre formel bien établi. Nous proposons d'abord une formalisation du problème de reconstruction clonale. Ensuite nous utilisons ce formalisme afin de mettre en place une méthode basée sur les modèles de mélanges Gaussiens. Cette méthode utilise les altérations ponctuelles et de nombre de copies - comme celles abordées dans les deux chapitres précédents - afin de caractériser et quantifier les différentes populations clonales présentes dans un échantillon tumoral. / Cancer results from the excessive proliferation of cells decending from the same founder cell and following a Darwinian process of diversification and selection. This process is defined by the accumulation of genetic and epigenetic alterations whose characterization is a key element for establishing a therapy that would specifically target tumor cells. The advent of new high-throughput sequencing technologies enables this characterization at the molecular level. This technological revolution has led to the development of numerous bioinformatics methods. In this thesis, we are particularly interested in the development of new computational methods for the analysis of sequencing data of tumor samples allowing precise identification of tumor-specific alterations and an accurate description of tumor subpopulations. In the first chapter, we explore methods for identifying single nucleotide alterations in targeted sequencing data and apply them to a cohort of breast cancer patients. We introduce two new methods of analysis, each tailored to a particular sequencing technology, namely Roche 454 and Pacific Biosciences. In the first case, we adapted existing approaches to the particular case of transcript sequencing. In the second case, when using conventional approaches, we were confronted with a high background noise resulting in a high rate of false positives. We have developed a new method, MICADo, based on the De Bruijn graphs and making possible an effective distinction between patient-specific alterations and alterations common to the cohort, which makes the results usable in a clinical context. Second chapter deals with the identification of copy number alterations. We describe the approach put in place for their efficient identification from very low coverage data. The main contribution of this work is the development of a strategy for statistical analysis in order to emphasise local and global changes in the genome that occurred during the treatment administered to patients with breast cancer. Our method is based on the construction of a linear model to establish scores of differences between samples before and after treatment. In the third chapter, we focus on the problem of clonal reconstruction. This problem has recently gathered a lot of interest, but it still lacks a well-established formal framework. We first propose a formalization of the clonal reconstruction problem. Then we use this formalism to put in place a method based on Gaussian mixture models. Our method uses single nucleotide and copy number alterations - such as those discussed in the previous two chapters - to characterize and quantify different clonal populations present in a tumor sample. Cancer Bioinformatique NGS TGS Graphes de de Bruijn Modèles de mélanges Cancer Bioinformatics NGS TGS De Bruijn graphs Mixture models
3	Bayesian non-parametric parsimonious mixtures for model-based clustering / Modèles de mélanges Bayésiens non-paramétriques parcimonieux pour la classification automatique Bartcus, Marius 26 October 2015 (has links) Cette thèse porte sur l’apprentissage statistique et l’analyse de données multi-dimensionnelles. Elle se focalise particulièrement sur l’apprentissage non supervisé de modèles génératifs pour la classiﬁcation automatique. Nous étudions les modèles de mélanges Gaussians, aussi bien dans le contexte d’estimation par maximum de vraisemblance via l’algorithme EM, que dans le contexte Bayésien d’estimation par Maximum A Posteriori via des techniques d’échantillonnage par Monte Carlo. Nous considérons principalement les modèles de mélange parcimonieux qui reposent sur une décomposition spectrale de la matrice de covariance et qui oﬀre un cadre ﬂexible notamment pour les problèmes de classiﬁcation en grande dimension. Ensuite, nous investiguons les mélanges Bayésiens non-paramétriques qui se basent sur des processus généraux ﬂexibles comme le processus de Dirichlet et le Processus du Restaurant Chinois. Cette formulation non-paramétrique des modèles est pertinente aussi bien pour l’apprentissage du modèle, que pour la question diﬃcile du choix de modèle. Nous proposons de nouveaux modèles de mélanges Bayésiens non-paramétriques parcimonieux et dérivons une technique d’échantillonnage par Monte Carlo dans laquelle le modèle de mélange et son nombre de composantes sont appris simultanément à partir des données. La sélection de la structure du modèle est eﬀectuée en utilisant le facteur de Bayes. Ces modèles, par leur formulation non-paramétrique et parcimonieuse, sont utiles pour les problèmes d’analyse de masses de données lorsque le nombre de classe est indéterminé et augmente avec les données, et lorsque la dimension est grande. Les modèles proposés validés sur des données simulées et des jeux de données réelles standard. Ensuite, ils sont appliqués sur un problème réel diﬃcile de structuration automatique de données bioacoustiques complexes issues de signaux de chant de baleine. Enﬁn, nous ouvrons des perspectives Markoviennes via les processus de Dirichlet hiérarchiques pour les modèles Markov cachés. / This thesis focuses on statistical learning and multi-dimensional data analysis. It particularly focuses on unsupervised learning of generative models for model-based clustering. We study the Gaussians mixture models, in the context of maximum likelihood estimation via the EM algorithm, as well as in the Bayesian estimation context by maximum a posteriori via Markov Chain Monte Carlo (MCMC) sampling techniques. We mainly consider the parsimonious mixture models which are based on a spectral decomposition of the covariance matrix and provide a ﬂexible framework particularly for the analysis of high-dimensional data. Then, we investigate non-parametric Bayesian mixtures which are based on general ﬂexible processes such as the Dirichlet process and the Chinese Restaurant Process. This non-parametric model formulation is relevant for both learning the model, as well for dealing with the issue of model selection. We propose new Bayesian non-parametric parsimonious mixtures and derive a MCMC sampling technique where the mixture model and the number of mixture components are simultaneously learned from the data. The selection of the model structure is performed by using Bayes Factors. These models, by their non-parametric and sparse formulation, are useful for the analysis of large data sets when the number of classes is undetermined and increases with the data, and when the dimension is high. The models are validated on simulated data and standard real data sets. Then, they are applied to a real diﬃcult problem of automatic structuring of complex bioacoustic data issued from whale song signals. Finally, we open Markovian perspectives via hierarchical Dirichlet processes hidden Markov models. Apprentissage non-supervisé Modèles de mélange Mélanges parcimonieux Unsupervised learning Mixture models Parsimonious mixtures Bayesian non-parametric learning
4	Estimation robuste des modèles de mélange sur des données distribuées El Attar, Ali 12 July 2012 (has links) (PDF) Cette thèse propose une contribution en matière d'analyse de données, dans la perspective de systèmes informatiques distribués non-centralisés, pour le partage de données numériques. De tels systèmes se développent en particulier sur internet, possiblement à large échelle, mais aussi, par exemple, par des réseaux de capteurs. Notre objectif général est d'estimer la distribution de probabilité d'un jeu de données distribuées, à partir d'estimations locales de cette distribution, calculées sur des sous- jeux de données locaux. En d'autres termes, il s'est agi de proposer une technique pour agréger des estimés locaux pour en faire un estimé global. Notre proposition s'appuie sur la forme particulière que doivent prendre toutes les distributions de probabilité manipulées : elles doivent se formuler comme un mélange de lois gaussiennes multivariées. Notre contribution est une solution à la fois décentralisée et statistiquement robuste aux modèles locaux aberrants, pour mener à bien l'agrégation globale, à partir d'agrégations locales de mélanges de lois gaussiennes. Ces agrégations locales ne requièrent un accès qu'aux seuls paramètres des modèles de mélanges, et non aux données originales. [INFO:INFO_LG] Computer Science/Learning clustering modèle de mélange agrégation des modèles des mélanges estimation robuste détection de données atypiques données distribuées
5	Prévision à court terme des flux de voyageurs : une approche par les réseaux bayésiens / Short-term passenger flow forecasting : a Bayesian network approach Roos, Jérémy 28 September 2018 (has links) Dans ces travaux de thèse, nous proposons un modèle de prévision à court terme des flux de voyageurs basé sur les réseaux bayésiens. Ce modèle est destiné à répondre à des besoins opérationnels divers liés à l'information voyageurs, la régulation des flux ou encore la planification de l'offre de transport. Conçu pour s'adapter à tout type de configuration spatiale, il permet de combiner des sources de données hétérogènes (validations des titres de transport, comptages à bord des trains et offre de transport) et fournit une représentation intuitive des relations de causalité spatio-temporelles entre les flux. Sa capacité à gérer les données manquantes lui permet de réaliser des prédictions en temps réel même en cas de défaillances techniques ou d'absences de systèmes de collecte / In this thesis, we propose a Bayesian network model for short-term passenger flow forecasting. This model is intended to cater for various operational needs related to passenger information, passenger flow regulation or operation planning. As well as adapting to any spatial configuration, it is designed to combine heterogeneous data sources (ticket validation, on-board counts and transport service) and provides an intuitive representation of the causal spatio-temporal relationships between flows. Its ability to deal with missing data allows to make real-time predictions even in case of technical failures or absences of collection systems Prévision à court terme Flux de voyageurs Réseaux bayésiens Modèles de mélanges gaussiens Algorithme espérance-maximisation Short-term forecasting Passenger flows Bayesian networks Gaussian mixture models Expectation-maximisation algorithm 004
6	Estimation de modèles de mélange probabilistes: une proposition pour un fonctionnement réparti et décentralise Nikseresht, Afshin 22 October 2008 (has links) (PDF) Cette th`ese traite de l'estimation statistique distribu ́e, avec la motivation de, et l'application `a l'indexation multim ́edia par le contenu. Les algorithmes et les donn ́ees de divers contributeurs coop ́ereront vers un apprentissage statistique collectif. La contribution est un arrangement pour estimer une densit ́e de probabilit ́e multivariable, dans le cas ou` cette densit ́e prend la forme d'un mod`ele de m ́elange gaussien. Dans ce cadre, l'agr ́egation des mod`eles probabilistes de m ́elanges gaussiens de la mˆeme classe, mais estim ́es `a plusieurs nœuds sur diff ́erents ensembles de donn ́ees, est une n ́ecessit ́e typique `a laquelle nous nous int ́eressons dans cette th`ese. Les approches propo- s ́ees pour la fusion de m ́elanges gaussiens exigent uniquement le calcul mod ́er ́e `a chaque nœud et peu de donn ́ees de transit entre les nœuds. Ces deux propri ́et ́es sont obtenues en agr ́egeant des mod`eles via leurs (peu) param`etres plutˆot que par les donn ́ees multim ́edia. Dans la premi`ere approche, en supposant que les m ́elanges sont estim ́es ind ́ependamment, nous propageons leurs param`etres de fa ̧con d ́ecentralis ́ee (gossip), dans un r ́eseau, et agr ́egeons les mod`eles `a partir des nœuds reli ́es entre eux, pour am ́eliorer l'estimation. Les mod`eles de m ́elange sont en fait concat ́en ́es puis r ́eduits `a un nombre appropri ́e de composants gaussiens. Une modification de la divergence de Kullback conduit `a un processus it ́eratif pour estimer ce mod`ele agr ́eg ́e. Afin d'ap- porter une am ́elioration, l'agr ́egation est r ́ealis ́ee par la mod ́elisation bay ́esienne du probl`eme de groupement de composant de mod`ele de m ́elange gaussien et est r ́esolue en utilisant la m ́ethode variationnelle, appliqu ́ee au niveau de composant. Cela permet de d ́eterminer, par un processus simple, peu couˆteux et pr ́ecis, les attributions des composants qui devraient ˆetre agr ́eg ́es et le nombre de composants dans le m ́elange apr`es l'agr ́egation. Comme seulement les param`etres du mod`ele sont ́echang ́es sur le r ́eseau, le calcul et la charge du r ́eseau restent tr`es mod ́er ́es. apprentissage distribué calcul réparti estimation distribuée modèles de mélanges gaussiens indexation multimédia
7	Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage Ben youssef, Atef 26 October 2011 (has links) (PDF) Les sons de parole peuvent être complétés par l'affichage des articulateurs sur un écran d'ordinateur pour produire de la parole augmentée, un signal potentiellement utile dans tous les cas où le son lui-même peut être difficile à comprendre, pour des raisons physiques ou perceptuelles. Dans cette thèse, nous présentons un système appelé retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés à partir de la voix du locuteur. La motivation de cette thèse était de développer un tel système qui pourrait être appliqué à l'aide à l'apprentissage de la prononciation pour les langues étrangères, ou dans le domaine de l'orthophonie. Nous avons basé notre approche de ce problème d'inversion sur des modèles statistiques construits à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique (EMA). Notre approche avec les modèles de Markov cachés (HMMs) combine des techniques de reconnaissance automatique de la parole et de synthèse articulatoire pour estimer les trajectoires articulatoires à partir du signal acoustique. D'un autre côté, les modèles de mélanges gaussiens (GMMs) estiment directement les trajectoires articulatoires à partir du signal acoustique sans faire intervenir d'information phonétique. Nous avons basé notre évaluation des améliorations apportées à ces modèles sur différents critères : l'erreur quadratique moyenne (RMSE) entre les coordonnées EMA originales et reconstruites, le coefficient de corrélation de Pearson, l'affichage des espaces et des trajectoires articulatoires, aussi bien que les taux de reconnaissance acoustique et articulatoire. Les expériences montrent que l'utilisation d'états liés et de multi-gaussiennes pour les états des HMMs acoustiques améliore l'étage de reconnaissance acoustique des phones, et que la minimisation de l'erreur générée (MGE) dans la phase d'apprentissage des HMMs articulatoires donne des résultats plus précis par rapport à l'utilisation du critère plus conventionnel de maximisation de vraisemblance (MLE). En outre, l'utilisation du critère MLE au niveau de mapping direct de l'acoustique vers l'articulatoire par GMMs est plus efficace que le critère de minimisation de l'erreur quadratique moyenne (MMSE). Nous constatons également trouvé que le système d'inversion par HMMs est plus précis celui basé sur les GMMs. Par ailleurs, des expériences utilisant les mêmes méthodes statistiques et les mêmes données ont montré que le problème de reconstruction des mouvements de la langue à partir des mouvements du visage et des lèvres ne peut pas être résolu dans le cas général, et est impossible pour certaines classes phonétiques. Afin de généraliser notre système basé sur un locuteur unique à un système d'inversion de parole multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR). Dans cette méthode MLLR, la transformation basée sur la régression linéaire qui adapte les HMMs acoustiques originaux à ceux du nouveau locuteur est calculée de manière à maximiser la vraisemblance des données d'adaptation. Finalement, cet étage d'adaptation du locuteur a été évalué en utilisant un système de reconnaissance automatique des classes phonétique de l'articulation, dans la mesure où les données articulatoires originales du nouveau locuteur n'existent pas. Finalement, en utilisant cette procédure d'adaptation, nous avons développé un démonstrateur complet de retour articulatoire visuel, qui peut être utilisé par un locuteur quelconque. Ce système devra être évalué de manière perceptive dans des conditions réalistes. [SPI:OTHER] Engineering Sciences/Other Inversion de la parole Articulographe Electro-Magnétique Méthodes statistiques Modèles de Markov cachés Modèles de mélanges de Gaussiennes Adaptation du locuteur
8	Analyse bayésienne et classification pour modèles continus modifiés à zéro Labrecque-Synnott, Félix 08 1900 (has links) Les modèles à sur-représentation de zéros discrets et continus ont une large gamme d'applications et leurs propriétés sont bien connues. Bien qu'il existe des travaux portant sur les modèles discrets à sous-représentation de zéro et modifiés à zéro, la formulation usuelle des modèles continus à sur-représentation -- un mélange entre une densité continue et une masse de Dirac -- empêche de les généraliser afin de couvrir le cas de la sous-représentation de zéros. Une formulation alternative des modèles continus à sur-représentation de zéros, pouvant aisément être généralisée au cas de la sous-représentation, est présentée ici. L'estimation est d'abord abordée sous le paradigme classique, et plusieurs méthodes d'obtention des estimateurs du maximum de vraisemblance sont proposées. Le problème de l'estimation ponctuelle est également considéré du point de vue bayésien. Des tests d'hypothèses classiques et bayésiens visant à déterminer si des données sont à sur- ou sous-représentation de zéros sont présentées. Les méthodes d'estimation et de tests sont aussi évaluées au moyen d'études de simulation et appliquées à des données de précipitation agrégées. Les diverses méthodes s'accordent sur la sous-représentation de zéros des données, démontrant la pertinence du modèle proposé. Nous considérons ensuite la classification d'échantillons de données à sous-représentation de zéros. De telles données étant fortement non normales, il est possible de croire que les méthodes courantes de détermination du nombre de grappes s'avèrent peu performantes. Nous affirmons que la classification bayésienne, basée sur la distribution marginale des observations, tiendrait compte des particularités du modèle, ce qui se traduirait par une meilleure performance. Plusieurs méthodes de classification sont comparées au moyen d'une étude de simulation, et la méthode proposée est appliquée à des données de précipitation agrégées provenant de 28 stations de mesure en Colombie-Britannique. / Zero-inflated models, both discrete and continuous, have a large variety of applications and fairly well-known properties. Some work has been done on zero-deflated and zero-modified discrete models. The usual formulation of continuous zero-inflated models -- a mixture between a continuous density and a Dirac mass at zero -- precludes their extension to cover the zero-deflated case. We introduce an alternative formulation of zero-inflated continuous models, along with a natural extension to the zero-deflated case. Parameter estimation is first studied within the classical frequentist framework. Several methods for obtaining the maximum likelihood estimators are proposed. The problem of point estimation is considered from a Bayesian point of view. Hypothesis testing, aiming at determining whether data are zero-inflated, zero-deflated or not zero-modified, is also considered under both the classical and Bayesian paradigms. The proposed estimation and testing methods are assessed through simulation studies and applied to aggregated rainfall data. The data is shown to be zero-deflated, demonstrating the relevance of the proposed model. We next consider the clustering of samples of zero-deflated data. Such data present strong non-normality. Therefore, the usual methods for determining the number of clusters are expected to perform poorly. We argue that Bayesian clustering based on the marginal distribution of the observations would take into account the particularities of the model and exhibit better performance. Several clustering methods are compared using a simulation study. The proposed method is applied to aggregated rainfall data sampled from 28 measuring stations in British Columbia. Sous-représentation à zéro Zero-deflation Agrégation bayésienne Bayesian aggregation Précipitations agrégées Aggregated rainfall Distribution de Laplace tronquée Truncated Laplace distribution Algorithme EM EM algorithm Modèles de mélanges Mixture models
9	Mélanges bayésiens de modèles d'extrêmes multivariés : application à la prédétermination régionale des crues avec données incomplètes / Bayesian model mergings for multivariate extremes : application to regional predetermination of floods with incomplete data Sabourin, Anne 24 September 2013 (has links) La théorie statistique univariée des valeurs extrêmes se généralise au cas multivarié mais l'absence d'un cadre paramétrique naturel complique l'inférence de la loi jointe des extrêmes. Les marges d'erreur associée aux estimateurs non paramétriques de la structure de dépendance sont difficilement accessibles à partir de la dimension trois. Cependant, quantifier l'incertitude est d'autant plus important pour les applications que le problème de la rareté des données extrêmes est récurrent, en particulier en hydrologie. L'objet de cette thèse est de développer des modèles de dépendance entre extrêmes, dans un cadre bayésien permettant de représenter l'incertitude. Le chapitre 2 explore les propriétés des modèles obtenus en combinant des modèles paramétriques existants, par mélange bayésien (Bayesian Model Averaging BMA). Un modèle semi-paramétrique de mélange de Dirichlet est étudié au chapitre suivant : une nouvelle paramétrisation est introduite afin de s'affranchir d'une contrainte de moments caractéristique de la structure de dépendance et de faciliter l'échantillonnage de la loi à posteriori. Le chapitre 4 est motivé par une application hydrologique : il s'agit d'estimer la structure de dépendance spatiale des crues extrêmes dans la région cévenole des Gardons en utilisant des données historiques enregistrées en quatre points. Les données anciennes augmentent la taille de l'échantillon mais beaucoup de ces données sont censurées. Une méthode d'augmentation de données est introduite, dans le cadre du mélange de Dirichlet, palliant l'absence d'expression explicite de la vraisemblance censurée. Les conclusions et perspectives sont discutées au chapitre 5 / Uni-variate extreme value theory extends to the multivariate case but the absence of a natural parametric framework for the joint distribution of extremes complexifies inferential matters. Available non parametric estimators of the dependence structure do not come with tractable uncertainty intervals for problems of dimension greater than three. However, uncertainty estimation is all the more important for applied purposes that data scarcity is a recurrent issue, particularly in the field of hydrology. The purpose of this thesis is to develop modeling tools for the dependence structure between extremes, in a Bayesian framework that allows uncertainty assessment. Chapter 2 explores the properties of the model obtained by combining existing ones, in a Bayesian Model Averaging framework. A semi-parametric Dirichlet mixture model is studied next : a new parametrization is introduced, in order to relax a moments constraint which characterizes the dependence structure. The re-parametrization significantly improves convergence and mixing properties of the reversible-jump algorithm used to sample the posterior. The last chapter is motivated by an hydrological application, which consists in estimating the dependence structure of floods recorded at four neighboring stations, in the ‘Gardons’ region, southern France, using historical data. The latter increase the sample size but most of them are censored. The lack of explicit expression for the likelihood in the Dirichlet mixture model is handled by using a data augmentation framework Extrêmes multivariés Dépassement de seuil Bayesian model averaging Modèles de mélanges Méthodes de Monte-Carlo Augmentation de données Prédétermination des crues Multivariate extremes Threshold excesses Bayesian model averaging Mixture models MCMC sampling Data augmentation Predetermination of floods 519.5
10	Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage Ben Youssef, Atef 26 October 2011 (has links) (PDF) Cette thèse présente un système de retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés par inversion à partir de la voix d'un locuteur. Notre approche de ce problème d'inversion est basée sur des modèles statistiques élaborés à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique. Un premier système combine des techniques de reconnaissance acoustique de la parole et de synthèse articulatoire basées sur des modèles de Markov cachés (HMMs). Un deuxième système utilise des modèles de mélanges gaussiens (GMMs) pour estimer directement les trajectoires articulatoires à partir du signal acoustique. Pour généraliser le système mono-locuteur à un système multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR) que nous avons évaluée à l'aide un système de reconnaissance articulatoire de référence. Enfin, nous présentons un démonstrateur de retour articulatoire visuel. [INFO:INFO_LG] Computer Science/Learning retour articulatoire visuel inversion acoustique-articulatoire articulographe électromagnétique modèles de Markov cachées modèles de mélanges gaussiens adaptation au locuteur

Search results