• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 95
  • 37
  • 26
  • 17
  • 10
  • 8
  • 7
  • 4
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 226
  • 226
  • 73
  • 68
  • 67
  • 51
  • 44
  • 42
  • 39
  • 32
  • 31
  • 29
  • 27
  • 23
  • 22
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering.
202

Estimation du modèle GARCH à changement de régimes et son utilité pour quantifier le risque de modèle dans les applications financières en actuariat

Augustyniak, Maciej 12 1900 (has links)
Le modèle GARCH à changement de régimes est le fondement de cette thèse. Ce modèle offre de riches dynamiques pour modéliser les données financières en combinant une structure GARCH avec des paramètres qui varient dans le temps. Cette flexibilité donne malheureusement lieu à un problème de path dependence, qui a empêché l'estimation du modèle par le maximum de vraisemblance depuis son introduction, il y a déjà près de 20 ans. La première moitié de cette thèse procure une solution à ce problème en développant deux méthodologies permettant de calculer l'estimateur du maximum de vraisemblance du modèle GARCH à changement de régimes. La première technique d'estimation proposée est basée sur l'algorithme Monte Carlo EM et sur l'échantillonnage préférentiel, tandis que la deuxième consiste en la généralisation des approximations du modèle introduites dans les deux dernières décennies, connues sous le nom de collapsing procedures. Cette généralisation permet d'établir un lien méthodologique entre ces approximations et le filtre particulaire. La découverte de cette relation est importante, car elle permet de justifier la validité de l'approche dite par collapsing pour estimer le modèle GARCH à changement de régimes. La deuxième moitié de cette thèse tire sa motivation de la crise financière de la fin des années 2000 pendant laquelle une mauvaise évaluation des risques au sein de plusieurs compagnies financières a entraîné de nombreux échecs institutionnels. À l'aide d'un large éventail de 78 modèles économétriques, dont plusieurs généralisations du modèle GARCH à changement de régimes, il est démontré que le risque de modèle joue un rôle très important dans l'évaluation et la gestion du risque d'investissement à long terme dans le cadre des fonds distincts. Bien que la littérature financière a dévoué beaucoup de recherche pour faire progresser les modèles économétriques dans le but d'améliorer la tarification et la couverture des produits financiers, les approches permettant de mesurer l'efficacité d'une stratégie de couverture dynamique ont peu évolué. Cette thèse offre une contribution méthodologique dans ce domaine en proposant un cadre statistique, basé sur la régression, permettant de mieux mesurer cette efficacité. / The Markov-switching GARCH model is the foundation of this thesis. This model offers rich dynamics to model financial data by allowing for a GARCH structure with time-varying parameters. This flexibility is unfortunately undermined by a path dependence problem which has prevented maximum likelihood estimation of this model since its introduction, almost 20 years ago. The first half of this thesis provides a solution to this problem by developing two original estimation approaches allowing us to calculate the maximum likelihood estimator of the Markov-switching GARCH model. The first method is based on both the Monte Carlo expectation-maximization algorithm and importance sampling, while the second consists of a generalization of previously proposed approximations of the model, known as collapsing procedures. This generalization establishes a novel relationship in the econometric literature between particle filtering and collapsing procedures. The discovery of this relationship is important because it provides the missing link needed to justify the validity of the collapsing approach for estimating the Markov-switching GARCH model. The second half of this thesis is motivated by the events of the financial crisis of the late 2000s during which numerous institutional failures occurred because risk exposures were inappropriately measured. Using 78 different econometric models, including many generalizations of the Markov-switching GARCH model, it is shown that model risk plays an important role in the measurement and management of long-term investment risk in the context of variable annuities. Although the finance literature has devoted a lot of research into the development of advanced models for improving pricing and hedging performance, the approaches for measuring dynamic hedging effectiveness have evolved little. This thesis offers a methodological contribution in this area by proposing a statistical framework, based on regression analysis, for measuring the effectiveness of dynamic hedges for long-term investment guarantees.
203

Specification analysis of interest rates factors : an international perspective / Une analyse de la spécification des facteurs des taux d'intérêts : Une perspective internationale

Tiozzo Pezzoli, Luca 05 December 2013 (has links)
Cette thèse concerne la modélisation de la dynamique des courbes des taux internationales avec prise en compte de plusieurs canaux de dépendance. A l’aide d’une nouvelle base de données des taux souverains internationaux, nous observons que le critère de la variabilité expliquée, proposé par la littérature, n’est pas capable de sélectionner une meilleure combinaison des facteurs décrivant la dynamique jointe des courbes des taux. Nous proposons une méthode nouvelle de section des facteurs fondée sur la maximisation de vraisemblance d’un modèle espace-état linéaire gaussien avec facteurs communs et locaux. Le problème d’identification associée est résolu d’une façon novatrice. En estimant différents combinaisons de pays, nous sélectionnons des deux facteurs globaux et trois locaux ayant un pouvoir prédictif des variables macro-économiques (activité économique et taux d’inflation) dans chaque économie considérée. Notre méthode nous permet aussi de détecter des facteurs cachés dans les rendements obligataires. Ils ne sont pas visibles à travers une analyse classique en composant principales des rendements obligataires et ils contribuent à la prévision du taux d’inflation et du taux de croissance de la production industrielle. / The aim of this thesis is to model the dynamics of international term structure of interest rates taking into consideration several dependence channels.Thanks to a new international Treasury yield curve database, we observe that the explained variability decision criterion, suggested by the literature, is not able to select the best combination of factors characterizing the joint dynamics of yield curves. We propose a new methodology based on the maximisation of the likelihood function of a Gaussian state-space model with common and local factors. The associated identification problem is solved in an innovative way. By estimating several sets of countries, we select two global (and three local) factors which are also useful to forecast macroeconomic variables in each considered economy.In addition, our method allows us to detect hidden factors in the international bond returns. They are not visible through a classical principal component analysis of expected bond returns but they are helpful to forecast inflation and industrial production. Keywords: International treasury yield curves, common and local factors, state-space models, EM algorithm, International bond risk premia, principal components.
204

An extension of Birnbaum-Saunders distributions based on scale mixtures of skew-normal distributions with applications to regression models / Uma extensão da distribuição Birnbaum-Saunders baseado nas misturas de escala skew-normal com aplicações a modelos de regressão

Sánchez, Rocio Paola Maehara 06 April 2018 (has links)
The aim of this work is to present an inference and diagnostic study of an extension of the lifetime distribution family proposed by Birnbaum and Saunders (1969a,b). This extension is obtained by considering a skew-elliptical distribution instead of the normal distribution. Specifically, in this work we develop a Birnbaum-Saunders (BS) distribution type based on scale mixtures of skew-normal distributions (SMSN). The resulting family of lifetime distributions represents a robust extension of the usual BS distribution. Based on this family, we reproduce the usual properties of the BS distribution, and present an estimation method based on the EM algorithm. In addition, we present regression models associated with the BS distributions (based on scale mixtures of skew-normal), which are developed as an extension of the sinh-normal distribution (Rieck and Nedelman, 1991). For this model we consider an estimation and diagnostic study for uncensored data. / O objetivo deste trabalho é apresentar um estudo de inferência e diagnóstico em uma extensão da família de distribuições de tempos de vida proposta por Birnbaum e Saunders (1969a,b). Esta extensão é obtida ao considerar uma distribuição skew-elíptica em lugar da distribuição normal. Especificamente, neste trabalho desenvolveremos um tipo de distribuição Birnbaum-Saunders (BS) baseda nas distribuições mistura de escala skew-normal (MESN). Esta família resultante de distribuições de tempos de vida representa uma extensão robusta da distribuição BS usual. Baseado nesta família, vamos reproduzir as propriedades usuais da distribuição BS, e apresentar um método de estimação baseado no algoritmo EM. Além disso, vamos apresentar modelos de regressão associado à distribuições BS (baseada na distribuição mistura de escala skew-normal), que é desenvolvida como uma extensão da distribuição senh-normal (Rieck e Nedelman, 1991), para estes vamos considerar um estudo de estimação e diagnóstisco para dados sem censura.
205

An extension of Birnbaum-Saunders distributions based on scale mixtures of skew-normal distributions with applications to regression models / Uma extensão da distribuição Birnbaum-Saunders baseado nas misturas de escala skew-normal com aplicações a modelos de regressão

Rocio Paola Maehara Sánchez 06 April 2018 (has links)
The aim of this work is to present an inference and diagnostic study of an extension of the lifetime distribution family proposed by Birnbaum and Saunders (1969a,b). This extension is obtained by considering a skew-elliptical distribution instead of the normal distribution. Specifically, in this work we develop a Birnbaum-Saunders (BS) distribution type based on scale mixtures of skew-normal distributions (SMSN). The resulting family of lifetime distributions represents a robust extension of the usual BS distribution. Based on this family, we reproduce the usual properties of the BS distribution, and present an estimation method based on the EM algorithm. In addition, we present regression models associated with the BS distributions (based on scale mixtures of skew-normal), which are developed as an extension of the sinh-normal distribution (Rieck and Nedelman, 1991). For this model we consider an estimation and diagnostic study for uncensored data. / O objetivo deste trabalho é apresentar um estudo de inferência e diagnóstico em uma extensão da família de distribuições de tempos de vida proposta por Birnbaum e Saunders (1969a,b). Esta extensão é obtida ao considerar uma distribuição skew-elíptica em lugar da distribuição normal. Especificamente, neste trabalho desenvolveremos um tipo de distribuição Birnbaum-Saunders (BS) baseda nas distribuições mistura de escala skew-normal (MESN). Esta família resultante de distribuições de tempos de vida representa uma extensão robusta da distribuição BS usual. Baseado nesta família, vamos reproduzir as propriedades usuais da distribuição BS, e apresentar um método de estimação baseado no algoritmo EM. Além disso, vamos apresentar modelos de regressão associado à distribuições BS (baseada na distribuição mistura de escala skew-normal), que é desenvolvida como uma extensão da distribuição senh-normal (Rieck e Nedelman, 1991), para estes vamos considerar um estudo de estimação e diagnóstisco para dados sem censura.
206

Bayesian estimation of discrete signals with local dependencies. / Estimation bayésienne de signaux discrets à dépendances locales

Majidi, Mohammad Hassan 24 June 2014 (has links)
L'objectif de cette thèse est d'étudier le problème de la détection de données dans le système de communication sans fil, à la fois pour le cas de l'information d'état de canal parfaite et imparfaite au niveau du récepteur. Comme on le sait, la complexité de MLSE est exponentielle en la mémoire de canal et la cardinalité de l'alphabet symbole est rapidement ingérable, ce qui force à recourir à des approches sousoptimales. Par conséquent, en premier lieu, nous proposons une nouvelle égalisation itérative lorsque le canal est inconnu à l'émetteur et parfaitement connu au niveau du récepteur. Ce récepteur est basé sur une approche de continuation, et exploite l'idée d'approcher une fonction originale de coût d'optimisation par une suite de fonctions plus dociles et donc de réduire la complexité de calcul au récepteur.En second lieu, en vue de la détection de données sous un canal dynamique linéaire, lorsque le canal est inconnu au niveau du récepteur, le récepteur doit être en mesure d'effectuer conjointement l'égalisation et l'estimation de canal. De cette manière, on formule une représentation de modèle état-espace combiné du système de communication. Par cette représentation, nous pouvons utiliser le filltre de Kalman comme le meilleur estimateur des paramètres du canal. Le but de cette section est de motiver de façon rigoureuse la mise en place du filltre de Kalman dans l'estimation des sequences de Markov par des canaux dynamiques Gaussien. Par la présente, nous interprétons et explicitons les approximations sous-jacentes dans les approaches heuristiques.Enfin, si nous considérons une approche plus générale pour le canal dynamique non linéaire, nous ne pouvons pas utiliser le filtre de Kalman comme le meilleur estimateur. Ici, nous utilisons des modèles commutation d’espace-état (SSSM) comme modèles espace-état non linéaires. Ce modèle combine le modèle de Markov caché (HMM) et le modèle espace-état linéaire (LSSM). Pour l'estimation de canal et la detection de données, l'approche espérance et maximisation (EM) est utilisée comme approche naturelle. De cette façon, le filtre de Kalman étendu (EKF) et les filtres à particules sont évités. / The aim of this thesis is to study the problem of data detection in wireless communication system, for both case of perfect and imperfect channel state information at the receiver. As well known, the complexity of MLSE being exponential in the channel memory and in the symbol alphabet cardinality is quickly unmanageable and forces to resort to sub-optimal approaches. Therefore, first we propose a new iterative equalizer when the channel is unknown at the transmitter and perfectly known at the receiver. This receiver is based on continuation approach, and exploits the idea of approaching an original optimization cost function by a sequence of more tractable functions and thus reduce the receiver's computational complexity. Second, in order to data detection under linear dynamic channel, when the channel is unknown at the receiver, the receiver must be able to perform joint equalization and channel estimation. In this way, we formulate a combined state-space model representation of the communication system. By this representation, we can use the Kalman filter as the best estimator for the channel parameters. The aim in this section is to motivate rigorously the introduction of the Kalman filter in the estimation of Markov sequences through Gaussian dynamical channels. By this we interpret and make clearer the underlying approximations in the heuristic approaches. Finally, if we consider more general approach for non linear dynamic channel, we can not use the Kalman filter as the best estimator. Here, we use switching state-space model (SSSM) as non linear state-space model. This model combines the hidden Markov model (HMM) and linear state-space model (LSSM). In order to channel estimation and data detection, the expectation and maximization (EM) procedure is used as the natural approach. In this way extended Kalman filter (EKF) and particle filters are avoided.
207

含遺失值之列聯表最大概似估計量及模式的探討 / Maximum Likelihood Estimation in Contingency Tables with Missing Data

黃珮菁, Huang, Pei-Ching Unknown Date (has links)
在處理具遺失值之類別資料時,傳統的方法是將資料捨棄,但是這通常不是明智之舉,這些遺失某些分類訊息的資料通常還是可以提供其它重要的訊息,尤其當這類型資料的個數佔大多數時,將其捨棄可能使得估計的變異數增加,甚至影響最後的決策。如何將這些遺失某些訊息的資料納入考慮,作出完整的分析是最近幾十年間頗為重要的課題。本文主要整理了五種分析這類型資料的方法,分別為單樣本方法、多樣本方法、概似方程式因式分解法、EM演算法,以上四種方法可使用在資料遺失呈隨機分佈的條件成立下來進行分析。第五種則為樣本遺失不呈隨機分佈之分析方法。 / Traditionally, the simple way to deal with observations for which some of the variables are missing so that they cannot cross-classified into a contingency table simply excludes them from any analysis. However, it is generally agreed that such a practice would usually affect both the accuracy and the precision of the results. The purpose of the study is to bring together some of the sound alternatives available in the literature, and provide a comprehensive review. Four methods for handling data missing at random are discussed, they are single-sample method, multiple-sample method, factorization of the likelihood method, and EM algorithm. In addition, one way of handling data missing not at random is also reviewed.
208

遺漏值存在時羅吉斯迴歸模式分析之研究 / Logistic Regression Analysis with Missing Value

劉昌明, Liu, Chang Ming Unknown Date (has links)
209

狀態轉換跳躍相關模型下選擇權定價:股價指數選擇權之實證 / Option pricing under regime-switching jump model with dependent jump sizes: evidence from stock index option

李家慶, Lee, Jia-Ching Unknown Date (has links)
Black and Scholes (1973)對於報酬率提出以B-S模型配適,但B-S模型無法有效解釋報酬率不對稱高狹峰、波動度微笑、波動度叢聚、長記憶性的性質。Merton (1976)認為不尋常的訊息來臨會影響股價不連續跳躍,因此發展B-S模型加入不連續跳躍風險項的跳躍擴散模型,該模型可同時描述報酬率不對稱高狹峰和波動度微笑兩性質。Charles, Fuh and Lin (2011)加以考慮市場狀態提出狀態轉換跳躍模型,除了保留跳躍擴散模型可描述報酬率不對稱高狹峰和波動度微笑,更可以敘述報酬率的波動度叢聚和長記憶性。本文進一步拓展狀態轉換跳躍模型,考慮不連續跳躍風險項的帄均數與市場狀態相關,提出狀態轉換跳躍相關模型。並以道瓊工業指數與S&P 500指數1999年至2010年股價指數資料,採用EM和SEM分別估計參數與估計參數共變異數矩陣。使用概似比檢定結果顯示狀態轉換跳躍相關模型比狀態轉換跳躍獨立模型更適合描述股價指數報酬率。並驗證狀態轉換跳躍相關模型也可同時描述報酬率不對稱高狹峰、波動度微笑、波動度叢聚、長記憶性。最後利用Esscher轉換法計算股價指數選擇權定價公式,以敏感度分析模型參數對於定價結果的影響,並且市場驗證顯示狀態轉換跳躍相關模型會有最小的定價誤差。 / Black and Scholes (1973) proposed B-S model to fit asset return, but B-S model can’t effectively explain some asset return properties, such as leptokurtic, volatility smile, volatility clustering and long memory. Merton (1976) develop jump diffusion model (JDM) that consider abnormal information of market will affect the stock price, and this model can explain leptokurtic and volatility smile of asset return at the same time. Charles, Fuh and Lin (2011) extended the JDM and proposed regime-switching jump independent model (RSJIM) that consider jump rate is related to market states. RSJIM not only retains JDM properties but describes volatility clustering and long memory. In this paper, we extend RSJIM to regime-switching jump dependent model (RSJDM) which consider jump size and jump rate are both related to market states. We use EM and SEM algorithm to estimate parameters and covariance matrix, and use LR test to compare RSJIM and RSJDM. By using 1999 to 2010 Dow-Jones industrial average index and S&P 500 index as empirical evidence, RSJDM can explain index return properties said before. Finally, we calculate index option price formulation by Esscher transformation and do sensitivity analysis and market validation which give the smallest error of option prices by RSJDM.
210

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java.

Page generated in 0.0676 seconds