Global ETD Search

1	TRANSITIONS DE PHASE EN DIMENSIONS FRACTALES Monceau, Pascal 16 December 2004 (has links) (PDF) Parmi les méthodes de la théorie du groupe de renormalisation, les développements en epsilon sont basés sur des calculs dans l'espace réciproque et permettent de calculer les exposants critiques associés aux transitions magnétiques du second ordre pour des valeurs non entières de la dimension d'espace. Une interprétation physique naturelle consiste à se demander comment se comporte un système de spins en interaction dans un espace de dimension fractale. Or les structures fractales sont construites par itération d'une cellule génératrice dont les détails sont donc présents à plusieurs échelles ; la question qui se pose alors est de savoir ce qui se passe lorsque l'invariance par translation est remplacée par une invariance d'échelle géométrique. La convergence vers la limite thermodynamique se produit en même temps que le processus d'itération construit la structure. De ce fait, des simulations Monte Carlo fiables de ces transitions de phase n'ont pu être menées à bien que récemment, puisqu'elles nécessitent la simulation de très grandes tailles, lesquelles varient comme des séries géométriques avec l'étape d'itération. C'est en utilisant des algorithmes non locaux dits “d'amas” (Wolff, Swendsen-Wang), capables de réduire le ralentissement critique de manière significative, et des méthodes d'histogrammes pour traiter les données des simulationsMonte-Carlo que j'ai tout d'abord réalisé ces études. Il s'avère que le calcul précis des exposants critiques est rendu encore plus difficile par le fait que l'analyse en tailles finies du modèle d'Ising souffre de corrections d'échelle qui peuvent affecter fortement le comportement de certaines grandeurs thermodynamiques, en particulier lorsque la dimension fractale tend vers 1. J'ai montré que ces corrections d'échelle sont en partie liées à la très forte inhomogénéité du réseau sous jacent (due à l'existence de trous sur plusieurs ordres de grandeurs) et à la concomitance de la construction du fractal avec la convergence vers la limite thermodynamique. Les résultats que j'ai obtenus pour les exposants critiques, ou leurs bornes, sont toujours compatibles avec la relation d'hyperscaling dans laquelle on substitue la dimension de Hausdorff à la dimension d'espace. Le comportement critique en dimension non entière se décrit dans le cadre de l'universalité faible. Cela se manifeste par un désaccord net entre les exposants que j'ai obtenus par les méthodes Monte Carlo et les développements en epsilon. Les exposants critiques ne dépendent pas seulement de la dimension d'espace, des propriétés de symétrie du paramètre d'ordre et de la portée des interactions, mais aussi des propriétés géométriques de la structure fractale : Très récemment des calculs précis d'exposants critiques m'ont permis de montrer que des classes d'universalité différentes sont en général nécessaires pour décrire le comportement du modèle d'Ising sur des fractals de même dimension et de lacunarités différentes. Un tel résultat généralise le concept d'universalité faible proposé par Masuo Suzuki. L'hypothèse d'homogénéité qui sous-tend les lois d'échelle permettant de décrire un comportement critique se dérive par renormalisation. La procédure de renormalisation dans l'espace direct est naturelle dans les fractals, puisqu'elle suit exactement le processus inverse de construction de la structure. Avec mon étudiant Pai-Yi Hsiao, nous avons mené à bien l'étude du modèle d'Ising par une méthode de renormalisation Monte-Carlo sur une structure fractale de dimension voisine de 1, 89 ; il s'avère que l'exposant associé à l'une des directions propres peut être calculé avec une très bonne précision et est en accord avec les résultats de l'analyse en tailles finies. En revanche, la convergence est très lente dans l'autre direction, ce qui est lié aux corrections d'échelle mises en évidence lors de cette analyse. La cinétique stochastique associée à la formation des amas construits par l'algorithme de Wolff sous tend la compréhension du phénomène de ralentissement critique. J'ai montré que les distributions des tailles des amas de Wolff ont une propriété d'homogénéité qui fait intervenir l'un des exposants associé à une des directions propres du processus de renormalisation. Par ailleurs, les distributions des tensions de surface des amas vérifient une propriété analogue dans laquelle intervient un nouvel exposant critique. L'étude des fonctions d'autocorrélation m'a permis de calculer précisément les exposants dynamiques de Wolff lorsque la température critique est connue, et d'éclaircir l'évolution du ralentissement critique avec la dimension et la connectivité. Dans le cas de systèmes invariants par translation, l'ordre de la transition ferromagnétique du modèle de Potts est lié au nombre d'états de spin ; le passage du premier au second ordre est attendu pour des dimensions non entières. Par ailleurs, la présence de désordre peut, dans certaines conditions, induire une transition du second ordre à partir d'un système qui en présente une du premier. L'étude du comportement critique du modèle de Potts sur des fractals est donc particulièrement intéressante, puisque deux des paramètres qui le déterminent (dimensionnalité et désordre structurel) sont liés. Avec mon étudiant Pai-Yi Hsiao, nous avons montré que la transition associée au modèle de Potts à trois états sur une structure fractale de dimension voisine de 1, 89 est du second ordre. Les difficultés attendues lorsqu'on augmente le nombre d'états de spins se font déjà nettement sentir : Les corrections d'échelle empêchent de calculer la température critique avec une très bonne précision. Nous n'avons donc pu donner que des bornes pour certains exposants ; nous avons cependant clairement mis en évidence la différence entre les classes d'universalité de Potts à 2 et 3 états. L'étude de la percolation en dimension non entière est liée à la fois à celle du modèle de Potts et aux algorithmes d'amas. Elle est basée sur l'étude des moments de la distribution de taille des amas, ce qui nécessite la localisation de pics en fonction de la probabilité d'occupation. J'ai pu montrer que les corrections d'échelle n'affectent pratiquement pas le comportement des pics avec la taille des structures, et proposé de les interpréter en termes de "seuil effectif". Pénomènes critiques fractals modèles de Potts et Ising ralentissement critique renormalisation universalité faible corrections d'échelle simulations Monte-Carlo algorithmes de Wolff et Swendsen-Wang algorithme de Wang-Landau percolation dynamiques stochastiques distributioon de taille des amas
2	Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique Chekouo Tekougang, Thierry 08 1900 (has links) Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. Groupement Clustering Ontologie des gènes Gene Ontology Expression génétique gene expression Critère d’information de déviance Deviance information criterion Algorithme de Wang-Landau Wang-Landau algorithm modèle auto-logistique auto-logistic models Sélection des variables Variable selection modèle à carreaux plaid model Algorithme EM de Monte Carlo Monte Carlo EM algorithm Importance échantillonnale Importance Sampling
3	Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique Chekouo Tekougang, Thierry 08 1900 (has links) Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java. Groupement Clustering Ontologie des gènes Gene Ontology Expression génétique gene expression Critère d’information de déviance Deviance information criterion Algorithme de Wang-Landau Wang-Landau algorithm modèle auto-logistique auto-logistic models Sélection des variables Variable selection modèle à carreaux plaid model Algorithme EM de Monte Carlo Monte Carlo EM algorithm Importance échantillonnale Importance Sampling

1

Page generated in 0.0693 seconds