• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 7
  • 6
  • 2
  • Tagged with
  • 17
  • 17
  • 16
  • 16
  • 7
  • 6
  • 6
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Algoritmo Wang-Landau e agrupamento de dados superparamagnético

RAMEH, Leila Milfont 26 August 2010 (has links)
Submitted by (ana.araujo@ufrpe.br) on 2016-08-02T14:20:48Z No. of bitstreams: 1 Leila Milfont Rameh.pdf: 1805419 bytes, checksum: 3c0a871188e0dc9ff8282000ec45fc1c (MD5) / Made available in DSpace on 2016-08-02T14:20:48Z (GMT). No. of bitstreams: 1 Leila Milfont Rameh.pdf: 1805419 bytes, checksum: 3c0a871188e0dc9ff8282000ec45fc1c (MD5) Previous issue date: 2010-08-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The method of unsupervised data classification proposed by Domany and coworkers is based on mapping the problem onto an inhomogeneous granular magnetic system whose properties can be investigated through some Monte Carlo Method. The array containing the data consists of n numeric attributes corresponding to points in an n-dimensional Euclidean space. Each data item is associated with a Potts spin. The interaction between such spins decays exponentially with the distance. This favors the alignment of the spins associated with similar objects. The physical system corresponds to a disordered ferromagnet which, in turn, is described by a Hamiltonian of a q-states Potts model. It is expected that the magnetic system exhibits three temperature-dependent regimes. For very low temperatures the system is completely ordered. At the other extreme, high temperatures, the system shows no magnetic order. In an intermediate range of temperatures, the spins within certain regions remain tightly coupled, forming grains. However, a grain does not influence the behavior of another grain. That is, the grains are non-correlated and this intermediate state is named a superparamagnetic phase. The transition from one regime to another can be identified by peaks in the specific heat versus temperature curve. We apply the method to several artificial and real-life data sets, such as classification of flowers, summary medical data and identification of images. We measure the spin-spin correlation at several temperatures to classify the data. In disagreement with the Domany and coworkers claims we found that the best classification of the data occurred outside the superparagnetic phase. / O método de agrupamento de dados não supervisionado proposto por Domany e colaboradores baseia-se no mapeamento do problema em um sistema magnético granular não homogêneo, cujas propriedades são investigadas através de algum método de Monte Carlo. A matriz que contém os dados é composta por n atributos de valor numérico e corresponde a um ponto em um espaço euclidiano n-dimensional. A cada item de dado é associado um spin de Potts. A interação entre tais spins decai exponencialmente com o aumento da distância entre eles. Isto favorece o alinhamento dos spins associados a objetos similares. O sistema físico corresponde a um ferromagneto desordenado que, por sua vez, é descrito por um hamiltoniano de Potts de q estados. Espera-se que o sistema magnético exiba três regimes quando sua temperatura seja variada. Para temperaturas muito baixas o sistema está completamente ordenado. No outro extremo, em altas temperaturas, o sistema não apresenta qualquer ordem magnética. Numa faixa intermediária de temperaturas, spins dentro de certas regiões permanecem fortemente acoplados, formando grãos. Porém, um grão não influencie o comportamento de outro grão. Ou seja, os grãos estão não correlacionados. Este estado intermediário caracteriza um estado superparamagnético. A transição de um regime para outro pode ser identificada por picos na curva de calor específico versus temperatura. Aplicamos o método aos conjuntos de dados reais da planta íris e de dados médicos, conhecido por BUPA, aos dados sintéticos conhecidos por Ruspini e a um conjunto de dados, gerado por nós, que consiste de duas figuras tridimensionais sobrepostas, um esfera e um toro. Procedemos a classificação dos dados através da correlação spin-spin em diversas temperaturas. O principal resultado foi a verificação que nem sempre o agrupamento realizado na fase superparamagnética é o ideal.
2

Numerical methods for density of states calculations

Haber, René 12 December 2008 (has links) (PDF)
The parQ method, up to now only capable of calculating the density of states in the canonical ensemble, is extended to the grand canonical ensemble and compared to the Wang-Landau algorithm, a local-update flat-histogram method. Both algorithms have been implemented so that the performance and the respective benefits with increasing simulation time can be determined and compared.
3

Simulações entrópicas do modelo de Ashkin-Teller / Entropic simulation of the model of Shkin-Teller

Ferreira, Lucas de Souza 10 March 2016 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2016-09-30T21:08:58Z No. of bitstreams: 2 Dissertação - Lucas de Souza Ferreira - 2016.pdf: 964364 bytes, checksum: 53a985295d81269cf08a064398f305f0 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-10-03T12:57:01Z (GMT) No. of bitstreams: 2 Dissertação - Lucas de Souza Ferreira - 2016.pdf: 964364 bytes, checksum: 53a985295d81269cf08a064398f305f0 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-10-03T12:57:01Z (GMT). No. of bitstreams: 2 Dissertação - Lucas de Souza Ferreira - 2016.pdf: 964364 bytes, checksum: 53a985295d81269cf08a064398f305f0 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-03-10 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / In 1943, Ashkin and Teller (AT) proposed a model to describe the behavior of a system composed by four components that interact with each other. However the problem has not been solved analytically for all parameters due to the complexity of the model. Only thirty years later Fan (1972) proposed a change in order to analyze the system. He made an analogy with the Ising model and described the interactions between the components in terms of spins, leading to a simple matching with the Ising and Potts q = 4 models and, enabling therefore a clearer comprehension of the model and allowing the implementation of various techniques to investigate the behavior of the system with the temperature. In 2001 Wang and Landau developed a Monte Carlo algorithm that estimates directly the density of states and can be applied in the study of phase transitions and the thermodynamic properties. This algorithm is based on a random walk in the space of energies that leads to an estimate for the density of states. During the simulations an energy histogram monitors the evolution of the density of states: whenever the flatness criterion is satisfied, we obtain a finer level of the density of states. In this work we perform a study of the Ashkin-Teller model using the Wang-Landau algorithm, determining the behavior of the magnetization and the specific heat and estimating the critical exponents , and and the critical temperature through the finite-size theory for different values of the model parameters. / Em 1943, Ashkin e Teller (AT) propuseram um modelo para descrever o comportamento de um sistema composto por quatro componentes que interagem entre si. Todavia o problema não foi resolvido analiticamente para todos parâmetros do sistema devido à complexidade de modelo. Somente trinta anos após a publicação do trabalho Fan (1972) propôs uma mudança na forma de analisar o sistema. Ele fez uma analogia com o modelo de Ising e escreveu as interações entre as componentes em termos de spins, o que levou a uma fácil correspondência com os modelos de Ising e Potts q = 4 e, de certa forma, tornou mais clara a compressão do modelo e possibilitou a aplicação de várias técnicas para se obter o comportamento do sistema com a temperatura. Em 2001 Wang e Landau elaboraram um algoritmo de Monte Carlo que estima diretamente a densidade de estados e pode ser aplicado no estudo de transições de fase e propriedades termodinâmicas. Esse algoritmo é baseado em um passeio aleatório no espaço das energias em que constroi-se uma estimativa da densidade de estados juntamente com um histograma de energia: toda vez que o critério de nivelamente é satisfeito, obtêm-se um nível mais refinado da densidade de estados. Este trabalho tem como objetivo o estudo do modelo de Ashkin-Teller usando o algoritmo de Wang-Landau, para o qual, determinamos o comportamento da magnetização e calor específico bem como os expoentes críticos , e e a temperatura crítica, através da teoria de tamanho finito para diferentes conjuntos de parâmetros do modelo.
4

Algorithmes pour l'étude de la structure secondaire des ARN et l'alignement de séquences / Algorithms for the study of RNA secondary structure and sequence alignment

Lou, Feng 30 January 2012 (has links)
Ces travaux de thèse concernent la conception et l'étude d'algorithmes, d'une part pourprédire les quantités thermodynamiques et la structure secondaire des ARN, d'autre part pour l'alignement de séquences.Dans une première partie, nous appliquons un algorithme de Monte-Carlo pour approximer la densité d'états d'énergie des structures secondaires d'une séquence d'ARN, ou d'une hybridation de deux molécules d'ARN données. Nous montrons d'abord que la densité estimée par notre programme est aussi bonne que la densité exacte, et le temps d'exécution de notre programme est beaucoup plus rapide. Nous calculons ensuite la température de dénaturation d'une hybridation de deux molécules d'ARN. Nous montrons que nos températures de dénaturation sont plus proches des valeurs expérimentales que celles des deux autres programmes existants.Puis, dans une deuxième partie, nous implémentons un algorithme de programmation dynamique qui engendre des structures sous-optimales, dédié principalement à la prédiction des deux structures fonctionnelles des riboswitchs. Nous appliquons d'abord notre programme sur un riboswitch TPP dans lequel nous avons réussi à détecter les deux structures fonctionnelles. Nous montrons ensuite que les structures prédites par notre programme sont plus proches de la structure réelle par rapport aux cinq autres programmes existants, sur un échantillon de riboswitch purine.Enfin, dans une troisième partie, nous présentons un algorithme de recherche des alignements sous-optimaux de séquences pour améliorer la qualité d'alignement des séquences. Nous comparons d'abord nos alignement à ceux produits par l'algorithme de Needdleman-Wunsch. Nous prédissons plus d'alignements de référrence par rapport l'algorithme de Needdleman-Wunsch. Nous calculons ensuite les fréquences des paires de bases alignées et les entropies de position spécifique dans nos alignements sous-optimaux. Nous montrons que les entropies calculées à partir de notre programme sont plus corrélées que celles des autres programmes avec les positions des paires de résidus fiablement alignées selon BAliBASE. / This thesis concerns the design and study of algorithms, on the one hand to predict the thermodynamic quantities and the secondary structure of RNA, the other for sequence alignment.In the first part, we apply a Monte Carlo algorithm to approximate the density of states for secondary structures of a given RNA sequence, and for hybridizations of two RNA sequences. We first show that the density estimated by our program is as good as the exact density, and the execution time of our program is much faster. We then calculate the melting temperature for a hybridization of two RNA sequences. We show that our melting temperatures are closer to experimental values than the other two programs.Then in the second part, we implement a dynamic programming algorithm that generates sub-optimal structures, mainly dedicated to the prediction of functional structures of riboswitchs. We first apply our program on a TPP riboswitch in which we were able to detect both functional structures. We then show that the structures predicted by our program are closer to the real structure compared to five other existing programs, on a sample of purine riboswitch.Finally, in the third part, we present a novel algorithm to produce sub-optimal pairwise alignments. We first compare our alignments to those produced by the algorithm of Needdleman-Wunsch. We predict more reference alignments than the algorithm of Needdleman-Wunsch. We then calculate the frequencies and position-specific entropies from our sub-optimal alignments. We show that entropies calculated from our program are more correlated than other programs with locations in the core block of BAliBASE reference alignments.
5

Monte Carlo Simulations of the Equilibrium Properties of Semi-stiff Polymer Chains : Efficient Sampling from Compact to Extended Structures

Siretskiy, Alexey January 2011 (has links)
Polymers is a class of molecules which can have many different structures due to a large number of degrees of freedom. Many biopolymers, e.g. DNA, but also synthetic macromolecules have special structural features due to their backbone stiffness. Since such structural properties are important for e.g. the biological function, a lot of effort has been put into the investigation of the configurational properties of semi-stiff molecules. A theoretical treatment of these systems is often accompanied by computer simulations. The main idea is to compare theoretically derived models with experimental results for real polymers. Using Monte Carlo simulations, I have investigated how this computational technique can build a bridge between theoretical models and experimentally observed phenomena. The effort was mainly directed to develop sampling techniques, for efficiently exploring the configurational space of semi-stiff chains in a wide range of structures. The work was concentrated on compact conformations, since they, as is well known from previous studies, are difficult to sample using conventional methods. In my studies I have shown that the simple and, at a first glance, time consuming method of bead-by-bead regrow as a way of changing the configuration of a semi-stiff chain gave very promising and encouraging results when combined with modern simulation techniques, like Entropic Sampling with the Wang-Landau algorithm. The resulting simulation package was also suitable for parallelization which resulted in a further speed-up of the calculations. In addition to the more elaborate sampling methods, I also investigated external conditions to induce compaction of a semi-stiff polymer. In the case of a polyampholyte the condensing agent could be a multivalent salt, creating effective attraction between the loops of the chain, while for neutral polymers, an external field and the geometry of the confining volume can induce a compaction.
6

Structure et dynamique de protéines isolées : approches statistiques

Poulain, Pierre 03 July 2006 (has links) (PDF)
Ce travail de thèse est une étude théorique des propriétés thermodynamiques de polypeptides en phase gazeuse avec comme objectif une meilleure compréhension des mécanismes fondamentaux impliqués dans le repliement des protéines. Une approche statistique basée sur des algorithmes Monte Carlo dans les ensembles généralisés, comme le Monte Carlo d'échange ou la méthode Wang-Landau, a été utilisée pour échantillonner le paysage énergétique complexe de ces systèmes. Les peptides étudiés comprenant de 2 à 20 acides aminés ont été modélisés par le champ de force AMBER 96. Les simulations ont été réalisées en étroite interaction avec les avancées expérimentales du groupe. Nous avons ainsi tenté de comprendre l'influence de la structure secondaire sur les mécanismes de photofragmentation, le rôle de l'entropie dans la stabilisation des feuillets beta à température ambiante et l'effet d'un champ électrique intense sur la conformation de peptides.
7

Algorithmes pour l'étude de la structure secondaire des ARN et l'alignement de séquences

Lou, Feng 30 January 2012 (has links) (PDF)
Ces travaux de thèse concernent la conception et l'étude d'algorithmes, d'une part pourprédire les quantités thermodynamiques et la structure secondaire des ARN, d'autre part pour l'alignement de séquences.Dans une première partie, nous appliquons un algorithme de Monte-Carlo pour approximer la densité d'états d'énergie des structures secondaires d'une séquence d'ARN, ou d'une hybridation de deux molécules d'ARN données. Nous montrons d'abord que la densité estimée par notre programme est aussi bonne que la densité exacte, et le temps d'exécution de notre programme est beaucoup plus rapide. Nous calculons ensuite la température de dénaturation d'une hybridation de deux molécules d'ARN. Nous montrons que nos températures de dénaturation sont plus proches des valeurs expérimentales que celles des deux autres programmes existants.Puis, dans une deuxième partie, nous implémentons un algorithme de programmation dynamique qui engendre des structures sous-optimales, dédié principalement à la prédiction des deux structures fonctionnelles des riboswitchs. Nous appliquons d'abord notre programme sur un riboswitch TPP dans lequel nous avons réussi à détecter les deux structures fonctionnelles. Nous montrons ensuite que les structures prédites par notre programme sont plus proches de la structure réelle par rapport aux cinq autres programmes existants, sur un échantillon de riboswitch purine.Enfin, dans une troisième partie, nous présentons un algorithme de recherche des alignements sous-optimaux de séquences pour améliorer la qualité d'alignement des séquences. Nous comparons d'abord nos alignement à ceux produits par l'algorithme de Needdleman-Wunsch. Nous prédissons plus d'alignements de référrence par rapport l'algorithme de Needdleman-Wunsch. Nous calculons ensuite les fréquences des paires de bases alignées et les entropies de position spécifique dans nos alignements sous-optimaux. Nous montrons que les entropies calculées à partir de notre programme sont plus corrélées que celles des autres programmes avec les positions des paires de résidus fiablement alignées selon BAliBASE.
8

Numerical methods for density of states calculations

Haber, René 24 July 2008 (has links)
The parQ method, up to now only capable of calculating the density of states in the canonical ensemble, is extended to the grand canonical ensemble and compared to the Wang-Landau algorithm, a local-update flat-histogram method. Both algorithms have been implemented so that the performance and the respective benefits with increasing simulation time can be determined and compared.
9

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering.
10

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java.

Page generated in 0.4411 seconds