• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 4
  • Tagged with
  • 10
  • 10
  • 10
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Estimação de parâmetros de populações de plantas daninhas usando inferência Bayesiana / Estimation of the parameters of weeds population using Bayesian inference

Lopes, Marcel Rodrigues 20 April 2007 (has links)
O banco de sementes de plantas daninhas pode vir a ser um sério problema para a atividade agrícola por manter infestações por longos períodos. A dinâmica da população de plantas daninhas pode ser representada por modelos matemáticos que relaciona as densidades de sementes produzidas e de plântulas em áreas de cultivo. Os valores dos parâmetros dos modelos podem ser inferidos diretamente de experimentação e análise estatística. O presente trabalho tem por objetivo estimar parâmetros de populações das plantas daninhas anuais denominadas Digitaria ciliares, Panicum maximum e Euphorbia heterophylla e avaliar um modelo espacial com 2 e 3 parâmetros, a partir de um experimento conduzido em cultura de Zea mays (milho) usando inferência Bayesiana. / The seeds bank of weed could be a serious problem to the agricultural activity because it maintains infestations for long periods. The dynamics of weed populations can be described by mathematical models that relates the produced seeds and seedlings densities in areas of crop. The values of the parameters of the models can be inferred from experimentation and statistics analysis. The objective of this work is to estimate parameters of anual weed populations denoted Digitaria ciliares, Panicum maximum e Euphorbia heterophylla and evaluate a spatial model with 2 and 3 parameters from experimental data of Zea mays (corn) fields using Bayesian inference.
2

Estimação de parâmetros de populações de plantas daninhas usando inferência Bayesiana / Estimation of the parameters of weeds population using Bayesian inference

Marcel Rodrigues Lopes 20 April 2007 (has links)
O banco de sementes de plantas daninhas pode vir a ser um sério problema para a atividade agrícola por manter infestações por longos períodos. A dinâmica da população de plantas daninhas pode ser representada por modelos matemáticos que relaciona as densidades de sementes produzidas e de plântulas em áreas de cultivo. Os valores dos parâmetros dos modelos podem ser inferidos diretamente de experimentação e análise estatística. O presente trabalho tem por objetivo estimar parâmetros de populações das plantas daninhas anuais denominadas Digitaria ciliares, Panicum maximum e Euphorbia heterophylla e avaliar um modelo espacial com 2 e 3 parâmetros, a partir de um experimento conduzido em cultura de Zea mays (milho) usando inferência Bayesiana. / The seeds bank of weed could be a serious problem to the agricultural activity because it maintains infestations for long periods. The dynamics of weed populations can be described by mathematical models that relates the produced seeds and seedlings densities in areas of crop. The values of the parameters of the models can be inferred from experimentation and statistics analysis. The objective of this work is to estimate parameters of anual weed populations denoted Digitaria ciliares, Panicum maximum e Euphorbia heterophylla and evaluate a spatial model with 2 and 3 parameters from experimental data of Zea mays (corn) fields using Bayesian inference.
3

Análise estatística de curvas de crescimento sob o enfoque clássico e Bayesiano: aplicação à dados médicos e biológicos / Statistical analysis of growth curves under the classical and Bayesian approach: application to medical and biological data

Oliveira, Breno Raphael Gomes de 16 February 2016 (has links)
Introdução: A curva de crescimento é um modelo empírico da evolução de uma quantidade ao longo do tempo. As curvas de crescimento são utilizadas em muitas disciplinas , em particular no domínio da estatística, onde há uma grande literatura sobre o assunto relacionado a modelos não lineares. Método:No desenvolvimento dessa dissertação de mestrado, foi realizado um estudo baseado em dados de crescimento nas áreas biológica e médica para comparar os dois tipos de inferência (Clássica e Bayesiana), na busca de melhores estimativas e resultados para modelos de regressão não lineares, especialmente considerando alguns modelos de crescimento introduzidos na literatura. No método Bayesiano para a modelagem não linear assumimos erros normais uma suposição usual e também distribuições estáveis para a variável resposta. Estudamos também alguns aspectos de robustez dos modelos de regressão não linear para a presença de outliers ou observações discordantes considerando o uso de distribuições estáveis para a resposta no lugar da suposição de normalidade habitual. Resultados e Conclusões: Análise dos dois exemplos pode-se observar melhores ajustes quando utilizada o método Bayesiano de ajustes de modelos não lineares de curvas de crescimento. É bem sabido que, em geral, não há nenhuma forma fechada para a função densidade de probabilidade de distribuições estáveis. No entanto, sob uma abordagem Bayesiana, a utilização de uma variável aleatória latente ou auxiliar proporciona uma simplificação para obter qualquer distribuição a posteriori quando relacionado com distribuições estáveis. Esses resultados poderiam ser de grande interesse para pesquisadores e profissionais, ao lidar com dados não Gauss. Para demonstrar a utilidade dos aspectos computacionais, a metodologia é aplicada a um exemplo relacionado com as curvas de crescimento intra-uterino para prematuros. Resumos a posteriori de interesse são obtidos utilizando métodos MCMC (Markov Chain Monte Carlo) e o software OpenBugs. / Introduction: The growth curve is an empirical model of the evolution of a quantity over time. Growth curves are used in many disciplines, particularly in the field of statistics, where there is a large literature on the subject related to nonlinear models. Method: In the development of this dissertation, a study based on data growth in biological areas and medical was conducted to compare two types of inferences (Classical and Bayesian), in search of better estimates and results for nonlinear regression models, especially considering some growth models introduced in the literature. The Bayesian method for nonlinear modeling assume normal errors an usual assumption and also stable distributions for the response variable. We also study some aspects of robustness of nonlinear regression models for the presence of outliers or discordant observations regarding the use of stable distributions to the response in place of the usual assumption of normality. Results and Conclusions: In the analysis of two examples it can be seen best results using Bayesian methodology for non linear models of growth curves. It is well known that, in general, there is no closed form for the probability density function of stable distributions. However, under a Bayesian approach, the use of a latent random variable or auxiliary variable provides a simplification to get every conditional posterior related to stable distributions. These results could be of great interest to researchers and practitioners when dealing with non-Gaussian data. To demonstrate the utility of the computational aspects, the methodology is also applied to an example related to intrauterine growth curves for premature infants. Posterior summaries of interest are obtained using MCMC methods (MCMC) and the OpenBugs software.
4

Análise estatística de curvas de crescimento sob o enfoque clássico e Bayesiano: aplicação à dados médicos e biológicos / Statistical analysis of growth curves under the classical and Bayesian approach: application to medical and biological data

Breno Raphael Gomes de Oliveira 16 February 2016 (has links)
Introdução: A curva de crescimento é um modelo empírico da evolução de uma quantidade ao longo do tempo. As curvas de crescimento são utilizadas em muitas disciplinas , em particular no domínio da estatística, onde há uma grande literatura sobre o assunto relacionado a modelos não lineares. Método:No desenvolvimento dessa dissertação de mestrado, foi realizado um estudo baseado em dados de crescimento nas áreas biológica e médica para comparar os dois tipos de inferência (Clássica e Bayesiana), na busca de melhores estimativas e resultados para modelos de regressão não lineares, especialmente considerando alguns modelos de crescimento introduzidos na literatura. No método Bayesiano para a modelagem não linear assumimos erros normais uma suposição usual e também distribuições estáveis para a variável resposta. Estudamos também alguns aspectos de robustez dos modelos de regressão não linear para a presença de outliers ou observações discordantes considerando o uso de distribuições estáveis para a resposta no lugar da suposição de normalidade habitual. Resultados e Conclusões: Análise dos dois exemplos pode-se observar melhores ajustes quando utilizada o método Bayesiano de ajustes de modelos não lineares de curvas de crescimento. É bem sabido que, em geral, não há nenhuma forma fechada para a função densidade de probabilidade de distribuições estáveis. No entanto, sob uma abordagem Bayesiana, a utilização de uma variável aleatória latente ou auxiliar proporciona uma simplificação para obter qualquer distribuição a posteriori quando relacionado com distribuições estáveis. Esses resultados poderiam ser de grande interesse para pesquisadores e profissionais, ao lidar com dados não Gauss. Para demonstrar a utilidade dos aspectos computacionais, a metodologia é aplicada a um exemplo relacionado com as curvas de crescimento intra-uterino para prematuros. Resumos a posteriori de interesse são obtidos utilizando métodos MCMC (Markov Chain Monte Carlo) e o software OpenBugs. / Introduction: The growth curve is an empirical model of the evolution of a quantity over time. Growth curves are used in many disciplines, particularly in the field of statistics, where there is a large literature on the subject related to nonlinear models. Method: In the development of this dissertation, a study based on data growth in biological areas and medical was conducted to compare two types of inferences (Classical and Bayesian), in search of better estimates and results for nonlinear regression models, especially considering some growth models introduced in the literature. The Bayesian method for nonlinear modeling assume normal errors an usual assumption and also stable distributions for the response variable. We also study some aspects of robustness of nonlinear regression models for the presence of outliers or discordant observations regarding the use of stable distributions to the response in place of the usual assumption of normality. Results and Conclusions: In the analysis of two examples it can be seen best results using Bayesian methodology for non linear models of growth curves. It is well known that, in general, there is no closed form for the probability density function of stable distributions. However, under a Bayesian approach, the use of a latent random variable or auxiliary variable provides a simplification to get every conditional posterior related to stable distributions. These results could be of great interest to researchers and practitioners when dealing with non-Gaussian data. To demonstrate the utility of the computational aspects, the methodology is also applied to an example related to intrauterine growth curves for premature infants. Posterior summaries of interest are obtained using MCMC methods (MCMC) and the OpenBugs software.
5

Classification de données multivariées multitypes basée sur des modèles de mélange : application à l'étude d'assemblages d'espèces en écologie

Georgescu, Vera 17 December 2010 (has links) (PDF)
En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement. L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales. Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée. Dans ce cadre, nous proposons : 1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages, 2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie, 3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.). Deux applications en écologie ont guidé et illustré ce travail : l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande
6

Additive Latent Variable (ALV) Modeling: Assessing Variation in Intervention Impact in Randomized Field Trials

Toyinbo, Peter Ayo 23 October 2009 (has links)
In order to personalize or tailor treatments to maximize impact among different subgroups, there is need to model not only the main effects of intervention but also the variation in intervention impact by baseline individual level risk characteristics. To this end a suitable statistical model will allow researchers to answer a major research question: who benefits or is harmed by this intervention program? Commonly in social and psychological research, the baseline risk may be unobservable and have to be estimated from observed indicators that are measured with errors; also it may have nonlinear relationship with the outcome. Most of the existing nonlinear structural equation models (SEM’s) developed to address such problems employ polynomial or fully parametric nonlinear functions to define the structural equations. These methods are limited because they require functional forms to be specified beforehand and even if the models include higher order polynomials there may be problems when the focus of interest relates to the function over its whole domain. To develop a more flexible statistical modeling technique for assessing complex relationships between a proximal/distal outcome and 1) baseline characteristics measured with errors, and 2) baseline-treatment interaction; such that the shapes of these relationships are data driven and there is no need for the shapes to be determined a priori. In the ALV model structure the nonlinear components of the regression equations are represented as generalized additive model (GAM), or generalized additive mixed-effects model (GAMM). Replication study results show that the ALV model estimates of underlying relationships in the data are sufficiently close to the true pattern. The ALV modeling technique allows researchers to assess how an intervention affects individuals differently as a function of baseline risk that is itself measured with error, and uncover complex relationships in the data that might otherwise be missed. Although the ALV approach is computationally intensive, it relieves its users from the need to decide functional forms before the model is run. It can be extended to examine complex nonlinearity between growth factors and distal outcomes in a longitudinal study.
7

Estudos do transporte de partículas brownianas interagentes e de transições de fases em modelos de spin quânticos

SILVA, Rogério Mendes da 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T18:02:03Z (GMT). No. of bitstreams: 2 arquivo4132_1.pdf: 2797653 bytes, checksum: 27180e30e0a15ede81873b5001d528e0 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Nesta Tese, são investigados dois temas de interesse atual, o transporte de partículas brownianas interagentes e as transições de fase em sistemas magnéticos quânticos. No primeiro, o transporte de partículas brownianas interagentes sujeitas a um potencial de substrato do tipo catraca foi investigado numericamente através da dinâmica de Langevin. Medidas da corrente de partículas, excitadas por uma força externa senoidal, foram analisadas como função da amplitude (A) e frequência (w) da força externa, do número de ocupação dos poços de potencial (n) e do ruído térmico (T). Em temperatura nula no regime adiabático, múltiplas inversões de corrente ocorrem em função de n, devido ao movimento das partículas que ficam menos presas em um potencial efetivo, o qual não preserva a simetria do potencial original devido à influência de uma certa fração de partículas efetivamente presas ao potencial. Observa-se, também, que o aumento da amplitude promove a deslocalização gradual das partículas presas, alterando a simetria do potencial efetivo, induzindo n¡1 oscilações (inversões) da corrente de partículas para um valor de n > 1. No regime de altas temperaturas, inversões de corrente são observadas pela ativação térmica das partículas efetivamente presas ao potencial, restabelecendo a sua simetria original e o movimento na sua direção mais suave. No regime de frequências moderadas, a corrente de partículas apresenta um comportamento discretizado em função da amplitude externa, sendo os intervalos ou degraus de corrente dependentes da densidade de partículas. Por fim, o efeito conjunto de altas temperaturas e altas frequências induz o movimento na direção mais íngreme do potencial, invertendo novamente o sentido da corrente de partículas. No segundo tema, foi investigada a criticalidade da cadeia quântica de spins Ising submetida a campo transverso com interações competitivas diluídas entre segundos vizinhos, em T = 0. O parâmetro k = ¡J2=J1 mede a razão entre os acoplamentos ferromagnéticos entre primeiros vizinhos (J1) e os antiferromagnéticos entre segundos vizinhos (J2), e o parâmetro e mede a diluição (desordem) entre acoplamentos entre segundos vizinhos. O caso e = 0 corivresponde ao modelo Ising puro em campo transverso e o caso e = 1 corresponde ao modelo ANNNI (Axial Next Nearest Neighbor Ising Model) em campo transverso. Ambos possuem a mesma classe de universalidade do modelo Ising clássico bidimensional. Foi investigado através da técnica de Monte Carlo quântico, o efeito da desordem sobre a criticalidade deste sistema. A técnica empregada consiste na combinação de um algoritmo de cluster em tempo imaginário contínuo adaptado para tratar interações competitivas que emprega o formalismo de Suzuki-Trotter que mapeia o sistema quântico d dimensional em um sistema clássico correspondente em d +1 dimensões, com interações anisotrópicas e com a desordem congelada em uma das direções. Foram calculados os expoentes dinâmicos z e o expoente do comprimento de correlação n no regime de competições fracas k = 0:1 em função de e , utilizando-se o comportamento de escala de tamanho finito anisotrópico apropriado para este sistema. Os resultados obtidos indicam uma mudança da criticalidade quântica do sistema induzida pela desordem entre os acoplamentos, revelando que esta é relevante para este sistema. Outro modelo magnético quântico estudado foi o modelo de Heisenberg anisotrópico de spin 1=2, definido na rede hierárquica do tipo diamante com p conexões. Neste caso, foi usada a técnica do grupo de renormalização no espaço real, com fator de escala b=2, dentro da aproximação de Migdal- Kadanoff para sistemas quânticos. Uma relação de recorrência para a magnetização local foi obtida relacionando os valores dos spins internos à rede na geração n com os valores dos spins externos na geração n¡1. Os expoentes críticos b foram calculados nos pontos fixos instáveis do tipo Ising e Heisenberg em função da dimensão fractal da rede
8

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering.
9

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java.
10

Classification de données multivariées multitypes basée sur des modèles de mélange : application à l'étude d'assemblages d'espèces en écologie / Model-based clustering for multivariate and mixed-mode data : application to multi-species spatial ecological data

Georgescu, Vera 17 December 2010 (has links)
En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement. L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales. Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée. Dans ce cadre, nous proposons : 1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages, 2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie, 3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.). Deux applications en écologie ont guidé et illustré ce travail : l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande / In population ecology, species spatial patterns are studied in order to infer the existence of underlying processes, such as interactions within and between species, and species response to environmental heterogeneity. We propose to analyze spatial multi-species data by defining species abundance assemblages. Species assemblages are one of the signatures of the local spatial interactions between species and with their environment. Species assemblages are defined here by a non spatial classification of the multivariate observations of species abundances. Model-based clustering procedures using mixture models were chosen in order to have an estimation of the classification uncertainty and to model an assemblage by a multivariate probability distribution. We propose : 1. An exploratory tool for the study of spatial multivariate observations of species abundances, which defines species assemblages by a model-based clustering procedure, and then maps and analyzes the spatial structure of the assemblages. Common distributions, such as the multivariate Gaussian, are used to model the assemblages. 2. A hierarchical model for abundance assemblages which cannot be modeled with common distributions. This model can be easily adapted to mixed mode data, which are frequent in ecology. 3. A clustering procedure for mixed-mode data based on mixtures of hierarchical models. Two ecological case-studies guided and illustrated this work: the small-scale study of the assemblages of two aphid species on leaves of Citrus trees, and the large-scale study of the assemblages of a host plant, Plantago lanceolata, and its pathogen, the powdery mildew, on the Aland islands in south-west Finland

Page generated in 0.4462 seconds