• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 15
  • 6
  • 2
  • Tagged with
  • 32
  • 32
  • 9
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Sciences de l'information pour l'étude des systèmes biologiques (exemple du vieillissement du système immunitaire) / Information sciences to study biological systems (example of the aging of the immune system)

Bedhiafi, Walid 20 September 2017 (has links)
Le laboratoire i3 et le laboratoire LGIPH, utilisent des approches à haut débit pour l’étude du système immunitaire et ces disfonctionnements. Des limites ont été observées quant à l’utilisation des approches classiques pour l’annotation des signatures d’expression des gènes. L’objectif principal a été de développer une approche d’annotation pour répondre à ce besoin. L’approche que nous avons développée est une approche basée sur la contextualisation des gènes et de leurs produits puis sur la modélisation des voies biologiques pour la production de bases de connaissances pour l’étude de l’expression des gènes. Nous définissons ici un contexte d’expression des gènes comme suit : population cellulaire+compartiment anatomique+état pathologique. Pour connaitre ces contextes, nous avons opté pour la fouille de la littérature et nous avons développé un package Python, qui permet d’annoter les textes automatiquement en fonction de trois ontologies choisies en fonction de notre définition du contexte. Nous montrons ici que notre package a des performances meilleures que un outil de référence. Nous avons l’avons utilisé pour le criblage d’un corpus sur le vieillissement du système immunitaire dont on présente ici les résultats. Pour la modélisation des voies biologiques nous avons développé en collaboration avec le LIPAH une méthode de modélisation basée sur un algorithme génétique qui permet de combiner les résultats de mesure de la proximité sémantique sur la base des annotations des gènes et les données d’interactions. Nous avons réussis retrouver des réseaux de références avec un taux d’erreur de 0,47. / High-throughput experimental approaches for gene expression study involve several processing steps for the quantification, the annotation and interpretation of the results. The i3 lab and the LGIPH, applies these approaches in various experimental setups. However, limitations have been observed when using conventional approaches for annotating gene expression signatures. The main objective of this thesis was to develop an alternative annotation approach to overcome this problem. The approach we have developed is based on the contextualization of genes and their products, and then biological pathways modeling to produce a knowledge base for the study of gene expression. We define a gene expression context as follows: cell population+ anatomical compartment+ pathological condition. For the production of gene contexts, we have opted for the massive screening of literature. We have developed a Python package, which allows annotating the texts according to three ontologies chosen according to our definition of the context. We show here that it ensures better performance for text annotation the reference tool. We used our package to screen an aging immune system text corpus. The results are presented here. To model the biological pathways we have developed, in collaboration with the LIPAH lab a modeling method based on a genetic algorithm that allows combining the results semantics proximity using the Biological Process ontology and the interactions data from db-string. We were able to find networks with an error rate of 0.47.
22

Inhibition de l'apoptose par inversion du rapport [Na⁺]ᵢ/[K⁺]ᵢ : preuve de l'existence de facteur(s) de transcription sensible(s) à la [Na⁺]ᵢ et rôle de la mortaline

Taurin, Sébastien January 2003 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
23

Mécanismes de transcription par l'ARN polymérase II : étude structure-fonction du site catalytique et rôles des facteurs de transcription TFIIA, TFIIE et TFIIF

Langelier, Marie-France January 2005 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
24

Dissection moléculaire du site de fixation de l'antigène d'une molécule d'histocompatibilité de classe II et modélisation stochastique des interactions macromoléculaires au sein de la cellule vivante

Peccoud, Jean 09 January 1991 (has links) (PDF)
Ce travail est constitue de deux parties indépendantes. Par mutagenese dirigée et expression dans des fibroblastes en culture, il a ete possible d'étudier 30 mutants du produit de classe ii du mhc murin, a#k. Ces mutants ont ete testes par reconnaissance par des anticorps monoclonaux, par présentation d'antigènes peptidiques et par présentation du superantigenes. L'allure générale du site de fixation de l'antigène correspond a celle observée dans la structure cristalline d'une molécule de classe i. Les résultats ont aussi permis de déterminer les résidus ayant une influence critique sur la fixation de l'antigène. Enfin, l'étude de la présentation des superantigenes montre que ceux-ci ne sont pas fixes de manières analogues aux antigènes peptidiques. Le faible nombre de molécules de certaines espèces moléculaires impliquées dans les mécanismes réglant l'expression génétique pose le probleme du modèlé cinétique pertinent dans ce type de conditions. Il faut renoncer a la notion de concentration et munir le modèle d'un espace d'états discret. Le déterminisme des réactions doit aussi être abandonne au profit d'une évolution stochastique. La deuxième partie du travail s'attache a la définition mathématique des processus de saut représentant un système de réactions chimiques entre espèces présentes en très faibles quantités. Une équivalence avec les systèmes différentiels de la cinétique déterministe est établie. Un modèle de transport avec saut est aussi défini. Il permet de traduire les situations dans lesquelles des évolutions aléatoires et déterministes de déroulent conjointement. Enfin, ces constructions ont nécessité un travail préalable de nature algébrique. Une analyse stoechiometrique détaillée de l'operon lactose, des étapes précoces du développement du phase ainsi que de la réplication des plasmides de la famille cole1 est conduite. Sa généralisation est envisagée
25

The role of the LHCX light-harvesting complex protein family in diatom photoprotection / Rôle des protéines de la famille des antennes collectrices de lumière, LHCX, dans la photoprotection chez les diatomées

Taddei, Lucilla 25 July 2016 (has links)
Les diatomées constituent le principal groupe du phytoplancton dans les océans, contribuant à près de 20% de la production primaire globale. Dans leur environnement très variable, les diatomées sont particulièrement efficaces dans leur capacité à ajuster leur activité photosynthétique en dissipant sous forme de chaleur l’énergie lumineuse absorbée en excès, par un processus appelé le « Non-Photochemical Quenching of chlorophyll fluorescence », (NPQ). Chez la diatomée modèle, Phaeodactylum tricornutum, il a été montré que LHCX1, une protéine proche des antennes photosynthétiques, est impliquée dans le NPQ. Par des approches intrégrées de génétique, biologie moléculaire, biochimie, imagerie des cinétiques de fluorescence et spectroscopie ultrarapide, j’ai étudié le rôle de la famille des LHCX chez P. tricornutum. J’ai tout d’abord pu corréler une expression différentielle des 4 gènes LHCX de P. tricornutum avec différentes dynamiques de NPQ et activités photosynthétiques, dans différentes conditions de lumiére et nutriments. En localisant les LHCX dans les differents complexes photosynthétiques et les différents sites de dissipation d’énergie, j’ai pu proposer un modèle de régulation dynamique du NPQ impliquant à court terme principalement LHCX1 au niveau des centres réactionnels, et une autre isoforme, possiblement LHCX3, au niveau des antennes lors d’un stress lumineux prolongé. Enfin, par le criblage d’une série de mutants potentiellement dérégulés dans leur contenu en LHCXs, j’ai pu identifier des lignées avec un NPQ altéré qui pourront constituer des nouveaux outils de recherche. Dans l’ensemble ce travail de thèse a permis de mettre en évidence la diversification fonctionnelle et l’importance de la famille des LHCX dans la fine modulation des capacités de collecte de lumière et de photoprotection, expliquant sans doute en partie le succès des diatomées dans leur environnement très fluctuant. / Diatoms dominate phytoplanktonic communities in contemporary oceans, contributing to 20% of global primary productivity. In their extremely variable environment, diatoms are especially efficient in adjusting their photosynthetic activity by dissipating as heat the light energy absorbed in excess, through a process called “Non-Photochemical Quenching of chlorophyll fluorescence”, (NPQ). In the model diatom Phaeodactylum tricornutum, it has been shown that LHCX1, a photosynthetic antenna-related gene, is involved in the NPQ process. Through integrated approaches of genetics, molecular biology, biochemistry, study of the kinetics of chlorophyll fluorescence yields and ultrafast spectroscopy, I studied the role of the LHCX family in the photoprotection activity of P. tricornutum. I first correlated a differential regulation of the 4 P. tricornutum LHCX genes with different dynamics of NPQ and photosynthetic activity, in different light and nutrient conditions. By localizing the LHCXs in fractioned photosynthetic complexes and the different sites of energy dissipation, I was able to propose a model of dynamic regulation of NPQ capacity involving mainly the LHCX1 in the reaction centers, during short-term high light responses. During prolonged high light stress, the quenching occurs mainly in the antennas, potentially mediated by the LHCX3 isoform. Finally, using photosynthetic parameters, I screened a series of transgenic lines putatively deregulated in their LHCX amount, and I identified lines with altered NPQ, which could represent novel investigation tools. Altogether, this work highlighted the functional diversification and the importance of the LHCX protein family in the fine-tuning of light harvesting and photoprotection capacity, possibly contributing to explain diatoms success in their highly fluctuating environment.
26

Organisation multi-échelle du cortex humain : des réseaux anatomo-fonctioneles à l'expression des gènes / Multiscale organization of the human cortex : from anatomo-functional cognitive networks to gene expression

Cioli, Claudia 30 September 2015 (has links)
Ce travail est conçu dans le panorama de développement rapide de grandes bases de données qui rassemblent des ensembles de résultats expérimentaux sur l’organisation anatomo-fonctionnelle du cerveau humain à différentes échelles; l’abondance d’informations demande un effort intra et interdisciplinaire pour les synthétiser de façon cohérente. Le but de cette thèse est de contribuer à cet effort de synthèse. Le travail suit deux chemins: intra disciplinaire pour relier et synthétiser les résultats produits par la communauté de l’imagerie cérébrale, avec une focalisation particulière sur les Réseaux de Repos et les Réseaux Cognitifs; inter-disciplinaire pour relier l’organisation anatomo-fonctionnelle du cortex cérébral (résultats en imagerie cérébrale), et les expressions des gènes révélées par les bases de données publiées très récemment sur le transcriptome humain.Cette thèse est organisée en trois parties: dans Partie I nous étudions l’organisation anatomo-fonctionnelle du cortex à partir des études d’imagerie cérébrale. Dans la Partie II, nous étudions les liens entre l’expression corticale des gènes et l’organisation anatomo-fonctionnelle du cortex, à la fois en termes de similitude topographique et de congruence de fonction, en se focalisant en particulier sur le traitement de l’information et la mémorisation. Dans la Partie III, nous présentons une plate-forme pour intégrer dans une même représentation les données d’imagerie cérébrale et d’expression génétique.En perspective, nous montrons comment notre approche pourrait donner des nouveaux points de vu au débat sur les maladies neurodégénératives et psychiatriques, et sur les modelés des dynamiques corticales. / This work is conceived in the present panorama of fast development of large databases gathering experimental results about the organization of the human brain at different scales. This abundance of information calls for an intra and inter-disciplinary effort aimed to synthesize this information in a coherent way.The aim of this thesis was to contribute to this effort for knowledge synthesis to better understand the multiscale organization of the cerebral cortex. The work followed two paths: an intra-disciplinary effort to bring together results produced by the brain imaging community with particular focus on Resting State and Task Based MRI experiments; an inter-disciplinary attempt to draw a link between the anatomo-functional organization of the cortex as emerging from brain imaging studies and the cortical patterns of gene expression as revealed by recently published atlases of the adult human brain transcriptome.The thesis is organized into three parts: In Part I studied the anatomo-functional organization of the human cortex starting from brain imaging studies. In Part II we studied the link between cortical gene expression and the anatomo-functional organization of the cortex both in term of their topography and in term of their function, focusing in particular on information processing and memory formation. In Part III we present a platform that we developed to favor knowledge integration between cognitive networks and gene expression databases.In perspective we show how our approach may provide new insights to the debate about neurodegenerative and psychiatric diseases on one hand, modeling of dynamical processes in different areas of the cortex on the other.
27

Les macrophages d’ascendance européenne et africaine répondent différemment aux infections bactériennes

Pagé Sabourin, Ariane 12 1900 (has links)
Des études antérieures démontrent que les descendants de peuples européens et africains présentent des différences de susceptibilité à certaines maladies infectieuses. Ces différences suggèrent des variations interpopulationnelles de la réponse immunitaire qui résultent probablement de l’adaptation de ces individus aux pathogènes de leur environnement. Nous avons caractérisé la réponse immunitaire chez des descendants de peuples européens et africains à des infections bactériennes. Nous avons infecté des macrophages dérivés de monocytes de 30 Américains d’origine africaine (Africains) et de 31 Américains d’origine européenne (Européens) avec les pathogènes intracellulaires Listeria monocytogenes et Salmonella typhimurium pendant 4 heures, puis nous avons mesuré le niveau d’expression pangénomique des cellules infectées et non infectées par séquençage de l’ARNm. Nous avons estimé le niveau de contrôle de l’infection par les macrophages à 2, 4 et 24 heures post-infection en évaluant le taux de survie des bactéries. Nous avons observé que les Africains présentent significativement moins de bactéries intracellulaires après 4 et 24 heures que les Européens, suggérant que les Africains contrôlent mieux les infections bactériennes. Nous avons identifié des différences interpopulationnelles dans le niveau de sécrétion des cytokines et dans le niveau d’expression de certains gènes, ce qui suggère que les Africains modulent une réponse inflammatoire plus forte que les Européens. Nous avons démontré que plusieurs de ces gènes ont subi des évènements de sélection positive récents seulement chez les Européens. Notre étude a identifié plusieurs gènes candidats susceptibles d’influencer le cours des infections bactériennes chez les humains. Nos résultats indiquent que les différences dans la progression des maladies infectieuses entre les populations européennes et africaines seraient le résultat de la sélection naturelle. / Previous studies demonstrate that people of African and European ancestry differ in their susceptibility to certain infectious diseases. Differences in infection progression between these populations suggest inter-population variation in the immune response, possibly caused by adaptation to the pathogens of their historical environments. Here, we characterize the immune response of people of African and European ancestry to bacterial infections. Monocyte-derived macrophages from 30 African Americans (Africans) and 31 European Americans (Europeans) were infected with the intracellular pathogens Listeria monocytogenes and Salmonella typhimurium for 4 hours and whole genome gene expression of infected and non-infected cells was measured by RNA-sequencing. Macrophage control of bacterial infection at 2, 4 and 24 hours was assessed by culturing infected cell lysate and counting colony-forming units to approximate bacterial survival rate. We found that macrophages derived from Africans presented fewer intracellular bacteria after 4 and 24 hours than Europeans, suggesting that Africans better control intracellular bacterial infections. Concordant with this observation, we identified inter-population differences in cytokine secretion and gene expression that might explain this pattern of increased infection control in Africans. Interestingly, several of those differences indicate that Africains have a stronger pro-inflammatory response than Europeans. We show that several of these genes appear to have been subject to recent selection in the Europeans population alone. We also identify multiple candidate genes that may affect the course of infection in these populations. Overall, our findings suggest that differences in infectious disease progression observed in Africans and in Europeans may be the outcome of natural selection.
28

Développement de méthodes bio-informatiques pour la découverte de variants codants et non codants dans le cadre des traits sanguins

Méric de Bellefon, Sébastian 04 1900 (has links)
La santé cardiovasculaire, la fonction immunitaire, l'hémostase et la réponse à d'autres maladies dépendent de l'abondance et des caractéristiques spécifiques des cellules sanguines. Au fil des années, un effort considérable a été fait pour trouver les variants génétiques, les gènes et les mécanismes de régulation impliqués dans la création de ces cellules. L'inactivation d'un allèle, appelée "perte de fonction" (LoF), est un type de variant codant que nous aimerions associer aux phénotypes sanguins. Comme ces mutations ne peuvent pas être artificiellement induites chez l'humain, pour des raisons éthiques évidentes, nous observons les occurences naturelles de ces pertes de fonction et espérons que la taille des cohortes sera suffisante pour trouver des associations statistiquement significatives. L'inactivation des deux allèles, appelée "knockout" (KO), peut avoir des conséquences plus fortes qu'une simple perte de fonction. Nous espérons également trouver des KO d'origine naturelle grâce à la taille des cohortes. La combinaison de deux variants LoF différents sur les deux allèles est appelée knockout hétérozygote composé. Nous nous intéressons également aux variants non codants qui affectent l'expression des gènes impliqués dans l'hématopoïèse. Certains de ces variants créent ou perturbent des sites de liaison des facteurs de transcription (TF), ces protéines qui se lient à des séquences d'ADN spécifiques et régulent l'expression des gènes. Les sites de liaison (TFBS) des facteurs de transcription se trouvent dans les promoteurs des gènes et dans les amplificateurs spécifiques au type cellulaire. Alors que certaines de ces mutations peuvent être bénignes ou même bénéfiques, la présence d'un LoF ou d'un KO peut être trop nuisible à la survie de l'individu. Les résultats de cette étude sont limités par le biais de survie. Comparée à une étude d'association pangénomique, cette étude se concentre sur un plus petit nombre de variants génétiques pour augmenter la puissance statistique et offrir une interprétation pour les résultats statistiquement significatifs. Le programme Trans-Omics for Precision Medicine (TOPMed) recueille et garantit la qualité des 45 000 séquences du génome entier que nous avons utilisées dans cette étude, ainsi que les bilans sanguins correspondants. Grâce à ces données, nous avons pu trouver plusieurs associations connues et nouvelles entre des variants rares et des phénotypes sanguins. / Cardiovascular health, immune function, hemostasis and the response to other illnesses depend on the abundance and specific features of blood cells. Over the years, a considerable effort has been made to find which genetic variants, genes and regulatory mechanisms are involved in the creation of these cells. The inactivation of an allele, called a loss-of-function (LoF), is a type of coding variant we would like to associate with blood phenotypes. For obvious ethical reasons, these mutations cannot be artificially induced in human, so we fall back on natural occurrences and hope that large cohorts will provide enough samples to find statistically significant associations. The inactivation of both alleles, called a knockout (KO), may have stronger consequences than a simple loss-of-function. We also hope to find naturally occurring knockouts thanks to the size of a large cohort. The combination of two different LoF variants is called a compound heterozygote knockout. We are also interested in non-coding variants that affect the expression of genes that are involved in hematopoiesis. Some of these variants create or disrupt the binding sites of transcription factors (TF), the proteins that bind to specific DNA sequences and regulate gene expression. Transcription factors binding sites (TFBS) are found in gene promoters and cell type specific enhancers. While some of these mutations can be benign or even beneficial, the presence of a LoF or KO may be too detrimental for the individual to survive. The results of this study are limited by survival bias. Compared to a genome-wide association study, this study focuses on a smaller number of genetic variants to increase statistical power and give an interpretation to the statistically significant findings. The Trans-Omics for Precision Medicine (TOPMed) program collects and ensures the quality of the 45,000 whole-genome sequences we used in this study, as well as the corresponding complete blood counts. Thanks to this raw data, we were able to find several known and novel associations between rare variants and blood phenotypes.
29

An analysis of translation heterogeneity in ribosome profiling data

do Couto Bordignon, Pedro 12 1900 (has links)
Les protéines sont responsables de pratiquement toutes les fonctions performées au sein du corps cellulaire et de ses alentours. Le contrôle de l’expression génique détermine l’abondance, la localisation et le moment de la production de protéines dans la cellule. Il s’agit de l’un des processus centraux à la régulation de la physiologie et du fonctionnement cellulaire. La moindre perte de balance dans ce complexe système engendre des conséquences majeures sur l’intégrité cellulaire, menant au développement de plusieurs maladies parfois incurables. La traduction de l’ARN messager en produit protéique constitue la dernière étape de l’expression génique. Elle est régulée de plusieurs façons, intrinsèques et extrinsèques à la séquence. Il s’agit également du processus cellulaire le plus coûteux en termes d’énergie. Le profilage des ribosomes (Ribo-Seq) figure parmi les récentes et prometteuses technologies ayant permis une meilleure étude des mécanismes de régulation de la traduction. Ces résultats contiennent toutefois la présence de variabilité et de bruits de nature infondée. Ce travail présente la mise en place d’une stratégie permettant la dissociation de signaux d’origine biologique de ceux ayant une origine technique. Ceci est effectué au travers de la mise en place de profiles consensus de densité ribosomale extrait d’une analyse comparative de plusieurs expériences de Ribo-Seq chez la levure (Saccharomyces cerevisiae). Les signaux biologiques dérivés par les profils consensus correspondent avec les signatures de pauses ribosomales connues, telles que les scores de repliements de l’ARNm et la charge des acides aminés. Épatamment, notre stratégie a également permis l’identification de séquences différentiellement transcrites (DT). Ces dernières jouent un rôle sur la cinétique de la phase d’élongation de la traduction, elles comportent notamment une surreprésentation de codons associés aux modifications des ARNs de transfert (tRNAs). Elles se retrouvent d’ailleurs impliquées dans le maintien de l’homéostase cellulaire, ayant une présence marquée chez des gènes prenants part aux mécanismes de biosynthèse de la macromolécule ribosomale ainsi que chez les ARNms aux sublocalisations cellulaires précises, notamment chez les mitochondries et le réticulum endoplasmique (ER). En plus de démontrer les possibilités de découvertes offertes par la technique du Ribo-Seq, cette étude présente une évidence de la nature dynamique et hétérogène du processus de traduction chez la cellule eucaryote. Elle démontre également le rôle de l’information directement encodée dans la séquence dans l’optimisation générale de l’homéostasie cellulaire. / Proteins are responsible for virtually all functions performed within and in the surroundings of a cell. The control of gene expression, which determines the amount, localisation and timing of protein production in the cell, is the central processes in the regulation of cellular physiology and function. Any disturbance in this complex system can generate important consequences on cellular integrity, sometimes leading to incurable diseases. The translation of messenger RNA into a protein product is the last step of the gene expression mechanism. It can be regulated in manifold ways, both intrinsically and extrinsically to the transcript sequence. It is also the costliest cellular process in terms of energy. Ribosome profiling (Ribo-Seq) is one of the recent and promising technologies making it possible to better study the mechanisms of translation regulation. Its results have however been shown to display variability in reproducibility and to contain noise of uncharted sources. This work presents the implementation of a strategy for dissociating signals of biological origin from those of technical origin. This is performed by the computation of a consensus profile of ribosomal density derived from a comparative analysis of several Ribo-Seq experiments in yeast (Saccharomyces cerevisiae). The biological signals derived by the consensus profiles correspond with signatures of known ribosomal pauses, such as mRNA folding strength and amino acid charges. Amazingly, our strategy also enabled the identification of differentially transcribed (DT) sequences. The latter have shown an over-representation of codons associated with modifications of transfer RNAs (tRNAs). They are also involved in the control of cellular homeostasis, exhibiting a marked presence in genes involved in ribosome biosynthesis as well as in mRNAs with precise translation sub-localization, particularly in mitochondria and the endoplasmic reticulum (ER). In addition to demonstrating the possibilities of discovery offered by the Ribo-Seq technique, this study also presents evidence of the dynamic and heterogeneous nature of the translation process in the eukaryotic cell. It also showcases its diverse regulatory mechanisms and the role of information directly encoded in the sequence in the general optimization of cellular homeostasis.
30

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique

Chekouo Tekougang, Thierry 08 1900 (has links)
Les simulations ont été implémentées avec le programme Java. / Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering.

Page generated in 0.0941 seconds