Return to search

Make inferences about bacterial gene functions with the concept of neighborhood in silico / Faire des inférences sur les fonctions des gènes bactériens avec le concept de voisinage in silico

Avec l'accroissement du nombre de génomes séquencés, l'organisation de ces données brutes et des données dérivées, l'extraction de l'information et des connaissances associées défie l'imagination. La notion de voisinage a été d'abord été introduite pour l'organisation des données dans des bases de données relationnelles. Pour extraire des informations pertinentes à partir de données massives, différents types de voisinages ont été étudiés ici. Tout d'abord, avec l'analysedes correspondances (CA) et en utilisant le regroupement supervisé ("model clustering" MBC), la proximité mutuelle des éléments formant deux entités biologiques centrales, les gènes (codant les protéines) et les acides aminés a été analysée. Nous montrons par exemple que les protéines de Psychromonas ingrahamii, bactérie psychrophile extrêmes, sont regroupées en six classes, et qu'il y a une forte opposition entre le comportement de l'asparagine (N) et des acides aminés sensibles à l'oxygène, ce que nous expliquons en terms de résistance au froid. Ensuite, nous avons analysé la répartition entre les îlots génomiques (GI) et le squelette du génome de base à partir d'une nouvelle méthode combinant composition en bases et en gènes, caractéristiques GI et de briser les synténies. L'application de cette approche à E. coli et B. subtilis a révélé que cette nouvelle méthode permet d'extraire certaines régions significative, non publiées auparavant.Enfin, pour illustrer un voisinage fin, la régulation de l'expression d'un gène et son évolution, nous avons étudié la relation entre les régions en amont du gène et la zone codante du gène thrS de façon approfondie. Nous avons constaté que ces deux régions associées à un gène, se sont comportés différemment dans l'histoire évolutive. Certaines des régions en amont porteuses de la fonction non-essentielle de régulation (qui contrôle l'expression de gène) ont évoluédifféremment de la région codante. / With more and more genomes being sequenced, the organization of those raw data and the derived data, the extraction of information and knowledge from these data has become a challenge. A key concept in this field is that of the neighborhood, especially with respect to the organization of data in relational databases. To extract information from bulk data, different kinds of neighborhoods were studied and each show interesting results in current study. .Firstly, through the Correspondence Analysis (CA) and later Model Based Clustering (MBC), two kinds of neighbors i.e. the genes (proteins) and amino acids were analyzed respectively, and it was found that proteins from Psychromonas ingrahamii are clustered into six classes, and there is strong opposition between asparagine (N) and the oxygen-sensitive amino acids. Secondly, the relationship between genomic islands and core genome (i.e. two closely linked neighbors withlarge range on the chromosome) was studied by a new method combining composition, GI features and synteny break. On applying to E. coli and B. subtilis it was revealed that this new method can extract some meaningful regions not published before. Thirdly, the relationship between upstream and coding regions of thrS gene (i.e. a case for two closely linked neighbors with small range on the chromosome) was studied extensively. It was found that these two regions associated to one gene, behaved differently in the evolutionary history.. Some of the upstream regions bearing non-essential function (i.e. regulation of gene expression) evolved more slowly than the coding region.
Date15 December 2010
CreatorsWang, Tingzhang
ContributorsEvry-Val d'Essonne, Danchin, Antoine, Médigue, Claudine
Source SetsDépôt national des thèses électroniques françaises
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text, Image, StillImage

Page generated in 0.0132 seconds