• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 351
  • 184
  • 26
  • Tagged with
  • 519
  • 171
  • 147
  • 78
  • 74
  • 74
  • 69
  • 67
  • 64
  • 58
  • 53
  • 52
  • 48
  • 46
  • 44
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Évolution des génomes mitochondriaux de plantes : approche de génomique comparative chez Zea mays et Beta vulgaris / Plant mitochondrial genome evolution. : a comparative genomic approach in Zea mays and Beta vulgaris

Darracq, Aude 12 July 2010 (has links)
L'étude de l'évolution des génomes peut être abordée par différentes stratégies. Généralement, les analyses reposent sur les polymorphismes de séquences. Cependant, il existe des génomes dont le taux de mutation est très faible et dont la principale source de polymorphisme provient de l'arrangement différent de leurs gènes le long des chromosomes. Les évènements de réarrangements chromosomiques deviennent alors les seuls marqueurs utilisables pour retracer l'évolution de ces génomes. Nous nous sommes intéressés dans ce travail à l'analyse de l'évolution des génomes mitochondriaux d'espèces végétales au niveau de leur structure. En effet, ces génomes sont caractérisés par un faible taux de mutation et un taux élevé de réarrangements. Cette étude s’est portée à un niveau intraspécifique afin de limiter le nombre de réarrangements à analyser et sur deux espèces : Zea mays, le maïs, et Beta vulgaris, la betterave. Il s'avère, qu'en plus du polymorphisme de structure, ces génomes contiennent un grand nombre d'éléments dupliqués. Or les outils d'analyse d'évènements de réarrangements ne permettent pas d'inclure les évènements de duplication autrement qu'en distinguant les paralogues des orthologues, ce qu'il est particulièrement difficile à réaliser ici, du fait que les dupliqués sont identiques en séquence. Nous avons ici établi une stratégie basée sur l'hypothèse que les éléments dupliqués proviennent de duplications en tandem, permettant la reconnaissance, le tri et la distinction des éléments dupliqués. Cette méthode nous a conduits à proposer une histoire évolutive basée sur des réarrangements congruente avec les phylogénies de séquences. Les comparaisons entre génomes mitochondriaux de maïs et betteraves nous ont permis de montrer que des mécanismes évolutifs différents sont à l’origine de la diversité génomique observée. Nous avons également observé des différences évolutives entre les génomes à un niveau intraspécifique soulevant le problème d'échantillonnage lorsque l'on veut comparer des génomes à un niveau interspécifique. / Several methods can be used to study genome evolution. Most of the time, genome evolution isstudied through nucleotide sequence polymorphism. However, in some species, mutation rate is lowand polymorphisms are mainly caused by chromosomal rearrangements. In such a case, chromosomalrearrangement is the only informative marker to study genome evolution. In this study, we focused onplant mitochondrial genome evolution at the structural level. Plant mitochondrial genomes have beendescribed as highly rearranged, but no study has been conducted on their rearrangement evolution.We chose to analyze the diversity of plant mitochondrial genomes at the intraspecific level to workon a short evolutive scale, limiting rearrangement events among genomes. The study was conductedon two species : Zea mays and Beta vulgaris . Moreover, besides structural polymorphisms, plantmitochondrial genomes contain large number of duplicated elements which are not taken into accountby rearrangement tools if orthologous and paralogous relations are not established. Based on thehypothesis that the duplicated elements were caused by tandem duplication events, we proposed anew approach to find, sort and differentiate duplicated elements. This method led to phylogenies basedon rearrangement events consistent with phylogenies based on nucleotide sequences. The comparisonof genome evolution between maize and beet allowed us to show the existence of different evolutionhistories and mechanisms between these two species. We also observed evolutionary differences atthe intraspecific level, raising the question of sampling strategy when genomes are compared at theinterspecific level.
2

Regulatory networks driving bladder cancer / Réseaux de régulation du cancer de la vessie

Nicolle, Rémy 09 January 2015 (has links)
La carcinogénèse est une conséquence de la continuelle activation de la prolifération cellulaire. Dans les cellules normales, les signaux mitogéniques sont traités par un réseau complexe d’interactions protéiques et de réactions enzymatiques, appelées voies de signalisation. Dans certains cas, le signal peut induire l’activation de nouveaux gènes et ainsi déclencher la mitose. Lors du développement ou de la cicatrisation, cette régulation du phénotype cellulaire contrôle étroitement le nombre et le comportement des cellules contribuant ainsi au maintien d’un tissu fonctionnel sain. A partir de profils génomiques, transcriptomiques et protéomiques de tumeurs de la vessie ainsi que des transcriptomes de cellules urothéliales normales dans différents états de prolifération et de différenciation, j’ai mis au point de nouvelles méthodologies pour caractériser les voies de signalisation et de régulation responsables des cancers de la vessie. Dans un premier temps, j’ai développé des outils pour l’identification et la visualisation des programmes transcriptionnels spécifiques à une tumeur ou à un sous-type tumoral et ce, par l’inférence d’un réseau de co-régulation et la prédiction de l’activité des facteurs de transcription. Ces méthodes sont disponibles dans un package Bioconductor, CoRegNet (bioconductor.org). La mesure de l’activité transcriptionnelle est basée sur l’influence d’un facteur de transcription sur l’expression de ses gènes cibles. Cette mesure a été utilisée pour identifier les régulateurs les plus actifs de chaque sous-type de cancer de la vessie. L’intégration de profils génomiques a mis en avant deux facteurs de transcription génétiquement altérés et ayant des rôles oncogènes dans les tumeurs luminales et basales. L’un d’entre eux a été validé expérimentalement dans ce travail.L’utilisation de CoRegNet a mis en évidence une large utilisation dans les tumeurs,des réseaux normaux de la différenciation et de la prolifération des cellules normales. Un régulateur de la prolifération normale est identifié comme étant activé de fa¸con constitutive par des altérations génétiques dans les tumeurs. Son impact sur la prolifération des cellules tumorales de la vessie a été expérimentalement validé. Par ailleurs, il a été constaté que l’un des régulateurs de la différenciation urothéliale présentant une baisse d’activité dans la quasi-totalité des tumeurs, est fréquemment muté. De plus amples analyses ont mis en avant son rôle majeur dans les tumeurs différenciées. Dans le but de caractériser les voies de signalisation à partir de données protéomiques d’expériences d’immunoprécipitations, j’ai développé un nouvel algorithme visant à construire un réseau dense à partir d’une liste de protéines d’intérêt et d’un ensemble d’interactions protéiques connues. L’algorithme est proposé sous la forme d’une application Cytoscape et s’intitule Pepper: Protein Complex Expansion using Protein-Proteininteraction networks (apps.cytoscape.org) Enfin, en utilisant à la fois le profil protéomique d’une expérience d’immunoprécipitation de FGFR3 ainsi que le profil transcriptomique des gènes qu’il régule en aval, j’ai appliqué Pepper pour caractériser la voie de signalisation de FGFR3 depuis ses partenaires protéiques jusqu’aux facteurs de transcription en aval. Enfin, ce travail a plus particulièrement permis d’identifier un lien de régulation entre FGFR3 et le gène suppresseur de tumeurs TP53. / Carcinogenesis is a consequence of the unceasing activation of cell proliferation. In normal cells, mito-genic stimuli are processed by a complex network of protein interactions and enzymatic reactions, often referred to as pathways, which can eventually trigger the activation of new genes to engage the cell into mitosis. During developmental or wound healing processes, this complex regulation of cellular phenotypes results in a tight control of the number and behavior of cells and therefore contributes to the maintenance of a functional and healthy tissue architecture. Based on genomic, transcriptomic and proteomic profiles of bladder tumors and transcriptomes of nor-mal urothelial cells at various states of proliferation and differentiation, I devised novel methodologies to characterize the pathways driving bladder cancer. I first developed a set of tools to identify and visualize sample and subtype-specific transcriptional pro-grams through the inference of a co-regulatory network and the prediction of transcription factor activity. These methods were embedded in a Bioconductor package entitled CoRegNet (bioconductor.org). The measure of transcriptional activity is based on the influence of a transcription factor on the expression of its target genes and was used to characterize the most active regulators of each bladder cancer subtypes. The integration of genomic profiles highlighted two altered transcription factors with driver roles in lumi-nal-like and basal-like bladder cancer, one of which was experimentally validated. The use of CoRegNet to model the contribution of regulatory programs of normal proliferation and diffe-rentiation in bladder cancers underlined a strong preservation of normal networks during tumorigenesis. Furthermore, a regulator of normal proliferation was found to be constitutively activated by genetic al-terations and its influence on bladder cancer cell proliferation was experimentally validated. In addition, a master regulator of urothelial differentiation was found to have a loss of activity in nearly all tumors. This was then associated to the discovery of frequent inactivating mutations and further analysis unco-vered a major role in differentiated tumors. In order to characterize signaling pathways from proteomic pull-down assays, I then designed a novel algorithm to grow a densely connected network from a set of proteins and a repository of protein interac-tions. The proposed algorithm was made available as a Cytoscape application named Pepper for Protein Complex Expansion using Protein- Protein interaction networks (apps.cytoscape.org). Finally, using both a proteomic pull-down assay of the bladder cancer oncogene FGFR3 and a transcrip-tomic profiling of its downstream regulated genes, I applied Pepper to characterize the full FGFR3 signa-ling pathway from its protein partners to the downstream transcriptional regulators. In particular, this uncovered a regulatory link between FGFR3 and the tumor suppressor TP53.
3

Étude phylogénétique d'[alpha]-protéobactéries : sur les traces de l'ancêtre bactérien de l'endosymbiote mitochondrial

Marie-Egyptienne, Delphine January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
4

Nouvelles approches pour l'exploitation des données de séquences génomique haut débit / New approaches for exploitation of high throughput sequencing data

Limasset, Antoine 12 July 2017 (has links)
Cette thèse a pour sujet les méthodes informatiques traitant les séquences ADN provenant des séquenceurs haut débit. Nous nous concentrons essentiellement sur la reconstruction de génomes à partir de fragments ADN (assemblage génomique) et sur des problèmes connexes. Ces tâches combinent de très grandes quantités de données et des problèmes combinatoires. Différentes structures de graphe sont utilisées pour répondre à ces problèmes, présentant des compromis entre passage à l'échelle et qualité d'assemblage. Ce document introduit plusieurs contributions pour répondre à ces problèmes. De nouvelles représentations de graphes d'assemblage sont proposées pour autoriser un meilleur passage à l'échelle. Nous présentons également de nouveaux usages de ces graphes, différent de l'assemblage, ainsi que des outils pour utiliser ceux-ci comme références dans les cas où un génome de référence n'est pas disponible. Pour finir nous montrons comment utiliser ces méthodes pour produire un meilleur assemblage en utilisant des ressources raisonnables. / Novel approaches for the exploitation of high throughput sequencing data In this thesis we discuss computational methods to deal with DNA sequences provided by high throughput sequencers. We will mostly focus on the reconstruction of genomes from DNA fragments (genome assembly) and closely related problems. These tasks combine huge amounts of data with combinatorial problems. Various graph structures are used to handle this problem, presenting trade-off between scalability and assembly quality. This thesis introduces several contributions in order to cope with these tasks. First, novel representations of assembly graphs are proposed to allow a better scaling. We also present novel uses of those graphs apart from assembly and we propose tools to use such graphs as references when a fully assembled genome is not available. Finally we show how to use those methods to produce less fragmented assembly while remaining tractable.
5

Echelle spatiale et temporelle de l’adaptation chez Arabidopsis thaliana : intégration de la plasticité phénotypique / Spatial and temporal scale of adaptation in Arabidopsis thaliana : Integrating phenotypic plasticity in the study of evolution

Villoutreix, Romain 16 December 2013 (has links)
A partir d’un échantillonnage hiérarchique et/ou temporel de populations naturelles, je me suis attaché dans cette thèse à (i) faire une caractérisation écologique (climat, sol et compétition) faisant défaut chez cette espèce modèle en génomique. (ii) caractériser la variation phénotypique existant à différentes échelles spatiales, en mesurant de nombreux traits phénotypiques et leurs plasticités en conditions contrôlées de serre mais aussi sur un terrain expérimental de l’Université de Lille 1, (iii) identifier les traits sous sélection en utilisant trois approches : comparaison FST – QST, relations phénotype – écologie et gradients de sélection génotypiques, (iv) identifier les agents sélectifs potentiellement responsables de ces variations phénotypiques adaptatives et (v) et identifier les bases génétiques associées à la variation naturelle par une approche de GWA mapping. Il ressort qu’une importante variabilité existe pour de nombreux traits phénotypiques à une échelle spatiale large comme le monde ou la France mais également à une échelle spatiale très fine. Bien qu’une part importante de cette variation puisse être attribuée à des processus non sélectifs, une part de celle-ci serait due à des processus d’adaptation locale. Le patron d’adaptation locale révélé est très complexe et semble être la résultante de pressions de sélection emboitées variant à différentes échelles, aussi bien au niveau de la France qu’au sein d’une population, et agissant sur différents traits ou plasticités. En accord avec ce patron, les bases génétiques associées à la variation naturelle phénotypique semblent être très dépendantes de l’échelle géographique considérée. / Based on a hierarchically spatial and/or temporal sampling of natural populations, I aimed at (i) making an ecological characterization (climate, soil and competition) lacking for this model plant in genomics, (ii) characterizing the extent of phenotypic variation existing at different spatial scales, by measuring many traits and their phenotypic plasticity in controlled greenhouse conditions and in an experimental field at the University of Lille 1, (iii) identifying the traits under selection using three approaches : FST – QST comparisons, phenotype-ecology relationships and genotypic gradients of selection, (iv) identifying the selective agents potentially responsible for adaptive phenotypic variation, and (v) identifying the genetic basis associated with natural variation by a GWA mapping approach. The experiments conducted during this thesis suggest that a significant amount of variation exists for many phenotypic traits at a large spatial scale (World or France), but also at a very fine scale (even within many populations). While a significant part of this variation may have been shaped by non-selective processes, the other part of this variation is suggested to have been shaped by local adaptation. The pattern of local adaptation revealed by the different methods is very complex and appears to be the result of nested selection pressures varying at different geographic scales, (France scale and within-population scale), and acting on different traits or plasticities. In agreement with this pattern, the genetic basis associated with phenotypic natural variation was shown to be highly dependent on the geographical scale considered.
6

Multiobjective Biclustering : from gene expression data to GWA data / Biclustering multiobjectif : des données d'expression génétiques aux données d'association génomique

Seridi, Khedidja 05 July 2013 (has links)
Les puces à ADN sont des matrices qui indiquent les niveaux d’expression de milliers de gènes sous plusieurs conditions. L’analyse de ces données consiste à extraire des gènes qui ont un comportement similaire sous certaines conditions. En fait, les informations extraites sont des sous-matrices (biclusters) qui réspectent certaines contraints de cohérence. Le processus d'extraction est appelé biclustering. Dans cette thèse, nous traitons ce problème dans le contexte multiobjectif appliqué à l’analyse des données biologiques. Par conséquent, plusieurs questions liées à la modélisation des problèmes et la conception d’algorithmes ont été abordées. Tout d’abord, une description du problème est revue. En outre, une nouvelle mesure de la cohérence est proposée. En outre, deux modèles multiobjectif sont proposées afin d’extraire des biclusters de différents types. Par ailleurs, ce travail explore différentes métaheuristiques pour résoudre ces modèles . De plus, différentes hybridations entre les différentes métaheuristiques sont pris en compte. De plus, nous avons proposé une nouvelle application de biclustering, à savoir, l’analyse des données GWA. En fait, les données GWA consiste au génotype et le phénotype d’un ensemble d’individus. L’analyse de ces données consiste à trouver des associations entre des variants génétiques et les traits considérés. De ce fait, un modèle multiobjectifs pour le biclustering est proposé. En outre, un métaheuristique hybride est appliqué pour résoudre le modèle proposé. Les résultats expérimentaux, pour les deux applications, démontrent que les méthodes sont efficaces sur et permettent d'extraire des informations importantes. / Microarray data represents the expression levels of thousands of genes under several conditions. its analysis consists on discovering genes that have similar behavior across a subset of conditions. In fact, the extracted informations are submatrices (biclusters) that satisfy a coherence constraint. The process of extracting them is called biclustering. In this thesis, we deal with biclustering task applied to the analysis of biological data. Accordingly, several issues related to problem modeling and algorithms design have been addressed. First, a description of the problem and the different measures of biclusters coherence are reviewed. Furthermore, a new coherence measure allowing identification of all biclusters types with a low complexity is proposed. Additionally, two multiobjective models for biclustering problem are proposed in order to mine biclusters of different types. Besides problems modeling, this work investigates different metaheuristics to solve biclustering problem. Moreover, different hybridizations between different metaheuristics presenting different behaviors are considered. Additionally, we propose a new application of biclustering task, namely, analysis of GWA data. In fact, GWA data consists in genotype and phenotype informations of a set of individuals. Its analysis consists in finding associations between markers and the considered traits. Thus, a multiobjective model for biclustering method is proposed. Moreover, a hybrid metaheuristic is applied to solve the proposed model. Experimental results, for both applications, demonstrate that the proposed approaches are effective and are able to extract relevant informations from the considered data.
7

Vers une compréhension moléculaire de la biosynthèse pariétale chez le lin / Towards a molecular understanding of cell wall biosynthesis in flax

Chantreau, Maxime 25 June 2014 (has links)
Certaines plantes comme le jute, la ramie et le lin contiennent de longues cellules fibres caractérisées par la présence d’une épaisse paroi secondaire riche en cellulose et pauvre en lignine. Peu de choses sont connues concernant la biosynthèse de leur paroi, particulièrement en ce qui concerne les mécanismes qui contrôlent la lignification. Pour améliorer nos connaissances sur ces mécanismes chez le lin, deux approches de génomique fonctionnelle ont été développées. La première approche repose sur la technique de VIGS (Virus-Induced Gene Silencing). Le protocole d’infection a été optimisé en utilisant le gène contrôle PDS (Phytoene desaturase). Cette approche a ensuite été appliquée pour caractériser fonctionnellement les gènes de cellulose synthases A. La seconde approche concerne la création d’une population de mutants EMS et le développement d’une stratégie de TILLinG (Targeted Induced Local Lesions in Genomes). Le criblage Li-Cor de deux gènes (C3H et CAD) impliqués dans la biosynthèse des monolignols a permis d’identifier respectivement 79 et 76 familles de mutants pour chaque gène. Les calculs indiquent que la population présente un taux de mutation 1/41 Kb. Un criblage cytologique de la population de mutants a ensuite permis d’identifier une sous-population (lbf) présentant des fibres lignifiées. Une caractérisation approfondie des mutants lbf1 indique que le contenu en lignine des fibres est augmenté de 350% et associé à d’importantes modifications dans le pool d’oligolignols. Les analyses transcriptomiques suggèrent que l’augmentation de la lignification est associée à une régulation positive de l’expression de peroxydases impliquées dans la lignification. / Certain plants such as jute, ramie and flax contain elongated fiber cells (bast fibers) characterized by the presence of a thick cellulose-rich secondary cell wall containing low amounts of lignin. Little is known about cell wall biosynthesis in bast fibers and especially about the mechanisms controlling lignification. To improve our understanding of cell wall formation in the fiber model plant flax, we developed two functional genomics approaches. The first approach is based on the VIGS (Virus-induced gene silencing) procedure. We firstly optimized the infection protocol for flax using the PDS (Phytoene desaturase) control gene. We then used our protocol to functionally characterize cellulose synthase A genes. The second approach concerned the characterization of a flax EMS mutant population and the development of a TILLinG (Targeted Induced Local Lesions in Genomes) strategy. Li-Cor based screening of two genes (C3H and CAD) involved in monolignol biosynthesis allowed us to identify respectively, 79 and 76 mutant families for each gene. Calculation indicated that our population has a mutation rate of 1/41 Kb. Subsequently we used a high throughput cytological screening of our mutant to identify a sub-population showing lignified bast fibers (lbf population). In-depth characterization of the flax lbf1 mutant indicate that bast fiber lignin content increased by 350% and was associated with important modifications in the oligolignol pool. Whole genome transcriptomics suggested that increased lignification was related to an important up-regulation in lignin-associated peroxidase gene expression.
8

Identification de la base moléculaire de l'antigène érythrocytaire de haute fréquence PEL

Nadeau Larochelle, Corinne January 2013 (has links)
En 2013, la Société internationale de médecine transfusionnelle (ISBT) reconnaît 33 groupes sanguins et 339 antigènes érythrocytaires différents, dont plus de 297 sont déjà associés à un groupe sanguin. Les autres antigènes sont classés dans des séries et des collections en attendant la découverte de leur base moléculaire. En 1996, Geoff Daniels et collaborateurs identifiaient l’antigène PEL. À la suite de cette découverte, des travaux ont démontré qu’il est présent chez plus de 99,9% de la population en général et que le phénotype PEL négatif semble être spécifique à la population québécoise. À la lumière des caractéristiques connues à propos de l’antigène PEL, des analyses génomiques et protéomiques ont été effectuées dans le but de découvrir sa base moléculaire. Cependant, l’analyse des ARN messagers séquencés, ainsi que les résultats obtenus lors des expériences en protéomique, n’ont pas permis d’identifier la base moléculaire de l’antigène PEL.
9

Algorithmes bio-informatiques pour l’analyse de données de séquençage à haut débit / New algorithmic and bioinformatic approaches for the analysis of data from high throughput sequencing

Kopylova, Evguenia 11 December 2013 (has links)
Les algorithmes d'alignement sont au coeur de l'analyse de séquences en bio-informatique. Dans cette thèse, nous nous focalisons sur le problème de l'alignement de lectures, des millions de courtes séquences produites par les séquenceurs de nouvelle génération (NGS) en particulier pour l'analyse de données de métatranscriptome et de métagénome en biodiversité. Pour cela, il y a deux types de difficulté. Le premier est que toutes les technologies NGS entrainent des erreurs de séquençage, telles que substitutions, insertions et suppressions de nucléotides. Le second est que les échantillons métagénomique peuvent contenir des centaines d'organismes inconnus et que leur analyse demande de procéder à des alignements avec des d'espèces possiblement distantes. Pour résoudre ces problèmes, nous avons développé un nouvel algorithme d'alignement reposant sur des graines avec erreurs. Cela amène un gain en sensibilité par rapport aux logiciels existants optimisés pour le problème du reséquençage, avec des similarités élevées et qui se fondent sur des graines exactes. Nous proposons également une nouvelle méthode d'indexation basée sur le Burst trie qui permet d'optimiser la recherche avec les graines avec erreurs. Nous montrons l'efficacité de nos méthodes dans deux nouveaux outils, SortMeRNA pour l'identification d'ARN ribosomiques dans des données de métatranscriptome, et SortMeDNA pour l'alignement de lectures en génomique et métagénomique. / Sequence alignment algorithms are at the heart of bioinformatic sequence analysis. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies in particular for the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions. Second, metagenomic samples can contain hundreds of unknown organisms and the standard approach to identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data.
10

Génomique et métagénomique comparatives des bactéries

Déraspe, Maxime January 2021 (has links)
Les domaines de la génomique et de la métagénomique ont apporté un support incommensurable à l'avancement de nos connaissances sur la génétique des bactéries. Les bactéries pathogènes sont maintenant séquencées et analysées pour identifier les facteurs causant leur virulence et/ou leur résistance aux antibiotiques ainsi que leur capacité à transmettre ces éléments génétiques qui sont d'un intérêt clinique. Les bactéries commensales, quant à elles, sont de plus en plus associées à la santé humaine et sont étudiées à l'aide de la métagénomique pour contrer les difficultés liées à leur culture étant donné leur grande diversité en matière de besoins métaboliques. Les nouvelles technologies de séquençages permettent donc de produire en masse ces séquences d'ADN à des fins de caractérisation et de comparaison dans le but d'élucider des questions souvent reliées à la santé humaine. Les avancées en génomique et en métagénomique requièrent des logiciels bio-informatiques capables de gérer et de s'adapter à la quantité massive et croissante des données biologiques. Les deux premières hypothèses de ce doctorat concernaient le développement de méthodes efficaces et flexibles pour l'analyse de génomes et de métagénomes bactériens. Plusieurs méthodes d'analyses bio-informatiques ont été explorées et ont mené à l'implémentation de deux logiciels pour supporter les hypothèses de recherche : Ray Surveyor et kAAmer. La première hypothèse de recherche consistait à vérifier s'il était possible d'obtenir une comparaison de génomes, depuis leur simple contenu en k-mers de séquences d'ADN, avec des résultats analogues aux comparaisons génomiques standards comme le pourcentage moyen d'identités ou les arbres phylogénétiques, mais sans nécessiter d'alignements de séquences. Nous avons démontré avec le logiciel Ray Surveyor et plusieurs analyses de génomique et de métagénomique bactérienne, qu'il était possible d'obtenir de tels comparaisons à l'aide de séquences d'ADN découpées en k-mer. Dans l'étude qui présenta les résultats de l'hypothèse de recherche, nous avons aussi estimé la propension génotypique de plusieurs espèces bactériennes à des phénotypes d'intérêt clinique à l'aide de bases de données de gènes spécialisées. La deuxième hypothèse était de tester s'il était possible de développer un logiciel pour l'identification de séquences protéiques, basé sur des k-mers d'acides aminés, qui serait plus performant que les logiciels existants, spécifiquement pour l'identification de protéines avec un haut degré d'homologie. Les travaux menèrent à l'implémentation de kAAmer, un logiciel permettant de créer des bases de données de protéines où la recherche de séquence se fait par association exacte de k-mers tout en supportant l'alignement de séquences. KAAmer s'est avéré très efficace pour la recherche de séquences de protéines avec des performances surpassant même, dans la majorité des scénarios, les aligneurs de séquences les plus rapides. D'autres fonctionnalités intéressantes sont aussi offertes par kAAmer, tel que la possibilité d'héberger une base de données en tant que service de manière permanente. Enfin, la troisième et dernière hypothèse de recherche visait à valider si les deux logiciels développés durant le projet de doctorat (Ray Surveyor et kAAmer) produiraient des résultats viables dans une analyse métagénomique du microbiote intestinal en lien avec l'obésité. Les profilages taxonomique et fonctionnel furent donc réalisés avec kAAmer et la comparaison de novo des métagénomes investiguée avec Ray Surveyor. Les résultats obtenus se sont avérés significatifs et ont démontrés, entre autres, une tendance vers une abondance relative plus élevée pour le phylum Bacteroidetes et moins élevée pour les phyla Firmicutes et Acinetobacteria chez les sujets obèses. Une multitude de fonctions métaboliques se sont aussi avérées significativement différentes dans les conditions normales et d'obésités des métagénomes, avec une mention particulière à celles reliées au métabolisme des acides gras à chaîne courte qui sont reconnues pour être associées à l'obésité. / The fields of genomics and metagenomics have provided immeasurable support to the advancement of our knowledge of bacterial genetics. Pathogenic bacteria are now routinely sequenced and analyzed to identify the factors causing their virulence or antibiotic resistance as well as their ability to transmit genetic elements. Commensal bacteria are increasingly associated with human health and are being studied using metagenomics to counter the issues associated with their culture due to their wide range of metabolic needs. Next generation sequencing enabled us to mass-produce these DNA sequences for characterization and comparison purposes in order to elucidate questions related to human health. Improvement in genomics and metagenomics studies required bio-informatics software that are able to manage and adapt to an increasing availability of biological sequences data. The first two hypotheses of this thesis include the development of efficient and flexible methods for the analysis of bacterial genomes and metagenomes. Several bio-informatics analysis methods were explored and led to the implementation of two software to support the research hypotheses: Ray Surveyor and kAAmer. The first research hypothesis was to test the possibility of obtaining a comparison of genomes, from their simple DNA k-mers content, with results analogous to standard genomic comparisons such as average nucleotide identity or phylogenetic trees, but without the need for sequence alignments. Using Ray Surveyor software and several bacterial genomic and metagenomic analyses, we have demonstrated that it is possible to obtain such comparisons using k-mers from DNA sequences. In the study that presented the results of the research hypothesis, we also estimated the genotypic propensity of several bacterial species to clinically relevant phenotypes using specialized gene databases. The second hypothesis was to test the possibility of developing a software for protein sequence identification, based on amino acid k-mers, which would be more efficient than existing software, specifically for the identification of proteins with a high degree of homology. The work led to the implementation of kAAmer, a software solution that allows the creation of protein databases where the sequence search is done by exact match of k-mers, while supporting sequence alignment. KAAmer has proven to be very efficient for protein sequence search with performances surpassing even the fastest sequence aligners in most scenarios. Other interesting features are also offered by kAAmer, such as the possibility to host a database as a service on a permanent basis. Finally, the third and last research hypothesis aimed to test the capacity the two software developed during the PhD project (Ray Surveyor and kAAmer) to produce viable results in a metagenomic analysis of the gut microbiota in relation to obesity. Taxonomic and functional profiling was performed with kAAmer as the de novo comparison of metagenomes with Ray Surveyor. The results obtained were significant and showed, among others, a trend towards higher relative abundance of the Bacteroidetes phylum and lower relative abundance of the Firmicutes and Acinetobacteria phyla in obese subjects. Several metabolic functions were also found to be significantly different in the normal and obese conditions, with a particular mention to the metabolism of short-chain fatty acids (SCFA) that are known to be associated with obesity.

Page generated in 0.0493 seconds