1 |
L'outil bio-informatique Genes to diseases : une nouvelle approche méthodologique pour l'identification de gènes d'asthmePotvin, Camille 17 April 2018 (has links)
L'asthme est une maladie chronique des voies aériennes répandue mondialement, connue comme un trait complexe, donc sous l'influence de plusieurs gènes (parmi lesquels un bon nombre a déjà été identifié) en interaction avec l'environnement. Le but de ce projet consiste à vérifier l'efficacité de l'outil bioinformatique Genes to Diseases (G2D), en l'utilisant pour la construction d'une liste de gènes qui pourront être ciblés en vue d'une analyse d'association entre des polymorphismes de ces gènes et l'asthme ainsi que les conditions reliées à la maladie. Dans ce contexte, une étude d'association sur certains gènes candidats sélectionnés parmi ceux de la liste proposée par l'outil G2D a été menée dans un échantillon familial du Saguenay-Lac-Saint-Jean. Elle a permis d'identifier un nouveau gène d'asthme, PTPRE, et par la même occasion, de démontrer l'efficacité de l'outil G2D. Ce dernier permet donc l'identification de nouveaux gènes associés aux traits complexes et facilite la tâche du chercheur en réduisant le temps requis par la revue de la littérature pour arriver à cette fin.
|
2 |
Développement d'une base de données bioinformatique spécialisée GBank UQAMDjema, Rabah January 2008 (has links) (PDF)
La base de données GBank de l'UQAM a été développée afin de pallier certains problèmes majeurs posés par l'utilisation de la base de données GenBank du NCBI. En effet, les problèmes suivants ont déclenché le développement de GBank UQAM: 1-Certaines requêtes complexes utilisées par les bioinformaticiens sont lentes en raison notamment de la taille énorme et toujours croissante de la base de données. 2-Les bioinformaticiens de l'UQAM dépendent entièrement de la base de NCBI. En cas de sa panne, ils n'ont pas de possibilité d'y accéder. 3-Les utilisateurs n'ont aucun contrôle sur la base de données GenBank. En plus, ils dépendent entièrement des mises à jour du NCBI. 4-Les outils de GenBank pour le filtrage des données ne sont pas toujours adaptés aux besoins des bioinformaticiens intéressés par l'analyse phylogénétique. Ceci mène les bioinformaticiens de se soumettre au mode de fonctionnement de la base GenBank. GBank UQAM se voit donc un sous-ensemble de la base GenBank international, qui résout en totalité ou partiellement les problèmes posés ci-dessus. Ceci a été rendu possible notamment grâce à l'utilisation de la base de données Oracle 10g qui offre plusieurs caractéristiques intéressantes. La nouvelle base de l'UQAM permettrait donc: 1-d'Améliorer le temps de réponse: Étant traité localement, nous pouvons offrir un temps d'accès nettement meilleur. 2-de Mieux contrôler les données: Nous pouvons organiser les données selon nos besoins et donc rendre la base de données plus optimale. En effet, maintenant nous sommes capables de filtrer les données selon nos besoins spécifiques ce qui augmente nettement notre productivité. 3-d'Optimiser la base de données: Avec des temps de réponses améliorés et une plus grande maniabilité dans la gestion de la base de données de l'UQAM, il nous est possible d'optimiser continuellement notre base de données pour la rendre plus évolutive et plus adaptée à nos besoins futurs. Afin de mieux exploiter la nouvelle base de données, nous avons élaboré une interface utilisateur facile et conviviale qui répond à tous les besoins des utilisateurs (bioinformaticiens) d'une base de données bioinformatique. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : GBank UQAM, Bioinformatique, Oracle10g, Performances, T-REX.
|
3 |
Genome-scale metabolic reconstruction and analysis of the Trypanosoma brucei metabolism from a Systems biology perspectiveShameer, Sanu 26 April 2016 (has links) (PDF)
Les progrès récents dans la modélisation informatique des réseaux biologiques permettent maintenant aux chercheurs d'étudier le métabolisme cellulaire des organismes. Dans ce projet, ces approches ont été utilisées pour analyser le métabolisme de Trypanosoma brucei. Ce parasite protozoaire est responsable de la trypanosomiase africaine, une maladie mortelle chez l'homme et qui entraine des dégâts importants dans les élevages. Ce parasite est principalement retrouvé dans les régions d'Afrique sub-sahariennes. Durant cette thèse, des informations sur le métabolisme de T. brucei ont été recueillies à partir d'études publiées, bases de données et de communication personnelle avec des experts qui étudient les différents aspects du métabolisme des trypanosomatides. Cette information a été mise à disposition de la communauté à travers la base de données TrypanoCyc. La base de données a été publiée en Novembre 2014 et a eu plus de 4200 visiteurs provenant de plus de cent pays depuis Novembre 2015. Un modèle métabolique à l'échelle du génome de T. brucei a également été reconstruit sur la base des informations recueillies. Ce modèle a permis de faciliter l'étude du métabolisme de T. brucei en utilisant une approche de biologie des systèmes. Des algorithmes basés sur l'analyse de balance des flux ont été conçus pour optimiser la visualisation et l'étude des propriétés métaboliques du parasite. En utilisant l'algorithme iMat, des modèles spécifiques de la forme sanguine de T. brucei ont été générés à partir des informations fournies par les études publiées et les annotations présentent dans. Enfin, un algorithme a été conçu pour optimiser encore ces modèles spécifiques afin d'améliorer la cohérence de leurs prédictions avec les résultats publiés. Les modèles ainsi créés, spécifiques à la forme sanguine, ont montré une meilleure puissance prédictive que le modèle initial à l'échelle du génome, en particulier pour prédire le comportement métabolique spécifique de différents mutants de T. brucei. ABSTRACT : Recent advances in computational modelling of biological networks have helped researchers study the cellular metabolism of organisms. In this project, these approaches were used to analyze Trypanosoma brucei metabolism. This protozoan parasite is the causative agent of African trypanosomiasis, a lethal disease which has been responsible for huge loss of lives and livestock in Sub- Saharan Africa since ancient times. Information on T. brucei metabolism was gathered from published studies, databases and from personal communication with experts studying different areas of Trypanosomatid research. This information has been presented to the public through the TrypanoCyc Database, a community annotated T. brucei database. The database was published in November 2014 and has had over 4200 visitors from more than 100 countries as of November 2015. A manually curated genome-scale metabolic model for T. brucei was also built based on the gathered information to facilitate the study of T. brucei metabolism using systems biology approaches. Flux balance analysis based algorithms were designed to optimize visualization and study interesting metabolic properties. Blood-stream form specific metabolic models were generated using information available from published studies and the TrypanoCyc annotations with the help of the iMAT algorithm. Finally, an algorithm was designed to further optimize these stage specific models to improve the consistency of their predictions with results published in previous studies. These stage-specific models were observed to have a clear advantage over the genome-scale model when predicting stage-specific behaviour of T. brucei, particularly when predicting mutant behaviour.
|
4 |
Using bioinformatic analyses to understand prostate cancer cell biologyPoluri, Raghavendra Tejo Karthik 02 February 2024 (has links)
Le cancer de la prostate (CaP) affecte 1 homme sur 7 au cours de sa vie. C’est le cancer numéro un diagnostiqué chez l'homme. Il s'agit du quatrième cancer le plus fréquent au Canada. Le CaP est une maladie hormonodépendante diagnostiquée chez l'homme. Les androgènes jouent un rôle vital dans la progression de la maladie. La première ligne de traitement, suivant une intervention chirurgicale ou un traitement de radiothérapie, est la thérapie de déprivation aux androgènes. Malgré une réponse initiale positive à l'inhibition des androgènes, la progression de la maladie vers un cancer de la prostate résistant à la castration (CRPC) est presque inévitable. Aux différentes étapes du CaP, le récepteur des androgènes joue un rôle majeur. Ainsi, cette thèse décrit les méthodes développées et utilisées pour mieux comprendre la biologie du CaP et le rôle joué par les androgènes dans cette maladie. Le travail démontré dans cette thèse se compose principalement d'analyses bioinformatiques effectuées sur des ensembles de données accessibles au public et d'un « pipeline » construit pour analyser des données RNA-Seq. Un pipeline RNA-Seq a été développé pour comprendre l'impact des androgènes et des gènes régulés lors du traitement aux androgènes dans les modèles de cellules de CaP. Ce pipeline bioinformatique se compose de divers outils qui ont été décrits ci-dessous dans le chapitre 1. L'objectif principal de ce projet était de développer un pipeline pour analyser les données RNA-Seq qui aide à comprendre et à définir les voies et les gènes métaboliques qui sont régulés par les androgènes, et qui jouent un rôle important dans la progression du CaP. Le flux de travail expérimental consistait en deux lignées cellulaires positives aux récepteurs aux androgènes LNCaP et LAPC4. Toutes les données utilisées dans ce projet ont été rendues publiques pour que la communauté de recherche puisse effectuer diverses autres études et analyses comparatives pour comprendre les fonctions des androgènes dans un sens beaucoup plus profond afin de développer de nouvelles thérapies pour traiter le CaP. Dans un autre projet décrit au chapitre 2, des analyses bioinformatiques ont été réalisées sur des données accessibles au public pour comprendre la fréquence de la perte et de l'altération génomique du gène PTEN localisé à 10q23. Ces analyses ont mis en évidence la fréquence d'altération génomique de PTEN qui est beaucoup plus élevée dans le CRPC que dans le CaP localisé. Ces analyses ont également aidé à identifier d'autres gènes altérés dans le CaP. Ces gènes n’ont pas été beaucoup étudiés dans la littérature, mais il semble que certains d’entre eux possèdent des caractéristiques de suppresseurs de tumeurs. Ces résultats pourraient être un bon début pour des analyses plus approfondies concernant la perte de gènes.La compréhension des fonctions de AR et de la suppression de PTEN aidera à développer de nouvelles stratégies et approches pour diagnostiquer et traiter le CaP. L'intégration des analyses bioinformatiques à la recherche clinique ouvre une nouvelle perspective dans le domaine de la recherche du CaP. / Prostate Cancer (PCa) affects 1 in 7 men in their lifetime and is the number one diagnosed cancer in men. It is the 4th most common cancer in Canada. PCa is a hormone-dependent disease diagnosed in men. Androgens play a vital role in the disease progression. The standard of care to treat PCa, following surgery or radiation therapy, is the androgen deprivation therapy (ADT). In spite of initial positive response to androgen inhibition, the progression of the disease to castration-resistant prostate cancer (CRPC) is almost inevitable. Across the various stages of PCa, the androgen receptor (AR) plays a major role. This thesis portrays the methods developed and used to understand PCa biology. The work demonstrated in this thesis majorly consists of bioinformatic analyses performed on publicly available data sets and a pipeline built to analyse RNA-Seq data. An RNA-Seq pipeline has been developed to understand the impact of androgens and the genes regulated upon androgen treatment in PCa cell models. This bioinformatic pipeline consists of various tools which have been described below in chapter 1. The major goal of this project was to develop a pipeline to analyse the RNA-Seq data which helps to understand and define the metabolic pathways and genes regulated by androgens which play an important role in PCa disease progression. The experimental workflow consisted of two androgen receptor positive cell lines LNCaP and LAPC4. All the data used in this project has been made publicly available for the research community to perform various other comparative studies and analyses to understand the functions of androgens in a much deeper sense to develop novel therapies to treat PCa. In another project described in chapter 2, bioinformatic analyses have been performed on publicly available data to understand the loss and genomic alteration frequency of the gene PTEN occurring at 10q23. These analyses highlighted that the genomic alteration frequency of PTEN is much higher in CRPC than in localised PCa, and also helped in identifying other genes which are lost along with PTEN. The lost genes have not been studied much in literature, but few studies demonstrated that they might possess tumor suppressor characteristics. These results might be a good start for further deeper analyses regarding the lost of genes. Understanding the functions of AR and the deletion of PTEN will help for the development of novel strategies and approaches to diagnose and treat PCa. Integration of bioinformatic analyses with clinical research open up a new perspective in the PCa research domain.
|
5 |
Mise en place d'approches bioinformatiques innovantes pour l'intégration de données multi-omiques longitudinalesBodein, Antoine 10 February 2024 (has links)
Les nouvelles technologies «omiques» à haut débit, incluant la génomique, l'épigénomique, la transcriptomique, la protéomique, la métabolomique ou encore la métagénomique, ont connues ces dernières années un développement considérable. Indépendamment, chaque technologie omique est une source d'information incontournable pour l'étude du génome humain, de l'épigénome, du transcriptome, du protéome, du métabolome, et également de son microbiote permettant ainsi d'identifier des biomarqueurs responsables de maladies, de déterminer des cibles thérapeutiques, d'établir des diagnostics préventifs et d'accroître les connaissances du vivant. La réduction des coûts et la facilité d'acquisition des données multi-omiques à permis de proposer de nouveaux plans expérimentaux de type série temporelle où le même échantillon biologique est séquencé, mesuré et quantifié à plusieurs temps de mesures. Grâce à l'étude combinée des technologies omiques et des séries temporelles, il est possible de capturer les changements d'expressions qui s'opèrent dans un système dynamique pour chaque molécule et avoir une vision globale des interactions multi-omiques, inaccessibles par une approche simple standard. Cependant le traitement de cette somme de connaissances multi-omiques fait face à de nouveaux défis : l'évolution constante des technologies, le volume des données produites, leur hétérogénéité, la variété des données omiques et l'interprétabilité des résultats d'intégration nécessitent de nouvelles méthodes d'analyses et des outils innovants, capables d'identifier les éléments utiles à travers cette multitude d'informations. Dans cette perspective, nous proposons plusieurs outils et méthodes pour faire face aux challenges liés à l'intégration et l'interprétation de ces données multi-omiques particulières. Enfin, l'intégration de données multi-omiques longitudinales offre des perspectives dans des domaines tels que la médecine de précision ou pour des applications environnementales et industrielles. La démocratisation des analyses multi-omiques et la mise en place de méthodes d'intégration et d'interprétation innovantes permettront assurément d'obtenir une meilleure compréhension des écosystèmes biologiques. / New high-throughput «omics» technologies, including genomics, epigenomics, transcriptomics, proteomics, metabolomics and metagenomics, have expanded considerably in recent years. Independently, each omics technology is an essential source of knowledge for the study of the human genome, epigenome, transcriptome, proteome, metabolome, and also its microbiota, thus making it possible to identify biomarkers leading to diseases, to identify therapeutic targets, to establish preventive diagnoses and to increase knowledge of living organisms. Cost reduction and ease of multi-omics data acquisition resulted in new experimental designs based on time series in which the same biological sample is sequenced, measured and quantified at several measurement times. Thanks to the combined study of omics technologies and time series, it is possible to capture the changes in expression that take place in a dynamic system for each molecule and get a comprehensive view of the multi-omics interactions, which was inaccessible with a simple standard omics approach. However, dealing with this amount of multi-omics data faces new challenges: continuous technological evolution, large volumes of produced data, heterogeneity, variety of omics data and interpretation of integration results require new analysis methods and innovative tools, capable of identifying useful elements through this multitude of information. In this perspective, we propose several tools and methods to face the challenges related to the integration and interpretation of these particular multi-omics data. Finally, integration of longidinal multi-omics data offers prospects in fields such as precision medicine or for environmental and industrial applications. Democratisation of multi-omics analyses and the implementation of innovative integration and interpretation methods will definitely lead to a deeper understanding of eco-systems biology.
|
6 |
Développement et application d'un outil bio-informatique pour cartographier la machinerie de l'ARN polymérase I chez les mammifèresSabourin-Félix, Marianne 24 May 2018 (has links)
L’immunoprécipitation de la chromatine suivie du séquençage haut débit (ChIP-seq) est une technique permettant de visualiser les interactions entre l’ADN et les protéines. Toutefois, en pratique, la résolution de cette technique laisse à désirer. En étudiant les gènes de l’ARN ribosomique (ADNr), nous avons observé que le facteur majeur limitant la résolution découle du recouvrement inégal des séquences de chaque locus. Cette inégalité est superposée à la distribution réelle de la séquence d’ADN immunoprécipitée entrainant un profil de liaison protéique aberrant. Un logiciel de déconvolution a été développé afin de corriger la couverture inégale des données ChIP-seq en les normalisant par rapport aux données de l’input (Whole Cell Extract). Lorsqu’appliqué sur les données de l’ADNr, cet outil s’est avéré très utile en fournissant un profil de liaison détaillé de la chromatine et des facteurs de transcription le long de ce gène. D’autre part, des études de localisation des sites d’interactions protéiques d’UBF, un facteur de transcription associé à l’ADNr, à la grandeur du génome couplé à des expériences de DNase-seq et de microarray ont permis de mettre en lumière les rôles potentiels d’UBF dans les régions non ribosomiques. En conclusion, nous avons développé un outil permettant la normalisation par déconvolution de données de séquençage haut-débit qui permet d’augmenter la résolution du profil de liaison protéique sur l’ADNr en plus d’identifier les rôles potentiels d’UBF à l’échelle du génome. / Chromatin immunoprecipitation followed by massively parallel sequencing (ChIP-seq) is a technique that allows to visualize interactions between DNA and proteins. However in practice, the resolution of this technique leaves much to be desired. During our studies of the ribosomal RNA genes (rDNA), we observed that one major factor limiting resolution results from the unequal recovery of sequence data across any given locus. This inequality is superimposed on the actual distribution of immunoprecipitated DNA sequences resulting in aberrant protein binding profiles. A software was developed to correct the unequal coverage of ChIP-seq data by normalizing to the input (Whole Cell Extract) with a deconvolution protocol. When applied on the rDNA, this approach has been especially useful in providing a detailed map of chromatin and transcription factor distribution across the gene. On the other hand, genome-wide localization of protein interaction sites for UBF, a transcription factor associated to rDNA, coupled with DNase-seq and microarray experiments shed light on the potential roles of UBF in non-ribosomal regions. In conclusion, we developed a tool allowing the normalization by deconvolution of high-throughput sequencing data that allows to increase the resolution of protein binding profiles on the rDNA. In addition we identified the potential roles of UBF at genome scale.
|
7 |
Computational methods for de novo assembly of next-generation genome sequencing data / Méthodes de calcul pour assemblage de novo de nouvelle génération des techniques de séquençage du génomeChikhi, Rayan 02 July 2012 (has links)
Dans cette thèse, nous présentons des méthodes de calcul (modèles théoriques et algorithmiques) pour effectuer la reconstruction de séquences d'ADN. Il s'agit de l'assemblage de novo de génome à partir de lectures (courte séquences ADN) produites par des séquenceurs à haut débit. Ce problème est difficile, aussi bien en théorie qu'en pratique. Du point de vue théorique, les génomes sont structurellement complexes. Chaque instance d'assemblage de novo doit faire face à des ambiguïtés de reconstruction. Les lectures peuvent conduire à un nombre exponentiel de reconstructions possibles, une seule étant correcte. Comme il est impossible de déterminer laquelle, une approximation fragmentée du génome est retournée. Du point de vue pratique, les séquenceurs produisent un énorme volume de lectures, avec une redondance élevée. Une puissance de calcul importante est nécessaire pour traiter ces lectures. Le séquençage ADN évolue désormais vers des génomes et méta-génomes de plus en plus grands. Ceci renforce la nécessité de méthodes efficaces pour l'assemblage de novo. Cette thèse présente de nouvelles contributions en informatique autour de l'assemblage de génomes. Ces contributions visent à incorporer plus d'information pour améliorer la qualité des résultats, et à traiter efficacement les données de séquençage afin de réduire la complexité du calcul. Plus précisément, nous proposons un nouvel algorithme pour quantifier la couverture maximale d'un génome atteignable par le séquençage, et nous appliquons cet algorithme à plusieurs génomes modèles. Nous formulons un ensemble de problèmes informatiques pour incorporer l'information des lectures pairées dans l'assemblage, et nous étudions leur complexité. Cette thèse introduit la notion d'assemblage localisé, qui consiste à construire et parcourir un graphe d'assemblage partiel. Pour économiser l'utilisation de la mémoire, nous utilisons des structures de données optimisées spécifiquement pour la tâche d'assemblage. Ces notions sont implémentées dans un nouvel assembleur de novo, Monument. Enfin, le dernier chapitre de cette thèse est consacré à des concepts d'assemblage dépassant l'assemblage de novo classique. / In this thesis, we discuss computational methods (theoretical models and algorithms) to perform the reconstruction (de novo assembly) of DNA sequences produced by high-throughput sequencers. This problem is challenging, both theoretically and practically. The theoretical difficulty arises from the complex structure of genomes. The assembly process has to deal with reconstruction ambiguities. The output of sequencing predicts up to an exponential number of reconstructions, yet only one is correct. To deal with this problem, only a fragmented approximation of the genome is returned. The practical difficulty stems from the huge volume of data produced by sequencers, with high redundancy. Significant computing power is required to process it. As larger genomes and meta-genomes are being sequenced, the need for efficient computational methods for de novo assembly is increasing rapidly. This thesis introduces novel contributions to genome assembly, both in terms of incorporating more information to improve the quality of results, and efficiently processing data to reduce the computation complexity. Specifically, we propose a novel algorithm to quantify the maximum theoretical genome coverage achievable by sequencing data (paired reads), and apply this algorithm to several model genomes. We formulate a set of computational problems that take into account pairing information in assembly, and study their complexity. Then, two novel concepts that cover practical aspects of assembly are proposed: localized assembly and memory-efficient reads indexing. Localized assembly consists in constructing and traversing a partial assembly graph. These ingredients are implemented in a complete de novo assembly software package, the Monument assembler. Monument is compared with other state of the art assembly methods. Finally, we conclude with a series of smaller projects, exploring concepts beyond classical de novo assembly.
|
8 |
Bioinformatic analysis of the genomes of epidemic pseudomonas aeruginosa / Analyse bioinformatique des génomes d'une souche épidémique de pseudomonas aeruginosaTreepong, Panisa 10 October 2017 (has links)
Le Pseudomonas aeruginosa est un pathogène nosocomial majeur. Le clone ST235 est le plus prévalent des clones internationaux dits à hautris que. Ce clone est très fréquemment multi résistant aux antibiotiques, ce qui complique la prise en charge des infections dont il est à l’origine.Malgré son importance clinique, la base moléculaire Du succès du clone ST235 n’est pas comprise.Dans ce travail, nous avons cherché à comprendre l’origine spacio temporelle de ce clone et les bases moléculaires de son succès. A l’aide d’outils bio informatiques existants ,nous avons trouvé que le clone ST235 a émergé en Europe en 1984 et que tous les isolates ST235 produisent l’exotoxine ExoU. Nous avons également identifié 22 gènes Contigus spécifiques de ce clone et impliqués dans l’efflux transmembranaire, dans le traitement de l’ADN et dans la transformation bactérienne. Cette combinaison unique de gènes a pu contribuer à la gravité des infections dues à ce clone et à sa capacité à acquérir des gènes de résistance aux antibiotiques. Ainsi, la diffusion mondiale de ce clone a probablement été favorisée par l’utilisation extensive des fluoroquinolones, puis il est de venu localement résistant aux amino glycosides, aux β-lactamines, et aux carbapénèmes par mutation et acquisition d’éléments de résistance. Nous avons majoritairement utilisé des outils existants,mais avons découvert que les programmes de détection des séquences d’insertions (IS, ayant un rôle important dans l’évolution des génomes bactériens) ne sont pas adaptés aux données dont nous disposions. Nous avons ainsi mis au point un outil (appelé panISa) qui détecte de façon précise et sensible les IS à partir de données brutes de séquençage de génomes bactériens. / Pseudomonas aeruginosa is a major nosocomial pathogen with ST235 being the most prevalent of the so-called ‘international’ or ‘high-risk’ clones. This clone is associated with poor clinical outcomes in part due to multi- and high-level antibiotic resistance. Despite its clinical importance, the molecular basis for the success of the ST235 clone is poorly understood. Thus this thesis aimed to understand the origin of ST235 and the molecular basis for its success, including the design of bioinformatics tools for finding insertion sequences (IS) of bacterial genomes.To fulfill these objectives, this thesis was divided into 2 parts.First, the genomes of 79 P. aeruginosa ST235 isolates collected worldwide over a 27-year period were examined. A phylogenetic network was built using Hamming distance-based method, namely the NeighborNet. Then we have found the Time to the Most Recent Common Ancestor (TMRCA) by applying a Bayesian approach. Additionally, we have identified antibiotic resistance determinants, CRISPR-Cas systems, and ST235-specific genes profiles. The results suggested that the ST235 sublineage emerged in Europe around 1984, coinciding with the introduction of fluoroquinolones as an antipseudomonal treatment. The ST235 sublineage seemingly spreads from Europe via two independent clones. ST235 isolates then appeared to acquire resistance determinants to aminoglycosides, β-lactams, and carbapenems locally. Additionally, all the ST235 genomes contained the exoU-encoded exotoxin and identified 22 ST235-specific genes clustering in blocks and implicated in transmembrane efflux, DNA processing and bacterial transformation. These unique genes may have contributed to the poor outcome associated with P. aeruginosa ST235 infections and increased the ability of this international clone to acquire mobile resistance elements.The second part was to design a new Insertion Sequence (IS) searching tool on next-generation sequencing data, named panISa. This tool identifies the IS position, direct target repeats (DR) and inverted repeats (IR) from short read data (.bam/.sam) by investigating only the reference genome (without any IS database). To validate our proposal, we used simulated reads from 5 species: Escherichia coli, Mycobacterium tuberculosis, Pseudomonas aeruginosa, Staphylococcus aureus, and Vibrio cholerae with 30 random ISs. The experiment set is constituted by reads of various lengths (100, 150, and 300 nucleotides) and coverage of simulated reads at 20x, 40x, 60x, 80x, and 100x. We performed sensitivity and precision analyses to evaluate panISa and found that the sensitivity of IS position is not significantly different when the read length is changed, while the modifications become significant depending on species and read coverage. When focusing on the different read coverage, we found a significant difference only at 20x. For the other situations (40x-100x) we obtained a very good mean of sensitivity equal to 98% (95%CI: 97.9%-98.2%). Similarly, the mean of DR sensitivity of DR identification is high: 99.98% (95%CI: 99.957%-99.998%), but the mean of IR sensitivity is 73.99% (95%CI: 71.162%-76.826%), which should be improved. Focusing on precision instead of sensibility, the precision of IS position is significantly different when changing the species, read coverage, or read length. However, the mean of each precision value is larger than 95%, which is very good.In conclusion, P. aeruginosa ST235 (i) has become prevalent across the globe potentially due to the selective pressure of fluoroquinolones and (ii) readily became resistant to aminoglycosides, β-lactams, and carbapenems through mutation and acquisition of resistance elements among local populations. Concerning the second point, our panISa proposal is a sensitive and highly precise tool for identifying insertion sequences from short reads of bacterial data, which will be useful to study the epidemiology or bacterial evolution.
|
9 |
Classification d'ARN codants et d'ARN non-codantsFontaine, Arnaud 31 March 2009 (has links) (PDF)
Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'analyse de phénomènes biologiques par des moyens informatiques, c'est-à-dire la bio-informatique. Nous nous intéressons plus particulièrement à l'analyse de séquences nucléiques. Dans ce cadre, nos travaux se décomposent en deux parties: l'identification de séquences codantes et l'identification de séquences non-codantes partageant une structure conservée telles que des ARN non-codants. L'originalité des méthodes proposées, Protea et Carnac, réside dans le traitement d'ensembles de séquences nucléiques faiblement conservées sans avoir recours à leur alignement au préalable. Ces méthodes s'appuient sur un même schéma global d'analyse comparative pour identifier des traces laissées par les mécanismes de sélection durant l'évolution, traces globalement cohérentes entre toutes les séquences. Nous avons évalué Protea et Carnac sur des données de référence pour la communauté et obtenu plusieurs résultats significatifs. Dans le cadre de travaux collaboratifs, nous présentons également deux exemples intégrations de ces logiciels. Magnolia est un logiciel qui construit un alignement multiple de séquences nucléiques respectueux de leur fonction commune prédites par Protea et/ou Carnac. Protea et Carnac sont également intégrés dans une plate-forme d'annotation automatique par génomique comparative.
|
10 |
Des algorithmes bioinformatiques pour la recherche des régions génomiques responsables d'une maladieBadescu, Dunarel January 2009 (has links) (PDF)
L'évolution des espèces est régie par les modifications stochastiques qui ont eu lieu au niveau du code génétique -l'ADN -composé d'une suite de petites molécules (les nucléotides). Selon l'ampleur de ces évènements, il y a d'abord des modifications à petite échelle, impliquant quelques nucléotides -les insertions, délétions et substitutions. Due à l'impossibilité actuelle de différencier les insertions des délétions, on les appelle communément indels. D'un autre coté, il ya des modifications à grande échelle -impliquant parfois des grandes régions génomiques ou des chromosomes. Les modifications à grande échelle les plus fréquentes sont: les duplications, translocations, inversions et délétions. Au cours de ce projet, nous avons développé une méthode de génomique comparée, capable de relier l'information épidémiologique, comme la carcinogenicité et l'invasivité des souches, aux séquences génomiques. Cette méthode permet de détecter des régions statistiquement significatives à analyser plus en détail par des biologistes, tout en étant capable de discriminer ce seuil à l'aide du calcul des p-values. Nous avons utilisé cette méthode dans l'étude du virus du papillome humain et de la bactérie Neisseria Meningitidis, bactérie responsable de la méningite. Pour le virus du papillome humain, notre méthode a été capable de détecter le domaine PDZ, une région du gène E6, qui est une condition sine qua non de la carcinogenicité du produit de ce gène. Au cours des analyses phylogénétiques de cette famille nous avons trouvé une corrélation statistiquement significative entre les événements à petite échelle et les données épidémiologiques. Par la suite nous avons proposé une séquence de tests pour orienter l'analyse statistique de cette corrélation. Nous avons également remarqué que la carcinogenicité est généralement monophylétique, donc issue d'un ancêtre commun. L'arbre phylogénétique inféré est le premier basé sur les génomes entiers, ce qui a permis d'étudier la variabilité des topologies de gènes par rapport à celle du génome. Pour la bactérie Neisseria Meningitidis nous avons montré qu'il est possible de syntoniser les fonctions de discrimination, pour établir la différence entre les régions responsables du maximum d'invasivité et celles qui ont un rôle structural dans ce processus, détection des structures moléculaires connues (i.e. les anses extra cellulaires, dans notre cas). Les résultats de nos travaux ont permis la mise à la disposition de la communauté internationale de deux bases de données, pour le VPH et le Neisseria, respectivement. Ces bases contiennent des régions candidates à être analysées en laboratoire par des biologistes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Algorithme pour la détection des régions carcinogènes, Événements évolutionnaires, Analyse de redondance, Arbre phylogénétique, Conception de vaccin, Mutations, Invasivité, Neisseria Meningitidis, Virus du papillome humain.
|
Page generated in 0.0917 seconds