Spelling suggestions: "subject:"bioinformatic"" "subject:"bioinformatics""
11 |
Characterising and predicting amyloid mutations in proteinsGardner, Allison January 2016 (has links)
A database, AmyProt, was developed that collated details of 32 human amyloid proteins associated with disease and 488 associated mutations and polymorphisms, of which 316 are classified as amyloid. A detailed profile of the mutations was developed in terms of location within domains and secondary structures of the proteins and functional effects of the mutations. The data was used to test the hypothesis that mutations enhance amyloidosis in human amyloid proteins have distinctive characteristics, in terms of specific location within proteins and physico-chemical characteristics, which differentiate them from non-amyloid forming polymorphisms in amyloid proteins and from disease mutations and polymorphisms in non-amyloid disease linked proteins. The aim was to use these characteristics to train a prediction algorithm for amyloid mutations that will provide a more accurate prediction than current general disease prediction tools and amyloid prediction tools that focus on aggregating regions. 66 location specific features and changes upon mutation of 366 amino acids propensities, derived from the amino acid index database AAindex, were analysed. A significant proportion of mutations were located with aggregating regions, however the majority of mutations were not associated with these regions. An analysis of motifs showed that amyloid mutations had a significant association with transmembrane helix motifs such as GxxxG. Statistical analysis of substitutions mutations, using substitution matrices, showed that amyloid mutations have a decrease in α-helix propensity and overall secondary structure propensity compared to the disease mutations and disease and amyloid polymorphisms. Machine learning was used to reduce the large set of features to a set of 18 features. These included location near transmembrane helices, secondary structure features; transmembrane and extracellular domains and 4 amino acid propensities: knowledge-based membrane propensity scale from 3D helix; α-helix propensity; partition coefficient; normalized frequency of coil. The AmyProt mutations and non-amyloid polymorphisms were used to train and test the novel amyloid mutation prediction tool, AmyPred, the first tool developed purely to predict amyloid mutations. AmyPred predicts the amyloidogenicity of mutations as a consensus by majority vote (CMV) and mean probability (CMP) of 5 classifiers. Validation of AmyPred with 27 amyloid mutations and 20 non-amyloid mutations from APP, Tau and TTR proteins, gave classification accuracies of 0.7/0.71 (CMV/CMP) and with an MCC of 0.4 (CMV) and 0.41 (CMP). AmyPred out performed other tools such as SIFT (0.37) and PolyPhen (0.36) and the amyloid consensus prediction tool, MetAmyl (0.13). Finally, AmyPred was used to analyse p53 mutations to characterize amyloid and non-amyloid mutations within this protein.
|
12 |
Processing hidden Markov models using recurrent neural networks for biological applicationsRallabandi, Pavan Kumar January 2013 (has links)
Philosophiae Doctor - PhD / In this thesis, we present a novel hybrid architecture by combining the most popular
sequence recognition models such as Recurrent Neural Networks (RNNs) and Hidden Markov Models (HMMs). Though sequence recognition problems could be potentially modelled through well trained HMMs, they could not provide a reasonable solution to the complicated recognition problems. In contrast, the ability of RNNs to recognize the complex sequence recognition problems is known to be exceptionally good. It should be noted that in the past, methods for applying HMMs into RNNs have been developed by other researchers. However, to the best of our knowledge, no algorithm for processing HMMs through learning has been given. Taking advantage of the structural similarities of the architectural dynamics of the RNNs and HMMs, in this work we analyze the combination of these two systems into the hybrid architecture. To this end, the main objective of this study is to improve the sequence recognition/classi_cation performance by applying a hybrid neural/symbolic approach. In particular, trained HMMs are used as the initial symbolic domain theory and directly encoded into appropriate RNN architecture, meaning that the prior knowledge is processed through the training of RNNs. Proposed algorithm is then implemented on sample test beds and other real time biological applications.
|
13 |
Analyse de l’épissage alternatif dans les données RNAseq : développement et comparaison d’outils bioinformatiques / Analysis of alternative splicing in RNA-Seq data : development and comparison of bioinformatics toolsBenoit-Pilven, Clara 15 December 2016 (has links)
L'épissage alternatif est un processus biologique qui génère la diversité du protéome malgré le nombre limité de gène. Ce mécanisme régule à la fois les gènes de manières qualitatives (isoformes exprimées) mais aussi quantitatives (niveau d'expression). Avec le développement des technologies de séquençage à haut débit, il est maintenant possible d'étudier à large échelle les aspects quantitatif et qualitatif du transcriptome avec une même expérience (RNA-seq). Durant ma thèse, j'ai développé une nouvelle méthode d'analyse de l'épissage alternatif dans les données RNA-seq. J'ai également participé à la mise en place du pipeline global d'analyse de données RNA-seq (expression et épissage) qui a été utilisé pour analyser un grand nombre de jeux de données. Dans un second temps, nous avons comparé notre outil d'analyse de l'épissage, FaRLine, qui est basé sur l'alignement sur un génome de référence, à KisSplice, une méthode basée sur l'assemblage. Nous avons montré que ces méthodes trouvaient un grand nombre d'événements en communs (70%), mais qu'il existait des différences non négligeables dues à la méthodologie. Nous avons analysé et classifié ces événements en 4 grandes catégories. Les variants faiblement exprimés et les exons chevauchant des éléments répétés sont mieux annotés par les méthodes basées sur l'alignement. Alors que les méthodes basées sur l'assemblage trouvent des nouveaux variants (exons ou sites d'épissage non annotés) et prédisent de l'épissage alternatif dans les famille de gènes paralogues. Notre travail souligne les points qui nécessitent encore l'amélioration des méthodes bioinformatiques. Enfin, j'ai participé au développement de méthodes permettant d'aider les biologistes à évaluer l'impact fonctionnel de modification d'épissage, que ce soit au niveau de la protéine produite (annotation des domaines protéiques au niveau des exons), ou à un niveau plus global en intégrant les modifications d'épissage dans les voies de signalisation / Alternative splicing is the biological process that explain the large diversity of the proteome compared to the limited number of genes. This process allow a qualitative regulation (expressed isoforms) and a quantitative regulation (expression level). The growth of high-trhoughtput sequencing methods enabled the analysis of these two aspects (quantitative and qualitative regulation) with the same experiment (RNA-Seq). During my PhD, I developped a new tool to analyse alternative splicing from RNA-Seq data. I also participated in the automatisation of the complet pipeline of RNA-Seq analysis (expression and splicing). This pipeline has been used to analyse various datasets. Then, we compared our mapping-first tool, FaRLine, with an assembly-first method, KisSplice. We found that the predictions of the two pipelines overlapped (70\% of exon skipping events were common), but with noticeable differences. The mapping-first approach allowed to find more lowly expressed splicing variants, and was better in predicting exons overlapping repeated elements. The assembly-first approach allowed to find more novel variants, including novel unannotated exons and splice sites. It also predicted AS in families of paralog genes. Our work point out where the bioinformatic improvment are still needed. Finally, I participated in the developpement of bioinformatics methods to help biologists to evualuate the fonctionnal impact of splicing alteration : at the level of the protein product by annotating fonctionnal domain at the exon level or at a more global level, by integrating splicing modifications in signaling pathways
|
14 |
Optimization of Marker Sets and Tools for Phenotype, Ancestry, and Identity using Genetics and ProteomicsWills, Bailey 08 1900 (has links)
Indiana University-Purdue University Indianapolis (IUPUI) / In the forensic science community, there is a vast need for tools to help assist investigations when standard DNA profiling methods are uninformative. Methods such as Forensic DNA Phenotyping (FDP) and proteomics aims to help this problem and provide aid in investigations when other methods have been exhausted. FDP is useful by providing physical appearance information, while proteomics allows for the examination of difficult samples, such as hair, to infer human identity and ancestry. To create a “biological eye witness” or develop informative probability of identity match statistics through proteomically inferred genetic profiles, it is necessary to constantly strive to improve these methods.
Currently, two developmentally validated FDP prediction assays, ‘HIrisPlex’ and ‘HIrisplex-S’, are used on the capillary electrophoresis to develop a phenotypic prediction for eye, hair, and skin color based on 41 variants. Although highly useful, these assays are limited in their ability when used on the CE due to a 25 variant per assay cap. To overcome these limitations and expand the capacities of FDP, we successfully designed and validated a massive parallel sequencing (MPS) assay for use on both the ThermoFisher Scientific Ion Torrent and Illumina MiSeq systems that incorporates all HIrisPlex-S variants into one sensitive assay. With the migration of this assay to an MPS platform, we were able to create a semi-automated pipeline to extract SNP-specific sequencing data that can then be easily uploaded to the freely accessible online phenotypic prediction tool (found at https://hirisplex.erasmusmc.nl) and a mixture deconvolution tool with built-in read count thresholds. Based on sequencing reads counts, this tool can be used to assist in the separation of difficult two-person mixture samples and outline the confidence in each genotype call.
In addition to FDP, proteomic methods, specifically in hair protein analysis, opens doors and possibilities for forensic investigations when standard DNA profiling methods come up short. Here, we analyzed 233 genetically variant peptides (GVPs) within hair-associated proteins and genes for 66 individuals. We assessed the proteomic methods ability to accurately infer and detect genotypes at each of the 233 SNPs and generated statistics for the probability of identity (PID). Of these markers, 32 passed all quality control and population genetics criteria and displayed an average PID of 3.58 x 10-4. A population genetics assessment was also conducted to identify any SNP that could be used to infer ancestry and/or identity. Providing this information is valuable for the future use of this set of markers for human identification in forensic science settings.
|
15 |
AI MEET BIOINFORMATICS: INTERPRETING BIOMEDICAL DATA USING DEEP LEARNINGZiyang Tang (6593525) 20 May 2024 (has links)
<p>Artificial Intelligence driven approaches, especially based on deep learning algorithms, provided an alternative perspective in summarizing the common features in large-scale and complex datasets and aided the human professions in discovering novel features in cross-domain research. In this dissertation, the author proposed his research of developing AI-driven algorithms to reveal the real relation of complex medical data. The author started to identify the abnormal structures from the radiology images. When the abnormal structure was detected, the author built a model to explore the domain layers or cell phenotype of the specific tissues. Finally, the author evaluated cell-cell communication for the downstream tasks.</p>
<p><br></p>
<p>In his first research, the author applied IResNet, a two-stage prediction-interpretation Convolution Neural Network, to assist clinicians in the early diagnosis of Autism Spectrum Disorders (ASD). IresNet first predicted the input sMRI scan to one of the two categories: (1) ASD group or (2) Normal Control group, and interpret the prediction using a \textit{post-hoc} approach and visualized the abnormal structures on top of the raw inputs. The proposed method can be applied to other neural diseases such as Alzheimer's Disease. </p>
<p><br></p>
<p>When the abnormal structure was detected, the author proposed a method to reveal the latent relation at the tissue level. Thus the author proposed SiGra, an unsupervised learning paradigm to identify the domain layers and cellular phenotype in a particular tissue slide based on the corresponding gene expression matrix and the morphology representations. SiGra outperformed other benchmarking algorithms in three different tissue slides from three commercialized single-cell platforms.</p>
<p><br></p>
<p>At last, the author measured the potential interactions between two cells. The proposed spaCI, measured the correlation of a Ligand-Receptor interaction in the high-dimension latent space and predicted the interactive $L-R$ pair for downstream analysis. </p>
<p><br></p>
<p>In summary, the author presented three end-to-end AI-driven frameworks to facilitate clinicians and pathologists in better understanding the latent connections of complex diseases and tissues. </p>
|
16 |
Spécificité épitopique de la réponse immunitaire humorale non-neutralisante et neutralisante chez l'hémophile A / Epitope specificity of non-neutralising and neutralising humoral immune response in haemophilia A patientsLebreton, Aurélien 29 November 2012 (has links)
L'hémophilie A (HA) est une maladie hémorragique héréditaire due au déficit en facteur FVIII (FVIII) de la coagulation. Le traitement préventif de l'HA est basé sur des injections répétées de FVIII. Une réponse immunitaire anti-FVIII peut se développer secondairement au traitement, mettant en jeu des anticorps (Ac) inhibiteurs (neutralisant l'activité procoagulante du FVIII) et/ou des anticorps non-neutralisants (ANN). La cartographie épitopique fine des Ac anti-FVIII permet de mieux connaître les mécanismes physiopathologiques de cette réponse immunitaire. Les travaux de cette thèse comportent deux axes principaux : un premier axe a pour objectif d'identifier des épitopes discontinus au sein des domaines C2 et A2 du FVIII, à l'aide de peptides synthétiques prédits par un algorithme informatique, utilisés ensuite dans des tests d'inhibition basés sur la technologie Luminex. Ces travaux nous ont permis d'identifier 8 peptides mimant des épitopes discontinus répartis à la surface du domaine C2 et 2 peptides correspondant à des épitopes voisins, à la surface du domaine A2. Ces études ont permis de démontrer que la combinaison de la bioinformatique et d'un outil expérimental adapté à la réponse immunitaire anti-FVIII est fructueuse. Le second axe a pour objectif d'étudier la prévalence et la spécificité épitopique des ANN à l'aide d'un test Luminex multiplexé. Cette étude a permis de mettre en évidence une prévalence d'ANN de 18,1% chez 210 hémophiles A sans inhibiteurs provenant d'une cohorte multicentrique rétrospective française. Une forte spécificité épitopique de la réponse immune pour la chaîne lourde du FVIII est observée. Les nouveaux outils que nous avons mis en place permettront d'affiner la cartographie épitopique et le suivi de son évolution chez l'hémophile A avec anticorps anti-FVIII / Haemophilia A (HA) is an inherited bleeding disorder due to factor VIII (FVIII) deficiency. The preventive treatment of HA is based on regular infusions of FVIII. Secondary to the treatment, an immune response often occurs, composed by inhibitory antibodies and by non-neutralising antibodies (NNA). Fine epitope mapping of anti-FVIII antibodies may help for a better understanding of the physiopathology of this immune response. There was two axes in this PhD thesis: the first part is dedicated to the identification of discontinuous epitopes on FVIII C2 and A2 domains, by using synthetic peptides predicted by a bioinformatic tool in inhibition tests based on Luminex technology. Results allowed us to identify 8 peptides mimicking discontinuous epitopes around the C2 domain and 2 peptides mimicking close epitopes on the A2 domain surface. These studies demonstrate that our approach combining bioinformatics with an assay adapted for the anti-FVIII immune response study is fruitful. The second part was dedicated to the evaluation of the prevalence and epitope specificity of NNA, using a multiplexed Luminex assay. A prevalence of 18.1% of NNA was thus found in 210 HA patients without inhibitors from a french multicentric retrospective cohort. An marked epitope specificity againt the heavy chain was noticed. The new tools that we developped will be helpful for refining epitope mapping and for the follow-up of the epitope specificity in HA patients with anti-FVIII Abs.
|
17 |
Sources des mycobactéries non-tuberculeuses dans les bassins versants / Sources of nontuberculous mycobacteria in watershedsRadomski, Nicolas 28 February 2011 (has links)
L'eau et le sol sont considérés comme des sources potentielles de mycobactéries non-tuberculeuses (MNT). Parmi les infections humaines causées par les MNT d'origine environnementale, les infections pulmonaires et cutanées sont souvent décrites. Le manque de connaissances sur leur cycle de vie dans l'environnement requiert des outils analytiques, qui ne sont actuellement pas adaptés à ce type d'échantillons. Cette thèse vise donc premièrement à proposer des méthodes de quantification en bactériologie et en biologie moléculaire dans le but de déterminer les sources des MNT dans les bassins versants. Ainsi, la comparaison des méthodes d'isolement de MNT a montré que le traitement au chlorure de cetylpyridininium de l'eau suivi d'une culture en milieu riche supplémenté par un mélange d'antibiotiques (polymyxine B, amphotéricine, acide nalidixique, triméthoprime, carboxy-pénicilline) limitait la croissance des microorganismes interférents et éliminait moins de MNT que les autres méthodes comparées (Radomski et al. 2010, doi: 10.1128/AEM.00942-10). Bien que des espèces de MNT potentiellement pathogènes aient été isolées de l'eau de surface de la Seine en utilisant ces outils bactériologiques, la quantification des MNT ne s'est pas avérée reproductible. En conséquence, une méthode de quantification par polymérisation en chaîne en temps réel (qPCR) a été développée pour énumérer le genre Mycobacterium dans l'eau (Radomski et al. 2010, doi: 10.1128/AEM.02659-09). La nouvelle méthode développée, ciblant l'ARNr 16S, était plus spécifique que les autres méthodes qPCR publiées, ciblant un autre locus de l'ARNr 16S et le gène hsp65 (respectivement 100 % versus 44 % et 91 %). La comparaison des méthodes d'extraction d'ADN mycobactérien a montré que la lyse enzymatique combinée au bromure d'hexadécyltriméthylammonium était la procédure la plus efficace pour énumérer par qPCR les MNT dans des échantillons environnementaux. Ainsi, ces méthodes d'extraction d'ADN et de qPCR ont été utilisées pour étudier des sources de MNT dans des bassins versants. Dans un second temps, nous avons étudié trois sources potentielles de MNT : une ponctuelle et deux diffuses. Plus précisément, une station d'épuration (STEP) a été choisie comme source ponctuelle de MNT et a été étudiée en temps sec en fonction d'indicateurs de contamination fécale et des paramètres globaux habituellement contrôlés. Les MNT ont atteint 5,52×105±3,97×105 copies/L dans l'eau en entrée de STEP (84 % d'échantillons positifs), n'ont pas été détectées dans l'eau en sortie de STEP après décantation physico-chimique et biofiltration et ont été estimées à 1,04×106 ±1,75×106 copies/g dans les boues de STEP (50 % d'échantillons positifs). La plupart des MNT (98±2 %, correspondant à 2,45±0,78 log10) ont été éliminées par décantation physico-chimique et les MNT restantes (0,74×104 ±1,40×104 copies/L) ont été éliminées par biofiltration (53 % d'échantillons positifs). Ces résultats ont montré également que Mycobacterium, Escherichia coli et les entérocoques intestinaux possèdent des comportements significativement différents conduisant respectivement à trois modèles : hydrophobe, hydrophile et intermédiaire. Concernant les sources diffuses, la densité de MNT a été mesurée dans divers sols ruraux et urbains qui ont été caractérisés par différents paramètres physico-chimiques. Les densités de MNT les plus importantes ont été mesurées dans des sols de forêts tourbeuses (9,27×104±5,00×104 copies/g sec) et dans des sols faiblement urbanisés proches de marécages côtiers (1,71×106±2,85×106 copies/g sec) alors qu'aucune MNT n'a été détectée dans les autres types de sols étudiés. De plus, la densité de MNT a été significativement associée à des sols proches de zones acides et des teneurs fortes des sols en eau, matière organique et fer. Ces résultats suggéreraient que les MNT sont dépendantes de leur production intra et extracellulaire de chélateurs de fer et indiqueraient que les zones faiblement urbanisées pourraient être impactées par la proximité de marais acides. Afin d'étudier une autre source diffuse, les MNT et d'autres paramètres ont été mesurés lors d'événements pluvieux dans l'eau de surface de la Marne et de ses principaux affluents. Les densités de MNT ont été estimées à 2,16×105±2,36×105 copies/L dans environ 20 % des échantillons d'eau collectés, et elles ne différaient pas entre les zones péri-urbaines et rurales échantillonnées. Nos résultats ont montré que la pluviométrie et la durée de l'évènement expliquaient la diminution du nombre de MNT détectées dans l'eau de surface au cours de l'événement pluvieux de faible intensité (6,6 mm/h de pluviométrie cumulées en 5,5 h). Ces résultats ont souligné que certains affluents de la Marne pouvaient apporter des MNT en temps sec, mais qu'au cours de l'évènement pluvieux suivi les densités de MNT diminuaient.En guise d'amélioration à ces études appliquées, des réflexions sur les défis relatifs à la surveillance des microorganismes pathogènes dans l'environnement ont été explorées. En nous focalisant sur la MNT la plus pathogène, M. avium, nous avons discuté des défis de la détection et de l'énumération et proposé un guide d'adaptation des méthodes médicales aux échantillons environnementaux (Radomski et al. 2011, ed. A. Méndez-Vilas, Vol. 2). Ce guide se présente sous la forme d'un arbre de décision permettant de choisir les outils analytiques les plus appropriés pour surveiller les microorganismes pathogènes dans l'environnement. De plus, une stratégie in silico de comparaison de génomes bactériens totalement séquencés a été développée dans le but de décrire des nouvelles cibles de détection. L'analyse in silico des génomes totalement séquencés a permis de détecter 11 protéines présentant entre 80 % et 100 % de similarité dans les génomes mycobactériens et moins de 50 % de similarité dans les génomes non-mycobactériens des genres Corynebacterium, Nocardia et Rhodococcus. Sur la base d'alignements des séquences d'ADN de ces cibles potentielles, il a été possible de dessiner des amorces PCR et une sonde pour détecter le gène codant la sous-unité C de la synthase de l'adénosine triphosphate qui semble exclusivement conservée dans le génome mycobactérien. Le développement d'outils analytiques, en particulier la qPCR, a permis de montrer qu'une STEP éliminait efficacement les MNT et que le traitement des eaux usées est nécessaire pour préserver l'eau de surface de cette source ponctuelle de MNT. Il a été mis en évidence que les événements pluvieux diminuent la densité de MNT dans l'eau de surface et que les sols acides sont des sources naturelles majeures de MNT qui pourraient impacter des zones faiblement urbanisées en temps de pluie via le ruissellement. Concernant les réflexions sur la surveillance des microorganismes pathogènes dans l'environnement, l'arbre de décision des outils analytiques appropriés et la nouvelle stratégie in silico de détection de cibles moléculaires pourraient être appliqués pour l'étude d'autres microorganismes de l'environnement / Water and soil are considered as potential sources of nontuberculous mycobacteria (NTM) infections. Among human infections caused by environmental NTM, pulmonary infections and cutaneous infections are often described. However, lack of knowledge about their life cycle in the environment requires analytical tools, which are not currently adapted to these kinds of samples. The aim of this thesis is to propose bacteriological and molecular quantitative methods, in order to determine the sources of NTM in watersheds. Comparison of NTM isolation methods showed that treatment with cetylpyridinium chloride of water, followed by culture on a rich medium supplemented with antibiotic cocktail (polymyxin B, amphotericin, nalidixic acid, de trimethoprim, azlocillin) decreased the growth of nontarget microorganisms, while inhibiting less NTM than the other compared methods (Radomski et al. 2010 doi: 10.1128/AEM.00942-10). Although potentially pathogenic NTM species were isolated from surface water of the Seine River using these bacteriological tools, enumeration of NTM was not reproducible. Consequently, a quantitative real-time polymerase chain reaction (qPCR) method was developed in order to enumerate Mycobacterium spp. in water (Radomski et al. 2010 doi: 10.1128/AEM.02659-09). This newly developed method, targeting 16S rRNA, was more specific than the two previously published qPCR methods targeting another 16S rRNA locus and the hsp65 gene (100% versus 44% and 91%, respectively). Comparison of DNA extraction methods showed that the enzymatic lysis and hexadecyltrimethylammonium bromide procedure was the most effective combination for mycobacterial DNA extraction with the aim to enumerate NTM in environmental samples by qPCR. Thus, these extraction and qPCR methods were used in order to study NTM sources in watersheds.Secondly, we studied three potential sources of NTM : one point source and two nonpoint sources. More precisely, a wastewater treatment plant (WWTP) was chosen as a potential point source of NTM and was studied according to indicators of fecal contamination and usually monitored parameters. NTM reached 5.52×105±3.97×105 copies/L in the influent of WWTP (84% of positive samples). They were not detected in the effluent after physico-chemical decantation and biofiltration, and were estimated at 1.04×106 ±1.75×106 copies/g in sludge (50% of positive samples). Most NTM (98±2%, i.e. 2.45±0.78 log10) were removed by the physical-chemical decantation, and the remaining NTM (0.74×104 ±1.40×104 copies/L) were removed by biofiltration (53% of positive samples). These results showed also that Mycobacterium, Escherichia coli and intestinal enterococci follow significantly different behaviors as hydrophobic, hydrophilic and intermediate models, respectively. Concerning the nonpoint sources, NTM were enumerated in a variety of rural and urban soils which were characterized by different physico-chemical parameters. The highest NTM densities were measured in peat forest soils (9.27×104±5.00×104 copies/g dw) and in lightly urbanized soils near a costal swamp (1.71×106±2.85×106 copies/g dw), whereas they were not detected in the other monitored soils. NTM density was significantly associated with soils near acidic areas and high moisture, organic matter, and iron content in soils. These results emphasized that NTM are dependent upon the production of surface and extracellular iron-binding compounds, and may mean that lightly urbanized area could be impacted by the proximity of the acidic swamp. In order to study another nonpoint source, NTM and other parameters were measured during wet events in surface water of Marne River and their main effluents. NTM density was estimated at 2.16×105±2.36×105 copies/L in about 20% of surface water samples, and NTM densites did not differ among rural and peri-urban sampling areas. Our results showed that the pluviometry and rain duration explained the decrease of detected NTM abundances in surface water during a slightly intense wet event (6.6 mm/h of cumulated rain during 5.5 h). These results emphasized that some tributaries of the Marne River may constitute a source of NTM, however their influence on NTM density in surface water of the Marne River decreased during the slightly intense wet event.In order to improve these applied studies, challenges dealing with pathogenic microorganism monitoring in environment were explored. Focusing on the most pathogenic NTM, M. avium, we discussed the challenges for detection and enumeration and proposed a guidance for the adaptation of clinical methods to environmental samples (Radomski et al. 2010 ed. A. Méndez-Vilas, Vol. 2). This guidance was proposed as a decision tree allowing to choose the most suitable analytical tools in order to monitor pathogenic microorganisms in environment. Moreover, an in silico strategy of whole sequenced bacterial genome comparison was developed in order to describe new targets for NTM detection. In silico analysis of whole sequenced genomes allowed to detect 11 proteins showing between 80% and 100% of similarity with mycobacterial genomes, and less than 50% of similarity with closely related genomes of Corynebacterium, Nocardia and Rhodococcus genera. Based on the DNA sequence alignments of these potential targets, it was possible to design a primer pair and a probe in order to detect by PCR the gene coding for adenosine-5'-triphosphate synthase subunits C which seems exclusively conserved in mycobacterial genome.Using the developed analytical tools, especially the qPCR, we showed that a WWTP removed efficiently NTM from the influent, and that waste water treatment is necessary in order to preserve surface water against this NTM point source. It was shown that storm events decrease NTM densities in surface water and in contrast that acidic soils are major NTM natural sources which may impact lightly urbanized areas during wet weather when runoff water suspends soil matter. Concerning challenges dealing with pathogenic microorganism monitoring in environment, the decision tree of suitable analytical tools and the new in silico strategy of molecular target detection might be also useful for the study of other environmental microorganisms
|
18 |
Décompositions et Visualisations de graphes : applications aux données biologiquesBourqui, Romain 24 October 2008 (has links)
La quantité d’informations stockée dans les bases de données est en constante augmentation rendant ainsi nécessaire la mise au point de systémes d’analyse et de visualisation. Nous nous intéressons dans cette thèse aux données relationnelles et plus particulièrement aux données biologiques. Cette thèse s’oriente autour de trois axes principaux : tout d’abord, la décomposition de graphes en groupes d’éléments ”similaires” a?n de détecter d’éventuelles structures de communauté ; le deuxième aspect consiste à mettre en évidence ces structures dans un système de visualisation, et dans un dernier temps, nous nous intéressons à l’utilisabilité de l’un de ces systèmes de visualisation via une évaluation expérimentale. Les travaux de cette thèse ont été appliqués sur des données réelles provenant de deux domaines de la biologie : les réseaux métaboliques et les réseaux d’interactions génes- protéines. / The amount of information stored in databases is constantly increasing making necessary to develop systems for analysis and visualization. In this thesis, we are interested in relational data and in particular, in biological data. This thesis focuses on three main axes : ?rstly, the decomposition of graph into clusters of ”similar” elements in order to detect the community structures ; the second aspect is to highlight these structures in a visualization system; and thirdly, we are interested in the usability of one of these visualization systems through an experimental evaluation. The work presented in this thesis was applied on real data from two ?elds of biology : the metabolic networks and the gene-protein interaction networks.
|
19 |
Developpement d'outils et méthodes bioinformatiques pour l'étude de l'expression des gènes et de leur régulation. : application aux pathologies / Development of bioinformatics tools and methods for gene expression and regulation study : application to diseasesBergon, Aurelie 06 February 2012 (has links)
La compréhension des mécanismes qui contrôlent l'expression des gènes est un enjeu majeur pour la recherche médicale. Elle nécessite un ensemble d'approches pangénomiques telles que les puces à ADN et plus récemment le séquençage à très haut débit qui génèrent une masse toujours plus grande de données numériques à traiter. Au cours de ma thèse, j'ai développé plusieurs outils informatiques innovants pour faciliter leur exploitation. Ainsi, j'ai créé une librairie R (AgiND) qui vérifie la qualité des données de puces à ADN Agilent et permet de les normaliser. Le nombre croissant d'expériences stockées dans Gene Expression Omnibus a motivé la mise en place du projet TBrowser. Une méthode originale DBF-MCL a été créée pour extraire des signatures transcriptionnelles annotées par l'intégration de diverses sources d'information. Stockées dans une base de données, elles sont accessibles à travers une interface Java, un service web SOAP et une librairie R/Bioconductor (RTools4TB). Enfin, un pipeline d'analyse dédié au ChIP-seq a été implémenté. Tous ces outils ont servi pour l'étude de diverses maladies dans le cadre de collaborations. / Understanding the mechanisms that control gene expression is a major challenge for medical research. This requires using a large set of pangenomic approaches such as those using DNA microarrays and high-throughput sequencing that generate an ever growing mass of digital data. During my thesis, I have developed several computer-based tools to facilitate their processing and analysis. I have created a R library (AgiND) that controls the quality of Agilent DNA microarray data and allows their statistical normalization. The growing number of experiences stored in Gene Expression Omnibus has motivated the development of the TBrowser project. An original method, DBF-MCL, was created to extract annotated transcriptional signatures by integrating various sources of information. Stored in a database, these signatures are accessible using a Java interface, a SOAP web service and a R/Bioconductor library (RTools4TB). Finally, a pipeline dedicated to the ChIP-seq analyses has been implemented. All these tools were used to study various diseases in collaborations.
|
20 |
Pan-génome du riz africain cultivé Oryza glaberrima et son ancêtre sauvage Oryza barthii / Pan-genome of cultivated african rice Oryza glaberrima and his wild ancestor Oryza barthiiMonat, Cécile 10 November 2016 (has links)
La diversité d’une espèce est représentée par la somme de la diversité de chacun des individus qui la compose. Elle peut être observée à différentes échelles : individuelle, organique, tissulaire, cellulaire, génomique, génique, ou bien à l’échelle de la base nucléotidique. L’étude de la diversité d’une espèce est importante pour mieux la comprendre et nous permettre de retracer son histoire évolutive, de la comparer avec d’autres espèces notamment entre espèces sauvages et cultivées. Nous nous intéressons aux processus de domestication, et particulièrement à leurs impacts sur la structure du pan-génome. Le pan-génome est divisé en trois compartiments : (i) le core-génome qui contient tous les gènes présents chez tous les individus de l’espèce ; (ii) le génome dispensable qui contient l’ensemble des gènes qui sont absents chez au moins un individu ; (iii) et enfin le génome individu-spécifique qui contient les gènes présents uniquement chez un individu.L’objectif de ce travail de thèse était de mettre au point une nouvelle méthode d’analyse pan-génomique applicable sur un grand nombre d’individus. Pour cela, nous avons travaillé sur un jeu de données de reséquençage massif du riz Africain cultivé O. glaberrima et de son ancêtre sauvage O. barthii. Dans un premier temps nous avons vérifié l’existence d’une structure pan-génomique sur notre modèle. Pour cela nous avons travaillé à petite échelle avec trois accessions de l’espèce cultivée. Elles ont d’abord été séquencées, assemblées, annotées puis nous avons cherché à détecter des séquences spécifiques à chacune de ces accessions.Dans un second temps nous avons mis au point notre méthode en travaillant avec près de 200 génomes des deux espèces.Ces génomes ont été séquencés grâce aux technologies NGS puis directement mappés sur un génome de référence externe, celui du riz Asiatique. Nous avons alors appliqué notre méthode d’analyse pan-génomique basée sur la déviation de la profondeur deséquençage pour chaque gène. Nous avons ensuite comparé les enrichissement d’ontologies par compartiments et par espèce dans le but d’identifier des différences liées aux processus de domestication. Enfin, nous avons étudié plus précisément les appartenances pan-génomiques des membres de famille de gènes.Parce que le pan-génome de l’espèce cultivé est plus petit que le core-génome de l’espèce sauvage nous avons confirmé la perte de diversité en terme de présence/ absence de gènes chez le riz Africain au cours du processus de domestication. Curieusement nous avons aussi mis en avant l’augmentation du nombre de gènes dispensable chez l’espèce cultivée par rapport à son relatif sauvage.Ainsi, malgré une forte réduction du pan-génome de l’espèce cultivé lors de la « première » sélection, les 1000 générations de processus de domestication ont suffit à réintroduire une forme de diversité à travers l’augmentation du nombre de gènes dispensables.Afin d’automatiser une grande partie des manipulations d’analyses de données NGS nous avons aussi développé un outil de génération de pipelines d’analyses. De part sa généricité et sa robustesse il pourra être utilisé dans différents domaines, pour plu-sieurs types de données. Grâce aux nombreux logiciels qui y sont intégrés et de par le suivi que l’équipe de développement entend poursuivre, il pourra être utilisé dans la caractérisation de plus en plus de choses. Par exemple les variations structurales, les associations génotypes-phénotypes, l’épigénétique et pourquoi pas la métagénomique.Ce travail a permis la mise au point d’une nouvelle méthode d’analyse des données pan-génomiques rapide de par sa vision globale plutôt que via des comparaisons deux-à-deux. Cette méthode s’adresse aux génomes grands et complexes comme ceux des plantes, mais aussi aux jeux de données massifs. / Species diversity is represented by the sum of the diversity of each of the individuals composing it. It can be seen at differents cales: individual, organic, tissular, cellular, genomic, gene, and even nucleotic. The study of the diversity of species is important to better understand and allow tracking its evolutionary history, comparing it to other species, in particular wild to cultivated. We focused on the domestication, and particularly its impact on the pan-genome structure.The pan-genome is divided into three compartments: (i) the core-genome containing all the genes present in all individuals of the species; (ii) the dispensable genome containing all genes absent in at least one individual; (iii) and finally the individual-specific genome containing genes present only in one individual.The objective of this thesis was to develop a new method for pan-genomic analysis that can apply to a large number of indi-viduals. For this, we worked on a massive resequencing data set of cultivated African rice O. glaberrima and of its wild ancestor O. barthii. At first we checked the existence of a pan-genomic structure on our model. For this we worked on a small scale, with three accessions of cultivated species. They were sequenced, assembled, annotated then analyzed to detect specific sequences for each accession.Secondly we developed our approach working with nearly 200 genomes of both species. These genomes were sequenced using Illumina technology and mapped to the external reference genome, of the Asian rice. We applied our pan-genomic method analysis based on the deviation of the depth of sequencing for each gene. We then compared the ontology enrichment compartments and species in order to identify differences related to the domestication process. Finally, we looked specifically to pan-genomic genes belonging to gene family. Because the pan-genome of the cultivated species is smaller than the core-genome of the wild one, we confirmed the loss ofdiversity in terms of presence/ absence of genes in African rice during the domestication process. Curiously we have also high lighted the increase in the number of dispensable genes in the crop from its wild relative. Thus, despite a sharp reduction of the pan-genomeof the species cultivated in the “first” selection, the 1,000 generations of domestication process were enough to reintroduce a formof diversity through increasing the number of dispensable genes.To automate much of the data analysis of NGS manipulations we have also developed a tool to generate analysis pipelines.Due to its generic and robustness it can be used in different areas, for several types of data. With many softwares integrated and by monitoring that the development team will continue, it may be used in the characterization of more and more things. For example,structural variations, genotype-phenotype associations, epigenetics and metagenomics. This work enabled the development of a new analytical method for rapid genome-wide data through its global vision ratherthan through two by two comparisons. This method is for large and complex genomes such as those of plants, but also to massivedata sets.
|
Page generated in 0.0759 seconds