Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
211 |
L'analyse de données génomiques et l'annotation à l'heure des NGS : la bioinformatique 2.0 / Genomic data analysis and annotation in the NGS era : Bioinfomatics 2.0Paganini, Julien 15 December 2015 (has links)
Les récents progrès technologiques en termes de séquençage de données génomiques ont entraîné une forte croissance des données disponibles et l'apparition de nouveaux besoins. Initialement limitée à l'analyse de petite quantité de données, la bioinformatique a dû s'adapter à ce nouveau contexte technologique et scientifique afin de répondre aux nouveaux challenges proposés. Par l'intermédiaire de différents projets réalisés dans des contextes différents, cette thèse s'intègre dans ce changement contextuel où la bioinfomatique n'est plus limitée à l'utilisation successive d'outils à objectifs unitaire entrecoupée d'étapes humaine dépendantes. Focalisés sur le développement de stratégies d'analyse complexes pour le développement ou la mise à disposition d'outils entièrement automatisés et la production de données à haute valeur ajoutée, ces travaux permettent de comprendre le rôle important de la bioinformatique 2.0. Ainsi nous montrerons comment elle doit être à même de répondre à des objectifs précis par l'intermédiaire de stratégies intégrant les concepts de la biologie, les outils bioinformatiques existants et l'expertise humaine associée au domaine. En conclusion nous discuterons du nouveau rôle et de l'impact futur de la bioinformatique 2.0 qui requiert une expertise tant sur le plan biologique qu'informatique adaptée aux données NGS. / Recent technological advances in terms of genomic sequencing data led to a strong growth of available data and the emergence of new needs. Initially limited to the analysis of simple sequence or limited amount of data, bioinformatics has to adapt to this new technological and scientific context to meet the new challenges offered. Through different projects in different genomic era, this thesis fits into this contexts change where bioinfomatics is no longer limited to the use of tool with unitary goal and human dependent steps. Focused on the development of complex analysis strategies for the development or the availability of fully automated tools and high-value data, this work introduce the important role of bioinformatics version 2.0. We will show how it is able to answer to precise biological question through specific strategy that integrate all the biological concepts, existing bioinformatics tools and human expertise related to the domain. To conclude, we discuss about the role and the impact of the bioinformatics 2.0 that requires a expert vision at biological and computers level adapted to NGS data.
|
212 |
Détermination de sondes oligonucléotidiques pour l'exploration à haut débit de la diversité taxonomique et fonctionnelle d'environnements complexes / Selection of oligonucleotide probes for high-throughput study of complex environmentsParisot, Nicolas 17 October 2014 (has links)
Les microorganismes, par leurs fascinantes capacités d’adaptation liées à l’extraordinaire diversité de leurs capacités métaboliques, jouent un rôle fondamental dans tous les processus biologiques. Jusqu’à récemment, la mise en culture était l’étape préliminaire obligatoire pour réaliser l’inventaire taxonomique et fonctionnel des microorganismes au sein des environnements. Cependant ces techniques ne permettent d’isoler qu’une très faible fraction des populations microbiennes et tendent donc à être remplacées par des outils moléculaires haut-débit. Dans ce contexte, l’évolution des techniques de séquençage a laissé entrevoir de nouvelles perspectives en écologie microbienne mais l’utilisation directe de ces techniques sur des environnements complexes, constitués de plusieurs milliers d’espèces différentes, reste néanmoins encore délicate. De nouvelles stratégies de réduction ciblée de la complexité comme la capture de gènes ou les biopuces ADN représentent alors une bonne alternative notamment pour explorer les populations microbiennes même les moins abondantes. Ces stratégies à haut-débit reposent sur la détermination de sondes combinant à la fois une forte sensibilité, une très bonne spécificité et un caractère exploratoire. Pour concevoir de telles sondes plusieurs logiciels ont été développés : PhylGrid 2.0, KASpOD et ProKSpOD. Ces outils généralistes et polyvalents sont applicables à la sélection de sondes pour tout type de gènes à partir des masses de données produites à l’heure actuelle. L’utilisation d’architectures de calculs hautement parallèles et d’algorithmes innovants basés sur les k-mers ont permis de contourner les limites actuelles. La qualité des sondes ainsi déterminées a pu permettre leur utilisation pour la mise au point de nouvelles approches innovantes en écologie microbienne comme le développement de deux biopuces phylogénétiques, d’une méthode de capture de gènes en solution ainsi que d’un algorithme de classification des données métagénomiques. Ces stratégies peuvent alors être employées pour diverses applications allant de la recherche fondamentale pour une meilleure compréhension des écosystèmes microbiens, au suivi de processus de bioremédiation en passant par l’identification de tous types de pathogènes (eucaryotes, procaryotes et virus). / Microorganisms play a crucial role in all biological processes related to their huge metabolic potentialities. Until recently, the cultivation was a necessary step to appraise the taxonomic and functional diversity of microorganisms within environments. These techniques however allow surveying only a small fraction of microbial populations and tend to be consequently replaced by highthroughput molecular tools. While the evolution of sequencing technologies opened the door to unprecedented opportunities in microbial ecology, massive sequencing of complex environments, with thousands of species, still remains inconceivable. To overcome this limitation, strategies were developed to reduce the sample complexity such as gene capture or DNA microarrays.These high-throughput strategies rely on the selection of sensitive, specific and explorative probes. To design such probes several programs have been developed: PhylGrid 2.0, KASpOD and ProKSpOD. These multipurpose tools were implemented to design probes from the exponentially growing sequence datasets in microbial ecology. Using highly parallel computing architectures and innovative k-mers based strategies allowed overcoming major limitations in this field. The high quality probe sets were used to develop innovative strategies in microbial ecology including two phylogenetic microarrays, a gene capture approach and a taxonomic binning algorithm for metagenomic data. These approaches can be carried out for various applications including better understanding of microbial ecosystems, bioremediation monitoring or identification of pathogens (eukaryotes, prokaryotes and viruses).
|
213 |
Réponse à l'infection : apport du transcriptomeTextoris, Julien 30 June 2011 (has links)
L'objectif de cette thèse est d'explorer l'inflammation et l'infection au niveau du transcriptome, à l'aide de la technologie des puces à ADN. Pour cela, nous avons dans un premier temps travaillé sur des données publiques. Nous avons construit une base de données de signatures transcriptionnelles annotées, et développé un logiciel modulaire d'analyse. Ce logiciel permet d'explorer aisément les données publiques en effectuant des recherches par nom de gène ou par mots-clés. Nous avons ensuite exploré la modulation temporelle de l'expression des gènes du parenchyme pulmonaire dans un modèle murin d'inflammation aiguë par injection d'acide oléique. Dans un second modèle murin d'infection par Coxiella burnetii, nous avons analysé le rôle du sexe dans la modulation de la réponse transcriptionnelle hépatique, et identifié des voies métaboliques impliquées dans le contrôle de l'infection. Dans un troisième modèle in-vitro d'infection par différentes souches du virus de la grippe, nous avons identifié une signature transcriptionnelle commune de réponse à l'infection. Par une approche bio-informatique originale, cette signature a conduit à l'identification de nouveaux anti-viraux à large spectre, dont l'efficacité a été démontrée in-vitro sur les souches utilisées pour l'analyse, et sur la souche H1N1, responsable de la dernière pandémie grippale. Enfin, nous avons analysé les modulations du transcriptome lors de pneumonies associées à la ventilation mécanique compliquant l'évolution de sujets traumatisés graves admis en réanimation. / The goal of this PhD is to explore inflammation and infection at the transcriptome level, using DNA microarrays. In order to do so, we first analyzed public data. We built a database with annotated transcriptional signatures and developed a modular analysis software to query this database. This software allows to easily explore public data with requests based on gene names or annotation keywords. We then explored the temporal modulation of lung gene expression following oleic acid injection in a murine model. In a second murine model of infection with Coxiella burnetii, we analyzed the influence of sex-related modulation in the hepatic transcriptional response after infection and identified several pathways implicated in the control of infection. In a third model of in-vitro infection with various Influenza virus strains, we identified a shared transcriptional signature in response to cell infection. Using an original in-silico methodology, this signature allowed us to identify new broad-spectrum antivirals. Efficacy of these molecules was demonstrated in-vitro against the strains used to define the signature, and also against the new pandemic H1N1 SOIV strain. Finally, we analyzed the transcriptional modulation occurring in whole blood samples from trauma patients hospitalized in intensive care unit, and whose evolution was complicated with ventilator-associated pneumonia.
|
214 |
Une problématique de découverte de signatures de biomarqueurs / A biomarkers signatures discovery problemAbtroun Hamlaoui Belmouloud, Lilia 12 December 2011 (has links)
Appliqué à des problèmes actuels de recherche pharmaceutique, ce mémoire traite de la génération de signatures de biomarqueurs par une approche d'extraction de règles d'association et une Analyse Formelle de Concepts. Elle a aboutit au développement d'une méthodologie qui a été validée par six projets de recherche de signatures de biomarqueurs.Alors qu'il n'existe pas de méthode optimale pour traiter les données biomarqueurs, cette méthodologie logique s'appuie sur un scénario global d'analyse déployant quatre méthodes, chacune dépendante de procédés différents. Cette architecture qualifie une problématique centrale de manière à optimiser la qualité d'une solution aux différents problèmes scientifiques posés. Les six applications pratiques ont démontré l'intérêt de la prise en compte précoce des critères de qualité énoncés par les experts du domaine. L'interactivité est soutenue tout au long du processus de découverte et produit des résultats imprévus pour l'expert. La méthodologie s'inscrit dans la lignée des approches dédiées à la stratification systématique des individus, qui constitue le premier palier vers une médecine personnalisée. / In the framework of current intricate questions to be solved by the pharmaceutical industry, this manuscript examines the generation of biomarker signatures through an approach that combines association rules extraction and Formal Concept Analysis. It led to the development of a methodology which was validated by six research industrial projects. While there is no single optimal method to handle biomarkers datasets, this logical methodology relies on a global datamining scenario made up of four different methods. Each method utilizes different processes. This architecture qualifies global approach that helps to optimize a response to different biomarker signatures discovery problems. The six applications presented in this manuscript demonstrate the interest of an early consideration of the quality criteria are expressed by the experts in the field. The interactivity is supported throughout the process of discovery and produces unexpected results for the expert. The methodology helps the systematic stratification of individuals, which constitutes the first step towards personalized medicine.
|
215 |
Development of new computational methods for a synthetic gene set annotation / Développement de nouvelles méthodes informatiques pour une annotation synthétique d’un ensemble de gènes.Ayllón-Benítez, Aarón 05 December 2019 (has links)
Les avancées dans l'analyse de l'expression différentielle de gènes ont suscité un vif intérêt pour l'étude d'ensembles de gènes présentant une similarité d'expression au cours d'une même condition expérimentale. Les approches classiques pour interpréter l'information biologique reposent sur l'utilisation de méthodes statistiques. Cependant, ces méthodes se focalisent sur les gènes les plus connus tout en générant des informations redondantes qui peuvent être éliminées en prenant en compte la structure des ressources de connaissances qui fournissent l'annotation. Au cours de cette thèse, nous avons exploré différentes méthodes permettant l'annotation d'ensembles de gènes.Premièrement, nous présentons les solutions visuelles développées pour faciliter l'interprétation des résultats d'annota-tion d'un ou plusieurs ensembles de gènes. Dans ce travail, nous avons développé un prototype de visualisation, appelé MOTVIS, qui explore l'annotation d'une collection d'ensembles des gènes. MOTVIS utilise ainsi une combinaison de deux vues inter-connectées : une arborescence qui fournit un aperçu global des données mais aussi des informations détaillées sur les ensembles de gènes, et une visualisation qui permet de se concentrer sur les termes d'annotation d'intérêt. La combinaison de ces deux visualisations a l'avantage de faciliter la compréhension des résultats biologiques lorsque des données complexes sont représentées.Deuxièmement, nous abordons les limitations des approches d'enrichissement statistique en proposant une méthode originale qui analyse l'impact d'utiliser différentes mesures de similarité sémantique pour annoter les ensembles de gènes. Pour évaluer l'impact de chaque mesure, nous avons considéré deux critères comme étant pertinents pour évaluer une annotation synthétique de qualité d'un ensemble de gènes : (i) le nombre de termes d'annotation doit être réduit considérablement tout en gardant un niveau suffisant de détail, et (ii) le nombre de gènes décrits par les termes sélectionnés doit être maximisé. Ainsi, neuf mesures de similarité sémantique ont été analysées pour trouver le meilleur compromis possible entre réduire le nombre de termes et maintenir un niveau suffisant de détails fournis par les termes choisis. Tout en utilisant la Gene Ontology (GO) pour annoter les ensembles de gènes, nous avons obtenu de meilleurs résultats pour les mesures de similarité sémantique basées sur les nœuds qui utilisent les attributs des termes, par rapport aux mesures basées sur les arêtes qui utilisent les relations qui connectent les termes. Enfin, nous avons développé GSAn, un serveur web basé sur les développements précédents et dédié à l'annotation d'un ensemble de gènes a priori. GSAn intègre MOTVIS comme outil de visualisation pour présenter conjointement les termes représentatifs et les gènes de l'ensemble étudié. Nous avons comparé GSAn avec des outils d'enrichissement et avons montré que les résultats de GSAn constituent un bon compromis pour maximiser la couverture de gènes tout en minimisant le nombre de termes.Le dernier point exploré est une étape visant à étudier la faisabilité d'intégrer d'autres ressources dans GSAn. Nous avons ainsi intégré deux ressources, l'une décrivant les maladies humaines avec Disease Ontology (DO) et l'autre les voies métaboliques avec Reactome. Le but était de fournir de l'information supplémentaire aux utilisateurs finaux de GSAn. Nous avons évalué l'impact de l'ajout de ces ressources dans GSAn lors de l'analyse d’ensembles de gènes. L'intégration a amélioré les résultats en couvrant d'avantage de gènes sans pour autant affecter de manière significative le nombre de termes impliqués. Ensuite, les termes GO ont été mis en correspondance avec les termes DO et Reactome, a priori et a posteriori des calculs effectués par GSAn. Nous avons montré qu'un processus de mise en correspondance appliqué a priori permettait d'obtenir un plus grand nombre d'inter-relations entre les deux ressources. / The revolution in new sequencing technologies, by strongly improving the production of omics data, is greatly leading to new understandings of the relations between genotype and phenotype. To interpret and analyze data grouped according to a phenotype of interest, methods based on statistical enrichment became a standard in biology. However, these methods synthesize the biological information by a priori selecting the over-represented terms and focus on the most studied genes that may represent a limited coverage of annotated genes within a gene set. During this thesis, we explored different methods for annotating gene sets. In this frame, we developed three studies allowing the annotation of gene sets and thus improving the understanding of their biological context.First, visualization approaches were applied to represent annotation results provided by enrichment analysis for a gene set or a repertoire of gene sets. In this work, a visualization prototype called MOTVIS (MOdular Term VISualization) has been developed to provide an interactive representation of a repertoire of gene sets combining two visual metaphors: a treemap view that provides an overview and also displays detailed information about gene sets, and an indented tree view that can be used to focus on the annotation terms of interest. MOTVIS has the advantage to solve the limitations of each visual metaphor when used individually. This illustrates the interest of using different visual metaphors to facilitate the comprehension of biological results by representing complex data.Secondly, to address the issues of enrichment analysis, a new method for analyzing the impact of using different semantic similarity measures on gene set annotation was proposed. To evaluate the impact of each measure, two relevant criteria were considered for characterizing a "good" synthetic gene set annotation: (i) the number of annotation terms has to be drastically reduced while maintaining a sufficient level of details, and (ii) the number of genes described by the selected terms should be as large as possible. Thus, nine semantic similarity measures were analyzed to identify the best possible compromise between both criteria while maintaining a sufficient level of details. Using GO to annotate the gene sets, we observed better results with node-based measures that use the terms’ characteristics than with edge-based measures that use the relations terms. The annotation of the gene sets achieved with the node-based measures did not exhibit major differences regardless of the characteristics of the terms used. Then, we developed GSAn (Gene Set Annotation), a novel gene set annotation web server that uses semantic similarity measures to synthesize a priori GO annotation terms. GSAn contains the interactive visualization MOTVIS, dedicated to visualize the representative terms of gene set annotations. Compared to enrichment analysis tools, GSAn has shown excellent results in terms of maximizing the gene coverage while minimizing the number of terms.At last, the third work consisted in enriching the annotation results provided by GSAn. Since the knowledge described in GO may not be sufficient for interpreting gene sets, other biological information, such as pathways and diseases, may be useful to provide a wider biological context. Thus, two additional knowledge resources, being Reactome and Disease Ontology (DO), were integrated within GSAn. In practice, GO terms were mapped to terms of Reactome and DO, before and after applying the GSAn method. The integration of these resources improved the results in terms of gene coverage without affecting significantly the number of involved terms. Two strategies were applied to find mappings (generated or extracted from the web) between each new resource and GO. We have shown that a mapping process before computing the GSAn method allowed to obtain a larger number of inter-relations between the two knowledge resources.
|
216 |
Développements algorithmiques pour l'analyse et la prédiction de la structure des protéines / Novel computational developments for protein structure analysis and predictionPages, Guillaume 12 September 2019 (has links)
Les protéines sont omniprésentes dans les processus biologiques. Identifier leurs fonctions aide à comprendre et éventuellement à contrôler ces processus. Cependant, si la détermination de la séquence protéique est désormais une procédure de routine, il est souvent difficile d'utiliser cette information pour extraire des connaissances fonctionnelles pertinentes sur le système étudié. En effet, la fonction d'une protéine repose sur ses propriétés chimiques et mécaniques, lesquelles sont définies par sa structure. Ainsi, la prédiction, la compréhension et l'analyse de la structure des protéines sont parmi les principaux défis de la biologie moléculaire.La prédiction et l'analyse des repliements de protéines est le sujet central de cette thèse. Cependant, de nombreuses protéines sont organisées selon des assemblages qui sont symétriques dans la plupart des cas et certaines protéines contiennent des répétitions internes. La conception d'une structure avec des répétitions ou d'un assemblage protéique symétrique est souvent le moyen le plus simple pour l'évolution d'atteindre une certaine fonction. Ceci qui nous a poussé à développer des méthodes spécialement conçues pour les assemblages protéiques symétriques et les protéines avec répétitions internes. Une autre motivation derrière cette thèse était d'explorer et de faire progresser le domaine émergent de l'apprentissage profond appliqué aux données atomistiques tridimensionnelle (3D).Cette thèse s'articule autour de deux parties. Dans la première partie, nous proposons des algorithmes pour analyser la structures des assemblages symétriques de protéines. Nous commençons par définir une mesure de symétrie basée sur la distance euclidienne 3D et décrivons un algorithme permettant de calculer efficacement cette mesure et de déterminer les axes de symétrie des assemblages protéiques. Cet algorithme est capable de traiter tous les groupes ponctuels de symétrie, à savoir les symétries cycliques, dièdrales, tétraédriques, octaédriques et icosaédriques, grâce à une heuristique robuste qui perçoit la correspondance entre sous-unités asymétriques. Nous étendons ensuite les limites du problème et proposons une méthode applicable à des cartes de densité 3D. Nous abordons ce problème à l'aide d'un réseau neuronal profond (DNN), et nous proposons une méthode qui prédit l'ordre de symétrie l'axe de symétrie 3D.Ensuite, nous proposons une architecture DNN pour évaluer la qualité de modèles 3D de repliements de protéines. Nous avons entrainé le DNN en utilisant en entrée la géométrie locale autour de chaque résidu dans un modèle de protéine représenté par une carte de densité, et avons prédit les CAD-scores de ces résidus. Le DNN a été créé pour être invariant par rapport à l'orientation du modèle d'entrée. Nous avons également conçu certaines parties du DNN pour reconnaître automatiquement les propriétés des atomes et sélectionner des descripteurs pertinents. Enfin, nous analysons les descripteurs appris par le DNN. Nous montrons que notre architecture apprend effectivement des propriétés des atomes, des acides aminés et des structures moléculaires de niveau supérieur. Certaines propriétés sont déjà bien étudiées comme les éléments chimiques, les charges partielles atomiques, les propriétés des acides aminés, la structure secondaire des protéines et l'exposition au solvant. Nous démontrons également que notre réseau apprend de nouvelles caractéristiques structurelles.Cette étude présente de nouveaux outils pour la biologie structurale. Certains sont déjà utilisés dans la communauté, par les évaluateurs de CASP par example. Elle démontre également la puissance de l'apprentissage profond pour la représentation de la structure des protéines et son applicabilité aux problèmes des données 3D. / Proteins are ubiquitous for virtually all biological processes. Identifying their role helps to understand and potentially control these processes. However, even though protein sequence determination is now a routine procedure, it is often very difficult to use this information to extract relevant functional knowledge about system under study. Indeed, the function of a protein relies on a combination of its chemical and mechanical properties, which are defined by its structure. Thus, understanding, analysis and prediction of protein structure are the key challenges in molecular biology.Prediction and analysis of individual protein folds is the central topic of this thesis. However, many proteins are organized in higher-level assemblies, which are symmetric in most of the cases, and also some proteins contain internal repetitions.In many cases, designing a fold with repetitions or designing a symmetric protein assembly is the simplest way for evolution to achieve a specific function. This is because the number of combinatorial possibilities in the interactions of designed folds reduces exponentially in the symmetric cases. This motivated us to develop specific methods for symmetric protein assemblies and also for individual proteins with internal repeats. Another motivation behind this thesis was to explore and advance the emerging deep neural network field in application to atomistic 3-dimensional (3D) data.This thesis can be logically split into two parts. In the first part, we propose algorithms to analyse structures of protein assemblies, and more specifically putative structural symmetries.We start with a definition of a symmetry measure based on 3D Euclidean distance, and describe an algorithm to efficiently compute this measure, and to determine the axes of symmetry of protein assemblies. This algorithm is able to deal with all point groups, which include cyclic, dihedral, tetrahedral, octahedral and icosahedral symmetries, thanks to a robust heuristic that perceives correspondence between asymmetric subunits. We then extend the boundaries of the problem, and propose a method applicable to the atomistic structures without atom correspondence, internal symmetries, and repetitions in raw density maps. We tackle this problem using a deep neural network (DNN), and we propose a method that predicts the symmetry order and a 3D symmetry axis.Then, we extend the DNN architecture to recognise folding quality of 3D protein models. We trained the DNN using as input the local geometry around each residue in a protein model represented as a density map, and we predicted the CAD-scores of these residues. The DNN was specifically conceived to be invariant with respect to the orientation of the input model. We also designed some parts of the network to automatically recognise atom properties and robustly select features. Finally, we provide an analysis of the features learned by the DNN. We show that our architecture correctly learns atomic, amino acid, and also higher-level molecular descriptors. Some of them are rather complex, but well understood from the biophysical point of view. These include atom partial charges, atom chemical elements, properties of amino acids, protein secondary structure and atom solvent exposure. We also demonstrate that our network learns novel structural features.This study introduces novel tools for structural biology. Some of them are already used in the community, for example, by the PDBe database and CASP assessors. It also demonstrates the power of deep learning in the representation of protein structure and shows applicability of DNNs to computational tasks that involve 3D data.
|
217 |
Caractérisation de marqueurs moléculaires associés à un haut risque de développement de métastases chez des patients atteints du mélanome de la choroïde / Characterization of molecular markers associated with a high risk of metastasis development in uveal melanoma patientsLaurent, Cecile 26 September 2011 (has links)
La choroïde ou uvée, située entre la rétine et la sclérotique, est une membrane vasculaire qui tapisse la paroi de l’œil, son rôle est d’assurer l’apport en nutriment de la rétine et de l’iris. Ce tissu peut être le siège de nombreuses tumeurs, bénignes ou malignes. Le mélanome de la choroïde est la tumeur intra-oculaire la plus fréquente de l’adulte mais les facteurs de risque sont mal connus: l’exposition aux ultraviolets n’est pas clairement établi dans la genèse de la tumeur, de même que l’âge ou le sexe.L’énucléation a longtemps été considérée comme la seule option thérapeutique, mais depuis de nombreuses années, des techniques dites conservatrices de l’œil se sont développées. Des études ont montré qu’il n’y a pas de différence significative de survie entre les patients ayant subis une énucléation et les patients traités avec des méthodes conservatrices. De plus, à ce jour, aucune thérapie adjuvante n’a montré son efficacité après le traitement du mélanome oculaire primaire. En effet, malgré un traitement initial bien adapté, la moitié des patients va récidiver sur le mode métastatique. Environ 30\% des patients récidivent dans les 5 ans, ce chiffre augmente jusqu’à 50\% à 15 ans.L’œil étant dépourvu de structures lymphatiques, la diffusion métastatique du melanome uvéal se fait par voie hématogène. Le foie est le site privilégié de développement de métastases, faisant toute la gravité du pronostic. La médiane de survie après apparition de métastases est de 2 à 6 mois en l’absence de traitement. Il peut exister de façon plus anecdotique des métastases pulmonaires, ganglionnaires, osseuses ou cutanées.Sur un plan génétique, les critères les plus fréquemment détectés pour le mélanome uvéal sont la perte du chromosome 3 et le gain du 8q. Plusieurs études montrent dans beaucoup de cas des aberrations chromosomiques non aléatoires sur les chromosomes 1, 3, 6 et 8 et que la perte du chromosome 3 et le gain du 8q sont associés significativement à une survie réduite et au développement de métastase. Plusieurs rapports suggèrent deux entités distinctes de mélanome uvéal (avec et sans monosomie du chromosome 3) qui ne peuvent pas être différenciées du fait de leur aspect clinico-pathologique similaire.Afin d’améliorer le diagnostic et le traitement du mélanome de la choroïde, nous proposons d’effectuer des analyses d’expression et du nombre de copie d’ADN de ce mélanome particulier, avec pour objectifs : l’identification des gènes liés à l’apparition de métastase pour classer les patients à haut risque afin qu’ils puissent bénéficier d’une immunothérapie adjuvante spécifique, la caractérisation de ces gènes au niveau moléculaire, et l’étude du potentiel de ces gènes en tant que cibles thérapeutiques.Dans ce manuscrit je décrirai en détail le lignage mélanocytaire afin de comprendre les particularités du mélanome de la choroïde par rapport au mélanome cutané, puis j'aborderai l'importance des approches haut débit dans l'étude des cancers et les techniques d'analyse bioinformatiques utilisées. Je présenterai ensuite les différents résultats obtenus comme la mise en évidence d'une phosphatase, PTP4A3, qui semble avoir de l'importance dans le développement métastatique du mélanome de la choroïde. / The choroid is a layer of highly vascularised tissue surrounding the eye. Choroidal blood nourishes the retinal pigment epithelium and the photoreceptors on the outer layer of the retina. Uveal melanoma occurs to the detriment of uveal melanocytes (located in the iris, ciliary body and choroid) and is the most common intraocular malignancy in adults. The etiological factors involved in the process of malignant transformation are poorly understood. There is a doubtful role of environmental factors such exposure to sunlight, age or sexe in the emergence of uveal melanoma.The management of uveal melanomas has greatly evolved, moving towards more focused and conservative treatments (such as observation, photocoagulation, thermotherapy, radiotherapy). According to literature, there is no significant difference in survival between patients treated with enucleation and those treated with conservative methods. To date, no adjuvant therapy has proven effective following the initial treatment of ocular melanoma. The metastatic pattern for uveal melanoma differs from that of skin melanoma and is usually located in the liver. About 50\% of patients will develop metastases after a median time of three years, and will ultimately die of their disease. Once the disease becomes metastatic, median survival ranges from two to six months, and only 15\% of the patients survive more than one year. Surgical resection of metastases is feasible only if occurring in limited areas. Genetic differences may be the origin of the various types of melanoma and their different features. Multivariate analyses of genomic imbalances, showed that cutaneous and uveal melanomas presnted different copy number changes. The most frequently detected imbalances in uveal melanoma is the loss of chromosome 3 and gain of 8q. Further studies revealed that most cases show non-random chromosomal aberrations of chromosomes 1, 3, 6 and 8 and that the loss of chromosome 3 and gain of 8q were significantly associated with overall survival and the development of metastases. Some reports suggested two distinct entities of uveal melanoma (with or without chromosome 3 monosomy) previously unrecognized because of their similar clinicopathological features. In order to improve diagnosis and treatment of uveal melanoma, we propose to perform transcriptome and DNA copy number analysis with following objectives : identify genes linked to metastasis behaviour to identify high risk patients who could take advantage of specific adjuvant therapy ; characterize these genes at molecular level ; study if these genes could be powerful therapeutic target.In this thesis, I will describe the melanocyte lineage in order to understand differences observed between cutaneous and uveal melanoma, then I will discuss the importance of high-throughput approaches in the study of cancer and bioinformatics analysis techniques used. I will finally present the different results as the significance of a phosphatase, PTP4A3, which seems to be relevant in metastatic behaviour in uveal melanoma.
|
218 |
Développement et applications de méthodes bioinformatiques pour l'identification des répétitions en tandem dans les structures des protéines / Development and application of bioinformatics tools to identify tandem repeats in protein structureDo Viet, Phuong 17 March 2016 (has links)
Les structures protéiques peuvent être divisées en répétitives et apériodiques, les structures apériodiques correspondant pour la plupart à des protéines globulaires. Les protéines répétitives (PRs) contiennent des unités de répétitions adjacentes, appelées séquences répétées en tandem (TRs). Les PRs sont abondantes et ont une importance fonctionnelle fondamentale. De plus de nombreuses études ont démontré l'implication des TRs dans les pathologies humaines. Ainsi, la découverte des PRs et la compréhension de leur relation séquence-structure-fonction, offrent des perspectives de recherche prometteuses.Le développement d’initiatives en génomique structurale, combiné à une meilleure adaptation des techniques de cristallographie et de RMN à l’étude des protéines non globulaires, a permis d’élucider la structure d’un nombre croissant de PRs, d’où la nécessité de mettre en place un système de classification. Les structures répétitives ont été réparties en cinq classes, principalement fondées sur la longueur des TRs: Classe I - agrégats cristallins; Classe II - structures fibreuses; Classe III - structures allongées, dont la stabilité dépend des interactions qui s’établissent entre les motifs répétés. Classe IV - structures répétitives fermées ; Classe V - structures en collier de perles. Les efforts de ces dernières années ont abouti au développement d’outils bioinformatiques utiles à la détection et l'analyse d'éléments répétitifs présents au sein des structures protéiques (3D TRs). En fonction des caractéristiques des répétitions, certaines méthodes fonctionnent mieux que d'autres, mais, jusqu’à présent, aucune ne permettait de couvrir toute la gamme des répétitions. Ce constat nous a incités à développer une nouvelle méthode, appelée détecteur de protéines en tandem (TAPO). TAPO exploite les périodicités des coordonnées atomiques ainsi que d'autres types de représentation structurale, comprenant les chaînes générées par un alphabet conformationnel, les cartes de contact entre résidus, et les arrangements en vecteurs d'éléments de structure secondaire. Actuellement, sept scores, issus des caractéristiques analysées par TAPO, sont combinés à l’aide d’une Machine à Vecteur Support pour produire un score final permettant de différencier les protéines renfermant ou non des 3D TRs. En atteignant 94% de sensibilité et 97% de spécificité pour la référence actuelle, TAPO présente des performances améliorées par rapport aux autres méthodes de pointe. Le développement de TAPO offre de nouvelles opportunités pour l’analyse à grande échelle des protéines renfermant des 3D TRs. Ainsi, notre analyse de la base de données PDB, à l’aide de TAPO, a montré que 19% des protéines contiennent des 3D TRs. L'analyse à grande échelle des structures 3D TRs dans PDB nous a également permis de découvrir plusieurs nouveaux types de structures répétitives, absents de la classification existante et dont certains sont décrits ici.Nous avons entrepris une analyse complète des 3D TRs constitutifs du Rossmann Fold (RF). Notre intérêt pour les RFs a été suscité par le fait que de nombreuses protéines RFs représentent un cas ambigüe vis à vis des structures répétitives et non répétitives. A priori, les unités hélice α - feuillet β des RFs devraient avoir une forte tendance à s’empiler et donc, à former des structures répétitives. Afin de déterminer la fréquence à laquelle les RFs forment de longues unités de répétition empilées, nous avons sélectionné, à l’aide de TAPO, des structures contenant des RFs et les avons classées. Notre analyse montre que les RFs typiques ne peuvent pas être clairement définis comme des structures répétitives mais plutôt comme des unités de structures globulaires, comptant au plus trois répétitions α-β. Des éléments de discussion seront proposés pour tenter d’expliquer cette observation surprenante. / In general, protein structures can be divided into: repetitive and aperiodic structures. Most of the aperiodic structures are globular proteins. The repetitive proteins contain arrays of repeats that are adjacent to each other, called Tandem Repeats (TRs). Proteins containing TRs are abundant and have fundamental functional importance. Numerous studies demonstrated the involvement of such TR-containing proteins in human diseases. Furthermore, genetic instability of these regions can lead to emerging infection threats. Additionally, TR-containing structures have generated significant interest with respect to protein design as they can make excellent scaffolds for specific recognition of target molecules. Therefore, the discovery of these domains, understanding of their sequence–structure–function relationship promises to be a fertile direction for research.The growth of structural genomics initiatives, in combination with improvements in crystallographic and NMR techniques aimed at non-globular proteins, has resulted in an increase in structurally elucidated TR proteins. This has necessitated the development of classification schemes. Structural repeats were broadly divided into five classes mainly based on repeat length; Class I – crystalline aggregates; Class II – fibrous structures such as collagen; Class III – elongated structures where the repetitive units require each other for structural stability such as solenoid proteins; Class IV – closed repetitive structures, such as TIM-barrels and Class V – bead on a string structures such as tandems of Ig-fold domains. Despite this progress, the majority of bioinformatics approaches have focused on non-repetitive globular proteins.In recent years, efforts have been made to develop bioinformatics tools for the detection and analysis of repetitive elements in protein structures (3D TRs). Depending on the size and character of the repeats, some methods perform better than others, but currently no best approach exists to cover the whole range of repeats. This served as a motivation for the development of our method called the TAndem PrOtein detector (TAPO). TAPO exploits, periodicities of atomic coordinates and other types of structural representation, including strings generated by conformational alphabets, residue contact maps, and arrangements of vectors of secondary structure elements. Currently, seven feature based scores produced by TAPO are combined using a Support Vector Machine, producing a score to enable the differentiation between proteins with and without 3D TRs. TAPO shows an improved performance over other cutting edge methods, achieving 94% sensitivity and 97% specificity on the current benchmark. The development of TAPO provided new opportunities for large scale analysis of proteins with 3D TRs. In accordance with our analysis of PDB using TAPO, 19% of proteins contain 3D TRs. The large scale analysis of the 3D TR structures in PDB also allows us to discover several new types of TR structures that were absent in the existing classification. Some of them are described in the thesis manuscript. This suggests that TAPO can be used to regularly update the collection and classification of existing repetitive structures. In particular, a comprehensive analysis of 3D TRs related to Rossmann Fold (RF) was undertaken. Our special interest in RFs was based on the observation that many proteins with RFs represent borderline cases between repetitive and non-repetitive structures. In principle, α-helix-β-strand units of RFs should have a strong potential to stack one over the other, forming repetitive structures. To probe the question of how frequently RFs form long arrays of stacked repeats, we selected by using TAPO known RF-containing structures and classified them. Our analysis shows that typical RFs cannot be clearly defined as repetitive, rather they are part of globular structures with up to 3 αβ-repeats. We provide some explanations for this surprising observation.
|
219 |
Analyses bioinformatiques de la régulation des éléments transposables chez les mammifères / Bioinformatics analysis of transposable elements regulation in mammalsTeissandier, Aurélie 05 October 2018 (has links)
Les éléments transposables sont des séquences d'ADN qui ont la capacité de se déplacer dans le génome. Ils peuvent modifier l’architecture et la régulation du génome, et sont ainsi impliqués dans de nombreux désordres pathologiques, congénitaux ou acquis. L’analyse bioinformatique des éléments transposables dans les données de séquençage est la méthode de choix pour comprendre leur biologie. Mon travail de thèse a été dédié à cette question en utilisant des données réelles et simulées. Dans un premier axe, en utilisant un système cellulaire modulant le niveau de méthylation, nous avons révélé que différentes modifications chromatiniennes répressives assurent la mise sous silence des éléments transposables lorsque la méthylation de l’ADN est perdue. Dans un second axe, à l'aide d'une stratégie de mutagenèse aléatoire, nous avons découvert une nouvelle ADN méthyltransférase, spécialisée dans la méthylation des transposons jeunes au cours de la spermatogenèse. De par la nature répétée des éléments transposables, l'analyse des transposons dans les données de séquençage reste cependant un véritable défi. Finalement, dans un troisième temps, j’ai eu recours à une stratégie de simulation pour comparer les différentes méthodes d’alignement et de quantification dans les génomes murin et humain. J'ai ainsi pu élaborer des recommandations pour l'étude des éléments transposables et révéler les limites de détection de certaines familles de transposons. / Transposable elements are DNA sequences that have the ability to move in the genome. They can modify the architecture and the regulation of the genome, and be implicated in different pathological, congenital or acquired disorders. The transposon analysis with sequencing data is the first choice method to understand their biology. My thesis work was dedicated to this question using real and simulated data. In a first research axis, using a cellular system to modulate DNA methylation levels, we revealed that different repressive chromatin modifications ensure the silencing of transposable elements when DNA methylation is lost. In a second axis, using a random mutagenesis strategy, we discovered a new DNA methyltransferase, specialized in the methylation of young transposons during spermatogenesis. However, the analysis of transposons in sequencing datasets is a bioinformatic challenge because of the repeated nature of transposable elements. Eventually, in a third axis, using a simulation strategy applied to the mouse and the human genomes, I systematically compared different alignment and quantification tools. I was able to draw recommendations for the analysis of transposons and to reveal the limits in detecting specific transposons families.
|
220 |
Genome-scale metabolic modeling of candidate functional starter cultures for cocoa bean fermentationPelicaen, Rudy 06 July 2020 (has links) (PDF)
Cocoa bean fermentation is an essential but spontaneous fermentation process to obtain the necessary raw material for the production of cocoa-derived products, among which chocolate. Successful cocoa bean fermentation processes are typically dominated by three microbial groups, namely yeasts, lactic acid bacteria, and acetic acid bacteria. The use of functional starter cultures may allow to gain a better control over the fermentation process. Previously, a number of candidate functional starter cultures have been proposed for the lactic acid bacteria, namely Lactobacillus fermentum 222 and Lactobacillus plantarum 80, and for the acetic acid bacteria, namely Acetobacter pasteurianus 386B, Acetobacter ghanensis LMG 23848T, and Acetobacter senegalensis 108B. The metabolism of bacteria determines an important part of their physiology, and this is recently being investigated by using computational models. The aim of this PhD thesis was to develop such models for the candidate functional starter cultures for the cocoa bean fermentation process and to perform the related computational analysis. The computational models developed were genome-scale metabolic models, which constitute a comprehensive repertoire of metabolic enzymes with their concomitant reactions, and this at genome-scale. The reconstruction of such models requires a combination of high-quality genome re-annotation, comparative genomics, manual curation, and experimental validation. Genome-scale metabolic modeling together with the use of previously published experimental data under cocoa fermentation conditions allowed to contextualize the experimental data and to gain new insights into the metabolic properties of the candidate functional starter cultures. Simulations with the A. pasteurianus 386B genome-scale metabolic model revealed the metabolic roles of lactate and ethanol, the energetic properties of the strains’ aerobic respiratory chain, and the possible functional role of an NAD(P)+ transhydrogenase. Modeling the metabolite dynamics of A. ghanensis LMG 23848T under cocoa fermentation conditions revealed an alternative strategy for its diauxic growth, compared with A. pasteurianus 386B, which was related to a difference in lactate consumption rate and pyruvate overflow. For A. senegalensis 108B, it was shown that, next to lactic acid, also citric acid could sustain its growth in vitro as the sole carbon source. Furthermore, the absence of the glyoxylate cycle predicted from its genome did not correspond with its species description that reports growth on ethanol as the sole carbon source. For L. fermentum 222 and L. plantarum 80, core genome-scale metabolic models allowed to gain insight into the possible metabolic flux distributions as a function of environmental conditions. The modeling also indicated a current lack in knowledge; for example, concerning the presence and consumption of undefined substrates in the complex medium used.In summary, genome-scale metabolic modelling of candidate functional starter cultures for the cocoa bean fermentation process provided useful in silico tools to gain insight into their metabolic properties at a systemic level. / La fermentation du cacao est un processus essentiel pour obtenir la matière première nécessaire pour la production de produits dérivés du cacao, comme par exemple le chocolat. Une fermentation de cacao favorable est caractérisée par la domination de trois groupes de microorganismes :les levures, les bactéries lactiques, et les bactéries acétiques. L'utilisation de cultures de départ fonctionnelles permet un meilleur contrôle sur le processus de fermentation. En ce qui concerne les bactéries, de nombreuses cultures "starter" ont été proposées, à savoir Lactobacillus fermentum 222 et Lactobacillus plantarum 80 pour les bactéries lactiques et Acetobacter pasteurianus 386B, Acetobacter ghanensis LMG 23848T, et Acetobacter senegalensis 108B pour les bactéries acétiques. Le métabolisme des bactéries constitue une partie importante de leur physiologie et la recherche actuelle se concentre de plus en plus sur la modélisation du métabolisme et la simulation des flux métaboliques par ordinateur. Cette thèse de doctorat a été consacrée au développement et à l'analyse de tels modèles computationnels pour des cultures fonctionnelles "starter" proposés pour la fermentation du cacao.Les modèles qui ont été développés dans cette thèse sont des modèles métaboliques à l’échelle du génome. La reconstruction du réseau métabolique a entraîné la ré-annotation du génome, une étude de génomique comparative, la curation manuelle des annotations et la validation du modèle par des expériences in vitro. La modélisation nous a permis de contextualiser des données expérimentales déjà publiées pour en obtenir de nouvelles informations concernant les propriétés métaboliques des cultures starter. Des simulations utilisant le modèle métabolique de A. pasteurianus 386B ont clarifié les rôles métaboliques de l’acide lactique et de l’éthanol, les propriétés énergétiques de sa chaîne respiratoire, et ont permis d'assigner un rôle possible à une NAD(P)+ transhydrogénase. La modélisation de la dynamique des métabolites provenant d’un milieu de croissance de A. ghanensis LMG 23848T dans des conditions simulant la fermentation du cacao, a mis en évidence une stratégie alternative de croissance biphasique comparé à A. pasteurianus 386B. Ceci est dû à une différence dans le taux de consommation de l’acide lactique et à l’éventuelle production de pyruvate. Pour A. senegalensis 108B, les expériences ont démontré, tant pour l’acide lactique que pour l’acide citrique, que ces sources de carbone permettaient, à elles seules, la croissance de cette bactérie. L’absence du cycle du glyoxylate chez A. senegalensis 108B ne correspondait pas à la description de cette espèce, laquelle pouvant croître sur l’éthanol comme seule source de carbone. Pour L. fermentum 222 et L. plantarum 80, la modélisation de leur métabolisme du carbone a permis d’explorer les distributions de flux métaboliques en fonction des substrats consommés. Les simulations ont aussi révélé le manque de connaissance que nous avons sur ces bactéries lactiques, telle que la consommation de substrats non identifiés venant du milieu de croissance et qui pourrait influencer leur dynamique de croissance.En résumé, la modélisation métabolique à l’échelle du génome des cultures starter proposées pour la fermentation du cacao a permis le développement d’outils in silico qui peuvent être utilisés pour mieux comprendre le métabolisme global de ces souches. / Het cacaoboonfermentatieproces is een essentieel maar spontaan proces dat nodig is om de noodzakelijke grondstof, met name de gefermenteerde cacaobonen, voor de productie van cacao-afgeleide producten, waaronder chocolade, te bekomen. Succesvolle cacaoboonfermentatieprocessen worden typisch gedomineerd door drie microbiële groepen, met name gisten, melkzuurbacteriën en azijnzuurbacteriën. Om meer controle te verkrijgen over het fermentatieproces is het gebruik van functionele starterculturen aangewezen. In vorige studies werd reeds een reeks kandidaat-functionele starterculturen voorgesteld. Voor de melkzuurbacteriën zijn dit Lactobacillus fermentum 222 en Lactobacillus plantarum 80 en voor de azijnzuurbacteriën zijn dit Acetobacter pasteurianus 386B, Acetobacter ghanensis LMG 23848T en Acetobacter senegalensis 108B. Het metabolisme van bacteriën bepaalt in grote mate hun fysiologie, en dit wordt recent onderzocht door middel van computationele modellen. Het ontwikkelen en analyseren van zulke modellen voor de voorgestelde kandidaat-functionele starterculturen vormde het onderwerp van deze doctoraatsthesis.De computationele modellen waarvan sprake waren genoomwijde metabole modellen (GEMs), dewelke het repertoire aan metabole enzymen en de biochemische reacties die zij katalyseren in de bacteriële cellen omvat. De reconstructie van het metabole netwerk op genoomschaal vraagt om een gecombineerde aanpak van hoge-kwaliteit genoomherannotatie, comparatieve genomica en experimentele validatie. De GEMs werden gebruikt om reeds gepubliceerde experimentele data onder cacaofermentatiecondities te contextualiseren en nieuwe inzichten te verkrijgen in de metabole karakteristieken van de kandidaat-functionele starterculturen. Door middel van simulaties met het A. pasteurianus 386B GEM kon de metabole rol van melkzuur en ethanol, en de energetische karakteristieken van de aerobe respiratieketen van deze stam aangetoond worden, alsook de mogelijke metabole functie van een NAD(P)+ transhydrogenase. Het modelleren van de microbiële dynamica van A. ghanensis LMG 23848T onder cacaofermentatiecondities wees op een alternatieve strategie voor de tweevoudige groei van deze stam ten opzichte van de tweevoudige groei van A. pasteurianus 386B onder dezelfde condities, en dit omwille van een verschil in melkzuurconsumptiesnelheid en pyruvaatsecretie. Voor A. senegalensis 108B werd aangetoond dat deze stam, naast melkzuur, ook op citroenzuur als enige koolstofbron kon groeien. De afwezigheid van de glyoxylaatcyclus, voorspeld op basis van het genoom, bij A. senegalensis 108B is in tegenstelling tot de soortbeschrijving, dewelke stipuleert dat deze azijnzuurbacteriesoort in staat is tot groei op ethanol als enige koolstofbron. Voor L. fermentum 222 en L. plantarum 80 leidde de ontwikkeling van GEMs tot nieuwe inzichten in de mogelijke metabole fluxverdelingen, voornamelijk ten aanzien van substraatverbruik. Het modelleren van de microbiële dynamica wees ook op een tekortkoming aan huidige kennis over deze stammen, bijvoorbeeld met betrekking tot het gebruik van ongedefinieerde substraten in een rijk groeimedium.Samenvattend werden door middel van de ontwikkelde GEMs van de kandidaat-functionele starterculturen voor cacaoboonfermentatieprocessen nieuwe inzichten verkregen in hun metabolisme en dit op systeemniveau. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
Page generated in 0.0935 seconds