101 |
Quantification de la relation séquence-activité de l’ARN par prédiction de structure tridimensionnelleSt-Onge, Karine 08 1900 (has links)
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90.
Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte.
Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité.
Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire.
En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation. / Initially, we modeled the structure of an RNA family with a graph grammar to identify sequences that correspond to it. Several other modeling approaches have been developed to derive sequences, such as stochastic context-free grammars, covariance models, secondary structures profiles and constraint networks. These modeling methods are based on secondary structure compared to our graph grammars which are based on the nucleotide cyclic motifs. To exemplify our graph grammar model, we used the loop E of the ribosome that contains the Sarcin-Ricin motif that has been widely studied since its discovery by X-ray crystallography in the early 90s.
We built a graph grammar for the structure of the Sarcin-Ricin motif and derived the sequences that correspond to it. The biological relevance of these sequences is supported by an alignment of 800 bacterial ribosomal sequences. This comparison raised alternative alignments for some of the sequences that we supported by predictions of secondary and tertiary structures. According to a new tertiary structure, those alternative alignments accommodate the new derived sequences.
The nucleotide cyclic motifs used in the grammar were observed by members of our laboratory in RNA tertiary structures that were solved experimentally. We study the sequences and tertiary structures of the nucleotide cyclic motifs of the Sarcin-Ricin motif. This study suggests that the space of sequences depends heavily on interactions between all nucleotides in the nearby three-dimensional space and not only between two adjacent base pairs. We compare the number of sequences generated by the graph grammar with non contextual methods and our graph grammar generates less sequences. This suggests the importance of context for the relationship between sequence and structure, hence the use of a contextual graph grammar is more expressive than context-free grammars.
The graph grammars we used include the tertiary structure but neglect the interactions with extra-molecular factors, such as other macromolecules or ligands. In a second stage and to take into account these interactions, we developed a model incorporating the positioning of chemical groups on the surface of the tertiary structures. The assumption being that the chemical groups that are conserved on the surface of the RNA in active sequences are more likely to be involved in interactions with extra-molecular factors. Continuing with the example of the loop E, we searched the groups that could be involved its interactions with elongation factors. Knowledge of the groups involved in the important interactions serves to predict by three-dimensional modeling new sequences that have potentials to realize these interactions and thus the same function. There are few models that have been developed to address this problem: molecular descriptors, nucleotide adjacency matrices and others based on thermodynamics. These models use an oversimplified representation of the RNA structure, which limits their applicability.
We applied our model to the tertiary structures of a set of variants of a sequence of one instance of the Sarcin-Ricin motif from a bacterial ribosome. Wool and coworkers at the University of Chicago studied this proceeding experimentally by testing the viability of twelve variants. They identified four viable variants and eight lethal. We used this set of twelve sequences for training our model and we identified a set of essential properties to their biological function. For each variant of the training set we built models of tertiary structures. We then measured the partial charges of exposed atoms on the surface and we encoded this information into vectors. We used principal component analysis to transform the vectors into a set of uncorrelated variables, called principal components. Using the weighted Euclidean distance and a nearest neighbor algorithm, we applied the technique of "Leave-One-Out Cross-Validation" to choose the best parameters to predict the activity of a new sequence to match these principal components. Finally, we validated the predictive model using a new set of eight variants whose viability has been verified experimentally in our laboratory.
In conclusion, graph grammars are used to model the relationship between sequence and structure of an RNA structural element, such as the ribosomal loop E containing the Sarcin-Ricin motif. Applications range from the correction of sequence alignment to sequence design with a predetermined structure. We also developed a model to take into account the specific interactions related to a specific biological function. Our model is based on the retention of the exposure of chemical groups that are involved in these interactions. This model has allowed us to predict the biological activity of a set of variants of the loop E that binds to elongation factors.
|
102 |
Estimation des corrélations phylogénétiques entre paramètres d'évolution moléculaire et Traits d'histoire de viePoujol, Raphael 02 1900 (has links)
Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise.
Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome.
Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés. / In recent years, molecular evolution seeks to characterize the variation and intensity of selection through the ratio between non-synonymous and synonymous substitution rates (dN/dS). The dN/dS measure was either used to study the history of the variation of the intensity of selection over time or to detect episodes of positive selection. Correlations between selection and variations of the effective population size interfere in these measurements. The Comparative method can measure correlations between quantitative traits along a phylogeny. They are also be used to test hypotheses of correlated evolution of life history traits, like the body mass, and the substitution rate. We propose an approach combining the comparative method based on the principle of independent contrasts and a model of molecular evolution in a Bayesian probabilistic framework. By integrating along a phylogeny both ancestral reconstructions of lines and of dN/dS we estimate the covariance among traits and between traits and parameters of the model of molecular evolution. A hierarchical model was implemented in the software coevol published during this master. This model allows the simultaneous analysis of multiple genes within a single model. Parallel calculations allow increasing the size of the model to the genome scale.
We studied placental mammals, where many complete genomes and phenotypic measurements are available. Based on theories of life history traits, our method is expected to characterize the association of groups of genes in biological processes related to the studied phenotypes.
|
103 |
A robust algorithm for segmenting fluorescence images and its application to single-molecule countingBoisvert, Jacques 12 1900 (has links)
La microscopie par fluorescence de cellules vivantes produit de grandes quantités de
données. Ces données sont composées d’une grande diversité au niveau de la forme des
objets d’intérêts et possèdent un ratio signaux/bruit très bas. Pour concevoir un pipeline
d’algorithmes efficaces en traitement d’image de microscopie par fluorescence, il
est important d’avoir une segmentation robuste et fiable étant donné que celle-ci constitue
l’étape initiale du traitement d’image. Dans ce mémoire, je présente MinSeg, un
algorithme de segmentation d’image de microscopie par fluorescence qui fait peu d’assomptions
sur l’image et utilise des propriétés statistiques pour distinguer le signal par
rapport au bruit. MinSeg ne fait pas d’assomption sur la taille ou la forme des objets
contenus dans l’image. Par ce fait, il est donc applicable sur une grande variété d’images.
Je présente aussi une suite d’algorithmes pour la quantification de petits complexes dans
des expériences de microscopie par fluorescence de molécules simples utilisant l’algorithme
de segmentation MinSeg. Cette suite d’algorithmes a été utilisée pour la quantification
d’une protéine nommée CENP-A qui est une variante de l’histone H3. Par cette
technique, nous avons trouvé que CENP-A est principalement présente sous forme de
dimère. / Live-cell fluorescence microscopy produces high amounts of data with a high variability
in shapes at low signal-to-noise ratio. An efficient design of image analysis
pipelines requires a reliable and robust initial segmentation step that needs little parameter
fine-tuning. Here, I present a segmentation algorithm called MinSeg for fluorescence
image data that relies on minimal assumptions about the image, and uses statistical considerations
to distinguish signal from background. More importantly, the algorithm does
not make assumptions about feature size or shape, and is thus universally applicable. I
also present a pipeline for the quantification of small complexes with single-molecule
fluorescence microscopy using this segmentation algorithm as the first step of the workflow.
This pipeline was used for the quantification of a small histone H3 variant protein
called CENP-A. We found that the CENP-A nucleosomes are dimers.
|
104 |
Développement d’une méthode bio-informatique permettant de relier les gènes aux métabolitesCherkaoui, Sarah 12 1900 (has links)
L’objectif de ce projet était de faire le lien entre gènes et métabolites afin d’éventuellement proposer des métabolites à mesurer en lien avec la fonction de gènes. Plus particulièrement, nous nous sommes intéressés aux gènes codant pour des protéines ayant un impact sur le métabolisme, soit les enzymes qui catalysent les réactions faisant partie intégrante des voies métaboliques. Afin de quantifier ce lien, nous avons développé une méthode bio-informatique permettant de calculer la distance qui est définie comme le nombre de réactions entre l’enzyme encodée par le gène et le métabolite dans la carte globale du métabolisme de la base de données Kyoto Encyclopedia of Genes and Genomes (KEGG). Notre hypothèse était que les métabolites d’intérêt sont des substrats/produits se trouvant à proximité des réactions catalysées par l’enzyme encodée par le gène. Afin de tester cette hypothèse et de valider la méthode, nous avons utilisé les études d’association pangénomique combinées à la métabolomique (mGWAS) car elles rapportent des associations entre variants génétiques, annotés en gènes, et métabolites mesurés. Plus précisément, la méthode a été appliquée à l’étude mGWAS par Shin et al. Bien que la couverture des associations de Shin et al. était limitée (24/299), nous avons pu valider de façon significative la proximité entre gènes et métabolites associés (P<0,01). En somme, cette méthode et ses développements futurs permettront d’interpréter de façon quantitative les associations mGWAS, de prédire quels métabolites mesurer en lien avec la fonction d’un gène et, plus généralement, de permettre une meilleure compréhension du contrôle génétique sur le métabolisme. / The objective of this project was to link genes and metabolites in order to ultimately predict which metabolites to measure in order to adequately reflect the function of a given gene. Specifically, we were interested in genes, which code for proteins that regulate substrate metabolism, hence enzymes that catalyze reactions that are part of metabolic pathways. In order to quantify this link, we have developed a bioinformatics method to calculate a distance, which is defined as the number of reactions separating a given selected gene-encoded enzyme and its metabolite of interest in Kyoto Encyclopedia of Genes and Genomes (KEGG) database’s metabolic overview map. Our hypothesis was that metabolites of interest are products/substrates found at proximity of the reactions catalyzed by the selected gene-encoded enzyme. In order to test our hypothesis and validate the method, we have used genome-wide association study of metabolites levels (mGWAS) because these studies report associations between genetic variants, annotated to genes, and measured metabolites. More specifically, we used the mGWAS conducted by Shin et al. Even though the coverage of the associations reported by Shin et al. was limited (24/299), we significantly validated the proximity between gene-metabolite associated pairs (P<0.01). Overall, the method and its future developments will allow the quantitative interpretation of mGWAS associations, predict which metabolite to measure with regards to the function of a gene and, in general, enable a better understanding of the genetic control of metabolism.
|
105 |
Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données RfamEl Korbi, Amell 08 1900 (has links)
Les ARN non codants (ARNnc) sont des transcrits d'ARN qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'ARNnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoARN et les microARN (miARN). Les fonctions des ARNnc sont étroitement liées à leurs structures d’où l’importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'ARN. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'ARNnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements « bulge », etc. dans toutes les familles d'ARNnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les « bulges » et nous avons calculé un score d’abondance qui nous a permis d’étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d’ARN telles que l’ARN ribosomal, l’analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d’ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n’ont pas été étudiés auparavant tels que la « tetraloop » UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d’utiliser ces scores pour la conception d’un filtre qui permettrait d’accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d’évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles. / Noncoding RNAs (ncRNAs) are RNA transcripts that are not translated into proteins yet they play important functional roles in the cell including gene regulation, transcription and translation. Among the many categories of ncRNAs that were discovered, we find the well-known ribosomal RNA (rRNA), transfer RNA (tRNA), snoRNA and microRNAs (miRNA). The functions of ncRNAs are tightly linked to their structural features. Thus, understanding and predicting RNA structure as well as developing methods to search for new ncRNAs help to gain insight into these molecules. Technological advances have made available abundant sequence information accessible in databases such as Rfam, which provides alignments and structural information of many ncRNA families. In this research project, we retrieved the information from the Rfam database about the sequences of all secondary structures such as hairpin loops, internal loops, bulges, etc. in all RNA families. A local database, RNAstem, was created to facilitate the use and manipulation of information about secondary structure motifs. We analyzed hairpin loops, bulges and internal loops using the compiled data about the frequencies of occurrence of each loop or bulge and calculated a frequency score. The frequency score is aimed to be an indicator for the abundance of a specific secondary structure motif. While minimizing the bias caused by the high redundancy of some RNA classes as ribosomal RNAs, the frequency score allowed us to identify the rare motifs in each category as well as the common ones. Our findings about the abundant motifs confirm what is already known from previous studies (ex. abundant GNRA or UNCG tetraloops). We found very large gaps between the most abundant and rare RNA structural features. Moreover, we discovered that "A" and "U" dominate single stranded RNA regions, whether they are bulges or loops. We further explored the possibility of using this data to improve current prediction tools for ncRNAs by applying a filter to new candidates. We developed a score system, RNAscore, that evaluates RNAs depending on their motif contents and we tested the program with many different controls.
|
106 |
Aspects algorithmiques de la comparaison d'éléments biologiques / Algorithmics aspects of biological entities comparisonSikora, Florian 30 September 2011 (has links)
Pour mieux saisir les liens complexes entre génotype et phénotype, une méthode utilisée consiste à étudier les relations entre différents éléments biologiques (entre les protéines, entre les métabolites...). Celles-ci forment ce qui est appelé un réseau biologique, que l'on représente algorithmiquement par un graphe. Nous nous intéressons principalement dans cette thèse au problème de la recherche d'un motif (multi-ensemble de couleurs) dans un graphe coloré, représentant un réseau biologique. De tels motifs correspondent généralement à un ensemble d'éléments conservés au cours de l'évolution et participant à une même fonction biologique. Nous continuons l'étude algorithmique de ce problème et de ses variantes (qui admettent plus de souplesse biologique), en distinguant les instances difficiles algorithmiquement et en étudiant différentes possibilités pour contourner cette difficulté (complexité paramétrée, réduction d'instance, approximation...). Nous proposons également un greffon intégré au logiciel Cytoscape pour résoudre efficacement ce problème, que nous testons sur des données réelles.Nous nous intéressons également à différents problèmes de génomique comparative. La démarche scientifique adoptée reste la même: depuis une formalisation d'un problème biologique, déterminer ses instances difficiles algorithmiquement et proposer des solutions pour contourner cette difficulté (ou prouver que de telles solutions sont impossibles à trouver sous des hypothèses fortes) / To investigate the complex links between genotype and phenotype, one can study the relations between different biological entities. It forms a biological network, represented by a graph. In this thesis, we are interested in the occurrence of a motif (a multi-set of colors) in a vertex-colored graph, representing a biological network. Such motifs usually correspond to a set of elements realizing a same function, and which may have been evolutionarily preserved. We follow the algorithmic study of this problem, by establishing hard instances and studying possibilities to cope with the hardness (parameterized complexity, preprocessing, approximation...). We also develop a plugin for Cytoscape, in order to solve efficiently this problem and to test it on real data.We are also interested in different problems related to comparative genomics. The scientific method is the same: studying problems arising from biology, specifying the hard instances and giving solutions to cope with the hardness (or proving such solutions are unlikely)
|
107 |
Méthodes sémantiques pour la comparaison inter-espèces de voies métaboliques : application au métabolisme des lipides chez l'humain, la souris et la poule / Semantic methods for the cross-species metabolic pathways comparison : application to human, mice and chicken lipid metabolismBettembourg, Charles 16 December 2013 (has links)
La comparaison inter-espèces de voies métaboliques est une problématique importante en biologie. Actuellement, les connaissances sont générées à partir d'expériences sur un nombre relativement limité d'espèces dites modèles. Mieux connaître une espèce permet de valider ou non une inférence faite à partir de ces données expérimentales et de déterminer si ou dans quelle mesure des résultats obtenus sur une espèce modèle peuvent être transposés à une autre espèce. Cette thèse propose une méthode de comparaison inter-espèces de voies métaboliques. Elle compare chaque étape d'une voie métabolique en exploitant les annotations dans Gene Ontology qui leur sont associées. Ce travail valide l'intérêt des mesures de similarités sémantiques pour interpréter ces annotations, propose d'utiliser conjointement une mesure de particularité sémantique et propose une méthode basée sur des motifs de similarité et de particularité pour interpréter chaque étape de voie métabolique. De nombreuses mesures sémantiques quantifient la similarité entre des produits de gènes en fonction des annotations qu'ils ont en commun. Nous en avons identifié et utilisé une adaptée à la problématique de comparaison inter-espèces. En se focalisant sur la part commune aux produits de gènes comparés, les mesures de similarité sémantiques ignorent les caractéristiques spécifiques d'un seul produit de gène. Or la comparaison inter-espèces de voies métaboliques se doit de quantifier non seulement la similarité des produits de gènes qui interviennent dans celles-ci, mais également leurs particularités. Nous avons développé une mesure de particularité sémantique répondant à cette problématique. Pour chaque étape de voie métabolique, nous calculons un profil composé de sa valeur de similarité et de ses deux valeurs de particularité sémantiques. Il n'est pas possible d'établir formellement que deux produits de gènes sont similaires ou que l'un d'eux a des particularités significatives sans disposer d'un seuil de similarité et d'un seuil de particularité. Jusqu'à présent, ces interprétations se faisaient sur la base d'un seuil implicite ou arbitraire. Pour combler ce manque, nous avons développé une méthode de définition de seuils pour les mesures de similarité et de particularité sémantiques. Nous avons enfin appliqué une mesure de similarité inter-espèces et notre mesure de particularité pour comparer le métabolisme des lipides entre l'Homme, la souris et la poule. Nous avons pu interpréter les résultats à l'aide des seuils que nous avions définis. Chez les trois espèces, des particularités ont pu être observées, y compris au niveau de produits de gènes similaires. Elles concernent notamment des processus biologiques et des composants cellulaires. Les fonctions moléculaires présentent une forte similarité et peu de particularités. Ces résultats sont biologiquement pertinents. / Cross-species comparison of metabolic pathways is an important task in biology. It is a major stake for both human health and agronomy. Currently, knowledge is acquired from some experiments on a relatively low number of species referred to as ``models''. A better understanding of a species determines whether to validate or not an inference made from these experimental data. It also determines whether or to what extent results obtained on model species can be transposed to another species. This thesis proposes a cross-species metabolic pathways comparison method. Our method compares each step of a metabolic pathway using the associated Gene Ontology annotations. This work validates the interest of the semantic similarity measures for interpreting these annotations, proposes to use jointly a semantic particularity measure and proposes a method based on similarity and particularity patterns to interpret each metabolic pathway step. Several gene products are involved throughout a metabolic pathway. They are associated to some annotations in order to describe their biological roles. Based on a shared ontology, these annotations allow to compare data from different species and to take into account several level of abstraction. Several semantic measures quantifying the similarity between gene products from their annotations have been developed previously. We have identified and used a semantic similarity measure appropriate for cross-species comparisons. Because they focus on the common part of the compared gene products, the semantic similarity measures ignore their specific characteristics. Therefore, cross-species metabolic pathways comparison has to quantify not only the similarity of the gene products involved, but also their particularity. We have developed a semantic particularity measure addressing this issue. For each pathway step, we proposed to create a profile combining its semantic similarity and its two semantic particularity values. Concerning the results interpretation, it is not possible to establish formally that two gene products are similar or that one of them have some significant particularities without having a similarity threshold and a particularity threshold. So far, these interpretations were based on an implicit or an arbitrary threshold. To address this gap, we developed a threshold definition method for the semantic similarity and particularity measures. We last applied a cross-species similarity measure and our particularity measure to compare the lipid metabolism between human, mice and chicken. We then interpreted the results using the previously defined thresholds. In all three species, we observed some particularities, including on similar genes. They concerned notably some biological processes and cellular components. The molecular functions present a strong similarity and few particularities. These results are biologically relevant.
|
108 |
Modélisation, purification et caractérisation des modules et domaines de la PI4KA humaine / Molecular modeling, purification and characterisation of the human PI4KA modules and domainsTaveneau, Cyntia 08 September 2015 (has links)
La phosphatidylinositol-4-kinase de type IIIα est une kinase de lipide eukaryote ubiquitaire qui synthétise le phosphatidylinositol-4-phosphate PtdIns(4)P de la membrane plasmique. Ce phosphoinositide est d’autant plus important qu’il tient un rôle majeur dans différentes voies de signalisation cellulaire, le traffic vésiculaire ainsi que dans l’identité des organelles. De plus, la PIK4A humaine est un facteur essentiel pour la réplication du virus de l’hépatite C (VHC). En effet, le recrutement du complexe de réplication du VHC par la protéine virale NS5A à la membrane du reticulum endoplasmique permet la formation d’un réseau membranaire à l’origine de la structuration des complexes de replication viraux.La PI4KA est une kinase imposante (2102 résidus, 240 kDa pour la PI4KA humaine) qui possède un domaine kinase C-terminal d’environ 400 résidus précédé d’un domaine formé de répétitions Armadillo pour lequel aucune fonction n’a été determinée. Le rôle ainsi que le repliement des 1500 résidus N-terminaux de PI4KA ne sont pas connus à ce jour.Afin d’en savoir plus sur la structure tri-dimensionnelle de la PI4KA humaine, nous avons utilisé des outils bio-informatiques afin de délimiter et de modéliser les modules et domaines la composant. Nous avons pu ainsi les exprimer et les produire en bactérie et en cellules d’insecte afin de vérifier nos hypothèses. Nous avons pu conclure que PI4KA est composée de deux modules. Le module N-terminal (1100 résidus), est composé de deux domaines dont un solénoïde α. Les résultats obtenus par diffusion des rayons X aux petits angles (SAXS) nous permettent de définir leur agencement potentiel. Le second module (1000 résidus), le module C-terminal, est l’enzyme-core. Son analyse nous a permis d’identifier une similitude remarquable avec les sérine/thréonine kinases PIKKs, comme mTor, apparentées aux phosphatidylinositol-3-kinases. Nous avons défini au début du module C-terminal de PI4KA trois domaines putatifs que nous avons nommés DI, DII et DIII. Nos collaborateurs ont montré qu'ils sont essentiels à l’activité kinase de la protéine ainsi qu’à la replication du VHC. Le domaine DI a été caractérisé et a permis la validation d’une nouvelle paramétrisation de la molécule de N, N-dimethyl-dodecylamine oxide (LDAO) pour des simulations de dynamique moléculaire. Enfin, la PI4KA humaine dans son entier a été exprimée en cellules d’insecte puis purifiée, et un premier test d’interaction avec les membranes a été initié. / The eukaryotic lipid kinase phosphatidylinositol 4-kinase III alpha is a ubiquitous enzyme that synthesizes the plasma membrane pool of phosphatidylinositol 4-phosphate. This important phosphoinositide has key roles in different signalization pathways, vesicular traffic and cellular compartment identity. Moreover, PI4KA is an essential factor for hepatitis C virus (HCV) replication. Indeed, PI4KA's interaction with the non-structural HCV protein NS5A at the endoplasmic reticulum membrane leads to formation of a “membranous web” giving to the membrane the signature necessary to the formation of viral replication machineryPI4KA is a large protein (2102 residues, 240 kDa for human PI4KA) with the kinase domain making up the ca 400 C-terminal residues preceded by an Armadillo domain for which no function is known. There is essentially no structural information about the 1500 N-terminal residues and no clue as to the function of most of this region of PI4KA.We use computational methods in order to delineate fragments of human PI4KA amenable to soluble production in Escherichia coli and insect cells. We clone and express these fragments and evaluate the soluble fraction of each construction. Our results further suggest that PI4KA can be described as a two-module protein. The N-terminal module (1100 residues), is composed of two domains which one is an alpha solenoid. Their potential arrangement was defined by small angle X-ray scattering (SAXS).The second module (1000 residues), the C-terminal module, is the core enzyme. Its analysis leads us to identify similarities with the serine/threonine kinases PIKKs, as mTor, homologous to phosphatidylinositol-3-kinases. Three putative domains were delineate at the beginning of this C-terminal module. We name the DI, DII and DIII. Our collaborators have shown their necessity to the kinase activity of PI4KA and the HCV replication. DI domain was characterized and allowed the validation of a new parametrization of the N, N-dimethyl-dodecylamine oxide molecule (LDAO) for simulation of molecular dynamics. Finally, the full-length human PI4KA was expressed in insect cells, purified and a first interaction experiment with membranes have been initiated.
|
109 |
Analyzing molecular network perturbations in human cancer: application to mutated genes and gene fusions involved in acute lymphoblastic leukemiaHajingabo, Leon 30 January 2015 (has links)
Le séquençage du génome humain et l'émergence de nouvelles technologies de génomique à haut débit, ont initié de nouveaux modèles d'investigation pour l'analyse systématique des maladies humaines. Actuellement, nous pouvons tenter de comprendre les maladies tel que le cancer avec une perspective plus globale, en identifiant des gènes responsables des cancers et en étudiant la manière dont leurs produits protéiques fonctionnent dans un réseau d’interactions moléculaires. Dans ce contexte, nous avons collecté les gènes spécifiquement liés à la Leucémie Lymphoblastique Aiguë (LLA), et identifié de nouveaux partenaires d'interaction qui relient ces gènes clés associés à la LLA tels que NOTCH1, FBW7, KRAS et PTPN11, dans un réseau d’interactions. Nous avons également tenté de prédire l’impact fonctionnel des variations génomiques tel que des fusions de gènes impliquées dans LLA. En utilisant comme modèles trois différentes translocations chromosomiques ETV6-RUNX1 (TEL-AML1), BCR-ABL1, et E2A-PBX1 (TCF3-PBX1) fréquemment identifiées dans des cellules B LLA, nous avons adapté une approche de prédiction d’oncogènes afin de prédire des perturbations moléculaires dans la LLA. Nous avons montré que les circuits transcriptomiques dépendant de Myc et JunD sont spécifiquement dérégulés suite aux fusions de gènes TEL-AML1 et TCF3-PBX1, respectivement. Nous avons également identifié le mécanisme de transport des ARNm dépendant du facteur NXF1 comme une cible directe de la protéine de fusion TCF3-PBX1. Grâce à cette approche combinant les données interactomiques et les analyses d'expression génique, nous avons fourni un nouvel aperçu à la compréhension moléculaire de la Leucémie Lymphoblastique Aiguë. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
110 |
Modalités de régulation d’ERα36 et leurs conséquences sur la physiopathologie de la glande mammaire / Modalities of ERα36 regulation and their consequences on the pathophysiology of the mammary glandThiebaut, Charlène 30 September 2019 (has links)
Les récepteurs nucléaires aux œstrogènes, ERα66 et ERβ1, sont les principaux médiateurs des effets des œstrogènes. Ces hormones régulent le développement physiologique de la glande mammaire mais participent aussi à la progression du cancer sein. L’expression d’ERα66 est d’ailleurs utilisée dans la classification moléculaire des tumeurs mammaires afin d’orienter la stratégie thérapeutique. Depuis son clonage, le variant des récepteurs alpha aux œstrogènes, ERα36, a été principalement décrit dans la littérature pour son rôle dans la progression des tumeurs mammaires et dans l’acquisition de résistances aux anti-œstrogènes comme le Tamoxifène. Si une forte expression d’ERα36 dans les cellules cancéreuses mammaires apparaît nettement comme un facteur de mauvais pronostic, peu de données sont disponibles concernant son rôle dans le développement de la glande mammaire saine. C’est pourquoi le premier objectif de ce travail était de déterminer le rôle d’ERα36 dans le développement physiologique de cette glande. Grâce à une approche pluridisciplinaire, incluant des études in vivo sur un modèle de souris transgéniques MMTV-ERα36 et des études in vitro et in silico sur des cellules épithéliales mammaires immortalisées, nous avons montré que l’expression d’ERα36 perturbe le phénotype des cellules épithéliales mammaires et conduit à l’apparition d’altérations structurales des canaux mammaires à l’âge adulte. De plus, nous avons mis en évidence que les alkylphénols, qui sont des perturbateurs endocriniens œstrogèno-mimétiques, stimulent l’expression endogène de ce variant dans les cellules MCF-10A et augmentent leurs capacités migratoires sans pour autant amplifier les effets d’ERα36 sur l’histologie des canaux mammaires. En parallèle, afin de mieux comprendre l’implication d’ERα36 au moment de l’initiation et de la progression tumorale, nous avons étudié les modalités de régulation de l’expression de ce variant dans les cellules cancéreuses mammaires. Les résultats obtenus indiquent que l’expression d’ERα36 est positivement corrélée au statut de méthylation de sa région promotrice et que l’ARNm codant ce variant est la cible d’hsa-miR136-5p. Enfin, le dernier objectif de ce travail était de développer une approche visant à identifier in silico de nouveaux partenaires d’ERα36. L’ensemble de ce travail s’inscrit dans une démarche de raffinement de la classification moléculaire actuelle des tumeurs mammaires en y ajoutant une composante associée à l’expression d’ERα36. / The estrogen nuclear receptors, represented by the canonical forms ERα66 and ERβ1, are the main mediators of the estrogenic effects in mammals. These hormones, which regulate the physiological development of the mammary gland, participate in the initiation and progression of breast cancer. In fact, ERα66 expression is a key molecular classifier of breast tumors used in order to guide the therapeutic strategies toward hormonotherapy. However, in 30% of cases, therapeutic failures are observed, which highlights the importance of identifying new biomarkers. The estrogen receptor variant, ERα36, has been cloned in 2005 and mainly described in the literature to be involved in the progression of mammary tumors and in the acquired resistance to anti-estrogen drugs, such as Tamoxifen. Even if a high expression of ERα36 in breast cancer cells appears to be associated with a poor prognosis, few data are available concerning its role in the normal development of the mammary gland. Therefore, the aim of this work was to determine the role of ERα36 in the physiological development of the mammary gland. Thanks to a multidisciplinary approach, that combines in vivo studies on MMTV-ERα36 transgenic mice, and in vitro and in silico studies on immortalized normal epithelial mammary cells (MCF-10A), we showed that ERα36 expression is sufficient to disturb the mammary epithelial cells phenotype, leading to the emergence of structural alterations of mammary ducts at adulthood. Moreover, we showed that exposure to the estrogen mimicking compounds alkylphenols stimulates the endogenous expression of this variant in MCF-10A cells, and increases their migratory ability. Then, in order to get a better understanding of ERα36 contribution to tumor initiation and/or progression, we studied classical and epigenetic regulation of this variant expression in breast cancer cells. Our results show that ERα36 expression is positively correlated with the methylation status of its promoter region, and that the ERα36 mRNA is the target of the microRNA, has-miR-136-5p. Finally, the last aim of this work was to develop a bioinformatic approach in order to study the ERα36 partners. To summarize, all of this work falls within a need of the current breast tumor molecular classification refinement by adding a component related with ERα36 expression.
|
Page generated in 0.0995 seconds