Global ETD Search

71	Approches bio-informatiques appliquées aux technologies émergentes en génomique Lemieux Perreault, Louis-Philippe 02 1900 (has links) Les études génétiques, telles que les études de liaison ou d’association, ont permis d’acquérir une plus grande connaissance sur l’étiologie de plusieurs maladies affectant les populations humaines. Même si une dizaine de milliers d’études génétiques ont été réalisées sur des centaines de maladies ou autres traits, une grande partie de leur héritabilité reste inexpliquée. Depuis une dizaine d’années, plusieurs percées dans le domaine de la génomique ont été réalisées. Par exemple, l’utilisation des micropuces d’hybridation génomique comparative à haute densité a permis de démontrer l’existence à grande échelle des variations et des polymorphismes en nombre de copies. Ces derniers sont maintenant détectables à l’aide de micropuce d’ADN ou du séquençage à haut débit. De plus, des études récentes utilisant le séquençage à haut débit ont permis de démontrer que la majorité des variations présentes dans l’exome d’un individu étaient rares ou même propres à cet individu. Ceci a permis la conception d’une nouvelle micropuce d’ADN permettant de déterminer rapidement et à faible coût le génotype de plusieurs milliers de variations rares pour un grand ensemble d’individus à la fois. Dans ce contexte, l’objectif général de cette thèse vise le développement de nouvelles méthodologies et de nouveaux outils bio-informatiques de haute performance permettant la détection, à de hauts critères de qualité, des variations en nombre de copies et des variations nucléotidiques rares dans le cadre d’études génétiques. Ces avancées permettront, à long terme, d’expliquer une plus grande partie de l’héritabilité manquante des traits complexes, poussant ainsi l’avancement des connaissances sur l’étiologie de ces derniers. Un algorithme permettant le partitionnement des polymorphismes en nombre de copies a donc été conçu, rendant possible l’utilisation de ces variations structurales dans le cadre d’étude de liaison génétique sur données familiales. Ensuite, une étude exploratoire a permis de caractériser les différents problèmes associés aux études génétiques utilisant des variations en nombre de copies rares sur des individus non reliés. Cette étude a été réalisée avec la collaboration du Wellcome Trust Centre for Human Genetics de l’University of Oxford. Par la suite, une comparaison de la performance des algorithmes de génotypage lors de leur utilisation avec une nouvelle micropuce d’ADN contenant une majorité de marqueurs rares a été réalisée. Finalement, un outil bio-informatique permettant de filtrer de façon efficace et rapide des données génétiques a été implémenté. Cet outil permet de générer des données de meilleure qualité, avec une meilleure reproductibilité des résultats, tout en diminuant les chances d’obtenir une fausse association. / Genetic studies, such as linkage and association studies, have contributed greatly to a better understanding of the etiology of several diseases. Nonetheless, despite the tens of thousands of genetic studies performed to date, a large part of the heritability of diseases and traits remains unexplained. The last decade experienced unprecedented progress in genomics. For example, the use of microarrays for high-density comparative genomic hybridization has demonstrated the existence of large-scale copy number variations and polymorphisms. These are now detectable using DNA microarray or high-throughput sequencing. In addition, high-throughput sequencing has shown that the majority of variations in the exome are rare or unique to the individual. This has led to the design of a new type of DNA microarray that is enriched for rare variants that can be quickly and inexpensively genotyped in high throughput capacity. In this context, the general objective of this thesis is the development of methodological approaches and bioinformatics tools for the detection at the highest quality standards of copy number polymorphisms and rare single nucleotide variations. It is expected that by doing so, more of the missing heritability of complex traits can then be accounted for, contributing to the advancement of knowledge of the etiology of diseases. We have developed an algorithm for the partition of copy number polymorphisms, making it feasible to use these structural changes in genetic linkage studies with family data. We have also conducted an extensive study in collaboration with the Wellcome Trust Centre for Human Genetics of the University of Oxford to characterize rare copy number definition metrics and their impact on study results with unrelated individuals. We have conducted a thorough comparison of the performance of genotyping algorithms when used with a new DNA microarray composed of a majority of very rare genetic variants. Finally, we have developed a bioinformatics tool for the fast and efficient processing of genetic data to increase quality, reproducibility of results and to reduce spurious associations. Bio-informatique Micropuces d’ADN Nettoyage de données génétiques Bioinformatics Copy number variations and polymorphisms DNA microchip Genetic data quality control
72	Méthodologie pour l’analyse de données de criblage : application à l'étude de la leucémie myéloïde aiguë Labelle, Caroline 04 1900 (has links) No description available. Régression non-linaire Simulation Monte-Carlo Ré-échantillonnage Bootstrap Criblage à haut débit Leucémie myéloïde aiguë Bio-informatique Nonlinear regression Monte-Carlo simulation Bootstrap resample High throughput screen Acute myeloid leukemia Bioinformatics
73	Modélisation dynamique de la signalisation cellulaire : aspects différentiels et discrets; application à la signalisation du facteur de croissance TGF-beta dans le cancer Andrieux, Geoffroy 18 July 2013 (has links) (PDF) La signalisation cellulaire regroupe l'ensemble des mécanismes biologiques permettant à une cellule de répondre de façon adaptée à son microenvironnement. Pour ce faire, de nombreuses réactions biologiques entrent en jeux avec un important enchevêtrement, créant ainsi un réseau dont le comportement s'apparente à un système complexe. Le compréhension de la réponse cellulaire à une stimulation passe par le développement conjoint des techniques d'acquisition de données, et des méthodes permettant de formaliser ces données dans un modèle. C'est sur ce dernier point que s'inscrivent les travaux exposés dans cette thèse. Nous présentons ici deux approches visant à répondre à des questions de natures différentes sur la signalisation cellulaire. Dans la première nous utilisons un modèle différentiel pour étudier le rôle d'un nouvel interactant dans la voie canonique du TGF-beta. Dans la seconde nous avons exploré la combinatoire de la signalisation cellulaire en développant un formalisme discret basé sur les transitions gardées. Cette approche regroupe l'interprétation de la base de données Pathway Interaction Database dans un unique modèle dynamique de propagation du signal. Des méthodes de simulations et d'analyses inspirées des techniques de vérification de modèles telles que l'atteignabilité et l'invariance ont été développées. En outre, nous avons étudié la régulation du cycle cellulaire en réponse à la signalisation, ainsi que la régulation des gènes de notre modèle en comparaison avec des données d'expressions. biologie systémique transduction du signal cellulaire systèmes dynamiques bioinformatique
74	Ordres et désordres dans l'algorithmique du génome Bulteau, Laurent 11 July 2013 (has links) (PDF) Dans cette thèse, nous explorons la complexité algorithmique de plusieurs problèmes issus de la génomique comparative, et nous apportons des solutions à certains de ces problèmes sous la forme d'algorithmes d'approximation ou paramétrés. Le dénominateur commun aux problèmes soulevés est la mise en commun d'informations génomiques provenant de plusieurs espèces dans le but de tirer des conclusions pertinentes pour l'étude de ces espèces. Les problèmes de tri par transpositions et de tri par inversions pré xes permettent de retrouver l'histoire évolutive des deux espèces. Les problèmes de distance exemplaire et de plus petite partition commune ont pour but de comparer deux génomes dans les cas algorithmiquement di ciles où chaque gène apparait avec plusieurs copies indistinguables dans le génome. En n, les problèmes d'extraction de bandes et de linéarisation visent à préciser ou corriger l'information génomique a n qu'elle soit plus pertinente pour des traitements ultérieurs. Les résultats principaux que nous présentons sont la NP-di culté des problèmes de tri (par transpositions et par inversions pré xes) dont la complexité est restée longtemps une question ouverte; une étude complète de la complexité du calcul des distances exemplaires; un algorithme paramétré pour le calcul de plus petite partition commune (avec un unique paramètre étant la taille de la partition); une étude à la fois large et approfondie des problèmes d'extraction de bandes et en n une nouvelle structure de données permettant de résoudre plus e cacement le problème de linéarisation. Génomique comparative Théorie de la complexité Algorithmes paramétrés Approximabilité
75	Predictive analysis of dynamical systems: combining discrete and continuous formalisms Chaves, Madalena 24 October 2013 (has links) (PDF) The mathematical analysis of dynamical systems covers a wide range of challenging problems related to the time evolution, transient and asymptotic behavior, or regulation and control of physical systems. A large part of my work has been motivated by new mathematical questions arising from biological systems, especially signaling and genetic regulatory networks, where the classical methods usually don't directly apply. Problems include parameter estimation, robustness of the system, model reduction, or model assembly from smaller modules, or control of a system towards a desired state. Although many different formalisms and methodologies can be used to study these problems, in the past decade my work has focused on discrete and hybrid modeling frameworks with the goal of developing intuitive, computationally amenable, and mathematically rigorous, methods of analysis. Discrete (and, in particular, Boolean) models involve a high degree of abstraction and provide a qualitative description of the systems' dynamics. Such models are often suitable to represent the known interactions in gene regulatory networks and their advantage is that a large range of theoretical analysis tools are available using, for instance, graph theoretical concepts. Hybrid (piecewise affine) models have discontinuous vector fields but provide a continuous and more quantitative description of the dynamics. These systems can be analytically studied in each region of an appropriate partition of the state space, and the full solution given as a concatenation of the solutions in each region. Here, I will introduce the two formalisms and then, using several examples, illustrate how a combination of different formalisms permits comparison of results, as well as gaining quantitative knowledge and predictive power on a biological system, through the use of complementary mathematical methods. dynamical systems discrete models piecewise affine models biological networks
76	Vers une compréhension globale et systémique de la production des protéines chez les procaryotes Leoncini, Emanuele 17 December 2013 (has links) (PDF) Les réactions biochimiques sous-jacentes au fonctionnement des cellules sont des processus intrinsèquement stochastiques. En conséquence, le fonctionnement de la cellule, considérée comme un système, est aléatoire en raison des fluctuations de ses composantes fondamentales. Parmi ces dernières se trouvent les protéines, qui jouent un rôle majeur dans les cellules. Le caractère stochastique des protéines est tel qu'il est même responsable des différences observées dans le phénotype et ce même dans le cas de cellules clonées exposées à des conditions environnementales identiques. Dans ce travail de thèse nous avons mis en place un nouveau cadre mathématique basé sur les Processus Ponctuels de Poisson Marqués (MPPP) pour décrire les principales étapes de la production d'une protéine spécifique. Avec ce cadre, nous avons réussi à surmonter l'hypothèse fondamentale et restrictive des modèles classiques, ce qui exige une durée exponentielle de toutes les étapes. La description non-markovienne de l'expression génétique obtenue a permis de proposer un modèle plus réaliste comprenant l'étape d'élongation de la protéine et de la dilution des protéines en raison de la croissance du volume. Nous avons également proposé une première modélisation de la production de plusieurs protéines en considérant les interactions comme le résultat de la compétition pour des ressources communes. Le système de production est étudié par une approche de champ moyen. En conclusion, la thèse a porté sur l'étude de la nature stochastique de l'expression génétique, en développant différents modèles afin de progresser vers une description plus réaliste des phénomènes. [MATH:MATH_PR] Mathematics/Probability biologie mathématique expression stochastique des gènes processus stochastiques biologie des systèmes
77	Modèles bio-informatiques pour les peptides non-ribosomiques et leurs synthétases Pupin, Maude 03 December 2013 (has links) (PDF) Je présente dans ce mémoire de HDR le travail pionnier de la bio-informatique pour les peptides non-ribosomiques (PNR). Ces recherches ont été initiées sur Lille en 2006 et ont abouti à l'unique plate-forme d'analyse bio-informatique des PNR appelée Norine, dont je suis un des membres fondateurs. Les peptides non-ribosomiques font partie des petites molécules produites par les micro-organismes, bactéries et fungi, pour coloniser leur milieu. Ces peptides particuliers ont l'avantage d'avoir une grande variété de structures. En effet, ils peuvent être linéaires, mais aussi contenir des cycles et/ou des branchements et sont composés de plus de 500 briques de base différentes. Cette variété provient de leur synthèse réalisée par de gros complexes enzymatiques, les synthétases peptidiques non-ribosomiques (PNRS). Ceux-ci sélectionnent les acides aminés et d'autres composés, appelés monomères, puis les assemblent en formant des liaisons peptidiques et d'autres liaisons. Ainsi, les peptides non-ribosomiques présentent une grande diversité d'activités telles que antibiotique, anti-cancéreux ou immuno-suppresseur. Certains, comme la pénicilline, sont des médicaments employés fréquemment. Dans une première partie, je propose un regard différent sur les synthétases en associant les particularités des peptides aux fonctions enzymatiques nécessaires à les réaliser. Puis, je décris les principales étapes nécessaires à la conception d'un outil d'analyse des séquences protéiques de PNRS en précisant les particularités des outils existants. Ensuite, je présente ma contribution à l'exploration du potentiel de synthèse de PNR à partir de séquences génomiques ou protéiques à travers ma participation à la mise au point d'un protocole d'analyses bio-informatiques et à l'annotation de plusieurs génomes. Dans une seconde partie, je commence par préciser les apports de la plate-forme Norine sur la compréhension de la diversité des peptides non-ribosomiques, complétés par une étude de la chimie de ces molécules. Ensuite, je présente les quelques bases de données et outils en relation avec ces peptides, qui sont développés par ailleurs. Puis, je présente la plate-forme Norine en exposant mes contributions et en proposant la modernisation du processus de collecte des données et l'évolution des fonctionnalités d'interrogation via les structures peptidiques. Je termine par la présentation d'une nouvelle perspective : la chémo-informatique dédiée aux peptides non-ribosomiques avec pour objectif la prédiction d'une ou plusieurs synthétases capables de produire un peptide ayant une activité cible. [CHIM:CHEM] Chimie/Chemo-informatique base de données biologiques peptides non-ribosomiques comparaison de graphes prédiction d'activité
78	Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomique Courcelles, Mathieu 12 1900 (has links) La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques. Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions. Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine. Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle. / Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies. In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions. An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein. Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method. Bio-informatique Base de données biologiques Erk Kinase Phosphorylation Protéomique quantitative Signalisation cellulaire Spectrométrie de masse Bioinformatics Biological database Mass spectrometry Phosphoproteomics Quantitative proteomics Signaling pathway Phosphoprotéomique
79	Analyse des systèmes bactériens: une approche in silico pour intégrer les connaissances du vivant Bordron, Philippe 27 March 2012 (has links) (PDF) L'émergence des expériences dites à haut débit permet l'acquisition rapide de données concernant un système biologique. Les biologistes disposent ainsi, aujourd'hui, d'un nombre important de données de natures hétérogènes qu'ils cherchent à structurer et analyser. Les méthodes dites intégratives proposent de répondre à cette demande, mais la création d'une méthode générale et satisfaisant les requêtes précises des biologistes constitue une tâche ardue. Ce mémoire s'inscrit dans cette problématique. Nous y abordons diverses méthodes d'intégration des aspects omiques (métaboliques, génomiques, transcriptomiques...) d'un système bactérien et nous proposons la nôtre, nommée SIPPER, qui est une méthode générique et flexible. SIPPER permet de retrouver de l'information biologique cohérente entre les différents aspects étudiés grâce à la construction d'un modèle intégratif et l'utilisation d'une distance reposant sur des propriétés ou hypothèses biologiques choisies. Nous avons appliqué SIPPER deux fois sur les données métaboliques et génomiques d'E. coli. La première application teste l'hypothèse "les chaînes de réactions successives du réseau métabolique sont catalysées à l'aide d'enzymes produites par des gènes proches sur le génome", et la seconde teste l'hypothèse "les chaînes de réactions successives sont catalysées par des gènes dont l'expression est similaire". Nous avons découvert, par ces expériences, des mesures caractérisant certaines entités biologiques comme la densité génomique qui permet l'identification d'opérons métaboliques. L'apport de l'intégration de données supplémentaires aux approches n'utilisant traditionnellement qu'un seul type d'information a également été illustré au travers de la génomique comparative. Nous avons ainsi élaboré M&W-IISCS_M, une méthode qui calcule des intervalles communs maximaux ayant un fort intérêt omique. biologie intégrative informations omiques plus courts chemins opérons modules métaboliques génomique comparative intervalles de gènes intervalles communs
80	Évolution du VIH : méthodes, modèles et algorithmes Jung, Matthieu 21 May 2012 (has links) (PDF) La donnée de séquences nucléotidiques permet d'inférer des arbres phylogénétiques, ou phylogénies, qui décrivent leurs liens de parenté au cours de l'évolution. Associer à ces séquences leur date de prélèvement ou leur pays de collecte, permet d'inférer la localisation temporelle ou spatiale de leurs ancêtres communs. Ces données et procédures sont très utilisées pour les séquences de virus et, notamment, celles du virus de l'immunodéficience humaine (VIH), afin d'en retracer l'histoire épidémique à la surface du globe et au cours du temps. L'utilisation de séquences échantillonnées à des moments différents (ou hétérochrones) sert aussi à estimer leur taux de substitution, qui caractérise la vitesse à laquelle elles évoluent. Les méthodes les plus couramment utilisées pour ces différentes tâches sont précises, mais lourdes en temps de calcul car basées sur des modèles complexes, et ne peuvent traiter que quelques centaines de séquences. Devant le nombre croissant de séquences disponibles dans les bases de données, souvent plusieurs milliers pour une étude donnée, le développement de méthodes rapides et efficaces devient indispensable. Nous présentons une méthode de distances, Ultrametric Least Squares , basée sur le principe des moindres carrés, souvent utilisé en phylogénie, qui permet d'estimer le taux de substitution d'un ensemble de séquences hétérochrones, dont on déduit ensuite facilement les dates des spéciations ancestrales. Nous montrons que le critère à optimiser est parabolique par morceaux et proposons un algorithme efficace pour trouver l'optimum global. L'utilisation de séquences échantillonnées en des lieux différents permet aussi de retracer les chaînes de transmission d'une épidémie. Dans ce cadre, nous utilisons la totalité des séquences disponibles (~3500) du sous-type C du VIH-1, responsable de près de 50% des infections mondiales au VIH-1, pour estimer ses principaux flux migratoires à l'échelle mondiale, ainsi que son origine géographique. Des outils novateurs, basés sur le principe de parcimonie combiné avec différents critères statistiques, sont utilisés afin de synthétiser et interpréter l'information contenue dans une grande phylogénie représentant l'ensemble des séquences étudiées. Enfin, l'origine géographique et temporelle de ce variant (VIH-1 C) au Sénégal est précisément explorée lors d'une seconde étude, portant notamment sur les hommes ayant des rapports sexuels avec des hommes. Moindres carrés optimisation estimation statistique horloge moléculaire taux de substitution épidémiologie moléculaire origine du VIH-1 sous-type C

Search results