131 |
Réseaux de réactions : de l’analyse probabiliste à la réfutation / Reaction networks : from probabilistic analysis to refutationPicard, Vincent 16 December 2015 (has links)
L'étude de la dynamique des réseaux de réactions est un enjeu majeur de la biologie des systèmes. Cela peut-être réalisé de deux manières : soit de manière déterministe à l'aide d'équations différentielles, soit de manière probabiliste à l'aide de chaînes de Markov. Dans les deux cas, un problème majeur est celui de la détermination des lois cinétiques impliquées et l'inférence de paramètres cinétiques associés. Pour cette raison, l'étude directe de grands réseaux de réactions est impossible. Dans le cas de la modélisation déterministe, ce problème peut-être contourné à l'aide d'une analyse stationnaire du réseau. Une méthode connue est celle de l'analyse des flux à l'équilibre (FBA) qui permet d'obtenir des systèmes de contraintes à partir d'informations sur les pentes moyennes des trajectoires. Le but de cette thèse est d'introduire une méthode analogue dans le cas de la modélisation probabiliste. Les résultats de la thèse se divisent en trois parties. Tout d'abord on présente une analyse stationnaire de la modélisation probabiliste reposant sur une approximation de Bernoulli. Dans un deuxième temps, cette dynamique approximée nous permet d'établir des systèmes de contraintes à l'aide d'informations obtenues sur les moyennes, les variances et les co-variances des trajectoires du système. Enfin, on présente plusieurs applications à ces systèmes de contraintes telles que la possibilité de réfuter des réseaux de réactions à l'aide d'informations de variances ou de co-variances et la vérification formelle de propriétés logiques sur le régime stationnaire du système. / A major goal in systems biology is to inverstigate the dynamical behavior of reaction networks. There exists two main dynamical frameworks : the first one is the deterministic dynamics where the dynamics is described using odinary differential equations, the second one is probabilistic and relies on Markov chains. In both cases, one major issue is to determine the kinetic laws of the systems together with its kinetic parameters. As a consequence the direct study of large biological reaction networks is impossible. To deal with this issue, stationnary assumptions have been used. A widely used method is flux balance analysis, where systems of constraints are derived from information on the average slopes of the system trajectories. In this thesis, we construct a probabilistic analog of this stationnary analysis. The results are divided into three parts. First, we introduce a stationnary analysis of the probabilistic dynamics which relies on a Bernoulli approximation. Second, this approximated dynamics allows us to derive systems of constraints from information about the means, variances and co-variances of the system trajectories. Third, we present several applications of these systems of constraints such as the possibility to reject reaction networks using information from experimental variances and co-variances and the formal verification of logical properties concerning the stationnary regime of the system.
|
132 |
Développement de méthodes et d'algorithmes pour la caractérisation et l'annotation des transcriptomes avec les séquenceurs haut débit. / Development of methods and tools for the characterization and annotation of the transcriptomes with Next-Generation Sequencing technologies.Philippe, Nicolas 29 September 2011 (has links)
Depuis leur apparition, les séquenceurs haut débit ont révolutionné l'étude des transcriptomes à l'échelle du génome. En effet, ils offrent la possibilité de générer des millions, voire des milliards de séquences, appelées reads. Des nouvelles approches transcriptomiques, telles que la Digital Gene Expression (DGE) et le RNA-Sequencing (RNA-Seq), permettent aujourd'hui de répertorier, de quantifier, voire reconstruire tous les transcrits d'une cellule, même les plus rares. Parmi ce type de transcrits se trouvent des ARN non-codants régulateurs ; des variants d'épissages créateurs de protéines ; et aussi des chimères (par fusion de gènes ou trans-épissage). La caractérisation de l'ensemble de ces transcrits représente un réel défi algorithmique, mais suscite aussi un défi biologique car certains peuvent être impliqués dans de nombreux processus cellulaires physiologiques et pathologiques et sont fréquemment décrits dans les cancers.Dans ce travail, nous proposons des algorithmes et des méthodes pour la caractérisation et l'annotation des transcriptomes. Tout d'abord, nous proposons une étude statistique sur la DGE afin d'évaluer l'impact des erreurs de séquences lors de l'analyse des reads. À partir de cette analyse, nous avons développé un pipeline d'annotation pour la DGE. Par le biais de ce premier travail, nous avons pu démontrer que de nombreuses informations étaient partagées entre les reads. Cela nous a amené à concevoir la structure d'indexation Gk arrays qui permet d'organiser une quantité massive de reads de façon à pouvoir interroger rapidement la structure sous forme de requêtes. Enfin, en s'appuyant sur les Gk arrays, nous avons développé CRAC qui est un logiciel spécialisé dans le traitement du RNA-Seq. En intégrant sa propre phase de mapping, CRAC est capable de distinguer les phénomènes biologiques des erreurs de séquences. Ilpermet notamment l'identification de chimères qui sont souvent très faiblement exprimées dans un transcriptome et sont par nature complexe à détecter avec des parties localisées à différents endroits sur le génome. / Since their introduction, high-throughput sequencers have revolutionized transcriptomic studies at genome scale. Indeed, they have the ability to generate millions, or even billions of short sequences, called reads. New transcriptomic approaches, such as Digital Gene Expression (DGE) and RNA-sequencing (RNA-Seq), enable the identification, quantification, and reconstitution of all transcripts of the cell, even rare ones. Among these transcripts are regulatory non-coding RNAs, alternative splice variants, which code for novel proteins, but also non colinear transcripts termed chimeras (generated by either gene fusion or trans-splicing). The characterization of these transcripts constitutes a sheer algorithmic,but also a biological challenge due to their differences in nature, their diverse implications in physiological and cellular processes, and for some their role in cancer development.In this work, we focus on algorithms and methods for the characterization and annotation of transcriptomes. First, we proposed a statistical study on DGE to assess the impact of sequence errors on the analysis. Therefrom, we developed a pipeline for the DGE annotation. Through this initial work,we demonstrated that a lot of information is shared between the reads. This property led us to design, the Gk arrays, an indexing data structure for organizing huge amounts of reads in memory and algorithms to quickly query this structure. Finally, based on the Gk arrays we have conceived, CRAC,a software specialised in the RNA-Seq processing. By integrating its own mapping process, CRAC is able to distinguish the biological phenomena from sequence errors. Moreover, it allows to identify chimeric RNAs, which may be weakly expressed in a transcriptome and are inherently complex to detect since their fragments originate from different places on the genome.
|
133 |
Tracking sans marqueur de modèles physiques modulaires et articulés : vers une interface tangible pour la manipulation de simulations moléculaires / Markerless Tracking of Modular and Articulated Physical Models : Towards a Tangible Interface to Manipulate Molecular Simulations in a Mixed Reality ContextMartinez, Xavier 10 October 2017 (has links)
Les modèles physiques moléculaires sont depuis longtemps utilisés dans le domaine de la biologie structurale et de la chimie. Malgré l’apparition de représentations numériques qui offrent une grande variété de visualisations moléculaires dynamiques et permettent notamment d’analyser visuellement les résultats de simulations, les modèles physiques moléculaires sont encore fréquemment utilisés. En effet, la manipulation directe et la construction manuelle de modèles physiques moléculaires facilitent l’élaboration et la mémorisation d’une représentation mentale des structures moléculaires 3D. Les techniques d’interaction avec des objets 3D n’atteignent pas encore la finesse et la richesse de perception et de manipulation des modèles physiques. Par ailleurs, l’interaction avec des représentations moléculaires virtuelles est rendue particulièrement difficile car les structures moléculaires sont très complexes du fait de leur taille, de leur caractère tridimensionnel et de leur flexibilité, auquel s'ajoutent la quantité et la variété des informations qui les caractérisent. Pour aborder la problématique de l'interaction avec ces structures moléculaires, nous proposons dans cette thèse de concevoir une interface tangible moléculaire combinant les avantages des représentations physiques et virtuelles. Pour réaliser une interface tangible flexible et modulaire, à l’image des biomolécules à manipuler, ce travail de thèse a dû relever plusieurs défis scientifiques avec pour contrainte majeure le fait de proposer une approche se passant de marqueurs et dispositif de capture 3D complexe. La première étape fut de choisir, concevoir et fabriquer un modèle physique permettant la manipulation de molécules avec de nombreux degrés de libertés. La seconde étape consistait à créer un modèle numérique permettant de reproduire le comportement mécanique du modèle physique. Enfin, il a fallu concevoir des méthodes de recalage utilisant des techniques de traitement d'image en temps réel pour que le modèle physique puisse contrôler, par couplage, son avatar virtuel. En terme de traitement d’image, de nouvelles méthodes ont été conçues implémentées et évaluées afin d'une part, d’identifier et de suivre les atomes dans l’espace image et d'autre part, d'alimenter la méthode de reconstruction 3D avec un faible nombre de points. L'une de nos contributions a été d'adapter la méthode de Structure from Motion en incluant des connaissances biochimiques pour guider la reconstruction. Par ailleurs, la visualisation conjointe de modèles physiques de molécules et de leur avatar virtuel dynamique, parfois co-localisé dans un contexte de réalité augmentée, a été abordée. Pour cela, des méthodes de visualisation haute performance adaptées à ce contexte ont été conçues afin d’améliorer la perception des formes et cavités, caractéristiques importantes des molécules biologiques. Par exemple, l’occultation ambiante ou le raycasting de sphères avec des ombres portées dynamiques permettent d’augmenter un modèle physique en tenant compte de l’illumination réelle pour une meilleure intégration en réalité augmentée. Les retombées de ce travail en terme d’usage sont nombreuses dans le domaine de la recherche et de la pédagogie en biologie moléculaire, comme dans le domaine de la conception de médicaments et plus particulièrement du Rational Drug Design. L'expert doit être au centre de la tâche de conception de médicament pour la rendre plus efficace et rationnelle, à l’image du succès du jeu sérieux Fold’It, auquel s’ajoute le bénéfice de l’utilisation d’interface tangible capable de manipuler les nombreux degrés de liberté intrinsèques des biomolécules. / Physical molecular models have long been used in the structural biology and chemistry fields. Despite the emergence of numerical representations offering various and dynamic molecular visualizations to analyze the simulation results, molecular physical models are still being used. Direct manipulation and assembly of physical models ease to create and memorize a mental representation of 3D molecular structures. Interaction techniques to manipulate virtual 3D objects are not reaching the fineness and the benefits of the perceptual cues and manipulation skills of physical models. Moreover, interacting with virtual molecular representations remains a hard task because of the complexity of molecular structures, their size, their flexibility and the various data that define them. In this thesis, we address this issue by designing a molecular tangible interface combining the perks of physical and virtual representations. To match the flexibility and modularity of biomolecules to manipulate, this work met challenges in different scientific fields with the constraint to not use a tracker based system. The first step was to choose, conceive and build a physical model to handle the manifold degrees of freedom of molecules. The second step consisted in creating a numerical representation of mechanical properties of the physical model. Lastly, we needed to develop tracking methods using real-time image processing algorithms in order to control the virtual representation by coupling it to the physical one. New image processing methods have been implemented and evaluated to identify and track atoms in the image space. A Structure from Motion method was designed and adapted to reconstruct in 3D the atom positions by using a small amount of points and by including biochemical knowledge to guide the reconstruction. At last, we address the visualization of physical and dynamic virtual representations, sometimes co-localized in an Augmented Reality context. High performance visualization methods adapted to this context have been developed to enhance shape and cavity perception, two major specifics of biological molecules. For instance, ambient occlusion or sphere raycasting with dynamic shadows can augment a physical object taking the real illumination of the scene for a better insertion in an Augmented Reality context. The impact of this work targets both the education in molecular biology and the research field: the rational drug design field could benefit from the expertise of the user to optimize the design of drugs by manipulating biomolecule's numerous degrees of freedom using a tangible interface. Just like Fold'It is contributing to solve the folding problem, a similar approach could be used to solve the molecular docking problem using advanced manipulation interfaces.
|
134 |
Classification moléculaire des Tumeurs de Wilms par analyse RNA-SeqRoux, Cedric 10 1900 (has links)
La tumeur de Wilms (TW) est un cancer du rein retrouvé principalement chez les enfants âgés de 2 à 4 ans. Elle représente 90% des cancers pédiatriques du rein. Le taux de survie des TW est supérieur à 90%. Ce dernier est rendu possible grâce à une stratification des patients en fonction du risque de récidive. Les TW sont classées dans différents groupes de risque selon le stade, l’histologie, la taille de la tumeur et la perte d’hétérozygotie aux loci 1p et 16q.
Deux régions sont importantes dans la génétique des TW, WT1 et WT2. WT1 est un gène qui code pour un facteur de transcription important dans différentes phases du développement rénal. Des anomalies de WT1 sont retrouvées dans certains syndromes humains tels que WAGR et Denys-Drash qui sont associés à l’émergence de TW. WT2 est un locus présent dans la région chromosomique 11p15 où une perte d'hétérozygotie conduit à une disomie uniparentale. Ceci entraîne un risque accru de TW dû à une surexpression de IGF2 qui est liée à la prolifération d’organes et de membres. Malgré ce portrait génétique, il n’existe pas de sous-groupes moléculaires qui permettent une classification des TW comme on observe chez d’autres cancers de l’enfant, notamment la leucémie.
Nous proposons de déterminer une stratification de sous-groupes groupes moléculaire à l’aide d’une signature moléculaire basée sur des profils d’expression qui améliorait la classification des TW dans leurs groupes de risque adéquat. Pour vérifier cette hypothèse, nous avons analysé le transcriptome d’une cohorte de 130 patients atteint d’une TW.
Grâce à un regroupement hiérarchique du profil d’expression des échantillons, nous avons identifié deux sous-groupes potentiels de TW. Un de ces sous-groupes est défini par une sous-expression de WT1 et une surexpression de gènes du début du développement musculaire chez les enfants et montrerait un risque plus fort de rechute. Ces résultats montrent que des outils de regroupement basés sur une signature moléculaire permettraient d’identifier des sous-groupes moléculaires chez les TW. / Wilms' tumor (TW) is a kidney cancer found mainly in children aged from 2 to 4 years old. It represents 90% of pediatric kidney cancers. The TW survival rate is over 90%. The latter is made possible by stratifying patients according to the risk of relapse. TW are classified into different risk groups according to stage, histology, tumor size and more recently the loss of heterozygosity at loci 1p and 16q.
Two regions are important in the genetics of WT, WT1 and WT2. WT1 is a gene that encodes an important transcription factor in different phases of renal development. WT1 abnormalities are found in some human syndromes such as WAGR and Denys-Drash which are associated with the emergence of TW. WT2 is a locus present in the chromosomal region 11p15 where a loss of heterozygosity leads to a uniparental disomy. This leads to an increased risk of WT due to an overexpression of IGF2 which is linked to the proliferation of organs and members. Despite this genetic portrait, there are no molecular subgroups which allow classification of TW as observed in other childhood cancers, including leukemia.
We propose to determine a stratification of WT using a molecular signature based on expression profiles in their proper risk group. To test this hypothesis, we analyzed the transcriptome of a cohort of 130 WT patients.
The hierarchical clustering of the of the sample’s expressions profiles identified two potential WT subgroups. One of these subgroups can be described by a lower expression of WT1 and overexpression of genes for early muscle development in children and show a higher risk of relapse. These results show that clustering tools based on a molecular signature could allow treatment adjustment (i.e. precision medicine) and thus increase the survival rate.
|
135 |
Caractérisation de variants génétiques pour estimer la prévalence de Niemann-Pick type C au QuébecLabrecque, Marjorie 07 1900 (has links)
La maladie de Niemann-Pick type C (NP-C) est une maladie autosomal récessive rare neurodégénérative, pan-ethnique et avec variabilité phénotypique. La forme classique se trouve chez les patients juvéniles, mais des patients de tous les âges existent. Les symptômes incluent des signes viscéraux, moteurs et neurologiques. La maladie est causée par une mutation dans le gène NPC1 ou NPC2. La prévalence mondiale se trouve à environ un cas par 100 000 naissances, mais varie beaucoup selon les populations. Pour cette raison, nous avons voulu identifier et classifier des variants qui se trouve dans la population québécoise pour faire une estimation de la prévalence de NP-C au Québec. Nous croyons que cette maladie neurodégénérative est sous-diagnostiquée.
Pour identifier le pool génétique de la population québécoise, nous avons utilisé une approche bio-informatique. À l’aide des données de séquençage des 1109 participants sains de la cohorte CARTaGENE, nous avons identifié des variants rares, ayant des fréquences alléliques inférieures à 1%, dans les gènes NPC1 et NPC2. Les données de séquençage de l’ARN et d’exome ont été alignées, les variants ont été détectés et annotés avec différents scores de pathogénicité. Les variants ont ensuite été classifiés à l’aide des lignes directrices de l’ACMG.
À l’aide de notre pipeline bio-informatique, nous avons identifié 37 variants rares. Parmi ces variants, un, p.I1061T, a été classifié comme pathogénique comme il l’est dans d’autres bases de données et un, p.P543L, initialement classifié comme potentiellement pathogénique a été classifié comme pathogénique dans notre population. Le variant p.P543L est d’ailleurs possiblement une mutation fondatrice chez les Canadiens-Français. La prévalence mesurée à l’aide des fréquences alléliques de ces deux variants est de 0,61 cas par 100 000 naissances.
Cette étude a permis d’identifier deux variants pathogéniques dans une population saine, c’est-à dire sans maladie neurodégénérative connue. Nous avons ensuite pu estimer pour la première fois la prévalence minimale de NP-C au Québec. Les résultats suggèrent que NP-C est sous-diagnostiquée dans notre population. Avec ces informations, les méthodes de diagnostic pourront être ajustées pour accélérer la détection de NP-C au Québec et ainsi aider les patients en donnant accès au traitement disponible pour réduire les symptômes neurologiques. / Niemann-Pick type C disease (NP-C) is a rare autosomal recessive neurodegenerative, pan-ethnic disease with heterogenous symptoms. The classical form mainly affects juvenile patients, but patients of varying ages exist. The main symptoms are visceral, motor and neurological. The disease is caused by mutations in the NPC1 or NPC2 gene. The worldwide prevalence is approximately one case per 100 000 births but varies between populations. Therefore, we wanted to identify and classify rare variants found in Quebec’s population to estimate the prevalence of NP-C in this population. We hypothesized that NP-C is under-diagnosed in Quebec.
To determine the genetic pool of NP-C in Quebec’s population, we used a bioinformatics pipeline. With the sequencing data of 1109 healthy individuals of the CARTaGENE cohort, we identified rare variants, with a minor allele frequency inferior to 1%, in the NPC1 and NPC2 genes. The sequencing data from RNA and exome sequencing was aligned and the variants were found and annotated with different pathogenicity scores. The variants were then classified using the ACMG guidelines.
Using our bioinformatics pipeline, we identified a total of 37 rare variants. In those variants, one, p.I1061T, was directly classified as pathogenic since it was classified as that in all databases. The other one, p.P543L, was initially classified as likely pathogenic, but we were able to reclassify it as pathogenic in our population. The p.P543L variant is possibly a founder mutation in the French-Canadian population. Next, we estimated the prevalence based on the allelic frequencies of those two variants in our cohort. We found a prevalence of 0,61 case per 100 000 births.
This study allowed us to identify two pathogenic variants in a healthy population, without known neurodegenerative disease. We were also able to estimate the first ever minimal prevalence for NP-C in Quebec. Our results suggests that NP-C is underdiagnosed in our population. With the information collected here, we would be able to adjust the diagnostic methods of NP-C in Quebec to then be able to help the patients by giving them access to the available treatment to reduce neurological symptoms.
|
136 |
Automatisation des étapes informatiques du séquençage d'un génome d'organite et utilisation de l'ordre des gènes pour analyses phylogénétiquesCharlebois, Patrick 13 April 2018 (has links)
"Une très grande quantité de données est présentement générée par le séquençage de génomes et doit être analysée à l'aide d'outils informatiques. Il est donc nécessaire de développer certains programmes permettant de faire les analyses désirées et d'automatiser les tâches informatiques redondantes pour accélérer le processus d'analyse des génomes. Les données de séquençage obtenues se doivent également d'être classées efficacement et d'être facilement accessibles, de même que les outils informatiques nécessaires à leur analyse. Une base de données a donc été développée, ainsi qu'un site Web permettant de la consulter et d'utiliser les divers programmes requis. Finalement, des analyses phylogénétiques sont couramment effectuées sur les génomes séquences. Toutefois, peu d'outils permettent d'utiliser l'ordre de gènes de ces génomes à cette fin. Un programme permettant de déterminer les blocs de gènes conservés entre différents génomes et d'utiliser les paires de gènes communes pour construire des arbres phylogénétiques a donc été développé."
|
137 |
Environnement de développement bioinformatique pour la génomique et la protéomiquePaladini, David 12 April 2018 (has links)
L’objectif de ce mémoire est de décrire un environnement de développement capable de supporter les besoins du bioinformaticien dans les différents contextes de développement de logiciels de bioinformatique. Ce mémoire présente un environnement de développement et en démontre l’utilisation soit par une conception logicielle, soit par une réalisation logicielle. Trois contextes de développement d’infrastructure logicielle et de logiciels bioinformatique ont été identifiés : • Développement dans le cadre de projets de recherche. Mise en place d’une base de données pour le projet d’étude du parasite Leishmania par biopuces d’ADN complémentaire (ADNc) et développement d’une application WEB permettant de mettre en évidence de façon graphique la transcription polycistronique chez ce parasite. Transcription de plusieurs gènes (cistrons) contigus en un seul ARN messager (ARNm). • Développement dans le cadre de plates-formes de recherche. Évaluation des aspects communs des plates-formes de recherche existantes dans le centre de recherche et conception d’un modèle générique d’application de gestion d’information de laboratoire (LIMS). Évaluation des aspects spécifiques des plates-formes de recherche et développement de logiciels de supports pour la configuration et la lecture de résultats spécifique à la plate-forme de qRT-PCR. • Développement dans le cadre de la plate-forme de bioinformatique. Le premier exemple est un logiciel pour une chaîne de traitement à haut débit de données issues de la plate-forme de biopuces. Le deuxième exemple est un logiciel effectuant des alignements locaux de séquences d’acides nucléiques. Ce logiciel, basé sur BLAST, présente des informations supplémentaires dans un format plus facilement utilisable par d’autres logiciels. / The aim of this essay is to describe a development environement which is able to support bioinformaticians in several contexts for bioinformatics software development. This essay presents a development environement and substantiate its use in each context identified either by a software design or by a complete software realisation. Three development context of software infrastructure and bioinformatic software are identified : • Research project development. Setting up database for Leishmania parasite research project with cDNA microarray and development of a WEB application shed on light the polycistronic transcription of this parasite in graphical way. • Research plateform development. Evaluation of common facets of research platforms and design of a generic model for a laboratory information management system (LIMS). Evaluation of spécific facets of research platforms and development of support software for the qRT-PCR plateform. • Bioinformatic platform development. The first sample is a utility software for a high troughput data flow coming from the microarray platform. The second sample is a software making local alignments of nucleic acid sequences. This software which is based on BLAST, presents additional information in a more usable format for other software.
|
138 |
Diversité et évolution des arbres de forêt tropicale humide : exemple d'Eperua falcata en Guyane françaiseBrousseau, Louise 10 December 2013 (has links) (PDF)
En forêt tropicale humide Amazonienne, les facteurs gouvernant l'évolution des espèces d'arbres restent peu connus et continuellement débattus. En particulier, les micro-variations environnementales attirent beaucoup d'attention car elles induisent de profondes modifications de structure et composition des communautés. Les variations micro-environnementales associées à la topographie ont couramment été évoquées comme facteur de radiations adaptatives chez les espèces d'arbres. Cependant, l'hypothèse de l'adaptation locale n'a jamais été testée au niveau intra-spécifique chez les arbres de forêt amazonienne alors que l'on sait que la diversité génétique des arbres tropicaux est couramment structurée à faibles échelles spatiales par des processus neutres (en particulier du fait de restrictions de flux de gènes). Dans cette étude, j'ai étudié le processus de différentiation génétique d'une espèce d'arbre (Eperua falcata, Fabaceae) dans les paysages forestiers de Guyane française grâce à la combinaison d'une approche phénotypique (génétique quantitative) et d'une approche moléculaire (génétique des populations). Je me suis attachée à répondre à trois questions principales : 1) Comment se distribue la diversité génétique dans les paysages forestiers de Guyane française ? 2) Quelles forces évolutives sont impliquées dans le processus de différentiation génétique à faible échelle spatiale ? 3) Est-ce que le processus d'adaptation locale contribue à structurer la diversité génétique à faible échelle spatiale ?
|
139 |
Application de techniques de fouille de données en Bio-informatiqueRamstein, Gérard 07 June 2012 (has links) (PDF)
Les travaux de recherche présentés par l'auteur ont pour objet l'application de techniques d'extraction de connaissances à partir de données (ECD) en biologie. Deux thèmes majeurs de recherche en bio-informatique sont abordés : la recherche d'homologues distants dans des familles de protéines et l'analyse du transcriptome. La recherche d'homologues distants à partir de séquences protéiques est une problématique qui consiste à découvrir de nouveaux membres d'une famille de protéines. Celle-ci partageant généralement une fonction biologique, l'identification de la famille permet d'investiguer le rôle d'une séquence protéique. Des classifieurs ont été développés pour discriminer une superfamille de protéines particulière, celle des cytokines. Ces protéines sont impliquées dans le système immunitaire et leur étude est d'une importance cruciale en thérapeutique. La technique des Séparateurs à Vastes Marges (SVM) a été retenue, cette technique ayant donné les résultats les plus prometteurs pour ce type d'application. Une méthode originale de classification a été conçue, basée sur une étape préliminaire de découverte de mots sur-représentés dans la famille d'intérêt. L'apport de cette démarche est d'utiliser un dictionnaire retreint de motifs discriminants, par rapport à des techniques utilisant un espace global de k-mots. Une comparaison avec ces dernières méthodes montre la pertinence de cette approche en termes de performances de classification. La seconde contribution pour cette thématique porte sur l'agrégation des classifieurs basée sur des essaims grammaticaux. Cette méthode vise à optimiser l'association de classifieurs selon des modèles de comportement sociaux, à la manière des algorithmes génétiques d'optimisation. Le deuxième axe de recherche traite de l'analyse des données du transcriptome. L'étude du transcriptome représente un enjeu considérable, tant du point de vue de la compréhension des mécanismes du vivant que des applications cliniques et pharmacologiques. L'analyse implicative sur des règles d'association, développée initialement par Régis Gras, a été appliquée aux données du transcriptome. Une approche originale basée sur des rangs d'observation a été proposée. Deux applications illustrent la pertinence de cette méthode : la sélection de gènes informatifs et la classification de tumeurs. Enfin, une collaboration étroite avec une équipe INSERM dirigée par Rémi Houlgatte a conduit à l'enrichissement d'une suite logicielle dédiée aux données de puces à ADN. Cette collection d'outils dénommée MADTOOLS a pour objectifs l'intégration de données du transcriptome et l'aide à la méta-analyse. Une application majeure de cette suite utilise les données publiques relatives aux pathologies musculaires. La méta-analyse, en se basant sur des jeux de données indépendants, améliore grandement la robustesse des résultats. L'étude systématique de ces données a mis en évidence des groupes de gènes co-exprimés de façon récurrente. Ces groupes conservent leur propriété discriminante au travers de jeux très divers en termes d'espèces, de maladies ou de conditions expérimentales. Cette étude peut évidemment se généraliser à l'ensemble des données publiques concernant le transcriptome. Elle ouvre la voie à une approche à très grande échelle de ce type de données pour l'étude d'autres pathologies humaines.
|
140 |
Sur la bio-informatique des réseaux d'automatesSené, Sylvain 27 November 2012 (has links) (PDF)
Ce travail présente des contributions théoriques et appliquées dans le contexte des systèmes dynamiques discrets vus comme modèles des réseaux de régulation biologique. En mettant en avant le fait qu'accroître les connaissances du vivant nécessite aujourd'hui de mieux comprendre les propriétés mathématiques qui le régissent, il développe diverses réflexions menées en bio-informatique théorique en se fondant sur le formalisme des réseaux d'automates, notamment booléens. Les trois principaux thèmes abordés sur ces réseaux sont la robustesse environnementale, la combinatoire comportementale et la robustesse structurelle. La robustesse environnementale est notamment évoquée à travers une étude de la manière dont les réseaux d'automates réagissent face à l'influence de conditions de bord fixées (on y retrouve une généralisation au cas non-linéaire d'un résultat connu dans le domaine des automates cellulaires). La combinatoire comportementale est quant à elle abordée par les cycles d'interaction dont on connaît l'importance sur la dynamique des réseaux. Pour ces motifs particuliers et leurs intersections sont présentées des caractérisations combinatoires de leur comportement asymptotique en parallèle, qui font ensuite l'objet de comparaisons. Enfin, le thème de la robustesse structurelle est traité au travers du concept de graphe de transition général, qui a mené à mettre en évidence tous les comportements possibles des cycles d'interaction, à donner une classification de la robustesse des réseaux vis-à-vis de leur asynchronisme/synchronisme, de laquelle se sont imposées des études plus précises sur le rôle de la non-monotonie dans ces réseaux.
|
Page generated in 0.1088 seconds