61 |
Couplage de modèles population et individu-centrés pour la simulation parallélisée des systèmes biologiques : application à la coagulation du sangCrépin, Laurent 28 October 2013 (has links) (PDF)
Plusieurs types d'expérimentation existent pour étudier et comprendre les systèmes biologiques. Dans ces travaux, nous nous intéressons à la simulation in silico, c'est-à-dire à la simulation numérique de modèles sur un ordinateur. Les systèmes biologiques sont composés d'entités, à la fois nombreuses et variées, en interaction les unes avec les autres. Ainsi, ils peuvent être modélisés par l'intermédiaire de deux approches complémentaires : l'approche population-centrée et l'approche individu-centrée. Face à la multitude et à la variété des phénomènes composant les systèmes biologiques, il nous semble pertinent de coupler ces deux approches pour obtenir une modélisation mixte. En outre, en raison de la quantité conséquente d'informations que représente l'ensemble des entités et des interactions à modéliser, la simulation numérique des systèmes biologiques est particulièrement coûteuse en temps de calcul informatique. Ainsi, dans ce mémoire, nous proposons des solutions techniques de parallélisation permettant d'exploiter au mieux les performances offertes par les architectures multicoeur et multiprocesseur et les architectures graphiques pour la simulation de systèmes biologiques à base de modélisations mixtes. Nous appliquons nos travaux au domaine de la coagulation du sang et plus particulièrement à l'étude de la cinétique biochimique à l'échelle microscopique ainsi qu'à la simulation d'un vaisseau sanguin virtuel. Ces deux applications nous permettent d'évaluer les performances offertes par les solutions techniques de parallélisation que nous proposons, ainsi que leur pertinence dans le cadre de la simulation des systèmes biologiques.
|
62 |
Utilisation de la tessellation de Voronoï pour l'étude des complexes protéine-protéineBernauer, Julie 07 April 2006 (has links) (PDF)
La fonction d'une protéine est souvent subordonnée à l'interaction avec un certain nombre de partenaires. L'étude de la structure tridimensionnelle de ces complexes, qui ne peut souvent se faire expérimentalement, permettrait la compréhension de nombreux processus cellulaires. Le travail présenté ici se compose de deux parties. La première traite de la mise en place d'une fonction de score pour l'amarrage protéine-protéine et la deuxième de l'étude cristallographique d'une protéine tétramérique qui est une cible antibiotique potentielle : la thymidylate synthase X de Paramecium bursaria Chlorella virus. La modélisation des complexes protéine-protéine ou docking comporte deux étapes successives : d'abord, un grand nombre de conformations sont générées, puis une fonction de score est utilisée pour les classer. Cette fonction de score doit prendre en compte à la fois la complémentarité géométrique des deux molécules et les propriétés physico-chimiques des surfaces en interaction. Nous nous sommes intéressés à la seconde étape à travers le développement d'une fonction de score rapide et fiable. Ceci est possible grâce à la tessellation de Voronoï de la structure tridimensionnelle des protéines. En effet, les tessellations de Voronoï ou de Laguerre se sont avérées être de bons modèles mathématiques de la structure des protéines. En particulier, cette formalisation permet de faire une bonne description de l'empilement et des propriétés structurales des résidus. Cette modélisation rend compte l'empilement des résidus à l'interface entre deux protéines. Ainsi, il est possible de mesurer un ensemble de paramètres sur des complexes protéine-protéine dont la structure est connue expérimentalement et sur des complexes leurres générés artificiel- lement. Ces paramètres, sont la fréquence d'apparition des résidus ou des paires de résidus, les volumes des cellules de Voronoï, les distances entre les résidus en contact à l'interface, la surface de l'interface et le nombre de résidus à l'interface. Ils ont été utilisés en entrée de procédures d'apprentissage statistique. Grâce à ces procédures (apprentissage logistique, séparateurs à vaste marge (SVM) et algorithmes génétiques), on peut obtenir des fonctions de score efficaces, ca- pables de séparer les leurres des structures réelles. Dans un deuxième temps, j'ai déterminé expérimentalement la structure de la thymidylate synthase X, cible antibiotique de choix. La thymidylate synthase X est une flavoprotéine qui a été découverte récemment. Elle intervient dans la synthèse du dTMP chez la plupart des procaryotes mais n'existe pas chez les eucaryotes supérieurs. Cette protéine catalyse le transfert de methyle du tétrahydrofolate vers le dUMP grâce à son cofacteur le FAD et au NADPH qui intervient comme substrat. La structure tridimensionnelle de l'homotétramère de la thymidylate synthase X en présence de son cofacteur, le FAD, a été résolue à 2.4 Å par remplacement moléculaire. Comme pour les structures de thymidylate synthase X de Thermotoga maritima et de Mycobacterium tuberculosis précédemment résolues, le monomère se compose d'un coeur de feuillets β et de deux hélices α à son extrémité. Le site actif se trouve à l'interface de trois monomères, la partie isoalloxazine du FAD étant accessible au solvant et proche d'une longue boucle flexible. La fixation du FAD dans cette structure est légèrement différente de celles déjà observées par la conformation de la partie adénine. Cette structure, associée aux études de mutagénèse dirigée de nos collaborateurs, a permis de mettre évidence des résidus jouant un rôle majeur lors de la catalyse.
|
63 |
Application de techniques de fouille de données en Bio-informatiqueRamstein, Gérard 07 June 2012 (has links) (PDF)
Les travaux de recherche présentés par l'auteur ont pour objet l'application de techniques d'extraction de connaissances à partir de données (ECD) en biologie. Deux thèmes majeurs de recherche en bio-informatique sont abordés : la recherche d'homologues distants dans des familles de protéines et l'analyse du transcriptome. La recherche d'homologues distants à partir de séquences protéiques est une problématique qui consiste à découvrir de nouveaux membres d'une famille de protéines. Celle-ci partageant généralement une fonction biologique, l'identification de la famille permet d'investiguer le rôle d'une séquence protéique. Des classifieurs ont été développés pour discriminer une superfamille de protéines particulière, celle des cytokines. Ces protéines sont impliquées dans le système immunitaire et leur étude est d'une importance cruciale en thérapeutique. La technique des Séparateurs à Vastes Marges (SVM) a été retenue, cette technique ayant donné les résultats les plus prometteurs pour ce type d'application. Une méthode originale de classification a été conçue, basée sur une étape préliminaire de découverte de mots sur-représentés dans la famille d'intérêt. L'apport de cette démarche est d'utiliser un dictionnaire retreint de motifs discriminants, par rapport à des techniques utilisant un espace global de k-mots. Une comparaison avec ces dernières méthodes montre la pertinence de cette approche en termes de performances de classification. La seconde contribution pour cette thématique porte sur l'agrégation des classifieurs basée sur des essaims grammaticaux. Cette méthode vise à optimiser l'association de classifieurs selon des modèles de comportement sociaux, à la manière des algorithmes génétiques d'optimisation. Le deuxième axe de recherche traite de l'analyse des données du transcriptome. L'étude du transcriptome représente un enjeu considérable, tant du point de vue de la compréhension des mécanismes du vivant que des applications cliniques et pharmacologiques. L'analyse implicative sur des règles d'association, développée initialement par Régis Gras, a été appliquée aux données du transcriptome. Une approche originale basée sur des rangs d'observation a été proposée. Deux applications illustrent la pertinence de cette méthode : la sélection de gènes informatifs et la classification de tumeurs. Enfin, une collaboration étroite avec une équipe INSERM dirigée par Rémi Houlgatte a conduit à l'enrichissement d'une suite logicielle dédiée aux données de puces à ADN. Cette collection d'outils dénommée MADTOOLS a pour objectifs l'intégration de données du transcriptome et l'aide à la méta-analyse. Une application majeure de cette suite utilise les données publiques relatives aux pathologies musculaires. La méta-analyse, en se basant sur des jeux de données indépendants, améliore grandement la robustesse des résultats. L'étude systématique de ces données a mis en évidence des groupes de gènes co-exprimés de façon récurrente. Ces groupes conservent leur propriété discriminante au travers de jeux très divers en termes d'espèces, de maladies ou de conditions expérimentales. Cette étude peut évidemment se généraliser à l'ensemble des données publiques concernant le transcriptome. Elle ouvre la voie à une approche à très grande échelle de ce type de données pour l'étude d'autres pathologies humaines.
|
64 |
Aspects algorithmiques des réarrangements génomiques : duplications et ordres partielsThévenin, Annelyse 06 November 2009 (has links) (PDF)
La génomique comparative est une discipline importante pour la compréhension de l'évolution du vivant. Différentes méthodes de comparaison existent, nous nous intéressons ici en particulier aux mesures de (dis)similarités entre les génomes. Dans cette étude, nous étudions 3 mesures : les nombres d'adjacences, de points de cassures et d'intervalles communs. En présence de gènes dupliqués ou lorsque l'ordre des gènes n'est que partiellement connu, calculer ces mesures est un problème connu pour être NP-difficile. D'une part, nous désirons calculer les nombres d'adjacences et de points de cassures pour trois modèles (exemplaire, intermédiaire, maximum) entre deux génomes possédant des duplications. Afin d'obtenir un algorithme exact, nous modélisons ces problèmes en programmes pseudo-booléens. Après expérimentation sur 12 génomes de γ-protéobactéries, nous obtenons suffisamment de résultats pour : comparer les deux mesures et les 3 modèles et évaluer des heuristiques. À ce titre, nous proposons une famille d'heuristiques basée sur une recherche de plus longue sous-séquence commune qui donne de très bons résultats sur ces données. Parallèlement à cela, nous avons étudié, pour différents problèmes de calcul de mesures entre deux génomes avec duplication, l'approximation polynomial. D'autre part, nous calculons les nombres d'adjacences et d'intervalles communs entre deux ordres partiels (avec la possibilité qu'un des ordres soit total). Nous utilisons de nouveau une approche de programmation pseudo-booléenne. À l'aide de près de 800 génomes simulés, nous étudions l'influence de paramètres inhérents aux ordres partiels et nous comparons les deux mesures étudiées.
|
65 |
Comparaison de réseaux biologiquesMohamed Babou, Hafedh 06 November 2012 (has links) (PDF)
La comparaison de réseaux biologiques est actuellement l'une des approches les plus prometteuses pour aider à la compréhension du fonctionnement des organismes vivants. Elle apparaît comme la suite attendue de la comparaison de séquences biologiques dont l'étude ne représente en réalité que l'aspect génomique des informations manipulées par les biologistes. Dans cette thèse, nous proposons une approche innovante permettant de comparer deux réseaux biologiques modélisés respectivement par un graphe orienté D et un graphe non-orienté G, et dotés d'une fonction f établissant la correspondance entre les sommets des deux graphes. L'approche consiste à extraire automatiquement une structure dans D, biologiquement significative, dont les sommets induisent dans G, par f, une structure qui soit aussi biologiquement significative. Nous réalisons une étude algorithmique du problème issu de notre approche en commençant par sa version dans laquelle D est acyclique (DAG). Nous proposons des algorithmes polynomiaux pour certains cas, et nous montrons que d'autres cas sont algorithmiquement difficiles (NP-complets). Pour résoudre les instances difficiles, nous proposons une bonne heuristique et un algorithme exact basé sur la méthode branch-and-bound. Pour traiter le cas où D est cyclique, nous introduisons une méthode motivée par des hypothèses biologiques et consistant à décomposer D en DAGs tels que les sommets de chaque DAG induisent dans G un sous-graphe connexe. Nous étudions également dans cette thèse, l'inférence des voies de signalisation en combinant les informations sur les causes et sur les effets des événements extra-cellulaires. Nous modélisons ce problème par un problème d'orientation de graphes mixtes et nous effectuons une étude de complexité permettant d'identifier les instances faciles et celles difficiles.
|
66 |
Inférence de réseaux d'interaction protéine-protéine par apprentissage statistiqueBrouard, Céline 14 February 2013 (has links) (PDF)
L'objectif de cette thèse est de développer des outils de prédiction d'interactions entre protéines qui puissent être appliqués en particulier chez l'homme, sur les protéines qui constituent un réseau avec la protéine CFTR. Cette protéine, lorsqu'elle est défectueuse, est impliquée dans la mucoviscidose. Le développement de méthodes de prédiction in silico peut s'avérer utile pour suggérer aux biologistes de nouvelles cibles d'interaction et pour mieux expliquer les fonctions des protéines présentes dans ce réseau. Nous proposons une nouvelle méthode pour le problème de la prédiction de liens dans un réseau. Afin de bénéficier de l'information des données non étiquetées, nous nous plaçons dans le cadre de l'apprentissage semi-supervisé. Nous abordons ce problème de prédiction comme une tâche d'apprentissage d'un noyau de sortie, appelée régression à noyau de sortie. Un noyau de sortie est supposé coder les proximités existantes entre les noeuds du graphe et l'objectif est d'approcher ce noyau à partir de descriptions appropriées en entrée. L'utilisation de l'astuce du noyau dans l'ensemble de sortie permet de réduire le problème d'apprentissage à partir de paires à un problème d'apprentissage d'une fonction d'une seule variable à valeurs dans un espace de Hilbert. En choisissant les fonctions candidates pour la régression dans un espace de Hilbert à noyau reproduisant à valeur opérateur, nous développons, comme dans le cas de fonctions à valeurs scalaires, des outils de régularisation. Nous établissons en particulier des théorèmes de représentation dans le cas supervisé et dans le cas semi-supervisé, que nous utilisons ensuite pour définir de nouveaux modèles de régression pour différentes fonctions de coût, appelés IOKR-ridge et IOKR-margin. Nous avons d'abord testé l'approche développée sur des données artificielles, des problèmes test ainsi que sur un réseau d'interaction protéine-protéine chez la levure S. Cerevisiae et obtenu de très bons résultats. Puis nous l'avons appliquée à la prédiction d'interactions entre protéines dans le cas d'un réseau construit autour de la protéine CFTR.
|
67 |
Statistique bayésienne et applications en génétique des populationsBlum, Michael G B 03 December 2012 (has links) (PDF)
Les approches statistiques en génétique des populations visent deux objectifs distincts qui sont la description des données et la possibilité d'inférer les processus évolutifs qui ont généré les patrons observés. Le premier chapitre de ce manuscrit décrit nos apports théoriques et méthodologiques concernant le calcul bayésien approché (Approximate Bayesian Computation) qui permet de réaliser l'objectif d'inférence des processus évolutifs. Je décris des résultats asymptotiques qui permettent de décrire des propriétés statistiques du calcul bayésien approché. Ces résultats mettent en évidence à la fois l'intérêt des méthodes dites avec ajustement qui reposent sur des équations de régression et aussi l'intérêt de réduire la dimension des descripteurs statistiques utilisés dans le calcul bayésien approché. Je présente ensuite une méthode originale de calcul bayésien approché qui permet de manière conjointe d'effectuer des ajustements et de réduire la dimension des descripteurs statistiques. Une comparaison des différentes méthodes de réduction de dimension clos le premier chapitre. Le deuxième chapitre est consacré à l'objectif de description des données et se place plus particulièrement dans un cadre spatial. Les méthodes statistiques proposées reposent sur le concept d'isolement par la distance qui est une forme particulière de l'autocorrélation spatiale où la corrélation entre individus décroit avec la distance. Une approche originale de krigeage nous permet de caractériser des patrons d'isolement par la distance non-stationnaire où la manière avec laquelle la corrélation entre individus décroit avec la distance dépend de l'espace. Une deuxième extension que nous proposons est celle d'isolement par la distance anisotrope que nous caractérisons et testons à partir d'une équation de régression. La conclusion de ce manuscrit met l'accent sur les problèmes d'interprétation des résultats statistiques, l'importance de l'échantillonnage et la nécessité de tester l'adéquation des modèles aux données. Je conclus par des perspectives qui se proposent de faire passer l'analyse statistique bayésienne à l'échelle des données massives produites en génétique.
|
68 |
Sur la bio-informatique des réseaux d'automatesSené, Sylvain 27 November 2012 (has links) (PDF)
Ce travail présente des contributions théoriques et appliquées dans le contexte des systèmes dynamiques discrets vus comme modèles des réseaux de régulation biologique. En mettant en avant le fait qu'accroître les connaissances du vivant nécessite aujourd'hui de mieux comprendre les propriétés mathématiques qui le régissent, il développe diverses réflexions menées en bio-informatique théorique en se fondant sur le formalisme des réseaux d'automates, notamment booléens. Les trois principaux thèmes abordés sur ces réseaux sont la robustesse environnementale, la combinatoire comportementale et la robustesse structurelle. La robustesse environnementale est notamment évoquée à travers une étude de la manière dont les réseaux d'automates réagissent face à l'influence de conditions de bord fixées (on y retrouve une généralisation au cas non-linéaire d'un résultat connu dans le domaine des automates cellulaires). La combinatoire comportementale est quant à elle abordée par les cycles d'interaction dont on connaît l'importance sur la dynamique des réseaux. Pour ces motifs particuliers et leurs intersections sont présentées des caractérisations combinatoires de leur comportement asymptotique en parallèle, qui font ensuite l'objet de comparaisons. Enfin, le thème de la robustesse structurelle est traité au travers du concept de graphe de transition général, qui a mené à mettre en évidence tous les comportements possibles des cycles d'interaction, à donner une classification de la robustesse des réseaux vis-à-vis de leur asynchronisme/synchronisme, de laquelle se sont imposées des études plus précises sur le rôle de la non-monotonie dans ces réseaux.
|
69 |
Problèmes de réarrangement avec marqueurs génomiques dupliquésThomas, Antoine 18 July 2014 (has links) (PDF)
La compréhension de la dynamique des réarrangements génomiques est importante en phylogénie. La phylogénie est l'étude de l'évolution des espèces. Un but majeur est d'établir les relations d'évolution au sein d'un groupe d'espèces, pour déterminer la topologie de l'arbre d'évolution formé par ce groupe et des ancêtres communs à certains sous-ensembles. Pour ce faire, il est naturellement très utile de disposer d'un moyen d'évaluer les distances évolutionnaires relatives entre des espèces, ou encore d'être capable d'inférer à un groupe d'espèces le génome d'un ancêtre commun à celles-ci. Ce travail de thèse, dans la lignée d'autres travaux, consiste à élaborer de tels moyens, ici dans des cas particuliers où les génomes possèdent des gènes en multiples copies, ce qui complique les choses. Plusieurs hypotèses explicatives de la présence de duplications ont été considérées, des formules de distance ainsi que des algorithmes de calcul de scénarios ont été élaborés, accompagnés de preuves de complexité.
|
70 |
Méthodes numériques et formelles pour l'ingénierie des réseaux biologiques : traitement de l'information par des populations d'oscillateurs. Approches par contraintes et Taxonomie des réseaux biologiquesBen amor, Mohamed hedi 11 July 2012 (has links) (PDF)
Cette thèse concerne l'ingénierie des systèmes complexes à partir d'une dynamique souhaitée. En particulier, nous nous intéressons aux populations d'oscillateurs et aux réseaux de régulation génétique. Dans une première partie, nous nous fondons sur une hypothèse, introduite en neurosciences, qui souligne le rôle de la synchronisation neuronale dans le traitement de l'information cognitive. Nous proposons de l'utiliser sur un plan plus large pour étudier le traitement de l'information par des populations d'oscillateurs. Nous discutons des isochrons de quelques oscillateurs classés selon leurs symétries dans l'espace des états. Cela nous permet d'avoir un critère qualitatif pour choisir un oscillateur. Par la suite, nous définissons des procédures d'impression, de lecture et de réorganisation de l'information sur une population d'oscillateurs. En perspective, nous proposons un système à couches d'oscillateurs de Wilson-Cowan. Ce système juxtapose convenablement synchronisation et désynchronisation à travers l'utilisation de deux formes de couplage: un couplage continu et un couplage par pulsation. Nous finissons en proposant une application de ce système: la détection de contours dans une image. En deuxième partie, nous proposons d'utiliser une approche par contraintes pour identifier des réseaux de régulation génétique à partir de connaissances partielles sur leur dynamique et leur structure. Le formalisme que nous utilisons est connu sous le nom de réseaux d'automates booléens à seuil ou réseaux Hopfield-semblables. Nous appliquons cette méthode, afin de déterminer le réseau de régulation de la morphogenèse florale d'Arabidopsis thaliana. Nous montrons l'absence d'unicité des solutions dans l'ensemble des modèles valides (ici, 532 modèles). Nous montrons le potentiel de cette approche dans la détermination et la classification de modèles de réseaux de régulation génétique. L'ensemble de ces travaux mène à un certain nombre d'applications, en particulier dans le développement de nouvelles méthodes de stockage de l'information et dans le design de systèmes de calcul non conventionnel.
|
Page generated in 0.052 seconds