Return to search

Méthodes de superarbres pour la phylogénomique

La phylogénétique est un champ de recherche de la biologie qui étudie les relations évolutives entre les espèces grâce à des données moléculaires et morphologiques. Ces relations peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement estimés en analysant des "arbres de gènes", i.e., des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons à la fois méthodologiques et biologiques, un arbre de gènes peut différer par endroits de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent donc simultanément plusieurs jeux de données correspondant à différentes familles de gènes, laissant le poids de l'évidence décider. Ce travail de thèse s'est focalisé sur l'approche "super-arbre" pour combiner les jeux de données. Cette approche consiste premièrement à construire des arbres (appelés communément arbres sources) à partir de données primaires, puis à les assembler en un arbre plus grand et plus complet, appelé super-arbre. Si elles sont utilisées au sein d'une approche "diviser pour régner" dans le but de reconstituer des grandes parties de l'arbre de vie, il est préférable d'utiliser une méthode de super-arbres conservative afin d'obtenir des arbres très fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations fiables qui sont présentes ou induites par les arbres sources (propriété d'induction - PI), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction - PC). Nous avons défini de manière formelle ces deux propriétés. De plus, comme aucune des méthodes de super-arbres existantes ne garantissait l'obtention d'un super-arbre satisfaisant PI et PC, nous avons développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes, PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. L'application de PhySIC_IST au problème complexe de la phylogénie des Triticeae a permis de mieux comprendre l'histoire évolutive de ce groupe. Les événements de duplication aboutissent presque toujours à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, i.e., une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ce type d'arbres, ils sont le plus souvent complètement ignorés dans les approches phylogénomiques classiques. Pourtant, ils représentent 60% à 80% des arbres de gènes disponibles dans les banques de données moléculaires. Dans cette thèse, nous proposons plusieurs algorithmes permettant d'obtenir, à partir d'un arbre multi-étiqueté, un arbre classique (i.e., où chaque espèce n'apparaît qu'une seule fois) contenant un maximum d'informations de spéciation présentes dans l'arbre initial. Cet arbre peut ensuite être utilisé par n'importe quelle méthode de super-arbres. Une application à la base de données hogenom est présentée

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00842893
Date08 December 2009
CreatorsScornavacca, Celine
PublisherUniversité Montpellier II - Sciences et Techniques du Languedoc
Source SetsCCSD theses-EN-ligne, France
LanguageEnglish
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds