11 |
Développement et évaluation de méthodes bioinformatiques pour la détection de séquences cis-régulatrices impliquées dans le développement de la drosophileTuratsinze, Jean Valéry 23 November 2009 (has links)
L'objectif de ce travail est de développer et d'évaluer des approches méthodologiques pour la<p>prédiction de séquences cis-régulatrices. Ces approches ont été intégrées dans la suite logicielle<p>RSAT (Regulatory Sequences Analysis Tools). Ces séquences jouent un rôle important dans la<p>régulation de l'expression des gènes. Cette régulation, au niveau transcriptionnel, s'effectue à<p>travers la reconnaissance spécifique entre les facteurs de transcription et leurs sites de fixation<p>(TFBS) au niveau de l'ADN.<p>Nous avons développé et évalué une série d'outils bioinformatiques qui utilisent les matrices<p>position-poids pour prédire les TFBS ainsi que les modules cis-régulateurs (CRM). Nos outils<p>présentent l'avantage d'intégrer les différentes approches déjà proposées par d'autres auteurs tout<p>en proposant des fonctionnalités innovantes.<p>Nous proposons notamment une nouvelle approche pour la prédiction de CRM basé sur la<p>détection de régions significativement enrichies en TFBS. Nous les avons appelés les CRER (pour<p>Cis-Regulatory Elements Enriched Regions). Un autre aspect essentiel de toute notre approche<p>réside dans le fait que nous proposons des mesures statistiques rigoureuses pour estimer<p>théoriquement et empiriquement le risque associé aux différentes prédictions. Les méthodes de<p>prédictions de séquences cis-regulatrices prédisent en effet un taux de fausses prédictions<p>généralement élevé. Nous intégrons un calcul des P-valeurs associées à toutes les prédictions.<p>Nous proposons ainsi une mesure fiable de la probabilité de faux positifs.<p>Nous avons appliqué nos outils pour une évaluation systématique de l'effet du modèle de<p>background sur la précision des prédictions à partir de la base de données de TRANSFAC. Nos<p>résultats suggèrent une grande variabilité pour les modèles qui optimisent la précision des<p>prédictions. Il faut choisir le modèle de background au cas par cas selon la matrice considérée.<p>Nous avons ensuite évalué la qualité des matrices de tous les facteurs de transcription de<p>drosophile de la base de données ORegAnno, c'est à dire leur pouvoir de discrimination entre les<p>TFBS et les séquences génomiques. Nous avons ainsi collecté des matrices des facteurs de<p>transcription de drosophile de bonne qualité.<p>A partir des matrices de drosophile que nous avons collectées, nous avons entamé une analyse<p>préliminaire multi-genome de prédictions de TFBS et de CRM dans la région de lʼenhancer dorsocentral<p>(DCE) du complexe achaete-scute de drosophile. Les gènes de ce complexe jouent un<p>rôle important dans la détermination des cellules système nerveux périphérique de drosophile. Il a<p>été prouvé expérimentalement qu'il existe un lien direct entre le phénotype du système nerveux<p>périphérique et les séquences cis-régulateurs des gènes de ce complexe.<p>Les outils que nous avons développés durant ce projet peuvent s'appliquer à la prédiction des<p>séquences de régulation dans les génomes de tous les organismes. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
Page generated in 0.0627 seconds