• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 207
  • 104
  • 32
  • Tagged with
  • 317
  • 153
  • 62
  • 60
  • 59
  • 58
  • 47
  • 39
  • 37
  • 35
  • 29
  • 25
  • 23
  • 21
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Dévelopement d'une méthode bio-informatique pour la prédiction des régions amyloidogéniques dans les protéines. / Development of bioinformatics method for prediction of amyloidogenic regions in proteins.

Ahmed, Abdullah 02 July 2013 (has links)
La formation d'agrégats protéiques insolubles et fibreux, appelés fibrilles amyloïdes, est impliquée dans une large variété de maladies humaines. Parmi elles, figurent entre autres, le diabète de type II, l'arthrite rhumatoïde et, notamment, les atteintes neurodégénératives débilitantes, telles que les maladies d'Alzheimer, de Parkinson ou encore de Huntington. Actuellement, il n'existe ni traitement, ni diagnostic précoce pour aucune de ces maladies.De nombreuses études ont montré que la capacité à former des fibrilles amyloïdes est une propriété inhérente à la chaîne polypeptidique. Ce constat a conduit au développement d'un certain nombre d'approches computationnelles permettant de prédire les propriétés amyloïdogéniques à partir de séquences d'amino-acides. Si ces méthodes s'avèrent très performantes vis à vis de courts peptides (~ 6 résidus), leur application à des séquences plus longues correspondant aux peptides et protéines en lien avec les maladies, engendre un nombre trop élevé de faux positifs. Le principal objectif de cette thèse consiste à développer une meilleure approche bioinformatique, capable de prédire les régions amyloïdogéniques à partir d'une séquence protéique. Récemment, l'utilisation de nouvelles techniques expérimentales a permis de mieux appréhender la structure des amyloïdes. Il est ainsi apparu que l'élément caractéristique de la majorité des fibrilles amyloïdes impliquées dans les maladies, était constitué d'une structure étagée (β-arcade), résultant de l'empilement de motifs « feuillet β – coude – feuillet b » appelés « β-arches ». Nous avons mis à profit cette particularité structurale pour créer une approche bioinformatique permettant de prédire les régions amyloïdogéniques d'une protéine à partir de l'information contenue dans sa séquence. Les résultats provenant de l'analyse des structures de type β-arcade, connues et modélisées, ont été compilés et traités à l'aide d'un algorithme écrit en langage Java, afin de créer le programme ArchCandy.L'application de ce programme à une sélection de séquences protéiques et peptidiques, connues pour leur lien avec les maladies, a permis de démontrer qu'il était en mesure de prédire correctement la majorité de ces séquences, de même que les séquences mutées impliquées dans les maladies familiales. Outre la prédiction de régions à haut potentiel amyloïde, ce programme suggère la conformation structurale adoptée par les fibrilles amyloïdes. Le séquençage de génomes entiers devenant toujours plus abordable, notre méthode offre une perspective de détermination individuelle des profils à risque, vis à vis de maladies neurodégénératives, liées à l'âge ou autres. Elle s'inscrit ainsi pleinement dans l'ère de la médecine personnalisée. / A broad range of human diseases are linked to the formation of insoluble, fibrous, protein aggregates called amyloid fibrils. They include, but are not limited to, type II diabetes, rheumatoid arthritis, and perhaps most importantly, debilitating neurodegenerative diseases such as Alzheimer's disease, Parkinson's disease, and Huntington's disease. There currently exists no cure, and no means of early diagnosis for any of these diseases. Numerous studies have shown that the ability to form amyloid fibrils is an inherent property of the polypeptide chain. This has lead to the development of a number of computational approaches to predict amyloidogenicity by amino acid sequences. Although these methods perform well against short peptides (about 6 residues), they generate an unsatisfactory high number of false positives when tested against longer sequences of the disease-related peptides and proteins. The main objective of this thesis was to develop an improved bioinformatics based approach to predict amyloidogenic regions from protein sequence.Recently new experimental techniques have shed light on the structure of amyloids showing that the core element of a majority of disease-related amyloid fibrils is a columnar structure (β—arcade) produced by stacking of β-strand-loop-β-strand motifs called “β-arches”. Using this structural insight, we have created a bioinformatics based approach to predict amyloidogenic regions from protein sequence information. Data from the analysis of the known and modeled β-arcade structures was incorporated into a rule based algorithm implemented in the Java programming language to create the ArchCandy program. Testing it against a set of protein and peptide sequences known to be related to diseases has shown that it correctly predicts most of these sequences and a number of mutated sequences related to the familial diseases. In addition to the prediction of regions with high amyloidogenic potential, a structural arrangement of the amyloid fibril is also suggested for each prediction. As whole genome sequencing becomes cheaper, our method provides opportunity to create individual risk profiles for the neurodegenerative, age-related and other diseases ushering in an era of personalized medicine.
32

Analyses bioinformatiques et classements consensus pour les données biologiques à haut débit / Bioinformatics analysis and consensus ranking for biological high throughput data

Yang, Bo 30 September 2014 (has links)
Cette thèse aborde deux problèmes relatifs à l’analyse et au traitement des données biologiques à haut débit: le premier touche l’analyse bioinformatique des génomes à grande échelle, le deuxième est consacré au développement d’algorithmes pour le problème de la recherche d’un classement consensus de plusieurs classements.L’épissage des ARN est un processus cellulaire qui modifie un ARN pré-messager en en supprimant les introns et en raboutant les exons. L’hétérodimère U2AF a été très étudié pour son rôle dans processus d’épissage lorsqu’il se fixe sur des sites d’épissage fonctionnels. Cependant beaucoup de problèmes critiques restent en suspens, notamment l’impact fonctionnel des mutations de ces sites associées à des cancers. Par une analyse des interactions U2AF-ARN à l’échelle génomique, nous avons déterminé qu’U2AF a la capacité de reconnaître environ 88% des sites d’épissage fonctionnels dans le génome humain. Cependant on trouve de très nombreux autres sites de fixation d’U2AF dans le génome. Nos analyses suggèrent que certains de ces sites sont impliqués dans un processus de régulation de l’épissage alternatif. En utilisant une approche d’apprentissage automatique, nous avons développé une méthode de prédiction des sites de fixation d’UA2F, dont les résultats sont en accord avec notre modèle de régulation. Ces résultats permettent de mieux comprendre la fonction d’U2AF et les mécanismes de régulation dans lesquels elle intervient.Le classement des données biologiques est une nécessité cruciale. Nous nous sommes intéressés au problème du calcul d’un classement consensus de plusieurs classements de données, dans lesquels des égalités (ex-aequo) peuvent être présentes. Plus précisément, il s’agit de trouver un classement dont la somme des distances aux classements donnés en entrée est minimale. La mesure de distance utilisée le plus fréquemment pour ce problème est la distance de Kendall-tau généralisée. Or, il a été montré que, pour cette distance, le problème du consensus est NP-difficile dès lors qu’il y a plus de quatre classements en entrée. Nous proposons pour le résoudre une heuristique qui est une nouvelle variante d’algorithme à pivot. Cette heuristique, appelée Consistent-pivot, s’avère à la fois plus précise et plus rapide que les algorithmes à pivot qui avaient été proposés auparavant. / It is thought to be more and more important to solve biological questions using Bioinformatics approaches in the post-genomic era. This thesis focuses on two problems related to high troughput data: bioinformatics analysis at a large scale, and development of algorithms of consensus ranking. In molecular biology and genetics, RNA splicing is a modification of the nascent pre-messenger RNA (pre-mRNA) transcript in which introns are removed and exons are joined. The U2AF heterodimer has been well studied for its role in defining functional 3’ splice sites in pre-mRNA splicing, but multiple critical problems are still outstanding, including the functional impact of their cancer-associated mutations. Through genome-wide analysis of U2AF-RNA interactions, we report that U2AF has the capacity to define ~88% of functional 3’ splice sites in the human genome. Numerous U2AF binding events also occur in other genomic locations, and metagene and minigene analysis suggests that upstream intronic binding events interfere with the immediate downstream 3’ splice site associated with either the alternative exon to cause exon skipping or competing constitutive exon to induce inclusion of the alternative exon. We further build up a U2AF65 scoring scheme for predicting its target sites based on the high throughput sequencing data using a Maximum Entropy machine learning method, and the scores on the up and down regulated cases are consistent with our regulation model. These findings reveal the genomic function and regulatory mechanism of U2AF, which facilitates us understanding those associated diseases.Ranking biological data is a crucial need. Instead of developing new ranking methods, Cohen-Boulakia and her colleagues proposed to generate a consensus ranking to highlight the common points of a set of rankings while minimizing their disagreements to combat the noise and error for biological data. However, it is a NP-hard questioneven for only four rankings based on the Kendall-tau distance. In this thesis, we propose a new variant of pivot algorithms named as Consistent-Pivot. It uses a new strategy of pivot selection and other elements assignment, which performs better both on computation time and accuracy than previous pivot algorithms.
33

Infidélité de transcription et carcinogénèse. Analyse bioinformatique et preuves de concept biologiques / Transcription infidelity and carcinogenesis. Bioinformatical analysis and biological proofs of principle

Brulliard, Marie 09 July 2009 (has links)
L’un des enjeux de la lutte contre le cancer réside dans la compréhension de l’hétérogénéité de la maladie. Le but de notre travail a été d’explorer l’hétérogénéité des cellules cancéreuses du point de vue de la séquence d’ARN messager. Les ESTs (ou Expressed Sequence Tags) d’origine humaine ont été alignées aux séquences de référence ARNm. Les alignements ont été exploités de manière à mesurer les variations de séquence des ESTs issues de tissus tumoraux ou non tumoraux à chaque position de chaque transcrit. L’analyse statistique mise en place a consisté à identifier les positions pour lesquelles les variations de séquence, i.e. substitutions, insertions et délétions, sont différentes entre les ESTs d’origine tumorale et les ESTs d’origine non tumorale. L’étude bioinformatique s’est d’abord concentrée sur 17 transcrits abondamment exprimés avant d’être étendue à l’ensemble du transcriptome. Elle a ensuite été réalisée sur les ESTs murines. Les résultats montrent que l’hétérogénéité des transcrits cancéreux est plus grande que celle des tissus sains. Ainsi, l’infidélité de transcription est augmentée au cours de la carcinogénèse. Ce résultat bioinformatique a été validé par différentes approches biologiques. Tout d’abord, le clonage puis le séquençage d’un ARN provenant d’une tumeur pulmonaire humaine et présentant une délétion prédite de manière bioinformatique ont été réalisés, et ce, en l’absence de mutation somatique. Ensuite, l’identification par spectrométrie de masse d’un variant protéique issu de la traduction d’un ARN dont le codon stop est substitué en triplet codant a été possible. Enfin, l’intérêt de rechercher dans le sérum de patients cancéreux la présence d’anticorps dirigés contre des protéines issues de la traduction d’ARNm infidèles a été démontré. Ainsi, l’infidélité de transcription est un phénomène augmenté dans le cancer et responsable d’une partie de l’hétérogénéité des cellules cancéreuses. L’intérêt de cette découverte réside dans les perspectives nouvelles qu’elle offre en termes de compréhension des mécanismes de carcinogénèse et en termes de diagnostic de la maladie / One of the aim of the fight against cancer is to understand the heterogeneity of cancer cells. The goal of our work has been to explore cancer cell mRNA heterogeneity. ESTs (Expressed Sequence Tags) extracted from normal and cancer tissues have been aligned to mRNA reference sequences. This allowed identification of non-random sequence variations that occurred at statistically significant increased rates in cancer compared to normal libraries. This analysis first focused on 17 abundant transcripts and was next extended to whole human genome, as well as to that of Mus musculus. The results show an increase of transcription infidelity events in cancer tissues. Three types of events occur, i.e. base substitutions, deletions and insertions. Bioinformatics results have been validated through different biological methods. First, the cloning and sequencing of mRNA from lung cancer human with a deletion occurring at bioinformatically predicted position in absence of somatic mutation has been achieved. Then, mass spectrometry analysis confirmed the existence of protein variants resulting from translation of mRNA bypassing stop codon. Finally, we showed that transcription infidelity peptides contain specific epitopes of immunoglobulins ; detection of changes in immunoglobulins in patients with cancers opens a novel path toward early stage cancer diagnosis. This increased transcription infidelity in cancer contributes to the heterogeneity of cancer cells. This finding opens novel perspectives and strategies toward understanding carcinogenesis and diagnostic of the disease
34

Recherche de gènes candidats responsables du Syndrome d'Aicardi : Complémentarité des approches expérimentales et bioinformatiques / Candidate gene retrieval for Aicardi Syndrome : Complementarities of the experimental and bioinformatics approaches

Yilmaz, Saliha 07 November 2007 (has links)
Le syndrome d'Aicardi (AiC) est caractérisé par ia triade agénésie du corps calleux, spasmes infantiles et lacunes chorlorétiniennes. Cette triade s'accompagne d'un retard mental souvent sévère. Le syndrome survient chez les filles de façon sporadique, selon un mode d'hérédité dominant lié au chromosome X. Une approche de clonage positionnel n'est donc pas possible puisque aucun cas de transmission familiale n'a été répertorié à ce jour. Une puce génomique spécifique de l'X (résolution théorique de 82 kb) a été utilisée pour cribler le génome de 18 filles AIC à la recherche de variations quantitatives délétères. Aucun variant en nombre de copie (CNV) n'a été impliqué dans la pathologie et nous avons exclu chez les 18 patientes de notre étude les grands réarrangements touchant la totalité du gène FLNA, gène évoqué antérieurement comme candidat fonctionnel. Nous avons alors complété cette stratégie par deux études transcriptomiques. Cette approche vise à sélectionner les gènes dont l'expression diffère entre les filles AIC et des témoins. Initialement à partir d'ARN de 3 lignées cellulaires et d'une puce 22 000 clones (22K) nous avons exclu, a priori, par séquençage 5 gènes candidats: A5MT, M5T4, N5BP1, PLXNB3 et 5YN1. Une deuxième étape a été engagée sur des ARN de prélèvements sanguins de 10 couples fille-mère et une puce 44K afin d'enrichir les données et de pallier à l'influence des lignées cellulaires. Outre la sélection de gènes candidats impliqués dans le syndrome, cette approche est surtout vouée à l'identification des fonctions biologiques dérégulées chez les patientes Aicard!. Les groupements fonctionnels des gènes signatures chez les filles révèlent clairement les effets des facteurs âge, heure de prélèvement, variabilité inter-individuelle. Un groupe de gènes annotés par le terme GO " nucléosome " semble être influencé par le facteur " prise d'antiépileptique ". Un logiciel baptisé ACGR (Approach for Candidate Gene Retrieval) a été conçu et prototypé. Le but est de cribler les bases de données biologiques en incluant des données privées (données des puces transcriptomiques) à la recherche des gènes qui, lorsqu'ils sont mutés donnent un phénotype de syndrome d'Aicardi. Par cette approche, les gènes PLXNB3, MADEGl et 5UV39H3 sont trois gènes candidats pour le Syndrome d'Aicardi. Le séquençage de ces trois gènes s'inscrit dans les perspectives à court terme. Ces approches intégratives reflètent l'évolution de nos concepts de recherche passant de la génétique du retard mental à la génomique du retard mental en tenant compte de la multiplicité des réseaux d'interactions et de régulations. / Aicardi syndrome (AIC) is a severe X-linked dominant neurodevelopmental disorder a!fecting almost exclusively females. Chief features include infantile spasms, corpus caliosal agenesis, and chorioretinal abnormalities. Aicardi syndrome is a sporadic disorder and hypothesized to he caused by heterozygous mutations in an X Iinked-gene but up to now no defined candidate region on the X chromosome has been identified. Positional candidate gene approach is not possible because no familial case were reported. Eighteen Ale patients were analyzed with a full-coverage X chromosomal BAC arrays. No disease-associated Copy Number Variant was identified and we excluded total deletion and duplication of FLNA gene wich had been previously pointed out as a functional candidate. To complete this approach, 2 microarrays studies were performed to compare gene expression between Ale patients and a pool of healthy patients. The first study, on RNA extracted Irom Iymphoblastoid cell lines isolated between 3 AIC patients used 22k oligonucleotide microarray. For the screened patients, no deleterious mutations were found in the 6 selected candidate genes (ASMT, PLXNB3, MST4, SYN1, SSR4, and NSBP1). The second study was performed with 44k microarray, on RNA directly extracted from 10 AIC patients blood samples. Functional clustering analyses revealed the effects of the factors: age, time of blood sampie extraction, and inter-individual gene expression variance. A group of gene annotated by "nucleosome" GO term seemed inlluenced by the factor "use of antiepileptic drugs". In a last strategy, we proposed a knowledge-guided approach for retrieving disease-specific candidate genes named ACGR (Approach for Candidate Gene Retrieval). Knowledge embedded in expert's definitions of candidate gene was expressed as relations between genes and the disease. These definitions were used for guiding-data modelling and are converted into views on the data which ultimately led to retrieval of sets of candidate genes. Thus PLXNB3, MADEGl and SUV39H3 were selected as candidate genes. The perspectives of our work will include sequencing analysis of these genes. These integrative approaches reflect the evolution of our concepts and allow, with the use of biological pathways, the transition between the genetics of mental retardation to the genomics of mental retardation.
35

Génomique des populations : étude comparative au sein du sous-phylum des Saccharomycotina / Population genomics : comparative study within the Saccharomycotina subphylum

Gounot, Jean-Sébastien 21 September 2018 (has links)
Les améliorations des technologies de séquençage offrent aujourd’hui la possibilité d’explorer la variabilité intraspécifique au sein d’une espèce à travers le séquençage complet du génome d’un grand nombre d’individus. Dans ce contexte, mes travaux de thèse se sont basés sur l’étude et la comparaison de la variabilité génomique à travers des études de génomique des populations au sein de plusieurs espèces de levures. Dans un premier temps, j’ai réalisé une étude systématique de la variabilité intraspécifique au sein de 6 espèces de levures, me donnant notamment la possibilité d’étudier la variabilité du contenu en gènes entre les espèces. Dans un second temps, je me suis focalisé sur l’utilisation des dernières technologies de séquençage dans l’objectif de produire une séquence de référence de Dekkera bruxellensis, dont l’absence pour un grand nombre d’espèces limite l’établissement d’étude de génomique des populations. Cette séquence a été utilisée dans un dernier temps afin d’étudier l’évolution de l’espèce. Dans l’ensemble, ces travaux apportent de solides fondations dans l’exploration de la diversité génétique au sein d’espèces non-modèles. / Advent of high throughput technologies as well as the reduction of their price open the way to the exploration of the intraspecific genetic variation at the species level by sequencing the complete genome of a wide range of individuals. Doing so, I first produced populations genomics studies of 6 yeast species based on the same framework, allowing the exploration and comparison of the genes repository of each species. I then used new sequencing technologies to produce a reference sequence for the yeast species Dekkera bruxellensis. Using this sequence, I was then able to produce for the first time a population genomic study at the genome wide scale for this species.
36

Exploration bioinformatique des relations entre mécanismes moléculaires et fonctions cellulaires

Gaugain,, Claire 18 December 2007 (has links) (PDF)
L'intégration des données biologiques est un des principaux défis de la bioinformatique aujourd'hui. La mise à disposition de quantités importantes de données concernant tous les niveaux d'organisation de la cellule, nécessite la mise en place de stratégies d'intégration pour rassembler toutes ces données, et ainsi mieux comprendre le fonctionnement de la cellule. Nous nous sommes intéressés à l'exploitation du concept de voisinage pour représenter et intégrer des données biologiques. Dans un premier temps, notre travail met l'accent sur l'importance du choix de la représentation pour mener une intégration efficace. Notre étude sur la représentation du métabolisme a montré que les modes élémentaires sont une alternative pertinente à la représentation classique sous forme de voies métaboliques. De plus, les modes élémentaires nous ont permis de trouver des routes métaboliques utilisées par la cellule en réponse à divers stress. Nous avons également exploité le voisinage dans une perspective de génomique comparative. Nous avons cherché à déterminer si le voisinage d'expression peut être une signature pour les gènes, et s'il peut être utilisé pour caractériser des gènes en établissant des équivalences entre des génomes (orthologues ou gènes fonctionnellement similaires). Les résultats présentés confirment l'intérêt de l'exploration du voisinage, des gènes et de leur produit, pour intégrer des données hétérogènes. L'efficacité de cette exploration est fortement liée au choix de la représentation des connaissances.
37

Reconstruction ab initio de voies métaboliques - Formalisation et approches combinatoires

Boyer, Frédéric 09 July 2004 (has links) (PDF)
La reconstruction des voies métaboliques d un organisme est une tâche importante en biologie et plusieurs approches ont déjà été proposées pour assister ce travail mais il y a un besoin pour des approches plus exploratoires.<br /><br />La première partie de cette thèse s'intéresse à la reconstruction ab initio de voies métaboliques. Cela consiste à retrouver au sein du réseau de l'ensemble des réactions chimiques décrites pour un organisme vivant, un sous réseau connectant au moins deux composés. Nous proposons une nouvelle formulation de ce problème qui considère les réactions comme des transferts d'atomes entre composés chimiques. Une voie métabolique est ainsi associée à un transfert d'atomes entre deux composés. Le problème de la reconstruction est alors de rechercher la succession de réactions maximisant le nombre d atomes transférés entre ces deux composés. Ce problème est exprimé comme la recherche d'une composition d'injections partielles dont la taille de l'image est maximale. La complexité de ce problème a été étudiée et un algorithme le résolvant est présenté.<br /><br />La seconde partie présente la formalisation d'un problème de comparaison de graphes. Le cas particulier traité dans cette thèse concerne la comparaison d'un réseau de réactions avec l'organisation spatiale des gènes sur le génome. Cette comparaison permet l'identification de voies métaboliques codées en opérons dans les génomes bactériens.
38

La fluidité des génomes

Coissac, Eric 18 November 2005 (has links) (PDF)
Depuis le milieu des années 1990 et la publication des deux premiers génomes complètement séquencés (Haemophilus influenzae et Saccharomyces cerevisiae), la biologie a franchi une nouvelle étape. Après la révolution de la biologie moléculaire du début des années 1970 et la vision, que certains qualifient de réductionniste, qu'elle a amenée, l'ère de la génomique fait actuellement évoluer la biologie vers une vision plus intégrative. Ce nouvel engouement pour une biologie dite intégrative a permis de prendre conscience que l'idée selon laquelle l'inventaire complet des gènes d'un organismes permettrait d'appréhender son fonctionnement est une vision simpliste, bien qu'elle ait justifié en grande partie le développement de nombreux "projets génomes".<br /><br />J'ai eu la chance de commencer mes travaux de recherche au début des projets génomes et j'ai, dans ce cadre, participé au projet de séquençage du génome de la levure Saccharomyces cerevisiae. Je ne pourrais dire si c'est en opposition à l'idée du génome vu comme un simple sac à gènes, mais dès ce moment, j'ai orienté mon travail de recherche vers l'étude de l'évolution de la structure des chromosomes de la manière la plus indépendante possible des gènes qu'ils portent. Il m'importe, au travers de mes travaux, d'essayer de mettre en évidence des contraintes évolutive qui sont liées à la nature même du support de l'information génétique et non à l'information portée.<br /><br />La stratégie suivie m'a conduit à étudier les mécanismes de duplication à l'origine de nombreux remaniements chromosomiques. Il m'a été ainsi possible de proposer un modèle expliquant l'origine de nombreuses répétitions observables dans les génomes ainsi que leurs évolutions. Ce modèle semble être applicable, pour ses grandes lignes, aux trois super règnes (Eucaryotae, Eubacteriacae et Archae) ce qui montre le caractère ancestral des mécanismes sous-jacents.<br /><br />Même si l'exercice présente un intérêt, il ne serait sans doute pas raisonnable de poursuivre ce type de travail sans tenter de croiser les résultats ainsi obtenus avec des données relatives à l'information présente sur les chromosomes, et donc à la fonction des gènes codés par ceux-ci. La mise en place du lien entre les données de répétitions dont je dispose et les données fonctionnelles disponibles relève de l'intégration et donc de la représentation des connaissances. MicrOBI peut être considéré comme ma réponse à ce problème. Aujourd'hui cette base de données permet de maintenir cohérents les liens existant entre plusieurs bases de données publiques décrivant différents types d'informations biologiques. L'ajout des données de répétition au schéma actuel permettra de poser au système des requêtes complexes intégrant les différents niveaux de données que sont le génome, le protéome et les classifications fonctionnelles.
39

Parallélisation sur matériel graphique : contributions au repliement d'ARN et à l'alignement de séquences

Rizk, Guillaume 12 January 2011 (has links) (PDF)
La bioinformatique nécessite l'analyse de grandes quantités de données. Avec l'apparition de nouvelles technologies permettant un séquençage à haut débit à bas coût, la puissance de calcul requise pour traiter les données a énormément augmenté.. Cette thèse examine la possibilité d'utiliser les processeurs graphiques (GPU) pour des applications de bioinformatique. Dans un premier temps, ce travail s'intéresse au calcul des structures secondaires d'ARN. Ce problème est en général calculé par programmation dynamique, avec un algorithme qui pose de sérieux problèmes pour un code GPU. Nous introduisons une nouvelle implémentation tuilée qui fait apparaitre une bonne localité mémoire, permettant ainsi un programme GPU très efficace. Cette modification permet également de vectoriser le code CPU et donc de faire une comparaison honnête des performances entre GPU et CPU. Dans un deuxième temps, ce travail aborde le problème d'alignements de séquences. Nous présentons une parallélisation GPU d'une méthode utilisant une indexation par graines. L' implémentation sur GPU n'étant pas efficace, nous nous tournons vers le développement d'une version CPU. Notre contribution principale est le développement d'un nouvel algorithme éliminant rapidement les nombreux alignements potentiels, basé sur le précalcul de portions de la matrice de programmation dynamique. Ce nouvel algorithme a conduit au développement d'un nouveau programme d'alignement très efficace. Notre travail fournit l'exemple de deux problèmes différents dont seulement un a pu être efficacement parallélisé sur GPU. Ces deux expériences nous permettent d'évaluer l'efficacité des GPU et leur place en bioinformatique.
40

L'annotation des éléments transposables par la compréhension de leur diversification

Flutre, Timothée 28 October 2010 (has links) (PDF)
Tout organisme vivant est le produit d'interactions complexes entre son génome et son environnement, interactions caractérisées par des échanges de matière et d'énergie indispensables à la survie de l'organisme et la transmission de son génome. Depuis la découverte dans les années 1910 que le chromosome est le support de l'information génétique, les biologistes étudient les génomes afin de décrypter les mécanismes et processus à l'oeuvre dans le développement des organismes et l'évolution des populations. Grâce aux améliorations technologiques des dernières décennies, plusieurs génomes ont été entièrement séquencés, leur nombre s'accroissant rapidement, mais ils sont loin d'être décryptés pour autant. En effet, certains de leurs composants, les éléments transposables, sont encore mal compris, bien qu'ils aient été détectés chez quasiment toutes les espèces étudiées, et qu'ils puissent représenter jusqu'à 90% du contenu total de leurs génomes. Les éléments transposables sont des fragments du génome possédant la particularité d'être mobiles. Ils ont donc un impact majeur sur la structure des génomes mais également sur l'expression des gènes avoisinants, notamment via des mécanismes épigénétiques. Leur évolution est aussi particulière étant donné qu'ils ont une transmission verticale non-mendélienne et que de nombreux cas de transferts horizontaux ont été mis en évidence. Mais, à part dans le cas de certains organismes modèles pour lesquels nous disposons de séquences de référence, l'annotation des éléments transposables représente souvent un goulot d'étranglement dans l'analyse des séquences génomiques. A cela s'ajoute le fait que les études de génomique comparée montrent que les génomes sont bien plus dynamiques qu'on ne le croyait, en particulier ceux des plantes, ce qui complique d'autant l'annotation précise des éléments transposables. Pendant mes travaux de thèse, j'ai commencé par comparer les programmes informatiques existants utilisés dans les approches d'annotation de novo des éléments transposables. Pour cela, j'ai mis au point un protocole de test sur les génomes de Drosophila melanogaster et Arabidopsis thaliana. Ceci m'a permis de proposer une approche de novo combinant plusieurs outils, capable ainsi de reconstruire automatiquement un grand nombre de séquences de référence. De plus, j'ai pu montrer que notre approche mettait en évidence les variations structurales au sein de familles bien connues, notamment en distinguant des variants structuraux appartenant à une même famille d'éléments transposables, reflétant ainsi la diversification de ces familles au cours de leur évolution. Cette approche a été implémentée dans une suite d'outils (REPET) rendant possible l'analyse des éléments transposables de nombreux génomes de plantes, insectes, champignons et autres. Ces travaux ont abouti à une feuille de route décrivant de manière pratique comment annoter le contenu en éléments transposables de tout génome nouvellement séquencé. Par conséquent, de nombreuses questions concernant l'impact de ces éléments sur l'évolution de la structure des génomes peuvent maintenant être abordées chez différents génomes plus ou moins proches. Je propose également plusieurs pistes de recherche, notamment la simulation des données nécessaires à l'amélioration des algorithmes de détection, démarche complémentaire de la modélisation de la dynamique des éléments transposables.

Page generated in 0.1135 seconds