Global ETD Search

1	Use of data analysis techniques to solve specific bioinformatics problems / Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatique Moulin, Serge 12 December 2018 (has links) De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. / Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm. Bio-Informatique Statistique Clustering de séquences génétiques Éléments transposables Courbes ROC Régression polytomique ordonnée Bioinformatics Statistic DNA clustering Transposable elements ROC analysis Ordinal polytomous regression 005 519
2	Méthodes et algorithmes pour l'approche statistique en phylogénie Guindon, Stephane 07 July 2003 (has links) (PDF) La variabilité des vitesses d'évolution entre sites est un phénomène très répandu au sein des séquences génétiques. Celui-ci est généralement modélisé par une loi gamma dont le paramètre de forme doit être estimé. Nous proposons ici une méthode visant à déterminer la valeur efficace de ce paramètre, c'est-à-dire la valeur la plus adaptée à l'estimation de topologies d'arbres. Nous montrons que (1)les valeurs efficaces conduisent généralement à sous-estimer la variabilité des vitesses et (2), celles-ci offrent une amélioration significative en termes de précision topologique comparé aux cas ou l'inférence d'arbre est réalisée à partir des vraies valeurs (inconnues) du paramètre. Outre la paramétrisation adéquate des modèles de substitution, l'exploration de l'espace des topologies d'arbres est un point sensible pour bon nombre de méthodes d'inférences de phylogénies. Nous proposons ici une nouvelle méthode pour l'estimation d'arbres de vraisemblances maximales, basée sur la modification simultanée de la topologie de l'arbre et de ses longueurs de branches. Nous montrons que cette approche autorise la construction de topologies particulièrement fiables à partir de l'analyse de plusieurs centaines de séquences. phylogénie séquences génétiques loi gamma maximum de vraisemblance

Search results

Use of data analysis techniques to solve specific bioinformatics problems / Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatique

Méthodes et algorithmes pour l'approche statistique en phylogénie