Global ETD Search

Return to search

Comparaisons de séquences biologiques sur architecture massivement multi-cœurs

Rechercher les similarités entre séquences est une opération fondamentale en bioinformatique, que cela soit pour étudier des questions biologiques ou bien pour traiter les données issues de séquenceurs haut-débit. Il y a un vrai besoin d'algorithmes capables de traiter des millions de séquences rapidement. Pour trouver des similarités approchées, on peut tout d'abord considérer de petits mots exacts présents dans les deux séquences, les graines, puis essayer d'étendre les similarités aux voisinages de ces graines. Cette thèse se focalise sur la deuxième étape des heuristiques à base de graines : comment récupérer et comparer efficacement ces voisinages des graines, pour ne garder que les bons candidats ? La thèse explore différentes solutions adaptées aux processeurs massivement multicoeurs: aujourd'hui, les GPUs sont en train de démocratiser le calcul parallèle et préparent les processeurs de demain. La thèse propose des approches directes (extension de l'algorithme bit-parallèle de Wu-Manber, publiée à PBC 2011, et recherche dichotomique) ou bien avec un index supplémentaire (utilisation de fonctions de hash parfaites). Chaque solution a été pensée pour tirer le meilleur profit des architectures avec un fort parallélisme à grain fin, en utilisant des calculs intensifs mais homogènes. Toutes les méthodes proposées ont été implémentés en OpenCL, et comparées sur leur temps d'exécution. La thèse se termine par un prototype de read mapper parallèle, MAROSE, utilisant ces concepts. Dans certaines situations, MAROSE est plus rapide que les solutions existantes avec une sensibilité similaire.

Bioinformatique

Calcul intensif

Parallélisme

Processeurs massivement multi-coeurs

Cartes graphiques

GPU

Comparaisons de séquences

Heuristiques à base de graines

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00832663
Date	21 December 2012
Creators	Tran, Tuan Tu
Publisher	Université des Sciences et Technologie de Lille - Lille I
Source Sets	CCSD theses-EN-ligne, France
Language	English
Detected Language	French
Type	PhD thesis

Page generated in 0.0013 seconds

Comparaisons de séquences biologiques sur architecture massivement multi-cœurs

Description

Links & Downloads

Tags

Additional Fields