Return to search

Classification de transcrits d’ARN à partir de données brutes générées par le séquençage par nanopores

Le rythme impressionnant auquel les technologies de séquençage progressent est alimenté par leur promesse de révolutionner les soins de santé et la recherche biomédicale. Le séquençage par nanopores est devenu une technologie attrayante pour résoudre des lacunes des technologies précédentes, mais aussi pour élargir nos connaissances sur le transcriptome en générant des lectures longues qui simplifient l’assemblage et la détection de grandes variations structurelles. Au cours du processus de séquençage, les nanopores mesurent les signaux de courant électrique représentant les bases (A, C, G, T) qui se déplacent à travers chaque nanopore. Tous les nanopores produisent simultanément des signaux qui peuvent être analysés en temps réel et traduits en bases par le processus d’appel de bases. Malgré la réduction du coût de séquençage et la portabilité des séquenceurs, le taux d’erreur de l’appel de base entrave leur mise en oeuvre dans la recherche biomédicale. Le but de ce mémoire est de classifier des séquences d’ARNm individuelles en différents groupes d’isoformes via l’élucidation de motifs communs dans leur signal brut. Nous proposons d’utiliser l’algorithme de déformation temporelle dynamique (DTW) pour l’alignement de séquences combiné à la technologie nanopore afin de contourner directement le processus d’appel de base. Nous avons exploré de nouvelles stratégies pour démontrer l’impact de différents segments du signal sur la classification des signaux. Nous avons effectué des analyses comparatives pour suggérer des paramètres qui augmentent la performance de classification et orientent les analyses futures sur les données brutes du séquençage par nanopores. / The impressive rate at which sequencing technologies are progressing is fueled by their promise to revolutionize healthcare and biomedical research. Nanopore sequencing has become an attractive technology to address shortcomings of previous technologies, but also to expand our knowledge of the transcriptome by generating long reads that simplify assembly and detection of large structural variations. During the sequencing process, the nanopores measure electrical current signals representing the bases (A, C, G, T) moving through each nanopore. All nanopores simultaneously produce signals that can be analyzed in real time and translated into bases by the base calling process. Despite the reduction in sequencing cost and the portability of sequencers, the base call error rate hampers their implementation in biomedical research. The aim of this project is to classify individual mRNA sequences into different groups of isoforms through the elucidation of common motifs in their raw signal. We propose to use the dynamic time warping (DTW) algorithm for sequence alignment combined with nanopore technology to directly bypass the basic calling process. We explored new strategies to demonstrate the impact of different signal segments on signal classification. We performed comparative analyzes to suggest parameters that increase classification performance and guide future analyzes on raw nanopore sequencing data.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/28251
Date12 1900
CreatorsAtanasova, Kristina
ContributorsSmith, Martin
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0031 seconds