In this thesis we investigate the mappability of human genome and we look at some reasons that might cause unmappability in a region. We look at transposable elements and genome duplications as the main reasons for unmappability. In this analysis we simulated singled end, paired end and mate paired reads of 6 different lengths and we used BWA to map these simulated reads to the human genome. We assumed that a position in the genome is mappable if there is at least one unique read mapped to that position. We looked at unmappable regions and fraction of transposable elements or genome duplications corresponding to these regions. We also looked at age distribution of transposable elements and genome duplications that are in unmappable regions. Our results shows that regions that are in younger and longer transposable elements are harder to sequence. In order to compare our simulated data with a real sequencing data, we used the output of a sequencing from Illumina to compare coverage of genome in this real data set with our mappability results. We show that 4.1% of genome that is mappable in our simulations result, has low coverage in real sequencing data. We also investigated the reasons behind having low coverage in mappable regions. Our simulation result shows the impact of transposable elements and other repeats on mappability in the human genome and we show that using longer paired end and mate paired reads improves the mappability of the human genome. / Dans cette thèse, nous étudions la "visibilité" du génome humain par des méthodes séquençage modernes et nous regardons quelles sont les raisons qui pourraient causer l'absence de visibilité dans une région donnée. Nous montrons que les éléments transposables et les duplications de génome sont les principaux obstables à la visibilité de régions génomiques. Dans cette analyse, nous avons utilisé des reads simulés, de types individuels ou pairés, de 6 longueurs différentes et nous avons utilisé BWA pour assigner ces reads au génome humain. Nous avons supposé que la position dans le génome est visible s'il y a au moins un read unique assigné à cette position. Nous avons examiné les régions non visibles et la fraction d'éléments transposables ou des duplications de génome correspondant à ces régions. Nous avons également examiné la distribution d'âge des éléments transposables et des duplications de génome qui sont dans les régions non visibles. Nos résultats montrent que les régions qui sont des éléments plus jeunes et plus transposable sont plus difficiles à séquencer. Afin de comparer nos données simulées avec les données réelles de séquençage, nous avons utilisé des données de reséquençage provenant d'un séquençage Illumina pour comparer la couverture observée du génome avec nos résultats provenant de données simulées. Nous montrons que 4,1% du génome qui est visible dans nos simulations a une faible couverture dans les données de séquençage réelles. Nous avons également étudié les raisons pouvant expliquer une faible couverture dans les régions visibles. Les résultats de nos simulations montrent l'impact des éléments transposables et les autres répétitions sur la visibilité dans le génome humain et nous montrent que l'utilisation de long reads pairés améliorent la visibilité du génome humain.
Identifer | oai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.123270 |
Date | January 2014 |
Creators | Karzand, Masoud |
Contributors | Guillaume Bourque (Internal/Cosupervisor2), Mathieu Blanchette (Internal/Supervisor) |
Publisher | McGill University |
Source Sets | Library and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation |
Format | application/pdf |
Coverage | Master of Science (School of Computer Science) |
Rights | All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated. |
Relation | Electronically submitted theses |
Page generated in 0.0136 seconds