Return to search

Sistema para an?lise de sequ?ncias nucleot?dicas do HIV dispon?veis no GenBank

Submitted by Luis Ricardo Andrade da Silva (lrasilva@uefs.br) on 2016-03-31T01:16:15Z
No. of bitstreams: 1
Disserta??o Final.pdf: 2489318 bytes, checksum: 74b79aac96fa73b31d6e0dbb4272efe3 (MD5) / Made available in DSpace on 2016-03-31T01:16:15Z (GMT). No. of bitstreams: 1
Disserta??o Final.pdf: 2489318 bytes, checksum: 74b79aac96fa73b31d6e0dbb4272efe3 (MD5)
Previous issue date: 2015-12-15 / HIV infects over 40 million people worldwide and is considered by the World Health Organization a large scale pandemic. Which the associated disease has no cure. New data and analysis can help new treatment and vaccine development. However, the dataset is vast, with over 500,000 sequences available on GenBank. This data still lacks essential information such as subtyping and genome location. To help minimize these problems we developed a system for automated analysis from GenBank data. The tool performs sequence map according to HXB2 and subtyping by comparison with subtype reference sequences. This process uses Needleman-Wusch and Smith-Waterman respectively. All 582,678 sequences were mapped in 5 days and 14 hours and subtyped in 1 day and 7 hours with our algorithm, while the original approach was estimated to finish in 36 and 97 years respectively. Our tool was able to analyse the massive data in a reliable time. No current subtyping tool can analyse this high-throughput data. Our results showed that pol and gag genes were the most prevalent genes on the dataset, and could be explained because treatment and subtyping are based on these genes. Moreover, the structural genes were most prevalent, with 66.41%. This highlighted the low representation of regulatory genes on available data. The subtyping results showed that the subtype B was most frequent, with 45.96%. The recombinants together represent 43.37%. Furthermore, subtype C presented only 4.12% and the other pure subtypes less than 4%. Also, the geographical data was recovered from database and USA presented higher frequency, with 24.50%, showing a significant country bias. Our results present a new HIV subtype distribution with the most complete and recent dataset.Herein, we presented a new user friendly software for massive data analysis of viruses. This software is able to analyse highly mutational virus data, such as HCV and HIV in reliable time. Further, severe country bias raises questions regarding world subtype distribution. The analysis of all sequences from HIV provides new epidemy insights about subtypes and country distribution. / O HIV infecta mais de 40 milh?es de pessoas no mundo e ? considerado pela Organiza??o Mundial de Sa?de como uma pandemia. A doen?a associada n?o possui cura cl?nica. Novas an?lises e informa??es podem ajudar no desenvolvimento de novos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente etiol?gico dispon?vel ? vasto, contando com mais de 500 mil sequ?ncias no GenBank. Este conjunto de dados ainda carece de informa??es essenciais, como subtipo viral e localiza??o no genoma de refer?ncia. Para auxiliar na minimiza??o destes problemas, desenvolvemos um sistema para an?lise dos dados dispon?veis no GenBank. A ferramenta realiza o mapeamento de acordo com o genoma refer?ncia HXB2 e a subtipagem comparando as sequ?ncias de refer?ncia dos subtipos. Estes processos utilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente. Todas as 582.678 sequ?ncias foram mapeadas em 5 dias e 14 horas, e subtipadas em 1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminar em 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem dispon?vel atualmente ? capaz de analisar esta quantidade de dados. Nossos resultados mostraram que os genes gag e pol s?o mais prevalentes no conjunto de dados. O que pode ser explicado pelo fato de t?cnicas de avalia??o de resist?ncia aos antirretrovirais e subtipagem serem baseadas nesses genes. Al?m disso, os genes estruturais exibiram uma preval?ncia absoluta de 66.41%. Isto evidencia a pouca representatividade de genes regulat?rios no conjunto de dados. Os resultados da subtipagem mostram que o subtipo B ? o mais frequente com 45,96% de preval?ncia. Os recombinantes, combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12% de preval?ncia absoluta e outros subtipos puros menos de 4%. Al?m disso, dados geogr?ficos foram recuperados do banco de dados. Os Estados Unidos representam a maior frequ?ncia de sequ?ncias submetidas, com 24,5% de todos os dados dispon?veis. Nossos resultados apresentam uma nova distribui??o genot?pica do HIV, com o conjunto de dados mais recente e completo. Neste trabalho apresentamos um novo software para an?lise das sequ?ncias nucleot?dicas do HIV dispon?veis no GenBank. Este software ? capaz de analisar dados de v?rus com elevado comportamento mutacional como HIV e HCV em um curto espa?o de tempo. A an?lise de todas as sequ?ncias do HIV dispon?veis no GenBank oferece um novo ponto de vista sobre a epidemia, distribui??o de subtipos e geogr?fica.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.uefs.br:8080:tede/327
Date15 December 2015
CreatorsGon?alves, Jos? Irahe Kasprzykowski
ContributorsQueiroz, Artur Trancoso Lopo de
PublisherUniversidade Estadual de Feira de Santana, Mestrado em Computa??o Aplicada, UEFS, Brasil, DEPARTAMENTO DE CI?NCIAS EXATAS
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UEFS, instname:Universidade Estadual de Feira de Santana, instacron:UEFS
Rightsinfo:eu-repo/semantics/openAccess
Relation303317282311144204, 600, 600, 600, 600, -5486832816611506211, 3671711205811204509, 8930092515683771531

Page generated in 0.0025 seconds