Return to search

LASZLO @ GALAXY - Um protótipo de serviço de montagem de genomas a partir de dados de sequenciamento de próxima geração (NGS) / LASZLO @ GALAXY - A genome assembly service prototype using Next-Generation Sequencing (NGS) data

Submitted by Alessandra Portugal (alessandradf@ioc.fiocruz.br) on 2013-09-20T18:32:48Z
No. of bitstreams: 1
Antonio Claudio Bello Ribeiro_Dissertação.pdf: 10104776 bytes, checksum: 898762236c2195576efe34934817220b (MD5) / Made available in DSpace on 2013-09-20T18:32:48Z (GMT). No. of bitstreams: 1
Antonio Claudio Bello Ribeiro_Dissertação.pdf: 10104776 bytes, checksum: 898762236c2195576efe34934817220b (MD5)
Previous issue date: 2012 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Vice Direção de Ensino, Informação e Comunicação. Rio de Janeiro, RJ, Brasil. / As tecnologias NGS (Next-Generation Sequencing), desenvolvidas para reduzir o custo e o tempo do processo de sequenciamento, geram uma grande massa de dados, a um custo relativamente baixo e com grande acurácia. No entanto, as leituras curtas, por elas produzidas, dificultam sobremaneira o processo de montagem de genomas, originando novos problemas computacionais. Para tentar suplantar esses desafios, várias ferramentas de software estão disponíveis e continuam a ser desenvolvidas. Cada um desses pacotes possui vantagens e desvantagens e, na maioria das vezes, se apresenta como uma solução individual, não estando integrado a outros. Além disso, tipicamente é exigido um conhecimento mais avançado de informática para a sua correta instalação, configuração e operação; o que, nem sempre, é a realidade do usuário final. Neste contexto, o projeto nomeado LASZLO (Linkage of Assembly Scripts Zero-costed and with License Opened) @ GALAXY propõe combinar diferentes ferramentas de tratamento de dados de NGS de uso livre, na forma de um protótipo básico de serviço de montagem de genomas, buscando facilitar o trabalho do usuário através da disponibilização de uma interface Web, sugestões de parametrização e de fluxos de trabalho para esse tipo de análise. Tomando por base o framework Galaxy, foram agregados fluxos de trabalho para montagens de dados de sequenciamento reais de diferentes organismos e provenientes das tecnologias Illumina, SOLiD™ e 454. O caráter aplicado do projeto originou soluções pontuais para atender a necessidades específicas, as quais foram reunidas sob o módulo NGS: LASZLO's Sandbox, uma "caixa de ferramentas" especialmente designada às abordagens de montagem do tipo de novo e com auxílio de genoma de referência. Durante a pesquisa, o protótipo LASZLO @ GALAXY processou, por exemplo, dados de sequenciamento de Leishmania amazonensis, contribuindo para um primeiro processo de avaliação do genoma do referido organismo. Atualmente, observa-se que a produção de dados não é o mais o "gargalo" em projetos de sequenciamento, mas sim o fluxo de análise subsequente sobre o material obtido. Muitas vezes, tais dados não se traduzem imediatamente em expansão do conhecimento biológico, devido às dificuldades encontradas pelo biólogo experimental em lidar, não somente com a miríade de ferramentas disponíveis, mas também com fatores como a inerente necessidade de integração entre elas e a implementação de infra-estrutura adequada para a sua operação. Os resultados obtidos no projeto indicam que o sistema proposto, vislumbrado como um eventual serviço institucional ou mesmo de menor âmbito, pode se tornar um aliado do usuário final quanto à manipulação dos dados de NGS. / The NGS (Next-Generation Sequencing) technologies, designed to reduce sequencing process costs and time, generate a huge amount of data, at a relatively low cost and with great accuracy. However, the produced short reads strongly difficult the genome assembly process, originating new computational issues. To overcome those challenges, there are several software tools available and continuously being developed. Each of these tools presents advantages and disadvantages and most of them are isolated, not integrated solutions. Moreover, typically it is required a higher level of computer-literacy for their proper installation, configuration and usage, which, not always, is the end-user reality. In this context, the project named LASZLO (Linkage of Assembly Scripts Zero-costed and with License Opened) @ GALAXY suggests to combine different open source tools for NGS data handling, as a basic prototype service for genome assembly, aiming at simplifying the end-user task by providing a Web interface, suggestions of parametrization and workflows for this kind of analysis. Based on the Galaxy framework, some workflows for the assembly of real sequencing data from different organisms and produced by the Illumina, SOLiD™ and 454 technologies were aggregated. Also, due to the applied characteristic of the project, a few punctual solutions were generated to address specific needs. Those solutions were encapsulated in the NGS: LASZLO's Sandbox module, a "toolbox" especially tailored for the de novo and reference-guided assembly approaches. During the research, the LASZLO @ GALAXY prototype processed, for instance, sequencing data of the Leishmania amazonensis organism, contributing for a first evaluating process of its genome. Presently, it's noticed that the data generation is no longer the "bottleneck" of the sequencing projects, but the downstream data analysis. Frequently, the acquired data is not immediately translated into biological knowledge expansion, due to the obstacles met by the experimental biologist when dealing, not only with the myriad of available tools, but also with factors like the inherent need of their integration and the deployment of the adequate infrastructure for their operation. The results achieved during project execution indicate that the proposed system, glimpsed as an eventual institutional service or even as one of smaller scope, might become an end-user's ally in the NGS data manipulation.

Identiferoai:union.ndltd.org:IBICT/oai:www.arca.fiocruz.br:icict/6943
Date January 2012
CreatorsRibeiro, Antonio Cláudio Bello
ContributorsDávila, Alberto Mártin Rivera, Souza, Marcos Paulo Catanho de, Koerich, Leonardo Barbosa, Mesquita, Rafael Dias, Mota, Fabio Faria da, Cruz, Oswaldo Gonçalves, Pitaluga, André Nóbrega
PublisherInstituto Oswaldo Cruz
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da FIOCRUZ, instname:Fundação Oswaldo Cruz, instacron:FIOCRUZ
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0019 seconds