A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido.
O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento.
Para realizar tal estudo, foi adotado um classificador simples que realiza a
categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha
pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados.
Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes
conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_LNCC:oai:lncc.br:120 |
Date | 15 March 2011 |
Creators | Susan Higashi |
Contributors | Helio José Corrêa Barbosa, Ana Tereza Ribeiro Vasconcelos, Fabiano Lopes Thompson, André da Mota Salles Barreto |
Publisher | Laboratório Nacional de Computação Científica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0016 seconds