Made available in DSpace on 2015-05-14T12:14:09Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 3134384 bytes, checksum: 253c3fb1aaec508b89c44bcd7766a50c (MD5)
Previous issue date: 2013-08-28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / In this thesis, we investigate aspects of similarity between sequences of complete mitochondrial
DNA. This line of study falls within the framework from the analysis of statistical
properties of DNA sequences based on methods that seek to understand the information
contained in these sequences a topic of renewed interest in the context of the so called Complex
Systems. Previous approaches were used to obtain the frequencies of certain segments
of nucleotides, regarded as the words of a given size, contained in sequences. These methods,
inspired by studies devoted to the statistical properties of words distribution in linguistic
and symbolical sequences, can be considered an alternative to techniques and algorithms for
aligning sequences, and have been successful in the description of characteristics that allow
to infer similarity and possible species grouping criteria, it means, biological afnity between
DNA sequences. Previously, this methodology has been applied to evaluate the diferences
between coding and nocoding DNA sequences and to extract linguistic aspects of these sequences
by detecting keywords that describe relevant information embedded in the threads.
In this dissertation, these studies are expanded in order to directly compare the contents of
pairs of complete sequences of mitochondrial DNA, setting parameters that depend on the
frequency distribution of sequences of words which highlight both the relevance of certain
words as well as the possibility of grouping species estimating the distance between these
words. Our results show that the best clusters between diferent species are obtained when
we calculate the rate of agglomeration considering only frequencies of words. We have also
observed that the larger the word size is, its greater clustering between sequences. The
prospect of applying our results to analyze DNA sequences also belong to a single biological
species, may be relevant in the construction of phylogenetic trees that are appropriate
structures for understanding the evolutionary history of organisms. / Nesta dissertação, investigamos aspectos da similaridade entre sequências completas de
DNA mitocondriais. Esta linha de estudo se insere no âmbito da análise de propriedades
estatísticas de sequências de DNA baseadas em métodos que buscam entender a informação
contida nessas sequências, tema de renovado interesse no contexto dos chamados Sistemas
Complexos. Abordagens anteriores foram utilizadas para obtenção das frequências de
determinados segmentos de nucleotídeos, considerados como palavras de um dado tamanho,
contidos nas sequências. Tais métodos, inspirados em estudos dedicados às propriedades
estatísticas de distribuição de palavras em textos linguísticos e sequências simbólicas, podem
ser considerados uma alternativa às técnicas e algoritmos de alinhamento de sequências, e
têm sido bem sucedidos na descrição de características que permitem inferir similaridade e
possíveis critérios de agrupamentos de espécies, ou seja, afinidade biológica entre sequências
de DNA. Anteriormente, esta metodologia foi aplicada para avaliar as diferenças entre
sequências de DNA codificadas e não codificadas e para extrair aspectos linguísticos dessas
sequências através da detecção de palavras-chaves que descrevem informações relevantes
embutidas nas sequências. Nesta dissertação, ampliamos tais estudos, no sentido de
comparar diretamente o conteúdo de pares de sequências completas de DNA mitocondriais,
definindo parâmetros que dependem da distribuição de frequências de palavras
das sequências que ressaltam tanto a relevância de determinadas palavras, bem como a
possibilidade de agrupamentos de espécies estimando a distância entre essas sequências.
Nossos resultados mostram que os melhores agrupamentos entre espécies distintas são
obtidos quando calculamos a taxa de aglomeração levando em conta apenas as frequências
das palavras. Notamos, também, que quanto maior o tamanho da palavra mais consistente
é o agrupamento entre as sequências. A perspectiva de aplicação de nossos resultados,
para analisar também sequências de DNA pertencentes a uma única espécie biológica, pode
ser relevante na construção de árvores filogenéticas que são estruturas adequadas para se
compreender a história evolucionária dos organismos.
Identifer | oai:union.ndltd.org:IBICT/oai:tede.biblioteca.ufpb.br:tede/5738 |
Date | 28 August 2013 |
Creators | Fonseca, ítallo Costa |
Contributors | Nogueira Júnior, Edvaldo, Figueirêdo, Pedro Hugo de |
Publisher | Universidade Federal da Paraíba, Programa de Pós-Graduação em Física, UFPB, BR, Física |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFPB, instname:Universidade Federal da Paraíba, instacron:UFPB |
Rights | info:eu-repo/semantics/openAccess |
Relation | -8949983414395757341, 600, 600, 600, 600, -6618910597746734213, -8327146296503745929, 2075167498588264571 |
Page generated in 0.0118 seconds