• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica

Ramos, Thaís de Almeida Ratis 11 May 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T15:32:36Z No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-11T13:58:20Z (GMT) No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Made available in DSpace on 2018-07-11T13:58:20Z (GMT). No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) Previous issue date: 2018-05-11 / A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me. / The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between non-coding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.
2

Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição

Silva, Lucas Felipe da 28 March 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-06-05T23:36:23Z No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-06-13T22:36:09Z (GMT) No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) / Made available in DSpace on 2018-06-13T22:36:09Z (GMT). No. of bitstreams: 1 LucasFelipeDaSilva_DISSERT.pdf: 4203807 bytes, checksum: 59254c7da7bb001ede119f8bf4166d48 (MD5) Previous issue date: 2018-03-28 / Atualmente há diversas ferramentas propostas para análise de Fatores de Transcrição (TF), tais como TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. No entanto, nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo do tempo, foram construídas inúmeras bases de dados, todas elas com riquíssimas informações, porém a complexidade intrínseca do dado, o volume de informações, problemas de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com um grande volume de dados, se requer conhecimentos avançados de computação. Entretanto, o grande público interessado em analisar esses dados são os profissionais procedentes das áreas biológicas, configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares disciplinas de programação. Diante desta situação, este trabalho tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Desse modo, foi idealizado e desenvolvido o Transcription Factor Analysis Tools (TFAT), contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com os parâmetros cruciais definidos pelo usuário em sua análise. O cerne desta ferramenta é a análise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos componentes da ferramenta, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta verifica a confiabilidade do TF, disponibiliza as predições realizadas e converte os itens de uma lista para o GeneID ou Symbol do Entrez Gene. Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade leva em consideração evidências de diferentes bases de dados, experimentos, predições e outras características dos TFs. Este recurso de confiabilidade possui um modo padrão e um modo com parâmetros definidos pelo próprio usuário, que permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final. / Currently there are several tools proposed for analysis of Transcription Factors (TF), such as TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. However, none of these tools offer a complete experience in assessing the reliability of TF, checking if an analyzed protein is a TF and its association with the target gene. Over time, numerous databases were built, all of them with rich information, but the intrinsic complexity of the data, the volume of information, problems of nomenclature of the genes and several other factors led these tools to do not offer a complete spectrum of analyses. On the other hand, working with a large volume of data requires advanced computer skills. However, the general public interested in analyzing these data are professionals from the biological areas, forming a barrier since the academic formation of this area does not offer in its curricular components programming disciplines. From this situation, this work aims to create a web tool exclusively for the analysis of TFs. In this way, the Transcription Factor Analysis Tools (TFAT) was conceived and developed, containing the integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in the analysis. The core of this tool is the analysis to identify the key TFs in the modulation of gene transcription, namely the enrichment of the regulatory TFs of a user-submitted gene list, which through the components of the tool, consults its database, identifies the TFs that are associated with those genes and computes the p-value of enrichment. In addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Another feature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidences from different databases, experiments, predictions and other characteristics of TFs. This reliability feature has a standard mode and a userdefined parameter mode, which allows full customization through filters in the queries and analysis control for the end user.
3

Autogating em dados de citometria de fluxo utilizando classificadores SVM para identificação de bacterioplâncton

Cordeiro, Elionai Moura 22 March 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T13:51:51Z No. of bitstreams: 1 ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-10T14:53:20Z (GMT) No. of bitstreams: 1 ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5) / Made available in DSpace on 2018-07-10T14:53:20Z (GMT). No. of bitstreams: 1 ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5) Previous issue date: 2018-03-22 / Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de Support Vector Machine. / This master tesis shows the proposal to develop a methodology - together with the presentation of the results of its application - that uses a machine learning technique, SVM, for automated analysis of flow cytometry data in samples of aquatic environments, identification of bacterioplankton. The samples used in the execution of this methodology were collected in 19 high altitude mountain lakes that were manually classified in the Laboratory of Limnology of the Department of Oceanography and Limnology of UFRN. Previously, it started with some tests of kernel configuration and a quantitative analysis based on the average number of hits in the automated classification, in which it was noticed that the prediction error rate varied between 1.86 % and 3, 35 % on average. Two stages of development of the proposed methodology were carried out, where prediction models were created and a series of tests were carried out with the databases created from the available information. The results were exposed to a series of quantitative and qualitative analyzes, including using PCA to understand the importance of each variable in the sample data sets. For a qualitative evaluation of the proposed methodology, a statistical analysis was applied to compare both strategies of prediction models, which is based on the final classification indicated by the algorithm of Support Vector Machine.

Page generated in 0.0177 seconds