Global ETD Search

1	Algoritmos de agrupamento tradicionais versus sistemas de comitê de agrupamentos: análise de dados de expressão gênica NEPOMUCENO, Vilmar Santos 31 January 2008 (has links) Made available in DSpace on 2014-06-12T16:01:23Z (GMT). No. of bitstreams: 2 arquivo8461_1.pdf: 682988 bytes, checksum: d7fff8575726440e9671293cfc34d7f6 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Este trabalho investiga o impacto do uso de comitês de agrupamentos para a análise de dados de expressão gênica. Mais especificamente, é realizada uma comparação dos desempenhos obtidos com algoritmos de combinação (comitês) com aqueles dos algoritmos de agrupamento individuais (algoritmos base). Para isso, são utilizados três métodos de comitês de agrupamento mais estabelecidos na literatura: matriz de co-associação, re-rotulagem e votação e comitês baseados em particionamento de grafos. As técnicas de agrupamento individuais escolhidas para realizar a comparação são: k-médias, mistura finita de gaussianas e o algoritmo hierárquico. Além de representarem diferentes paradigmas de agrupamento, estes algoritmos estão sendo muito utilizados no contexto de expressão gênica. Os resultados obtidos indicam que os algoritmos de comitê conseguem recuperar melhor a estrutura real dos dados, quando comparados aos algoritmos individuais. Outro aspecto observado na análise desenvolvida é que os comitês homogêneos conseguem, em geral, um melhor desempenho do que os comitês heterogêneos. De forma geral, os resultados dos experimentos indicam que, tanto os algoritmos individuais, quanto as técnicas de comitê apresentaram pequenas diferenças entre o número de grupos gerados, para os melhores desempenhos, e o número real de classes existentes nos dados Algoritmos de Agrupamento Comitês de Agrupamento Dados de Expressão Gênica
2	Meta-aprendizagem aplicada à classificação de dados de expressão gênica / Meta-learning applied to gene expression data classification Souza, Bruno Feres de 26 October 2010 (has links) Dentre as aplicações mais comuns envolvendo microarrays, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta da ocorrência de câncer. Essa classificação é realizada com a ajuda de algoritmos de Aprendizagem de Máquina. A escolha do algoritmo mais adequado para um dado problema não é trivial. Nesta tese de doutorado, estudou-se a utilização de meta-aprendizagem como uma solução viável. Os resultados experimentais atestaram o sucesso da aplicação utilizando um arcabouço padrão para caracterização dos dados e para a construção da recomendação. A partir de então, buscou-se realizar melhorias nesses dois aspectos. Inicialmente, foi proposto um novo conjunto de meta-atributos baseado em índices de validação de agrupamentos. Em seguida, estendeu-se o método de construção de rankings kNN para ponderar a influência dos vizinhos mais próximos. No contexto de meta-regressão, introduziu-se o uso de SVMs para estimar o desempenho de algoritmos de classificação. Árvores de decisão também foram empregadas para a construção da recomendação de algoritmos. Ante seu desempenho inferior, empregou-se um esquema de comitês de árvores, que melhorou sobremaneira a qualidade dos resultados / Among the most common applications involving microarray, one can highlight the classification of tissue samples, which is essential for the correct identification of the occurrence of cancer and its type. This classification takes place with the aid of machine learning algorithms. Choosing the best algorithm for a given problem is not trivial. In this thesis, we studied the use of meta-learning as a viable solution. The experimental results confirmed the success of the application using a standard framework for characterizing data and constructing the recommendation. Thereafter, some improvements were made in these two aspects. Initially, a new set of meta-attributes was proposed, which are based on cluster validation indices. Then the kNN method for ranking construction was extended to weight the influence of nearest neighbors. In the context of meta-regression, the use of SVMs was introduced to estimate the performance of ranking algorithms. Decision trees were also employed for recommending algorithms. Due to their low performance, a ensemble of trees was employed, which greatly improved the quality of results Aprendizagem de máquina Gene expression data classification Machine learning Meta-aprendizagem Metalearning
3	Meta-aprendizagem aplicada à classificação de dados de expressão gênica / Meta-learning applied to gene expression data classification Bruno Feres de Souza 26 October 2010 (has links) Dentre as aplicações mais comuns envolvendo microarrays, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta da ocorrência de câncer. Essa classificação é realizada com a ajuda de algoritmos de Aprendizagem de Máquina. A escolha do algoritmo mais adequado para um dado problema não é trivial. Nesta tese de doutorado, estudou-se a utilização de meta-aprendizagem como uma solução viável. Os resultados experimentais atestaram o sucesso da aplicação utilizando um arcabouço padrão para caracterização dos dados e para a construção da recomendação. A partir de então, buscou-se realizar melhorias nesses dois aspectos. Inicialmente, foi proposto um novo conjunto de meta-atributos baseado em índices de validação de agrupamentos. Em seguida, estendeu-se o método de construção de rankings kNN para ponderar a influência dos vizinhos mais próximos. No contexto de meta-regressão, introduziu-se o uso de SVMs para estimar o desempenho de algoritmos de classificação. Árvores de decisão também foram empregadas para a construção da recomendação de algoritmos. Ante seu desempenho inferior, empregou-se um esquema de comitês de árvores, que melhorou sobremaneira a qualidade dos resultados / Among the most common applications involving microarray, one can highlight the classification of tissue samples, which is essential for the correct identification of the occurrence of cancer and its type. This classification takes place with the aid of machine learning algorithms. Choosing the best algorithm for a given problem is not trivial. In this thesis, we studied the use of meta-learning as a viable solution. The experimental results confirmed the success of the application using a standard framework for characterizing data and constructing the recommendation. Thereafter, some improvements were made in these two aspects. Initially, a new set of meta-attributes was proposed, which are based on cluster validation indices. Then the kNN method for ranking construction was extended to weight the influence of nearest neighbors. In the context of meta-regression, the use of SVMs was introduced to estimate the performance of ranking algorithms. Decision trees were also employed for recommending algorithms. Due to their low performance, a ensemble of trees was employed, which greatly improved the quality of results Aprendizagem de máquina Meta-aprendizagem Gene expression data classification Machine learning Metalearning
4	Seleção de características a partir da integração de dados por meio de análise de variação de número de cópias (CNV) para associação genótipo-fenótipo de doenças complexas Meneguin, Christian Reis January 2018 (has links) Orientador: Prof. Dr. David Corrêa Martins Júnior / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, Santo André, 2018. / As pesquisas em biologia sistêmica caracterizam-se pela interdisciplinaridade, a compreensão com visão ampla sobre as interações ocorridas internamente em organismos biológicos, hereditariedade e a influência de fatores ambientais. Neste cenário, é constituída uma rede complexa de interações na qual seus componentes são de diferentes tipos, como as variações do número de cópias (Copy Number Variation - CNVs), genes, entre outros. As doenças complexas que ocorrem neste contexto normalmente são consequências de perturbações intracelulares e intercelulares em tecidos e órgãos, sendo desenvolvidas de forma multifatorial, ou seja, a causa e o desenvolvimento dessas doenças são fruto de diversos fatores genéticos e ambientais. Nos últimos anos, tem sido produzido um volume bastante elevado de dados biológicos gerados por técnicas de sequenciamento de alto desempenho, requerendo pesquisas que envolvam para uma análise integrada desses dados. As variações do número de cópias (Copy Number Variation - CNVs), ou seja, a variação no número de repetições de subsequências de DNA entre indivíduos, se mostram úteis visto que estão relacionadas com outros tipos de dados como genes e dados de expressão gênica (abundâncias de mRNAs transcritos pelos genes em diferentes contextos). Devido a natureza heterogênea e a imensa quantidade de dados, a análise integrativa é um desafio computacional para o qual abordagens vêm sendo propostas. Neste sentido, nesta dissertação foi proposto um método que realiza a integração de dados (CNVs, dados de expressão gênica, haploinsuficiência, imprint, entre outros) por meio de um processo que permite identificar trechos comuns de CNVs entre amostras de diferentes indivíduos, sejam estas amostras de caso ou de controle e que possuem informações obtidas a partir das integrações feitas. Com este processo, o método aqui proposto diferencia-se dos métodos que realizam integração de dados por meio da análise de sobreposição dos dados biológicos, mas não geram novos dados contendo intervalos de CNVs existentes entre as amostras. O método proposto foi analisado com base no estudo de caso do autismo (Transtornos do Espectro Autista - TEA). O autismo, além de ser considerado uma doença complexa, possui algumas particularidades que dificultam o seu estudo quando comparado a outros tipos de doenças complexas como o câncer, por exemplo. Foram realizados dois experimentos que envolveram dados dos CNVs de indivíduos com TEA (caso) e indivíduos sem este transtorno (controle). Também foi feito um experimento utilizando amostras de CNVs de TEA e amostras de CNVs relacionados a outras doenças do neurodesenvolvimento. Os experimentos envolveram a integração dos tipos de dados propostos. Foi possível identificar trechos de CNVs que estão presentes somente em amostras associadas aos casos e não em controles, ou cenários de trechos de CNVs presentes em amostras de TEA e ausentes nas amostras de outras doenças do neurodesenvolvimento, e vice-versa. Os resultados também refletiram a tendência de indivíduos do gênero masculino serem mais afetados por TEA em relação ao feminino. Foi possível também identificar genes associados e informações como o biotipo e se estão presentes em dados de haploinsuficiência, imprint ou ainda dados de expressão agrupados em regiões e períodos. Finalmente, análises de enriquecimento das listas de genes dos CNVs resultantes do método apontam para diversas vias relacionadas com o TEA, tais como as vias de sinalização do receptor toll-like dependente de TRIF, do ácido gama-aminobutírico (GABA), de transmissão sináptica e secreção neurotransmissora, de recepção da insulina, de percepção sensorial olfativa, e de adesão celular independente de cálcio. / Researches in systems biology are characterized by interdisciplinarity, wide-ranging understanding of interactions within biological organisms, heredity, and the influence of environmental factors. In this scenario, a complex network of interactions is constituted of different types of components, such as CNVs (Copy Number Variations), genes, and others. Complex diseases that occur in this context are usually consequences of intracellular, intercellular, tissue, organ, and multifactorial disorders, i.e., the cause and development of these diseases are the result of various genetic and environmental factors. In recent years, a very large volume of biological data generated by high performance sequencing techniques has been produced, requiring researches involving an integrated analysis of these data. CNVs, i.e., the variation in the number of DNA subsequences between individuals, are useful because they are related to other types of data such as genes and gene expression data (abundances of mRNAs transcribed by genes in different contexts). Due to the heterogeneous nature and the immense amount of data, integrative analysis is a computational challenge for which approaches have been proposed. In this sense, in this dissertation a method was proposed that performs a data integration (CNVs, gene expression data, haploinsufficiency, imprint, among others) through a process that allows to identify common portions of CNVs between samples of different individuals, being these case or control samples and that have information obtained from the integration performed. In this context, the method proposed here differs from the methods that carry out data integration through the analysis of the overlay of the biological data, but does not generate new data containing ranges of CNVs existing between the samples. The proposed method was analyzed on the basis of the case study of Autistic Spectrum Disorder (ASD). Besides being considered a complex disease, TEA has some peculiarities that hinder its study when compared to other types of complex diseases such as cancer, for example. As a case study, two experiments were carried out that involved data from the CNVs of individuals with ASD (case) and individuals without this disorder (control). An experiment was also done using samples of ASD CNVs and CNVs samples related to other neurodevelopmental diseases. The experiments involved the integration of the proposed data types. Among the results, the method identified excerpts of CNVs that are present only in samples associated with the cases and not in controls, or scenarios of CNVs snippets present in TEA samples and not present in other neurodevelopmental disease samples, and vice-versa. The results also reflected the tendency for males to be more affected by TEA compared to the females. In the excerpts of CNVs in certain results, it was possible to identify associated gene informations such as the biotype and whether they are present in Haploinsufficiency, imprint or even expression data grouped in regions and periods. Finally, enrichment analyses involving lists of genes from the resulting CNVs point to several signaling pathways related to TEA, such as TRIF-dependent toll-like receptor signaling, gamma aminobutyric acid (GABA), synaptic transmission and neurotransmitter secretion, insulin reception, olfactory sensorial perception, and calcium independent cell-cell adhesion. VARIAÇÃO NO NÚMERO DE CÓPIAS DADOS DE EXPRESSÃO GÊNICA DOENÇAS COMPLEXAS INTEGRAÇÃO DE DADOS MINERAÇÃO DE DADOS COPY NUMBER VARIATION GENE EXPRESSION DATA COMPLEX DISEASES DATA INTEGRATION DATA MINING

1

Page generated in 0.0978 seconds