Global ETD Search

1	Mineração de regras para seleção de técnicas de agrupamento para dados de expressão gênica de câncer NASCIMENTO, André Câmara Alves do 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:52:33Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Diferentes algoritmos têm sido usados para agrupar dados de expressão gênica, porém não há um único algoritmo que possa ser considerado o melhor independentemente dos dados a serem analisados. Neste trabalho, aplicamos técnicas de Meta-aprendizado para relacionar características de conjuntos de dados de expressão gênica ao desempenho de algoritmos de agrupamento. No nosso contexto, cada meta-exemplo representa características descritivas de uma base de dados de expressão gênica e um rótulo indicando o algoritmo de agrupamento que obteve os melhores resultados quando aplicado aos dados. Um conjunto destes metaexemplos é fornecido como entrada para um algoritmo de aprendizado (o meta-aprendiz), que, por sua vez, é responsável por adquirir conhecimento relativo às características descritivas e os melhores algoritmos. Neste trabalho, realizamos experimentos em um estudo de caso no qual um meta-aprendiz foi utilizado para discriminar entre três algoritmos de agrupamento candidatos, bem como para extrair conhecimento interpretável a partir dos experimentos. O conhecimento extraído pelo meta-aprendiz foi útil para o entendimento da aplicabilidade de cada algoritmo de agrupamento para problemas específicos Meta-aprendizado Técnicas de Agrupamento Expressão Gênica
2	Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros Silva, Davi Guimarães da 03 August 2016 (has links) Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:02Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:21Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:39Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Made available in DSpace on 2017-03-07T10:02:39Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) Previous issue date: 2016-08-03 / The amount of information available through digital media has increased considerably in recent decades. This fact causes concern among managers of large data repositories. Dealing with this growth and protect the data effectively is an even greater challenge. In many repositories, one of the main problems is the existence of replicated data. This can impact the quality of data and the ability to provide services able to meet the demands of its customers. However, the removal of replicated records is a task that requires a lot of time and processing effort. Nowadays, one of the techniques that has been effectively applied in the task of identify records that are replicated is the Genetic Programming (GP). One of the main requirements of this technique is the use examples (usually created manually) in its training step. Another GP major requirement is its processing time. This happens because during the training step each record is compared to all other existing ones in the data repository. Thus, the time required to perform all these comparisons during the GP training step can be very costly, even for small repositories. For those reasons, this dissertation proposes a novel approach based in a strategy the combines a clustering technique with a sliding window, aiming at minimize the number of comparisons required in the PG training stage. Experiments using synthetic and real datasets show that it is possible to reduce the time cost of GP training step up to 70%, without a significant reduction in the quality of generated solutions / O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção de registros replicados é uma tarefa que exige muito tempo e poder de processamento computacional. Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo de remoção de registros replicados é a Programação Genética (PG). Uma das principais características dessa técnica é que ela exige exemplos para a realização da etapa de treinamento. Outra característica importante é que a PG exige um alto custo computacional para ser aplicada, além do esforço para gerar os exemplos do treino. No problema de deduplicação um dos maiores custos durante a etapa de treino é causado pela necessidade de comparar cada um dos registros com todos os outros registros existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações durante o treino é muito grande. A partir desse problema, esta dissertação propõe uma abordagem baseada na combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento em até 70%, sem uma redução significativa na qualidade das soluções geradas. Programação Genética Aprendizagem de Máquina Repositório de dados Técnicas de Agrupamento Deduplicação de Registros
3	Divergência genética em genótipos de cana-deaçúcar (Saccharum spp.) através de caracteres morfoagronômicos e por marcadores moleculares. / Genetic divergence in sugarcane genotypes (Saccharum spp.) through morphoagronomical characters and molecular markers. Silva, Paulo Pedro da 30 August 2006 (has links) This study had as objective to estimate the genetic divergence among sugarcane genotypes by means of morphoagronomical characters and molecular markers, and to verify the relation between these procedures. An experiment was conducted in Rio Largo, AL, using a randomized block design with four repetitions. The multivariated analysis of Principal Components, the genetic divergence based on the Mahalanobis 2 ii' D Generalized Distance, and the Average Euclidean Distance Standardized were used for the analysis of the quantitative characters. Based on these distances, a grouping analysis was performed by the More Distant Neighbor method and the UPGMA method, besides Tocher for 2 ii' D . Jaccard coefficient and UPGMA grouping were used in the evaluation of the genetic divergence by molecular markers and morphologic characters. The inconsistency as to formation of different groups between the Standardized Average Euclidean Distance and 2 ii' D of Mahalanobis characterize these two estimates as measures of different dissimilarity. In the same way, the grouping techniques by the More Distant Neighbor method and by UPGMA show graphical dispersions that are not coincident, with differences in relation to the number of groups and in the grouping pattern, while the grouping by UPGMA and obtained by Tocher showed the same agreements. The 2 ii' D Distance of Mahalanobis corresponded to the Principal Components technique, by showing the same groups made by Tocher and UPGMA, obtained from 2 ii' D . However, these techniques did not indicate agreement with the Standardized Average Euclidean Distance. The correlation between the genetic divergence through morphologic characters and estimated by molecular markers was significant, however, from average magnitude (r = 0,47), indicating to be complementary measurements. There was not significant correlation for the divergence obtained through quantitative characteristics with the morphologic characters and molecular markers obtained by the different estimators, as well as between Standardized Average Euclidean Distance and the Mahalanobis 2 ii' D , which indicates clearly that there is no relation between these estimates. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Este trabalho teve como objetivos a estimação da divergência genética entre genótipos de cana-de-açúcar, por meio de caracteres morfoagronômicos e marcadores moleculares, e verificar a relação entre esses procedimentos. Foi conduzido um experimento em Rio Largo, AL, utilizando o delineamento em blocos casualisados com quatro repetições. Para a análise dos caracteres quantitativos foi utilizada a análise multivariada de Componentes Principais, divergência genética a partir da Distância Generalizada 2 ii' D de Mahalanobis e Distância Euclidiana Média Padronizada. Com base nestas distâncias, realizaramse análise de agrupamento pelo método Hierárquico do Vizinho mais Distante e método UPGMA, além de Tocher para 2 ii' D . Na avaliação da divergência genética por meio de marcadores moleculares e caracteres morfológicos, utilizou-se o coeficiente de Jaccard e agrupamento UPGMA. As inconsistências quanto à formação de diferentes grupos entre a Distância Euclidiana Média Padronizada e a Distância 2 ii' D de Mahalanobis caracterizam estas duas estimativas como medidas de dissimilaridade distintas. Da mesma forma as técnicas de agrupamento pelo método do Vizinho mais Distante e por UPGMA evidenciam dispersões gráficas não coincidentes, com diferenças quanto ao número de grupos e ao padrão de agrupamento, ao passo que o agrupamento por UPGMA e obtido por Tocher apresentaram a mesma concordância. A Distância 2 ii' D de Mahalanobis correspondeu à técnica de Componentes Principais, por apresentarem os mesmos grupos formados por Tocher e UPGMA, obtidos a partir de 2 ii' D . No entanto, estas técnicas não indicaram concordância com a Distância Euclidiana Média Padronizada. A correlação entre a divergência genética através de caracteres morfológicos e a estimada por marcadores moleculares foi significativa, porém, de média magnitude (r = 0,47), indicando serem medidas complementares. Não houve correlação significativa para a divergência obtida por meio de características quantitativas com os caracteres morfológicos e marcadores moleculares, obtida pelos diferentes estimadores, assim como, entre a Distância Euclidiana Média Padronizada e a 2 ii' D de Mahalanobis, o que indica claramente não existir qualquer relação entre estas estimativas. Saccharum spp Multivariate analysis Genetic divergence Cluster analysis Molecular markers Saccharum spp Análise multivariada Divergência genética Técnicas de agrupamento Marcadores moleculares CNPQ::CIENCIAS AGRARIAS::AGRONOMIA
4	Técnicas de clusterização baseadas em características de cor para a consulta em bancos de dados de imagens / Techniques of cluster-based features for classification of color images Weber, Juliano Gomes 29 July 2009 (has links) The current technologies for acquisition, storage and transmission of digital data, generate large amounts of data. This quantitative increase is directly proportional to the expansion of multimedia databases, where the bases are part of images. Factors contributing to this expansion is the generation of data access and multimedia, which are frequently used by the population through the media today. Thus, we find a clear need exists for automated systems, capable of dealing with the storage and retrieval of data in a time acceptable to the current standards. To this end, systems are designed for content retrieval of images, where the content is described through its low-level visual features such as shape, texture and color. To have such a system is considered ideal, it must be efficient and effective. The effectiveness will result from the way the information was obtained as a low level of images, considering different conditions of focus, lighting and occlusion. The efficiency is a consequence of the results obtained using the organization of information extracted. The methods of grouping are in one of the useful techniques to reduce the computational complexity of these systems, reducing the computational complexity of the methods implemented, but without losing the representation of information extracted. This work proposes a method for retrieval of images based on content, using appropriate techniques of clustering, a technique for detecting edges and a method to normalize the images in the aspect of enlightenment, to get through it the image descriptors that are robust and can be applied efficiently in a retrieval system for images by content - CBIR (Content Based Image Retrieval). / As tecnologias atuais de aquisição, armazenamento e transmissão de dados digitais geram grandes quantidades de dados. Esse aumento quantitativo é diretamente proporcional à ampliação das bases de dados multimídia, onde se inserem as bases de imagens. Fatores relevantes que contribuem para esta ampliação são o acesso e a geração de dados multimídia, os quais são freqüentemente utilizados pela população através dos meios de comunicação atuais. Desta forma, percebe-se claramente a necessidade existente por sistemas automatizados, capazes de lidar com o armazenamento e a recuperação destes dados em um tempo aceitável para os padrões atuais. Para este fim, são desenvolvidos sistemas de recuperação de imagens por conteúdo, onde este conteúdo é descrito através de suas características visuais de baixo nível, como forma, textura e cor. Para que um sistema deste tipo seja considerado ideal, ele deve ser eficiente e eficaz. A eficácia será resultado da maneira de como foram obtidas as informações de baixo nível das imagens, considerando diferentes condições de foco, oclusão e iluminação. A eficiência é conseqüência dos resultados obtidos utilizando-se a organização das informações extraídas. Os métodos de agrupamento constituem em uma das técnicas úteis para diminuir a complexidade computacional destes sistemas, uma vez que agrupa informações com características semelhantes, sob determinado critério, porém sem perder a representatividade das informações extraídas. Este trabalho propõe um método para recuperação de imagens baseada em conteúdo, que utiliza apropriadamente as técnicas de agrupamento, uma técnica de detecção de cantos e um método para normalizar as imagens no aspecto da iluminação, visando através disso obter descritores da imagem que sejam robustos e possam ser aplicados eficientemente em um sistema de recuperação de imagens por conteúdo - CBIR(Content Based Image Retrieval). Características de cor Técnicas de agrupamento Técnicas de detecção de cantos Classificação de imagens por conteúdo Cluster-based Color features Content based image retrieval Corner detection
5	Alinhamento múltiplo de seqüências através de técnicas de agrupamento / Multiple alignment of sequences through clustering techniques Peres, Patrícia Silva 24 February 2006 (has links) Made available in DSpace on 2015-04-11T14:02:59Z (GMT). No. of bitstreams: 1 Patricia Silva Peres.pdf: 506475 bytes, checksum: 40dfa72e28b5cca338c104148bd4ef06 (MD5) Previous issue date: 2006-02-24 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The simultaneous alignment of many DNA or protein sequences is one of the commonest tasks in computational molecular biology. Multiple alignments are important in many applications, such as, predicting the structure of new sequences, demonstrating the relationship between new sequences and existing families of sequences, inferring the evolutionary history of a family of sequences,finding the characteristic motifs (core blocks) between biological sequences, assembling fragments in DNA sequencing, and many others. Currently, the most popular strategy used for solving the multiple sequence alignment problem is the progressive alignment. Each step of this strategy might generate an error which is expected to be low for closely related sequences but increases as sequences diverge. Therefore, determining the order in which the sequences will be aligned is a key step in the progressive alignment strategy. Traditional approaches take into account, in each iteration of the progressive alignment, only the closest pair or groups of sequences to be aligned. Such strategy minimizes the error introduced in each step, but may not be the best option to minimize the final error. Based on that hypothesis, this work aims the study and the application of a global clustering technique to perform a previous analysis of all sequences in order to separate them into groups according to their similarities. These groups, then, guide the traditional progressive alignment, as an attempt to minimize the overall error introduced by the steps of the progressive alignment and improve the final result. To assess the reliability of this new strategy, three well-known methods were modified for the purpose of introducing the new sequence clustering stage. The accuracy of new versions of the methods was tested using three diferent reference collections. Besides, the modified methods were compared with their original versions. Results of the conducted experiments depict that the new versions of the methods with the global clustering stage really obtained better alignments than their original versions in the three reference collections and achieving improvement over the main methods found in literature, with an increase of only 3% on average in the running time. / O alinhamento simultâneo entre várias seqüências de DNA ou proteína é um dos principais problemas em biologia molecular computacional. Alinhamentos múltiplos são importantes em muitas aplicações, tais como, predição da estrutura de novas seqüências, demonstração do relacionamento entre novas seqüências e famílias de seqüências já existentes, inferência da história evolutiva de uma família de seqüências, descobrimento de padrões que sejam compartilhados entre seqüências, montagem de fragmentos de DNA, entre outras. Atualmente, a estratégia mais popular utilizada na resolução do problema do alinhamento múltiplo é o alinhamento progressivo. Cada etapa desta estratégia pode gerar uma taxa de erro que tenderá a ser baixa no caso de seqüências muito similares entre si, porêm tenderá a ser alta na medida em que as seqüências divergirem. Portanto, a determinação da ordem de alinhamento das seqüências constitui-se em um passo fundamental na estratégia de alinhamento progressivo. Estratégias tradicionais levam em consideração, a cada iteração do alinhamento progressivo, apenas o par ou grupo de seqüências mais próximo a ser alinhado. Tal estratégia minimiza a taxa de erro introduzida em cada etapa, porém pode não ser a melhor forma para minimizar a taxa de erro final. Baseado nesta hipótese, este trabalho tem por objetivo o estudo e aplicação de uma técnica de agrupamento global para executar uma análise prévia de todas as seqüências de forma a separálas em grupos de acordo com suas similaridades. Estes grupos, então, guiarão o alinhamento progressivo tradicional, numa tentativa de minimizar a taxa de erro global introduzida pelas etapas do alinhamento progressivo e melhorar o resultado final. Para avaliar a contabilidade desta nova estratégia, três métodos conhecidos foram modificados com o objetivo de agregar a nova etapa de agrupamento de seqüências. A acurácia das novas versões dos métodos foi testada utilizando três diferentes coleções de referências. Além disso, os métodos modificados foram comparadas com suas respectivas versões originais. Os resultados dos experimentos mostram que as novas versões dos métodos com a etapa de agrupamento global realmente obtiveram alinhamentos melhores do que suas versões originais nas três coleções de referência e alcançando melhorias sobre os principais métodos encontrados na literatura, com um aumento de apenas 3% em média no tempo de execução. Alinhamento Múltiplo de Seqüências Estratégia de Alinhamento Progressivo Técnicas de Agrupamento Multiple alignment of sequences Progressive alignment strategy Clustering techniques

1

Page generated in 0.1249 seconds