Spelling suggestions: "subject:"atécnicas dde agrupamento"" "subject:"atécnicas dee agrupamento""
1 |
Mineração de regras para seleção de técnicas de agrupamento para dados de expressão gênica de câncerNASCIMENTO, André Câmara Alves do 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:52:33Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Diferentes algoritmos têm sido usados para agrupar dados de expressão gênica, porém não
há um único algoritmo que possa ser considerado o melhor independentemente dos dados a
serem analisados. Neste trabalho, aplicamos técnicas de Meta-aprendizado para relacionar
características de conjuntos de dados de expressão gênica ao desempenho de algoritmos de
agrupamento. No nosso contexto, cada meta-exemplo representa características descritivas de
uma base de dados de expressão gênica e um rótulo indicando o algoritmo de agrupamento
que obteve os melhores resultados quando aplicado aos dados. Um conjunto destes metaexemplos
é fornecido como entrada para um algoritmo de aprendizado (o meta-aprendiz), que,
por sua vez, é responsável por adquirir conhecimento relativo às características descritivas e
os melhores algoritmos. Neste trabalho, realizamos experimentos em um estudo de caso no
qual um meta-aprendiz foi utilizado para discriminar entre três algoritmos de agrupamento
candidatos, bem como para extrair conhecimento interpretável a partir dos experimentos. O
conhecimento extraído pelo meta-aprendiz foi útil para o entendimento da aplicabilidade de
cada algoritmo de agrupamento para problemas específicos
|
2 |
Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registrosSilva, Davi Guimarães da 03 August 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:02Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:21Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:39Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Made available in DSpace on 2017-03-07T10:02:39Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5)
Previous issue date: 2016-08-03 / The amount of information available through digital media has increased considerably
in recent decades. This fact causes concern among managers of large data repositories.
Dealing with this growth and protect the data effectively is an even greater challenge.
In many repositories, one of the main problems is the existence of replicated data.
This can impact the quality of data and the ability to provide services able to meet the
demands of its customers. However, the removal of replicated records is a task that
requires a lot of time and processing effort.
Nowadays, one of the techniques that has been effectively applied in the task of
identify records that are replicated is the Genetic Programming (GP). One of the main
requirements of this technique is the use examples (usually created manually) in its
training step. Another GP major requirement is its processing time. This happens
because during the training step each record is compared to all other existing ones in
the data repository. Thus, the time required to perform all these comparisons during
the GP training step can be very costly, even for small repositories.
For those reasons, this dissertation proposes a novel approach based in a strategy
the combines a clustering technique with a sliding window, aiming at minimize the
number of comparisons required in the PG training stage. Experiments using synthetic
and real datasets show that it is possible to reduce the time cost of GP training step
up to 70%, without a significant reduction in the quality of generated solutions / O volume de informação em formato digital tem aumentado consideravelmente nas
últimas décadas, e isso tem causado preocupação entre os administradores de grandes
repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma
eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a
existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade
de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção
de registros replicados é uma tarefa que exige muito tempo e poder de processamento
computacional.
Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo
de remoção de registros replicados é a Programação Genética (PG). Uma das
principais características dessa técnica é que ela exige exemplos para a realização da
etapa de treinamento. Outra característica importante é que a PG exige um alto custo
computacional para ser aplicada, além do esforço para gerar os exemplos do treino.
No problema de deduplicação um dos maiores custos durante a etapa de treino é causado
pela necessidade de comparar cada um dos registros com todos os outros registros
existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações
durante o treino é muito grande.
A partir desse problema, esta dissertação propõe uma abordagem baseada na
combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a
quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando
dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento
em até 70%, sem uma redução significativa na qualidade das soluções geradas.
|
3 |
Divergência genética em genótipos de cana-deaçúcar (Saccharum spp.) através de caracteres morfoagronômicos e por marcadores moleculares. / Genetic divergence in sugarcane genotypes (Saccharum spp.) through morphoagronomical characters and molecular markers.Silva, Paulo Pedro da 30 August 2006 (has links)
This study had as objective to estimate the genetic divergence among sugarcane
genotypes by means of morphoagronomical characters and molecular markers,
and to verify the relation between these procedures. An experiment was
conducted in Rio Largo, AL, using a randomized block design with four repetitions.
The multivariated analysis of Principal Components, the genetic divergence
based on the Mahalanobis 2
ii' D Generalized Distance, and the Average Euclidean
Distance Standardized were used for the analysis of the quantitative characters.
Based on these distances, a grouping analysis was performed by the More
Distant Neighbor method and the UPGMA method, besides Tocher for 2
ii' D .
Jaccard coefficient and UPGMA grouping were used in the evaluation of the
genetic divergence by molecular markers and morphologic characters. The
inconsistency as to formation of different groups between the Standardized
Average Euclidean Distance and 2
ii' D of Mahalanobis characterize these two
estimates as measures of different dissimilarity. In the same way, the grouping
techniques by the More Distant Neighbor method and by UPGMA show graphical
dispersions that are not coincident, with differences in relation to the number of
groups and in the grouping pattern, while the grouping by UPGMA and obtained
by Tocher showed the same agreements. The 2
ii' D Distance of Mahalanobis
corresponded to the Principal Components technique, by showing the same
groups made by Tocher and UPGMA, obtained from 2
ii' D . However, these
techniques did not indicate agreement with the Standardized Average Euclidean
Distance. The correlation between the genetic divergence through morphologic
characters and estimated by molecular markers was significant, however, from
average magnitude (r = 0,47), indicating to be complementary measurements.
There was not significant correlation for the divergence obtained through
quantitative characteristics with the morphologic characters and molecular
markers obtained by the different estimators, as well as between Standardized
Average Euclidean Distance and the Mahalanobis 2
ii' D , which indicates clearly that
there is no relation between these estimates. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Este trabalho teve como objetivos a estimação da divergência genética entre
genótipos de cana-de-açúcar, por meio de caracteres morfoagronômicos e
marcadores moleculares, e verificar a relação entre esses procedimentos. Foi
conduzido um experimento em Rio Largo, AL, utilizando o delineamento em
blocos casualisados com quatro repetições. Para a análise dos caracteres
quantitativos foi utilizada a análise multivariada de Componentes Principais,
divergência genética a partir da Distância Generalizada 2
ii' D de Mahalanobis e
Distância Euclidiana Média Padronizada. Com base nestas distâncias, realizaramse
análise de agrupamento pelo método Hierárquico do Vizinho mais Distante e
método UPGMA, além de Tocher para 2
ii' D . Na avaliação da divergência genética
por meio de marcadores moleculares e caracteres morfológicos, utilizou-se o
coeficiente de Jaccard e agrupamento UPGMA. As inconsistências quanto à
formação de diferentes grupos entre a Distância Euclidiana Média Padronizada e
a Distância 2
ii' D de Mahalanobis caracterizam estas duas estimativas como
medidas de dissimilaridade distintas. Da mesma forma as técnicas de
agrupamento pelo método do Vizinho mais Distante e por UPGMA evidenciam
dispersões gráficas não coincidentes, com diferenças quanto ao número de
grupos e ao padrão de agrupamento, ao passo que o agrupamento por UPGMA e
obtido por Tocher apresentaram a mesma concordância. A Distância 2
ii' D de
Mahalanobis correspondeu à técnica de Componentes Principais, por
apresentarem os mesmos grupos formados por Tocher e UPGMA, obtidos a partir
de 2
ii' D . No entanto, estas técnicas não indicaram concordância com a Distância
Euclidiana Média Padronizada. A correlação entre a divergência genética através
de caracteres morfológicos e a estimada por marcadores moleculares foi
significativa, porém, de média magnitude (r = 0,47), indicando serem medidas
complementares. Não houve correlação significativa para a divergência obtida por
meio de características quantitativas com os caracteres morfológicos e
marcadores moleculares, obtida pelos diferentes estimadores, assim como, entre
a Distância Euclidiana Média Padronizada e a 2
ii' D de Mahalanobis, o que indica
claramente não existir qualquer relação entre estas estimativas.
|
4 |
Técnicas de clusterização baseadas em características de cor para a consulta em bancos de dados de imagens / Techniques of cluster-based features for classification of color imagesWeber, Juliano Gomes 29 July 2009 (has links)
The current technologies for acquisition, storage and transmission of digital data, generate large amounts of data. This quantitative increase is directly proportional to the expansion of multimedia databases, where the bases are part of images. Factors contributing to this expansion is the generation of data access and multimedia, which are frequently used by the population through the media today. Thus, we find a clear need exists for automated systems, capable of dealing with the storage and retrieval of data in a time acceptable to the current standards. To this end, systems are designed for content retrieval of images, where the content is described through its low-level visual features such as shape, texture and color. To have such a system is considered ideal, it must be efficient
and effective. The effectiveness will result from the way the information was obtained as a low level of images, considering different conditions of focus, lighting and occlusion. The efficiency is a consequence of the results obtained using the organization of information extracted. The methods of grouping are in one of the useful techniques to reduce the computational complexity of these systems, reducing the computational complexity of the
methods implemented, but without losing the representation of information extracted. This work proposes a method for retrieval of images based on content, using appropriate
techniques of clustering, a technique for detecting edges and a method to normalize the images in the aspect of enlightenment, to get through it the image descriptors that are robust and can be applied efficiently in a retrieval system for images by content - CBIR (Content Based Image Retrieval). / As tecnologias atuais de aquisição, armazenamento e transmissão de dados digitais geram grandes quantidades de dados. Esse aumento quantitativo é diretamente proporcional
à ampliação das bases de dados multimídia, onde se inserem as bases de imagens. Fatores relevantes que contribuem para esta ampliação são o acesso e a geração de dados
multimídia, os quais são freqüentemente utilizados pela população através dos meios de comunicação atuais. Desta forma, percebe-se claramente a necessidade existente por
sistemas automatizados, capazes de lidar com o armazenamento e a recuperação destes dados em um tempo aceitável para os padrões atuais. Para este fim, são desenvolvidos sistemas de recuperação de imagens por conteúdo, onde este conteúdo é descrito através
de suas características visuais de baixo nível, como forma, textura e cor. Para que um sistema deste tipo seja considerado ideal, ele deve ser eficiente e eficaz. A eficácia será resultado da maneira de como foram obtidas as informações de baixo nível das imagens, considerando diferentes condições de foco, oclusão e iluminação. A eficiência é conseqüência dos resultados obtidos utilizando-se a organização das informações extraídas. Os métodos de agrupamento constituem em uma das técnicas úteis para diminuir a complexidade computacional destes sistemas, uma vez que agrupa informações com características semelhantes, sob determinado critério, porém sem perder a representatividade das informações extraídas. Este trabalho propõe um método para recuperação de imagens baseada em conteúdo, que utiliza apropriadamente as técnicas de agrupamento, uma técnica de detecção de cantos e um método para normalizar as imagens no aspecto da iluminação, visando através disso obter descritores da imagem que sejam robustos e possam ser aplicados eficientemente em um sistema de recuperação de imagens por conteúdo - CBIR(Content Based Image Retrieval).
|
5 |
Alinhamento múltiplo de seqüências através de técnicas de agrupamento / Multiple alignment of sequences through clustering techniquesPeres, Patrícia Silva 24 February 2006 (has links)
Made available in DSpace on 2015-04-11T14:02:59Z (GMT). No. of bitstreams: 1
Patricia Silva Peres.pdf: 506475 bytes, checksum: 40dfa72e28b5cca338c104148bd4ef06 (MD5)
Previous issue date: 2006-02-24 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The simultaneous alignment of many DNA or protein sequences is one of the commonest tasks in computational molecular biology. Multiple alignments are important in many applications, such as, predicting the structure of new sequences, demonstrating the relationship between new
sequences and existing families of sequences, inferring the evolutionary history of a family of sequences,finding the characteristic motifs (core blocks) between biological sequences, assembling fragments in DNA sequencing, and many others. Currently, the most popular strategy used for solving the multiple sequence alignment problem is the progressive alignment. Each step of this strategy might generate an error which is expected to be low for closely related sequences but increases as sequences diverge. Therefore, determining the order in which the sequences will be aligned is a key step in the progressive alignment strategy. Traditional approaches take into account, in each iteration of the progressive alignment, only the closest pair or groups of sequences to be aligned. Such strategy minimizes the error introduced in each step, but may not be the best option to minimize the final error. Based on that hypothesis, this work aims the study and the application of a global clustering technique to perform a previous analysis of all sequences in order to separate them into groups according to their similarities. These groups, then, guide the traditional progressive alignment, as an attempt to minimize the overall error introduced by the steps of the progressive alignment and improve the final result. To assess the reliability of this new strategy, three well-known methods were modified for the purpose of introducing the new sequence clustering stage. The accuracy of new versions of the methods was tested using three diferent reference collections. Besides, the modified methods were compared with their original versions. Results of the conducted experiments depict that the new versions of the methods with the global clustering stage really obtained better alignments than their original versions in the three reference collections and achieving improvement over the main methods found in literature, with an increase of only 3% on average in the running time. / O alinhamento simultâneo entre várias seqüências de DNA ou proteína é um dos principais problemas em biologia molecular computacional. Alinhamentos múltiplos são importantes em
muitas aplicações, tais como, predição da estrutura de novas seqüências, demonstração do relacionamento entre novas seqüências e famílias de seqüências já existentes, inferência da história evolutiva de uma família de seqüências, descobrimento de padrões que sejam compartilhados
entre seqüências, montagem de fragmentos de DNA, entre outras. Atualmente, a estratégia mais popular utilizada na resolução do problema do alinhamento múltiplo é o alinhamento progressivo. Cada etapa desta estratégia pode gerar uma taxa de erro que tenderá a ser baixa no caso de seqüências muito similares entre si, porêm tenderá a ser alta
na medida em que as seqüências divergirem. Portanto, a determinação da ordem de alinhamento das seqüências constitui-se em um passo fundamental na estratégia de alinhamento progressivo. Estratégias tradicionais levam em consideração, a cada iteração do alinhamento progressivo,
apenas o par ou grupo de seqüências mais próximo a ser alinhado. Tal estratégia minimiza a taxa de erro introduzida em cada etapa, porém pode não ser a melhor forma para minimizar a taxa de erro final. Baseado nesta hipótese, este trabalho tem por objetivo o estudo e aplicação de uma técnica de agrupamento global para executar uma análise prévia de todas as seqüências de forma a separálas em grupos de acordo com suas similaridades. Estes grupos, então, guiarão o alinhamento progressivo tradicional, numa tentativa de minimizar a taxa de erro global introduzida pelas
etapas do alinhamento progressivo e melhorar o resultado final.
Para avaliar a contabilidade desta nova estratégia, três métodos conhecidos foram modificados com o objetivo de agregar a nova etapa de agrupamento de seqüências. A acurácia das novas versões dos métodos foi testada utilizando três diferentes coleções de referências. Além
disso, os métodos modificados foram comparadas com suas respectivas versões originais. Os resultados dos experimentos mostram que as novas versões dos métodos com a etapa de
agrupamento global realmente obtiveram alinhamentos melhores do que suas versões originais nas três coleções de referência e alcançando melhorias sobre os principais métodos encontrados na literatura, com um aumento de apenas 3% em média no tempo de execução.
|
Page generated in 0.1142 seconds