• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 403
  • 34
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • 1
  • Tagged with
  • 449
  • 206
  • 141
  • 134
  • 96
  • 92
  • 82
  • 78
  • 74
  • 74
  • 65
  • 64
  • 41
  • 41
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Métodos Bayesianos aplicados em taxonomia molecular / Bayesian methods applied in molecular taxonomy

Edwin Rafael Villanueva Talavera 31 August 2007 (has links)
Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. / In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.
82

Métodos Bayesianos aplicados em taxonomia molecular / Bayesian methods applied in molecular taxonomy

Villanueva Talavera, Edwin Rafael 31 August 2007 (has links)
Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. / In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.
83

Separação de grupos produzidos em bovinos leiteiros através de técnicas multivariadas

SANTOS, Eucymara França Nunes 27 February 2009 (has links)
Submitted by (ana.araujo@ufrpe.br) on 2016-07-05T16:18:11Z No. of bitstreams: 1 Eucymara Franca Nunes Santos.pdf: 2135134 bytes, checksum: 354f01bbca88dd1f124ff70f799207db (MD5) / Made available in DSpace on 2016-07-05T16:18:11Z (GMT). No. of bitstreams: 1 Eucymara Franca Nunes Santos.pdf: 2135134 bytes, checksum: 354f01bbca88dd1f124ff70f799207db (MD5) Previous issue date: 2009-02-27 / Many varieties of techniques were used: analysis of main components, analysis of grouping and discriminant analysis with the objective of separating the productive groups genetically divergents, using data regarded to the production of milk from three different genetic groups: 1/2 HG; 3/4 HG; 7/8 HG. The used variables were: group genetic, weigh of the milk (kg) produced in the day of the control, weight of the milk (kg) produced in the first it milks, weigh of the milk (kg) produced in the second it milks, weigh of the milk (kg) produced in the third it milks, the age of the cow (days) in the date of the control, the age of the cow to the childbirth and interval of childbirths. The objectives of the analysis of main components were: proposing the use of the most appropriate data and verifing the most important variables. Providing the explanation of 92,84% of the variability of the data with the transformed data and the elimination of five no significants variables. Four distance measures and five methods of groupings were used in the analysis of groupings aiming at the indication of the best distance and the best method. It was verified that the distance of Mahalanobis taken together to the methods of medium connection, simple connection and centroid are the most suitable to contain the differents genetic groups. The discriminant analysis was used to select the most important variables and to establish discriminant equations that makes possible the new animals inclusion. Two variables were selected, and one was eliminated, the group 1/2 HG has got more correct classifications and the presented function was regarding to the standardized data for its better classifications. / Foram utilizadas as técnicas multivariada: análise de componentes principais, análise de agrupamentos e análise discriminante com o objetivo de separar os grupos produtivos geneticamente divergentes, utilizando dados referente a produção de leite de três diferentes grupos genéticos: 1/2 HG; 3/4 HG; 7/8 HG. As variáveis utilizadas foram: grupo genético, peso do leite (kg) produzido no dia do controle, peso do leite (kg) produzido na primeira ordenha, peso do leite (kg) produzido na segunda ordenha, peso do leite (kg) produzido na terceira ordenha, idade da vaca (dias) na data do controle, idade da vaca ao parto e intervalo de partos. Os objetivos da análise de componentes principais foram: propor a utilização dos dados mais adequados e verificar as variáveis mais importantes. Proporcionando a explicação de 92,84% da variabilidade dos dados com os dados transformados e a eliminação de cinco variáveis não significativas. Foram utilizadas quatro medidas de distância e cinco métodos de agrupamentos na análise de agrupamentos objetivando indicar a melhor distância e o melhor método. Constatou-se que a distância de Mahalanobis juntamente aos métodos de ligação média, ligação simples e centróide são os mais indicados para agrupar os diferentes grupos genéticos. A análise discriminante foi utilizada para selecionar as variáveis mais importantes e estabelecer equações discriminantes que possibilite a inclusão de novos indivíduos. Foram selecionadas duas variáveis, e eliminada uma, o grupo 1/2 HG obteve mais classificações corretas e a função apresentada foi referente aos dados padronizados por possuir melhores classificações.
84

Resolvendo problemas de multiplicação e divisão envolvendo o agrupamento explícito e implícito

CHAGAS, Fernanda Augusta Lima das 26 February 2014 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-27T13:26:27Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Fernanda_Augusta_Lima_das_Chagas.pdf: 1669768 bytes, checksum: aaa8a92bffbeb14e628c00eb4fc9283b (MD5) / Made available in DSpace on 2017-04-27T13:26:27Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Fernanda_Augusta_Lima_das_Chagas.pdf: 1669768 bytes, checksum: aaa8a92bffbeb14e628c00eb4fc9283b (MD5) Previous issue date: 2014-02-26 / FACEPE / Pesquisas em Psicologia da Educação Matemática apontam algumas das dificuldades que as crianças apresentam em relação às estruturas multiplicativas. Por isso, o presente estudo investigou, se e como, a noção de agrupamento explícito poderia favorecer o raciocínio matemático das crianças na resolução de problemas de multiplicação e divisão (partição e quota) de proporção simples de um-para-muitos. De forma específica, investigou as estratégias utilizadas pelas crianças para resolver essa classe de problemas, buscando observar se algum tipo de problema desse agrupamento explícito favoreceu a resolução, como também analisar a maneira na qual a criança lida com os problemas que possui o agrupamento implícito. Para tanto, a dissertação se fundamenta nas ideias de Jean Piaget para discorrer sobre o desenvolvimento cognitivo e a construção de conceitos, e no campo da Matemática, na Teoria dos Campos Conceituais apresentada por Gérard Vergnaud. Participaram dessa pesquisa 119 crianças, de ambos os sexos, com idades entre 6 e 11 anos, cursando 2º ano, 3º ano, 4º ano e 5º ano, do Ensino Fundamental (anos iniciais) de escolas públicas da cidade do Recife. Todos os participantes foram entrevistados individualmente em duas sessões, sendo solicitados a resolver seis problemas em cada sessão, totalizando doze problemas, envolvendo o agrupamento explícito e implícito. Após aplicação das tarefas foi realizada uma entrevista individual, seguindo o método clínico piagetiano, onde foi solicitado ao participante que explicasse a estratégia utilizada na resolução dos problemas apresentados. Os dados foram analisados em função do número de acertos e das estratégias utilizadas. De modo geral, os resultados mostraram que não houve diferença significativa nos problemas de agrupamento explícito, quando comparado aos de agrupamento implícito. Isso talvez tenha ocorrido devido há algumas limitações encontradas na pesquisa. Entretanto, no que diz respeito aos participantes do 2º ano foi verificada uma diferença significativa nos problemas de divisão por quota, contendo o agrupamento explícito, quando comparado aos problemas de partição. Mas apesar do dado encontrado não é possível afirmar com precisão que esse tipo de agrupamento tenha favorecido, uma vez que pesquisas anteriores demonstram que as crianças tendem a apresentar melhores resultados na resolução nos problemas de divisão por quota. As estratégias foram analisadas, considerando a pesquisa realizada por Magina, Santos e Merlini (2010) e por Chagas (2011), sendo, detectados quatro tipos de respostas, a saber: inconsistente, pensamento aditivo, transição e pensamento multiplicativo. O teste aplicado em relação às estratégias não detectou diferenças significativas nos diferentes tipos de agrupamento, considerando os anos investigados. Conclui-se que o agrupamento explícito não favorece no raciocínio das crianças na resolução de problemas de multiplicação e divisão (partição), de proporção simples de um-para-muitos. No entanto, o fato de ter encontrado uma diferença na resolução dos problemas de divisão por quota de agrupamento explícito, nos estudantes do 2º ano, faz com que se pense na possibilidade de realizar outro estudo mais detalhado, contendo um maior número de problemas e de participantes para de verificar se realmente há diferença, visto que não é possível afirmar a diferença na atual pesquisa. / Research in Psychology of Mathematics Education point out the difficulties that children have in relation to the multiplicative structures. This study had as general objective investigate if and how the explicit grouping can influence in the logic of the students in the resolution of multiplication and division problems (partition and share) of simple proportion from one-to-many. Specifically, we investigated the strategies used by children to solve this class of problems, trying to see if any problems that explicit grouping favored the resolution, but also examine the way in which the child deals with the problems that have the implicit grouping. Therefore, the dissertation is based on Jean Piaget ideas to discuss cognitive development and the construction of concepts, and in the field of Mathematics, Theory of Conceptual Fields by Gérard Vergnaud. Participated in this study 119 children of both sexes, aged between 6 and 11 years old, attend classes 2º grade, 3º grade, 4º grade and 5º grade, of Elementary Education (first years) of public schools from Recife. All the participants were interviewed individually in two sessions, being order to resolve six problems in each session, totalizing 12 problems, involving the idea of explicit grouping and implicit grouping. After the problems application it was make an individual interview, following Piaget clinical methods, which was order that the participant explain the strategy used in the resolution of presented problems. The data were analyzed in function of correct numbers and follow strategies. In general, the results showed no significant differences in explicit grouping problems, when compare with implicit grouping. This maybe happen because there are some limitations found in the search. However, about the participants of 2º grade it was observed a significant difference in share by division problems, the explicit containing group when compared to partitioning problems. But even with this data is not possible to state precisely that type of grouping has favored, since previous research has shown that children tend to have better results in solving problems in the division by quota. About the strategies were analyzed considering the research made by Magina, Santos and Merlini (2010) and by Chagas (2011) and it was found four types of answers, to know: inconsistent, additive thought, transition and multiply thought. The test applied in relation to the strategies did not detect significant differences in the different types of grouping, considering the years investigated. It concluded that the explicit grouping doesn´t influence the children logical in resolution of multiplication and division problems (partition) of simple proportion from one-to-many. However, the fact of having found a significant difference in solving division problems by explicit grouping share, the students of 2º grade, makes you think of the possibility of carrying out a more detailed study, containing a large number of problems and participants to check if there really is a difference, since it is not possible to state the difference in current research.
85

Avaliação de algoritmos de agrupamento em grafos para segmentação de imagens / Evaluation of graph clustering algorithms for images segmentation

Ivar Vargas Belizario 12 November 2012 (has links)
A segmentação de imagens e, em visão computacional, uma tarefa de grande importância, para a qual existem várias abordagem. A complexidade de tais abordagens está relacionada à natureza da imagem e também ao grau de precisão da segmentação, que e um conceito bastante subjetivo, normalmente associado a semelhança que apresenta a segmentaçã produzida pela visão humana. Na segmentação de imagens baseada em algoritmos de agrupamento em grafos, geralmente os pixels da imagem compôem os nós do grafo e as arestas representam a similaridade entre estes nós. Assim, a segmentação pode ser obtida por meio do agrupamento dos nós do grafo. É importante salientar, no entanto, que as técnicas de agrupamento em grafos surgiram no contexto de reconhecimento de padrões, cujo objetivo primario era o tratamento de dados diversos que não envolviam imagens. O uso de tais tecnicas para a segmentação de imagens e relativamente recente e revela alguns problemas desaadores. O primeiro deles é a deficiente escalabilidade de alguns métodos, o que impede o seu uso efetivo em imagens de altas dimensões. Outra questão é a falta de estudos que avaliam as medidas de similaridade na montagem do grafo e critérios que aferem a qualidade do agrupamento para a área específica de segmentação de imagens. Em outras palavras, faltam na literatura análises mais específicas que indiquem quais algoritmos de agrupamento em grafos são mais efetivos para a segmentação de imagens e que procurem associar (ou correlacionar) as várias medidas de similaridade e métricas de qualidade de agrupamento que produzam segmentações mais precisas. Neste trabalho é apresentada a avaliação de 6 algoritmos de agrupamento em grafos formulados em base a 3 categorias identificadas (agrupamento espectral, algoritmos de particionamento multinível e algoritmos para detectar comunidades) e aplicadas na segmentação automática de imagens de cenas naturais com grandes dimensões. Esta avaliação objetiva aferir, sobretudo, a qualidade da segmentação, a escalabilidade, o desempenho de 7 funções de similaridade formuladas, e também visa corroborar a existência da correlação entre a qualidade do agrupamento e a qualidade da segmentação. Para reduzir o esforço computacional e contribuir com a escalabilidade dos algoritmos formulados é utilizado um algoritmo de pré-processamento (SLIC) que agrupa váarios pixels da imagem em uma unica região (superpixels), o que contribui para reduzir o tamanho do grafo e, consequentemente, reduzindo o custo computacional do agrupamento. Os resultados demostram que os algoritmos formulados LP (Label Propagation) e FG (Fast Greedy) apresentam boa escalabilidade e boa qualidade de segmentação. Seis das sete funções de similaridade avaliadas apresentam um bom desempenho, independentemente do algoritmo de agrupamento empregado. É mostrado também que exites correlação entre a medida de qualidade de agrupamento conhecido como índice de silhueta e a qualidade de segmentação, ou seja, quanto maior o valor de silhueta, melhor a segmentação. A qualidade de segmentação foi avaliada quantitativamente, utilizando-se um conjunto de imagens segmentadas manualmente / Image segmentation is an important task within computer vision for which many approaches are available. The complexity of such approaches are intrinsically related with the nature of the image and also the desired accuracy aimed at. Image segmentation accuracy, however, is a subjective concept and is normally associated with how much it resembles segmentation produced by the human vision system. In graphbased clustering image segmentation algorithms, pixels are normally represented as nodes and edges convey the similarity between such nodes. Hence, segmentation may be attained by means of grouping node of a graph. It is important, though, to point out that graph-based clustering techniques rst appeared in the context of pattern recognition and its primary data source were not images. The usage of such techniques for image segmentation is a recent trend and poses some challenge issues. The first is the poor scalability that many methods exhibit, impairing its application in images of larger dimensions. Another issues is that lack of studies that assess the goodness of similarity measures employed in graph computation and also clustering quality criteria assessments for the specic area of image processing. In other words, there is no evidences in the literature on how effective graph-based clustering algorithms are for image segmentation and no studies that associate similarity functions and clustering quality metrics with image processing quality. This work presents an evaluation of six graph-based clustering algorithms according to three major categories found in the literature (spectral clustering, multi layer partitioning algorithms and community detectors) applied to automatic segmentation of image of larger dimensions. This evaluation takes into account segmentation quality, scalability, the performance of seven similarity functions and, nally, bring some insights on the correlation between clustering and segmentation quality. To reduce computational costs and enhance scalability of the methods we employ a pre processing algorithm (SLIC) which combines many pixels into one single region (superpixel). This contributes to reduce the graph size and, consequently, the cost of clustering. Results have shown that the LP (Label Propagation) and FG (Fast Greedy) algorithms exhibit good scalability and good segmentation. Six out of the seven similarity functions presented good performance, regardless the clustering algorithm. We also have shown that there is correlation between clustering quality and image segmentation quality, when the Silhouette measure is employed. That is, the higher the Silhouette values, the better the segmentation. Image segmentation quality has been quantitatively assessed by means of ground-truth data or user segmented images
86

Estudo de coeficientes de correlação para medidas de proximidade em dados de expressão gênica / A study of correlation coefficients as proximity measures for gene expression data

Jaskowiak, Pablo Andretta 02 March 2011 (has links)
O desenvolvimento da tecnologia de microarray tornou possível a mediçao dos níveis de expressão de centenas ou até mesmo milhares de genes simultaneamente para diversas condições experimentais. A grande quantidade de dados disponível gerou a demanda por métodos computacionais que permitam sua análise de forma eficiente e automatizada. Em muitos dos métodos computacionais empregados durante a análise de dados de expressão gênica é necessária a escolha de uma medida de proximidade apropriada entre genes ou amostras. Dentre as medidas de proximidade disponíveis, coeficientes de correlação têm sido amplamente empregados, em virtude da sua capacidade em capturar similaridades entre tendências das sequências numéricas comparadas (genes ou amostras). O presente trabalho possui como objetivo comparar diferentes medidas de correlação para as três principais tarefas envolvidas na análise de dados de expressão gênica: agrupamento, seleção de atributos e classificação. Dessa forma, é apresentada nesta dissertação uma visão geral da análise de dados de expressão gênica e das diferentes medidas de correlação consideradas para tal comparação. São apresentados também resultados empíricos obtidos a partir da comparação dos coeficientes de correlação para agrupamento de genes, agrupamento de amostras, seleção de genes para o problema de classificação de amostras e classificação de amostras / The development of microarray technology made possible the expression level measurement of hundreds or even thousands of genes simultaneously for various experimental conditions. The huge amount of available data generated the need for computational methods that allow its analysis in an effcient and automated way. In many of the computational methods employed during gene expression data analysis the choice of a proximity measure is necessary. Among the proximity measures available, correlation coefficients have been widely employed because of their ability to capture similarity trends among the compared numeric sequences (genes or samples). The present work has as objective to compare different correlation measures for the three major tasks involved in the analysis of gene expression data: clustering, feature selection and classification. To this extent, in this dissertation an overview of gene expression data analysis and the different correlation measures considered for this comparison are presented. In the present work are also presented empirical results obtained from the comparison of correlation coefficients for gene clustering, sample clustering, gene selection for sample classification and sample classification
87

Modelagem fuzzy usando agrupamento condicional

Nogueira, Tatiane Marques 06 August 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:32Z (GMT). No. of bitstreams: 1 2113.pdf: 882226 bytes, checksum: 022c380c1d469988d9e4617a030f17c3 (MD5) Previous issue date: 2008-08-06 / The combination of fuzzy systems with clustering algorithms has great acceptance in the scientific community mainly due to its adherence to the advantage balance principle of computational intelligence, in which different methodologies collaborate with each other potentializing the usefulness and applicability of the resulting systems. Fuzzy Modeling using clustering algorithms presents the transparency and comprehensibility typical of the linguistic fuzzy systems at the same time that benefits from the possibilities of dimensionality reduction by means of clustering. In this work is presented the Fuzzy-CCM method (Fuzzy Conditional Clustering based Modeling) which consists of a new approach for Fuzzy Modeling based on the Fuzzy Conditional Clustering algorithm aiming at providing new means to address the topic of interpretability of fuzzy rules bases. With the Fuzzy-CCM method the balance between interpretability and accuracy of fuzzy rules is dealt with through the definition of contexts defined by a small number of input variables and the generation of clusters induced by these contexts. The rules are generated in a different format, with linguistic variables and clusters in the antecedent. Some experiments have been carried out using different knowledge domains in order to validate the proposed approach by comparing the results with the ones obtained by the Wang&Mendel and conventional Fuzzy C-Means methods. The theoretical foundations, the advantages of the method, the experiments and results are presented and discussed. / A combinação de sistemas fuzzy com algoritmos de agrupamento tem grande aceitação na comunidade científica devido; principalmente, a sua aderência ao princípio de balanceamento de vantagens da inteligência computacional, no qual metodologias diferentes colaboram entre si, potencializando a utilidade e aplicabilidade dos sistemas resultantes. A modelagem fuzzy usando algoritmos de agrupamento apresenta a transparência e facilidade de compreensão típica dos sistemas fuzzy lingüísticos ao mesmo tempo em que se beneficia das possibilidades de redução da dimensionalidade por intermédio do agrupamento. Neste trabalho é apresentado o método Fuzzy-CCM (Fuzzy Conditional Clustering based Modeling), que consiste de uma nova abordagem de Modelagem Fuzzy baseada no algoritmo de Agrupamento Fuzzy Condicional, cujo objetivo é prover novos meios de tratar a questão da interpretabilidade de bases de regras fuzzy. Com o método Fuzzy-CCM, o balanço entre interpretabilidade e acuidade de regras fuzzy é tratado por meio da definição de contextos formados com um pequeno número de variáveis de entrada e a geração de grupos condicionados por estes contextos. As regras são geradas em um formato diferente, que contêm variáveis lingüísticas e grupos no seu antecedente. Alguns experimentos foram executados usando diferentes domínios de conhecimento a fim de validar a abordagem proposta, comparando os resultados obtidos usando a nova abordagem com os resultados obtidos usando os métodos Wang&Mendel e Fuzzy C-Means. A fundamentação teórica, as vantagens do método, os experimentos e os resultados obtidos são apresentados e discutidos.
88

Aprendizado semi-supervisionado e não supervisionado para análise de dados de expressão gênica

Assao, Fabiana Mari 27 May 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:34Z (GMT). No. of bitstreams: 1 2160.pdf: 2987031 bytes, checksum: c428afa9febfedfbb3e778b30d48e9c0 (MD5) Previous issue date: 2008-05-27 / Data clustering has been seen, in the last decades, as an important tool for gene expression data analysis. In recent years, due to the progress in gene annotation research, a growing interest has been noticed for the semi-supervised clustering techniques, which use knowledge previously available about some gene functions to discover functions of other genes by means of clustering. This work investigates non-supervised and semi-supervised clustering algorithms applied to gene expression data. The goal is to perform an inspection on strengths and weaknesses of the use of such clustering methods and, based on these findings, to provide ways of obtaining results significant to biology. Algorithms with different characteristics were implemented and tested, with the objective of verifying evidences of eventual gains with the partial labeling, as compared to the non-supervised techniques. The experiments considered data sets from the gene expression domain as well as more generic domains. The obtained results were evaluated with validation measures usually applied in similar contexts. The analysis developed, though, emphasize the important role of computational techniques in biological data analysis, by accelerating the process of deriving results and conclusions, to better understand gene functions and structures. The results of this stydy justify the large investiment in the research of behavior of semi-supervised techniques in gene expression data, as we shall see. / O agrupamento de dados destacou-se nas últimas décadas como uma importante ferramenta para a análise de dados de expressão gênica. Nos últimos anos, em função do progresso das pesquisas para rotulação de genes, surgiu um interesse pelas técnicas de agrupamento semi-supervisionado, que utilizam o conhecimento prévio disponível sobre a função de alguns genes para descobrir funções de outros genes por meio do agrupamento. Neste trabalho são investigados algoritmos de agrupamento semi-supervisionado e não supervisionados aplicados a dados de expressão gênica. O intuito é realizar uma inspeção das vantagens e desvantagens da utilização destes métodos de agrupamento e, a partir disso, prover subsídios para obtenção de resultados significativos para a área de Biologia. Foram implementados e testados algoritmos de agrupamento com diferentes características, com o objetivo de verificar evidências de eventuais ganhos obtidos com a rotulação parcial dos genes com relação a técnicas não-supervisionadas. Os experimentos realizados consideraram conjuntos de dados do domínio de expressão gênica e de outros domínios mais genéricos. Os resultados obtidos foram avaliados com medidas de validação usualmente aplicadas em contextos semelhantes. Assim, as análises desenvolvidas reforçam o importante papel da computação na análise de dados biológicos, a fim de acelerar o processo de obtenção de resultados e conclusões, na compreensão das estruturas e funções dos genes. Os resultados obtidos neste trabalho justificam o grande investimento na pesquisa do comportamento de técnicas semi-supervisionadas em dados de expressão gênica, como veremos mais adiante.
89

Enxame de partículas aplicado ao agrupamento de textos / Enxame de partículas aplicado ao agrupamento de textos

Prior, Ana Karina Fontes 22 December 2010 (has links)
Made available in DSpace on 2016-03-15T19:37:34Z (GMT). No. of bitstreams: 1 Ana Karina Fontes Prior.pdf: 415415 bytes, checksum: a6ecb97b982ab886cc421abdc943c8ac (MD5) Previous issue date: 2010-12-22 / Fundo Mackenzie de Pesquisa / The large number of data generated by people and organizations has stimulated the research on effective and automatic methods of knowledge extraction from databases. This dissertation proposes two new bioinspired techniques, named cPSC and oPSC, based on the Particle Swarm Optimization Algorithm (PSO) to solve data clustering problems. The proposed algorithms are applied to data and text clustering problems and their performances are compared with a standard algorithm from the literature. The results allow us to conclude that the proposed algorithms are competitive with those already available in literature, but bring benefits such as automatic determination of the number of groups on the dataset and a search for the best partitioning of the dataset considering an explicit cost function. / A grande quantidade de dados gerados por pessoas e organizações tem estimulado a pesquisa sobre métodos efetivos e automáticos de extração de conhecimentos a partir de bases de dados. Essa dissertação propõe duas novas técnicas bioinspiradas, denominadas cPSC e oPSC, baseadas no algoritmo de otimização por enxame de partículas (PSO - Particle Swarm Optimization) para resolver problemas de agrupamento de dados. Os algoritmos propostos são aplicados a problemas de agrupamento de dados e textos, e seus desempenhos são comparados com outros propostos na literatura específica. Os resultados obtidos nos permitem concluir que os algoritmos propostos são competitivos com aqueles já disponíveis na literatura, porém trazem outros benefícios como a determinação automática do número de grupos nas bases e a efetuação de uma busca pelo melhor particionamento possível da base considerando uma função de custo explícita.
90

Estudo de coeficientes de correlação para medidas de proximidade em dados de expressão gênica / A study of correlation coefficients as proximity measures for gene expression data

Pablo Andretta Jaskowiak 02 March 2011 (has links)
O desenvolvimento da tecnologia de microarray tornou possível a mediçao dos níveis de expressão de centenas ou até mesmo milhares de genes simultaneamente para diversas condições experimentais. A grande quantidade de dados disponível gerou a demanda por métodos computacionais que permitam sua análise de forma eficiente e automatizada. Em muitos dos métodos computacionais empregados durante a análise de dados de expressão gênica é necessária a escolha de uma medida de proximidade apropriada entre genes ou amostras. Dentre as medidas de proximidade disponíveis, coeficientes de correlação têm sido amplamente empregados, em virtude da sua capacidade em capturar similaridades entre tendências das sequências numéricas comparadas (genes ou amostras). O presente trabalho possui como objetivo comparar diferentes medidas de correlação para as três principais tarefas envolvidas na análise de dados de expressão gênica: agrupamento, seleção de atributos e classificação. Dessa forma, é apresentada nesta dissertação uma visão geral da análise de dados de expressão gênica e das diferentes medidas de correlação consideradas para tal comparação. São apresentados também resultados empíricos obtidos a partir da comparação dos coeficientes de correlação para agrupamento de genes, agrupamento de amostras, seleção de genes para o problema de classificação de amostras e classificação de amostras / The development of microarray technology made possible the expression level measurement of hundreds or even thousands of genes simultaneously for various experimental conditions. The huge amount of available data generated the need for computational methods that allow its analysis in an effcient and automated way. In many of the computational methods employed during gene expression data analysis the choice of a proximity measure is necessary. Among the proximity measures available, correlation coefficients have been widely employed because of their ability to capture similarity trends among the compared numeric sequences (genes or samples). The present work has as objective to compare different correlation measures for the three major tasks involved in the analysis of gene expression data: clustering, feature selection and classification. To this extent, in this dissertation an overview of gene expression data analysis and the different correlation measures considered for this comparison are presented. In the present work are also presented empirical results obtained from the comparison of correlation coefficients for gene clustering, sample clustering, gene selection for sample classification and sample classification

Page generated in 0.0584 seconds