Global ETD Search

21	"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems Martins Junior, David Correa 22 September 2004 (has links) Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition. conditional entropy dimensionality reduction entropia condicional feature selection probabilistic genetic networks redes gênicas probabilísticas redução de dimensionalidade seleção de características W-operadores W-operators
22	Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signals Lucia Maria dos Santos Pinto 13 February 2014 (has links) Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura, sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo de Markov é estabelecido o que permite a visualização do problema em diferentes escalas conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є, para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov de forma a poder aprender a variedade que eventualmente seja o suporte do dados. Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações de rotação e variação de iluminação. Também o problema da reconstrução de sinais é atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo com um parâmetro regularizador, γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques of dimensionality reduction that enable the analysis of data at low dimensions, capturing the essential parameters associated with the problem. Within the context of machine learning this reduction is primarily intended for clustering , recognition and reconstruction of signals. This thesis makes a thorough analysis of these topics and their connections which are true boiling in the literature, the difusion mapping being the main focus of this work . This method is constructed from a graph where the vertices are the signs ( problem data ) and the weight of edges is established based on the Gaussian kernel of the heat equation. Furthermore , a Markov process is established which allows the visualization of the problem at diferent scales according to the variation of a given parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by relating it to the dynamic Markov so you can learn the variety that eventually support the data. This thesis proposed the recognition of digital images involving transformations of rotation and variation of illumination. Also the problem of reconstruction of signals is attacked with the proposed pre - image using the optimization of a cost function with a smoothing parameter, γ, Which also takes into account the initial dataset. Redução de dimensionalidade Aplicação de difusão Clusterização Teoria dos grafos Dimensionality reduction Difusion maps Clustering MATEMATICA APLICADA
23	Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signals Lucia Maria dos Santos Pinto 13 February 2014 (has links) Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura, sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo de Markov é estabelecido o que permite a visualização do problema em diferentes escalas conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є, para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov de forma a poder aprender a variedade que eventualmente seja o suporte do dados. Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações de rotação e variação de iluminação. Também o problema da reconstrução de sinais é atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo com um parâmetro regularizador, γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques of dimensionality reduction that enable the analysis of data at low dimensions, capturing the essential parameters associated with the problem. Within the context of machine learning this reduction is primarily intended for clustering , recognition and reconstruction of signals. This thesis makes a thorough analysis of these topics and their connections which are true boiling in the literature, the difusion mapping being the main focus of this work . This method is constructed from a graph where the vertices are the signs ( problem data ) and the weight of edges is established based on the Gaussian kernel of the heat equation. Furthermore , a Markov process is established which allows the visualization of the problem at diferent scales according to the variation of a given parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by relating it to the dynamic Markov so you can learn the variety that eventually support the data. This thesis proposed the recognition of digital images involving transformations of rotation and variation of illumination. Also the problem of reconstruction of signals is attacked with the proposed pre - image using the optimization of a cost function with a smoothing parameter, γ, Which also takes into account the initial dataset. Redução de dimensionalidade Aplicação de difusão Clusterização Teoria dos grafos Dimensionality reduction Difusion maps Clustering MATEMATICA APLICADA
24	Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais / Propagation in bipartite graphs for topic extraction in stream of textual data Thiago de Paulo Faleiros 08 June 2016 (has links) Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que analise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensões latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descoberta de padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado. / Handling large amounts of data is a requirement for modern text mining algorithms. For some applications, documents are published constantly, which demand a high cost for long-term storage. So it is necessary easily adaptable methods for an approach that considers documents flow, and be capable of analyzing the data in one step without requiring the high cost of storage. Another requirement is that this approach can exploit heuristics in order to improve the quality of results. Several models for automatic extraction of latent information in a collection of documents have been proposed in the literature, among them probabilistic topic models are prominent. Probabilistic topic models achieve good practical results, and have been extended to several models with different types of information included. However, properly describe these models, derive them, and then get appropriate inference algorithms are difficult tasks, requiring a rigorous mathematical treatment for descriptions of operations performed in the latent dimensions discovery process. Thus, for the development of a simple and efficient method to tackle the problem of latent dimensions discovery, a proper representation of the data is required. The hypothesis of this thesis is that by using bipartite graph for representation of textual data one can address the task of latent patterns discovery, present in the relationships between documents and words, in a simple and intuitive way. For validation of this hypothesis, we have developed a framework based on label propagation algorithm using the bipartite graph representation. The framework, called PBG (Propagation in Bipartite Graph) was initially applied to the unsupervised context for a static collection of documents. Then a semi-supervised version was proposed which need only a small amount of labeled documents to the transductive classification task. Finally, it was applied in the dynamic context in which flow of textual data was considered. Comparative analyzes were performed, and the results indicated that the PBG is a viable and competitive alternative for tasks in the unsupervised and semi-supervised contexts. Aprendizado em grafos bipartidos Extração de tópicos Fluxo de dados textuais Redução de dimensionalidade Dimensionality reduction Learning in bipartite graphs Text data stream Topic extraction
25	Two-dimensional extensions of semi-supervised dimensionality reduction methods Moraes, Lailson Bandeira de 19 August 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:17:21Z No. of bitstreams: 2 Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:02:06Z (GMT) No. of bitstreams: 2 Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:02:06Z (GMT). No. of bitstreams: 2 Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-08-19 / An important pre-processing step in machine learning systems is dimensionality reduction, which aims to produce compact representations of high-dimensional patterns. In computer vision applications, these patterns are typically images, that are represented by two-dimensional matrices. However, traditional dimensionality reduction techniques were designed to work only with vectors, what makes them a suboptimal choice for processing two-dimensional data. Another problem with traditional approaches for dimensionality reduction is that they operate either on a fully unsupervised or fully supervised way, what limits their efficiency in scenarios where supervised information is available only for a subset of the data. These situations are increasingly common because in many modern applications it is easy to produce raw data, but it is usually difficult to label it. In this study, we propose three dimensionality reduction methods that can overcome these limitations: Two-dimensional Semi-supervised Dimensionality Reduction (2D-SSDR), Two-dimensional Discriminant Principal Component Analysis (2D-DPCA), and Two-dimensional Semi-supervised Local Fisher Discriminant Analysis (2D-SELF). They work directly with two-dimensional data and can also take advantage of supervised information even if it is available only for a small part of the dataset. In addition, a fully supervised method, the Two-dimensional Local Fisher Discriminant Analysis (2D-LFDA), is proposed too. The methods are defined in terms of a two-dimensional framework, which was created in this study as well. The framework is capable of generally describing scatter-based methods for dimensionality reduction and can be used for deriving other two-dimensional methods in the future. Experimental results showed that, as expected, the novel methods are faster and more stable than the existing ones. Furthermore, 2D-SSDR, 2D-SELF, and 2D-LFDA achieved competitive classification accuracies most of the time when compared to the traditional methods. Therefore, these three techniques can be seen as viable alternatives to existing dimensionality reduction methods. / Um estágio importante de pré-processamento em sistemas de aprendizagem de máquina é a redução de dimensionalidade, que tem como objetivo produzir representações compactas de padrões de alta dimensionalidade. Em aplicações de visão computacional, estes padrões são tipicamente imagens, que são representadas por matrizes bi-dimensionais. Entretanto, técnicas tradicionais para redução de dimensionalidade foram projetadas para lidar apenas com vetores, o que as torna opções inadequadas para processar dados bi-dimensionais. Outro problema com as abordagens tradicionais para redução de dimensionalidade é que elas operam apenas de forma totalmente não-supervisionada ou totalmente supervisionada, o que limita sua eficiência em cenários onde dados supervisionados estão disponíveis apenas para um subconjunto das amostras. Estas situações são cada vez mais comuns por que em várias aplicações modernas é fácil produzir dados brutos, mas é geralmente difícil rotulá-los. Neste estudo, propomos três métodos para redução de dimensionalidade capazes de contornar estas limitações: Two-dimensional Semi-supervised Dimensionality Reduction (2DSSDR), Two-dimensional Discriminant Principal Component Analysis (2D-DPCA), e Twodimensional Semi-supervised Local Fisher Discriminant Analysis (2D-SELF). Eles operam diretamente com dados bi-dimensionais e também podem explorar informação supervisionada, mesmo que ela esteja disponível apenas para uma pequena parte das amostras. Adicionalmente, um método completamente supervisionado, o Two-dimensional Local Fisher Discriminant Analysis (2D-LFDA) é proposto também. Os métodos são definidos nos termos de um framework bi-dimensional, que foi igualmente criado neste estudo. O framework é capaz de descrever métodos para redução de dimensionalidade baseados em dispersão de forma geral e pode ser usado para derivar outras técnicas bi-dimensionais no futuro. Resultados experimentais mostraram que, como esperado, os novos métodos são mais rápidos e estáveis que as técnicas existentes. Além disto, 2D-SSDR, 2D-SELF, e 2D-LFDA obtiveram taxas de erro competitivas na maior parte das vezes quando comparadas aos métodos tradicionais. Desta forma, estas três técnicas podem ser vistas como alternativas viáveis aos métodos existentes para redução de dimensionalidade. Computer vision Dimensionality reduction Feature extraction Semi-supervised learning Tensor discriminant analysis Visão computacional Redução de dimensionalidade Extração de características Aprendizagem semi-supervisionada Análise tensorial de discriminantes
26	Reconhecimento de pessoas pela marcha usando redução de dimensionalidade de contornos no domínio da frequência / Human gait recognition using dimensionality reduction of contours in the frequency domain Mendes, Wender Cabral 31 March 2016 (has links) Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2016-08-10T19:31:03Z No. of bitstreams: 2 Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-08-15T13:25:32Z (GMT) No. of bitstreams: 2 Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-08-15T13:25:32Z (GMT). No. of bitstreams: 2 Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-03-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Gait recognition via computer vision attracted increasing interest for its noninvasive characteristic and mainly for your advantage of recognizing people at distance. Recognition is performing extracting features included in gait, this features are extracted from images sequence of people walking. The main challenges of gait recognition is to extract characteristics with unique information for each person, in additional, the use of accessories and clothes difficult the feature extraction process. This paper proposes a gait recognition method using information of people’s contours transformed in domain frequence by Discrete Fourier Transform. A lot of data are generated from the contours, thereby, three different techniques for dimensionality reduction CDA (Class Discrimination Ability), PCA (Principal Component Analysis) and PLS (Partial Least Squares) are employed to reduce the dimensionality of data and generate characteristics that are relevant to the recongnition system. Two classifiers, KNN (K-Nearest Neighbor) and LDA (Linear Discriminant Analysis) classify the characteristics that are returned by the dimensionality reduction methods. The accuracy are achieved by the combination of the dimensionality reduction methods and classifiers, the highest accuracy was 92:67%, which was achieved with the combination between the LDA and PCA (LDAPCA). Therefore, the results show that the information contained in the contours of silhouette are discriminant to recognize people by their gait. / O reconhecimento de pessoas através da marcha humana via visão computacional tem ganhado destaque por ser uma técnica biométrica não invasiva e principalmente por sua vantagem de reconhecer pessoas à distância. O reconhecimento é realizando extraindo características contidas na marcha de cada pessoa, essas características são extraídas de sequências de imagens da pessoa caminhando. Os principais desafios dessa técnica biométrica está em extrair as características com informações que consigam diferenciar uma pessoa da outra, além disso, o uso de acessórios e vestimentas dificultam o processo de extração de características. Este trabalho propõe um método de reconhecimento baseado na marcha humana utilizando informações dos contornos das pessoas transformados para o domínio da frequência por meio da Transformada Discreta de Fourier. Como são geradas muitos dados a partir dos contornos, três técnicas diferentes de redução de dimensionalidade CDA (Class Discrimination Ability), PCA (Principal Component Analysis) e PLS (Partial Least Squares) são empregadas para reduzir a quantidade de dados e gerar características que sejam relevantes para o sistema de reconhecimento. Dois classificadores, KNN (K-Nearest Neighbor) e LDA (Linear Discriminant Analysis) classificam as características retornadas pelos métodos de redução de dimensionalidade. As taxas de acurácia são obtidas pelos resultados gerados entre a combinação dos métodos de redução de dimensionalidade e os classificadores, a maior taxa de acurácia foi de 92;67%, a qual foi alcançada com a combinação entre o LDA e PCA (LDAPCA). Dessa forma, conclui-se que as informações contidas no contorno da silhueta no domínio da frequência são discriminantes para reconhecer pessoas através da marcha. Marcha humana Biometria Baseado em silhueta Reconhecimento da marcha humana Redução de dimensionalidade Domínio da frequência Human gait Biometry Silhuette based Gait recognition Dimensionality reduction Frequency domain
27	"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems David Correa Martins Junior 22 September 2004 (has links) Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition. entropia condicional redes gênicas probabilísticas redução de dimensionalidade seleção de características W-operadores conditional entropy dimensionality reduction feature selection probabilistic genetic networks W-operators
28	Decomposição baseada em modelo de problemas de otimização de projeto utilizando redução de dimensionalidade e redes complexas Cardoso, Alexandre Cançado 16 September 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-07T15:01:41Z No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-07T15:07:15Z (GMT) No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Made available in DSpace on 2017-03-07T15:07:15Z (GMT). No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) Previous issue date: 2016-09-16 / A estratégia de dividir para conquistar é comum a diversos ramos de atuação, indo do projeto de algoritmos à politica e sociologia. Em engenharia, é utilizada, dentre outras aplicações, para auxiliar na resolução de problemas de criação de um projeto (general desing problems) ou de um projeto ótimo (optimal design problems) de sistemas grandes, complexos ou multidisciplinares. O presente, trabalho apresenta um método para divisão, decomposição destes problemas em sub-problemas menores a partir de informação apenas do seu modelo (model-based decomposition). Onde a extração dos padrões de relação entre as variáveis, funções, simulações e demais elementos do modelo é realizada através de algoritmos de aprendizado não supervisionado em duas etapas. Primeiramente, o espaço dimensional é reduzido a fim de ressaltar as relações mais significativas, e em seguida utiliza-se a técnica de detecção de comunidade oriunda da área de redes complexas ou técnicas de agrupamento para identificação dos sub-problemas. Por fim, o método é aplicado a problemas de otimização de projeto encontrados na literatura de engenharia estrutural e mecânica. Os sub-problemas obtidos são avaliados segundo critérios comparativos e qualitativos. / The divide and conquer strategy is common to many fields of activity, ranging from the algorithms design to politics and sociology. In engineering, it is used, among other applications, to assist in solving general design problems or optimal design problems of large, complex or multidisciplinary systems. The present work presents a method for splitting, decomposition of these problems into smaller sub-problems using only information from its model (model-based decomposition). Where the pattern extraction of relationships between variables, functions, simulations and other model elements is performed using unsupervised learning algorithms in two steps. First, the dimensional space is reduced in order to highlight the most significant relationships, and then we use the community detection technique coming from complex networks area and clustering techniques to identify the sub-problems. Finally, the method is applied to design optimization problems encountered in structural and mechanical engineering literature. The obtained sub-problems are evaluated against comparative and qualitative criteria. CNPQ::CIENCIAS EXATAS E DA TERRA Otimização de projeto Decomposição baseada em modelo Redução de dimensionalidade Detecção de comunidades Design optimization Model-based decomposition Dimensionality reduction Community detection
29	Sobre coleções e aspectos de centralidade em dados multidimensionais / On collections and centrality aspects of multidimensional data Oliveira, Douglas Cedrim 14 June 2016 (has links) A análise de dados multidimensionais tem sido por muitos anos tópico de contínua investigação e uma das razões se deve ao fato desse tipo de dados ser encontrado em diversas áreas da ciência. Uma tarefa comum ao se analisar esse tipo de dados é a investigação de padrões pela interação em projeções multidimensionais dos dados para o espaço visual. O entendimento da relação entre as características do conjunto de dados (dataset) e a técnica utilizada para se obter uma representação visual desse dataset é de fundamental importância uma vez que esse entendimento pode fornecer uma melhor intuição a respeito do que se esperar da projeção. Por isso motivado, no presente trabalho investiga-se alguns aspectos de centralidade dos dados em dois cenários distintos: coleções de documentos com grafos de coautoria; dados multidimensionais mais gerais. No primeiro cenário, o dado multidimensional que representa os documentos possui informações mais específicas, o que possibilita a combinação de diferentes aspectos para analisá-los de forma sumarizada, bem como a noção de centralidade e relevância dentro da coleção. Isso é levado em consideração para propor uma metáfora visual combinada que possibilite a exploração de toda a coleção, bem como de documentos individuais. No segundo cenário, de dados multidimensionais gerais, assume-se que tais informações não estão disponíveis. Ainda assim, utilizando um conceito de estatística não-paramétrica, deno- minado funções de profundidade de dados (data-depth functions), é feita a avaliação da ação de técnicas de projeção multidimensionais sobre os dados, possibilitando entender como suas medidas de profundidade (centralidade) foram alteradas ao longo do processo, definindo uma também medida de qualidade para projeções. / Analysis of multidimensional data has been for many years a topic of continuous research and one of the reasons is such kind of data can be found on several different areas of science. A common task analyzing such data is to investigate patterns by interacting with spatializations of the data onto the visual space. Understanding the relation between underlying dataset characteristics and the technique used to provide a visual representation of such dataset is of fundamental importance since it can provide a better intuition on what to expect from the spatialization. Motivated by this, in this work we investigate some aspects of centrality on the data in two different scenarios: document collection with co-authorship graphs; general multidimensional data. In the first scenario, the multidimensional data which encodes the documents is much more information specific, meaning it makes possible to combine different aspects such as a summarized analysis, as well as the centrality and relevance notions among the documents in the collection. In order to propose a combined visual metaphor, this is taken into account make possible the visual exploration of the whole document collection as well as individual document analysis. In the second case, of general multidimensional data, there is an assumption that such additional information is not available. Nevertheless, using the concept of data-depth functions from non-parametric statistics it is analyzed the action of multidimensional projection techniques on the data, during the projection process, in order to make possible to understand how depth measures computed in the data have been modified along the process, which also defines a quality measure for multidimensional projections. Data-depth fuctions Dimensionality reduction Estatística não-paramétrica Funções de profundidade de dados Information visualization Medidas de qualidade Multidimensional projection Non-parametric statistics Nuvens de palavras Projeção multidimensional Quality measures Redução de dimensionalidade Text visualization Visualização da informação Visualização de texto Word clouds
30	Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal Chemistry Gertrudes, Jadson Castro 10 September 2013 (has links) Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry Agrupamento de dados Análise de componentes principais Clustering Dimensionality reduction Principal component analysis Redução de dimensionalidade Seleção de variáveis Sparse principal component analysis Structure activity relationship Variable selection

Search results