Spelling suggestions: "subject:"dimensionality reduction"" "subject:"dimensionnality reduction""
161 |
Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signalsLucia Maria dos Santos Pinto 13 February 2014 (has links)
Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados
em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No
contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa
destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura,
sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído
a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas
é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo
de Markov é estabelecido o que permite a visualização do problema em diferentes escalas
conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є,
para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov
de forma a poder aprender a variedade que eventualmente seja o suporte do dados.
Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações
de rotação e variação de iluminação. Também o problema da reconstrução de sinais é
atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo
com um parâmetro regularizador,
γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques
of dimensionality reduction that enable the analysis of data at low dimensions,
capturing the essential parameters associated with the problem. Within the context of
machine learning this reduction is primarily intended for clustering , recognition and reconstruction
of signals. This thesis makes a thorough analysis of these topics and their
connections which are true boiling in the literature, the difusion mapping being the main
focus of this work . This method is constructed from a graph where the vertices are
the signs ( problem data ) and the weight of edges is established based on the Gaussian
kernel of the heat equation. Furthermore , a Markov process is established which allows
the visualization of the problem at diferent scales according to the variation of a given
parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by
relating it to the dynamic Markov so you can learn the variety that eventually support
the data. This thesis proposed the recognition of digital images involving transformations
of rotation and variation of illumination. Also the problem of reconstruction of signals is
attacked with the proposed pre - image using the optimization of a cost function with a
smoothing parameter, γ, Which also takes into account the initial dataset.
|
162 |
Advanced spectral unmixing and classification methods for hyperspectral remote sensing data / Source separation in hyperspectral imageryVilla, Alberto 29 July 2011 (has links)
La thèse propose des nouvelles techniques pour la classification et le démelange spectraldes images obtenus par télédétection iperspectrale. Les problèmes liées au données (notammenttrès grande dimensionalité, présence de mélanges des pixels) ont été considerés et destechniques innovantes pour résoudre ces problèmes. Nouvelles méthodes de classi_cationavancées basées sur l'utilisation des méthodes traditionnel de réduction des dimension etl'integration de l'information spatiale ont été développés. De plus, les méthodes de démelangespectral ont été utilisés conjointement pour ameliorer la classification obtenu avec lesméthodes traditionnel, donnant la possibilité d'obtenir aussi une amélioration de la résolutionspatial des maps de classification grace à l'utilisation de l'information à niveau sous-pixel.Les travaux ont suivi une progression logique, avec les étapes suivantes:1. Constat de base: pour améliorer la classification d'imagerie hyperspectrale, il fautconsidérer les problèmes liées au données : très grande dimensionalité, presence demélanges des pixels.2. Peut-on développer méthodes de classi_cation avancées basées sur l'utilisation des méthodestraditionnel de réduction des dimension (ICA ou autre)?3. Comment utiliser les differents types d'information contextuel typique des imagés satellitaires?4. Peut-on utiliser l'information données par les méthodes de démelange spectral pourproposer nouvelles chaines de réduction des dimension?5. Est-ce qu'on peut utiliser conjointement les méthodes de démelange spectral pour ameliorerla classification obtenu avec les méthodes traditionnel?6. Peut-on obtenir une amélioration de la résolution spatial des maps de classi_cationgrace à l'utilisation de l'information à niveau sous-pixel?Les différents méthodes proposées ont été testées sur plusieurs jeux de données réelles, montrantresultats comparable ou meilleurs de la plus part des methodes presentés dans la litterature. / The thesis presents new techniques for classification and unmixing of hyperspectral remote sensing data. The main issues connected to this kind of data (in particular the huge dimension and the possibility to find mixed pixels) have been considered. New advanced techniques have been proposed in order to solve these problems. In a first part, new classification methods based on the use of traditional dimensionality reduction methods (such as Independent Component Analysis - ICA) and on the integration of spatial and spectral information have been proposed. In a second part, methods based on spectral unmixing have been considered to improve the results obtained with classical methods. These methods gave the possibility to improve the spatial resolution of the classification maps thanks to the sub-pixel information which they consider.The main steps of the work are the following:- Introduction and survey of the data. Base assessment: in order to improve the classification of hyperspectral images, data related problems must be considered (very high dimension, presence of mixed pixels)- Development of advanced classification methods making use of classic dimensionality reduction techniques (Independent Component Discriminant Analysis)- Proposition of classification methods exploiting different kinds of contextual information, typical of hyperspectral imagery - Study of spectral unmixing techniques, in order to propose new feature extraction methods exploiting sub-pixel information - Joint use of traditional classification methods and unmixing techniques in order to obtain land cover classification maps at a finer resolutionThe different methods proposed have been tested on several real hyperspectral data, showing results which are comparable or better than methods recently proposed in the literature.
|
163 |
Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signalsLucia Maria dos Santos Pinto 13 February 2014 (has links)
Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados
em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No
contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa
destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura,
sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído
a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas
é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo
de Markov é estabelecido o que permite a visualização do problema em diferentes escalas
conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є,
para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov
de forma a poder aprender a variedade que eventualmente seja o suporte do dados.
Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações
de rotação e variação de iluminação. Também o problema da reconstrução de sinais é
atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo
com um parâmetro regularizador,
γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques
of dimensionality reduction that enable the analysis of data at low dimensions,
capturing the essential parameters associated with the problem. Within the context of
machine learning this reduction is primarily intended for clustering , recognition and reconstruction
of signals. This thesis makes a thorough analysis of these topics and their
connections which are true boiling in the literature, the difusion mapping being the main
focus of this work . This method is constructed from a graph where the vertices are
the signs ( problem data ) and the weight of edges is established based on the Gaussian
kernel of the heat equation. Furthermore , a Markov process is established which allows
the visualization of the problem at diferent scales according to the variation of a given
parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by
relating it to the dynamic Markov so you can learn the variety that eventually support
the data. This thesis proposed the recognition of digital images involving transformations
of rotation and variation of illumination. Also the problem of reconstruction of signals is
attacked with the proposed pre - image using the optimization of a cost function with a
smoothing parameter, γ, Which also takes into account the initial dataset.
|
164 |
Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais / Propagation in bipartite graphs for topic extraction in stream of textual dataThiago de Paulo Faleiros 08 June 2016 (has links)
Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que analise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensões latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descoberta de padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado. / Handling large amounts of data is a requirement for modern text mining algorithms. For some applications, documents are published constantly, which demand a high cost for long-term storage. So it is necessary easily adaptable methods for an approach that considers documents flow, and be capable of analyzing the data in one step without requiring the high cost of storage. Another requirement is that this approach can exploit heuristics in order to improve the quality of results. Several models for automatic extraction of latent information in a collection of documents have been proposed in the literature, among them probabilistic topic models are prominent. Probabilistic topic models achieve good practical results, and have been extended to several models with different types of information included. However, properly describe these models, derive them, and then get appropriate inference algorithms are difficult tasks, requiring a rigorous mathematical treatment for descriptions of operations performed in the latent dimensions discovery process. Thus, for the development of a simple and efficient method to tackle the problem of latent dimensions discovery, a proper representation of the data is required. The hypothesis of this thesis is that by using bipartite graph for representation of textual data one can address the task of latent patterns discovery, present in the relationships between documents and words, in a simple and intuitive way. For validation of this hypothesis, we have developed a framework based on label propagation algorithm using the bipartite graph representation. The framework, called PBG (Propagation in Bipartite Graph) was initially applied to the unsupervised context for a static collection of documents. Then a semi-supervised version was proposed which need only a small amount of labeled documents to the transductive classification task. Finally, it was applied in the dynamic context in which flow of textual data was considered. Comparative analyzes were performed, and the results indicated that the PBG is a viable and competitive alternative for tasks in the unsupervised and semi-supervised contexts.
|
165 |
Two-dimensional extensions of semi-supervised dimensionality reduction methodsMoraes, Lailson Bandeira de 19 August 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:17:21Z
No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:02:06Z (GMT) No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:02:06Z (GMT). No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-19 / An important pre-processing step in machine learning systems is dimensionality reduction,
which aims to produce compact representations of high-dimensional patterns.
In computer vision applications, these patterns are typically images, that are
represented by two-dimensional matrices. However, traditional dimensionality reduction
techniques were designed to work only with vectors, what makes them a
suboptimal choice for processing two-dimensional data. Another problem with traditional
approaches for dimensionality reduction is that they operate either on a fully
unsupervised or fully supervised way, what limits their efficiency in scenarios where
supervised information is available only for a subset of the data. These situations are
increasingly common because in many modern applications it is easy to produce raw
data, but it is usually difficult to label it. In this study, we propose three dimensionality
reduction methods that can overcome these limitations: Two-dimensional Semi-supervised
Dimensionality Reduction (2D-SSDR), Two-dimensional Discriminant Principal
Component Analysis (2D-DPCA), and Two-dimensional Semi-supervised Local Fisher
Discriminant Analysis (2D-SELF). They work directly with two-dimensional data and
can also take advantage of supervised information even if it is available only for a
small part of the dataset. In addition, a fully supervised method, the Two-dimensional
Local Fisher Discriminant Analysis (2D-LFDA), is proposed too. The methods are defined
in terms of a two-dimensional framework, which was created in this study as
well. The framework is capable of generally describing scatter-based methods for dimensionality
reduction and can be used for deriving other two-dimensional methods
in the future. Experimental results showed that, as expected, the novel methods are
faster and more stable than the existing ones. Furthermore, 2D-SSDR, 2D-SELF, and
2D-LFDA achieved competitive classification accuracies most of the time when compared
to the traditional methods. Therefore, these three techniques can be seen as
viable alternatives to existing dimensionality reduction methods. / Um estágio importante de pré-processamento em sistemas de aprendizagem de máquina
é a redução de dimensionalidade, que tem como objetivo produzir representações
compactas de padrões de alta dimensionalidade. Em aplicações de visão computacional,
estes padrões são tipicamente imagens, que são representadas por matrizes
bi-dimensionais. Entretanto, técnicas tradicionais para redução de dimensionalidade
foram projetadas para lidar apenas com vetores, o que as torna opções inadequadas
para processar dados bi-dimensionais. Outro problema com as abordagens tradicionais
para redução de dimensionalidade é que elas operam apenas de forma totalmente
não-supervisionada ou totalmente supervisionada, o que limita sua eficiência em cenários
onde dados supervisionados estão disponíveis apenas para um subconjunto
das amostras. Estas situações são cada vez mais comuns por que em várias aplicações
modernas é fácil produzir dados brutos, mas é geralmente difícil rotulá-los. Neste
estudo, propomos três métodos para redução de dimensionalidade capazes de contornar
estas limitações: Two-dimensional Semi-supervised Dimensionality Reduction (2DSSDR),
Two-dimensional Discriminant Principal Component Analysis (2D-DPCA), e Twodimensional
Semi-supervised Local Fisher Discriminant Analysis (2D-SELF). Eles operam
diretamente com dados bi-dimensionais e também podem explorar informação supervisionada,
mesmo que ela esteja disponível apenas para uma pequena parte das amostras.
Adicionalmente, um método completamente supervisionado, o Two-dimensional
Local Fisher Discriminant Analysis (2D-LFDA) é proposto também. Os métodos são definidos
nos termos de um framework bi-dimensional, que foi igualmente criado neste
estudo. O framework é capaz de descrever métodos para redução de dimensionalidade
baseados em dispersão de forma geral e pode ser usado para derivar outras técnicas
bi-dimensionais no futuro. Resultados experimentais mostraram que, como esperado,
os novos métodos são mais rápidos e estáveis que as técnicas existentes. Além disto,
2D-SSDR, 2D-SELF, e 2D-LFDA obtiveram taxas de erro competitivas na maior parte
das vezes quando comparadas aos métodos tradicionais. Desta forma, estas três técnicas
podem ser vistas como alternativas viáveis aos métodos existentes para redução
de dimensionalidade.
|
166 |
Reconhecimento de pessoas pela marcha usando redução de dimensionalidade de contornos no domínio da frequência / Human gait recognition using dimensionality reduction of contours in the frequency domainMendes, Wender Cabral 31 March 2016 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2016-08-10T19:31:03Z
No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-08-15T13:25:32Z (GMT) No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-08-15T13:25:32Z (GMT). No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-03-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Gait recognition via computer vision attracted increasing interest for its noninvasive characteristic
and mainly for your advantage of recognizing people at distance. Recognition
is performing extracting features included in gait, this features are extracted from images
sequence of people walking. The main challenges of gait recognition is to extract characteristics
with unique information for each person, in additional, the use of accessories
and clothes difficult the feature extraction process. This paper proposes a gait recognition
method using information of people’s contours transformed in domain frequence by Discrete
Fourier Transform. A lot of data are generated from the contours, thereby, three different
techniques for dimensionality reduction CDA (Class Discrimination Ability), PCA
(Principal Component Analysis) and PLS (Partial Least Squares) are employed to reduce
the dimensionality of data and generate characteristics that are relevant to the recongnition
system. Two classifiers, KNN (K-Nearest Neighbor) and LDA (Linear Discriminant
Analysis) classify the characteristics that are returned by the dimensionality reduction
methods. The accuracy are achieved by the combination of the dimensionality reduction
methods and classifiers, the highest accuracy was 92:67%, which was achieved with the
combination between the LDA and PCA (LDAPCA). Therefore, the results show that the
information contained in the contours of silhouette are discriminant to recognize people
by their gait. / O reconhecimento de pessoas através da marcha humana via visão computacional tem
ganhado destaque por ser uma técnica biométrica não invasiva e principalmente por sua
vantagem de reconhecer pessoas à distância. O reconhecimento é realizando extraindo
características contidas na marcha de cada pessoa, essas características são extraídas de
sequências de imagens da pessoa caminhando. Os principais desafios dessa técnica biométrica
está em extrair as características com informações que consigam diferenciar uma
pessoa da outra, além disso, o uso de acessórios e vestimentas dificultam o processo de extração
de características. Este trabalho propõe um método de reconhecimento baseado na
marcha humana utilizando informações dos contornos das pessoas transformados para o
domínio da frequência por meio da Transformada Discreta de Fourier. Como são geradas
muitos dados a partir dos contornos, três técnicas diferentes de redução de dimensionalidade
CDA (Class Discrimination Ability), PCA (Principal Component Analysis) e PLS
(Partial Least Squares) são empregadas para reduzir a quantidade de dados e gerar características
que sejam relevantes para o sistema de reconhecimento. Dois classificadores,
KNN (K-Nearest Neighbor) e LDA (Linear Discriminant Analysis) classificam as características
retornadas pelos métodos de redução de dimensionalidade. As taxas de acurácia
são obtidas pelos resultados gerados entre a combinação dos métodos de redução de dimensionalidade
e os classificadores, a maior taxa de acurácia foi de 92;67%, a qual foi
alcançada com a combinação entre o LDA e PCA (LDAPCA). Dessa forma, conclui-se que
as informações contidas no contorno da silhueta no domínio da frequência são discriminantes
para reconhecer pessoas através da marcha.
|
167 |
Mapeamento de dados genômicos usando escalonamento multidimensional / Representation of genomics data with multidimensional scalingSoledad Espezúa Llerena 04 June 2008 (has links)
Neste trabalho são exploradas diversas técnicas de escalonamento multidimensional (MDS), com o objetivo de estudar sua aplicabilidade no mapeamento de dados genômicos resultantes da técnica RFLP-PCR, sendo esse mapeamento realizado em espaços de baixa dimensionalidade (2D ou 3D) com o fim de aproveitar a habilidade de análise e interpretação visual que possuem os seres humanos. Foi realizada uma análise comparativa de diversos algoritmos MDS, visando sua aptidão para mapear dados genômicos. Esta análise compreendeu o estudo de alguns índices de desempenho como a precisão no mapeamento, o custo computacional e a capacidade de induzir bons agrupamentos. Para a realização dessa análise foi desenvolvida a ferramenta \"MDSExplorer\", a qual integra os algoritmos estudados e várias opções que permitem comparar os algoritmos e visualizar os mapeamentos. Á análise realizada sobre diversos bancos de dados citados na literatura, sugerem que o algoritmo LANDMARK possui o menor tempo computacional, uma precisão de mapeamento similar aos demais algoritmos, e uma boa capacidade de manter as estruturas existentes nos dados. Finalmente, o MDSExplorer foi usado para mapear um banco de dados genômicos: o banco de estirpes de bactérias fixadoras de nitrogênio, pertencentes ao gênero Bradyrhizobium, com objetivo de ajudar o especialista a inferir visualmente alguma taxonomia nessas estirpes. Os resultados na redução dimensional desse banco de dados sugeriram que a informação relevante (acima dos 60% da variância acumulada) para as regiões 16S, 23S e IGS estaria nas primeiras 5, 4 e 9 dimensões respectivamente. / In this work were studied various Multidimensional Scaling (MDS) techniques intended to apply in the mapping of genomics data obtained of RFLP-PCR technique. This mapping is done in a low dimensional space (2D or 3D), and has the intention of exploiting the visual human capability on analysis and synthesis. A comparative analysis of diverse algorithms MDS was carried out in order to devise its ubiquity in representing genomics data. This analysis covers the study of some indices of performance such as: the precision in the mapping, the computational cost and the capacity to induce good groupings. The purpose of this analysis was developed a software tool called \"MDSExplorer\", which integrates various MDS algorithms and some options that allow to compare the algorithms and to visualize the mappings. The analysis, carried out over diverse datasets cited in the literature, suggest that the algorithm LANDMARK has the lowest computational time, a good precision in the mapping, and a tendency to maintain the existing structures in the data. Finally, MDSExplorer was used to mapping a real genomics dataset: the RFLP-PRC images of a Brazilian collection of bacterial strains belonging to the genus Bradyrhizobium (known by their capability to transform the nitrogen of the atmosphere into compounds useful for the host plants), with the objective to aid the specialist to infer visually a taxonomy in these strains. The results in reduction of dimensionality in this data base, suggest that the relevant information (above 60% of variance accumulated) to the region 16S, 23S and IGS is around 5, 4 and 9 dimensions respectively.
|
168 |
"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problemsDavid Correa Martins Junior 22 September 2004 (has links)
Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition.
|
169 |
Decomposição baseada em modelo de problemas de otimização de projeto utilizando redução de dimensionalidade e redes complexasCardoso, Alexandre Cançado 16 September 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-07T15:01:41Z
No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-07T15:07:15Z (GMT) No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Made available in DSpace on 2017-03-07T15:07:15Z (GMT). No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5)
Previous issue date: 2016-09-16 / A estratégia de dividir para conquistar é comum a diversos ramos de atuação, indo
do projeto de algoritmos à politica e sociologia. Em engenharia, é utilizada, dentre
outras aplicações, para auxiliar na resolução de problemas de criação de um projeto
(general desing problems) ou de um projeto ótimo (optimal design problems) de sistemas
grandes, complexos ou multidisciplinares. O presente, trabalho apresenta um método para
divisão, decomposição destes problemas em sub-problemas menores a partir de informação
apenas do seu modelo (model-based decomposition). Onde a extração dos padrões de
relação entre as variáveis, funções, simulações e demais elementos do modelo é realizada
através de algoritmos de aprendizado não supervisionado em duas etapas. Primeiramente,
o espaço dimensional é reduzido a fim de ressaltar as relações mais significativas, e
em seguida utiliza-se a técnica de detecção de comunidade oriunda da área de redes
complexas ou técnicas de agrupamento para identificação dos sub-problemas. Por fim,
o método é aplicado a problemas de otimização de projeto encontrados na literatura
de engenharia estrutural e mecânica. Os sub-problemas obtidos são avaliados segundo
critérios comparativos e qualitativos. / The divide and conquer strategy is common to many fields of activity, ranging from
the algorithms design to politics and sociology. In engineering, it is used, among other
applications, to assist in solving general design problems or optimal design problems
of large, complex or multidisciplinary systems. The present work presents a method
for splitting, decomposition of these problems into smaller sub-problems using only
information from its model (model-based decomposition). Where the pattern extraction
of relationships between variables, functions, simulations and other model elements is
performed using unsupervised learning algorithms in two steps. First, the dimensional
space is reduced in order to highlight the most significant relationships, and then we use
the community detection technique coming from complex networks area and clustering
techniques to identify the sub-problems. Finally, the method is applied to design
optimization problems encountered in structural and mechanical engineering literature.
The obtained sub-problems are evaluated against comparative and qualitative criteria.
|
170 |
Méthodes de detection robustes avec apprentissage de dictionnaires. Applications à des données hyperspectrales / Detection tests for worst-case scenarios with optimized dictionaries. Applications to hyperspectral dataRaja Suleiman, Raja Fazliza 16 December 2014 (has links)
Le travail dans cette thèse porte sur le problème de détection «one among many» où l’on doit distinguer entre un bruit sous H0 et une parmi L alternatives connues sous H1. Ce travail se concentre sur l’étude et la mise en œuvre de méthodes de détection robustes de dimension réduite utilisant des dictionnaires optimisés. Ces méthodes de détection sont associées au test de Rapport de Vraisemblance Généralisé. Les approches proposées sont principalement évaluées sur des données hyperspectrales. Dans la première partie, plusieurs sujets techniques associés à cette thèse sont présentés. La deuxième partie met en évidence les aspects théoriques et algorithmiques des méthodes proposées. Deux inconvénients liés à un grand nombre d’alternatives se posent. Dans ce cadre, nous proposons des techniques d’apprentissage de dictionnaire basées sur un critère robuste qui cherche à minimiser la perte de puissance dans le pire des cas (type minimax). Dans le cas où l’on cherche un dictionnaire à K = 1 atome, nous montrons que la solution exacte peut être obtenue. Ensuite, nous proposons dans le cas K > 1 trois algorithmes d’apprentissage minimax. Finalement, la troisième partie de ce manuscrit présente plusieurs applications. L’application principale concerne les données astrophysiques hyperspectrales de l’instrument Multi Unit Spectroscopic Explorer. Les résultats numériques montrent que les méthodes proposées sont robustes et que le cas K > 1 permet d’augmenter les performances de détection minimax par rapport au cas K = 1. D’autres applications possibles telles que l’apprentissage minimax de visages et la reconnaissance de chiffres manuscrits dans le pire cas sont présentées. / This Ph.D dissertation deals with a "one among many" detection problem, where one has to discriminate between pure noise under H0 and one among L known alternatives under H1. This work focuses on the study and implementation of robust reduced dimension detection tests using optimized dictionaries. These detection methods are associated with the Generalized Likelihood Ratio test. The proposed approaches are principally assessed on hyperspectral data. In the first part, several technical topics associated to the framework of this dissertation are presented. The second part highlights the theoretical and algorithmic aspects of the proposed methods. Two issues linked to the large number of alternatives arise in this framework. In this context, we propose dictionary learning techniques based on a robust criterion that seeks to minimize the maximum power loss (type minimax). In the case where the learned dictionary has K = 1 column, we show that the exact solution can be obtained. Then, we propose in the case K > 1 three minimax learning algorithms. Finally, the third part of this manuscript presents several applications. The principal application regards astrophysical hyperspectral data of the Multi Unit Spectroscopic Explorer instrument. Numerical results show that the proposed algorithms are robust and in the case K > 1 they allow to increase the minimax detection performances over the K = 1 case. Other possible applications such as worst-case recognition of faces and handwritten digits are presented.
|
Page generated in 0.1551 seconds