Spelling suggestions: "subject:"redução dde dimensionalidade"" "subject:"redução dee dimensionalidade""
21 |
"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problemsMartins Junior, David Correa 22 September 2004 (has links)
Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition.
|
22 |
Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signalsLucia Maria dos Santos Pinto 13 February 2014 (has links)
Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados
em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No
contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa
destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura,
sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído
a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas
é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo
de Markov é estabelecido o que permite a visualização do problema em diferentes escalas
conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є,
para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov
de forma a poder aprender a variedade que eventualmente seja o suporte do dados.
Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações
de rotação e variação de iluminação. Também o problema da reconstrução de sinais é
atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo
com um parâmetro regularizador,
γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques
of dimensionality reduction that enable the analysis of data at low dimensions,
capturing the essential parameters associated with the problem. Within the context of
machine learning this reduction is primarily intended for clustering , recognition and reconstruction
of signals. This thesis makes a thorough analysis of these topics and their
connections which are true boiling in the literature, the difusion mapping being the main
focus of this work . This method is constructed from a graph where the vertices are
the signs ( problem data ) and the weight of edges is established based on the Gaussian
kernel of the heat equation. Furthermore , a Markov process is established which allows
the visualization of the problem at diferent scales according to the variation of a given
parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by
relating it to the dynamic Markov so you can learn the variety that eventually support
the data. This thesis proposed the recognition of digital images involving transformations
of rotation and variation of illumination. Also the problem of reconstruction of signals is
attacked with the proposed pre - image using the optimization of a cost function with a
smoothing parameter, γ, Which also takes into account the initial dataset.
|
23 |
Mapeamento de difusão no reconhecimento e reconstrução de sinais / Difusion maps for recognition and reconstruction of signalsLucia Maria dos Santos Pinto 13 February 2014 (has links)
Em muitas representações de objetos ou sistemas físicos se faz necessário a utilização de técnicas de redução de dimensionalidade que possibilitam a análise dos dados
em baixas dimensões, capturando os parâmetros essenciais associados ao problema. No
contexto de aprendizagem de máquina esta redução se destina primordialmente à clusterização, reconhecimento e reconstrução de sinais. Esta tese faz uma análise meticulosa
destes tópicos e suas conexões que se encontram em verdadeira ebulição na literatura,
sendo o mapeamento de difusão o foco principal deste trabalho. Tal método é construído
a partir de um grafo onde os vértices são os sinais (dados do problema) e o peso das arestas
é estabelecido a partir do núcleo gaussiano da equação do calor. Além disso, um processo
de Markov é estabelecido o que permite a visualização do problema em diferentes escalas
conforme variação de um determinado parâmetro t: Um outro parâmetro de escala, Є,
para o núcleo gaussiano é avaliado com cuidado relacionando-o com a dinâmica de Markov
de forma a poder aprender a variedade que eventualmente seja o suporte do dados.
Nesta tese é proposto o reconhecimento de imagens digitais envolvendo transformações
de rotação e variação de iluminação. Também o problema da reconstrução de sinais é
atacado com a proposta de pré-imagem utilizando-se da otimização de uma função custo
com um parâmetro regularizador,
γ, que leva em conta também o conjunto de dados iniciais. / In many representations of objects or physical systems it is necessary to use techniques
of dimensionality reduction that enable the analysis of data at low dimensions,
capturing the essential parameters associated with the problem. Within the context of
machine learning this reduction is primarily intended for clustering , recognition and reconstruction
of signals. This thesis makes a thorough analysis of these topics and their
connections which are true boiling in the literature, the difusion mapping being the main
focus of this work . This method is constructed from a graph where the vertices are
the signs ( problem data ) and the weight of edges is established based on the Gaussian
kernel of the heat equation. Furthermore , a Markov process is established which allows
the visualization of the problem at diferent scales according to the variation of a given
parameter t . Another scale parameter, Є , for the Gaussian core is carefully evaluated by
relating it to the dynamic Markov so you can learn the variety that eventually support
the data. This thesis proposed the recognition of digital images involving transformations
of rotation and variation of illumination. Also the problem of reconstruction of signals is
attacked with the proposed pre - image using the optimization of a cost function with a
smoothing parameter, γ, Which also takes into account the initial dataset.
|
24 |
Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais / Propagation in bipartite graphs for topic extraction in stream of textual dataThiago de Paulo Faleiros 08 June 2016 (has links)
Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que analise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensões latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descoberta de padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado. / Handling large amounts of data is a requirement for modern text mining algorithms. For some applications, documents are published constantly, which demand a high cost for long-term storage. So it is necessary easily adaptable methods for an approach that considers documents flow, and be capable of analyzing the data in one step without requiring the high cost of storage. Another requirement is that this approach can exploit heuristics in order to improve the quality of results. Several models for automatic extraction of latent information in a collection of documents have been proposed in the literature, among them probabilistic topic models are prominent. Probabilistic topic models achieve good practical results, and have been extended to several models with different types of information included. However, properly describe these models, derive them, and then get appropriate inference algorithms are difficult tasks, requiring a rigorous mathematical treatment for descriptions of operations performed in the latent dimensions discovery process. Thus, for the development of a simple and efficient method to tackle the problem of latent dimensions discovery, a proper representation of the data is required. The hypothesis of this thesis is that by using bipartite graph for representation of textual data one can address the task of latent patterns discovery, present in the relationships between documents and words, in a simple and intuitive way. For validation of this hypothesis, we have developed a framework based on label propagation algorithm using the bipartite graph representation. The framework, called PBG (Propagation in Bipartite Graph) was initially applied to the unsupervised context for a static collection of documents. Then a semi-supervised version was proposed which need only a small amount of labeled documents to the transductive classification task. Finally, it was applied in the dynamic context in which flow of textual data was considered. Comparative analyzes were performed, and the results indicated that the PBG is a viable and competitive alternative for tasks in the unsupervised and semi-supervised contexts.
|
25 |
Two-dimensional extensions of semi-supervised dimensionality reduction methodsMoraes, Lailson Bandeira de 19 August 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:17:21Z
No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:02:06Z (GMT) No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:02:06Z (GMT). No. of bitstreams: 2
Dissertaçao Lailson de Moraes.pdf: 4634910 bytes, checksum: cbec580f8cbc24cb3feb2379a1d2dfbd (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-19 / An important pre-processing step in machine learning systems is dimensionality reduction,
which aims to produce compact representations of high-dimensional patterns.
In computer vision applications, these patterns are typically images, that are
represented by two-dimensional matrices. However, traditional dimensionality reduction
techniques were designed to work only with vectors, what makes them a
suboptimal choice for processing two-dimensional data. Another problem with traditional
approaches for dimensionality reduction is that they operate either on a fully
unsupervised or fully supervised way, what limits their efficiency in scenarios where
supervised information is available only for a subset of the data. These situations are
increasingly common because in many modern applications it is easy to produce raw
data, but it is usually difficult to label it. In this study, we propose three dimensionality
reduction methods that can overcome these limitations: Two-dimensional Semi-supervised
Dimensionality Reduction (2D-SSDR), Two-dimensional Discriminant Principal
Component Analysis (2D-DPCA), and Two-dimensional Semi-supervised Local Fisher
Discriminant Analysis (2D-SELF). They work directly with two-dimensional data and
can also take advantage of supervised information even if it is available only for a
small part of the dataset. In addition, a fully supervised method, the Two-dimensional
Local Fisher Discriminant Analysis (2D-LFDA), is proposed too. The methods are defined
in terms of a two-dimensional framework, which was created in this study as
well. The framework is capable of generally describing scatter-based methods for dimensionality
reduction and can be used for deriving other two-dimensional methods
in the future. Experimental results showed that, as expected, the novel methods are
faster and more stable than the existing ones. Furthermore, 2D-SSDR, 2D-SELF, and
2D-LFDA achieved competitive classification accuracies most of the time when compared
to the traditional methods. Therefore, these three techniques can be seen as
viable alternatives to existing dimensionality reduction methods. / Um estágio importante de pré-processamento em sistemas de aprendizagem de máquina
é a redução de dimensionalidade, que tem como objetivo produzir representações
compactas de padrões de alta dimensionalidade. Em aplicações de visão computacional,
estes padrões são tipicamente imagens, que são representadas por matrizes
bi-dimensionais. Entretanto, técnicas tradicionais para redução de dimensionalidade
foram projetadas para lidar apenas com vetores, o que as torna opções inadequadas
para processar dados bi-dimensionais. Outro problema com as abordagens tradicionais
para redução de dimensionalidade é que elas operam apenas de forma totalmente
não-supervisionada ou totalmente supervisionada, o que limita sua eficiência em cenários
onde dados supervisionados estão disponíveis apenas para um subconjunto
das amostras. Estas situações são cada vez mais comuns por que em várias aplicações
modernas é fácil produzir dados brutos, mas é geralmente difícil rotulá-los. Neste
estudo, propomos três métodos para redução de dimensionalidade capazes de contornar
estas limitações: Two-dimensional Semi-supervised Dimensionality Reduction (2DSSDR),
Two-dimensional Discriminant Principal Component Analysis (2D-DPCA), e Twodimensional
Semi-supervised Local Fisher Discriminant Analysis (2D-SELF). Eles operam
diretamente com dados bi-dimensionais e também podem explorar informação supervisionada,
mesmo que ela esteja disponível apenas para uma pequena parte das amostras.
Adicionalmente, um método completamente supervisionado, o Two-dimensional
Local Fisher Discriminant Analysis (2D-LFDA) é proposto também. Os métodos são definidos
nos termos de um framework bi-dimensional, que foi igualmente criado neste
estudo. O framework é capaz de descrever métodos para redução de dimensionalidade
baseados em dispersão de forma geral e pode ser usado para derivar outras técnicas
bi-dimensionais no futuro. Resultados experimentais mostraram que, como esperado,
os novos métodos são mais rápidos e estáveis que as técnicas existentes. Além disto,
2D-SSDR, 2D-SELF, e 2D-LFDA obtiveram taxas de erro competitivas na maior parte
das vezes quando comparadas aos métodos tradicionais. Desta forma, estas três técnicas
podem ser vistas como alternativas viáveis aos métodos existentes para redução
de dimensionalidade.
|
26 |
Reconhecimento de pessoas pela marcha usando redução de dimensionalidade de contornos no domínio da frequência / Human gait recognition using dimensionality reduction of contours in the frequency domainMendes, Wender Cabral 31 March 2016 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2016-08-10T19:31:03Z
No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-08-15T13:25:32Z (GMT) No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-08-15T13:25:32Z (GMT). No. of bitstreams: 2
Dissertação - Weder Cabral Mendes - 2016.pdf: 1214460 bytes, checksum: 14588573f8f81fe4836a9945adacf37d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-03-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Gait recognition via computer vision attracted increasing interest for its noninvasive characteristic
and mainly for your advantage of recognizing people at distance. Recognition
is performing extracting features included in gait, this features are extracted from images
sequence of people walking. The main challenges of gait recognition is to extract characteristics
with unique information for each person, in additional, the use of accessories
and clothes difficult the feature extraction process. This paper proposes a gait recognition
method using information of people’s contours transformed in domain frequence by Discrete
Fourier Transform. A lot of data are generated from the contours, thereby, three different
techniques for dimensionality reduction CDA (Class Discrimination Ability), PCA
(Principal Component Analysis) and PLS (Partial Least Squares) are employed to reduce
the dimensionality of data and generate characteristics that are relevant to the recongnition
system. Two classifiers, KNN (K-Nearest Neighbor) and LDA (Linear Discriminant
Analysis) classify the characteristics that are returned by the dimensionality reduction
methods. The accuracy are achieved by the combination of the dimensionality reduction
methods and classifiers, the highest accuracy was 92:67%, which was achieved with the
combination between the LDA and PCA (LDAPCA). Therefore, the results show that the
information contained in the contours of silhouette are discriminant to recognize people
by their gait. / O reconhecimento de pessoas através da marcha humana via visão computacional tem
ganhado destaque por ser uma técnica biométrica não invasiva e principalmente por sua
vantagem de reconhecer pessoas à distância. O reconhecimento é realizando extraindo
características contidas na marcha de cada pessoa, essas características são extraídas de
sequências de imagens da pessoa caminhando. Os principais desafios dessa técnica biométrica
está em extrair as características com informações que consigam diferenciar uma
pessoa da outra, além disso, o uso de acessórios e vestimentas dificultam o processo de extração
de características. Este trabalho propõe um método de reconhecimento baseado na
marcha humana utilizando informações dos contornos das pessoas transformados para o
domínio da frequência por meio da Transformada Discreta de Fourier. Como são geradas
muitos dados a partir dos contornos, três técnicas diferentes de redução de dimensionalidade
CDA (Class Discrimination Ability), PCA (Principal Component Analysis) e PLS
(Partial Least Squares) são empregadas para reduzir a quantidade de dados e gerar características
que sejam relevantes para o sistema de reconhecimento. Dois classificadores,
KNN (K-Nearest Neighbor) e LDA (Linear Discriminant Analysis) classificam as características
retornadas pelos métodos de redução de dimensionalidade. As taxas de acurácia
são obtidas pelos resultados gerados entre a combinação dos métodos de redução de dimensionalidade
e os classificadores, a maior taxa de acurácia foi de 92;67%, a qual foi
alcançada com a combinação entre o LDA e PCA (LDAPCA). Dessa forma, conclui-se que
as informações contidas no contorno da silhueta no domínio da frequência são discriminantes
para reconhecer pessoas através da marcha.
|
27 |
"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problemsDavid Correa Martins Junior 22 September 2004 (has links)
Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition.
|
28 |
Decomposição baseada em modelo de problemas de otimização de projeto utilizando redução de dimensionalidade e redes complexasCardoso, Alexandre Cançado 16 September 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-07T15:01:41Z
No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-07T15:07:15Z (GMT) No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Made available in DSpace on 2017-03-07T15:07:15Z (GMT). No. of bitstreams: 1
alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5)
Previous issue date: 2016-09-16 / A estratégia de dividir para conquistar é comum a diversos ramos de atuação, indo
do projeto de algoritmos à politica e sociologia. Em engenharia, é utilizada, dentre
outras aplicações, para auxiliar na resolução de problemas de criação de um projeto
(general desing problems) ou de um projeto ótimo (optimal design problems) de sistemas
grandes, complexos ou multidisciplinares. O presente, trabalho apresenta um método para
divisão, decomposição destes problemas em sub-problemas menores a partir de informação
apenas do seu modelo (model-based decomposition). Onde a extração dos padrões de
relação entre as variáveis, funções, simulações e demais elementos do modelo é realizada
através de algoritmos de aprendizado não supervisionado em duas etapas. Primeiramente,
o espaço dimensional é reduzido a fim de ressaltar as relações mais significativas, e
em seguida utiliza-se a técnica de detecção de comunidade oriunda da área de redes
complexas ou técnicas de agrupamento para identificação dos sub-problemas. Por fim,
o método é aplicado a problemas de otimização de projeto encontrados na literatura
de engenharia estrutural e mecânica. Os sub-problemas obtidos são avaliados segundo
critérios comparativos e qualitativos. / The divide and conquer strategy is common to many fields of activity, ranging from
the algorithms design to politics and sociology. In engineering, it is used, among other
applications, to assist in solving general design problems or optimal design problems
of large, complex or multidisciplinary systems. The present work presents a method
for splitting, decomposition of these problems into smaller sub-problems using only
information from its model (model-based decomposition). Where the pattern extraction
of relationships between variables, functions, simulations and other model elements is
performed using unsupervised learning algorithms in two steps. First, the dimensional
space is reduced in order to highlight the most significant relationships, and then we use
the community detection technique coming from complex networks area and clustering
techniques to identify the sub-problems. Finally, the method is applied to design
optimization problems encountered in structural and mechanical engineering literature.
The obtained sub-problems are evaluated against comparative and qualitative criteria.
|
29 |
Sobre coleções e aspectos de centralidade em dados multidimensionais / On collections and centrality aspects of multidimensional dataOliveira, Douglas Cedrim 14 June 2016 (has links)
A análise de dados multidimensionais tem sido por muitos anos tópico de contínua investigação e uma das razões se deve ao fato desse tipo de dados ser encontrado em diversas áreas da ciência. Uma tarefa comum ao se analisar esse tipo de dados é a investigação de padrões pela interação em projeções multidimensionais dos dados para o espaço visual. O entendimento da relação entre as características do conjunto de dados (dataset) e a técnica utilizada para se obter uma representação visual desse dataset é de fundamental importância uma vez que esse entendimento pode fornecer uma melhor intuição a respeito do que se esperar da projeção. Por isso motivado, no presente trabalho investiga-se alguns aspectos de centralidade dos dados em dois cenários distintos: coleções de documentos com grafos de coautoria; dados multidimensionais mais gerais. No primeiro cenário, o dado multidimensional que representa os documentos possui informações mais específicas, o que possibilita a combinação de diferentes aspectos para analisá-los de forma sumarizada, bem como a noção de centralidade e relevância dentro da coleção. Isso é levado em consideração para propor uma metáfora visual combinada que possibilite a exploração de toda a coleção, bem como de documentos individuais. No segundo cenário, de dados multidimensionais gerais, assume-se que tais informações não estão disponíveis. Ainda assim, utilizando um conceito de estatística não-paramétrica, deno- minado funções de profundidade de dados (data-depth functions), é feita a avaliação da ação de técnicas de projeção multidimensionais sobre os dados, possibilitando entender como suas medidas de profundidade (centralidade) foram alteradas ao longo do processo, definindo uma também medida de qualidade para projeções. / Analysis of multidimensional data has been for many years a topic of continuous research and one of the reasons is such kind of data can be found on several different areas of science. A common task analyzing such data is to investigate patterns by interacting with spatializations of the data onto the visual space. Understanding the relation between underlying dataset characteristics and the technique used to provide a visual representation of such dataset is of fundamental importance since it can provide a better intuition on what to expect from the spatialization. Motivated by this, in this work we investigate some aspects of centrality on the data in two different scenarios: document collection with co-authorship graphs; general multidimensional data. In the first scenario, the multidimensional data which encodes the documents is much more information specific, meaning it makes possible to combine different aspects such as a summarized analysis, as well as the centrality and relevance notions among the documents in the collection. In order to propose a combined visual metaphor, this is taken into account make possible the visual exploration of the whole document collection as well as individual document analysis. In the second case, of general multidimensional data, there is an assumption that such additional information is not available. Nevertheless, using the concept of data-depth functions from non-parametric statistics it is analyzed the action of multidimensional projection techniques on the data, during the projection process, in order to make possible to understand how depth measures computed in the data have been modified along the process, which also defines a quality measure for multidimensional projections.
|
30 |
Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal ChemistryGertrudes, Jadson Castro 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
|
Page generated in 0.1013 seconds