• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 48
  • 3
  • 1
  • Tagged with
  • 54
  • 54
  • 46
  • 45
  • 15
  • 13
  • 12
  • 12
  • 12
  • 12
  • 10
  • 8
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Caracterização de perdas comerciais em sistemas de energia através de técnicas inteligentes. / Characterization of commercial losses in power systems through intelligent techniques.

Ramos, Caio César Oba 11 September 2014 (has links)
A detecção de furtos e fraudes nos sistemas de energia provocados por consumidores irregulares é o principal alvo em análises de perdas não-técnicas ou comerciais pelas empresas de energia. Embora a identificação automática de perdas nãotécnicas tenha sido amplamente estudada, a tarefa de selecionar as características mais representativas em um grande conjunto de dados a fim de aumentar a taxa de acerto da identificação, bem como para caracterizar possíveis consumidores irregulares como um problema de otimização, não tem sido muito explorada neste contexto. Neste trabalho, visa-se o desenvolvimento de algoritmos híbridos baseados em técnicas evolutivas a fim de realizar a seleção de características no âmbito da caracterização de perdas não-técnicas, comparando as suas taxas de acerto e verificando as características selecionadas. Vários classificadores são comparados, com destaque para a técnica Floresta de Caminhos Ótimos por sua robustez, sendo ela a técnica escolhida para o cálculo da função objetivo das técnicas evolutivas, analisando o desempenho das mesmas. Os resultados demonstraram que a seleção de características mais representativas podem melhorar a taxa de acerto da classificação de possíveis perdas não-técnicas quando comparada à classificação sem o processo de seleção de características em conjuntos de dados compostos por perfis de consumidores industriais e comerciais. Isto significa que existem características que não são pertinentes e podem diminuir a taxa de acerto durante a classificação dos consumidores. Através da metodologia proposta com o processo de seleção de características, é possível caracterizar e identificar os perfis de consumidores com mais precisão, afim de minimizar os custos com tais perdas, contribuindo para a recuperação de receita das companhias de energia elétrica. / The detection of thefts and frauds in power systems caused by irregular consumers is the most actively pursued analysis in non-technical losses by electric power companies. Although non-technical losses automatic identification has been massively studied, the task of selecting the most representative features in a large dataset, in order to boost the identification accuracy, as well as characterizing possible irregular consumers as a problem of optimization, has not been widely explored in this context. This work aims at developing hybrid algorithms based on evolutionary algorithms in order to perform feature selection in the context of non-technical losses characterization. Although several classifiers have been compared, we have highlighted the Optimum-Path Forest (OPF) technique mainly because of its robustness. Thus, the OPF classifier was chosen to compute the objective function of evolutionary techniques, analyzing their performances. This procedure with feature selection is compared with the procedure without feature selection in datasets composed by industrial and commercial consumers profiles. The results demonstrated that selecting the most representative features can improve the classification accuracy of possible non-technical losses. This means that there are irrelevant features and they can reduce the classification accuracy of consumers. Considering the methodology proposed with feature selection procedure, it is possible to characterize and identify consumer profiles more accurately, in order to minimize costs with such losses, contributing to the recovery of revenue from electric power companies.
32

Análise de algoritmos de agrupamento para base de dados textuais / Analysis of the clustering algorithms for the databases

Almeida, Luiz Gonzaga Paula de 31 August 2008 (has links)
Made available in DSpace on 2015-03-04T18:50:55Z (GMT). No. of bitstreams: 1 DissertacaoLuizGonzaga.pdf: 3514446 bytes, checksum: 517d9c7b241b2bd9c799c807d6eac037 (MD5) Previous issue date: 2008-08-31 / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. / O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.
33

Inferência de redes de regulação gênica utilizando o paradigma de crescimento de sementes / Inference of gene regulatory networks using the seed growing paradigm

Higa, Carlos Henrique Aguena 17 February 2012 (has links)
Um problema importante na área de Biologia Sistêmica é o de inferência de redes de regulação gênica. Os avanços científicos e tecnológicos nos permitem analisar a expressão gênica de milhares de genes simultaneamente. Por \"expressão gênica\'\', estamos nos referindo ao nível de mRNA dentro de uma célula. Devido a esta grande quantidade de dados, métodos matemáticos, estatísticos e computacionais têm sido desenvolvidos com o objetivo de elucidar os mecanismos de regulação gênica presentes nos organismos vivos. Para isso, modelos matemáticos de redes de regulação gênica têm sido propostos, assim como algoritmos para inferir estas redes. Neste trabalho, focamos nestes dois aspectos: modelagem e inferência. Com relação à modelagem, estudamos modelos existentes para o ciclo celular da levedura (Saccharomyces cerevisiae). Após este estudo, propomos um modelo baseado em redes Booleanas probabilísticas sensíveis ao contexto, e em seguida, um aprimoramento deste modelo, utilizando cadeias de Markov não homogêneas. Mostramos os resultados, comparando os nossos modelos com os modelos estudados. Com relação à inferência, propomos um novo algoritmo utilizando o paradigma de crescimento de semente de genes. Neste contexto, uma semente é um pequeno subconjunto de genes de interesse. Nosso algoritmo é baseado em dois passos: passo de crescimento de semente e passo de amostragem. No primeiro passo, o algoritmo adiciona outros genes à esta semente, seguindo algum critério. No segundo, o algoritmo realiza uma amostragem de redes, definindo como saída um conjunto de redes potencialmente interessantes. Aplicamos o algoritmo em dados artificiais e dados biológicos de células HeLa, mostrando resultados satisfatórios. / A key problem in Systems Biology is the inference of gene regulatory networks. The scientific and technological advancement allow us to analyze the gene expression of thousands of genes, simultaneously. By \"gene expression\'\' we refer to the mRNA concentration level inside a cell. Due to this large amount of data, mathematical, statistical and computational methods have been developed in order to elucidate the gene regulatory mechanisms that take part of every living organism. To this end, mathematical models of gene regulatory networks have been proposed, along with algorithms to infer these networks. In this work, we focus in two aspects: modeling and inference. Regarding the modeling, we studied existing models for the yeast (Saccharomyces cerevisiae) cell cycle. After that, we proposed a model based on context sensitive probabilistic Boolean networks, and then, an improvement of this model, using nonhomogeneous Markov chain. We show the results, comparing our models against the studied models. Regarding the inference, we proposed a new algorithm using the seed growing paradigm. In this context, a seed is a small subset of genes. Our algorithm is based in two main steps: seed growing step and sampling step. In the first step, the algorithm adds genes into the seed, according to some criterion. In the second step, the algorithm performs a sampling process on the space of networks, defining as its output a set of potentially interesting networks. We applied the algorithm on artificial and biological HeLa cells data, showing satisfactory results.
34

Seleção de características: abordagem via redes neurais aplicada à segmentação de imagens / Feature selection: a neural approach applied to image segmentation

Santos, Davi Pereira dos 21 March 2007 (has links)
A segmentaçãoo de imagens é fundamental para a visão computacional. Com essa finalidade, a textura tem sido uma propriedade bastante explorada por pesquisadores. Porém, a existência de diversos métodos de extração de textura, muitas vezes específicos para determinadas aplicações, dificulta a implementação de sistemas de escopo mais geral. Tendo esse contexto como motivação e inspirado no sucesso dos sistemas de visão naturais e em sua generalidade, este trabalho propõe a combinação de métodos por meio da seleção de características baseada na saliência das sinapses de um perceptron multicamadas (MLP). É proposto, também, um método alternativo baseado na capacidade do MLP de apreender textura que dispensa o uso de técnicas de extração de textura. Como principal contribuição, além da comparação da heurística de seleção proposta frente à busca exaustiva segundo o critério da distância de Jeffrey-Matusita, foi introduzida a técnica de Equalização da Entrada, que melhorou consideravelmente a qualidade da medida de saliência. É também apresentada a segmentação de imagens de cenas naturais, como exemplo de aplicação / Segmentation is a crucial step in Computer Vision. Texture has been a property largely employed by many researchers to achieve segmentation. The existence of a large amount of texture extraction methods is, sometimes, a hurdle to overcome when it comes to modeling systems for more general problems. Inside this context and following the excellence of natural vision systems and their generality, this work has adopted a feature selection method based on synaptic conexions salience of a Multilayer Perceptron and a method based on its texture inference capability. As well as comparing the proposed method with exhaustive search according to the Jeffrey-Matusita distance criterion, this work also introduces, as a major contribution, the Input Equalization technique, which contributed to significantly improve the segmentation results. The segmentation of images of natural scenes has also been provided as a likely application of the method
35

Uma abordagem baseada em técnicas de visualização de informações para avaliação de características de imagens e aplicações / Approach based on information visualization techniques for evaluation of image features and applications

Cruz, Laura Elizabeth Florian 24 September 2012 (has links)
Na maioria dos processos de análise de imagens há a necessidade de um pré-processamento, no qual são extraídos e calculados vetores de características que representem as imagens são utilizados no cálculo de similaridade. Uma dificuldade nessas tarefas é o grande número de características que definem um espaço de alta dimensionalidade, afetando fortemente o desempenho das tarefas que seguem, que podem envolver uma análise visual, um agrupamento ou uma classificação de dados, por exemplo. Lidar com esse problema normalmente exige técnicas de redução de dimensionalidade ou seleção de características. O presente trabalho dá sequência a trabalhos que utilizam técnicas de visualização como suporte para avaliar espaços de características gerados a partir de coleções de imagens. Nele, objetiva-se aprimorar um método baseado na análise visual de conjuntos de imagens empregando a árvore de similaridade Neighbor-Joining que apoia o usuário a selecionar um subespaço de características que mantenha ou melhore os resultados das visualizações do conjunto de imagens. A partir da metodologia proposta, a avaliação e a seleção de características representativas é realizada usando a visualização NJ. A maior parte dos experimentos responde positivamente para diferentes conjuntos de imagens representados por vários extratores, obtendo-se processos de seleção personalizados mais precisos e eficazes, em termos de agrupamento, do que abordagens automáticas reportadas na literatura / In the majority of the image analysis processes there is need for a pre-processing step, in which feature vectors representative of the images are extracted and similarity methods are calculates. A difficult step in the process is to choose amongst the large number of features available, that will define a feature space of high dimensionality, impacting the cost of the subsequent processing tasks, such as visual analysis, clustering and classification. This problem is usually handled by dimension reduction of feature selection techniques. This work extends and improves previous work that employs visualization and visual analysis techniques to support evaluation of feature spaces created from image collections. The goal is to improve a previous method of feature selection through visualization to employ similarity trees via the Neighbor Joining (NJ) algorithm as the basis for the visual layout, as well as to improve the choices of the analyst regarding tools for visual selection of features. The same process can be employed to support evaluation of feature spaces using the NJ visualization. The majorities of experiments results in improvement of spaces generated by various extractors, yielding personalized selection process that are more precisely related to user\'s perspective of the data set and are perform similarly or better than automatic approaches available in the literature. Keywords: information visualization, mining, visual images, visual analysis of the feature space, similarity trees
36

Seleção de características para reconhecimento biométrico baseado em sinais de eletrocardiograma / Feature selection for biometric recognition based on electrocardiogram signals

Felipe Gustavo Silva Teodoro 22 June 2016 (has links)
O campo da Biometria abarca uma grande variedade de tecnologias usadas para identificar e verificar a identidade de uma pessoa por meio da mensuração e análise de vários aspectos físicos e/ou comportamentais do ser humano. Diversas modalidades biométricas têm sido propostas para reconhecimento de pessoas, como impressões digitais, íris, face e voz. Estas modalidades biométricas possuem características distintas em termos de desempenho, mensurabilidade e aceitabilidade. Uma questão a ser considerada com a aplicação de sistemas biométricos em mundo real é sua robustez a ataques por circunvenção, repetição e ofuscação. Esses ataques estão se tornando cada vez mais frequentes e questionamentos estão sendo levantados a respeito dos níveis de segurança que esta tecnologia pode oferecer. Recentemente, sinais biomédicos, como eletrocardiograma (ECG), eletroencefalograma (EEG) e eletromiograma (EMG) têm sido estudados para uso em problemas envolvendo reconhecimento biométrico. A formação do sinal do ECG é uma função da anatomia estrutural e funcional do coração e dos seus tecidos circundantes. Portanto, o ECG de um indivíduo exibe padrão cardíaco único e não pode ser facilmente forjado ou duplicado, o que tem motivado a sua utilização em sistemas de identificação. Entretanto, a quantidade de características que podem ser extraídas destes sinais é muito grande. A seleção de característica tem se tornado o foco de muitas pesquisas em áreas em que bases de dados formadas por dezenas ou centenas de milhares de características estão disponíveis. Seleção de característica ajuda na compreensão dos dados, reduzindo o custo computacional, reduzindo o efeito da maldição da dimensionalidade e melhorando o desempenho do preditor. O foco da seleção de característica é selecionar um subconjunto de característica a partir dos dados de entrada, que pode descrever de forma eficiente os dados de entrada ao mesmo tempo reduzir os efeitos de ruídos ou características irrelevantes e ainda proporcionar bons resultados de predição. O objetivo desta dissertação é analisar o impacto de algumas técnicas de seleção de característica tais como, Busca Gulosa, Seleção \\textit, Algoritmo Genético, Algoritmo Memético, Otimização por Enxame de Partículas sobre o desempenho alcançado pelos sistemas biométricos baseado em ECG. Os classificadores utilizados foram $k$-Vizinhos mais Próximos, Máquinas de Vetores Suporte, Floresta de Caminhos Ótimos e classificador baseado em distância mínima. Os resultados demonstram que existe um subconjunto de características extraídas do sinal de ECG capaz de fornecer altas taxas de reconhecimento / The field of biometrics includes a variety of technologies used to identify and verify the identity of a person by measuring and analyzing various physical and/or behavioral aspects of the human being. Several biometric modalities have been proposed for recognition of people, such as fingerprints, iris, face and speech. These biometric modalities have distinct characteristics in terms of performance, measurability and acceptability. One issue to be considered with the application of biometric systems in real world is its robustness to attacks by circumvention, spoof and obfuscation. These attacks are becoming more frequent and more questions are being raised about the levels of security that this technology can offer. Recently, biomedical signals, as electrocardiogram (ECG), electroencephalogram (EEG) and electromyogram (EMG) have been studied for use in problems involving biometric recognition. The ECG signal formation is a function of structural and functional anatomy of the heart and its surrounding tissues. Therefore, the ECG of an individual exhibits unique cardiac pattern and cannot be easily forged or duplicated, that have motivated its use in various identification systems. However, the amount of features that can be extracted from this signal is very large. The feature selection has become the focus of much research in areas where databases formed by tens or hundreds of thousands of features are available. Feature Selection helps in understanding data, reducing computation requirement, reducing the effect of curse of dimensionality and improving the predictor performance. The focus of feature selection is to select a subset of features from the input which can efficiently describe the input data while reducing effects from noise or irrelevant features and still provide good prediction results. The aim of this dissertation is to analyze the impact of some feature selection techniques, such as, greedy search, Backward Selection, Genetic Algorithm, Memetic Algorithm, Particle Swarm Optimization on the performance achieved by biometric systems based on ECG. The classifiers used were $k$-Nearest Neighbors, Support Vector Machines, Optimum-Path Forest and minimum distance classifier. The results demonstrate that there is a subset of features extracted from the ECG signal capable of providing high recognition rates
37

LearnInPlanner: uma abordagem de aprendizado supervisionado com redes neurais para solução de problemas de planejamento clássico / LearnInPlanner : a supervised learning approach with neural networks to solve problems of classical planning

Rosiane Correia Santos 19 November 2013 (has links)
A busca progressiva no espaço de estados é uma das abordagens mais populares de Planejamento Automatizado. O desempenho dos algoritmos de busca progressiva é influenciado pela heurística independente de domínio utilizada para guiá-lo. Nesse contexto, o foco do presente trabalho consiste em investigar técnicas de aprendizado de máquina supervisionadas que possibilitaram agregar à heurística do plano relaxado, comumente utilizada em abordagens atuais de planejamento, informações sobre o domínio em questão que viessem a ser úteis ao algoritmo de busca. Essas informações foram representadas por meio de um espaço de características do problema de planejamento e uma rede neural MLP foi aplicada para estimar uma nova função heurística para guiar a busca por meio de um processo de regressão não linear. Uma vez que o conjunto de características disponíveis para a construção da nova função heurística é grande, foi necessário a definição de um processo de seleção de características capaz de determinar qual conjunto de características de entrada da rede resultaria em melhor desempenho para o modelo de regressão. Portanto, para a seleção de características, aplicou-se uma abordagem de algoritmos genéticos. Como principal resultado, tem-se uma análise comparativa do desempenho entre a utilização da heurística proposta neste trabalho e a utilização da heurística do plano relaxado para guiar o algoritmo de busca na tarefa de planejamento. Para a análise empírica foram utilizados domínios de diferentes complexidades disponibilizados pela Competições Internacionais de Planejamento. Além dos resultados empíricos e análises comparativas, as contribuições deste trabalho envolvem o desenvolvimento de um novo planejador independente de domínio, denominado LearnInPlanner. Esse planejador utiliza a nova função heurística estimada por meio do processo de aprendizado e o algoritmo de Busca Gulosa para solucionar os problemas de planejamento. / The forward state-space search is one of the most popular Automated Planning approaches. The performance of forward search algorithms is affected by the domain-independent heuristic being used. In this context, the focus of this work consisted on investigating techniques of supervised machine learning that make possible to agregate to the relaxed plan heuristic, commonly used in current planning approaches, information about the domain which could be useful to the search algorithm. This information has been represented through a feature space of planning problem and a MLP neural network has been applied to estimate a new heuristic function for guiding the search through a non-linear regression process. Once the set of features available for the construction of the new heuristic function is large, it was necessary to define a feature selection process capable of determining which set of neural network input features would result in the best performance for the regression model. Therefore, for selecting features, an approach of genetic algorithms has been applied. As the main result, one has obtained a comparative performance analysis between the use of heuristic proposed in this work and the use of the relaxed plan heuristic to guide the search algorithm in the planning task. For the empirical analysis were used domains with different complexities provided by the International Planning Competitions. In addition to the empirical results and comparative analysis, the contributions of this work involves the development of a new domain-independent planner, named LearnInPlanner. This planner uses the new heuristic function estimated by the learning process and the Greedy Best-First search algorithm to solve planning problems.
38

Caracterização de perdas comerciais em sistemas de energia através de técnicas inteligentes. / Characterization of commercial losses in power systems through intelligent techniques.

Caio César Oba Ramos 11 September 2014 (has links)
A detecção de furtos e fraudes nos sistemas de energia provocados por consumidores irregulares é o principal alvo em análises de perdas não-técnicas ou comerciais pelas empresas de energia. Embora a identificação automática de perdas nãotécnicas tenha sido amplamente estudada, a tarefa de selecionar as características mais representativas em um grande conjunto de dados a fim de aumentar a taxa de acerto da identificação, bem como para caracterizar possíveis consumidores irregulares como um problema de otimização, não tem sido muito explorada neste contexto. Neste trabalho, visa-se o desenvolvimento de algoritmos híbridos baseados em técnicas evolutivas a fim de realizar a seleção de características no âmbito da caracterização de perdas não-técnicas, comparando as suas taxas de acerto e verificando as características selecionadas. Vários classificadores são comparados, com destaque para a técnica Floresta de Caminhos Ótimos por sua robustez, sendo ela a técnica escolhida para o cálculo da função objetivo das técnicas evolutivas, analisando o desempenho das mesmas. Os resultados demonstraram que a seleção de características mais representativas podem melhorar a taxa de acerto da classificação de possíveis perdas não-técnicas quando comparada à classificação sem o processo de seleção de características em conjuntos de dados compostos por perfis de consumidores industriais e comerciais. Isto significa que existem características que não são pertinentes e podem diminuir a taxa de acerto durante a classificação dos consumidores. Através da metodologia proposta com o processo de seleção de características, é possível caracterizar e identificar os perfis de consumidores com mais precisão, afim de minimizar os custos com tais perdas, contribuindo para a recuperação de receita das companhias de energia elétrica. / The detection of thefts and frauds in power systems caused by irregular consumers is the most actively pursued analysis in non-technical losses by electric power companies. Although non-technical losses automatic identification has been massively studied, the task of selecting the most representative features in a large dataset, in order to boost the identification accuracy, as well as characterizing possible irregular consumers as a problem of optimization, has not been widely explored in this context. This work aims at developing hybrid algorithms based on evolutionary algorithms in order to perform feature selection in the context of non-technical losses characterization. Although several classifiers have been compared, we have highlighted the Optimum-Path Forest (OPF) technique mainly because of its robustness. Thus, the OPF classifier was chosen to compute the objective function of evolutionary techniques, analyzing their performances. This procedure with feature selection is compared with the procedure without feature selection in datasets composed by industrial and commercial consumers profiles. The results demonstrated that selecting the most representative features can improve the classification accuracy of possible non-technical losses. This means that there are irrelevant features and they can reduce the classification accuracy of consumers. Considering the methodology proposed with feature selection procedure, it is possible to characterize and identify consumer profiles more accurately, in order to minimize costs with such losses, contributing to the recovery of revenue from electric power companies.
39

"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems

Martins Junior, David Correa 22 September 2004 (has links)
Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition.
40

Seleção de características: abordagem via redes neurais aplicada à segmentação de imagens / Feature selection: a neural approach applied to image segmentation

Davi Pereira dos Santos 21 March 2007 (has links)
A segmentaçãoo de imagens é fundamental para a visão computacional. Com essa finalidade, a textura tem sido uma propriedade bastante explorada por pesquisadores. Porém, a existência de diversos métodos de extração de textura, muitas vezes específicos para determinadas aplicações, dificulta a implementação de sistemas de escopo mais geral. Tendo esse contexto como motivação e inspirado no sucesso dos sistemas de visão naturais e em sua generalidade, este trabalho propõe a combinação de métodos por meio da seleção de características baseada na saliência das sinapses de um perceptron multicamadas (MLP). É proposto, também, um método alternativo baseado na capacidade do MLP de apreender textura que dispensa o uso de técnicas de extração de textura. Como principal contribuição, além da comparação da heurística de seleção proposta frente à busca exaustiva segundo o critério da distância de Jeffrey-Matusita, foi introduzida a técnica de Equalização da Entrada, que melhorou consideravelmente a qualidade da medida de saliência. É também apresentada a segmentação de imagens de cenas naturais, como exemplo de aplicação / Segmentation is a crucial step in Computer Vision. Texture has been a property largely employed by many researchers to achieve segmentation. The existence of a large amount of texture extraction methods is, sometimes, a hurdle to overcome when it comes to modeling systems for more general problems. Inside this context and following the excellence of natural vision systems and their generality, this work has adopted a feature selection method based on synaptic conexions salience of a Multilayer Perceptron and a method based on its texture inference capability. As well as comparing the proposed method with exhaustive search according to the Jeffrey-Matusita distance criterion, this work also introduces, as a major contribution, the Input Equalization technique, which contributed to significantly improve the segmentation results. The segmentation of images of natural scenes has also been provided as a likely application of the method

Page generated in 0.3503 seconds