Global ETD Search

361	Seleção e construção de features relevantes para o aprendizado de máquina. / Relevant feature selection and construction for machine learning. Huei Diana Lee 27 April 2000 (has links) No Aprendizado de Máquina Supervisionado - AM - é apresentado ao algoritmo de indução um conjunto de instâncias de treinamento, no qual cada instância é um vetor de features rotulado com a classe. O algoritmo de indução tem como tarefa induzir um classificador que será utilizado para classificar novas instâncias. Algoritmos de indução convencionais baseam-se nos dados fornecidos pelo usuário para construir as descrições dos conceitos. Uma representação inadequada do espaço de busca ou da linguagem de descrição do conjunto de instâncias, bem como erros nos exemplos de treinamento, podem tornar os problemas de aprendizado difícies. Um dos problemas centrais em AM é a Seleção de um Subconjunto de Features - SSF - na qual o objetivo é tentar diminuir o número de features que serão fornecidas ao algoritmo de indução. São várias as razões para a realização de SSF. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de muitas features, isto é a precisão dos classificadores gerados pode ser melhorada com a aplicação de SSF. Ainda, com um número menor de features, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados. Existem, basicamente, três abordagens para a SSF: embedded, filtro e wrapper. Por outro lado, se as features utilizadas para descrever os exemplos de treinamento são inadequadas, os algoritmos de aprendizado estão propensos a criar descrições excessivamente complexas e imprecisas. Porém, essas features, individualmente inadequadas, podem algumas vezes serem, convenientemente, combinadas gerando novas features que podem mostrar-se altamente representativas para a descrição de um conceito. O processo de construção de novas features é conhecido como Construção de Features ou Indução Construtiva - IC. Neste trabalho são enfocadas as abordagens filtro e wrapper para a realização de SSF, bem como a IC guiada pelo conhecimento. É descrita uma série de experimentos usando SSF e IC utilizando quatro conjuntos de dados naturais e diversos algoritmos simbólicos de indução. Para cada conjunto de dados e cada indutor, são realizadas várias medidas, tais como, precisão, tempo de execução do indutor e número de features selecionadas pelo indutor. São descritos também diversos experimentos realizados utilizando três conjuntos de dados do mundo real. O foco desses experimentos não está somente na avaliação da performance dos algoritmos de indução, mas também na avaliação do conhecimento extraído. Durante a extração de conhecimento, os resultados foram apresentados aos especialistas para que fossem feitas sugestões para experimentos futuros. Uma parte do conhecimento extraído desses três estudos de casos foram considerados muito interessantes pelos especialistas. Isso mostra que a interação de diferentes áreas de conhecimento, neste caso específico, áreas médica e computacional, pode produzir resultados interessantes. Assim, para que a aplicação do Aprendizado de Máquina possa gerar frutos é necessário que dois grupos de pesquisadores sejam unidos: aqueles que conhecem os métodos de AM existentes e aqueles com o conhecimento no domínio da aplicação para o fornecimento de dados e a avaliação do conhecimento adquirido. / In supervised Machine Learning - ML - an induction algorithm is typically presented with a set of training instances, where each instance is described by a vector of feature values and a class label. The task of the induction algorithm (inducer) is to induce a classifier that will be useful in classifying new cases. Conventional inductive-learning algorithms rely on existing (user) provided data to build their descriptions. Inadequate representation space or description language as well as errors in training examples can make learning problems be difficult. One of the main problems in ML is the Feature Subset Selection - FSS - problem, i.e. the learning algorithm is faced with the problem of selecting some subset of features upon which to focus its attention, while ignoring the rest. There are a variety of reasons that justify doing FSS. The first reason that can be pointed out is that most of the ML algorithms, that are computationally feasible, do not work well in the presence of a very large number of features. This means that FSS can improve the accuracy of the classifiers generated by these algorithms. Another reason to use FSS is that it can improve comprehensibility, i.e. the human ability of understanding the data and the rules generated by symbolic ML algorithms. A third reason for doing FSS is the high cost in some domains for collecting data. Finally, FSS can reduce the cost of processing huge quantities of data. Basically, there are three approaches in Machine Learning for FSS: embedded, filter and wrapper approaches. On the other hand, if the provided features for describing the training examples are inadequate, the learning algorithms are likely to create excessively complex and inaccurate descriptions. These individually inadequate features can sometimes be combined conveniently, generating new features which can turn out to be highly representative to the description of the concept. The process of constructing new features is called Constructive Induction - CI. Is this work we focus on the filter and wrapper approaches for FSS as well as Knowledge-driven CI. We describe a series of experiments for FSS and CI, performed on four natural datasets using several symbolic ML algorithms. For each dataset, various measures are taken to compare the inducers performance, for example accuracy, time taken to run the inducers and number of selected features by each evaluated induction algorithm. Several experiments using three real world datasets are also described. The focus of these three case studies is not only comparing the induction algorithms performance, but also the evaluation of the extracted knowledge. During the knowledge extraction step results were presented to the specialist, who gave many suggestions for the development of further experiments. Some of the knowledge extracted from these three real world datasets were found very interesting by the specialist. This shows that the interaction between different areas, in this case, medical and computational areas, may produce interesting results. Thus, two groups of researchers need to be put together if the application of ML is to bear fruit: those that are acquainted with the existing ML methods, and those with expertise in the given application domain to provide training data. aprendizado de máquina bases de dados médicos construção de features extração de conhecimentos seleção de features Feature Construction Feature Selection knowledge extraction machine learning medical databases
362	Seleção de características: abordagem via redes neurais aplicada à segmentação de imagens / Feature selection: a neural approach applied to image segmentation Davi Pereira dos Santos 21 March 2007 (has links) A segmentaçãoo de imagens é fundamental para a visão computacional. Com essa finalidade, a textura tem sido uma propriedade bastante explorada por pesquisadores. Porém, a existência de diversos métodos de extração de textura, muitas vezes específicos para determinadas aplicações, dificulta a implementação de sistemas de escopo mais geral. Tendo esse contexto como motivação e inspirado no sucesso dos sistemas de visão naturais e em sua generalidade, este trabalho propõe a combinação de métodos por meio da seleção de características baseada na saliência das sinapses de um perceptron multicamadas (MLP). É proposto, também, um método alternativo baseado na capacidade do MLP de apreender textura que dispensa o uso de técnicas de extração de textura. Como principal contribuição, além da comparação da heurística de seleção proposta frente à busca exaustiva segundo o critério da distância de Jeffrey-Matusita, foi introduzida a técnica de Equalização da Entrada, que melhorou consideravelmente a qualidade da medida de saliência. É também apresentada a segmentação de imagens de cenas naturais, como exemplo de aplicação / Segmentation is a crucial step in Computer Vision. Texture has been a property largely employed by many researchers to achieve segmentation. The existence of a large amount of texture extraction methods is, sometimes, a hurdle to overcome when it comes to modeling systems for more general problems. Inside this context and following the excellence of natural vision systems and their generality, this work has adopted a feature selection method based on synaptic conexions salience of a Multilayer Perceptron and a method based on its texture inference capability. As well as comparing the proposed method with exhaustive search according to the Jeffrey-Matusita distance criterion, this work also introduces, as a major contribution, the Input Equalization technique, which contributed to significantly improve the segmentation results. The segmentation of images of natural scenes has also been provided as a likely application of the method Distância de Jeffrey-Matusita Equalização da entrada Perceptron multicamadas Segmentação Seleção de características Textura Feature selection Input equalizatiion Jeffrey-Matusita distance Multi-layer perceptron Segmentation Texture
363	Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations / Seleção de atributos efetiva e não-supervisionada em grandes bases de dados: aplicando a Teoria de Fractais para remover correlações lineares e não-lineares Antonio Canabrava Fraideinberze 04 September 2017 (has links) Given a very large dataset of moderate-to-high dimensionality, how to mine useful patterns from it? In such cases, dimensionality reduction is essential to overcome the well-known curse of dimensionality. Although there exist algorithms to reduce the dimensionality of Big Data, unfortunately, they all fail to identify/eliminate non-linear correlations that may occur between the attributes. This MSc work tackles the problem by exploring concepts of the Fractal Theory and massive parallel processing to present Curl-Remover, a novel dimensionality reduction technique for very large datasets. Our contributions are: (a) Curl-Remover eliminates linear and non-linear attribute correlations as well as irrelevant attributes; (b) it is unsupervised and suits for analytical tasks in general not only classification; (c) it presents linear scale-up on both the data size and the number of machines used; (d) it does not require the user to guess the number of attributes to be removed, and; (e) it preserves the attributes semantics by performing feature selection, not feature extraction. We executed experiments on synthetic and real data spanning up to 1.1 billion points, and report that our proposed Curl-Remover outperformed two PCA-based algorithms from the state-of-the-art, being in average up to 8% more accurate. / Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada a dois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados. Big data Processamento paralelo em massa Seleção de atributos Teoria de fractais Big data Feature selection Fractal theory Massive parallel processing Non-linear attribute correlations
364	Seleção de atributos para aprendizagem multirrótulo / Feature selection for multi-label learning Newton Spolaôr 24 September 2014 (has links) A presença de atributos não importantes, i.e., atributos irrelevantes ou redundantes nos dados, pode prejudicar o desempenho de classificadores gerados a partir desses dados por algoritmos de aprendizado de máquina. O objetivo de algoritmos de seleção de atributos consiste em identificar esses atributos não importantes para removê-los dos dados antes da construção de classificadores. A seleção de atributos em dados monorrótulo, nos quais cada exemplo do conjunto de treinamento é associado com somente um rótulo, tem sido amplamente estudada na literatura. Entretanto, esse não é o caso para dados multirrótulo, nos quais cada exemplo é associado com um conjunto de rótulos (multirrótulos). Além disso, como esse tipo de dados usualmente apresenta relações entre os rótulos do multirrótulo, algoritmos de aprendizado de máquina deveriam considerar essas relações. De modo similar, a dependência de rótulos deveria também ser explorada por algoritmos de seleção de atributos multirrótulos. A abordagem filtro é uma das mais utilizadas por algoritmos de seleção de atributos, pois ela apresenta um custo computacional potencialmente menor que outras abordagens e utiliza características gerais dos dados para calcular as medidas de importância de atributos. tais como correlação de atributo-classe, entre outras. A hipótese deste trabalho é trabalho é que algoritmos de seleção de atributos em dados multirrótulo que consideram a dependência de rótulos terão um melhor desempenho que aqueles que ignoram essa informação. Para tanto, é proposto como objetivo deste trabalho o projeto e a implementação de algoritmos filtro de seleção de atributos multirrótulo que consideram relações entre rótulos. Em particular, foram propostos dois métodos que levam em conta essas relações por meio da construção de rótulos e da adaptação inovadora do algoritmo de seleção de atributos monorrótulo ReliefF. Esses métodos foram avaliados experimentalmente e apresentam bom desempenho em termos de redução no número de atributos e qualidade dos classificadores construídos usando os atributos selecionados. / Irrelevant and/or redundant features in data can deteriorate the performance of the classifiers built from this data by machine learning algorithms. The aim of feature selection algorithms consists in identifying these features and removing them from data before constructing classifiers. Feature selection in single-label data, in which each instance in the training set is associated with only one label, has been widely studied in the literature. However, this is not the case for multi-label data, in which each instance is associated with a set of labels. Moreover, as multi-label data usually exhibit relationships among the labels in the set of labels, machine learning algorithms should take thiis relatinship into account. Therefore, label dependence should also be explored by multi-label feature selection algorithms. The filter approach is one of the most usual approaches considered by feature selection algorithms, as it has potentially lower computational cost than approaches and uses general properties from data to calculate feature importance measures, such as the feature-class correlation. The hypothesis of this work is that feature selection algorithms which consider label dependence will perform better than the ones that disregard label dependence. To this end, ths work proposes and develops filter approach multi-label feature selection algorithms which take into account relations among labels. In particular, we proposed two methods that take into account these relations by performing label construction and adapting the single-label feature selection algorith RelieF. These methods were experimentally evaluated showing good performance in terms of feature reduction and predictability of the classifiers built using the selected features. Construção de rótulos Ganho de informação ReliefF Revisão sistemática Seleção de atributos multirrótulo Information gain Label construction Multi-label feature selection ReliefF Systematic review
365	Inferência de redes de regulação gênica utilizando o paradigma de crescimento de sementes / Inference of gene regulatory networks using the seed growing paradigm Carlos Henrique Aguena Higa 17 February 2012 (has links) Um problema importante na área de Biologia Sistêmica é o de inferência de redes de regulação gênica. Os avanços científicos e tecnológicos nos permitem analisar a expressão gênica de milhares de genes simultaneamente. Por \"expressão gênica\'\', estamos nos referindo ao nível de mRNA dentro de uma célula. Devido a esta grande quantidade de dados, métodos matemáticos, estatísticos e computacionais têm sido desenvolvidos com o objetivo de elucidar os mecanismos de regulação gênica presentes nos organismos vivos. Para isso, modelos matemáticos de redes de regulação gênica têm sido propostos, assim como algoritmos para inferir estas redes. Neste trabalho, focamos nestes dois aspectos: modelagem e inferência. Com relação à modelagem, estudamos modelos existentes para o ciclo celular da levedura (Saccharomyces cerevisiae). Após este estudo, propomos um modelo baseado em redes Booleanas probabilísticas sensíveis ao contexto, e em seguida, um aprimoramento deste modelo, utilizando cadeias de Markov não homogêneas. Mostramos os resultados, comparando os nossos modelos com os modelos estudados. Com relação à inferência, propomos um novo algoritmo utilizando o paradigma de crescimento de semente de genes. Neste contexto, uma semente é um pequeno subconjunto de genes de interesse. Nosso algoritmo é baseado em dois passos: passo de crescimento de semente e passo de amostragem. No primeiro passo, o algoritmo adiciona outros genes à esta semente, seguindo algum critério. No segundo, o algoritmo realiza uma amostragem de redes, definindo como saída um conjunto de redes potencialmente interessantes. Aplicamos o algoritmo em dados artificiais e dados biológicos de células HeLa, mostrando resultados satisfatórios. / A key problem in Systems Biology is the inference of gene regulatory networks. The scientific and technological advancement allow us to analyze the gene expression of thousands of genes, simultaneously. By \"gene expression\'\' we refer to the mRNA concentration level inside a cell. Due to this large amount of data, mathematical, statistical and computational methods have been developed in order to elucidate the gene regulatory mechanisms that take part of every living organism. To this end, mathematical models of gene regulatory networks have been proposed, along with algorithms to infer these networks. In this work, we focus in two aspects: modeling and inference. Regarding the modeling, we studied existing models for the yeast (Saccharomyces cerevisiae) cell cycle. After that, we proposed a model based on context sensitive probabilistic Boolean networks, and then, an improvement of this model, using nonhomogeneous Markov chain. We show the results, comparing our models against the studied models. Regarding the inference, we proposed a new algorithm using the seed growing paradigm. In this context, a seed is a small subset of genes. Our algorithm is based in two main steps: seed growing step and sampling step. In the first step, the algorithm adds genes into the seed, according to some criterion. In the second step, the algorithm performs a sampling process on the space of networks, defining as its output a set of potentially interesting networks. We applied the algorithm on artificial and biological HeLa cells data, showing satisfactory results. cadeia de Markov inferência de redes redes Booleanas redes de regulação gênica seleção de características Boolean networks constraint satisfaction problems feature selection gene regulatory networks inference Markov chain
366	Mineração de dados para o reconhecimento da origem e do tipo de alimentos e outras substâncias com base em sua composição química / Data mining for the recognition of origin and type of food and other substances based on its chemical composition Maione, Camila 29 March 2016 (has links) Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2016-07-13T15:55:18Z No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-07-14T11:35:01Z (GMT) No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-07-14T11:35:01Z (GMT). No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-03-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / A practical way to characterize consumable substances is through its chemical elements in its composition and theirs concentrations. By using these elements as feature variables, it is possible to arrange these substances samples in a data matrix in which data mining and statistical techniques can be applied for predictive analysis. The classification of consumable substances based on its chemical components is an interesting problem and provides useful information for various purposes, as: recognition of geographical origin of a substance; validation and authenticity; determination of the characteristics of a product which can aid companies in the quality control and preservation; differentiation of categories of a product, and others. This study presents a methodology for predictive analysis of substances and food based on its chemical components, using data mining concepts and techniques allied to ICPMS. Four applications of the proposed methodology are described: recognition of the geographical origin of Brazilian white rice produced in SÃ£o Paulo and Goiás states; differentiation of organic and conventional Brazilian grape juice; differentiation of organic and conventional Brazilian chocolate, and analysis of its toxic and essential elements; recognition of the source of ecstasy tablets apprehended in two cities from Sao Paulo state, Ribeirão Preto and Campinas. For all applications presented, the classification models obtained showed high predictive performance (over 85%), which attest the efficiency of the proposed methodology, and the variable selection techniques used helped us to identify the chemical elements which are more important to the differentiation of the analyzed samples. For the purpose of distinguishing food samples into organic and conventional, our approach is pioneer and yielded good results. / Uma maneira prática de caracterizar substâncias é através dos elementos químicos em sua composiçã. Utilizando estes elementos como variáveis descritoras, é possível organizarmos amostras de substâncias em uma matriz de dados para ser analisada por técnicas de mineração de dados e estatística. A classificação de substâncias baseada em sua composição química provê uma variedade de informações úteis para diversos propósitos, como reconhecimento da origem geográfica de uma determinada substância, verificação de autenticidade, identificar características de produtos que auxiliem empresas no controle de qualidade e preservação, diferenciação de categorias de produtos, entre outros. Este trabalho apresenta uma metodologia para análise preditiva de dados de substâncias e alimentos com base em sua composição química, utilizando técnicas de mineração de dados aliada a espectrometria de massa por plasma indutivamente acoplado (ICP-MS). Quatro aplicações diretas da metodologia são apresentadas: reconhecimento geográfico do arroz branco brasileiro produzido nos estados do Rio Grande do Sul e Goiás; classificação do suco de uva brasileiro em orgânico e convencional; diferenciação do chocolate brasileiro em orgânico e convencional e análise de seus elementos tóxicos e essenciais; reconhecimento da origem de tabletes de ecstasy entre duas cidades de apreensão do estado de São Paulo, Campinas e Ribeirão Preto. Em todas as aplicações, os modelos de classificação obtidos apresentaram alto desempenho de predição (superior a 85%), o que atesta a eficiência da metodologia proposta, e os algoritmos de seleção de variáveis utilizados ajudaram a identificar os elementos químicos mais importantes para a diferenciação das amostras. No âmbito de diferenciação de amostras de alimento entre orgânico e convencional, a nossa abordagem é pioneira e gerou bons resultados. Mineração de dados Agrupamento Classificação Seleção de variáveis Alimentos Aprendizagem de máquina Data mining Clustering Classification Feature selection Food Machine learning
367	"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems David Correa Martins Junior 22 September 2004 (has links) Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition. entropia condicional redes gênicas probabilísticas redução de dimensionalidade seleção de características W-operadores conditional entropy dimensionality reduction feature selection probabilistic genetic networks W-operators
368	Comitê de classiﬁcadores em bases de dados transacionais desbalanceadas com seleção de características baseada em padrões minerados Campos, Camila Maria 29 January 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-30T14:42:33Z No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-05-30T15:36:24Z (GMT) No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) / Made available in DSpace on 2017-05-30T15:36:24Z (GMT). No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) Previous issue date: 2016-01-29 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os resultados dos problemas de classiﬁcação por regras de associação sofrem grande inﬂuência da estrutura dos dados que estão sendo utilizados. Uma diﬁculdade na área é a resolução de problemas de classiﬁcação quando se trata de bases de dados desbalanceadas. Assim, o presente trabalho apresenta um estudo sobre desbalanceamento em bases de dados transacionais, abordando os principais métodos utilizados na resolução do problema de desbalanceamento. Além disso, no que tange ao desbalanceamento, este trabalho propõe um modelo para realizar o balanceamento entre classes, sendo realizados experimentos com diferentes mé- todos de balanceamento e métodos ensemble, baseados em comitê de classiﬁcadores. Tais experimentos foram realizados em bases transacionais e não transacionais com o intuito de validar o modelo proposto e melhorar a predição do algoritmo de classiﬁcação por regras de associação. Bases de dados não transacionais também foram utilizadas nos ex perimentos, com o objetivo de veriﬁcar o comportamento do modelo proposto em tais bases. Outro fator importante no processo de classiﬁcação é a dimensão da base de dados que, quando muito grande, pode comprometer o desempenho dos classiﬁcadores. Neste traba lho, também é proposto um modelo de seleção de características baseado na classiﬁcação por regras de associação. Para validar o modelo proposto, também foram realizados ex- perimentos aplicando diferentes métodos de seleção nas bases de dados. Os resultados da classiﬁcação obtidos utilizando as bases contendo as características selecionadas pelos me- todos, foram comparados para validar o modelo proposto, tais resultados apresentaram-se satisfatórios em relação aos demais métodos de seleção. / The results of Classiﬁcation Based on Associations Rules (CBA) are greatly inﬂuenced by the used data structure. A diﬃculty in this area is solving classiﬁcation problems when it comes to unbalanced databases. Thus, this paper presents a study of unbalance in transactional and non-transactional databases, addressing the main methods used to solve the unbalance problem. In addition, with respect to the unbalance problem, this paper proposes a model to reach the balance between classes, conducting experiments with diﬀerent methods of balancing and ensemble methods based on classiﬁers committee. These experiments were performed in transactional and non-transactional databases, in order to validate the proposed model and improve Classiﬁcation Based on Associations Rules prediction. Another important factor in the classiﬁcation process is database dimensionality, be cause when too large, it can compromise the classiﬁers performance. In this work, it is also proposed a feature selection model based on the rules of CBA. Aiming to validate this model, experiments were also performed applying diﬀerent features selection methods in the databases.The classiﬁcation results obtained using the bases containing the features selected by the methods were compared to validate the proposed model, these results were satisfactory in comparison with other methods of selection. Mineração dados Regra de associação Classiﬁcação Balanceamento em bases de dados Seleção de características Data Mining Association Rule Classification Balancing Database Feature Selection
369	Feature extraction and selection for background modeling and foreground detection / Extraction et sélection de caractéristiques pour la détection d’objets mobiles dans des vidéos Pacheco Do Espirito Silva, Caroline 10 May 2017 (has links) Dans ce manuscrit de thèse, nous présentons un descripteur robuste pour la soustraction d’arrière-plan qui est capable de décrire la texture à partir d’une séquence d’images. Ce descripteur est moins sensible aux bruits et produit un histogramme court, tout en préservant la robustesse aux changements d’éclairage. Un autre descripteur pour la reconnaissance dynamique des textures est également proposé. Le descripteur permet d’extraire non seulement des informations de couleur, mais aussi des informations plus détaillées provenant des séquences vidéo. Enfin, nous présentons une approche de sélection de caractéristiques basée sur le principe d'apprentissage par ensemble qui est capable de sélectionner les caractéristiques appropriées pour chaque pixel afin de distinguer les objets de premier plan de l’arrière plan. En outre, notre proposition utilise un mécanisme pour mettre à jour l’importance relative de chaque caractéristique au cours du temps. De plus, une approche heuristique est utilisée pour réduire la complexité de la maintenance du modèle d’arrière-plan et aussi sa robustesse. Par contre, cette méthode nécessite un grand nombre de caractéristiques pour avoir une bonne précision. De plus, chaque classificateur de base apprend un ensemble de caractéristiques au lieu de chaque caractéristique individuellement. Pour compenser ces limitations, nous avons amélioré cette approche en proposant une nouvelle méthodologie pour sélectionner des caractéristiques basées sur le principe du « wagging ». Nous avons également adopté une approche basée sur le concept de « superpixel » au lieu de traiter chaque pixel individuellement. Cela augmente non seulement l’efficacité en termes de temps de calcul et de consommation de mémoire, mais aussi la qualité de la détection des objets mobiles. / In this thesis, we present a robust descriptor for background subtraction which is able to describe texture from an image sequence. The descriptor is less sensitive to noisy pixels and produces a short histogram, while preserving robustness to illumination changes. Moreover, a descriptor for dynamic texture recognition is also proposed. This descriptor extracts not only color information, but also a more detailed information from video sequences. Finally, we present an ensemble for feature selection approach that is able to select suitable features for each pixel to distinguish the foreground objects from the background ones. Our proposal uses a mechanism to update the relative importance of each feature over time. For this purpose, a heuristic approach is used to reduce the complexity of the background model maintenance while maintaining the robustness of the background model. However, this method only reaches the highest accuracy when the number of features is huge. In addition, each base classifier learns a feature set instead of individual features. To overcome these limitations, we extended our previous approach by proposing a new methodology for selecting features based on wagging. We also adopted a superpixel-based approach instead of a pixel-level approach. This does not only increases the efficiency in terms of time and memory consumption, but also can improves the segmentation performance of moving objects. Détection d’objets mobiles Soustraction de l’arrière-plan Apprentissage par ensemble Sélection de caractéristique Extraction de caractéristique Moving object detection Background/foreground separation Ensemble learning Feature selection Feature extraction
370	Construction d'atlas en IRM de diffusion : application à l'étude de la maturation cérébrale / Atlas construction in diffusion-weighted MRI : application to brain maturation study Pontabry, Julien 30 October 2013 (has links) L’IRM de diffusion (IRMd) est une modalité d’imagerie médicale in vivo qui suscite un intérêt croissant dans la communauté de neuro-imagerie. L’information sur l’intra-structure des tissus cérébraux est apportée en complément des informations de structure issues de l’IRM structurelle (IRMs). Ces modalités d’imagerie ouvrent ainsi une nouvelle voie pour l’analyse de population et notamment pour l’étude de la maturation cérébrale humaine normale in utero. La modélisation et la caractérisation des changements rapides intervenant au cours de la maturation cérébrale est un défi actuel. Dans ce but, ce mémoire de thèse présente une chaîne de traitement complète de la modélisation spatio-temporelle de la population à l’analyse des changements de forme au cours du temps. Les contributions se répartissent sur trois points. Tout d’abord, l’utilisation de filtre à particules étendus aux modèles d’ordre supérieurs pour la tractographie a permis d’extraire des descripteurs plus pertinents chez le foetus, utilisés ensuite pour estimer les transformations géométriques entre images. Ensuite, l’emploi d’une technique de régression non-paramétrique a permis de modéliser l’évolution temporelle moyenne du cerveau foetal sans imposer d’à priori. Enfin, les changements de forme sont mis en évidence au moyen de méthodes d’extraction et de sélection de caractéristiques. / Diffusion weighted MRI (dMRI) is an in vivo imaging modality which raises a great interest in the neuro-imaging community. The intra-structural information of cerebral tissues is provided in addition to the morphological information from structural MRI (sMRI). These imaging modalities bring a new path for population studies, especially for the study in utero of the normal humanbrain maturation. The modeling and the characterization of rapid changes in the brain maturation is an actual challenge. For these purposes, this thesis memoir present a complete processing pipeline from the spatio-temporal modeling of the population to the changes analyze against the time. The contributions are about three points. First, the use of high order diffusion models within a particle filtering framework allows to extract more relevant descriptors of the fetal brain, which are then used for image registration. Then, a non-parametric regression technique was used to model the temporal mean evolution of the fetal brain without enforce a prior knowledge. Finally, the shape changes are highlighted using features extraction and selection methods. IRM de diffusion Étude de population Atlas longitudinal Étude de changement de forme Régression Sélection de caractéristiques Tractographie Diffusion weighted MRI Population study Longitudinal atlas Shape changes Regression Feature selection Tractography 006.6 610.28

Search results