• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 245
  • 85
  • 27
  • 20
  • 10
  • 6
  • 5
  • 3
  • 3
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 488
  • 488
  • 181
  • 155
  • 117
  • 116
  • 111
  • 70
  • 69
  • 61
  • 55
  • 53
  • 53
  • 50
  • 49
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
311

Seleção de características para reconhecimento biométrico baseado em sinais de eletrocardiograma / Feature selection for biometric recognition based on electrocardiogram signals

Teodoro, Felipe Gustavo Silva 22 June 2016 (has links)
O campo da Biometria abarca uma grande variedade de tecnologias usadas para identificar e verificar a identidade de uma pessoa por meio da mensuração e análise de vários aspectos físicos e/ou comportamentais do ser humano. Diversas modalidades biométricas têm sido propostas para reconhecimento de pessoas, como impressões digitais, íris, face e voz. Estas modalidades biométricas possuem características distintas em termos de desempenho, mensurabilidade e aceitabilidade. Uma questão a ser considerada com a aplicação de sistemas biométricos em mundo real é sua robustez a ataques por circunvenção, repetição e ofuscação. Esses ataques estão se tornando cada vez mais frequentes e questionamentos estão sendo levantados a respeito dos níveis de segurança que esta tecnologia pode oferecer. Recentemente, sinais biomédicos, como eletrocardiograma (ECG), eletroencefalograma (EEG) e eletromiograma (EMG) têm sido estudados para uso em problemas envolvendo reconhecimento biométrico. A formação do sinal do ECG é uma função da anatomia estrutural e funcional do coração e dos seus tecidos circundantes. Portanto, o ECG de um indivíduo exibe padrão cardíaco único e não pode ser facilmente forjado ou duplicado, o que tem motivado a sua utilização em sistemas de identificação. Entretanto, a quantidade de características que podem ser extraídas destes sinais é muito grande. A seleção de característica tem se tornado o foco de muitas pesquisas em áreas em que bases de dados formadas por dezenas ou centenas de milhares de características estão disponíveis. Seleção de característica ajuda na compreensão dos dados, reduzindo o custo computacional, reduzindo o efeito da maldição da dimensionalidade e melhorando o desempenho do preditor. O foco da seleção de característica é selecionar um subconjunto de característica a partir dos dados de entrada, que pode descrever de forma eficiente os dados de entrada ao mesmo tempo reduzir os efeitos de ruídos ou características irrelevantes e ainda proporcionar bons resultados de predição. O objetivo desta dissertação é analisar o impacto de algumas técnicas de seleção de característica tais como, Busca Gulosa, Seleção \\textit, Algoritmo Genético, Algoritmo Memético, Otimização por Enxame de Partículas sobre o desempenho alcançado pelos sistemas biométricos baseado em ECG. Os classificadores utilizados foram $k$-Vizinhos mais Próximos, Máquinas de Vetores Suporte, Floresta de Caminhos Ótimos e classificador baseado em distância mínima. Os resultados demonstram que existe um subconjunto de características extraídas do sinal de ECG capaz de fornecer altas taxas de reconhecimento / The field of biometrics includes a variety of technologies used to identify and verify the identity of a person by measuring and analyzing various physical and/or behavioral aspects of the human being. Several biometric modalities have been proposed for recognition of people, such as fingerprints, iris, face and speech. These biometric modalities have distinct characteristics in terms of performance, measurability and acceptability. One issue to be considered with the application of biometric systems in real world is its robustness to attacks by circumvention, spoof and obfuscation. These attacks are becoming more frequent and more questions are being raised about the levels of security that this technology can offer. Recently, biomedical signals, as electrocardiogram (ECG), electroencephalogram (EEG) and electromyogram (EMG) have been studied for use in problems involving biometric recognition. The ECG signal formation is a function of structural and functional anatomy of the heart and its surrounding tissues. Therefore, the ECG of an individual exhibits unique cardiac pattern and cannot be easily forged or duplicated, that have motivated its use in various identification systems. However, the amount of features that can be extracted from this signal is very large. The feature selection has become the focus of much research in areas where databases formed by tens or hundreds of thousands of features are available. Feature Selection helps in understanding data, reducing computation requirement, reducing the effect of curse of dimensionality and improving the predictor performance. The focus of feature selection is to select a subset of features from the input which can efficiently describe the input data while reducing effects from noise or irrelevant features and still provide good prediction results. The aim of this dissertation is to analyze the impact of some feature selection techniques, such as, greedy search, Backward Selection, Genetic Algorithm, Memetic Algorithm, Particle Swarm Optimization on the performance achieved by biometric systems based on ECG. The classifiers used were $k$-Nearest Neighbors, Support Vector Machines, Optimum-Path Forest and minimum distance classifier. The results demonstrate that there is a subset of features extracted from the ECG signal capable of providing high recognition rates
312

Caracterização de perdas comerciais em sistemas de energia através de técnicas inteligentes. / Characterization of commercial losses in power systems through intelligent techniques.

Ramos, Caio César Oba 11 September 2014 (has links)
A detecção de furtos e fraudes nos sistemas de energia provocados por consumidores irregulares é o principal alvo em análises de perdas não-técnicas ou comerciais pelas empresas de energia. Embora a identificação automática de perdas nãotécnicas tenha sido amplamente estudada, a tarefa de selecionar as características mais representativas em um grande conjunto de dados a fim de aumentar a taxa de acerto da identificação, bem como para caracterizar possíveis consumidores irregulares como um problema de otimização, não tem sido muito explorada neste contexto. Neste trabalho, visa-se o desenvolvimento de algoritmos híbridos baseados em técnicas evolutivas a fim de realizar a seleção de características no âmbito da caracterização de perdas não-técnicas, comparando as suas taxas de acerto e verificando as características selecionadas. Vários classificadores são comparados, com destaque para a técnica Floresta de Caminhos Ótimos por sua robustez, sendo ela a técnica escolhida para o cálculo da função objetivo das técnicas evolutivas, analisando o desempenho das mesmas. Os resultados demonstraram que a seleção de características mais representativas podem melhorar a taxa de acerto da classificação de possíveis perdas não-técnicas quando comparada à classificação sem o processo de seleção de características em conjuntos de dados compostos por perfis de consumidores industriais e comerciais. Isto significa que existem características que não são pertinentes e podem diminuir a taxa de acerto durante a classificação dos consumidores. Através da metodologia proposta com o processo de seleção de características, é possível caracterizar e identificar os perfis de consumidores com mais precisão, afim de minimizar os custos com tais perdas, contribuindo para a recuperação de receita das companhias de energia elétrica. / The detection of thefts and frauds in power systems caused by irregular consumers is the most actively pursued analysis in non-technical losses by electric power companies. Although non-technical losses automatic identification has been massively studied, the task of selecting the most representative features in a large dataset, in order to boost the identification accuracy, as well as characterizing possible irregular consumers as a problem of optimization, has not been widely explored in this context. This work aims at developing hybrid algorithms based on evolutionary algorithms in order to perform feature selection in the context of non-technical losses characterization. Although several classifiers have been compared, we have highlighted the Optimum-Path Forest (OPF) technique mainly because of its robustness. Thus, the OPF classifier was chosen to compute the objective function of evolutionary techniques, analyzing their performances. This procedure with feature selection is compared with the procedure without feature selection in datasets composed by industrial and commercial consumers profiles. The results demonstrated that selecting the most representative features can improve the classification accuracy of possible non-technical losses. This means that there are irrelevant features and they can reduce the classification accuracy of consumers. Considering the methodology proposed with feature selection procedure, it is possible to characterize and identify consumer profiles more accurately, in order to minimize costs with such losses, contributing to the recovery of revenue from electric power companies.
313

Genetic generation of fuzzy knowledge bases: new perspectives / Geração genética de bases de conhecimento fuzzy: novas perspectivas

Cintra, Marcos Evandro 10 April 2012 (has links)
This work focus on the genetic generation of fuzzy systems. One of the main contribution of this work is the proposal of the FCA-BASED method, which generates the genetic search space using the formal concept analysis theory by extracting rules from data. The experimental evaluation results of the FCA-BASED method show its robustness, producing a good trade-off between the accuracy and the interpretability of the generated models. Moreover, the FCA-BASED method presents improvements to the DOC-BASED method, a previously proposed approach, related to the reduction of the computational cost for the generation of the genetic search space. In order to tackle high dimensional datasets, we also propose the FUZZYDT method, a fuzzy version of the classic C4.5 decision tree, a highly scalable method that presents low computational cost and competitive accuracy. Due to these characteristics, FUZZYDT is used in this work as a baseline method for the experimental evaluation and comparisons of other classic and fuzzy classification methods. We also include in this work the use of the FUZZYDT method to a real world problem, the warning of the coffee rust disease in Brazilian crops. Furthermore, this work investigates the task of feature subset selection to address the dimensionality issue of fuzzy systems. To this end, we propose the FUZZYWRAPPER method, a wrapper-based approach that selects features taking the relevant information regarding the fuzzyfication of the attributes into account, in the feature selection process. This work also investigates the automatic design of fuzzy data bases, proposing the FUZZYDBD method, which estimates the number of fuzzy sets defining all the attributes of a dataset and evenly distributing the fuzzy sets in the domains of the attributes. A modified version of the FUZZYDBD method, FUZZYDBD-II, which defines independent numbers of fuzzy sets for each attribute of a dataset, by means of estimation functions, is also proposed in this work / Este trabalho foca na geração genética de sistemas fuzzy. Uma das principais contribuições deste trabalho é a proposta do método FCA-BASED, que gera o espaço de busca genético usando a teoria de análise de conceitos formais por meio da extração de regras dos dados. Os resultados da avaliação experimental do método FCA-BASED demonstram sua robustez. O método FCABASED também produz um bom trade-off entre acurácia e interpretabilidade dos modelos gerados. Além disso, o método FCA-BASED apresenta melhorias em relação ao método DOC-BASED, uma abordagem proposta anteriormente. Essas melhorias estão relacionadas à redução do custo computacional para a geração do espaço de busca genético. Para ser capaz de trabalhar com conjuntos de dados de alta dimensão, foi também proposto o método FUZZYDT, uma versão fuzzy da clássica árvore de decisão C4.5. FUZZYDT é um método altamente escalável que apresenta baixo custo computacional e acurácia competitiva. Devido a essas características, o FUZZYDT é usado nesse trabalho como um método baseline para a avaliação experimental e comparações de outros métodos de classificação, fuzzy e clássicos. Também está incluido nesse trabalho a aplicação do método FUZZYDT em um problema do mundo real, o alerta da doença da ferrugem cafeeira em plantações brasileiras. Além disso, esse trabalho investiga a tarefa de seleção de atributos como forma de atacar o problema da dimensionalidade de sistemas fuzzy. Para esse fim, foi proposto o método FUZZYWRAPPER, uma abordagem baseada em wrapper que seleciona atributos levando em consideração as informações relevantes sobre a fuzificação dos atributos durante o processo de seleção. Esse trabalho também investiga a construção automática de bases de dados fuzzy, incluindo a proposta do método FUZZYDBD, que estima o número de conjuntos fuzzy que define todos os atributos de um conjunto de dados e distribui os conjuntos fuzzy proporcionalmente nos domínios dos atributos. Uma versão modificada do método FUZZYDBD, o método FUZZYDBD-II, também é proposta nesse trabalho. O método FUZZYDBD-II define números independentes de conjuntos fuzzy para cada atributo de um conjunto de dados por meio de funções de estimação
314

[en] CORPORATE RATINGS GRADE PREDICTION / [pt] PREDIÇÃO DO GRAU DE RATINGS CORPORATIVOS

ANDRE SIH 15 February 2007 (has links)
[pt] O objetivo desta dissertação é analisar a relevância de um conjunto inicial de 18 atributos tais como Despesas Financeiras, Receitas e Liquidez Corrente, dentre outros, em relação à classificação de risco (grau) de uma empresa: especulação ou investimento, conforme classificação realizada pela agência Standard & Poor s. Avaliou-se comparativamente a eficácia de métodos lineares e não-lineares de seleção de atributos tais como Análise de Componentes Principais (PCA), Informação Mútua (IM) e Informação Mútua para Seleção de Atributos com Distribuição Uniforme (MIFS-U) e métodos lineares e não-lineares de predição tais como Regressão Múltipla Linear, Discriminante Linear de Fisher e Redes Neurais. Identificou-se através destes métodos e de conhecimento a priori, um conjunto de cinco fatores (atributos) capaz de estimar com alto índice de eficácia se o grau de uma empresa é de investimento ou especulação, a saber: Lucro Líquido, EBIT, Receitas, Valor de Mercado e Setor. / [en] The purpose of this thesis is to analyze and rank the relevancy of 18 variables to S&P corporate ratings grades assignment. Beyond, we predict (classify) the Corporate Grades into two groups - Investment or Speculative. To achieve this goal, we applied and compared linear and non-linear Statistics models and Machine Learning Techniques (Multiple Linear Regression, Linear Fisher´s Discriminant, Neural Networks MLP) and feature selection methods such as Principal Component Analysis (PCA), Correlation, Mutual Information (MI) and Mutual Information for Features Selection under Uniform Distribution MIFS-U). The 17 of the initial set of 18 variables are financial variables such as Net Income, Interest Expense and Market Capitalization but one was the corporation´s Sector. Combining linear and nonlinear models and a priori knowledge, we identified a subset of five features (Net Income, EBIT, Total Revenues, Market Capitalization and Sector) that together reached up to 94.32% of success rate for the S&P grade prediction.
315

Apprentissage automatique pour la détection de relations d'affaire

Capo-Chichi, Grâce Prudencia 04 1900 (has links)
No description available.
316

Análise de algoritmos de agrupamento para base de dados textuais / Analysis of the clustering algorithms for the databases

Almeida, Luiz Gonzaga Paula de 31 August 2008 (has links)
Made available in DSpace on 2015-03-04T18:50:55Z (GMT). No. of bitstreams: 1 DissertacaoLuizGonzaga.pdf: 3514446 bytes, checksum: 517d9c7b241b2bd9c799c807d6eac037 (MD5) Previous issue date: 2008-08-31 / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. / O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.
317

Inferência de redes de regulação gênica utilizando o paradigma de crescimento de sementes / Inference of gene regulatory networks using the seed growing paradigm

Higa, Carlos Henrique Aguena 17 February 2012 (has links)
Um problema importante na área de Biologia Sistêmica é o de inferência de redes de regulação gênica. Os avanços científicos e tecnológicos nos permitem analisar a expressão gênica de milhares de genes simultaneamente. Por \"expressão gênica\'\', estamos nos referindo ao nível de mRNA dentro de uma célula. Devido a esta grande quantidade de dados, métodos matemáticos, estatísticos e computacionais têm sido desenvolvidos com o objetivo de elucidar os mecanismos de regulação gênica presentes nos organismos vivos. Para isso, modelos matemáticos de redes de regulação gênica têm sido propostos, assim como algoritmos para inferir estas redes. Neste trabalho, focamos nestes dois aspectos: modelagem e inferência. Com relação à modelagem, estudamos modelos existentes para o ciclo celular da levedura (Saccharomyces cerevisiae). Após este estudo, propomos um modelo baseado em redes Booleanas probabilísticas sensíveis ao contexto, e em seguida, um aprimoramento deste modelo, utilizando cadeias de Markov não homogêneas. Mostramos os resultados, comparando os nossos modelos com os modelos estudados. Com relação à inferência, propomos um novo algoritmo utilizando o paradigma de crescimento de semente de genes. Neste contexto, uma semente é um pequeno subconjunto de genes de interesse. Nosso algoritmo é baseado em dois passos: passo de crescimento de semente e passo de amostragem. No primeiro passo, o algoritmo adiciona outros genes à esta semente, seguindo algum critério. No segundo, o algoritmo realiza uma amostragem de redes, definindo como saída um conjunto de redes potencialmente interessantes. Aplicamos o algoritmo em dados artificiais e dados biológicos de células HeLa, mostrando resultados satisfatórios. / A key problem in Systems Biology is the inference of gene regulatory networks. The scientific and technological advancement allow us to analyze the gene expression of thousands of genes, simultaneously. By \"gene expression\'\' we refer to the mRNA concentration level inside a cell. Due to this large amount of data, mathematical, statistical and computational methods have been developed in order to elucidate the gene regulatory mechanisms that take part of every living organism. To this end, mathematical models of gene regulatory networks have been proposed, along with algorithms to infer these networks. In this work, we focus in two aspects: modeling and inference. Regarding the modeling, we studied existing models for the yeast (Saccharomyces cerevisiae) cell cycle. After that, we proposed a model based on context sensitive probabilistic Boolean networks, and then, an improvement of this model, using nonhomogeneous Markov chain. We show the results, comparing our models against the studied models. Regarding the inference, we proposed a new algorithm using the seed growing paradigm. In this context, a seed is a small subset of genes. Our algorithm is based in two main steps: seed growing step and sampling step. In the first step, the algorithm adds genes into the seed, according to some criterion. In the second step, the algorithm performs a sampling process on the space of networks, defining as its output a set of potentially interesting networks. We applied the algorithm on artificial and biological HeLa cells data, showing satisfactory results.
318

Seleção de características: abordagem via redes neurais aplicada à segmentação de imagens / Feature selection: a neural approach applied to image segmentation

Santos, Davi Pereira dos 21 March 2007 (has links)
A segmentaçãoo de imagens é fundamental para a visão computacional. Com essa finalidade, a textura tem sido uma propriedade bastante explorada por pesquisadores. Porém, a existência de diversos métodos de extração de textura, muitas vezes específicos para determinadas aplicações, dificulta a implementação de sistemas de escopo mais geral. Tendo esse contexto como motivação e inspirado no sucesso dos sistemas de visão naturais e em sua generalidade, este trabalho propõe a combinação de métodos por meio da seleção de características baseada na saliência das sinapses de um perceptron multicamadas (MLP). É proposto, também, um método alternativo baseado na capacidade do MLP de apreender textura que dispensa o uso de técnicas de extração de textura. Como principal contribuição, além da comparação da heurística de seleção proposta frente à busca exaustiva segundo o critério da distância de Jeffrey-Matusita, foi introduzida a técnica de Equalização da Entrada, que melhorou consideravelmente a qualidade da medida de saliência. É também apresentada a segmentação de imagens de cenas naturais, como exemplo de aplicação / Segmentation is a crucial step in Computer Vision. Texture has been a property largely employed by many researchers to achieve segmentation. The existence of a large amount of texture extraction methods is, sometimes, a hurdle to overcome when it comes to modeling systems for more general problems. Inside this context and following the excellence of natural vision systems and their generality, this work has adopted a feature selection method based on synaptic conexions salience of a Multilayer Perceptron and a method based on its texture inference capability. As well as comparing the proposed method with exhaustive search according to the Jeffrey-Matusita distance criterion, this work also introduces, as a major contribution, the Input Equalization technique, which contributed to significantly improve the segmentation results. The segmentation of images of natural scenes has also been provided as a likely application of the method
319

Seleção de bandas espectrais apoiada pela metaheurística PSO para predição do teor de alumínio trocável de amostras de solo

Rodrigues, Giancarlo 13 September 2018 (has links)
Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:18:16Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) / Made available in DSpace on 2018-11-06T17:18:16Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) Previous issue date: 2018-09-13 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A estimativa do teor de nutrientes do solo por espectroscopia de refletância difusa é feita através de um modelo de predição, do qual seu desempenho determina a efetividade do método em realizá-la. Esse modelo é elaborado por técnicas que procuram correlacionar dados de refletância de uma coleção de amostras ao respectivo valor de referência obtido por análise química, ambos dispostos como atributos de um conjunto de dados. Não obstante, a quantidade de atributos desse conjunto é elevada – alta dimensionalidade – e nem todos são relevantes à predição do nutriente de interesse, logo elaborar um modelo a partir de um conjunto com essas características envolve uma série de complicações que prejudicam seu desempenho de predição. Uma das estratégias para contorná-las é manter no conjunto de dados apenas atributos relevantes à predição do nutriente de interesse, o que é feito através da Seleção de Subconjunto de Atributos (SSA), porém a maioria dos algoritmos que a executam não apresentam desempenho satisfatório ao manusear conjuntos de alta dimensionalidade. A literatura pertinente, por outro lado, constatou que o emprego de algoritmos evolutivos para SSA em conjuntos com essa característica fornece subconjuntos de qualidade num tempo de execução aceitável, logo o objetivo desta dissertação foi identificar com o apoio da metaheurística de Otimização por Enxame de Partículas – PSO – os comprimentos de onda da região do infravermelho visível e próximo relevantes à predição do teor de alumínio trocável de amostras de solo da região dos Campos Gerais. Para isso, a SSA foi configurada como um problema de otimização em que o objetivo foi minimizar o valor de AIC dos modelos elaborados pelo algoritmo de Regressão Linear Múltipla a partir dos subconjuntos candidatos. Ademais, sabendo da influência dos parâmetros do algoritmo no resultado final, primeiro foram investigados os valores ideais para número de iterações, tamanho do enxame e valor de limiar que proporcionaram a seleção dos melhores subconjuntos, depois estes foram validados num conjunto de dados independente e o melhor apontado. Nossos resultados sugerem que, para nosso cenário, 40 iterações, tamanho de enxame 20 e limiar 0,6 fornecem os melhores subconjuntos, porém o desempenho de predição do melhor modelo identificado ainda é passível de aprimoramento. A redução proporcionada pelo método adotado foi significativa e por conta disso essa abordagem é indicada para SSA em conjuntos de dados de espectroscopia. / The soil nutrient content estimation by diffuse reflectance spectroscopy is done through a prediction model whose performance determines the method effectiveness when performing it. This model is elaborated by techniques that try correlating a sample collection’s reflectance data to the respective reference value obtained through chemical analysis, both arranged as dataset attributes. Nevertheless, the dataset attributes amount is large – high dimensionality – and not all of them are relevant to the interest nutrient’s prediction, so elaborating a model from a dataset with these characteristics involves some complications that impact its prediction performance. A strategy to circumvent them is keeping only relevant attributes to the interest nutrient’s prediction, which is done through Feature Subset Selection (FSS), but the majority of algorithms that perform it do not operate satisfactorily when handling highdimensional sets. On the other hand, the pertinent literature found that employing evolutionary algorithms for FSS in high-dimensionality datasets provides quality subsets in an acceptable execution time, so this master thesis’ objective was to identify with Particle Swarm Optimization – PSO – metaheuristic support the relevant wavelengths of visible and near infrared region for exchangeable aluminum content prediction of Campos Gerais region soil samples. For this, the FSS was configured as an optimization problem which the objective was to minimize the AIC value of candidate subsets models elaborated by Multiple Linear Regression algorithm. In addition, knowing the algorithm parameters influence on its final result, first the ideal values for iterations number, swarm size and threshold value that provided the selection of best subsets were investigated, then these subsets were validated in an independent dataset and the best established. Our results suggest that in our scenario 40 iterations, swarm size 20 and threshold 0.6 provided the best subsets, but the prediction performance of the best model is amenable to improvement. The dimensionality reduction provided by the adopted method was significant, so this approach is recommended for FSS in spectroscopy datasets.
320

Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada. / Gene networks inference by clustering, exhaustive search and intrinsically multivariate prediction analysis.

Jacomini, Ricardo de Souza 09 June 2017 (has links)
A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. / Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected.

Page generated in 0.481 seconds