321 |
Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada. / Gene networks inference by clustering, exhaustive search and intrinsically multivariate prediction analysis.Jacomini, Ricardo de Souza 09 June 2017 (has links)
A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. / Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected.
|
322 |
A methodology for contextual recommendation using artificial neural networksMustafa, Ghulam January 2018 (has links)
Recommender systems are an advanced form of software applications, more specifically decision-support systems, that efficiently assist the users in finding items of their interest. Recommender systems have been applied to many domains from music to e-commerce, movies to software services delivery and tourism to news by exploiting available information to predict and provide recommendations to end user. The suggestions generated by recommender systems tend to narrow down the list of items which a user may overlook due to the huge variety of similar items or users’ lack of experience in the particular domain of interest. While the performance of traditional recommender systems, which rely on relatively simpler information such as content and users’ filters, is widely accepted, their predictive capability perfomrs poorly when local context of the user and situated actions have significant role in the final decision. Therefore, acceptance and incorporation of context of the user as a significant feature and development of recommender systems utilising the premise becomes an active area of research requiring further investigation of the underlying algorithms and methodology. This thesis focuses on categorisation of contextual and non-contextual features within the domain of context-aware recommender system and their respective evaluation. Further, application of the Multilayer Perceptron Model (MLP) for generating predictions and ratings from the contextual and non-contextual features for contextual recommendations is presented with support from relevant literature and empirical evaluation. An evaluation of specifically employing artificial neural networks (ANNs) in the proposed methodology is also presented. The work emphasizes on both algorithms and methodology with three points of consideration: contextual features and ratings of particular items/movies are exploited in several representations to improve the accuracy of recommendation process using artificial neural networks (ANNs), context features are combined with user-features to further improve the accuracy of a context-aware recommender system and lastly, a combination of the item/movie features are investigated within the recommendation process. The proposed approach is evaluated on the LDOS-CoMoDa dataset and the results are compared with state-of-the-art approaches from relevant published literature.
|
323 |
Learning algorithms for sparse classification / Algorithmes d'estimation pour la classification parcimonieuseSanchez Merchante, Luis Francisco 07 June 2013 (has links)
Cette thèse traite du développement d'algorithmes d'estimation en haute dimension. Ces algorithmes visent à résoudre des problèmes de discrimination et de classification, notamment, en incorporant un mécanisme de sélection des variables pertinentes. Les contributions de cette thèse se concrétisent par deux algorithmes, GLOSS pour la discrimination et Mix-GLOSS pour la classification. Tous les deux sont basés sur le résolution d'une régression régularisée de type "optimal scoring" avec une formulation quadratique de la pénalité group-Lasso qui encourage l'élimination des descripteurs non-significatifs. Les fondements théoriques montrant que la régression de type "optimal scoring" pénalisée avec un terme "group-Lasso" permet de résoudre un problème d'analyse discriminante linéaire ont été développés ici pour la première fois. L'adaptation de cette théorie pour la classification avec l'algorithme EM n'est pas nouvelle, mais elle n'a jamais été détaillée précisément pour les pénalités qui induisent la parcimonie. Cette thèse démontre solidement que l'utilisation d'une régression de type "optimal scoring" pénalisée avec un terme "group-Lasso" à l'intérieur d'une boucle EM est possible. Nos algorithmes ont été testés avec des bases de données réelles et artificielles en haute dimension avec des résultats probants en terme de parcimonie, et ce, sans compromettre la performance du classifieur. / This thesis deals with the development of estimation algorithms with embedded feature selection the context of high dimensional data, in the supervised and unsupervised frameworks. The contributions of this work are materialized by two algorithms, GLOSS for the supervised domain and Mix-GLOSS for unsupervised counterpart. Both algorithms are based on the resolution of optimal scoring regression regularized with a quadratic formulation of the group-Lasso penalty which encourages the removal of uninformative features. The theoretical foundations that prove that a group-Lasso penalized optimal scoring regression can be used to solve a linear discriminant analysis bave been firstly developed in this work. The theory that adapts this technique to the unsupervised domain by means of the EM algorithm is not new, but it has never been clearly exposed for a sparsity-inducing penalty. This thesis solidly demonstrates that the utilization of group-Lasso penalized optimal scoring regression inside an EM algorithm is possible. Our algorithms have been tested with real and artificial high dimensional databases with impressive resuits from the point of view of the parsimony without compromising prediction performances.
|
324 |
Mineração de dados para classificação e caracterização de alguns vinhos Vitis Vinífera da América do Sul / Data mining for classification and characterization of some Vitis Vinífera wines from South AmericaCosta, Nattane Luíza da 21 December 2016 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-01-18T10:20:56Z
No. of bitstreams: 2
Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-01-18T10:21:13Z (GMT) No. of bitstreams: 2
Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-01-18T10:21:13Z (GMT). No. of bitstreams: 2
Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-12-21 / One concern regarding the production and marketing of wines is to ensure that the product is not adulterated in relation to the origin and type of grape used in its production. This is due to the high cost involved in production and due to interest of consumers in obtaining legitimate products. In this context, the techniques of data mining allow us to verify the relationship between the chemical properties of wines and their label regarding origin or type of grape. This study presents a method for classification and characterization of wines with the application of data mining to the chemical properties that describe the functionality of wines. Five applications were carried out involving Cabernet Sauvignon, Carménère, Syrah, Tannat and Merlot varieties produced in Argentina, Brazil, Chile and Uruguay: the classification of Cabernet Sauvignon according to geographic region of production, Brazil and Chile; the classification of Tannat wines from the southern regions of Uruguay and southern Brazil, regions in close proximity and relevant to the production of Tannat wines; the classification of Syrah wines from Argentina and Chile, which are close regions and have a significant production in the countries covered; the classification of Merlot wines associated with the four countries to draw a profile of the relevant variables for the classification of wines for each set of two countries; and the classification of wines of the Chilean Carménère and Merlot varieties, which aim to investigate a profile of discrimination between varieties. The results obtained in all applications are promising, with a high predictive performance of 88%. The combination of variable selection associated with the classifiers Support Vector Machines and Artificial Neural Networks made it possible to define classification models capable of predicting new samples in addition to identifying groups of variables responsible for the classification. / Uma preocupação à respeito da produção e comercialização de vinhos é assegurar que este produto não seja adulterado em relação à origem e ao tipo de uva utilizado em sua produção. Isto ocorre devido aos altos custos envolvendo a produção e devido ao interesse dos consumidores em obter produtos legítimos. Neste contexto, as técnicas de mineração de dados permitem verificar as relações existentes entre as propriedades químicas dos vinhos e seu rótulo: origem ou tipo de uva. Este trabalho apresenta um método para classificação e caracterização de vinhos a partir da aplicação de mineração de dados às propriedades químicas que descrevem a funcionalidade dos vinhos. Cinco aplicações foram realizadas envolvendo as variedades Cabernet Sauvignon, Carménère, Syrah, Tannat e Merlot, produzidos na Argentina, Brasil, Chile e Uruguai, definidas por: classificação de vinhos Cabernet Sauvignon de acordo com a região geográfica de produção, Brasil e Chile; classificação de vinhos Tannat das regiões sul do Uruguai e sul do Brasil, regiões próximas e importantes na produção de vinhos Tannat; classificação de vinhos Syrah das regiões da Argentina e Chile, regiões próximas e que possuem uma produção significativa nos países abordados; classificação de vinhos Merlot associado aos quatro países para traçar um perfil das variáveis relevantes para a classificação dos vinhos a cada dois países; e a classificação de vinhos das variedades Chilenas Carménère e Merlot.
Os resultados obtidos em todas as aplicações propostas neste trabalho demonstram-se promissores, com uma capacidade de classificação acima de 88%. A combinação de seletores de variáveis associados aos classificadores Máquinas de Vetores de Suporte e Redes Neurais Artificiais possibilitou modelos de classificação capazes de predizer novas amostras além de identificar grupos de variáveis responsáveis pelas classificações.
|
325 |
Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos. / Selection of Wikipedia features for automatic text classificationAlvarenga, Leonel Diógenes Carvalhaes 20 September 2012 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2014-07-31T14:43:10Z
No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf: 1449954 bytes, checksum: 9086dec3868b6b703340b550c614d33d (MD5) / Made available in DSpace on 2014-07-31T14:43:10Z (GMT). No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf: 1449954 bytes, checksum: 9086dec3868b6b703340b550c614d33d (MD5)
Previous issue date: 2012-09-20 / Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG / The traditional methods of text classification typically represent documents only as a
set of words, also known as "Bag of Words"(BOW). Several studies have shown good
results on making use of thesauri and encyclopedias as external information sources,
aiming to expand the BOW representation by the identification of synonymy and
hyponymy relationships between present terms in a document collection. However,
the expansion process may introduce terms that lead to an erroneous classification. In
this paper, we propose the use of feature selection measures in order to select features
extracted from Wikipedia in order to improve the efectiveness of the expansion
process. The study also proposes a feature selection measure called Tendency Factor
to One Category (TF1C), so that the experiments showed that this measure proves
to be competitive with the other measures Information Gain, Gain Ratio and Chisquared,
in the process, delivering the best gains in microF1 and macroF1, in most
experiments. The full use of features selected in this process showed to be more stable
in assisting the classification, while it showed lower performance on restricting its
insertion only to documents of the classes in which these features are well punctuated
by the selection measures. When applied in the Reuters-21578, Ohsumed first -
20000 and 20Newsgroups collections, our approach to feature selection allowed the
reduction of noise insertion inherent in the expansion process, and improved the
results of use hyponyms, and demonstrated that the synonym relationship from
Wikipedia can also be used in the document expansion, increasing the efectiveness
of the automatic text classification. / Os métodos tradicionais de classificação de textos normalmente representam documentos
apenas como um conjunto de palavras, também conhecido como BOW (do inglês, Bag of Words). Vários estudos têm mostrado bons resultados ao utilizar-se de tesauros e enciclopédias como fontes externas de informações, objetivando expandir a representação BOW a partir da identificação de relacionamentos de sinonômia e hiponômia entre os termos presentes em uma coleção de documentos. Todavia, o processo
de expansão pode introduzir termos que conduzam a uma classificação errônea do documento. No presente trabalho, propõe-se a aplicação de medidas de avaliação de termos para a seleção de características extraídas da Wikipédia, com o objetivo de melhorar a eficácia de sua utilização durante o processo de expansão de documentos. O estudo também propõe uma medida de seleção de características denominada
Fator de Tendência a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das características selecionadas neste processo, demonstrou auxiliar a classificação de forma mais estável, ao passo que apresentou menor desempenho ao
se restringir sua inserção somente aos documentos das classes em que estas características são bem pontuadas pelas medidas de seleção. Ao ser aplicada nas coleções Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com seleção de características permitiu a redução da inserção de ruídos inerentes do processo de expansão e potencializou o uso de hipônimos, assim como demonstrou que as relações de sinonômia da Wikipédia também podem ser utilizadas na expansão de documentos, elevando a eficácia da classificação automática de textos.
|
326 |
Uma contribuiÃÃo ao problema de seleÃÃo de modelos neurais usando o princÃpio de mÃxima correlaÃÃo dos erros / A contribution to the problem of selection of neural models using the beginning of maximum correlation of the errorsClÃudio Marques de SÃ Medeiros 08 May 2008 (has links)
nÃo hà / PropÃe-se nesta tese um mÃtodo de poda de pesos para redes Perceptron Multicamadas (MLP). TÃcnicas clÃssicas de poda convencionais, tais como Optimal Brain Surgeon(OBS) e Optimal Brain Damage(OBD), baseiam-se na anÃlise de sensibilidade de
cada peso da rede, o que requer a determinaÃÃo da inversa da matriz Hessiana da funÃÃo-custo. A inversÃo da matriz Hessiana, alÃm de possuir um alto custo computacional, Ã bastante susceptÃvel a problemas numÃricos decorrentes do mal-condicionamento da mesma. MÃtodos de poda baseados na regularizaÃÃo da funÃÃo-custo, por outro lado, exigem a determinaÃÃo por tentativa-e-erro de um parÃmetro de regularizaÃÃo. Tendo em mente as limitaÃÃes dos mÃtodos de poda supracitados, o mÃtodo proposto baseia-se no "PrincÃpio da MÃxima CorrelaÃÃo dos Erros" (MAXCORE). A idÃia consiste
em analisar a importÃncia de cada conexÃo da rede a partir da correlaÃÃo cruzada entre os erros em uma camada e os erros retropropagados para a camada anterior, partindo da camada de saÃda em direÃÃo à camada de entrada. As conexÃes que produzem as maiores correlaÃÃes tendem a se manter na rede podada. Uma vantagem imediata deste procedimento està em nÃo requerer a inversÃo de matrizes, nem um parÃmetro de regularizaÃÃo. O desempenho do mÃtodo proposto à avaliado em problemas de classificaÃÃo de padrÃes e os resultados sÃo comparados aos obtidos pelos mÃtodos OBS/OBD e por um mÃtodo de poda baseado em regularizaÃÃo. Para este fim, sÃo usados, alÃm de dados articialmente criados para salientar caracterÃsticas importantes do mÃtodo, os conjuntos
de dados bem conhecidos da comunidade de aprendizado de mÃquinas: Iris, Wine e Dermatology. Utilizou-se tambÃm um conjunto de dados reais referentes ao diagnÃstico de
patologias da coluna vertebral. Os resultados obtidos mostram que o mÃtodo proposto apresenta desempenho equivalente ou superior aos mÃtodos de poda convencionais, com as vantagens adicionais do baixo custo computacional e simplicidade. O mÃtodo proposto tambÃm mostrou-se bastante agressivo na poda de unidades de entrada (atributos), o que sugere a sua aplicaÃÃo em seleÃÃo de caracterÃsticas. / This thesis proposes a new pruning method which eliminates redundant weights in a multilayer perceptron (MLP). Conventional pruning techniques, like Optimal Brain Surgeon
(OBS) and Optimal Brain Damage (OBD), are based on weight sensitivity analysis, which requires the inversion of the error Hessian matrix of the loss function (i.e. mean
squared error). This inversion is specially susceptible to numerical problems due to poor conditioning of the Hessian matrix and demands great computational efforts. Another
kind of pruning method is based on the regularization of the loss function, but it requires the determination of the regularization parameter by trial and error. The proposed method is based on "Maximum Correlation Errors Principle" (MAXCORE). The idea in this principle is to evaluate the importance of each network connection by calculating the cross correlation among errors in a layer and the back-propagated errors in the preceding layer, starting from the output layer and working through the network
until the input layer is reached. The connections which have larger correlations remain and the others are pruned from the network. The evident advantage of this procedure is
its simplicity, since matrix inversion or parameter adjustment are not necessary. The performance of the proposed method is evaluated in pattern classification tasks
and the results are compared to those achieved by the OBS/OBD techniques and also by regularization-based method. For this purpose, artificial data sets are used to highlight
some important characteristics of the proposed methodology. Furthermore, well known benchmarking data sets, such as IRIS, WINE and DERMATOLOGY, are also used for the sake of evaluation. A real-world biomedical data set related to pathologies of the vertebral column is also used. The results obtained show that the proposed method achieves equivalent or superior performance compared to conventional pruning methods, with the additional advantages of low computational cost and simplicity. The proposed method also presents eficient behavior in pruning the input units, which suggests its use as a feature selection method.
|
327 |
Seleção de características para reconhecimento biométrico baseado em sinais de eletrocardiograma / Feature selection for biometric recognition based on electrocardiogram signalsFelipe Gustavo Silva Teodoro 22 June 2016 (has links)
O campo da Biometria abarca uma grande variedade de tecnologias usadas para identificar e verificar a identidade de uma pessoa por meio da mensuração e análise de vários aspectos físicos e/ou comportamentais do ser humano. Diversas modalidades biométricas têm sido propostas para reconhecimento de pessoas, como impressões digitais, íris, face e voz. Estas modalidades biométricas possuem características distintas em termos de desempenho, mensurabilidade e aceitabilidade. Uma questão a ser considerada com a aplicação de sistemas biométricos em mundo real é sua robustez a ataques por circunvenção, repetição e ofuscação. Esses ataques estão se tornando cada vez mais frequentes e questionamentos estão sendo levantados a respeito dos níveis de segurança que esta tecnologia pode oferecer. Recentemente, sinais biomédicos, como eletrocardiograma (ECG), eletroencefalograma (EEG) e eletromiograma (EMG) têm sido estudados para uso em problemas envolvendo reconhecimento biométrico. A formação do sinal do ECG é uma função da anatomia estrutural e funcional do coração e dos seus tecidos circundantes. Portanto, o ECG de um indivíduo exibe padrão cardíaco único e não pode ser facilmente forjado ou duplicado, o que tem motivado a sua utilização em sistemas de identificação. Entretanto, a quantidade de características que podem ser extraídas destes sinais é muito grande. A seleção de característica tem se tornado o foco de muitas pesquisas em áreas em que bases de dados formadas por dezenas ou centenas de milhares de características estão disponíveis. Seleção de característica ajuda na compreensão dos dados, reduzindo o custo computacional, reduzindo o efeito da maldição da dimensionalidade e melhorando o desempenho do preditor. O foco da seleção de característica é selecionar um subconjunto de característica a partir dos dados de entrada, que pode descrever de forma eficiente os dados de entrada ao mesmo tempo reduzir os efeitos de ruídos ou características irrelevantes e ainda proporcionar bons resultados de predição. O objetivo desta dissertação é analisar o impacto de algumas técnicas de seleção de característica tais como, Busca Gulosa, Seleção \\textit, Algoritmo Genético, Algoritmo Memético, Otimização por Enxame de Partículas sobre o desempenho alcançado pelos sistemas biométricos baseado em ECG. Os classificadores utilizados foram $k$-Vizinhos mais Próximos, Máquinas de Vetores Suporte, Floresta de Caminhos Ótimos e classificador baseado em distância mínima. Os resultados demonstram que existe um subconjunto de características extraídas do sinal de ECG capaz de fornecer altas taxas de reconhecimento / The field of biometrics includes a variety of technologies used to identify and verify the identity of a person by measuring and analyzing various physical and/or behavioral aspects of the human being. Several biometric modalities have been proposed for recognition of people, such as fingerprints, iris, face and speech. These biometric modalities have distinct characteristics in terms of performance, measurability and acceptability. One issue to be considered with the application of biometric systems in real world is its robustness to attacks by circumvention, spoof and obfuscation. These attacks are becoming more frequent and more questions are being raised about the levels of security that this technology can offer. Recently, biomedical signals, as electrocardiogram (ECG), electroencephalogram (EEG) and electromyogram (EMG) have been studied for use in problems involving biometric recognition. The ECG signal formation is a function of structural and functional anatomy of the heart and its surrounding tissues. Therefore, the ECG of an individual exhibits unique cardiac pattern and cannot be easily forged or duplicated, that have motivated its use in various identification systems. However, the amount of features that can be extracted from this signal is very large. The feature selection has become the focus of much research in areas where databases formed by tens or hundreds of thousands of features are available. Feature Selection helps in understanding data, reducing computation requirement, reducing the effect of curse of dimensionality and improving the predictor performance. The focus of feature selection is to select a subset of features from the input which can efficiently describe the input data while reducing effects from noise or irrelevant features and still provide good prediction results. The aim of this dissertation is to analyze the impact of some feature selection techniques, such as, greedy search, Backward Selection, Genetic Algorithm, Memetic Algorithm, Particle Swarm Optimization on the performance achieved by biometric systems based on ECG. The classifiers used were $k$-Nearest Neighbors, Support Vector Machines, Optimum-Path Forest and minimum distance classifier. The results demonstrate that there is a subset of features extracted from the ECG signal capable of providing high recognition rates
|
328 |
LearnInPlanner: uma abordagem de aprendizado supervisionado com redes neurais para solução de problemas de planejamento clássico / LearnInPlanner : a supervised learning approach with neural networks to solve problems of classical planningRosiane Correia Santos 19 November 2013 (has links)
A busca progressiva no espaço de estados é uma das abordagens mais populares de Planejamento Automatizado. O desempenho dos algoritmos de busca progressiva é influenciado pela heurística independente de domínio utilizada para guiá-lo. Nesse contexto, o foco do presente trabalho consiste em investigar técnicas de aprendizado de máquina supervisionadas que possibilitaram agregar à heurística do plano relaxado, comumente utilizada em abordagens atuais de planejamento, informações sobre o domínio em questão que viessem a ser úteis ao algoritmo de busca. Essas informações foram representadas por meio de um espaço de características do problema de planejamento e uma rede neural MLP foi aplicada para estimar uma nova função heurística para guiar a busca por meio de um processo de regressão não linear. Uma vez que o conjunto de características disponíveis para a construção da nova função heurística é grande, foi necessário a definição de um processo de seleção de características capaz de determinar qual conjunto de características de entrada da rede resultaria em melhor desempenho para o modelo de regressão. Portanto, para a seleção de características, aplicou-se uma abordagem de algoritmos genéticos. Como principal resultado, tem-se uma análise comparativa do desempenho entre a utilização da heurística proposta neste trabalho e a utilização da heurística do plano relaxado para guiar o algoritmo de busca na tarefa de planejamento. Para a análise empírica foram utilizados domínios de diferentes complexidades disponibilizados pela Competições Internacionais de Planejamento. Além dos resultados empíricos e análises comparativas, as contribuições deste trabalho envolvem o desenvolvimento de um novo planejador independente de domínio, denominado LearnInPlanner. Esse planejador utiliza a nova função heurística estimada por meio do processo de aprendizado e o algoritmo de Busca Gulosa para solucionar os problemas de planejamento. / The forward state-space search is one of the most popular Automated Planning approaches. The performance of forward search algorithms is affected by the domain-independent heuristic being used. In this context, the focus of this work consisted on investigating techniques of supervised machine learning that make possible to agregate to the relaxed plan heuristic, commonly used in current planning approaches, information about the domain which could be useful to the search algorithm. This information has been represented through a feature space of planning problem and a MLP neural network has been applied to estimate a new heuristic function for guiding the search through a non-linear regression process. Once the set of features available for the construction of the new heuristic function is large, it was necessary to define a feature selection process capable of determining which set of neural network input features would result in the best performance for the regression model. Therefore, for selecting features, an approach of genetic algorithms has been applied. As the main result, one has obtained a comparative performance analysis between the use of heuristic proposed in this work and the use of the relaxed plan heuristic to guide the search algorithm in the planning task. For the empirical analysis were used domains with different complexities provided by the International Planning Competitions. In addition to the empirical results and comparative analysis, the contributions of this work involves the development of a new domain-independent planner, named LearnInPlanner. This planner uses the new heuristic function estimated by the learning process and the Greedy Best-First search algorithm to solve planning problems.
|
329 |
Caracterização de perdas comerciais em sistemas de energia através de técnicas inteligentes. / Characterization of commercial losses in power systems through intelligent techniques.Caio César Oba Ramos 11 September 2014 (has links)
A detecção de furtos e fraudes nos sistemas de energia provocados por consumidores irregulares é o principal alvo em análises de perdas não-técnicas ou comerciais pelas empresas de energia. Embora a identificação automática de perdas nãotécnicas tenha sido amplamente estudada, a tarefa de selecionar as características mais representativas em um grande conjunto de dados a fim de aumentar a taxa de acerto da identificação, bem como para caracterizar possíveis consumidores irregulares como um problema de otimização, não tem sido muito explorada neste contexto. Neste trabalho, visa-se o desenvolvimento de algoritmos híbridos baseados em técnicas evolutivas a fim de realizar a seleção de características no âmbito da caracterização de perdas não-técnicas, comparando as suas taxas de acerto e verificando as características selecionadas. Vários classificadores são comparados, com destaque para a técnica Floresta de Caminhos Ótimos por sua robustez, sendo ela a técnica escolhida para o cálculo da função objetivo das técnicas evolutivas, analisando o desempenho das mesmas. Os resultados demonstraram que a seleção de características mais representativas podem melhorar a taxa de acerto da classificação de possíveis perdas não-técnicas quando comparada à classificação sem o processo de seleção de características em conjuntos de dados compostos por perfis de consumidores industriais e comerciais. Isto significa que existem características que não são pertinentes e podem diminuir a taxa de acerto durante a classificação dos consumidores. Através da metodologia proposta com o processo de seleção de características, é possível caracterizar e identificar os perfis de consumidores com mais precisão, afim de minimizar os custos com tais perdas, contribuindo para a recuperação de receita das companhias de energia elétrica. / The detection of thefts and frauds in power systems caused by irregular consumers is the most actively pursued analysis in non-technical losses by electric power companies. Although non-technical losses automatic identification has been massively studied, the task of selecting the most representative features in a large dataset, in order to boost the identification accuracy, as well as characterizing possible irregular consumers as a problem of optimization, has not been widely explored in this context. This work aims at developing hybrid algorithms based on evolutionary algorithms in order to perform feature selection in the context of non-technical losses characterization. Although several classifiers have been compared, we have highlighted the Optimum-Path Forest (OPF) technique mainly because of its robustness. Thus, the OPF classifier was chosen to compute the objective function of evolutionary techniques, analyzing their performances. This procedure with feature selection is compared with the procedure without feature selection in datasets composed by industrial and commercial consumers profiles. The results demonstrated that selecting the most representative features can improve the classification accuracy of possible non-technical losses. This means that there are irrelevant features and they can reduce the classification accuracy of consumers. Considering the methodology proposed with feature selection procedure, it is possible to characterize and identify consumer profiles more accurately, in order to minimize costs with such losses, contributing to the recovery of revenue from electric power companies.
|
330 |
Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada. / Gene networks inference by clustering, exhaustive search and intrinsically multivariate prediction analysis.Ricardo de Souza Jacomini 09 June 2017 (has links)
A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. / Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected.
|
Page generated in 0.0367 seconds