Global ETD Search

1	Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate tools Burgel, Evandro January 2018 (has links) A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon. Gestão de estoques Modelos de regressão Sistemas de produção Stock management Regression analysis PLS Selection of variables Obsolescence
2	Réduction de dimension via Sliced Inverse Regression : Idées et nouvelles propositions / Dimension reductio via Sliced Inverse Regression : ideas and extensions Chiancone, Alessandro 28 October 2016 (has links) Cette thèse propose trois extensions de la Régression linéaire par tranches (Sliced Inverse Regression, SIR), notamment Collaborative SIR, Student SIR et Knockoff SIR.Une des faiblesses de la méthode SIR est l’impossibilité de vérifier si la Linearity Design Condition (LDC) est respectée. Il est établi que, si x suit une distribution elliptique, la condition est vraie ; dans le cas d’une composition de distributions elliptiques il n y a aucune garantie que la condition soit vérifiée globalement, pourtant, elle est respectée localement.On va donc proposer une extension sur la base de cette considération. Étant donné une variable explicative x, Collaborative SIR réalise d’abord un clustering. Pour chaque cluster, la méthode SIR est appliquée de manière indépendante.Le résultat de chaque composant contribue à créer la solution finale.Le deuxième papier, Student SIR, dérive de la nécessité de robustifier la méthode SIR.Vu que cette dernière repose sur l’estimation de la covariance et contient une étape APC, alors elle est sensible au bruit.Afin d’étendre la méthode SIR on a utilisé une stratégie fondée sur une formulation inverse du SIR, proposée par R.D. Cook.Finalement, Knockoff SIR est une extension de la méthode SIR pour la sélection des variables et la recherche d’une solution sparse, ayant son fondement dans le papier publié par R.F. Barber et E.J. Candès qui met l’accent sur le false discovery rate dans le cadre de la régression. L’idée sous-jacente à notre papier est de créer des copies de variables d’origine ayant certaines proprietés.On va montrer que la méthode SIR est robuste par rapport aux copies et on va proposer une stratégie pour utiliser les résultats dans la sélection des variables et pour générer des solutions sparse / This thesis proposes three extensions of Sliced Inverse Regression namely: Collaborative SIR, Student SIR and Knockoff SIR.One of the weak points of SIR is the impossibility to check if the Linearity Design Condition (LDC) holds. It is known that if X follows an elliptic distribution thecondition holds true, in case of a mixture of elliptic distributions there are no guaranties that the condition is satisfied globally, but locally holds. Starting from this consideration an extension is proposed. Given the predictor variable X, Collaborative SIR performs initially a clustering. In each cluster, SIR is applied independently. The result from each component collaborates to give the final solution.Our second contribution, Student SIR, comes from the need to robustify SIR. Since SIR is based on the estimation of the covariance, and contains a PCA step, it is indeed sensitive to noise. To extend SIR, an approach based on a inverse formulation of SIR proposed by R.D. Cook has been used.Finally Knockoff SIR is an extension of SIR to perform variable selection and give sparse solution that has its foundations in a recently published paper by R. F. Barber and E. J. Candès that focuses on the false discovery rate in the regression framework. The underlying idea of this paper is to construct copies of the original variables that have some properties. It is shown that SIR is robust to this copies and a strategy is proposed to use this result for variable selection and to generate sparse solutions. Régression linéaire par tranches Reduction de dimension Selection de variables Sliced Inverse Regression Dimension reduction Variable selection 510
3	Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate tools Burgel, Evandro January 2018 (has links) A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon. Gestão de estoques Modelos de regressão Sistemas de produção Stock management Regression analysis PLS Selection of variables Obsolescence
4	Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate tools Burgel, Evandro January 2018 (has links) A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon. Gestão de estoques Modelos de regressão Sistemas de produção Stock management Regression analysis PLS Selection of variables Obsolescence
5	Algoritimos geneticos para seleção de variaveis em metodos de calibração de segunda ordem / Genetic algorithm for selection of variables in second-order calibration methods Carneiro, Renato Lajarim 07 October 2007 (has links) Orientador: Ronei Jesus Poppi / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Quimica / Made available in DSpace on 2018-08-08T23:32:47Z (GMT). No. of bitstreams: 1 Carneiro_RenatoLajarim_M.pdf: 4176371 bytes, checksum: cbe2edc08ad07ea0e4607e69fc38aec5 (MD5) Previous issue date: 2007 / Resumo: Esse trabalho teve por objetivo desenvolver um programa em MatLab baseado no Algoritmo Genético (GA) para aplicar e verificar as principais vantagens deste na seleção de variáveis para métodos de calibração de segunda ordem (BLLS-RBL, PARAFAC e N-PLS). Para esta finalidade foram utilizados três conjuntos de dados: 1. Determinação de pesticidas e um metabólito em vinho tinto por HPLC-DAD em três situações distintas. Nestas três situações foram observadas sobreposições dos interferentes sobre os compostos de interesse. Estes compostos eram os pesticidas carbaril (CBL), tiofanato metílico (TIO), simazina (SIM) e dimetoato (DMT) e o metabólito ftalimida (PTA). 2. Quantificação das vitaminas B2 (riboflavina) e B6 (piridoxina) por espectrofluorimetria de excitação/emissão em formulações infantis comerciais, sendo três leites em pó e dois suplementos alimentares. 3. Análise dos fármacos ácido ascórbico (AA) e ácido acetilsalicílico (AAS) em formulações farmacêuticas por FIA com gradiente de pH e detecção por arranjo de diodos, onde a variação de pH causa alteração na estrutura das moléculas dos fármacos mudando seus espectros na região do ultravioleta. A performance dos modelos, com e sem seleção de variáveis, foi comparada através de seus erros, expressados como a raiz quadrada da média dos quadrados dos erros de previsão (RMSEP), e os erros relativos de previsão (REP). Resultados melhores foram claramente observados quando o GA foi utilizado para a seleção de variáveis nos métodos de calibração de segunda ordem. / Abstract: The aim of this work was to develop a program in MatLab using Genetic Algorithm (GA) to apply and to verify the main advantages of variables selection for second-order calibration methods (BLLS-RBL, PARAFAC and N-PLS). For this purpose three data sets had been used: 1. Determination of pesticides and a metabolite in red wines using HPLC-DAD in three distinct situations, where overlappings of the interferentes on interest compounds are observed. These composites were the pesticides carbaryl (CBL), methyl thiophanate (TIO), simazine (SIM) and dimethoate (DMT) and the metabolite phthalimide (PTA). 2. Quantification of the B2 (riboflavine) and (pyridoxine) B6 vitamins for spectrofluorimetry of excitation-emission in commercial infantile products, being three powder milk and two supplement foods. 3. Analysis of ascorbic acid (AA) and acetylsalicylic acid (AAS) in pharmaceutical tablets by FIA with pH gradient and detection for diode array, where the variation of pH causes alterations in the structure of molecules of analites shifting its spectra in the region of the ultraviolet. The performance of the models, with and without selection of variable, was compared through its errors, expressed as the root mean square error of prediction (RMSEP), and the relative errors of prediction (REP). The best results were obtained when the GA was used for the selection of variable in second-order calibration methods. / Mestrado / Quimica Analitica / Mestre em Química Seleção de variaveis Algoritmos genéticos Selection of variables Genetic algorithm Second-order calibration methods
6	[en] RÉNYI ENTROPY AND CAUCHY-SCHWARTZ MUTUAL INFORMATION APPLIED TO THE MIFS-U VARIABLES SELECTION ALGORITHM: A COMPARATIVE STUDY / [pt] ENTROPIA DE RÉNYI E INFORMAÇÃO MÚTUA DE CAUCHY-SCHWARTZ APLICADAS AO ALGORITMO DE SELEÇÃO DE VARIÁVEIS MIFS-U: UM ESTUDO COMPARATIVO LEONARDO BARROSO GONCALVES 08 September 2008 (has links) [pt] A presente dissertação aborda o algoritmo de Seleção de Variáveis Baseada em Informação Mútua sob Distribuição de Informação Uniforme (MIFS-U) e expõe um método alternativo para estimação da entropia e da informação mútua, medidas que constituem a base deste algoritmo de seleção. Este método tem, por fundamento, a informação mútua quadrática de Cauchy-Schwartz e a entropia quadrática de Rényi, combinada, no caso de variáveis contínuas, ao método de estimação de densidade Janela de Parzen. Foram realizados experimentos com dados reais de domínio público, sendo tal método comparado com outro, largamente utilizado, que adota a definição de entropia de Shannon e faz uso, no caso de variáveis contínuas, do estimador de densidade histograma. Os resultados mostram pequenas variações entre os dois métodos, mas que sugerem uma investigação futura através de um classificador, tal como Redes Neurais, para avaliar qualitativamente tais resultados à luz do objetivo final que consiste na maior exatidão de classificação. / [en] This dissertation approaches the algorithm of Selection of Variables under Mutual Information with Uniform Distribution (MIFS-U) and presents an alternative method for estimate entropy and mutual information, measures that constitute the base of this selection algorithm. This method has, for foundation, the Cauchy-Schwartz quadratic mutual information and the quadratic Rényi entropy, combined, in the case of continuous variables, with Parzen Window density estimation. Experiments were accomplished with real public domain data, being such method compared with other, broadly used, that adopts the Shannon entropy definition and makes use, in the case of continuous variables, of the histogram density estimator The results show small variations among the two methods, what suggests a future investigation through a classifier, such as Neural Networks, to evaluate this results, qualitatively, in the light of the final objective that consists of the biggest sort exactness. [pt] ENTROPIA [en] ENTROPY [pt] INFORMACAO MUTUA [en] MUTUAL INFORMATION [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] JANELAS DE PARZEN [en] PARZEN WINDOWS
7	Sélection de variables pour l’analyse des données semi-supervisées dans les systèmes d’Information décisionnels / Feature selection for semi-supervised data analysis in decisional information systems Hindawi, Mohammed 21 February 2013 (has links) La sélection de variables est une tâche primordiale en fouille de données et apprentissage automatique. Il s’agit d’une problématique très bien connue par les deux communautés dans les contextes, supervisé et non-supervisé. Le contexte semi-supervisé est relativement récent et les travaux sont embryonnaires. Récemment, l’apprentissage automatique a bien été développé à partir des données partiellement labélisées. La sélection de variables est donc devenue plus importante dans le contexte semi-supervisé et plus adaptée aux applications réelles, où l’étiquetage des données est devenu plus couteux et difficile à obtenir. Dans cette thèse, nous présentons une étude centrée sur l’état de l’art du domaine de la sélection de variable en s’appuyant sur les méthodes qui opèrent en mode semi-supervisé par rapport à celles des deux contextes, supervisé et non-supervisé. Il s’agit de montrer le bon compromis entre la structure géométrique de la partie non labélisée des données et l’information supervisée de leur partie labélisée. Nous nous sommes particulièrement intéressés au «small labeled-sample problem» où l’écart est très important entre les deux parties qui constituent les données. Pour la sélection de variables dans ce contexte semi-supervisé, nous proposons deux familles d’approches en deux grandes parties. La première famille est de type «Filtre» avec une série d’algorithmes qui évaluent la pertinence d’une variable par une fonction de score. Dans notre cas, cette fonction est basée sur la théorie spectrale de graphe et l’intégration de contraintes qui peuvent être extraites à partir des données en question. La deuxième famille d’approches est de type «Embedded» où la sélection de variable est intrinsèquement liée à un modèle d’apprentissage. Pour ce faire, nous proposons des algorithmes à base de pondération de variables dans un paradigme de classification automatique sous contraintes. Deux visions sont développées à cet effet, (1) une vision globale en se basant sur la satisfaction relaxée des contraintes intégrées directement dans la fonction objective du modèle proposé ; et (2) une deuxième vision, qui est locale et basée sur le contrôle stricte de violation de ces dites contraintes. Les deux approches évaluent la pertinence des variables par des poids appris en cours de la construction du modèle de classification. En outre de cette tâche principale de sélection de variables, nous nous intéressons au traitement de la redondance. Pour traiter ce problème, nous proposons une méthode originale combinant l’information mutuelle et un algorithme de recherche d’arbre couvrant construit à partir de variables pertinentes en vue de l’optimisation de leur nombre au final. Finalement, toutes les approches développées dans le cadre de cette thèse sont étudiées en termes de leur complexité algorithmique d’une part et sont validés sur des données de très grande dimension face et des méthodes connues dans la littérature d’autre part. / Feature selection is an important task in data mining and machine learning processes. This task is well known in both supervised and unsupervised contexts. The semi-supervised feature selection is still under development and far from being mature. In general, machine learning has been well developed in order to deal with partially-labeled data. Thus, feature selection has obtained special importance in the semi-supervised context. It became more adapted with the real world applications where labeling process is costly to obtain. In this thesis, we present a literature review on semi-supervised feature selection, with regard to supervised and unsupervised contexts. The goal is to show the importance of compromising between the structure from unlabeled part of data, and the background information from their labeled part. In particular, we are interested in the so-called «small labeled-sample problem» where the difference between both data parts is very important. In order to deal with the problem of semi-supervised feature selection, we propose two groups of approaches. The first group is of «Filter» type, in which, we propose some algorithms which evaluate the relevance of features by a scoring function. In our case, this function is based on spectral-graph theory and the integration of pairwise constraints which can be extracted from the data in hand. The second group of methods is of «Embedded» type, where feature selection becomes an internal function integrated in the learning process. In order to realize embedded feature selection, we propose algorithms based on feature weighting. The proposed methods rely on constrained clustering. In this sense, we propose two visions, (1) a global vision, based on relaxed satisfaction of pairwise constraints. This is done by integrating the constraints in the objective function of the proposed clustering model; and (2) a second vision, which is local and based on strict control of constraint violation. Both approaches evaluate the relevance of features by weights which are learned during the construction of the clustering model. In addition to the main task which is feature selection, we are interested in redundancy elimination. In order to tackle this problem, we propose a novel algorithm based on combining the mutual information with maximum spanning tree-based algorithm. We construct this tree from the relevant features in order to optimize the number of these selected features at the end. Finally, all proposed methods in this thesis are analyzed and their complexities are studied. Furthermore, they are validated on high-dimensional data versus other representative methods in the literature. Informatique Intelligence artificielle Fouille de données Selection de variables Données semi supervisées Redondance Réduction de dimension Information DataTechnology Artificial intelligence Data mining Semi-Supervised data Redundancy Dimensionality reduction 006.330 72
8	[en] RELAPSE RISK ESTIMATION IN CHILDREN WITH ACUTE LYMPHOBLASTIC LEUKEMIA BY USING NEURAL NETWORKS / [pt] ESTIMAÇÃO DO RISCO DE RECIDIVA EM CRIANÇAS PORTADORAS DE LEUCEMIA LINFOBLÁSTICA AGUDA USANDO REDES NEURAIS JOSE LEONARDO RIBEIRO MACRINI 21 December 2004 (has links) [pt] Esta tese propõe uma metodologia, baseada em procedimentos quantitativos, para estimação do risco de evento adverso (recaída ou morte) em crianças portadoras de Leucemia Linfoblástica Aguda (LLA). A metodologia proposta foi implementada e analisada utilizando dados de grupo de crianças diagnosticadas no Setor de Hematologia do Instituto de Puericultura e Pediatria Martagão Gesteira (IPPMG) da UFRJ e no Serviço de Hematologia Hospital Universitário Pedro Ernesto (HUPE) da UERJ que constituem uma considerável parcela dos casos de LLA na infância registrados no Rio de Janeiro nos últimos anos. A estimação do risco de recaída foi realizada através de um modelo de Redes Neurais após uma seqüência de procedimentos de pré- tratamento de variáveis e de refinamentos do método no que concerne a saída alvo da rede. O tratamento das variáveis é fundamental uma vez que o número reduzido de amostras é uma característica intrínseca deste problema. Embora a LLA seja o câncer mais freqüente a infância, sua incidência é de aproximadamente 1 caso por 100 mil habitantes por ano. Os resultados encontrados foram satisfatórios obtendo-se um percentual de acerto de 93% (fora da amostra) para os pacientes que recaíram quando comparados com o método classicamente utilizado na clínica médica para a avaliação do risco de recidiva (método do grupo BFM). Espera-se que os resultados obtidos possam vir a dar subsídios às condutas médicas em relação à estimativa do risco de recidiva dos pacientes, portanto, podendo vir a ser útil na modulação da intensidade da terapêutica. / [en] In this it is proposed a methodology, based on quantitative procedure, to estimate the adverse event risk (relapse or death) in Acute Lymphoblastic Leukemia (ALL) in children. This methodology was implemented and analyzed in a dataset composed by children diagnosed and treated at the hematology service of the Instituto de Puericultura e Pediatria Martagão Gesteira (IPPMG) in the Federal University of Rio de Janeiro and of the Hospital Universitário Pedro Ernesto (HUPE) in the University of state of Rio de Janeiro. This group constitutes a considerable fraction of the ALL cases in childhood registered in the last few years in Rio de Janeiro. The relapse risk was estimated by a Neural Networks model after a sequence of variable pre-treatment procedures. This treatment has a fundamental importance due to the small number of cases (an intrinsic characteristic of this problem). Although, the ALL is the most frequent cancer in childhood, it incidence is approximately just 1 case for 100 000 inhabitants by year. The obtained results may be considered excellent when compared with the classical risk estimative method used in the medical clinics (BFM risk). A perceptual of successes of 93% (out-of-sample) in no- relapse patients was achieved. We expect that the obtained results may subsidize medical conduct concerning the risk of adverse event and so it could be useful in the treatment intensity modulation. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] CLASSIFICACAO [en] CLASSIFICATION [pt] RISCO [en] RISK [pt] INFORMACAO MUTUA [en] MUTUAL INFORMATION [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] LEUCEMIA LINFOBLASTICA AGUDA [en] ACUTE LYMPHOCYTIC LEUKEMIA
9	ALGORITMO CO-EVOLUTIVO PARA PARTICIONAMENTO DE DADOS E SELEÇÃO DE VARIÁVEIS EM PROBLEMA DE CALIBRAÇÃO MULTIVARIADA. Ramos, Jorcivan Silva 07 July 2015 (has links) Made available in DSpace on 2016-08-10T10:40:28Z (GMT). No. of bitstreams: 1 Jorcivan Silva Ramos.pdf: 779202 bytes, checksum: e48a074121bf6a4260fb48b0324ff286 (MD5) Previous issue date: 2015-07-07 / This paper presents the development of a co-evolutionary genetic algorithm for the selection of samples from a data set and the selection of variables from the samples selected in the context of multivariate calibration . Each sample is divided into the calibration set for the preparation of the model and validating the calibration set of model. The algorithm selects samples variables with the goal of building the calibration models. The results show that the data sets selected by the proposed algorithm models to produce better predictive ability of the models reported in the literature. / Esse trabalho apresenta o desenvolvimento de um algoritmo genético co-evolutivo para a seleção de amostras a partir de um conjunto de dados e a seleção de variáveis a partir das amostras selecionadas no contexto da calibração multivariada. Cada amostra é dividida em conjunto de calibração para a confecção do modelo e conjunto de validação do modelo de calibração. O algoritmo seleciona amostras e variáveis com o objetivo de construir modelos de calibração. Os resultados mostram que os conjuntos de dados selecionados pelo algoritmo proposto produzem modelos com melhor capacidade preditiva do que os modelos relatados na literatura. Algoritmo genético co-evolução calibração multivariada seleção de amostras seleção de variáveis Genetic Algorithm co-evolution multivariate calibration selection of samples selection of variables
10	Redução da dimensionalidade para estimativa de teores de nutrientes em folhas e grãos de soja com espectroscopia no infravermelho Ferreira, Pablo Henrique 27 April 2017 (has links) Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T19:05:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Pablo Henrique Ferreira.pdf: 12205608 bytes, checksum: a2f75e7cec618577bfd7fddda3302b17 (MD5) / Made available in DSpace on 2017-11-30T19:05:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Pablo Henrique Ferreira.pdf: 12205608 bytes, checksum: a2f75e7cec618577bfd7fddda3302b17 (MD5) Previous issue date: 2017-04-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A alta dimensionalidade em bases de dados é um problema que pode estar presente em diversos segmentos, inclusive nas análises do estado de nutrientes em plantas. Atualmente essas análises são baseadas em metodologias que demandam tempo e reagentes. A espectroscopia do infravermelho próximo (NIR – NearInfrared) e médio (MIR – MiddleInfrared) têm se mostrado uma alternativa mais rápida e limpa em relação a quantificação simultânea de compostos. Os dados obtidos por esses equipamentos apresentam alta dimensão. A leitura ocorre em comprimentos de onda gerando centenas atributos para o NIR e milhares para o MIR. Uma das dificuldades está em identificar quais atributos são mais relevantes para análise dos nutrientes. Este trabalho teve como objetivo verificar o ganho de correlação obtido com o emprego de redução de dimensionalidade em dados obtidos por espectroscopia NIR e MIR, para estimativa de teores de 11 nutrientes em grãos e folhas de soja, sendo eles: Nitrogênio (N), Fósforo (P), Potássio (K), Cálcio (Ca), Magnésio (Mg), Enxofre (S), Cobre (Cu), Manganês (Mn), Ferro (Fe), Zinco (Zn) e Boro (B). Para isto, 231 amostras de folhas de soja e 285 de grãos de soja foram utilizadas para geração de modelos de regressão, sendo os espectros obtidos através dos espectrofotômetros NIR e MIR. Os modelos de regressão foram gerados pelos algoritmos de aprendizado de máquina SMOReg que implementa a máquina de vetor de suporte para regressão, o algoritmo baseado em árvores de decisão com funções de regressão M5Rules e o algoritmo LinearRegression. Os resultados foram avaliados através do coeficiente de correlação (r) e o erro quadrático (RRSE). A estimativa de nutrientes para folhas foi satisfatória tanto para espectroscopia NIR e MIR, onde correlações acima de 0,80 foram obtidas para os nutrientes P, K, Mg, S, Mn, Cu, Fe e Zn. Não houve correlações para B e Ca em folhas de soja. A estimativa de teores de nutrientes foi também satisfatória para grãos de soja, mas apenas em dados de espectroscopia NIR, onde correlações acima de 0,7 foram obtidas para N, P, K, Ca e S. O uso da redução de dimensionalidade proporcionou os altos valores para correlação de P, K e S em folhas de soja, fazendo uso do algoritmo LinearRegression. Para os grãos de soja, a redução de dimensionalidade foi imprescindível na obtenção de correlações satisfatórias, exceto para N, sempre utilizando o algoritmo LinearRegression. Quando a redução da dimensionalidade não foi usada, os resultados satisfatórios foram obtidos pelo algoritmo SMOREg a partir de dados foliares para os nutrientes N, Mg, Cu, Mn, Fe e Zn. A utilização da redução de dimensionalidade junto ao algoritmo LinearRegression auxiliou na obtenção de melhores correlações para três nutrientes em folhas e para os índices satisfatórios de grãos. Os resultados observados demonstram uma maior eficiência no uso do NIR para análises foliares do que para análises de grãos. As técnicas computacionais SMOReg e LinearRegression obtiveram os melhores resultados, sendo a SMOReg indicada para grandes quantidades de atributos e LinearRegression para quantidades menores de atributos. / The high dimensionality in databases is a problem that can occur in several fields, including the plants nutrients state analysis. These analyses are currently based on methodologies that spend time and reagents. (NIR-NearInfrared) and (MIR-MiddleInfrared) spectroscopy have been shown to be a faster and clean alternative to simultaneous quantification of compounds. Since reading occurs at wavelengths generating hundreds attributes for the NIR and thousands to the MIR the data obtained by such equipment have a high dimensionality. One of the difficulties is to identify which attributes are more relevant for the nutrient analysis. This work aimed to verify the correlation gain obtained with the use of dimensionality reduction techniques with data obtained by NIR and MIR spectroscopy. The goal is to estimated levels of 11 nutrients in grains and leaves of soybean: Nitrogen (N), Phosphorus (P), Potassium (K), Calcium (Ca), Magnesium (Mg), Sulfur (S), Copper (Cu), Manganese (Mn), Iron (Fe), Zinc (Zn) and Boron (B). For that, 231 soybean leaves and 285 soybeans samples were analysed by spectroscopy in the mid-infrared and nearinfrared region. The regression models were generated by machine learning algorithms: SMOReg which implements the support vector machine for regression; M5Rules that is based on decision trees with regression functions; and LinearRegression algorithm for linear regression. The results were evaluated by correlation coefficient (r) and the quadratic error (RRSE). Estimating leaf nutrients was satisfactory for both NIR and MIR spectroscopy, where correlations of 0.80 above were obtained for P, K, Mg, S, Mn, Cu, Fe and Zn. There were no correlations for B and Ca in soybean leaves. Estimating nutrient was also satisfactory for soybeans, but only in NIR spectroscopy data, where correlations above 0.7 were obtained for N, P, K, Ca, and S. Using dimensionality reduction techniques provided the high values for correlation of P, K, and S in soybean leaves, making use of the LinearRegression algorithm. For soybeans, the dimensionality reduction was essential in obtaining satisfactory correlations, except for N, always using the LinearRegression algorithm. When reducing the dimensionality was not used, satisfactory results were obtained by the SMOREg algorithm from foliar data to N, Mg, Cu, Mn, Fe, and Zn. Reducing dimensionality associated to the use of LinearRegression algorithm resulted in better correlations for three nutrients in leaves and satisfactory rates of grain. The observed results demonstrate a greater efficiency in the use of the NIR for foliar analysis than for grain analysis. SMOReg computational techniques and LinearRegression algorithm presented the best results, being the SMOReg indicated for large quantities of attributes and Linear- Regression for smaller quantities Refletância espectral Mineração de dados Seleção de variáveis Modelos de regressão Spectral reflectance Data mining Selection of variables Regression Models

Search results