Spelling suggestions: "subject:"selection off variables"" "subject:"selection oof variables""
1 |
Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate toolsBurgel, Evandro January 2018 (has links)
A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon.
|
2 |
Réduction de dimension via Sliced Inverse Regression : Idées et nouvelles propositions / Dimension reductio via Sliced Inverse Regression : ideas and extensionsChiancone, Alessandro 28 October 2016 (has links)
Cette thèse propose trois extensions de la Régression linéaire par tranches (Sliced Inverse Regression, SIR), notamment Collaborative SIR, Student SIR et Knockoff SIR.Une des faiblesses de la méthode SIR est l’impossibilité de vérifier si la Linearity Design Condition (LDC) est respectée. Il est établi que, si x suit une distribution elliptique, la condition est vraie ; dans le cas d’une composition de distributions elliptiques il n y a aucune garantie que la condition soit vérifiée globalement, pourtant, elle est respectée localement.On va donc proposer une extension sur la base de cette considération. Étant donné une variable explicative x, Collaborative SIR réalise d’abord un clustering. Pour chaque cluster, la méthode SIR est appliquée de manière indépendante.Le résultat de chaque composant contribue à créer la solution finale.Le deuxième papier, Student SIR, dérive de la nécessité de robustifier la méthode SIR.Vu que cette dernière repose sur l’estimation de la covariance et contient une étape APC, alors elle est sensible au bruit.Afin d’étendre la méthode SIR on a utilisé une stratégie fondée sur une formulation inverse du SIR, proposée par R.D. Cook.Finalement, Knockoff SIR est une extension de la méthode SIR pour la sélection des variables et la recherche d’une solution sparse, ayant son fondement dans le papier publié par R.F. Barber et E.J. Candès qui met l’accent sur le false discovery rate dans le cadre de la régression. L’idée sous-jacente à notre papier est de créer des copies de variables d’origine ayant certaines proprietés.On va montrer que la méthode SIR est robuste par rapport aux copies et on va proposer une stratégie pour utiliser les résultats dans la sélection des variables et pour générer des solutions sparse / This thesis proposes three extensions of Sliced Inverse Regression namely: Collaborative SIR, Student SIR and Knockoff SIR.One of the weak points of SIR is the impossibility to check if the Linearity Design Condition (LDC) holds. It is known that if X follows an elliptic distribution thecondition holds true, in case of a mixture of elliptic distributions there are no guaranties that the condition is satisfied globally, but locally holds. Starting from this consideration an extension is proposed. Given the predictor variable X, Collaborative SIR performs initially a clustering. In each cluster, SIR is applied independently. The result from each component collaborates to give the final solution.Our second contribution, Student SIR, comes from the need to robustify SIR. Since SIR is based on the estimation of the covariance, and contains a PCA step, it is indeed sensitive to noise. To extend SIR, an approach based on a inverse formulation of SIR proposed by R.D. Cook has been used.Finally Knockoff SIR is an extension of SIR to perform variable selection and give sparse solution that has its foundations in a recently published paper by R. F. Barber and E. J. Candès that focuses on the false discovery rate in the regression framework. The underlying idea of this paper is to construct copies of the original variables that have some properties. It is shown that SIR is robust to this copies and a strategy is proposed to use this result for variable selection and to generate sparse solutions.
|
3 |
Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate toolsBurgel, Evandro January 2018 (has links)
A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon.
|
4 |
Proposição de uma abordagem para classificação, projeção e controle da obsolecência de inventários apoiada em ferramentas multivariadas / Proposition of an approach for the classification, projection and control of inventory obsolescence supported by multivariate toolsBurgel, Evandro January 2018 (has links)
A obsolescência de estoques é um evento recorrente nas organizações, demandando o uso de métodos que identifiquem o inventário excessivo antes dele tornar-se obsoleto. Este artigo propõe um método para classificação, projeção e controle da obsolescência de inventários ao longo do tempo, com o objetivo de reduzir o risco de obsolescência ou deterioração futura. A abordagem proposta possui cinco passos, sendo os quatro primeiros dedicados a identificação dos fatores que contribuem para a obsolescência e/ou deterioração do Inventário, a classificação do estoque em categorias e faixas de idade através da análise discriminante, a seleção de variáveis em contexto de PLS, a modelagem de regressão para projeção da idade do inventário ao longo do tempo e a definição de diretrizes para redução do risco de obsolescência. O quinto passo do método utiliza o conceito do ciclo PDCA buscando a melhoria contínua do processo e dos resultados. Na aplicação em dois estudos de caso em indústrias de bens de consumo, o método previu adequadamente o montante do inventário por faixa de idade e o risco de obsolescência ou deterioração do inventário em um horizonte de seis meses. / Inventory obsolescence is a prominent phenomenon in organizations, requiring the use of methods that identify excessive inventory before it becomes obsolete. This paper proposes a method to classify, forecast and control the obsolescence of inventories over time in order to reduce the risk of future obsolescence or deterioration. The proposed approach has five steps, the first four of which are dedicated to identifying the factors that contribute to the obsolescence and/or deterioration of the Inventory, the classification of the inventory into categories and age ranges through discriminant analysis, the selection of variables in the context of PLS, regression modeling to forecast the age of inventory over time and the definition of guidelines for reducing the risk of obsolescence. The fifth step of the method uses the concept of the PDCA cycle seeking for the continuous improvement of process and results. In the application in two case studies in consumer goods industries, the method predicted the amount of inventory by age range and the risk of obsolescence or deterioration of the inventory over a six-month horizon.
|
5 |
Algoritimos geneticos para seleção de variaveis em metodos de calibração de segunda ordem / Genetic algorithm for selection of variables in second-order calibration methodsCarneiro, Renato Lajarim 07 October 2007 (has links)
Orientador: Ronei Jesus Poppi / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Quimica / Made available in DSpace on 2018-08-08T23:32:47Z (GMT). No. of bitstreams: 1
Carneiro_RenatoLajarim_M.pdf: 4176371 bytes, checksum: cbe2edc08ad07ea0e4607e69fc38aec5 (MD5)
Previous issue date: 2007 / Resumo: Esse trabalho teve por objetivo desenvolver um programa em MatLab baseado no Algoritmo Genético (GA) para aplicar e verificar as principais vantagens deste na seleção de variáveis para métodos de calibração de segunda ordem (BLLS-RBL, PARAFAC e N-PLS). Para esta finalidade foram utilizados três conjuntos de dados: 1. Determinação de pesticidas e um metabólito em vinho tinto por HPLC-DAD em três situações distintas. Nestas três situações foram observadas sobreposições dos interferentes sobre os compostos de interesse. Estes compostos eram os pesticidas carbaril (CBL), tiofanato metílico (TIO), simazina (SIM) e dimetoato (DMT) e o metabólito ftalimida (PTA). 2. Quantificação das vitaminas B2 (riboflavina) e B6 (piridoxina) por espectrofluorimetria de excitação/emissão em formulações infantis comerciais, sendo três leites em pó e dois suplementos alimentares. 3. Análise dos fármacos ácido ascórbico (AA) e ácido acetilsalicílico (AAS) em formulações farmacêuticas por FIA com gradiente de pH e detecção por arranjo de diodos, onde a variação de pH causa alteração na estrutura das moléculas dos fármacos mudando seus espectros na região do ultravioleta. A performance dos modelos, com e sem seleção de variáveis, foi comparada através de seus erros, expressados como a raiz quadrada da média dos quadrados dos erros de previsão (RMSEP), e os erros relativos de previsão (REP). Resultados melhores foram claramente observados quando o GA foi utilizado para a seleção de variáveis nos métodos de calibração de segunda ordem. / Abstract: The aim of this work was to develop a program in MatLab using Genetic Algorithm (GA) to apply and to verify the main advantages of variables selection for second-order calibration methods (BLLS-RBL, PARAFAC and N-PLS). For this purpose three data sets had been used: 1. Determination of pesticides and a metabolite in red wines using HPLC-DAD in three distinct situations, where overlappings of the interferentes on interest compounds are observed. These composites were the pesticides carbaryl (CBL), methyl thiophanate (TIO), simazine (SIM) and dimethoate (DMT) and the metabolite phthalimide (PTA). 2. Quantification of the B2 (riboflavine) and (pyridoxine) B6 vitamins for spectrofluorimetry of excitation-emission in commercial infantile products, being three powder milk and two supplement foods. 3. Analysis of ascorbic acid (AA) and acetylsalicylic acid (AAS) in pharmaceutical tablets by FIA with pH gradient and detection for diode array, where the variation of pH causes alterations in the structure of molecules of analites shifting its spectra in the region of the ultraviolet. The performance of the models, with and without selection of variable, was compared through its errors, expressed as the root mean square error of prediction (RMSEP), and the relative errors of prediction (REP). The best results were obtained when the GA was used for the selection of variable in second-order calibration methods. / Mestrado / Quimica Analitica / Mestre em Química
|
6 |
[en] RÉNYI ENTROPY AND CAUCHY-SCHWARTZ MUTUAL INFORMATION APPLIED TO THE MIFS-U VARIABLES SELECTION ALGORITHM: A COMPARATIVE STUDY / [pt] ENTROPIA DE RÉNYI E INFORMAÇÃO MÚTUA DE CAUCHY-SCHWARTZ APLICADAS AO ALGORITMO DE SELEÇÃO DE VARIÁVEIS MIFS-U: UM ESTUDO COMPARATIVOLEONARDO BARROSO GONCALVES 08 September 2008 (has links)
[pt] A presente dissertação aborda o algoritmo de Seleção de
Variáveis Baseada em Informação Mútua sob Distribuição de
Informação Uniforme (MIFS-U) e expõe um método alternativo
para estimação da entropia e da informação mútua, medidas
que constituem a base deste algoritmo de seleção.
Este método tem, por fundamento, a informação mútua
quadrática de Cauchy-Schwartz e a entropia quadrática de
Rényi, combinada, no caso de variáveis contínuas, ao método
de estimação de densidade Janela de Parzen. Foram
realizados experimentos com dados reais de domínio público,
sendo tal método comparado com outro, largamente utilizado,
que adota a definição de entropia de Shannon e faz uso, no
caso de variáveis contínuas, do estimador de densidade
histograma. Os resultados mostram pequenas variações entre
os dois métodos, mas que sugerem uma investigação futura
através de um classificador, tal como Redes Neurais, para
avaliar qualitativamente tais resultados à luz do objetivo
final que consiste na maior exatidão de classificação. / [en] This dissertation approaches the algorithm of Selection of
Variables under Mutual Information with Uniform Distribution
(MIFS-U) and presents an alternative method for estimate
entropy and mutual information, measures that
constitute the base of this selection algorithm. This method
has, for foundation, the Cauchy-Schwartz quadratic mutual
information and the quadratic Rényi entropy, combined, in
the case of continuous variables, with Parzen Window
density estimation. Experiments were accomplished with real
public domain data, being such method compared with other,
broadly used, that adopts the Shannon entropy definition and
makes use, in the case of continuous variables, of the
histogram density estimator The results show small
variations among the two methods, what suggests a future
investigation through a classifier, such as Neural
Networks, to evaluate this results, qualitatively, in the
light of the final objective that consists of the biggest
sort exactness.
|
7 |
Sélection de variables pour l’analyse des données semi-supervisées dans les systèmes d’Information décisionnels / Feature selection for semi-supervised data analysis in decisional information systemsHindawi, Mohammed 21 February 2013 (has links)
La sélection de variables est une tâche primordiale en fouille de données et apprentissage automatique. Il s’agit d’une problématique très bien connue par les deux communautés dans les contextes, supervisé et non-supervisé. Le contexte semi-supervisé est relativement récent et les travaux sont embryonnaires. Récemment, l’apprentissage automatique a bien été développé à partir des données partiellement labélisées. La sélection de variables est donc devenue plus importante dans le contexte semi-supervisé et plus adaptée aux applications réelles, où l’étiquetage des données est devenu plus couteux et difficile à obtenir. Dans cette thèse, nous présentons une étude centrée sur l’état de l’art du domaine de la sélection de variable en s’appuyant sur les méthodes qui opèrent en mode semi-supervisé par rapport à celles des deux contextes, supervisé et non-supervisé. Il s’agit de montrer le bon compromis entre la structure géométrique de la partie non labélisée des données et l’information supervisée de leur partie labélisée. Nous nous sommes particulièrement intéressés au «small labeled-sample problem» où l’écart est très important entre les deux parties qui constituent les données. Pour la sélection de variables dans ce contexte semi-supervisé, nous proposons deux familles d’approches en deux grandes parties. La première famille est de type «Filtre» avec une série d’algorithmes qui évaluent la pertinence d’une variable par une fonction de score. Dans notre cas, cette fonction est basée sur la théorie spectrale de graphe et l’intégration de contraintes qui peuvent être extraites à partir des données en question. La deuxième famille d’approches est de type «Embedded» où la sélection de variable est intrinsèquement liée à un modèle d’apprentissage. Pour ce faire, nous proposons des algorithmes à base de pondération de variables dans un paradigme de classification automatique sous contraintes. Deux visions sont développées à cet effet, (1) une vision globale en se basant sur la satisfaction relaxée des contraintes intégrées directement dans la fonction objective du modèle proposé ; et (2) une deuxième vision, qui est locale et basée sur le contrôle stricte de violation de ces dites contraintes. Les deux approches évaluent la pertinence des variables par des poids appris en cours de la construction du modèle de classification. En outre de cette tâche principale de sélection de variables, nous nous intéressons au traitement de la redondance. Pour traiter ce problème, nous proposons une méthode originale combinant l’information mutuelle et un algorithme de recherche d’arbre couvrant construit à partir de variables pertinentes en vue de l’optimisation de leur nombre au final. Finalement, toutes les approches développées dans le cadre de cette thèse sont étudiées en termes de leur complexité algorithmique d’une part et sont validés sur des données de très grande dimension face et des méthodes connues dans la littérature d’autre part. / Feature selection is an important task in data mining and machine learning processes. This task is well known in both supervised and unsupervised contexts. The semi-supervised feature selection is still under development and far from being mature. In general, machine learning has been well developed in order to deal with partially-labeled data. Thus, feature selection has obtained special importance in the semi-supervised context. It became more adapted with the real world applications where labeling process is costly to obtain. In this thesis, we present a literature review on semi-supervised feature selection, with regard to supervised and unsupervised contexts. The goal is to show the importance of compromising between the structure from unlabeled part of data, and the background information from their labeled part. In particular, we are interested in the so-called «small labeled-sample problem» where the difference between both data parts is very important. In order to deal with the problem of semi-supervised feature selection, we propose two groups of approaches. The first group is of «Filter» type, in which, we propose some algorithms which evaluate the relevance of features by a scoring function. In our case, this function is based on spectral-graph theory and the integration of pairwise constraints which can be extracted from the data in hand. The second group of methods is of «Embedded» type, where feature selection becomes an internal function integrated in the learning process. In order to realize embedded feature selection, we propose algorithms based on feature weighting. The proposed methods rely on constrained clustering. In this sense, we propose two visions, (1) a global vision, based on relaxed satisfaction of pairwise constraints. This is done by integrating the constraints in the objective function of the proposed clustering model; and (2) a second vision, which is local and based on strict control of constraint violation. Both approaches evaluate the relevance of features by weights which are learned during the construction of the clustering model. In addition to the main task which is feature selection, we are interested in redundancy elimination. In order to tackle this problem, we propose a novel algorithm based on combining the mutual information with maximum spanning tree-based algorithm. We construct this tree from the relevant features in order to optimize the number of these selected features at the end. Finally, all proposed methods in this thesis are analyzed and their complexities are studied. Furthermore, they are validated on high-dimensional data versus other representative methods in the literature.
|
8 |
[en] RELAPSE RISK ESTIMATION IN CHILDREN WITH ACUTE LYMPHOBLASTIC LEUKEMIA BY USING NEURAL NETWORKS / [pt] ESTIMAÇÃO DO RISCO DE RECIDIVA EM CRIANÇAS PORTADORAS DE LEUCEMIA LINFOBLÁSTICA AGUDA USANDO REDES NEURAISJOSE LEONARDO RIBEIRO MACRINI 21 December 2004 (has links)
[pt] Esta tese propõe uma metodologia, baseada em procedimentos
quantitativos, para estimação do risco de evento adverso
(recaída ou morte) em
crianças portadoras de Leucemia Linfoblástica Aguda (LLA).
A metodologia
proposta foi implementada e analisada utilizando dados de
grupo de crianças
diagnosticadas no Setor de Hematologia do Instituto de
Puericultura e Pediatria
Martagão Gesteira (IPPMG) da UFRJ e no Serviço de
Hematologia Hospital
Universitário Pedro Ernesto (HUPE) da UERJ que constituem
uma considerável
parcela dos casos de LLA na infância registrados no Rio de
Janeiro nos últimos
anos.
A estimação do risco de recaída foi realizada através de um
modelo de
Redes Neurais após uma seqüência de procedimentos de pré-
tratamento de
variáveis e de refinamentos do método no que concerne a
saída alvo da rede.
O tratamento das variáveis é fundamental uma vez que o
número reduzido
de amostras é uma característica intrínseca deste problema.
Embora a LLA seja
o câncer mais freqüente a infância, sua incidência é de
aproximadamente 1 caso
por 100 mil habitantes por ano. Os resultados encontrados
foram satisfatórios obtendo-se um percentual de
acerto de 93% (fora da amostra) para os pacientes que
recaíram quando
comparados com o método classicamente utilizado na clínica
médica para a
avaliação do risco de recidiva (método do grupo BFM).
Espera-se que os
resultados obtidos possam vir a dar subsídios às condutas
médicas em relação à
estimativa do risco de recidiva dos pacientes, portanto,
podendo vir a ser útil na
modulação da intensidade da terapêutica. / [en] In this it is proposed a methodology, based on quantitative
procedure, to
estimate the adverse event risk (relapse or death) in Acute
Lymphoblastic
Leukemia (ALL) in children. This methodology was
implemented and analyzed
in a dataset composed by children diagnosed and treated at
the hematology
service of the Instituto de Puericultura e Pediatria
Martagão Gesteira (IPPMG)
in the Federal University of Rio de Janeiro and of the
Hospital Universitário
Pedro Ernesto (HUPE) in the University of state of Rio de
Janeiro. This group
constitutes a considerable fraction of the ALL cases in
childhood registered in
the last few years in Rio de Janeiro.
The relapse risk was estimated by a Neural Networks model
after a
sequence of variable pre-treatment procedures. This
treatment has a fundamental
importance due to the small number of cases (an intrinsic
characteristic of this
problem). Although, the ALL is the most frequent cancer in
childhood, it
incidence is approximately just 1 case for 100 000
inhabitants by year.
The obtained results may be considered excellent when
compared with the
classical risk estimative method used in the medical
clinics (BFM risk). A
perceptual of successes of 93% (out-of-sample) in no-
relapse patients was
achieved. We expect that the obtained results may subsidize
medical conduct
concerning the risk of adverse event and so it could be
useful in the treatment
intensity modulation.
|
9 |
ALGORITMO CO-EVOLUTIVO PARA PARTICIONAMENTO DE DADOS E SELEÇÃO DE VARIÁVEIS EM PROBLEMA DE CALIBRAÇÃO MULTIVARIADA.Ramos, Jorcivan Silva 07 July 2015 (has links)
Made available in DSpace on 2016-08-10T10:40:28Z (GMT). No. of bitstreams: 1
Jorcivan Silva Ramos.pdf: 779202 bytes, checksum: e48a074121bf6a4260fb48b0324ff286 (MD5)
Previous issue date: 2015-07-07 / This paper presents the development of a co-evolutionary genetic algorithm for the
selection of samples from a data set and the selection of variables from the samples
selected in the context of multivariate calibration . Each sample is divided into the
calibration set for the preparation of the model and validating the calibration set of
model. The algorithm selects samples variables with the goal of building the calibration
models. The results show that the data sets selected by the proposed algorithm models
to produce better predictive ability of the models reported in the literature. / Esse trabalho apresenta o desenvolvimento de um algoritmo genético co-evolutivo
para a seleção de amostras a partir de um conjunto de dados e a seleção de variáveis
a partir das amostras selecionadas no contexto da calibração multivariada. Cada
amostra é dividida em conjunto de calibração para a confecção do modelo e conjunto
de validação do modelo de calibração. O algoritmo seleciona amostras e variáveis com
o objetivo de construir modelos de calibração. Os resultados mostram que os
conjuntos de dados selecionados pelo algoritmo proposto produzem modelos com
melhor capacidade preditiva do que os modelos relatados na literatura.
|
10 |
Redução da dimensionalidade para estimativa de teores de nutrientes em folhas e grãos de soja com espectroscopia no infravermelhoFerreira, Pablo Henrique 27 April 2017 (has links)
Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T19:05:51Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Pablo Henrique Ferreira.pdf: 12205608 bytes, checksum: a2f75e7cec618577bfd7fddda3302b17 (MD5) / Made available in DSpace on 2017-11-30T19:05:51Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Pablo Henrique Ferreira.pdf: 12205608 bytes, checksum: a2f75e7cec618577bfd7fddda3302b17 (MD5)
Previous issue date: 2017-04-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A alta dimensionalidade em bases de dados é um problema que pode estar presente
em diversos segmentos, inclusive nas análises do estado de nutrientes em plantas.
Atualmente essas análises são baseadas em metodologias que demandam tempo e reagentes.
A espectroscopia do infravermelho próximo (NIR – NearInfrared) e médio (MIR –
MiddleInfrared) têm se mostrado uma alternativa mais rápida e limpa em relação a quantificação
simultânea de compostos. Os dados obtidos por esses equipamentos apresentam
alta dimensão. A leitura ocorre em comprimentos de onda gerando centenas atributos para
o NIR e milhares para o MIR. Uma das dificuldades está em identificar quais atributos são
mais relevantes para análise dos nutrientes. Este trabalho teve como objetivo verificar o
ganho de correlação obtido com o emprego de redução de dimensionalidade em dados
obtidos por espectroscopia NIR e MIR, para estimativa de teores de 11 nutrientes em
grãos e folhas de soja, sendo eles: Nitrogênio (N), Fósforo (P), Potássio (K), Cálcio (Ca),
Magnésio (Mg), Enxofre (S), Cobre (Cu), Manganês (Mn), Ferro (Fe), Zinco (Zn) e Boro
(B). Para isto, 231 amostras de folhas de soja e 285 de grãos de soja foram utilizadas para
geração de modelos de regressão, sendo os espectros obtidos através dos espectrofotômetros
NIR e MIR. Os modelos de regressão foram gerados pelos algoritmos de aprendizado
de máquina SMOReg que implementa a máquina de vetor de suporte para regressão, o algoritmo
baseado em árvores de decisão com funções de regressão M5Rules e o algoritmo
LinearRegression. Os resultados foram avaliados através do coeficiente de correlação (r)
e o erro quadrático (RRSE). A estimativa de nutrientes para folhas foi satisfatória tanto
para espectroscopia NIR e MIR, onde correlações acima de 0,80 foram obtidas para os
nutrientes P, K, Mg, S, Mn, Cu, Fe e Zn. Não houve correlações para B e Ca em folhas de
soja. A estimativa de teores de nutrientes foi também satisfatória para grãos de soja, mas
apenas em dados de espectroscopia NIR, onde correlações acima de 0,7 foram obtidas
para N, P, K, Ca e S. O uso da redução de dimensionalidade proporcionou os altos valores
para correlação de P, K e S em folhas de soja, fazendo uso do algoritmo LinearRegression.
Para os grãos de soja, a redução de dimensionalidade foi imprescindível na obtenção
de correlações satisfatórias, exceto para N, sempre utilizando o algoritmo LinearRegression.
Quando a redução da dimensionalidade não foi usada, os resultados satisfatórios
foram obtidos pelo algoritmo SMOREg a partir de dados foliares para os nutrientes N,
Mg, Cu, Mn, Fe e Zn. A utilização da redução de dimensionalidade junto ao algoritmo
LinearRegression auxiliou na obtenção de melhores correlações para três nutrientes em
folhas e para os índices satisfatórios de grãos. Os resultados observados demonstram uma
maior eficiência no uso do NIR para análises foliares do que para análises de grãos. As
técnicas computacionais SMOReg e LinearRegression obtiveram os melhores resultados,
sendo a SMOReg indicada para grandes quantidades de atributos e LinearRegression para
quantidades menores de atributos. / The high dimensionality in databases is a problem that can occur in several fields,
including the plants nutrients state analysis. These analyses are currently based on methodologies
that spend time and reagents. (NIR-NearInfrared) and (MIR-MiddleInfrared)
spectroscopy have been shown to be a faster and clean alternative to simultaneous quantification
of compounds. Since reading occurs at wavelengths generating hundreds attributes
for the NIR and thousands to the MIR the data obtained by such equipment have a high
dimensionality. One of the difficulties is to identify which attributes are more relevant for
the nutrient analysis. This work aimed to verify the correlation gain obtained with the use
of dimensionality reduction techniques with data obtained by NIR and MIR spectroscopy.
The goal is to estimated levels of 11 nutrients in grains and leaves of soybean: Nitrogen
(N), Phosphorus (P), Potassium (K), Calcium (Ca), Magnesium (Mg), Sulfur (S), Copper
(Cu), Manganese (Mn), Iron (Fe), Zinc (Zn) and Boron (B). For that, 231 soybean leaves
and 285 soybeans samples were analysed by spectroscopy in the mid-infrared and nearinfrared
region. The regression models were generated by machine learning algorithms:
SMOReg which implements the support vector machine for regression; M5Rules that is
based on decision trees with regression functions; and LinearRegression algorithm for linear
regression. The results were evaluated by correlation coefficient (r) and the quadratic
error (RRSE). Estimating leaf nutrients was satisfactory for both NIR and MIR spectroscopy,
where correlations of 0.80 above were obtained for P, K, Mg, S, Mn, Cu, Fe and Zn.
There were no correlations for B and Ca in soybean leaves. Estimating nutrient was also
satisfactory for soybeans, but only in NIR spectroscopy data, where correlations above
0.7 were obtained for N, P, K, Ca, and S. Using dimensionality reduction techniques provided
the high values for correlation of P, K, and S in soybean leaves, making use of the
LinearRegression algorithm. For soybeans, the dimensionality reduction was essential in
obtaining satisfactory correlations, except for N, always using the LinearRegression algorithm.
When reducing the dimensionality was not used, satisfactory results were obtained
by the SMOREg algorithm from foliar data to N, Mg, Cu, Mn, Fe, and Zn. Reducing
dimensionality associated to the use of LinearRegression algorithm resulted in better correlations
for three nutrients in leaves and satisfactory rates of grain. The observed results
demonstrate a greater efficiency in the use of the NIR for foliar analysis than for grain
analysis. SMOReg computational techniques and LinearRegression algorithm presented
the best results, being the SMOReg indicated for large quantities of attributes and Linear-
Regression for smaller quantities
|
Page generated in 0.1151 seconds