Spelling suggestions: "subject:"ariable byelection"" "subject:"ariable dielection""
171 |
Sistemática para seleção de variáveis e determinação da condição ótima de operação em processos contínuos multivariados em múltiplos estágiosLoreto, Éverton Miguel da Silva January 2014 (has links)
Esta tese apresenta uma sistemática para seleção de variáveis de processo e determinação da condição ótima de operação em processos contínuos multivariados e em múltiplos estágios. O método proposto é composto por seis etapas. Um pré-tratamento nos dados é realizado após a identificação das variáveis de processo e do estabelecimento dos estágios de produção, onde são descartadas observações com valores espúrios e dados remanescentes são padronizados. Em seguida, cada estágio é modelado através de uma regressão Partial Least Squares (PLS) que associa a variável dependente daquele estágio às variáveis independentes de todos os estágios anteriores. A posterior seleção de variáveis independentes apoia-se nos coeficientes da regressão PLS; a cada interação, a variável com menor coeficiente de regressão é removida e um novo modelo PLS é gerado. O erro de predição é então avaliado e uma nova eliminação é promovida até que o número de variáveis remanescentes seja igual ao número de variáveis latentes (condição limite para geração de novos modelos PLS). O conjunto com menor erro determina as variáveis de processo mais relevantes para cada modelo. O conjunto de modelos PLS constituído pelas variáveis selecionadas é então integrado a uma programação quadrática para definição das condições de operação que minimizem o desvio entre os valores preditos e nominais das variáveis de resposta. A sistemática proposta foi validada através de dois exemplos numéricos. O primeiro utilizou dados de uma empresa do setor avícola, enquanto que o segundo apoiou-se em dados simulados. / This dissertation proposes a novel approach for process variable selection and determination of the optimal operating condition in multiple stages, multivariate continuous processes. The proposed framework relies on six steps. First, a pre-treatment of the data is carried out followed by the definition of production stages and removal of outliers. Next, each stage is modeled by a Partial Least Squares regression (PLS) which associates the dependent variable of each stage to all independent variables from previous stages. Independent variables are then iteratively selected based on PLS regression coefficients as follows: the variable with the lowest regression coefficient is removed and a new PLS model is generated. The prediction error is then evaluated and a new elimination is promoted until the number of remaining variables is equal to the number of latent variables (boundary condition for the generation of new PLS models). The subset of independent variables yielding the lowest predictive in each PLS model error is chosen. The set of PLS models consisting of the selected variables is then integrated to a quadratic programming aimed at defining the optimal operating conditions that minimize the deviation between the predicted and nominal values of response variables. The proposed approach was validated through two numerical examples. The first was applied to data from a poultry company, while the second used simulated data.
|
172 |
Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos / Multivariate approaches to variable selection in order to characterize medicinesYamashita, Gabrielli Harumi January 2015 (has links)
A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis. / The investigation of the authenticity of drugs has relied on the profile analysis by infrared spectroscopy (ATR-FTIR). However, such analysis typically yields a large number of correlated and noisy variables (wavelengths), which require the application of techniques for selecting the most informative and relevant variables to improve model ability. This thesis test an approach to variable selection aimed at clustering and classifying drug samples. For that matter, it derives three variable importance indices based on Principal Component Analysis (PCA) components that guide an iterative process of variable elimination; clustering performance based on the reduced sets is assessed via Silhouette Index. Next, we combine the Genetic Algorithm (GA) with the k nearest neighbor classification technique (kNN) to select the subset of variables yielding the highest average accuracy for classifying samples into authentic or counterfeit categories. Finally, we split the ATR-FTIR data into intervals to select the most relevant spectroscopic regions for sample classification via kNN; we then apply GA to refine the ranges previously retained. The implementation of the proposed variable selection methods led to more accurate clustering and classification procedures based on a small subset of variables.
|
173 |
Seleção de variáveis no desenvolvimento, classificação e predição de produtos / Selection of variables for the development, classification, and prediction of productsRossini, Karina January 2011 (has links)
O presente trabalho apresenta proposições para seleção de variáveis em avaliações sensoriais descritivas e de espectro infravermelho que contribuam com a indústria de alimentos e química através da utilização de métodos de análise multivariada. Desta forma, os objetivos desta tese são: (i) Estudar as principais técnicas de análise multivariada de dados, como são comumente organizadas e como podem contribuir no processo de seleção de variáveis; (ii) Identificar e estruturar técnicas de análise multivariada de dados de forma a construir um método que reduza o número de variáveis necessárias para fins de caracterização, classificação e predição dos produtos; (iii) Reduzir a lista de variáveis/atributos, selecionando aqueles relevantes e não redundantes, reduzindo o tempo de execução e a fadiga imposta aos membros de um painel em avaliações sensoriais; (iv) Validar o método proposto utilizando dados reais; e (v) Comparar diferentes abordagens de análise sensorial voltadas ao desenvolvimento de novos produtos. Os métodos desenvolvidos foram avaliados através da aplicação de estudos de caso, em exemplos com dados reais. Os métodos sugeridos variam com as características dos dados analisados, dados altamente multicolineares ou não e, com e sem variável dependente (variável de resposta). Os métodos apresentam bom desempenho, conduzindo a uma redução significativa no número de variáveis e apresentando índices de adequação de ajuste dos modelos ou acurácia satisfatórios quando comparados aos obtidos mediante retenção da totalidade das variáveis ou comparados a outros métodos dispostos na literatura. Conclui-se que os métodos propostos são adequados para a seleção de variáveis sensoriais e de espectro infravermelho. / This dissertation presents propositions for variable selection in data from descriptive sensory evaluations and near-infrared (NIR) spectrum analyses, based on multivariate analysis methods. There are five objectives here: (i) review the main multivariate analysis techniques, their relationships and potential use in variable selection procedures; (ii) propose a variable selection method based on the techniques in (i) that allows product prediction, classification, and description; (iii) reduce the list of variables/attributes to be analyzed in sensory panels identifying those relevant and non-redundant, such that the time to collect panel data and the fatigue imposed on panelists is minimized; (iv) validate methodological propositions using real life data; and (v) compare different sensory analysis approaches used in new product development. Proposed methods were evaluated through case studies, and vary according to characteristics in the datasets analyzed (data with different degrees of multicollinearity, presenting or not dependent variables). All methods presented good performance leading to significant reduction in the number of variables in the datasets, and leading to models with better adequacy of fit. We conclude that the methods are suitable for datasets from descriptive sensory evaluations and NIR analyses.
|
174 |
Técnicas de análise multivariável aplicadas ao desenvolvimento de analisadores virtuaisFacchin, Samuel January 2005 (has links)
A construção de um analisador virtual é sustentada basicamente por três pilares: o modelo, as variáveis que integram o modelo e a estratégia de correção/atualização do modelo. Os modelos matemáticos são classificados quanto ao nível de conhecimento do processo contido nele, indo de modelos complexos baseados em relações fundamentais e leis físico-químicas, denominados white-box, até modelos obtidos através de técnicas de análise multivariável, como técnicas de regressão multiváriavel e redes neurais, referenciados como black box. O presente trabalho objetiva uma análise de dois dos pilares: os modelos, focando em modelos obtidos através das técnicas de redução de dimensionalidade do tipo PLS, e metodologias de seleção de variáveis para a construção dessa classe de modelos. Primeiramente é realizada uma revisão das principais variantes lineares e não lineares da metodologia PLS, compreendendo desde o seu desenvolvimento até a sua combinação com redes neurais. Posteriormente são apresentadas algumas das técnicas popularmente utilizadas para a seleção de variáveis em modelos do tipo black-box, técnicas de validação cruzada e técnicas de seleção de dados para calibração e validação de modelos. São propostas novas abordagens para os procedimentos de seleção de variáveis, originadas da combinação das técnicas de seleção de dados com duas metodologias de seleção de variáveis. Os resultados produzidos por essas novas abordagens são comparados com o método clássico através de casos lineares e não lineares. A viabilidade das técnicas analisadas e desenvolvidas é verificada através da aplicação das mesmas no desenvolvimento de um analisador virtual para uma coluna de destilação simulada através do simulador dinâmico Aspen Dynamics®. Por fim são apresentadas as etapas e desafios da implementação de um analisador virtual baseados em técnicas PLS em uma Torre Depropanizadora de uma central de matérias primas de um pólo petroquímico. / The construction of a virtual analyzer is sustained basically by three pillars: the model, the variables that integrate the model and the updating strategy of the model. The mathematical models are classified with relationship at the level of the process knowledge within it, going from complex models, based on fundamental relationships and physical-chemistries laws, called white-box, until models obtained through multivariable analysis techniques, as multiple linear regression and neural networks, also called as black box. The focus of the present work is the analysis of two of the pillars: the models, specially the ones obtained by dimension reduction techniques, like PLS, and methodologies used in the development of this class of models. Initially, a revision of the main linear and non linear variants of the PLS methodology is done, embracing since its development to its combination with neural networks. Later on, some popularly variables selection techniques for black-box models are explained, as well as some cross validation techniques and strategies for data selection for calibration and validation of models. New approaches for variables selection procedures are proposed, originated by the combination of data selection strategies and two variables selection techniques. The results produced by those new approaches are compared with the classic method through linear and non linear case studies. The viability of the analyzed and developed techniques is verified through the application of the same ones in the development of a virtual analyzer for a distillation column, simulated by the dynamic simulator Aspen Dynamics®. The steps and challenges faced in the implementation of a virtual analyzer based on PLS technical for a Depropanizer Unit are finally presented.
|
175 |
Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos / Multivariate approaches to variable selection in order to characterize medicinesYamashita, Gabrielli Harumi January 2015 (has links)
A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis. / The investigation of the authenticity of drugs has relied on the profile analysis by infrared spectroscopy (ATR-FTIR). However, such analysis typically yields a large number of correlated and noisy variables (wavelengths), which require the application of techniques for selecting the most informative and relevant variables to improve model ability. This thesis test an approach to variable selection aimed at clustering and classifying drug samples. For that matter, it derives three variable importance indices based on Principal Component Analysis (PCA) components that guide an iterative process of variable elimination; clustering performance based on the reduced sets is assessed via Silhouette Index. Next, we combine the Genetic Algorithm (GA) with the k nearest neighbor classification technique (kNN) to select the subset of variables yielding the highest average accuracy for classifying samples into authentic or counterfeit categories. Finally, we split the ATR-FTIR data into intervals to select the most relevant spectroscopic regions for sample classification via kNN; we then apply GA to refine the ranges previously retained. The implementation of the proposed variable selection methods led to more accurate clustering and classification procedures based on a small subset of variables.
|
176 |
Sistemática para seleção de variáveis e determinação da condição ótima de operação em processos contínuos multivariados em múltiplos estágiosLoreto, Éverton Miguel da Silva January 2014 (has links)
Esta tese apresenta uma sistemática para seleção de variáveis de processo e determinação da condição ótima de operação em processos contínuos multivariados e em múltiplos estágios. O método proposto é composto por seis etapas. Um pré-tratamento nos dados é realizado após a identificação das variáveis de processo e do estabelecimento dos estágios de produção, onde são descartadas observações com valores espúrios e dados remanescentes são padronizados. Em seguida, cada estágio é modelado através de uma regressão Partial Least Squares (PLS) que associa a variável dependente daquele estágio às variáveis independentes de todos os estágios anteriores. A posterior seleção de variáveis independentes apoia-se nos coeficientes da regressão PLS; a cada interação, a variável com menor coeficiente de regressão é removida e um novo modelo PLS é gerado. O erro de predição é então avaliado e uma nova eliminação é promovida até que o número de variáveis remanescentes seja igual ao número de variáveis latentes (condição limite para geração de novos modelos PLS). O conjunto com menor erro determina as variáveis de processo mais relevantes para cada modelo. O conjunto de modelos PLS constituído pelas variáveis selecionadas é então integrado a uma programação quadrática para definição das condições de operação que minimizem o desvio entre os valores preditos e nominais das variáveis de resposta. A sistemática proposta foi validada através de dois exemplos numéricos. O primeiro utilizou dados de uma empresa do setor avícola, enquanto que o segundo apoiou-se em dados simulados. / This dissertation proposes a novel approach for process variable selection and determination of the optimal operating condition in multiple stages, multivariate continuous processes. The proposed framework relies on six steps. First, a pre-treatment of the data is carried out followed by the definition of production stages and removal of outliers. Next, each stage is modeled by a Partial Least Squares regression (PLS) which associates the dependent variable of each stage to all independent variables from previous stages. Independent variables are then iteratively selected based on PLS regression coefficients as follows: the variable with the lowest regression coefficient is removed and a new PLS model is generated. The prediction error is then evaluated and a new elimination is promoted until the number of remaining variables is equal to the number of latent variables (boundary condition for the generation of new PLS models). The subset of independent variables yielding the lowest predictive in each PLS model error is chosen. The set of PLS models consisting of the selected variables is then integrated to a quadratic programming aimed at defining the optimal operating conditions that minimize the deviation between the predicted and nominal values of response variables. The proposed approach was validated through two numerical examples. The first was applied to data from a poultry company, while the second used simulated data.
|
177 |
Dados hiperespectrais para predição do teor foliar de nitrogênio em cana-de-açúcar / Hyperspectral data to predict sugarcane leaf nitrogen contentJuliano Araújo Martins 17 February 2016 (has links)
Uma das alternativas bastante abordada na literatura para a melhoria do gerenciamento da adubação nitrogenada nas culturas é o sensoriamento remoto, tendo destaque a utilização de sensores espectrais na região do visível e infravermelho. Neste trabalho, buscou-se estabelecer as relações existentes entre variações no teor foliar de nitrogênio (TFN) e a resposta espectral da folha de cana-de-açúcar, utilizando um sensor hiperespectral, com avaliações em três áreas experimentais do estado de São Paulo, com diferentes solos e variedades. Cada experimento foi alocado em blocos ao acaso, com parcelas subdividas e quatro repetições. Foram aplicadas doses de 0, 50, 100 e 150 kg de nitrogênio por hectare. A análise espectral foi realizada na folha \"+1\" em laboratório, sendo coletadas 10 folhas por subparcela, estas foram posteriormente submetidas a análise química para o TFN. Observou-se que existe correlação significativa entre o TFN e as variações na resposta espectral da cana-de-açúcar, sendo que a região do verde e de transição entre o vermelho e o infravermelho próximo (\"red-edge\") foram as mais consistentes e estáveis entre as áreas em estudo e safras avaliadas. A análise de componentes principais permitiu reforçar estes resultados, uma vez que as pontuações (\"scores\") dos componentes que apresentaram correlações significativas com o TFN, tiveram maiores pesos (\"loadings\") nas regiões espectrais citadas anteriormente. A partir das curvas espectrais foram também realizados os cálculos dos índices de vegetação já descritos em literatura, e estes submetidos a análise de regressão simples para predição do TFN, sendo os modelos calibrados com dados da safra 2012/13 e validados com os dados da safra 2013/14. Índices espectrais calculados com a combinação dos comprimentos de onda do verde e/ou \"red-edge\" com comprimentos de onda do infravermelho próximo tiveram bom desempenho na fase de validação, sendo que os cinco mais estáveis foram os índices BNi (500, 705 e 750 nm), GNDVI (550 e 780 nm), NDRE (790 e 720 nm), RI-1db (735 e 720 nm) e VOGa (740 e 720 nm). A variedade SP 81 3250 foi cultivada nas três áreas experimentais, o que permitiu a comparação do potencial de modelos calibrados por área, com um modelo generalista para uma mesma variedade cultivada em diferentes condições edáficas. Observou-se que embora o modelo generalista apresente parâmetros estatísticos significativos, existe redução expressiva da sensibilidade de predição quando comparado aos modelos calibrados por área experimental. Empregou-se também nesta pesquisa a análise de regressão linear múltipla por \"stepwise\" (RLMS) que gerou modelos com boa precisão na estimativa do TFN, mesmo quando calibrados por área experimental, independentes da variedade, utilizando de 5 a 6 comprimentos de onda. Concluímos com a presente pesquisa que comprimentos de onda específicos estão associados a variação do TFN em cana-de-açúcar, e estes são reportados na região do verde (próximos a 550 nm) e na região de transição entre os comprimentos de onda do vermelho e infravermelho próximo (680 a 720 nm). Apesar da baixa correlação entre a região do infravermelho próximo com o TFN, índices de vegetação calculados a partir destes comprimentos de onda ou a inserção destes na geração de modelos lineares foram importantes para melhorar a precisão da predição. / An alternative method, quite cited in literature to improve nitrogen fertilization management on crops is the remote sensing, highlighted with the use of spectral sensors in the visible and infrared region. In this work, we sought to establish the relationship between variations in leaf nitrogen content and the spectral response of sugarcane leaf using a hyperspectral sensor, with assessments in three experimental areas of São Paulo state, Brazil, with evaluations in different soils and varieties. Each experimental area was allocated in randomized block, with splitted plots and four repetition, hence, receiving doses of 0, 50, 100 and 150 kg of nitrogen per hectare. Spectral analysis was performed on the \"+1\" leaf in laboratory; we collected 10 leaves per subplots; which were subsequently subjected to chemical analysis to leaf nitrogen content determination. We observed a significant correlation between leaf nitrogen content and variations in sugarcane spectral response, we noticed that the region of the green light and red-edge were the most consistent and stable among the studied area and the crop seasons evaluated. The principal component analysis allowed to reinforce these results, since that the scores for principal components showed significant correlations with the leaf nitrogen content, had higher loadings values for the previous spectral regions mentioned. From the spectral curves were also performed calculations of spectral indices previously described in literature, being these submitted to simple regression analysis to direct prediction of leaf nitrogen content. The models were calibrated with 2012/13 and validated with 2013/14 crop season data. Spectral indices that were calculated with green and/or red-edge, combined with near-infrared wavelengths performed well in the validation phase, and the five most stable were the BNi (500, 705 and 750 nm), GNDVI (550 and 780 nm), NDRE (790 and 720 nm), IR-1dB (735 and 720 nm) and VOGa (740 and 720 nm). The variety SP 81 3250 was cultured in the three experimental areas, allowing to compare the performance of a specific site model with a general model for the same variety growing on different soil conditions. Although the general model presents meaningful statistical parameters, there is a significant reduction in sensitivity to predict leaf nitrogen content of sugarcane when compared with specific site calibrated models. We also used on this research the stepwise multiple linear regression (SMLR) that generated models with good precision to estimate the leaf nitrogen content, even when models are calibrated for an experimental area, regardless of spectral differences between varieties, using 5 to 6 wavelengths. This study shows that specific wavelengths are associated with variation in leaf nitrogen content of sugarcane, and these are reported in the region of green (near to 550 nm) and red-edge (680 to 720nm). Despite the low correlation observed between the infrared wavelengths to the leaf nitrogen content of sugarcane, vegetation indices calculated from these wavelengths, or its insertion on linear models generation were important to improve prediction accuracy.
|
178 |
Aplicação de espectroscopia no infravermelho próximo (NIR) e médio (MIR) associada a métodos quimiométricos, para avaliação de parâmetros físico-químicos em frações de petróleoRocha, Julia Tristão do Carmo 25 May 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-04T18:03:22Z
No. of bitstreams: 1
juliatristaodocarmorocha.pdf: 2765026 bytes, checksum: 7a9e6fcc24e70e565d8b382aeff776df (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-05-17T13:33:05Z (GMT) No. of bitstreams: 1
juliatristaodocarmorocha.pdf: 2765026 bytes, checksum: 7a9e6fcc24e70e565d8b382aeff776df (MD5) / Made available in DSpace on 2017-05-17T13:33:05Z (GMT). No. of bitstreams: 1
juliatristaodocarmorocha.pdf: 2765026 bytes, checksum: 7a9e6fcc24e70e565d8b382aeff776df (MD5)
Previous issue date: 2016-05-25 / Os produtos petrolíferos em geral são altamente complexos e é exigido um esforço considerável para a caracterização de suas propriedades químicas e físicas. Às vezes tem-se urgência no resultado de determinadas análises e isto fica prejudicado pela forma como as análises são feitas. Assim, a quimiometria, associada à espectroscopia molecular (NIR e MIR em particular) vem gerando métodos alternativos para a caracterização e avaliação de propriedades físicas e químicas de petróleos e seus derivados com elevada exatidão, confiabilidade e rapidez. Para melhorar o desempenho previsor têm sido utilizados procedimentos apropriados para a seleção das regiões espectrais associadas com a propriedade de interesse. Desta forma, face às suas aplicabilidades, foi proposto neste trabalho a utilização das ferramentas quimiométricas com seleção de variáveis (método dos mínimos quadrados parciais por intervalos, iPLS, e por sinergismo de intervalos, siPLS; método de eliminação de variáveis não informativas por mínimos quadrados parciais, UVE; e algoritmo genético, GA), associada ao MIR e ao NIR, para a determinação das seguintes propriedades em frações de petróleo: Grau API, Índice de cetano, Índice de refração (a 20°C), Teor de Enxofre (%m/m), Ponto de fuligem (mm), Ponto de anilina (°C), Ponto de congelamento (°C), Ponto de entupimento (°C), Ponto de névoa (°C) e Ponto de fluidez (°C), avaliando, assim, a performance dos modelos obtidos, bem como as técnicas utilizadas na seleção de variáveis. Essa avaliação se deu pela determinação e análise do coeficiente de determinação (R2), de diversos erros calculados para os conjuntos de calibração e previsão. Os modelos foram, ainda, submetidos a testes estatísticos (α=0,05), e tiveram suas figuras de mérito calculadas. Os melhores modelos para a previsão do Grau API e do ponto de névoa foram criados aplicando-se iPLS a dados de MIR, enquanto que para a previsão do teor de enxofre e pontos de refração, de fuligem e de anilina foram criados aplicando-se siPLS também ao MIR. Já para a previsão do índice de cetano e do teor de enxofre e do ponto de entupimento, os melhores modelos foram criados aplicando-se iPLS a dados de NIR. Nesse contexto, o melhor modelo para a predição do ponto de fluidez foi o GA. Finalmente, para a previsão do ponto de congelamento, nenhum método de seleção de variáveis melhorou a capacidade preditiva, quando comparados ao modelo criado aplicando-se PLS a dados de MIR. Dessa forma, conclui-se que houve um melhor desempenho dos modelos criados a partir de dados de MIR. Quanto aos métodos de seleção de variáveis, iPLS e siPLS obtiveram o melhor desempenho. / Petroleum products are, in general, highly complex and a considerable effort is needed to characterize their chemical and physical properties, though sometimes the results of several analyses are urgent and this is compromised by the way the analyses are carried out. Thus, chemometrics associated with molecular spectroscopy (particularly NIR and MIR) has good potential as a tool in analytical chemistry, creating alternative methods to characterize and evaluate physical and chemical properties of petroleum and its derivates with high precision, reliability and rapidity. To improve the predictor performance, appropriate procedures are being used to select spectral regions associated with the property of interest. In face of their applicabilities, this work proposes the use of chemometric tools, with variable selection (Interval Partial Least Square, iPLS and Sinergism Interval Partial Least Square, siPLS; Elimination of Uninformative Variables, UVE and Genetic Algorithm, GA), associated with mid infrared (MIR) and near infrared (NIR) spectroscopies to determine the following properties in petroleum fractions: API gravity, Cetane index, Refractive index (at 20°C), Sulfur content (%m/m), Smoke point (mm), Aniline point (°C), Freezing point (°C), Plugging point (°C), Cloud point (°C) and Pour point (°C), enabling the evaluation of performance of the obtained models, as well as the techniques used in variable selection. This evaluation was performed by determination and analyses of the following requirements: coefficient of determination (R2), several calculated errors for the calibration and prediction set. The models were also subjected to statistical tests (α=0,05), and the figures of merit were calculated. The best models to predict API gravity and cloud point were created by applying iPLS to the MIR data, whereas for prediction of sulfur content, refractive index, and smoke and aniline points the models were created by applying iPLS to NIR data. In this context, the best model to predict the pour point was the GA. Finally, to predict freezing point, none of the variable selection methods improved the predictive capability when comparing to the model created using only PLS in MIR data. Thus, the conclusion is that a better performance was obtained for the models created from MIR data. Regarding efficiency of variable selection methods, the iPLS and siPLS methods resulted in a best performance.
|
179 |
Modelos baseados em técnicas de mineração de dados para suporte à certificação racial de ovinos / Models based on data mining techniques to support breed certification testing in brazilian sheepVieira, Fábio Danilo, 1977- 26 August 2018 (has links)
Orientadores: Stanley Robson de Medeiros Oliveira, Samuel Rezende Paiva / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-26T01:06:59Z (GMT). No. of bitstreams: 1
Vieira_FabioDanilo_M.pdf: 3608471 bytes, checksum: 4705c25d2fbd6794b8aa85559e3620a0 (MD5)
Previous issue date: 2014 / Resumo: As raças de ovinos localmente adaptadas descendem de animais trazidos durante o período colonial, e durante anos foram submetidas a cruzamentos indiscriminados com raças exóticas. Estas raças de ovinos são consideradas importantes por possuírem características adaptativas às diversas condições ambientais brasileiras. Para evitar a perda deste importante material genético, a Empresa Brasileira de Pesquisa Agropecuária (Embrapa) decidiu incluí-las no seu Programa de Pesquisa em Recursos Genéticos, armazenando-as em seus bancos de germoplasma, sendo que as que possuem maior destaque nacional são as raças Crioula, Morada Nova e Santa Inês. A seleção dos ovinos para compor estes bancos é realizada por meio da avaliação de características morfológicas e produtivas. Entretanto, essa avaliação está sujeita a falhas, pois alguns animais cruzados mantêm características semelhantes àquelas dos animais locais. Desta forma, identificar se os animais depositados nos bancos são ou não pertencentes a uma raça é uma tarefa que exige muita cautela. Em busca de soluções, nos últimos anos houve um aumento significativo no uso de tecnologias que utilizam marcadores moleculares SNP (do inglês Single Nucleotide Polimorphism). No entanto, o grande número de marcadores gerados, que pode chegar a centenas de milhares por animal, torna-se um problema crucial. Para abordar esse problema, o objetivo deste trabalho é desenvolver modelos baseados em técnicas de mineração de dados para selecionar os principais marcadores SNP para as raças Crioula, Morada Nova e Santa Inês. Os dados utilizados neste estudo foram obtidos do Consórcio Internacional de Ovinos e são compostos por 72 animais destas três raças e 49.034 marcadores SNP para cada ovino. O resultado obtido com a conclusão deste trabalho foi um conjunto de modelos preditivos baseados em técnicas de mineração de dados que selecionaram os principais marcadores SNP para identificação das raças estudadas. A partir da intersecção desses modelos identificou-se um subconjunto de 15 marcadores com maior potencial de identificação das raças. Os modelos poderão ser utilizados para certificação das raças de ovinos já depositados nos bancos de germoplasma e de novos animais a serem inclusos, além de subsidiar associações de criadores interessadas em certificar seus animais, bem como o MAPA (Ministério da Agricultura, Pecuária e Abastecimento) no controle de animais registrados. Os modelos gerados poderão ser estendidos para outras espécies animais de produção / Abstract: The locally adapted breeds of sheep are descended from animals brought in during the colonial period, and for years were subjected to indiscriminate crossbreeding with exotic breeds. These breeds of sheep are considered important by having adaptive characteristics to several Brazilian environmental conditions. To avoid the loss of this important genetic material, the Brazilian Agricultural Research Corporation (Embrapa) decided to include them in its Programme of Research in Genetic Resources, storing them in their genebanks, while those with greater national prominence are Creole breeds, Morada Nova and Santa Ines. The selection of sheep to compose these banks is performed through the evaluation of morphological and productive characteristics. However, this assessment is subject to failures, because some crossbred maintains similar characteristics to those of the local animals. Thus, identifying if the animals deposited in banks belong or not to a breed is a challenging task. In search for solutions in recent years there has been a significant increase in the use of technologies that use molecular markers SNP (Single Nucleotide Polimorphism). However, the large number of markers generated, which can reach hundreds of thousands per animal, becomes a crucial issue. To address this problem, the aim of this study is to develop models based on data mining techniques to select the main SNP markers for Creole, Morada Nova and Santa Ines breeds. The data used in this study were obtained from the International Consortium of Sheep and consist of 72 animals e of these three breeds and 49,034 SNP markers for each sheep. The result obtained with this study was a set of predictive models based on data mining techniques to selected major SNP markers to identify the breeds studied. The intersection of the generated models identified a subset of 15 markers, with greater potential for identification of sheep breeds. The models may be used for certification of sheep breeds already deposited in genebanks and new animals to be included, apart from subsidizing breeders associations interested in certifying their animals, as well as MAPA (Ministry of Agriculture, Livestock and Food Supply) in control registered animals. The proposed models can be extended to other species of production animals / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola
|
180 |
Amélioration et développement de méthodes de sélection du nombre de composantes et de prédicteurs significatifs pour une régression PLS et certaines de ses extensions à l'aide du bootstrap / lmprovement and development of selection methods for both the number of components and significant predictors for a PLS regression and some extensions with bootstrap techniquesMagnanensi, Jérémy 18 December 2015 (has links)
La régression Partial Least Squares (PLS), de part ses caractéristiques, est devenue une méthodologie statistique de choix pour le traitement de jeux de données issus d’études génomiques. La fiabilité de la régression PLS et de certaines de ses extensions repose, entre autres, sur une détermination robuste d’un hyperparamètre, le nombre de composantes. Une telle détermination reste un objectif important à ce jour, aucun critère existant ne pouvant être considéré comme globalement satisfaisant. Nous avons ainsi élaboré un nouveau critère de choix pour la sélection du nombre de composantes PLS basé sur la technique du bootstrap et caractérisé notamment par une forte stabilité. Nous avons ensuite pu l’adapter et l’utiliser à des fins de développement et d’amélioration de procédés de sélection de prédicteurs significatifs, ouvrant ainsi la voie à une identification rendue plus fiable et robuste des probe sets impliqués dans la caractéristique étudiée d’une pathologie. / The Partial Least Squares (PLS) regression, through its properties, has become a versatile statistic methodology for the analysis of genomic datasets.The reliability of the PLS regression and some of its extensions relies on a robust determination of a tuning parameter, the number of components. Such a determination is still a major aim since no existing criterion could be considered as a global benchmark one in the state-of-art literature. We developed a new bootstrap based stopping criterion in PLS components construction that guarantee a high level of stability. We then adapted and used it to develop and improve variable selection processes, allowing a more reliable and robust determination of significant probe sets related to the studied feature of a pathology.
|
Page generated in 0.0906 seconds