Global ETD Search

1	Seleção de covariáveis para modelos de sobrevivência via verossimilhança penalizada / Variable selection for survival models based on penalized likelihood Pinto Junior, Jony Arrais 18 February 2009 (has links) A seleção de variáveis é uma importante fase para a construção de um modelo parcimonioso. Entretanto, as técnicas mais populares de seleção de variáveis, como, por exemplo, a seleção do melhor subconjunto de variáveis e o método stepwise, ignoram erros estocásticos inerentes à fase de seleção das variáveis. Neste trabalho, foram estudados procedimentos alternativos aos métodos mais populares para o modelo de riscos proporcionais de Cox e o modelo de Cox com fragilidade gama. Os métodos alternativos são baseados em verossimilhançaa penalizada e diferem dos métodos usuais de seleção de variáveis, pois têm como objetivo excluir do modelo variáveis não significantes estimando seus coeficientes como zero. O estimador resultante possui propriedades desejáveis com escolhas apropriadas de funções de penalidade e do parâmetro de suavização. A avaliação desses métodos foi realizada por meio de simulação e uma aplicação a um conjunto de dados reais foi considerada. / Variable selection is an important step when setting a parsimonious model. However, the most popular variable selection techniques, such as the best subset variable selection and the stepwise method, do not take into account inherent stochastic errors in the variable selection step. This work presents a study of alternative procedures to more popular methods for the Cox proportional hazards model and the frailty model. The alternative methods are based on penalized likelihood and differ from the usual variable selection methods, since their objective is to exclude from the model non significant variables, estimating their coefficient as zero. The resulting estimator has nice properties with appropriate choices of penalty functions and the tuning parameter. The assessment of these methods was studied through simulations, and an application to a real data set was considered. funções de penalidade penalized likelihood penalty functions Seleção de variáveis variable selection verossimilhança penalizada
2	Seleção de covariáveis para modelos de sobrevivência via verossimilhança penalizada / Variable selection for survival models based on penalized likelihood Jony Arrais Pinto Junior 18 February 2009 (has links) A seleção de variáveis é uma importante fase para a construção de um modelo parcimonioso. Entretanto, as técnicas mais populares de seleção de variáveis, como, por exemplo, a seleção do melhor subconjunto de variáveis e o método stepwise, ignoram erros estocásticos inerentes à fase de seleção das variáveis. Neste trabalho, foram estudados procedimentos alternativos aos métodos mais populares para o modelo de riscos proporcionais de Cox e o modelo de Cox com fragilidade gama. Os métodos alternativos são baseados em verossimilhançaa penalizada e diferem dos métodos usuais de seleção de variáveis, pois têm como objetivo excluir do modelo variáveis não significantes estimando seus coeficientes como zero. O estimador resultante possui propriedades desejáveis com escolhas apropriadas de funções de penalidade e do parâmetro de suavização. A avaliação desses métodos foi realizada por meio de simulação e uma aplicação a um conjunto de dados reais foi considerada. / Variable selection is an important step when setting a parsimonious model. However, the most popular variable selection techniques, such as the best subset variable selection and the stepwise method, do not take into account inherent stochastic errors in the variable selection step. This work presents a study of alternative procedures to more popular methods for the Cox proportional hazards model and the frailty model. The alternative methods are based on penalized likelihood and differ from the usual variable selection methods, since their objective is to exclude from the model non significant variables, estimating their coefficient as zero. The resulting estimator has nice properties with appropriate choices of penalty functions and the tuning parameter. The assessment of these methods was studied through simulations, and an application to a real data set was considered. funções de penalidade Seleção de variáveis verossimilhança penalizada penalized likelihood penalty functions variable selection
3	Modelos híbridos baseados em redes neurais, lógica fuzzy e busca para previsão de séries temporais VALENÇA, Ivna Cristine Brasileiro 31 January 2010 (has links) Made available in DSpace on 2014-06-12T15:56:09Z (GMT). No. of bitstreams: 2 arquivo2750_1.pdf: 2282996 bytes, checksum: f61a8b47ec62dc124a6eafe258c2c9a0 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco / As pesquisas relacionadas à previsão de séries temporais têm sido uma área de bastante interesse nas últimas décadas. Várias técnicas têm sido pesquisadas para a previsão de séries temporais. Este trabalho propõe métodos híbridos, com a finalidade de tentar representar o complexo fenômeno de previsão de séries temporais do mundo real. A gênese do estudo é baseada no conceito sobre o qual, diferentes partes da série temporal podem ser resultantes de diferentes processos físicos que ocorrem na natureza e necessitam, portanto, de diferentes modelagens. A dissertação divide-se em duas etapas. Na primeira, são propostos mais dois sistemas híbridos (BH + MLP e BMT + MLP) para a seleção das variáveis de entradas para os modelos de previsão. Na segunda, são propostas dois métodos híbridos (SOM + MLP e MLP + Fuzzy) para o processo de previsão de séries temporais. Para realizar o estudo comparativo entre as técnicas, dez séries temporais do mundo real foram utilizadas. No que diz respeito à seleção de variáveis os resultados mostraram que a utilização do sistema híbrido Busca pela Memória Temporal e Redes Neurais (BMT + MLP) foi capaz de encontrar um subconjunto de variáveis representativo para o problema. Dos resultados obtidos pode-se concluir que a seleção de variáveis ocorreu de forma bastante satisfatória com a utilização da Busca Harmônica e Redes Neurais, mas ocorreu com maior rapidez e eficiência quando da utilização do sistema proposto BMT + MLP. Apesar dos erros médios quadráticos obtidos pela rede neural serem, em geral, estatisticamente similares para as duas técnicas, a principal vantagem da BMT + MLP é a capacidade de encontrar o subconjunto de variáveis considerado ótimo de forma bastante rápida. Ao realizar a comparação dos resultados obtidos dos modelos propostos com dois modelos da literatura, os modelos propostos apresentaram um melhor desempenho. Quanto aos modelos de previsão propostos, os resultados obtidos apresentaram menor erro ou no máximo iguais em comparação com a rede MLP e com os modelos Estatísticos, para todas as séries simuladas. Por outro lado, os dois modelos propostos (SOM + MLP e MLP + Fuzzy) apresentaram em média resultados que foram considerados estatisticamente similares Busca pela Memória Temporal Previsão de Séries Temporais Redes Neurais Artificiais Seleção de Variáveis Sistemas Inteligentes Híbridos
4	Um procedimento para seleção de variáveis em modelos lineares generalizados duplos / A procedure for variable selection in double generalized linear models Cavalaro, Lucas Leite 01 April 2019 (has links) Os modelos lineares generalizados duplos (MLGD), diferentemente dos modelos lineares generalizados (MLG), permitem o ajuste do parâmetro de dispersão da variável resposta em função de variáveis preditoras, aperfeiçoando a forma de modelar fenômenos. Desse modo, os mesmos são uma possível solução quando a suposição de que o parâmetro de dispersão constante não é razoável e a variável resposta tem distribuição que pertence à família exponencial. Considerando nosso interesse em seleção de variáveis nesta classe de modelos, estudamos o esquema de seleção de variáveis em dois passos proposto por Bayer e Cribari-Neto (2015) e, com base neste método, desenvolvemos um esquema para seleção de variáveis em até k passos. Para verificar a performance do nosso procedimento, realizamos estudos de simulação de Monte Carlo em MLGD. Os resultados obtidos indicam que o nosso procedimento para seleção de variáveis apresenta, em geral, performance semelhante ou superior à das demais metodologias estudadas sem necessitar de um grande custo computacional. Também avaliamos o esquema para seleção de variáveis em até \"k\" passos em um conjunto de dados reais e o comparamos com diferentes métodos de regressão. Os resultados mostraram que o nosso procedimento pode ser também uma boa alternativa quando possui-se interesse em realizar previsões. / The double generalized linear models (DGLM), unlike the generalized linear model (GLM), allow the fit of the dispersion parameter of the response variable as a function of predictor variables, improving the way of modeling phenomena. Thus, they are a possible solution when the assumption that the constant dispersion parameter is unreasonable and the response variable has distribution belonging to the exponential family. Considering our interest in variable selection in this class of models, we studied the two-step variable selection scheme proposed by Bayer and Cribari-Neto (2015) and, based on this method, we developed a scheme to select variables in up to k steps. To check the performance of our procedure, we performed Monte Carlo simulation studies in DGLM. The results indicate that our procedure for variable selection presents, in general, similar or superior performance than the other studied methods without requiring a large computational cost. We also evaluated the scheme to select variables in up to \"k\" steps in a set of real data and compared it with different regression methods. The results showed that our procedure can also be a good alternative when the interest is in making predictions. Critérios de informação Double generalized linear models Information criteria Modelos lineares generalizados duplos Seleção de variáveis Stepwise Stepwise Variable selection
5	Penalized regression models for compositional data / Métodos de regressão penalizados para dados composicionais Shimizu, Taciana Kisaki Oliveira 10 December 2018 (has links) Compositional data consist of known vectors such as compositions whose components are positive and defined in the interval (0,1) representing proportions or fractions of a whole, where the sum of these components must be equal to one. Compositional data is present in different areas, such as in geology, ecology, economy, medicine, among many others. Thus, there is great interest in new modeling approaches for compositional data, mainly when there is an influence of covariates in this type of data. In this context, the main objective of this thesis is to address the new approach of regression models applied in compositional data. The main idea consists of developing a marked method by penalized regression, in particular the Lasso (least absolute shrinkage and selection operator), elastic net and Spike-and-Slab Lasso (SSL) for the estimation of parameters of the models. In particular, we envision developing this modeling for compositional data, when the number of explanatory variables exceeds the number of observations in the presence of large databases, and when there are constraints on the dependent variables and covariates. / Dados composicionais consistem em vetores conhecidos como composições cujos componentes são positivos e definidos no intervalo (0,1) representando proporções ou frações de um todo, sendo que a soma desses componentes totalizam um. Tais dados estão presentes em diferentes áreas, como na geologia, ecologia, economia, medicina entre outras. Desta forma, há um grande interesse em ampliar os conhecimentos acerca da modelagem de dados composicionais, principalmente quando há a influência de covariáveis nesse tipo de dado. Nesse contexto, a presente tese tem por objetivo propor uma nova abordagem de modelos de regressão aplicada em dados composicionais. A ideia central consiste no desenvolvimento de um método balizado por regressão penalizada, em particular Lasso, do inglês least absolute shrinkage and selection operator, elastic net e Spike-e-Slab Lasso (SSL) para a estimação dos parâmetros do modelo. Em particular, visionamos o desenvolvimento dessa modelagem para dados composicionais, com o número de variáveis explicativas excedendo o número de observações e na presença de grandes bases de dados, e além disso, quando há restrição na variável resposta e nas covariáveis. Compositional data Coordenadas log-razão isométricas Dados composicionais Isometric log-ratio coordinates Modelo de regressão Regression model Seleção de variáveis Variable selection
6	Dados hiperespectrais para predição do teor foliar de nitrogênio em cana-de-açúcar / Hyperspectral data to predict sugarcane leaf nitrogen content Martins, Juliano Araújo 17 February 2016 (has links) Uma das alternativas bastante abordada na literatura para a melhoria do gerenciamento da adubação nitrogenada nas culturas é o sensoriamento remoto, tendo destaque a utilização de sensores espectrais na região do visível e infravermelho. Neste trabalho, buscou-se estabelecer as relações existentes entre variações no teor foliar de nitrogênio (TFN) e a resposta espectral da folha de cana-de-açúcar, utilizando um sensor hiperespectral, com avaliações em três áreas experimentais do estado de São Paulo, com diferentes solos e variedades. Cada experimento foi alocado em blocos ao acaso, com parcelas subdividas e quatro repetições. Foram aplicadas doses de 0, 50, 100 e 150 kg de nitrogênio por hectare. A análise espectral foi realizada na folha \"+1\" em laboratório, sendo coletadas 10 folhas por subparcela, estas foram posteriormente submetidas a análise química para o TFN. Observou-se que existe correlação significativa entre o TFN e as variações na resposta espectral da cana-de-açúcar, sendo que a região do verde e de transição entre o vermelho e o infravermelho próximo (\"red-edge\") foram as mais consistentes e estáveis entre as áreas em estudo e safras avaliadas. A análise de componentes principais permitiu reforçar estes resultados, uma vez que as pontuações (\"scores\") dos componentes que apresentaram correlações significativas com o TFN, tiveram maiores pesos (\"loadings\") nas regiões espectrais citadas anteriormente. A partir das curvas espectrais foram também realizados os cálculos dos índices de vegetação já descritos em literatura, e estes submetidos a análise de regressão simples para predição do TFN, sendo os modelos calibrados com dados da safra 2012/13 e validados com os dados da safra 2013/14. Índices espectrais calculados com a combinação dos comprimentos de onda do verde e/ou \"red-edge\" com comprimentos de onda do infravermelho próximo tiveram bom desempenho na fase de validação, sendo que os cinco mais estáveis foram os índices BNi (500, 705 e 750 nm), GNDVI (550 e 780 nm), NDRE (790 e 720 nm), RI-1db (735 e 720 nm) e VOGa (740 e 720 nm). A variedade SP 81 3250 foi cultivada nas três áreas experimentais, o que permitiu a comparação do potencial de modelos calibrados por área, com um modelo generalista para uma mesma variedade cultivada em diferentes condições edáficas. Observou-se que embora o modelo generalista apresente parâmetros estatísticos significativos, existe redução expressiva da sensibilidade de predição quando comparado aos modelos calibrados por área experimental. Empregou-se também nesta pesquisa a análise de regressão linear múltipla por \"stepwise\" (RLMS) que gerou modelos com boa precisão na estimativa do TFN, mesmo quando calibrados por área experimental, independentes da variedade, utilizando de 5 a 6 comprimentos de onda. Concluímos com a presente pesquisa que comprimentos de onda específicos estão associados a variação do TFN em cana-de-açúcar, e estes são reportados na região do verde (próximos a 550 nm) e na região de transição entre os comprimentos de onda do vermelho e infravermelho próximo (680 a 720 nm). Apesar da baixa correlação entre a região do infravermelho próximo com o TFN, índices de vegetação calculados a partir destes comprimentos de onda ou a inserção destes na geração de modelos lineares foram importantes para melhorar a precisão da predição. / An alternative method, quite cited in literature to improve nitrogen fertilization management on crops is the remote sensing, highlighted with the use of spectral sensors in the visible and infrared region. In this work, we sought to establish the relationship between variations in leaf nitrogen content and the spectral response of sugarcane leaf using a hyperspectral sensor, with assessments in three experimental areas of São Paulo state, Brazil, with evaluations in different soils and varieties. Each experimental area was allocated in randomized block, with splitted plots and four repetition, hence, receiving doses of 0, 50, 100 and 150 kg of nitrogen per hectare. Spectral analysis was performed on the \"+1\" leaf in laboratory; we collected 10 leaves per subplots; which were subsequently subjected to chemical analysis to leaf nitrogen content determination. We observed a significant correlation between leaf nitrogen content and variations in sugarcane spectral response, we noticed that the region of the green light and red-edge were the most consistent and stable among the studied area and the crop seasons evaluated. The principal component analysis allowed to reinforce these results, since that the scores for principal components showed significant correlations with the leaf nitrogen content, had higher loadings values for the previous spectral regions mentioned. From the spectral curves were also performed calculations of spectral indices previously described in literature, being these submitted to simple regression analysis to direct prediction of leaf nitrogen content. The models were calibrated with 2012/13 and validated with 2013/14 crop season data. Spectral indices that were calculated with green and/or red-edge, combined with near-infrared wavelengths performed well in the validation phase, and the five most stable were the BNi (500, 705 and 750 nm), GNDVI (550 and 780 nm), NDRE (790 and 720 nm), IR-1dB (735 and 720 nm) and VOGa (740 and 720 nm). The variety SP 81 3250 was cultured in the three experimental areas, allowing to compare the performance of a specific site model with a general model for the same variety growing on different soil conditions. Although the general model presents meaningful statistical parameters, there is a significant reduction in sensitivity to predict leaf nitrogen content of sugarcane when compared with specific site calibrated models. We also used on this research the stepwise multiple linear regression (SMLR) that generated models with good precision to estimate the leaf nitrogen content, even when models are calibrated for an experimental area, regardless of spectral differences between varieties, using 5 to 6 wavelengths. This study shows that specific wavelengths are associated with variation in leaf nitrogen content of sugarcane, and these are reported in the region of green (near to 550 nm) and red-edge (680 to 720nm). Despite the low correlation observed between the infrared wavelengths to the leaf nitrogen content of sugarcane, vegetation indices calculated from these wavelengths, or its insertion on linear models generation were important to improve prediction accuracy. Adubação nitrogenada Índices de Vegetação Modelos de regressão Nitrogen fertilization Regression models Seleção de variáveis Sensores Sensors Variable selection Vegetation index
7	Uso de polinômios fracionários nos modelos mistos Garcia, Edijane Paredes January 2019 (has links) Orientador: Luzia Aparecida Trinca / Resumo: A classe dos modelos de regressão incorporando polinômios fracionários - FPs (Fractional Polynomials), proposta por Royston & Altman (1994), tem sido amplamente estudada. O uso de FPs em modelos mistos constitui uma alternativa muito atrativa para explicar a dependência das medidas intra-unidades amostrais em modelos em que há não linearidade na relação entre a variável resposta e variáveis regressoras contínua. Tal característica ocorre devido aos FPs oferecerem, para a resposta média, uma variedade de formas funcionais não lineares para as variáveis regressoras contínuas, em que se destacam a família dos polinômios convencionais e algumas curvas assimétricas e com assíntotas. A incorporação dos FPs na estrutura dos modelos mistos tem sido investigada por diversos autores. Porém, não existem publicações sobre: a exploração da problemática da modelagem na parte fixa e na parte aleatória (principalmente na presença de várias variáveis regressoras contínuas e categóricas); o estudo da influência dos FPs na estrutura dos efeitos aleatórios; a investigação de uma adequada estrutura para a matriz de covariâncias do erro; ou, um ponto de fundamental importância para colaborar com a seleção do modelo, a realização da análise de diagnóstico dos modelos ajustados. Uma contribuição, do nosso ponto de vista, de grande relevância é a investigação e oferecimento de estratégias de ajuste dos modelos polinômios fracionários com efeitos mistos englobando os pontos citados acima com o objetiv... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The class of regression models incorporating Fractional Polynomials (FPs), proposed by Royston & Altman (1994), has been extensively studied. The use of FPs in mixed models is a very attractive alternative to explain the within-subjects’ measurements dependence in models where there is non-linearity in the relationship between the response variable and continuous covariates. This characteristic occurs because the FPs offers a variety of non-linear functional forms for the continuous covariates in the average response, in which the family of the conventional polynomials and some asymmetric curves with asymptotes stand out. The incorporation of FPs into the structure of the mixed models has been investigated by several authors. However, there are no works about the following issues: the modeling of the fixed and random effects (mainly in the presence of several continuous and categorical covariates), the study of the influence of the FPs on the structure of the random effects, the investigation of an adequate structure for the covariance of the random errors, or, a point that has central importance to the selection of the model, to perform a diagnostic analysis of the fitted models. In our point of view, a contribution of great relevance is the investigation and the proposition of strategies for fitting FPs with mixed effects encompassing the points mentioned above, with the goals of filling these gaps and to awaken the users to the great potential of mixed models, now even mor... (Complete abstract click electronic access below) / Doutor Curvatura. Dados longitudinais Forma funcional Modelo polinomial fracionário Seleção de variáveis Curvature Functional form Fractional polynomial model Longitudinal data Variable selection
8	SELEÇÃO DE VARIÁVEIS DE REDE PARA DETECÇÃO DE INTRUSÃO / NETWORK FEATURE SELECTION FOR INTRUSION DETECTION Alves, Victor Machado 22 October 2012 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Intrusion Detection Systems are considered important mechanisms to ensure protection for computer networks. However, the information used by these systems should be properly selected, because the accuracy and performance are sensitive to the quality and size of the analyzed data. The selection of variables for Intrusion Detection Systems (IDS) is a key point in the design of IDS. The process of selection of variables, or features, makes the choice of appropriate information by removing irrelevant data that affect the result of detection. However, existing approaches to assist IDS select the variables only once, not adapting behavioral changes. The variation of the network traffic is not so accompanied by these selectors. A strategy for reducing the false alarm rate based on abnormalities in IDS is evaluating whether a same time interval abrupt changes occur in more than one variable network. However, this strategy takes as hypothesis that the variables are related, requiring a prior procedure for variable selection. This paper proposes a dynamic method of selecting variables for network IDS, called SDCorr (Selection by Dynamic Correlation), which operates in the mode filter and as an evaluator uses the Pearson correlation test. The method dynamically adapts to changes in network traffic through the selection of new variables at each iteration with the detector. Therefore allow track changes in data and establish relationships between variables. As a result, it improves the accuracy and performance of the IDS by eliminating unnecessary variables and decreasing the size of the analyzed data. / Sistemas de Detecção de Intrusão são considerados mecanismos importantes para assegurar a proteção em redes de computadores. Entretanto as informações utilizadas por estes sistemas devem estar devidamente selecionadas, pois a precisão e desempenho são sensíveis à qualidade e dimensão dos dados analisados. A seleção de variáveis para Sistemas de Detecção de Intrusão (IDS - Intrusion Detection Systems) é assim um ponto chave no projeto de IDS. O processo de seleção de variáveis, ou de características, realiza a escolha das informações apropriadas através da remoção de dados irrelevantes que interferem no resultado da detecção. No entanto, abordagens existentes para auxiliar IDS selecionam as variáveis apenas uma vez, não se adaptando as mudanças comportamentais. As variações inerentes ao tráfego de rede não são assim acompanhadas dinamicamente por estes selecionadores. Uma estratégia para reduzir a taxa de falsos alarmes em IDS baseados em anomalias é avaliar se num mesmo intervalo de tempo ocorrem mudanças abruptas em mais de uma variável de rede. Porém, esta estratégia assume como hipótese que as variáveis analisadas são correlacionadas, exigindo um procedimento prévio de seleção de variáveis. Este trabalho propõe um método dinâmico de seleção de variáveis para IDS de rede, chamado SDCorr (Seleção Dinâmica por Correlação), que opera na modalidade de filtro e utiliza como avaliador o teste de correlação de Pearson. O método adapta-se dinamicamente as variações do tráfego de rede por meio da seleção de novas variáveis a cada iteração com o detector. Assim, possibilita acompanhar as mudanças nos dados e estabelecer relações entre variáveis. Como resultado, melhora-se a precisão e desempenho do IDS através da eliminação de variáveis desnecessárias e da redução da dimensão dos dados analisados. Segurança Sistemas de detecção de intrusão Seleção de variáveis Security Intrusion detection systems Feature selection
9	Metodologias analíticas para a identificação de não conformidades em amostras de álcool combustível Silva, Adenilton Camilo da 27 August 2013 (has links) Submitted by Maike Costa (maiksebas@gmail.com) on 2016-05-03T14:00:03Z No. of bitstreams: 1 arquivo total.pdf: 4473867 bytes, checksum: e3130e71f9f870684d06304ce755007d (MD5) / Made available in DSpace on 2016-05-03T14:00:03Z (GMT). No. of bitstreams: 1 arquivo total.pdf: 4473867 bytes, checksum: e3130e71f9f870684d06304ce755007d (MD5) Previous issue date: 2013-08-27 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / In Brazil, ethanol fuel is marketed in the hydrated form (HEAF– Hydrated Ethyl Alcohol Fuel). The adulterations found in HEAF can generate fines, and possible risks to society. With this perspective, this work proposes developing new analytical methods based on the use of infrared spectroscopy (NIR and MIR), and Cyclic Voltammetry (copper electrode), and chemometric pattern recognition techniques, to identify HEAF adulterations (with water or methanol). A total of 184 HEAF samples collected from different gasoline stations were analyzed. These samples were divided in three classes: (1) unadulterated, (2) adulterated with water (0.5% to 10%mm-1), and (3) adulterated with methanol (2% to 13% mm-1). Principal Components Analysis (PCA) was applied, permitting verification of a tendency to form clusters for unadulterated and adulterated samples. Classification models based on Linear Discriminant Analysis (LDA), with variable selection algorithms: SPA (Successive Projections Algorithm), GA (Genetic Algorithm), and SW (Stepwise) were employed. PLS-DA (Discriminant Analysis by Partial Least Squares) was applied to the data. Assessing the MIR spectra, 100% correct classification was achieved for all models. For NIR data, SPA-LDA and LDA-SW achieved a correct classification rate (RCC) of 84.4%, and 97.8%, respectively, while PLS-DA and GALDA correctly classified all test samples. In the evaluation of voltammetric data, as SPA-LDA as PLS-DA achieved a 93% RCC, but the GA-LDA and SW-LDA models showed better results, correctly classifying all test samples. The results suggest that the proposed methods are promising alternatives for identifying HEAF samples adulterated with water or methanol both quickly and securely. / No Brasil, uma das formas de comercialização do etanol combustível é na forma hidratada (AEHC - Álcool Etílico Hidratado Combustível). As adulterações encontradas nas amostras de AEHC são preocupantes, pois podem gerar prejuízos fiscais e à sociedade. Dentro dessa perspectiva, este trabalho propõe o desenvolvimento de novas metodologias analíticas baseadas no uso da espectroscopia no infravermelho (próximo - NIR e médio - MIR) e Voltametria Cíclica (com eletrodo cobre), em conjunto com técnicas quimiométricas de reconhecimento de padrões, visando à identificação das adulterações de AEHC com água ou metanol. Um total de 184 amostras de AEHC, coletadas de diferentes postos de combustíveis foram analisadas. Estas amostras foram divididas em três classes: (1) não adulteradas; (2) adulteradas com água (0,5% a 10,0%) e (3) adulteradas com metanol (2,0% a 13,0% m.m-1). A análise por componentes principais (PCA) foi aplicada aos dados, sendo possível verificar, principalmente, uma tendência à formação de agrupamentos das classes de amostras não adulteradas e adulteradas. Modelos de classificação foram baseados na análise discriminante linear (LDA) com prévia seleção de variáveis pelos algoritmos: SPA (Algoritmo das projeções sucessivas), GA (Algoritmo genético), SW (Stepwise). A técnica de PLS-DA (Análise discriminante pelos mínimos quadrados parciais) também foi aplicada nos dados. Avaliando os espectros MIR, 100% de acerto de classificação foram alcançados com todos os modelos. Para os dados NIR, utilizando SPA-LDA e SW-LDA houve uma taxa de classificação correta (TCC) de 84,4% e 97,8%, respectivamente, enquanto em PLS-DA e GA-LDA classificaram-se corretamente todas as amostras de teste. Na avaliação dos dados voltamétricos, tanto o SPA-LDA como o PLS-DA alcançaram uma TCC de 93%, mas os modelos GA-LDA e SW-LDA apresentaram melhores resultados, classificando corretamente todas as amostras de teste. Portanto, os métodos propostos são alternativas promissoras para a identificação, de forma rápida e segura, de adulteração em amostras de AEHC com água ou metanol. CIENCIAS EXATAS E DA TERRA::QUIMICA Espectroscopia no infravermelho Voltametria Classificação multivariada Seleção de variáveis Infrared spectroscopy Voltammetry Multivariate classification Variables selection
10	Algoritmo genético compacto com dominância para seleção de variáveis / Compact genetic algorithm with dominance for variable selection Nogueira, Heber Valdo 20 April 2017 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-23T11:37:07Z No. of bitstreams: 2 Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-23T11:37:50Z (GMT) No. of bitstreams: 2 Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-05-23T11:37:51Z (GMT). No. of bitstreams: 2 Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-04-20 / The features selection problem consists in to select a subset of attributes that is able to reduce computational processing and storage resources, decrease curse of dimensionality effects and improve the performance of predictive models. Among the strategies used to solve this type of problem, we highlight evolutionary algorithms, such as the Genetic Algorithm. Despite the relative success of the Genetic Algorithm in solving various types of problems, different improvements have been proposed in order to improve their performance. Such improvements focus mainly on population representation, search mechanisms, and evaluation methods. In one of these proposals, the Genetic Compact Algorithm (CGA) arose, which proposes new ways of representing the population and guide the search for better solutions. Applying this type of strategy to solve the problem of variable selection often involves overfitting. In this context, this work proposes the implementation of a version of the Compact Genetic Algorithm to minimize more than one objective simultaneously. Such algorithm makes use of the concept of Pareto dominance and, therefore, is called Genetic Algorithm Compacted with Dominance (CGAD). As a case study, to evaluate the performance of the proposed algorithm, AGC-D is combined with Multiple Linear Regression (MLR) to select variables to better predict protein concentration in wheat samples. The proposed algorithm is compared to CGA and the Mutation-based Compact Genetic Algorithm. The results indicate that the CGAD is able to select a small set of variables, reducing the prediction error of the calibration model, reducing the possibility of overfitting. / O problema de seleção de variáveis consiste em selecionar um subconjunto de atributos que seja capaz reduzir os recursos computacionais de processamento e armazenamento, diminuir os efeitos da maldição da dimensionalidade e melhorar a performance de modelos de predição. Dentre as estratégias utilizadas para solucionar esse tipo de problema, destacam-se os algoritmos evolutivos, como o Algoritmo Genético. Apesar do relativo sucesso do Algoritmo Genético na solução de variados tipos de problemas, diferentes propostas de melhoria têm sido apresentadas no sentido de aprimorar seu desempenho. Tais melhorias focam, sobretudo, na representação da população, nos mecanismos de busca e nos métodos de avaliação. Em uma dessas propostas, surgiu o Algoritmo Genético Compacto (AGC), que propõe novas formas de representar a população e de conduzir a busca por melhores soluções. A aplicação desse tipo de estratégia para solucionar o problema de seleção de variáveis, muitas vezes implica no overfitting. Diversas pesquisas na área têm indicado a abordagem multiobjetivo pode ser capaz de mitigar esse tipo de problema. Nesse contexto, este trabalho propõe a implementação de uma versão do Algoritmo Genético Compacto capaz de minimizar mais de um objetivo simultaneamente. Tal algoritmo faz uso do conceito de dominância de Pareto e, por isso, é chamado de Algoritmo Genético Compacto com Dominância (AGC-D). Como estudo de caso, para avaliar o desempenho dos algoritmos propostos, o AGC-D é combinado com a Regressão Linear Múltipla (RLM) com o objetivo de selecionar variáveis para melhor predizer a concentração de proteína em amostras de trigo. O algoritmo proposto é comparado ao AGC e ao AGC com operador de mutação. Os resultados obtidos indicam que o AGC-D é capaz de selecionar um pequeno conjunto de variáveis, reduzindo o erro de predição do modelo de calibração e minimizando a possibilidade de overfitting. Seleção de variáveis Algoritmo genético compacto Otimização multiobjetivo Feature selection Compact genetic algorithm Multiobjective optimization

Search results