• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 28
  • 2
  • Tagged with
  • 30
  • 30
  • 29
  • 20
  • 14
  • 14
  • 14
  • 10
  • 9
  • 9
  • 8
  • 8
  • 8
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Um novo critério para seleção de variáveis usando o Algoritmo das Projeções Sucessivas

Soares, Sófacles Figueiredo Carreiro 22 September 2010 (has links)
Made available in DSpace on 2015-05-14T13:21:51Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2432134 bytes, checksum: aeda44e0d999a92b980354a5ea66ce01 (MD5) Previous issue date: 2010-09-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This study proposes a modification in the Successive Projections Algorithm (SPA), that makes models of Multiple Linear Regression (MLR) more robust in terms of interference. In SPA, subsets of variables are compared based on their root mean square errors for the validation set. By taking into account the statistical prediction error obtained for the calibration set, and dividing by the statistical prediction error obtained for the prediction set, SPA can be improved. Also taken into account is the leverage associated with each sample. Three case studies involving; simulated analytic determinations, food colorants (UV-VIS spectrometry), and ethanol in gasoline (NIR spectrometry) are discussed. The results were evaluated using the root mean square error for an independent prediction set (Root Mean Square Error of Prediction - RMSEP), graphs of the variables, and the statistical tests t and F. The MLR models obtained by the selection using the new function were called SPE-SPA-MLR. When an interferent was present in the prediction spectra, almost all of the models performed better than both SPA-MLR and PLS. The models when compared to SPA-MLR showed that the change promoted better models in all cases giving smaller RMSEPs and variable numbers. The SPE-SPA-MLR was not better in some cases, than PLS models. The variables selected by SPA-SPE-MLR when observed in the spectra were detected in regions where interference was the at its smallest, revealing great potential. The modifications presented here make a useful tool for the basic formulation of the SPA. / Este trabalho propõe uma modificação no Algoritmo das Projeções Sucessivas (Sucessive Projection Algorithm - SPA), com objetivo de aumentar a robustez a interferentes nos modelos de Regressão Linear Múltipla (Multiple Linear Regression - MLR) construídos. Na formulação original do SPA, subconjuntos de variáveis são comparados entre si com base na raiz do erro quadrático médio obtido em um conjunto de validação. De acordo com o critério aqui proposto, a comparação é feita também levando em conta o erro estatístico de previsão (Statistical Prediction Error SPE) obtido para o conjunto de calibração dividido pelo erro estatístico de previsão obtido para o conjunto de previsão. Tal métrica leva em conta a leverage associada a cada amostra. Três estudos de caso envolvendo a determinação de analitos simulados, corantes alimentícios por espectrometria UV-VIS e álcool em gasolinas por espectrometria NIR são discutidos. Os resultados são avaliados em termos da raiz do erro quadrático médio em um conjunto de previsão independente (Root Mean Square Error of Prediction - RMSEP), dos gráficos das variáveis selecionadas e através do testes estatísticos t e F. Os modelos MLR obtidos a partir da seleção usando a nova função custo foram chamados aqui de SPA-SPE-MLR. Estes modelos foram comparados com o SPA-MLR e PLS. Os desempenhos de previsão do SPA-SPEMLR apresentados foram melhores em quase todos os modelos construídos quando algum interferente estava presente nos espectros de previsão. Estes modelos quando comparados ao SPA-MLR, revelou que a mudança promoveu melhorias em todos os casos fornecendo RMSEPs e números de variáveis menores. O SPA-SPE-MLR só não foi melhor que alguns modelos PLS. As variáveis selecionadas pelo SPA-SPE-MLR quando observadas nos espectros se mostraram em regiões onde a ação do interferente foi à menor possível revelando o grande potencial que tal mudança provocou. Desta forma a modificação aqui apresentada pode ser considerada como uma ferramenta útil para a formulação básica do SPA.
22

Variable selection in multivariate calibration considering non-decomposability assumption and building blocks hypothesis / Seleção de variáveis em calibração multivariada considerando a presunção de não-decomponibilidade e a hipótese de blocos construtores

Paula, Lauro Cássio Martins de 06 December 2018 (has links)
Submitted by Liliane Ferreira (ljuvencia30@gmail.com) on 2018-12-12T10:14:40Z No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-12-12T10:36:08Z (GMT) No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-12-12T10:36:08Z (GMT). No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-12-06 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The procedure used to select a subset of suitable features in a given data set consists in variable selection, which is important when the dataset contains large number of variables and many of them are redundant. Multivariate calibration combines variable selection with statistical techniques to build mathematical models which relate the data to a given property of interest in order to predict this property by selecting informative variables. In this context, variable selection techniques have been widely applied to the solution of several optimization problems. For instance, Genetic Algorithms (GAs) are easy to implement and consist in a population-based model that uses selection and recombination operators to generate new solutions. However, usually in multivariate calibration the dataset present a considerable correlation degree among variables and this provides an evidence about the problem not being properly decomposed. Moreover, some studies in literature have claimed genetic operators used by GAs can cause the building blocks (BBs) disruption of viable solutions. Therefore, this work aims to claim that selecting variables in multivariate calibration is a non-completely decomposable problem (hypothesis 1) as well as that recombination operators affects the non-decomposability assumption (hypothesis 2). Additionally, we are proposing two heuristics, one local search-based operator and two versions of an Epistasis-based Feature Selection Algorithm (EbFSA) to improve model prediction performance and avoid BBs disruption. Based on the performed inquiry and experimental results, we are able to endorse the viability of our hypotheses and demonstrate EbFSA can overcome some traditional algorithms. / Seleção de variáveis é um procedimento para selecionar um subconjunto de características viáveis em um conjunto de dados, o qual se torna importante quando esse conjunto contém muitas variáveis redundantes. A calibração multivariada combina seleção de variáveis com técnicas estatísticas para construir modelos matemáticos com o intuito de predizer uma propriedade de interesse. Nesse contexto, técnicas de seleção têm sido aplicadas na solução de diversos problemas. Por exemplo, Algoritmos Genéticos (AGs) são fáceis de implementar e consistem em um modelo baseado em população, o qual utiliza operadores de seleção e recombinação para gerar novos indivíduos. No entanto, geralmente em calibração multivariada, o conjunto de dados apresenta um grau de correlação considerável entre as variáveis e isso nos fornece uma evidência de que tal problema não pode ser decomposto adequadamente. Além disso, alguns estudos da literatura têm afirmado que os operadores genéticos utilizados pelos AGs podem causar o rompimento dos Blocos Construtores (Building Blocks - BBs) das soluções viáveis. Portanto, este trabalho objetiva demonstrar que a seleção de variáveis em calibração multivariada é um problema não-completamente decomponível (hipótese 1), assim como que operadores de recombinação afetam a presunção de não-decomponibilidade (hipótese 2). Adicionalmente, este trabalho propõe duas heurísticas, um operador de busca local e duas versões de um Algoritmo para Seleção de Variáveis baseado em Epistasia (EbFSA) para aprimorar a capacidade de predição do modelo e evitar o rompimento de BBs. Baseando-se na pesquisa realizada e nos resultados obtidos, torna-se possível confirmar a viabilidade de nossas hipóteses e demonstrar que o EbFSA consegue superar alguns algoritmos tradicionais.
23

Algoritmo evolutivo multi-objetivo de tabelas para seleção de variáveis em calibração multivariada / Multi-objective evolutionary algorithm in tables for variable selection in multivariate calibration

Jorge, Carlos Antônio Campos 08 April 2014 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2014-12-16T20:28:04Z No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-12-22T10:40:49Z (GMT) No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-12-22T10:40:49Z (GMT). No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-04-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes the use of a multi-objective evolutionary algorithm that makes use of subsets stored in a data structure called table in which the best individuals from each objective considered are preserved. This approach is compared in this work with the traditional mono-objective evolutionary algorithm (GA), classical algorithms (PLS and SPA) and another classic multi-objective algorithm (NSGA-II). As a case study, a multivariate calibration problem is presented which involves the prediction of protein concentration in samples of whole wheat from the spectrophotometric measurements. The results showed that the proposed formulation has a smaller prediction error when compared to the mono-objective formulation and with a lower number of variables. Finally,astudyofnoisesensitivityobtainedbythemulti-objectiveformulationshoweda better resultwhen compared tothe other classical algorithmforvariable selection. / Este trabalho propõe o uso de algoritmo multi-objetivo evolutivo que faz uso de subconjuntos armazenados em uma estrutura de dados chamada tabela em que os melhores indivíduos de cada objetivo são preservadas. Esta abordagem é comparada neste trabalho com o algoritmo evolutivo tradicional mono-objetivo e outros algoritmos clássicos (MONO-GA-MLR, PLS, APS-MLR) e com o algoritmo multi-objetivo clássico NSGAII-MLR.Comoestudodecaso,oproblemadecalibraçãomultivariadaenvolveaprevisão daconcentraçãodeproteínasemamostrasdetrigoapartirdasmediçõesespectrofotométricas. Os resultados mostraram que a formulação proposta seleciona um número menor de variáveis e apresenta um erro de predição menor quando comparada com o algoritmo evolutivo mono-objetivo. Quando comparado com os algoritmos clássicos PLS e APSMLR e com o algoritmo multi-objetivo clássico NSGA-II-MLR, o algoritmo proposto apresenta um erro de predição menor, porém com um número maior de variáveis selecionadas. Finalmente, um estudo de sensibilidade à ruído foi realizado. A solução obtida pela formulação proposta apresentou melhores resultados quando comparado com o algoritmo mono-objetivo e NSGA-II-MLR e desempenho similar à solução obtida com o SPA-MLR.
24

Mineração de dados para o reconhecimento da origem e do tipo de alimentos e outras substâncias com base em sua composição química / Data mining for the recognition of origin and type of food and other substances based on its chemical composition

Maione, Camila 29 March 2016 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2016-07-13T15:55:18Z No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-07-14T11:35:01Z (GMT) No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-07-14T11:35:01Z (GMT). No. of bitstreams: 2 Dissertação - Camila Maione - 2016.pdf: 1989404 bytes, checksum: 187d52e34bf79b7242d8bc18a287ef49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-03-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / A practical way to characterize consumable substances is through its chemical elements in its composition and theirs concentrations. By using these elements as feature variables, it is possible to arrange these substances samples in a data matrix in which data mining and statistical techniques can be applied for predictive analysis. The classification of consumable substances based on its chemical components is an interesting problem and provides useful information for various purposes, as: recognition of geographical origin of a substance; validation and authenticity; determination of the characteristics of a product which can aid companies in the quality control and preservation; differentiation of categories of a product, and others. This study presents a methodology for predictive analysis of substances and food based on its chemical components, using data mining concepts and techniques allied to ICPMS. Four applications of the proposed methodology are described: recognition of the geographical origin of Brazilian white rice produced in São Paulo and Goiás states; differentiation of organic and conventional Brazilian grape juice; differentiation of organic and conventional Brazilian chocolate, and analysis of its toxic and essential elements; recognition of the source of ecstasy tablets apprehended in two cities from Sao Paulo state, Ribeirão Preto and Campinas. For all applications presented, the classification models obtained showed high predictive performance (over 85%), which attest the efficiency of the proposed methodology, and the variable selection techniques used helped us to identify the chemical elements which are more important to the differentiation of the analyzed samples. For the purpose of distinguishing food samples into organic and conventional, our approach is pioneer and yielded good results. / Uma maneira prática de caracterizar substâncias é através dos elementos químicos em sua composiçã. Utilizando estes elementos como variáveis descritoras, é possível organizarmos amostras de substâncias em uma matriz de dados para ser analisada por técnicas de mineração de dados e estatística. A classificação de substâncias baseada em sua composição química provê uma variedade de informações úteis para diversos propósitos, como reconhecimento da origem geográfica de uma determinada substância, verificação de autenticidade, identificar características de produtos que auxiliem empresas no controle de qualidade e preservação, diferenciação de categorias de produtos, entre outros. Este trabalho apresenta uma metodologia para análise preditiva de dados de substâncias e alimentos com base em sua composição química, utilizando técnicas de mineração de dados aliada a espectrometria de massa por plasma indutivamente acoplado (ICP-MS). Quatro aplicações diretas da metodologia são apresentadas: reconhecimento geográfico do arroz branco brasileiro produzido nos estados do Rio Grande do Sul e Goiás; classificação do suco de uva brasileiro em orgânico e convencional; diferenciação do chocolate brasileiro em orgânico e convencional e análise de seus elementos tóxicos e essenciais; reconhecimento da origem de tabletes de ecstasy entre duas cidades de apreensão do estado de São Paulo, Campinas e Ribeirão Preto. Em todas as aplicações, os modelos de classificação obtidos apresentaram alto desempenho de predição (superior a 85%), o que atesta a eficiência da metodologia proposta, e os algoritmos de seleção de variáveis utilizados ajudaram a identificar os elementos químicos mais importantes para a diferenciação das amostras. No âmbito de diferenciação de amostras de alimento entre orgânico e convencional, a nossa abordagem é pioneira e gerou bons resultados.
25

Algoritmo evolutivo multi-objetivo em tabelas para seleção de variáveis em classificação multivariada / Multi-objective evolutionary algorithm on tables for variable selection in multivariate classification

Ribeiro, Lucas de Almeida 29 October 2014 (has links)
Submitted by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T14:19:27Z No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T15:19:35Z (GMT) No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-04-01T15:19:35Z (GMT). No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-10-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes the use of multi-objective evolutionary algorithm on tables (AEMT) for variable selection in classification problems, using linear discriminant analysis. The proposed algorithm aims to find minimal subsets of the original variables, robust classifiers that model without significant loss in classification ability. The results of the classifiers modeled by the solutions found by this algorithm are compared in this work to those found by mono-objective formulations (such as PLS, APS and own implementations of a Simple Genetic Algorithm) and multi-objective formulations (such as the simple genetic algorithm multi -objective - MULTI-GA - and the NSGA II). As a case study, the algorithm was applied in the selection of spectral variables for classification by linear discriminant analysis (LDA) of samples of biodiesel / diesel. The results showed that the evolutionary formulations are solutions with a smaller number of variables (on average) and a better error rate (average) and compared to the PLS APS. The formulation of the AEMT proposal with the fitness functions: medium risk classification, number of selected variables and number of correlated variables in the model, found solutions with a lower average errors found by the NSGA II and the MULTI-GA, and also a smaller number of variables compared to the multi-GA. Regarding the sensitivity to noise the solution found by AEMT was less sensitive than other formulations compared, showing that the AEMT is more robust classifiers. Finally shows the separation regions of classes, based on the dispersion of samples, depending on the selected one of the solutions AEMT, it is noted that it is possible to determine variables of regions split from the selected variables. / Este trabalho propõe o uso do algoritmo evolutivo multi-objetivo em tabelas (AEMT) para a seleção de variáveis em problemas de classificação, por meio de análise discriminante linear. O algoritmo proposto busca encontrar subconjuntos mínimos, das variáveis originais, que modelem classificadores robustos, sem perda significativa na capacidade de classificação. Os resultados dos classificadores modelados pelas soluções encontradas por este algoritmo são comparadas, neste trabalho, às encontradas por formulações mono-objetivo (como o PLS, o APS e implementações próprias de um Algoritmo Genético Simples) e formulações multi-objetivos (como algoritmo genético multi-objetivo simples - MULTI-GA - e o NSGA II). Como estudo de caso, o algoritmo foi aplicado na seleção de variáveis espectrais, para a classificação por análise discriminante linear (LDA - Linear Discriminant Analysis), de amostras de biodiesel/diesel. Os resultados obtidos mostraram que as formulações evolutivas encontram soluções com um menor número de variáveis (em média) e uma melhor taxa de erros (média) se comparadas ao PLS e o APS. A formulação do AEMT proposta com as funções de aptidão: risco médio de classificação, número de variáveis selecionadas e quantidade de variáveis correlacionadas presentes no modelo, encontrou soluções com uma média de erros inferior as encontradas pelo NSGA II e pelo MULTI-GA, e também uma menor quantidade de variáveis se comparado ao MULTI-GA. Em relação à sensibilidade a ruídos a solução encontrada pelo AEMT se mostrou menos sensível que as outras formulações comparadas, mostrando assim que o AEMT encontra classificadores mais robustos. Por fim, são apresentadas as regiões de separação das classes, com base na dispersão das amostras, em função das variáveis selecionadas por uma das soluções do AEMT, nota-se que é possível determinar regiões de separação a partir das variáveis selecionadas.
26

Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal Chemistry

Gertrudes, Jadson Castro 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
27

Análise e comparação de alguns métodos alternativos de seleção de variáveis preditoras no modelo de regressão linear / Analysis and comparison of some alternative methods of selection of predictor variables in linear regression models.

Marques, Matheus Augustus Pumputis 04 June 2018 (has links)
Neste trabalho estudam-se alguns novos métodos de seleção de variáveis no contexto da regressão linear que surgiram nos últimos 15 anos, especificamente o LARS - Least Angle Regression, o NAMS - Noise Addition Model Selection, a Razão de Falsa Seleção - RFS (FSR em inglês), o LASSO Bayesiano e o Spike-and-Slab LASSO. A metodologia foi a análise e comparação dos métodos estudados e aplicações. Após esse estudo, realizam-se aplicações em bases de dados reais e um estudo de simulação, em que todos os métodos se mostraram promissores, com os métodos Bayesianos apresentando os melhores resultados. / In this work, some new variable selection methods that have appeared in the last 15 years in the context of linear regression are studied, specifically the LARS - Least Angle Regression, the NAMS - Noise Addition Model Selection, the False Selection Rate - FSR, the Bayesian LASSO and the Spike-and-Slab LASSO. The methodology was the analysis and comparison of the studied methods. After this study, applications to real data bases are made, as well as a simulation study, in which all methods are shown to be promising, with the Bayesian methods showing the best results.
28

Análise e comparação de alguns métodos alternativos de seleção de variáveis preditoras no modelo de regressão linear / Analysis and comparison of some alternative methods of selection of predictor variables in linear regression models.

Matheus Augustus Pumputis Marques 04 June 2018 (has links)
Neste trabalho estudam-se alguns novos métodos de seleção de variáveis no contexto da regressão linear que surgiram nos últimos 15 anos, especificamente o LARS - Least Angle Regression, o NAMS - Noise Addition Model Selection, a Razão de Falsa Seleção - RFS (FSR em inglês), o LASSO Bayesiano e o Spike-and-Slab LASSO. A metodologia foi a análise e comparação dos métodos estudados e aplicações. Após esse estudo, realizam-se aplicações em bases de dados reais e um estudo de simulação, em que todos os métodos se mostraram promissores, com os métodos Bayesianos apresentando os melhores resultados. / In this work, some new variable selection methods that have appeared in the last 15 years in the context of linear regression are studied, specifically the LARS - Least Angle Regression, the NAMS - Noise Addition Model Selection, the False Selection Rate - FSR, the Bayesian LASSO and the Spike-and-Slab LASSO. The methodology was the analysis and comparison of the studied methods. After this study, applications to real data bases are made, as well as a simulation study, in which all methods are shown to be promising, with the Bayesian methods showing the best results.
29

Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal Chemistry

Jadson Castro Gertrudes 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
30

Paralelização de algoritmos APS e Firefly para seleção de variáveis em problemas de calibração multivariada / Parallelization of APF and Firefly algorithms for variable selection in multivariate calibration problems

Paula, Lauro Cássio Martins de 15 July 2014 (has links)
Submitted by Jaqueline Silva (jtas29@gmail.com) on 2014-10-21T18:36:43Z No. of bitstreams: 2 Dissertação - Lauro Cássio Martins de Paula - 2014.pdf: 2690755 bytes, checksum: 3f2c0a7c51abbf9cd88f38ffbe54bb67 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Jaqueline Silva (jtas29@gmail.com) on 2014-10-21T18:37:00Z (GMT) No. of bitstreams: 2 Dissertação - Lauro Cássio Martins de Paula - 2014.pdf: 2690755 bytes, checksum: 3f2c0a7c51abbf9cd88f38ffbe54bb67 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-10-21T18:37:00Z (GMT). No. of bitstreams: 2 Dissertação - Lauro Cássio Martins de Paula - 2014.pdf: 2690755 bytes, checksum: 3f2c0a7c51abbf9cd88f38ffbe54bb67 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-07-15 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The problem of variable selection is the selection of attributes for a given sample that best contribute to the prediction of the property of interest. Traditional algorithms as Successive Projections Algorithm (APS) have been quite used for variable selection in multivariate calibration problems. Among the bio-inspired algorithms, we note that the Firefly Algorithm (AF) is a newly proposed method with potential application in several real world problems such as variable selection problem. The main drawback of these tasks lies in them computation burden, as they grow with the number of variables available. The recent improvements of Graphics Processing Units (GPU) provides to the algorithms a powerful processing platform. Thus, the use of GPUs often becomes necessary to reduce the computation time of the algorithms. In this context, this work proposes a GPU-based AF (AF-RLM) for variable selection using multiple linear regression models (RLM). Furthermore, we present two APS implementations, one using RLM (APSRLM) and the other sequential regressions (APS-RS). Such implementations are aimed at improving the computational efficiency of the algorithms. The advantages of the parallel implementations are demonstrated in an example involving a large number of variables. In such example, gains of speedup were obtained. Additionally we perform a comparison of AF-RLM with APS-RLM and APS-RS. Based on the results obtained we show that the AF-RLM may be a relevant contribution for the variable selection problem. / O problema de seleção de variáveis consiste na seleção de atributos de uma determinada amostra que melhor contribuem para a predição da propriedade de interesse. O Algoritmo das Projeções Sucessivas (APS) tem sido bastante utilizado para seleção de variáveis em problemas de calibração multivariada. Entre os algoritmos bioinspirados, nota-se que o Algoritmo Fire f ly (AF) é um novo método proposto com potencial de aplicação em vários problemas do mundo real, tais como problemas de seleção de variáveis. A principal desvantagem desses dois algoritmos encontra-se em suas cargas computacionais, conforme seu tamanho aumenta com o número de variáveis. Os avanços recentes das Graphics Processing Units (GPUs) têm fornecido para os algoritmos uma poderosa plataforma de processamento e, com isso, sua utilização torna-se muitas vezes indispensável para a redução do tempo computacional. Nesse contexto, este trabalho propõe uma implementação paralela em GPU de um AF (AF-RLM) para seleção de variáveis usando modelos de Regressão Linear Múltipla (RLM). Além disso, apresenta-se duas implementações do APS, uma utilizando RLM (APS-RLM) e uma outra que utiliza a estratégia de Regressões Sequenciais (APS-RS). Tais implementações visam melhorar a eficiência computacional dos algoritmos. As vantagens das implementações paralelas são demonstradas em um exemplo envolvendo um número relativamente grande de variáveis. Em tal exemplo, ganhos de speedup foram obtidos. Adicionalmente, realiza-se uma comparação do AF-RLM com o APS-RLM e APS-RS. Com base nos resultados obtidos, mostra-se que o AF-RLM pode ser uma contribuição relevante para o problema de seleção de variáveis.

Page generated in 0.0631 seconds