Global ETD Search

221	Risk Factors for Suicidal Behaviour Among Canadian Civilians and Military Personnel: A Recursive Partitioning Approach Rusu, Corneliu 05 April 2018 (has links) Background: Suicidal behaviour is a major public health problem that has not abated over the past decade. Adopting machine learning algorithms that allow for combining risk factors that may increase the predictive accuracy of models of suicide behaviour is one promising avenue toward effective prevention and treatment. Methods: We used Canadian Community Health Survey – Mental Health and Canadian Forces Mental Health Survey to build conditional inference random forests models of suicidal behaviour in Canadian general population and Canadian Armed Forces. We generated risk algorithms for suicidal behaviour in each sample. We performed within- and between-sample validation and reported the corresponding performance metrics. Results: Only a handful of variables were important in predicting suicidal behaviour in Canadian general population and Canadian Armed Forces. Each model’s performance on within-sample validation was satisfactory, with moderate to high sensitivity and high specificity, while the performance on between-sample validation was conditional on the size and heterogeneity of the training sample. Conclusion: Using conditional inference random forest methodology on large nationally representative mental health surveys has the potential of generating models of suicidal behaviour that not only reflect its complex nature, but indicate that the true positive cases are likely to be captured by this approach. Models of suicidal behaviour Conditional inference random forests Random forests Machine learning Variable selection Recursive partitioning
222	Variable selection in multivariate calibration considering non-decomposability assumption and building blocks hypothesis / Seleção de variáveis em calibração multivariada considerando a presunção de não-decomponibilidade e a hipótese de blocos construtores Paula, Lauro Cássio Martins de 06 December 2018 (has links) Submitted by Liliane Ferreira (ljuvencia30@gmail.com) on 2018-12-12T10:14:40Z No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-12-12T10:36:08Z (GMT) No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-12-12T10:36:08Z (GMT). No. of bitstreams: 2 Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-12-06 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The procedure used to select a subset of suitable features in a given data set consists in variable selection, which is important when the dataset contains large number of variables and many of them are redundant. Multivariate calibration combines variable selection with statistical techniques to build mathematical models which relate the data to a given property of interest in order to predict this property by selecting informative variables. In this context, variable selection techniques have been widely applied to the solution of several optimization problems. For instance, Genetic Algorithms (GAs) are easy to implement and consist in a population-based model that uses selection and recombination operators to generate new solutions. However, usually in multivariate calibration the dataset present a considerable correlation degree among variables and this provides an evidence about the problem not being properly decomposed. Moreover, some studies in literature have claimed genetic operators used by GAs can cause the building blocks (BBs) disruption of viable solutions. Therefore, this work aims to claim that selecting variables in multivariate calibration is a non-completely decomposable problem (hypothesis 1) as well as that recombination operators affects the non-decomposability assumption (hypothesis 2). Additionally, we are proposing two heuristics, one local search-based operator and two versions of an Epistasis-based Feature Selection Algorithm (EbFSA) to improve model prediction performance and avoid BBs disruption. Based on the performed inquiry and experimental results, we are able to endorse the viability of our hypotheses and demonstrate EbFSA can overcome some traditional algorithms. / Seleção de variáveis é um procedimento para selecionar um subconjunto de características viáveis em um conjunto de dados, o qual se torna importante quando esse conjunto contém muitas variáveis redundantes. A calibração multivariada combina seleção de variáveis com técnicas estatísticas para construir modelos matemáticos com o intuito de predizer uma propriedade de interesse. Nesse contexto, técnicas de seleção têm sido aplicadas na solução de diversos problemas. Por exemplo, Algoritmos Genéticos (AGs) são fáceis de implementar e consistem em um modelo baseado em população, o qual utiliza operadores de seleção e recombinação para gerar novos indivíduos. No entanto, geralmente em calibração multivariada, o conjunto de dados apresenta um grau de correlação considerável entre as variáveis e isso nos fornece uma evidência de que tal problema não pode ser decomposto adequadamente. Além disso, alguns estudos da literatura têm afirmado que os operadores genéticos utilizados pelos AGs podem causar o rompimento dos Blocos Construtores (Building Blocks - BBs) das soluções viáveis. Portanto, este trabalho objetiva demonstrar que a seleção de variáveis em calibração multivariada é um problema não-completamente decomponível (hipótese 1), assim como que operadores de recombinação afetam a presunção de não-decomponibilidade (hipótese 2). Adicionalmente, este trabalho propõe duas heurísticas, um operador de busca local e duas versões de um Algoritmo para Seleção de Variáveis baseado em Epistasia (EbFSA) para aprimorar a capacidade de predição do modelo e evitar o rompimento de BBs. Baseando-se na pesquisa realizada e nos resultados obtidos, torna-se possível confirmar a viabilidade de nossas hipóteses e demonstrar que o EbFSA consegue superar alguns algoritmos tradicionais. Multivariate calibration Variable selection Genetic algorithm Building blocks Calibração multivariada Seleção de variáveis Algoritmo genético Blocos construtores
223	Previsão de series temporais via seleção de variaveis, reconstrução dinamica, ARMA-GARCH e redes neurais artificiais / Time series prediction by means of variable selection, dynamic reconstruction, ARMA-GARCH and articicial neural networks Freitas, Antonio Airton Carneiro de 27 February 2007 (has links) Orientadores: Marcio Luiz de Andrade Netto, Jose Roberto Securato , Alessandra de Avila Montini / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-09T14:31:10Z (GMT). No. of bitstreams: 1 Freitas_AntonioAirtonCarneirode_D.pdf: 2395437 bytes, checksum: 02e1418421c18b7b627cbfe5f41ed90a (MD5) Previous issue date: 2007 / Resumo: A inferência sobre a previsibilidade de sistemas dinâmicos não lineares multivariados tem sido freqüentemente realizada a partir de testes que podem induzir à conclusões equivocadas. Isto porque em muitas pesquisas realizadas os testes utilizados são o de autocorrelação, o da razão de variância e do espectro, que só verificam a existência ou não da correlação serial de componentes lineares. Neste trabalho, também são utilizados testes para avaliar a correlação serial de componentes não lineares. Busca-se provar empiricamente se as classes de modelos ARMA-GARCH e neurais, bem como a combinação deles, tem qualidade de previsão superior ao modelo diferença Martingale em previsões na média condicional dos retornos da taxa de câmbio brasileira e da umidade em microclima. Um método de seleção de variáveis é proposto para melhorar os resultados obtidos com modelos de previsão multivariados não baseados em teoria. As não linearidades negligenciadas durante o ajuste dos modelos neurais são avaliadas por meio do teste de Blake and Kapetanios (2003). O teste de White (2000) é utilizado para comparar os modelos de previsão propostos em conjunto com o modelo benchmark. Foi constatado empiricamente que os dois processos analisados não são do tipo diferença Martingale / Abstract: The inference on predictability of nonlinear multivariate systems has been done with some possible misleading conclusions when the test statistics are insignificant because autocorrelation, variance ratio and spectrum tests check only serial uncorrelatedness (linear components). This work empirically explores the non linear components and if the ARMA-GARCH, neural network models, as well as their combination, outperform a Martingale model in the conditional mean out-of-sample forecasts. It is proposed a variable selection method to improve the results obtained with multivariate models without a priori knowledge. The neglected nonlinearities and data snooping bias were avoided applying respectively the Blake and Kapetanios (2003) and the White (2000) reality check tests. The empirical results indicate that the Brazilian exchange rates and the microclimate humidity are not Martingale differences / Doutorado / Engenharia de Computação / Doutor em Engenharia Elétrica Previsão de series temporais Seleção de variaveis Redes neurais (Computação) Econometria Câmbio Time series prediction Variable selection ARMA GARCH Artificial Neural Networks Exchange rates
224	Algoritmo evolutivo multi-objetivo de tabelas para seleção de variáveis em calibração multivariada / Multi-objective evolutionary algorithm in tables for variable selection in multivariate calibration Jorge, Carlos Antônio Campos 08 April 2014 (has links) Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2014-12-16T20:28:04Z No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-12-22T10:40:49Z (GMT) No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-12-22T10:40:49Z (GMT). No. of bitstreams: 2 Dissertação - Carlos Antônio Campos Jorge - 2014.pdf: 703425 bytes, checksum: 664e77c2f8e857788e0128256d76d4b7 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-04-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes the use of a multi-objective evolutionary algorithm that makes use of subsets stored in a data structure called table in which the best individuals from each objective considered are preserved. This approach is compared in this work with the traditional mono-objective evolutionary algorithm (GA), classical algorithms (PLS and SPA) and another classic multi-objective algorithm (NSGA-II). As a case study, a multivariate calibration problem is presented which involves the prediction of protein concentration in samples of whole wheat from the spectrophotometric measurements. The results showed that the proposed formulation has a smaller prediction error when compared to the mono-objective formulation and with a lower number of variables. Finally,astudyofnoisesensitivityobtainedbythemulti-objectiveformulationshoweda better resultwhen compared tothe other classical algorithmforvariable selection. / Este trabalho propõe o uso de algoritmo multi-objetivo evolutivo que faz uso de subconjuntos armazenados em uma estrutura de dados chamada tabela em que os melhores indivíduos de cada objetivo são preservadas. Esta abordagem é comparada neste trabalho com o algoritmo evolutivo tradicional mono-objetivo e outros algoritmos clássicos (MONO-GA-MLR, PLS, APS-MLR) e com o algoritmo multi-objetivo clássico NSGAII-MLR.Comoestudodecaso,oproblemadecalibraçãomultivariadaenvolveaprevisão daconcentraçãodeproteínasemamostrasdetrigoapartirdasmediçõesespectrofotométricas. Os resultados mostraram que a formulação proposta seleciona um número menor de variáveis e apresenta um erro de predição menor quando comparada com o algoritmo evolutivo mono-objetivo. Quando comparado com os algoritmos clássicos PLS e APSMLR e com o algoritmo multi-objetivo clássico NSGA-II-MLR, o algoritmo proposto apresenta um erro de predição menor, porém com um número maior de variáveis selecionadas. Finalmente, um estudo de sensibilidade à ruído foi realizado. A solução obtida pela formulação proposta apresentou melhores resultados quando comparado com o algoritmo mono-objetivo e NSGA-II-MLR e desempenho similar à solução obtida com o SPA-MLR. Seleção de variáveis Algoritmos evolutivos Calibração Algoritmos multi-objetivos Multivariate calibration Variable selection Evolutionary algorithms Multi-objective algorithms
225	Algoritmo evolutivo multi-objetivo em tabelas para seleção de variáveis em classificação multivariada / Multi-objective evolutionary algorithm on tables for variable selection in multivariate classification Ribeiro, Lucas de Almeida 29 October 2014 (has links) Submitted by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T14:19:27Z No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T15:19:35Z (GMT) No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-04-01T15:19:35Z (GMT). No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-10-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes the use of multi-objective evolutionary algorithm on tables (AEMT) for variable selection in classification problems, using linear discriminant analysis. The proposed algorithm aims to find minimal subsets of the original variables, robust classifiers that model without significant loss in classification ability. The results of the classifiers modeled by the solutions found by this algorithm are compared in this work to those found by mono-objective formulations (such as PLS, APS and own implementations of a Simple Genetic Algorithm) and multi-objective formulations (such as the simple genetic algorithm multi -objective - MULTI-GA - and the NSGA II). As a case study, the algorithm was applied in the selection of spectral variables for classification by linear discriminant analysis (LDA) of samples of biodiesel / diesel. The results showed that the evolutionary formulations are solutions with a smaller number of variables (on average) and a better error rate (average) and compared to the PLS APS. The formulation of the AEMT proposal with the fitness functions: medium risk classification, number of selected variables and number of correlated variables in the model, found solutions with a lower average errors found by the NSGA II and the MULTI-GA, and also a smaller number of variables compared to the multi-GA. Regarding the sensitivity to noise the solution found by AEMT was less sensitive than other formulations compared, showing that the AEMT is more robust classifiers. Finally shows the separation regions of classes, based on the dispersion of samples, depending on the selected one of the solutions AEMT, it is noted that it is possible to determine variables of regions split from the selected variables. / Este trabalho propõe o uso do algoritmo evolutivo multi-objetivo em tabelas (AEMT) para a seleção de variáveis em problemas de classificação, por meio de análise discriminante linear. O algoritmo proposto busca encontrar subconjuntos mínimos, das variáveis originais, que modelem classificadores robustos, sem perda significativa na capacidade de classificação. Os resultados dos classificadores modelados pelas soluções encontradas por este algoritmo são comparadas, neste trabalho, às encontradas por formulações mono-objetivo (como o PLS, o APS e implementações próprias de um Algoritmo Genético Simples) e formulações multi-objetivos (como algoritmo genético multi-objetivo simples - MULTI-GA - e o NSGA II). Como estudo de caso, o algoritmo foi aplicado na seleção de variáveis espectrais, para a classificação por análise discriminante linear (LDA - Linear Discriminant Analysis), de amostras de biodiesel/diesel. Os resultados obtidos mostraram que as formulações evolutivas encontram soluções com um menor número de variáveis (em média) e uma melhor taxa de erros (média) se comparadas ao PLS e o APS. A formulação do AEMT proposta com as funções de aptidão: risco médio de classificação, número de variáveis selecionadas e quantidade de variáveis correlacionadas presentes no modelo, encontrou soluções com uma média de erros inferior as encontradas pelo NSGA II e pelo MULTI-GA, e também uma menor quantidade de variáveis se comparado ao MULTI-GA. Em relação à sensibilidade a ruídos a solução encontrada pelo AEMT se mostrou menos sensível que as outras formulações comparadas, mostrando assim que o AEMT encontra classificadores mais robustos. Por fim, são apresentadas as regiões de separação das classes, com base na dispersão das amostras, em função das variáveis selecionadas por uma das soluções do AEMT, nota-se que é possível determinar regiões de separação a partir das variáveis selecionadas. Seleção de variáveis Classificação multivariada Análise discriminante linear Variable selection Multivariate classification Linear discriminant analysis
226	Modelo para previsão de demanda ativa e reativa utilizando técnicas de seleção de entradas e redes neurais artificiais / Model for forecasting of active and reactive demand using technical selection of inputs and artificial neural networks Franco Junior, Edgar Fonseca, 1987- 23 August 2018 (has links) Orientadores: Takaaki Ohishi, Ricardo Menezes Salgado / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-23T18:34:18Z (GMT). No. of bitstreams: 1 FrancoJunior_EdgarFonseca_M.pdf: 7364704 bytes, checksum: be747ce93528de5661be3b2b3bf77cbc (MD5) Previous issue date: 2013 / Resumo: Em um sistema de energia elétrica em corrente alternada, a geração, a transmissão e o consumo de energia elétrica são divididos em potência ativa e reativa. O planejamento, a operação e análise destes sistemas são baseados em estimativas futuras do consumo de energia, e neste contexto são importantes os modelos de previsão de carga ativa e reativa. Nesta dissertação são testados modelos de previsão de curto prazo para carga ativa e reativa utilizando modelos de redes neurais artificiais. Em particular, são implementados e testados várias metodologias de seleção de entradas. A seleção de um subconjunto apropriado de variáveis para a inclusão em um sistema é um passo vital no desenvolvimento de qualquer modelo. Isto é particularmente importante nos modelos de previsão como redes neurais artificiais, pois o desempenho do modelo final é fortemente dependente das variáveis de entrada utilizadas. Esta dissertação desenvolveu um modelo que dá suporte à integração de algumas técnicas de seleção (informação mútua e informação mútua parcial) tendo o intuito de facilitar a utilização destas, assim como a sua comparação quando aplicada a determinados problemas de previsão. Para os experimentos, foram trabalhados 3 barramentos (com faixas de demanda diferentes), sendo que para cada um utilizou-se da carga de potência ativa e reativa. Os resultados alcançados são dados em função do erro médio absoluto e do erro percentual médio absoluto; além dessas medidas, foi realizada uma análise sobre o fator de potência para os valores reais e previstos / Abstract: In a system of alternating current electricity, generation, transmission and consumption of electricity are divided into active and reactive power. The planning, operation and analysis of these systems are based on estimates of future energy consumption, and in this context are important predictive models of active and reactive load. This dissertation tested forecasting models for short-term active and reactive load models using artificial neural networks. In particular, are implemented and tested many methods of selection enters. The selection of an appropriate subset of variables for inclusion in a system is a vital step in the development of any model. This is particularly important in forecasting models such as artificial neural networks, due to the performance of the final model is strongly dependent on the input variables used. This dissertation developed a model that supports the integration of some techniques for selection (mutual information and partial mutual information) with the aim to facilitate the use of these, as well as, its comparison when applied to certain prediction problems. For the experiments have been worked 3 buses (with different ranges of demand), and for each one used the load active and reactive power. The results obtained are given in function of the mean absolute error and mean absolute percentage error; in addition to these measures, an analysis was made of the power factor for the actual and target values / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Previsão de series temporais Potencia ativa e reativa Seleção de variaveis Redes neurais (Computação) Time series prediction Active and reactive power Variable selection Artificial neural network
227	Máquinas desorganizadas para previsão de séries de vazões / Unorganized machines to seasonal streamflow series forecasting Siqueira, Hugo Valadares, 1983- 24 August 2018 (has links) Orientadores: Christiano Lyra Filho, Romis Ribeiro de Faissol Attux / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-24T05:06:09Z (GMT). No. of bitstreams: 1 Siqueira_HugoValadares_D.pdf: 10867937 bytes, checksum: 512652380d6dd25b8717bfd5c8f5f0f8 (MD5) Previous issue date: 2013 / Resumo: Este trabalho explora a possibilidade de aplicação de arquiteturas de redes neurais artificiais - redes neurais de estado de eco (ESN) e máquinas de aprendizado extremo (ELM) - aqui denominadas coletivamente por máquinas desorganizadas (MDs), para a previsão de séries de vazões. A previsão de vazões é uma das etapas fundamentais no planejamento da operação dos sistemas de energia elétrica com predominância hidráulica, como é o caso brasileiro. Os modelos mais comumente utilizados para previsão de vazões pelo Setor Elétrico Brasileiro (SEB) são baseados na metodologia Box & Jenkins, lineares, sobretudo modelos periódicos auto-regressivos (PAR). Todavia, técnicas mais abrangentes, que alcancem melhores desempenhos, vêm sendo investigadas. Destacam-se as redes neurais artificiais, sobretudo arquiteturas do tipo perceptron de múltiplas camadas (MLP), muito conhecidas por serem aproximadores universais com elevada capacidade de aprendizado e mapeamento não-linear, características desejáveis para solução do problema em questão. Por outro lado, as máquinas desorganizadas têm apresentado resultados promissores na previsão de séries temporais. Estes modelos têm um processo de treinamento simples, baseado em encontrar os coeficientes de um combinador linear; em particular, não precisam fazer ajuste dos pesos de sua camada intermediária, ao contrário das redes MLP. Por isso, este trabalho investigou as MDs do tipo ESN e ELM, versões recorrente e não-recorrente, respectivamente, para previsão de vazões médias mensais. Serão avaliadas também três técnicas para retirada da componente sazonal característica destas séries ¿ médias móveis, padronização e diferenças sazonal ¿ além da exploração de técnicas de seleção de variáveis do tipo filtro e wrapper, no intuito de melhorar performance dos modelos preditores. Na maioria dos casos estudados, os resultados obtidos pelas MDs na previsão das séries associadas a importantes usinas hidrelétricas brasileiras - Furnas, Emborcação e Sobradinho - em cenários com horizontes variados, mostraram-se de melhor qualidade do que os obtidos pelo modelo PAR e as redes neurais MLPs / Abstract: This work explores the possibility of application of neural network architectures ¿ echo state networks (ESN) and extreme learning machines (ELM) ¿ collectively referred as unorganized machines (UMs), to seasonal streamflow series forecasting. Streamflow forecasting is one of the key steps in the planning of operation of power systems with hydraulic predominance, as in the Brazilian case. The models most commonly used to streamflow prediction by the Brazilian Electric Sector are based on the Box & Jenkins methodology, with linear and especially periodic autoregressive models. However, more extensive techniques that achieve better performances have been investigated to this task. We highlight artificial neural networks, especially architectures such as multilayer perceptron (MLP), known to be universal approximators with high learning ability skills ability to perform nonlinear mapping, desirable characteristics for the solution of this problem. On the other hand, unorganized machines have shown promising results in time series forecasting. These models have a simple training process, based on finding the coefficients of a linear combiner; they do not require adjustments in the weights of the hidden layer, which are necessary with MLP architecture. Therefore, this study investigated the UMs such as ESN and ELM, recurrent and nonrecurrent versions, respectively, to seasonal streamflow series forecasting. Three techniques to remove the seasonal component of streamflow series will also be evaluated - moving averages, standardization and seasonal differences. In addition, In order to improve the performance of predictive models techniques for variable selection, such as filters and wrappers, will also be explored. In the most cases, the computational results obtained by the UMs in streamflow series forecasting associated to important Brazilian hydroelectric plants - Furnas, Emborcação and Sobradinho - with scenarios including several horizons, presented better performance when compared to forecasting obtained with PAR models and MLPs / Doutorado / Energia Eletrica / Doutor em Engenharia Elétrica Previsão de vazões Pronósticos (Modelos Box Jenkins) Redes neurais (Computação) Seleção de variaveis Streamflow forecasting Predictions (Box-Jenkins Models) Neural networks (Computer) Variable selection
228	Sélection d'items en classification non supervisée et questionnaires informatisés adaptatifs : applications à des données de qualité de vie liée à la santé / Item selection in clustering and computerized adaptive tests : applications to health-related quality of life data Michel, Pierre 13 December 2016 (has links) Un questionnaire adaptatif fournit une mesure valide de la qualité de vie des patients et réduit le nombre d'items à remplir. Cette approche est dépendante des modèles utilisés, basés sur des hypothèses parfois non vérifiables. Nous proposons une approche alternative basée sur les arbres de décision. Cette approche n'est basée sur aucune hypothèse et requiert moins de temps de calcul pour l'administration des items. Nous présentons différentes simulations qui démontrent la pertinence de notre approche. Nous présentons une méthode de classification non supervisée appelée CUBT. CUBT comprend trois étapes pour obtenir une partition optimale d'un jeu de données. La première étape construit un arbre en divisant récursivement le jeu de données. La deuxième étape regroupe les paires de noeuds terminaux de l'arbre. La troisième étape agrège des nœuds terminaux qui ne sont pas issus de la même division. Différentes simulations sont présentés pour comparer CUBT avec d'autres approches. Nous définissons également des heuristiques concernant le choix des paramètres de CUBT. CUBT identifie les variables qui sont actives dans la construction de l'arbre. Cependant, bien que certaines variables peuvent être sans importance, elles peuvent être compétitives pour les variables actives. Il est essentiel de classer les variables en fonction d'un score d'importance pour déterminer leur pertinence dans un modèle donné. Nous présentons une méthode pour mesurer l'importance des variables basée sur CUBT et les divisions binaires compétitives pour définir un score d'importance des variables. Nous analysons l'efficacité et la stabilité de ce nouvel indice, en le comparant à d'autres méthodes. / An adaptive test provides a valid measure of quality of life of patients and reduces the number of items to be filled. This approach is dependent on the models used, sometimes based on unverifiable assumptions. We propose an alternative approach based on decision trees. This approach is not based on any assumptions and requires less calculation time for item administration. We present different simulations that demonstrate the relevance of our approach.We present an unsupervised classification method called CUBT. CUBT includes three steps to obtain an optimal partition of a data set. The first step grows a tree by recursively dividing the data set. The second step groups together the pairs of terminal nodes of the tree. The third step aggregates terminal nodes that do not come from the same split. Different simulations are presented to compare CUBT with other approaches. We also define heuristics for the choice of CUBT parameters.CUBT identifies the variables that are active in the construction of the tree. However, although some variables may be irrelevant, they may be competitive for the active variables. It is essential to rank the variables according to an importance score to determine their relevance in a given model. We present a method to measure the importance of variables based on CUBT and competitive binary splis to define a score of variable importance. We analyze the efficiency and stability of this new index, comparing it with other methods. Sélection de variables Banques d'items Questionnaires adaptatifs Classification non supervisée Arbres de décision binaires Variable selection Item banking Adaptive testing Clustering Binary decision trees 510
229	Investigation of multivariate prediction methods for the analysis of biomarker data Hennerdal, Aron January 2006 (has links) The paper describes predictive modelling of biomarker data stemming from patients suffering from multiple sclerosis. Improvements of multivariate analyses of the data are investigated with the goal of increasing the capability to assign samples to correct subgroups from the data alone. The effects of different preceding scalings of the data are investigated and combinations of multivariate modelling methods and variable selection methods are evaluated. Attempts at merging the predictive capabilities of the method combinations through voting-procedures are made. A technique for improving the result of PLS-modelling, called bagging, is evaluated. The best methods of multivariate analysis of the ones tried are found to be Partial least squares (PLS) and Support vector machines (SVM). It is concluded that the scaling have little effect on the prediction performance for most methods. The method combinations have interesting properties – the default variable selections of the multivariate methods are not always the best. Bagging improves performance, but at a high cost. No reasons for drastically changing the work flows of the biomarker data analysis are found, but slight improvements are possible. Further research is needed. Multivariate analysis multiple sclerosis biomarker predictive modeling partial least squares support vector machines variable selection bagging neural networks Bioinformatics (Computational Biology) Bioinformatik (beräkningsbiologi)
230	Méthodes statistiques pour la modélisation des facteurs influençant la distribution et l’abondance de populations : application aux rapaces diurnes nichant en France / Statistical methods for modelling the distribution and abundance of populations : application to raptors breeding in France Le Rest, Kévin 19 December 2013 (has links) Face au déclin global de la biodiversité, de nombreux suivis de populations animales et végétales sont réalisés sur de grandes zones géographiques et durant une longue période afin de comprendre les facteurs déterminant la distribution, l’abondance et les tendances des populations. Ces suivis à larges échelles permettent de statuer quantitativement sur l’état des populations et de mettre en place des plans de gestion appropriés en accord avec les échelles biologiques. L’analyse statistique de ce type de données n’est cependant pas sans poser un certain nombre de problèmes. Classiquement, on utilise des modèles linéaires généralisés (GLM), formalisant les liens entre des variables supposées influentes (par exemple caractérisant l’environnement) et la variable d’intérêt (souvent la présence / absence de l’espèce ou des comptages). Il se pose alors un problème majeur qui concerne la manière de sélectionner ces variables influentes dans un contexte de données spatialisées. Cette thèse explore différentes solutions et propose une méthode facilement applicable, basée sur une validation croisée tenant compte des dépendances spatiales. La robustesse de la méthode est évaluée par des simulations et différents cas d’études dont des données de comptages présentant une variabilité plus forte qu’attendue (surdispersion). Un intérêt particulier est aussi porté aux méthodes de modélisation pour les données ayant un nombre de zéros plus important qu’attendu (inflation en zéro). La dernière partie de la thèse utilise ces enseignements méthodologiques pour modéliser la distribution, l’abondance et les tendances des rapaces diurnes en France. / In the context of global biodiversity loss, more and more surveys are done at a broad spatial extent and during a long time period, which is done in order to understand processes driving the distribution, the abundance and the trends of populations at the relevant biological scales. These studies allow then defining more precise conservation status for species and establish pertinent conservation measures. However, the statistical analysis of such datasets leads some concerns. Usually, generalized linear models (GLM) are used, trying to link the variable of interest (e.g. presence/absence or abundance) with some external variables suspected to influence it (e.g. climatic and habitat variables). The main unresolved concern is about the selection of these external variables from a spatial dataset. This thesis details several possibilities and proposes a widely usable method based on a cross-validation procedure accounting for spatial dependencies. The method is evaluated through simulations and applied on several case studies, including datasets with higher than expected variability (overdispersion). A focus is also done for methods accounting for an excess of zeros (zero-inflation). The last part of this manuscript applies these methodological developments for modelling the distribution, abundance and trend of raptors breeding in France. Autocorrélation spatiale Inflation en zéros Rapaces Surdispersion Sélection de variables Validation croisée spatialisée Overdispersion Spatial autocorrelation Raptors Spatial cross-validation Variable selection Zero-inflation 598.9

Search results