Global ETD Search

11	[en] SELECTION OF VARIABLES AND PATTERN CLASSIFICATION BY NEURAL NETWORKS AS HELP TO THE DIAGNOSTIC OF HEART DISEASE / [pt] SELEÇÃO DE VARIÁVEIS E CLASSIFICAÇÃO DE PADRÕES POR REDES NEURAIS COMO AUXÍLIO AO DIAGNÓSTICO DE DOENÇA CARDÍACA THIAGO BAPTISTA RODRIGUES 09 April 2007 (has links) [pt] Esta dissertação propõe uma metodologia, baseada em procedimentos quantitativos, para auxiliar o diagnóstico de indivíduos portadores de doença cardíaca. A metodologia proposta foi implementada e analisada em um grupo de indivíduos do banco de dados público intitulado Heart Disease Database (Base de Dados pública de Doença Cardíaca) (Aha, atualizado em 2001), diagnosticados nas cidades de Cleveland e Long Beach, nos Estados Unidos. Os resultados obtidos neste estudo foram comparados aos resultados de outros autores encontrados na literatura, de forma a se ter uma medida da qualidade dos resultados aqui obtidos. Foram utilizadas também outras técnicas de classificação de padrões conhecidas na literatura, denominadas Análise Discriminante e Algoritmo C4.5, de forma a estabelecer comparações com os resultados obtidos nesta dissertação utilizando Redes Neurais, e aplicar a metodologia sugerida na divisão dos conjuntos de treinamento/generalização. Os resultados obtidos foram satisfatórios. Um percentual de acerto médio de 91,0 % foi atingido, enquanto que outros resultados de estudos usando a mesma base de dados alcançaram percentuais de acerto médio de 83,0 % (Ho & Chou, 2001) e 83,5 % (Hu, Li, Cai & Xu, 2004). O desempenho da Rede Neural também foi melhor quando comparado ao da Análise Discriminante e do Algoritmo C4.5. A metodologia de divisão dos conjuntos de treinamento/generalização sugerida nesta dissertação promoveu melhorias em todas as três técnicas de classificação de padrões utilizadas. Acredita-se que os resultados obtidos poderão auxiliar as condutas médicas em relação ao diagnóstico de doença cardíaca, podendo, portanto, vir a ser úteis na prevenção e/ou tratamento de doenças cardíacas. / [en] This dissertation proposes a methodology, established in quantitative procedures, to assist the diagnostic of individuals with heart disease. The proposed methodology was implemented and analyzed in a group of individuals of the public database called Heart Disease Database (Aha, current in 2001), diagnosed in the cities of Cleveland and Long Beach, in the United States. The results gotten in this study had been compared with the results of other authors found in literature to have a measure of the quality of the results gotten here. Others techniques of classification of standards known in literature had also been used, called Discriminate Analysis and C4.5 Algorithm, to establish comparisons with the results gotten in this dissertation using Neural Networks, and to apply the methodology suggested in the division of the sets of training/generalization. The gotten results were satisfactory. A percentage of average rightness of 91.0 % was reached, whereas other results of studies using the same database had reached percentages of average rightness of 83.0 % (Ho & Chou, 2001) and 83.5 % (Hu, Li, Cai & Xu, 2004). The performance of the Neural Network was also better when compared with Discriminate Analysis and C4.5 Algorithm. The methodology of division of the sets of training/generalization suggested in this dissertation promoted improvements in all the three used techniques of classification of standards. It´s believable that the gotten results will be able to assist the medical behaviors in relation to the diagnostic of heart disease, becoming useful in the prevention and/or treatment of heart diseases. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] CLASSIFICACAO [en] CLASSIFICATION [pt] INFORMACAO MUTUA [en] MUTUAL INFORMATION [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] DIAGNOSTICO [en] DIAGNOSTIC [pt] DOENCA CARDIACA [en] HEART DISEASE
12	[pt] APLICAÇÃO DE BUSINESS ANALYTICS PARA SELEÇÃO DE INDICADORES E IDENTIFICAÇÃO DE SEUS RELACIONAMENTOS EM UM SISTEMA DE MENSURAÇÃO DE DESEMPENHO / [en] APPLICATION OF BUSINESS ANALYTICS TO SELECT INDICATORS AND IDENTIFY THEIR RELATIONSHIPS IN A PERFORMANCE MEASUREMENT SYSTEM. 10 September 2020 (has links) [pt] Os sistemas de mensuração de desempenho buscam acompanhar o alcance dos objetivos estratégicos a partir de um conjunto de indicadores que suportem os processos de tomada de decisão. Várias iniciativas, entretanto, têm se mostrado ineficazes devido à subjetividade no desdobramento desses objetivos em indicadores. Métodos de business analytics vêm sendo utilizados para auxiliar esse desdobramento via análise de dados, com maior geração de valor para as organizações. O presente trabalho apresenta a aplicação das técnicas de Random Forest e Bayesian Belief Network para, respectivamente, selecionar indicadores e mapear suas relações em um estudo prático numa empresa do setor de transporte ferroviário de cargas, com foco no suporte ao indicador de disponibilidade de locomotivas. Para o processo de seleção de variáveis, observou-se que o algoritmo Variable Selection Using Random Forest obteve o melhor desempenho em acurácia e tempo de processamento. Na elaboração do mapa estratégico, a combinação do algoritmo Tabu Search com o critério estatístico Bayesian Information Criteria levou à escolha de um arranjo parcimonioso em suas relações, aderente à expectativa inicial associada ao critério estatístico utilizado. Foi observado um significativo vínculo entre a disponibilidade de locomotivas e indicadores operacionais da empresa em estudo, revelando o potencial de influência do modelo operacional nos resultados da disponibilidade. Verifica-se a oportunidade de emprego de técnicas de séries temporais para a previsão de desempenho a partir dos relacionamentos entre indicadores, bem como para aperfeiçoar a fase de seleção de variáveis, com a identificação de possíveis defasagens existentes nesses relacionamentos. / [en] Performance measurement systems seek to monitor the achievement of strategic objectives through a set of indicators that support decision-making processes. Several initiatives, however, have been shown to be ineffective due to the subjectivity in the unfolding of these objectives into indicators. Business analytics methods have been used to assist this deployment via data analysis, with greater value generation for organizations. The present work presents the application of Random Forest and Bayesian Belief Network techniques to, respectively, select indicators and map their relationships in a practical study in a company in the rail freight sector, with a focus on supporting the locomotive availability indicator. For the variable selection process, it was observed that the Variable Selection Using Random Forest algorithm obtained the best performance in accuracy and computation time. In the preparation of the strategic map, the combination of the Tabu Search algorithm with the Bayesian Information Criteria statistical criterion led to the choice of a parsimonious arrangement in its relations, adhering to the initial expectation associated with the statistical criterion used. A significant link was observed between the locomotive availability and operational indicators of the company under study, revealing the potential influence of the operational model on the availability results. There is an opportunity to use time series techniques to predict performance based on the relationships between indicators, as well as to improve the variable selection phase, with the identification of possible lags in these relationships [pt] SELECAO DE VARIAVEIS [pt] MAPEAMENTO DE RELACOES [pt] SISTEMA DE MENSURACAO DE DESEMPENHO [pt] BUSINESS ANALYTICS [en] SELECTION OF VARIABLES [en] RELATIONSHIP MAPPING [en] PERFORMANCE MEASUREMENT SYSTEM [en] BUSINESS ANALYTICS
13	[en] ON THE MISSING DISINFLATION PUZZLE: A DATA-DRIVEN APPROACH / [pt] SOBRE O MISSING DISINFLATION PUZZLE: UMA ABORDAGEM COM APRENDIZADO DE MÁQUINA 23 September 2021 (has links) [pt] O presente trabalho investiga as potenciais explicações para o fenômeno do Missing Disinflation Puzzle. Nós montamos uma base de dados contendo apenas variáveis associadas com o fenômeno, e utilizamos métodos de Machine Learning para calcular estimativas para a inflação do Consumer Price Index durante o período de interesse. Esses métodos podem lidar com bases de dados extensas, e realizar seleção de variáveis. Um exercício de seleção de melhores modelos utilizando a técnica de Model Confidence Set sobre previsões pseudo out-of-sample é proposto. Nós analisamos o padrão de seleção de variáveis entre os melhores modelos selecionados e encontramos evidência a favor das explicações associadas ao uso de diferentes métricas de expectativas de inflação - em especial aquelas ligadas a pesquisas feitas com consumidores. / [en] This paper examines the potential explanations for the Missing Disinflation Puzzle (MDP). We construct a data set containing only variables associated with the puzzle, and use of Machine Learning (ML) methods to compute estimates for U.S. Consumer Price Index inflation over the period of interest. These methods can handle large data sets, and perform variable selection. A model selection exercise using Model Confidence Set over pseudo-out-of-sample forecasts is proposed to assess forecasting performance and to analyze the variable selection pattern of these models. We analyze the variable selection performed by the best models and find evidence for explanations associated with different metrics for inflation expectations - in particular those linked to consumers surveys. [pt] INFLACAO [pt] MODEL CONFIDENCE SET [pt] AVALIACAO DE PREVISAO [pt] MACHINE LEARNING [pt] SELECAO DE VARIAVEIS [en] INFLATION [en] MODEL CONFIDENCE SET [en] FORECAST EVALUATION [en] MACHINE LEARNING [en] SELECTION OF VARIABLES
14	Exploration de données pour l'optimisation de trajectoires aériennes / Data analysis for aircraft trajectory optimization Rommel, Cédric 26 October 2018 (has links) Cette thèse porte sur l'utilisation de données de vols pour l'optimisation de trajectoires de montée vis-à-vis de la consommation de carburant.Dans un premier temps nous nous sommes intéressé au problème d'identification de modèles de la dynamique de l'avion dans le but de les utiliser pour poser le problème d'optimisation de trajectoire à résoudre. Nous commençont par proposer une formulation statique du problème d'identification de la dynamique. Nous l'interpretons comme un problème de régression multi-tâche à structure latente, pour lequel nous proposons un modèle paramétrique. L'estimation des paramètres est faite par l'application de quelques variations de la méthode du maximum de vraisemblance.Nous suggérons également dans ce contexte d'employer des méthodes de sélection de variable pour construire une structure de modèle de régression polynomiale dépendant des données. L'approche proposée est une extension à un contexte multi-tâche structuré du bootstrap Lasso. Elle nous permet en effet de sélectionner les variables du modèle dans un contexte à fortes corrélations, tout en conservant la structure du problème inhérente à nos connaissances métier.Dans un deuxième temps, nous traitons la caractérisation des solutions du problème d'optimisation de trajectoire relativement au domaine de validité des modèles identifiés. Dans cette optique, nous proposons un critère probabiliste pour quantifier la proximité entre une courbe arbitraire et un ensemble de trajectoires échantillonnées à partir d'un même processus stochastique. Nous proposons une classe d'estimateurs de cette quantitée et nous étudions de façon plus pratique une implémentation nonparamétrique basé sur des estimateurs à noyau, et une implémentation paramétrique faisant intervenir des mélanges Gaussiens. Ce dernier est introduit comme pénalité dans le critère d'optimisation de trajectoire dans l'objectif l'intention d'obtenir directement des trajectoires consommant peu sans trop s'éloigner des régions de validité. / This thesis deals with the use of flight data for the optimization of climb trajectories with relation to fuel consumption.We first focus on methods for identifying the aircraft dynamics, in order to plug it in the trajectory optimization problem. We suggest a static formulation of the identification problem, which we interpret as a structured multi-task regression problem. In this framework, we propose parametric models and use different maximum likelihood approaches to learn the unknown parameters.Furthermore, polynomial models are considered and an extension to the structured multi-task setting of the bootstrap Lasso is used to make a consistent selection of the monomials despite the high correlations among them.Next, we consider the problem of assessing the optimized trajectories relatively to the validity region of the identified models. For this, we propose a probabilistic criterion for quantifying the closeness between an arbitrary curve and a set of trajectories sampled from the same stochastic process. We propose a class of estimators of this quantity and prove their consistency in some sense. A nonparemetric implementation based on kernel density estimators, as well as a parametric implementation based on Gaussian mixtures are presented. We introduce the later as a penalty term in the trajectory optimization problem, which allows us to control the trade-off between trajectory acceptability and consumption reduction. Optimisation de trajectoires Identification de systèmes dynamiques Selection de variables Apprentissage multi-Tâches Estimation de densité Analyse de données fonctionnelles Trajectory optimization System identification Structured feature selection Multi-Task learning Density estimation Functional data analysis 519
15	[en] VARIABLE SELECTION FOR LINEAR AND SMOOTH TRANSITION MODELS VIA LASSO: COMPARISONS, APPLICATIONS AND NEW METHODOLOGY / [pt] SELEÇÃO DE VARIÁVEIS PARA MODELOS LINEARES E DE TRANSIÇÃO SUAVE VIA LASSO: COMPARAÇÕES, APLICAÇÕES E NOVA METODOLOGIA CAMILA ROSA EPPRECHT 10 June 2016 (has links) [pt] A seleção de variáveis em modelos estatísticos é um problema importante, para o qual diferentes soluções foram propostas. Tradicionalmente, pode-se escolher o conjunto de variáveis explicativas usando critérios de informação ou informação à priori, mas o número total de modelos a serem estimados cresce exponencialmente a medida que o número de variáveis candidatas aumenta. Um problema adicional é a presença de mais variáveis candidatas que observações. Nesta tese nós estudamos diversos aspectos do problema de seleção de variáveis. No Capítulo 2, comparamos duas metodologias para regressão linear: Autometrics, que é uma abordagem geral para específico (GETS) baseada em testes estatísticos, e LASSO, um método de regularização. Diferentes cenários foram contemplados para a comparação no experimento de simulação, variando o tamanho da amostra, o número de variáveis relevantes e o número de variáveis candidatas. Em uma aplicação a dados reais, os métodos foram comparados para a previsão do PIB dos EUA. No Capítulo 3, introduzimos uma metodologia para seleção de variáveis em modelos regressivos e autoregressivos de transição suave (STR e STAR) baseada na regularização do LASSO. Apresentamos uma abordagem direta e uma escalonada (stepwise). Ambos os métodos foram testados com exercícios de simulação exaustivos e uma aplicação a dados genéticos. Finalmente, no Capítulo 4, propomos um critério de mínimos quadrados penalizado baseado na penalidade l1 do LASSO e no CVaR (Conditional Value at Risk) dos erros da regressão out-of-sample. Este é um problema de otimização quadrática resolvido pelo método de pontos interiores. Em um estudo de simulação usando modelos de regressão linear, mostra-se que o método proposto apresenta performance superior a do LASSO quando os dados são contaminados por outliers, mostrando ser um método robusto de estimação e seleção de variáveis. / [en] Variable selection in statistical models is an important problem, for which many different solutions have been proposed. Traditionally, one can choose the set of explanatory variables using information criteria or prior information, but the total number of models to evaluate increases exponentially as the number of candidate variables increases. One additional problem is the presence of more candidate variables than observations. In this thesis we study several aspects of the variable selection problem. First, we compare two procedures for linear regression: Autometrics, which is a general-to-specific (GETS) approach based on statistical tests, and LASSO, a shrinkage method. Different scenarios were contemplated for the comparison in a simulation experiment, varying the sample size, the number of relevant variables and the number of candidate variables. In a real data application, we compare the methods for GDP forecasting. In a second part, we introduce a variable selection methodology for smooth transition regressive (STR) and autoregressive (STAR) models based on LASSO regularization. We present a direct and a stepwise approach. Both methods are tested with extensive simulation exercises and an application to genetic data. Finally, we introduce a penalized least square criterion based on the LASSO l1- penalty and the CVaR (Conditional Value at Risk) of the out-of-sample regression errors. This is a quadratic optimization problem solved by interior point methods. In a simulation study in a linear regression framework, we show that the proposed method outperforms the LASSO when the data is contaminated by outliers, showing to be a robust method of estimation and variable selection. [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] CVAR [pt] LASSO [en] LASSO [pt] INTERACOES [en] INTERACTIONS [pt] SELECAO DE MODELOS [en] MODEL SELECTION [pt] AUTOMETRICS [en] AUTOMETRICS [pt] ADALASSO [en] ADALASSO [pt] PROPRIEDADE DE ORACULO [en] ORACLE PROPERTY [pt] MODELOS DE TRANSICAO SUAVE [en] SMOOTH TRANSITION MODELS [pt] DADOS GENETICOS [en] GENETIC DATA

Page generated in 0.1116 seconds