Global ETD Search

221	Towards the identification of a neighbourhood park typology : a conceptual and methodological exploration Bird, Madeleine 08 1900 (has links) Peu d’études ont évalué les caractéristiques des parcs pouvant encourager l’activité physique spécifiquement chez les jeunes. Cette étude vise à estimer la fiabilité d’un outil d’observation des parcs orienté vers les jeunes, à identifier les domaines conceptuels des parcs capturés par cet outil à l’aide d’une opérationnalisation du modèle conceptuel des parcs et de l’activité physique et à identifier différents types de parcs. Un total de 576 parcs ont été évalués en utilisant un outil d’évaluation des parcs. La fiabilité intra-juges et la fiabilité inter-juges de cet outil ont été estimées. Une analyse exploratoire par composantes principales (ACP) a été effectuée en utilisant une rotation orthogonale varimax et les variables étaient retenues si elles saturaient à ≥0.3 sur une composante. Une analyse par grappes (AG) à l’aide de la méthode de Ward a ensuite été réalisée en utilisant les composantes principales et une mesure de l’aire des parcs. L’outil était généralement fiable et l’ACP a permis d'identifier dix composantes principales qui expliquaient 60% de la variance totale. L’AG a donné un résultat de neuf grappes qui expliquaient 40% de la variance totale. Les méthodes de l’ACP et l’AG sont donc faisables avec des données de parcs. Les résultats ont été interprétés en utilisant l’opérationnalisation du modèle conceptuel. / Few studies have characterized park features that may be appealing for youth physical activity (PA). This study assesses the reliability of a youth-oriented direct-observation park assessment tool; identifies park domains captured by the tool using an operationalized conceptual model of parks and PA, and identifies distinct park types. 576 parks were audited using a park observation tool; intra- and inter-rater reliability were estimated. Exploratory principal component analysis (PCA) was conducted and variables were retained if they loaded at 0.3 or higher. A cluster analysis (CA) was conducted using the principal components and park area. The tool was found to be reliable and PCA yielded ten principal components explaining 60% of the total variance. The CA yielded a nine-cluster outcome explaining 40% of the total variance. PCA and CA were found to be feasible methods to use with park data. The operationalization of the conceptual model helped interpret these results. Cohorte QUALITY Parcs Activité physique chez les jeunes Environnement bâti Outil d’évaluation des parcs Analyse par grappes QUALITY Cohort Parks Youth physical activity Built environment Park audit tool Reliability Exploratory principal component analysis Cluster analysis
222	Ecodesign of large-scale photovoltaic (PV) systems with multi-objective optimization and Life-Cycle Assessment (LCA) / Écoconception de systèmes photovoltaïques (PV) à grande échelle par optimisation multi-objectif et Analyse du Cycle de Vie (ACV) Perez Gallardo, Jorge Raúl 25 October 2013 (has links) En raison de la demande croissante d’énergie dans le monde et des nombreux dommages causés par l’utilisation des énergies fossiles, la contribution des énergies renouvelables a augmenté de manière significative dans le mix énergétique global dans le but de progresser vers un développement plus durable. Dans ce contexte, ce travail vise à l’élaboration d’une méthodologie générale pour la conception de systèmes photovoltaïques, basée sur les principes d’écoconception, en tenant compte simultanément des considérations technico-économiques et environnementales. Afin d’évaluer la performance environnementale des systèmes PV, une technique d’évaluation environnementale basée sur l’Analyse du Cycle de Vie (ACV) a été utilisée. Le modèle environnemental a été couplé d’une manière satisfaisante avec le modèle de conception d’un système PV connecté au réseau pour obtenir un modèle global, apte à un traitement par optimisation. Le modèle de conception du système PV résultant a été développé en faisant intervenir l’estimation du rayonnement solaire reçu dans une zone géographique concernée, le calcul de la quantité annuelle d’énergie produite à partir du rayonnement solaire reçu, les caractéristiques des différents composants et l’évaluation des critères technico-économiques à travers le temps de retour énergétique et le temps de retour sur investissement. Le modèle a ensuite été intégré dans une boucle d’optimisation multi-objectif externe basée sur une variante de l’algorithme génétique NSGA-II. Un ensemble de solutions du Pareto a été généré représentant le compromis optimal entre les différents objectifs considérés dans l’analyse. Une méthode basée sur une Analyse en Composantes Principales (ACP) est appliquée pour détecter et enlever les objectifs redondants de l’analyse sans perturber les caractéristiques principales de l’espace des solutions. Enfin, un outil d’aide à la décision basé sur M- TOPSIS a été utilisé pour sélectionner l’option qui offre un meilleur compromis entre toutes les fonctions objectifs considérées et étudiées. Bien que les modules photovoltaïques à base de silicium cristallin (c-Si) ont une meilleure performance vis-à-vis de la production d’énergie, les résultats ont montré que leur impact environnement est le plus élevé des filières technologiques de production de panneaux. Les technologies en « couches minces » présentent quant à elles le meilleur compromis dans tous les scénarios étudiés. Une attention particulière a été accordée aux processus de recyclage des modules PV, en dépit du peu d’informations disponibles pour toutes les technologies évaluées. La cause majeure de ce manque d’information est la durée de vie relativement élevée des modules photovoltaïques. Les données relatives aux procédés de recyclage pour les technologies basées sur CdTe et m-Si sont introduites dans la procédure d’optimisation par l’écoconception. En tenant compte de la production d’énergie et du temps de retour sur énergie comme critères d’optimisation, l’avantage de la gestion de fin de vie des modules PV a été confirmé. Une étude économique de la stratégie de recyclage doit être considérée et étudiée afin d’avoir une vision plus globale pour la prise de décision. / Because of the increasing demand for the provision of energy worldwide and the numerous damages caused by a major use of fossil sources, the contribution of renewable energies has been increasing significantly in the global energy mix with the aim at moving towards a more sustainable development. In this context, this work aims at the development of a general methodology for designing PV systems based on ecodesign principles and taking into account simultaneously both techno-economic and environmental considerations. In order to evaluate the environmental performance of PV systems, an environmental assessment technique was used based on Life Cycle Assessment (LCA). The environmental model was successfully coupled with the design stage model of a PV grid-connected system (PVGCS). The PVGCS design model was then developed involving the estimation of solar radiation received in a specific geographic location, the calculation of the annual energy generated from the solar radiation received, the characteristics of the different components and the evaluation of the techno-economic criteria through Energy PayBack Time (EPBT) and PayBack Time (PBT). The performance model was then embedded in an outer multi-objective genetic algorithm optimization loop based on a variant of NSGA-II. A set of Pareto solutions was generated representing the optimal trade-off between the objectives considered in the analysis. A multi-variable statistical method (i.e., Principal Componet Analysis, PCA) was then applied to detect and omit redundant objectives that could be left out of the analysis without disturbing the main features of the solution space. Finally, a decision-making tool based on M-TOPSIS was used to select the alternative that provided a better compromise among all the objective functions that have been investigated. The results showed that while the PV modules based on c-Si have a better performance in energy generation, the environmental aspect is what makes them fall to the last positions. TF PV modules present the best trade-off in all scenarios under consideration. A special attention was paid to recycling process of PV module even if there is not yet enough information currently available for all the technologies evaluated. The main cause of this lack of information is the lifetime of PV modules. The data relative to the recycling processes for m-Si and CdTe PV technologies were introduced in the optimization procedure for ecodesign. By considering energy production and EPBT as optimization criteria into a bi-objective optimization cases, the importance of the benefits of PV modules end-of-life management was confirmed. An economic study of the recycling strategy must be investigated in order to have a more comprehensive view for decision making. Écoconception Optimisation Multi-objectif Systèmes Photovoltaïques (PV) Algorithme Génétique (AG) Analyse en Composantes Principaux (ACP) Ecodesign Multi-objective Optimization Life-Cycle Assessment (LCA) Photovoltaic (PV) system Genetic Algorithm (GA) Principal Component Analysis (PCA) Multiple Criteria Decision Making (MCDM)
223	Sélection de modèles robuste : régression linéaire et algorithme à sauts réversibles Gagnon, Philippe 10 1900 (has links) No description available. analyse en composantes principales inférence bayésienne robustesse valeurs aberrantes Bayesian inference Markov chain Monte Carlo methods Outliers Principal component analysis Random walk Metropolis algorithm Robustness Super heavy-tailed distributions
224	On electric grid power quality monitoring using parametric signal processing techniques / Contribution à la surveillance de la qualité de l'énergie du réseau électrique à l'aide de techniques paramétriques de traitement du signal Oubrahim, Zakarya 21 November 2017 (has links) Cette thèse porte sur la surveillance des perturbations de la qualité de l’énergie d’un réseau électrique via des techniques paramétriques de traitement du signal. Pour élaborer nos algorithmes de traitement du signal, nous avons traité les problèmes d’estimation des différentes grandeurs du réseau électrique triphasé et de classification des perturbations de la qualité d'énergie. Pour ce qui est du problème d’estimation, nous avons développé une technique statistique basée sur le maximum de vraisemblance. La technique proposée exploite la nature multidimensionnelle des signaux électriques. Elle utilise un algorithme d’optimisation pour minimiser la fonction de vraisemblance. L’algorithme utilisé permet d’améliorer les performances d’estimation tout en étant d’une faible complexité calculatoire en comparaison aux algorithmes classiques. Une analyse plus poussée de l’estimateur proposé a été effectuée. Plus précisément, ses performances sont évaluées sous un environnement incluant entre autres la pollution harmonique et interharmonique et le bruit. Les performances sont également comparées aux exigences de la norme IEEE C37.118.2011. La problématique de classification dans les réseaux électriques triphasés a plus particulièrement concerné les perturbations que sont les creux de tension et les surtensions. La technique de classification proposée consiste globalement en deux étapes : 1) une pré-classification du signal dans l’une des 4 préclasses établis et en 2) une classification du type de perturbation à l’aide de l’estimation des composants symétriques.Les performances du classificateur proposé ont été évaluées, entre autres, pour différentes nombre de cycles, de SNR et de THD. L’estimateur et le classificateur proposés ont été validés en simulation et en utilisant les données d’un réseau électrique réel du DOE/EPRI National Database of Power System Events. Les résultats obtenus illustrent clairement l’efficacité des algorithmes proposés quand à leur utilisation comme outil de surveillance de la qualité d’énergie. / This thesis deals with electric grid monitoring of power quality (PQ) disturbances using parametric signal processing techniques. The first contribution is devoted to the parametric spectral estimation approach for signal parameter extraction. The proposed approach exploits the multidimensional nature of the electrical signals.For spectral estimation, it uses an optimization algorithm to minimize the likelihood function. In particular, this algorithm allows to improve the estimation accuracy and has lower computational complexity than classical algorithms. An in-depth analysis of the proposed estimator has been performed. Specifically, the estimator performances are evaluated under noisy, harmonic, interharmonic, and off-nominal frequency environment. These performances are also compared with the requirements of the IEEE Standard C37.118.2011. The achieved results have shown that the proposed approach is an attractive choice for PQ measurement devices such as phasor measurement units (PMUs). The second contribution deals with the classification of power quality disturbances in three-phase power systems. Specifically, this approach focuses on voltage sag and swell signatures. The proposed classification approach is based on two main steps: 1) the signal pre-classification into one of 4 pre-classes and 2) the signature type classification using the estimate of the symmetrical components. The classifier performances have been evaluated for different data length, signal to noise ratio, interharmonic, and total harmonic distortion. The proposed estimator and classifier are validated using real power system data obtained from the DOE/EPRI National Database of Power System Events. The achieved simulations and experimental results clearly illustrate the effectiveness of the proposed techniques for PQ monitoring purpose. Réseau électrique Qualité de l’énergie Surveillance Perturbations Creux de tension et surtensions Phasor Measurement Units (PMUs) IEEE C37.118.2014 Classification Composantes symétriques Système électrique déséquilibré Electric grid Power quality Monitoring Disturbances Voltage sags and swells Frequency and phasor estimations Phasor measurement units (PMUs) IEEE C37.118.2014 Classification Symmetrical components Unbalanced power system 621.31
225	Mesure et Analyse Statistique Tout Temps du Spectre du Rayonnement Solaire / All Weather Solar Spectrum Measurement and Statistical Analysis Tourasse, Guillaume 19 December 2016 (has links) Ce document présente la mise en place d’un système de mesure des éclairements énergétiques spectraux solaires pour tout type de temps, sur 4 plans. Les 4 spectromètres mesurent au total 900 spectres/min et produisent chacun un spectre/min moyen et son écart type. Entre 2014 et 2015, 700 000 spectres ont été enregistrés sur un domaine compris entre 400 et 1000 nm avec un pas ≤1 nm. Un échantillon de 145 000 spectres représentatifs du climat lyonnais a été sélectionné pour une analyse statistique. Pour ce faire, l’échantillon a été réduit par partitionnement à 1175 spectres. Son domaine spectral a été étendu de 280 à 1500 nm à l’aide du RTM SMARTS. Une ACP de cet échantillon extrapolé a permis d’en réduire la description à 3 composantes et ainsi de réviser le modèle des illuminants D de la CIE. Enfin, la relation entre composition spectrale et paramètres environnementaux ou colorimétriques ouvre une voie vers des modèles statistiques de génération de spectres du rayonnement solaire. / This manuscript presents the design and setup of an all-weather spectral irradiance measurement system on 4 planes. The 4 spectrometers measure a total of 900 spectra/min to produce every minute, a mean spectral irradiance and its standard deviation. Between 2014 and 2015, this system recorded 700,000 spectra, for wavelengths ranging between 400 and 1,000 nm with a step ≤1 nm. A sample of 145,000 spectra representative of the Lyon climate was selected for statistical analysis. For this purpose, the sample was reduced in size by partitioning it in 1,175 spectra. Its spectral domain was extended to 280-1,500 nm by extrapolating the spectra with curve fitting using the SMARTS2 RTM. A PCA of the extrapolated sample reduced its description to only 3 components; hence, allowing a revision of the CIE’s illuminant D series. Finally, the relation between spectral power distribution and environmental or colorimetric parameters opens a way towards statistical models for generating solar spectra. Mesure au sol Etalonnage Eclairements énergétiques spectraux Climatologie spectrale Représentativité climatique Partitionnement de données Extrapolation spectrale Analyse en composantes principales Illuminants D Paramètres météorologiques Colorimétrie Modèle statistique Tout temps Ground measurements Calibration Spectral irradiance Spectral Climatology Climatic Representativeness Cluster analysis Spectral extrapolation Principal component analysis D series of illuminants Meteorological parameters Colorimetry Statistical model All weather
226	Towards the identification of a neighbourhood park typology : a conceptual and methodological exploration Bird, Madeleine 08 1900 (has links) Peu d’études ont évalué les caractéristiques des parcs pouvant encourager l’activité physique spécifiquement chez les jeunes. Cette étude vise à estimer la fiabilité d’un outil d’observation des parcs orienté vers les jeunes, à identifier les domaines conceptuels des parcs capturés par cet outil à l’aide d’une opérationnalisation du modèle conceptuel des parcs et de l’activité physique et à identifier différents types de parcs. Un total de 576 parcs ont été évalués en utilisant un outil d’évaluation des parcs. La fiabilité intra-juges et la fiabilité inter-juges de cet outil ont été estimées. Une analyse exploratoire par composantes principales (ACP) a été effectuée en utilisant une rotation orthogonale varimax et les variables étaient retenues si elles saturaient à ≥0.3 sur une composante. Une analyse par grappes (AG) à l’aide de la méthode de Ward a ensuite été réalisée en utilisant les composantes principales et une mesure de l’aire des parcs. L’outil était généralement fiable et l’ACP a permis d'identifier dix composantes principales qui expliquaient 60% de la variance totale. L’AG a donné un résultat de neuf grappes qui expliquaient 40% de la variance totale. Les méthodes de l’ACP et l’AG sont donc faisables avec des données de parcs. Les résultats ont été interprétés en utilisant l’opérationnalisation du modèle conceptuel. / Few studies have characterized park features that may be appealing for youth physical activity (PA). This study assesses the reliability of a youth-oriented direct-observation park assessment tool; identifies park domains captured by the tool using an operationalized conceptual model of parks and PA, and identifies distinct park types. 576 parks were audited using a park observation tool; intra- and inter-rater reliability were estimated. Exploratory principal component analysis (PCA) was conducted and variables were retained if they loaded at 0.3 or higher. A cluster analysis (CA) was conducted using the principal components and park area. The tool was found to be reliable and PCA yielded ten principal components explaining 60% of the total variance. The CA yielded a nine-cluster outcome explaining 40% of the total variance. PCA and CA were found to be feasible methods to use with park data. The operationalization of the conceptual model helped interpret these results. Cohorte QUALITY Parcs Activité physique chez les jeunes Environnement bâti Outil d’évaluation des parcs Analyse par grappes QUALITY Cohort Parks Youth physical activity Built environment Park audit tool Reliability Exploratory principal component analysis Cluster analysis
227	Modeling of the sEMG / Force relationship by data analysis of high resolution sensor network / Modélisation de la relation entre le signal EMG de surface et la force musculaire par analyse de données d’un réseau de capteurs à haute résolution Al Harrach, Mariam 27 September 2016 (has links) Les systèmes neuromusculaires et musculo-squelettique sont considérés comme un système de systèmes complexe. En effet, le mouvement du corps humain est contrôlé par le système nerveux central par l'activation des cellules musculaires squelettiques. L'activation du muscle produit deux phénomènes différents : mécanique et électrique. Ces deux activités possèdent des propriétés différentes, mais l'activité mécanique ne peut avoir lieu sans l'activité électrique et réciproquement. L'activité mécanique de la contraction du muscle squelettique est responsable du mouvement. Le mouvement étant primordial pour la vie humaine, il est crucial de comprendre son fonctionnement et sa génération qui pourront aider à détecter des déficiences dans les systèmes neuromusculaire et musculo-squelettique. Ce mouvement est décrit par les forces musculaires et les moments agissant sur une articulation particulière. En conséquence, les systèmes neuromusculaires et musculo-squelettique peuvent être évalués avec le diagnostic et le management des maladies neurologiques et orthopédiques à travers l'estimation de la force. Néanmoins, la force produite par un seul muscle ne peut être mesurée que par une technique très invasive. C'est pour cela, que l'estimation de cette force reste l'un des grands challenges de la biomécanique. De plus, comme dit précédemment, l'activation musculaire possède aussi une réponse électrique qui est corrélée à la réponse mécanique. Cette résultante électrique est appelée l'électromyogramme (EMG) et peut être mesurée d'une façon non invasive à l'aide d'électrodes de surface. L'EMG est la somme des trains de potentiel d'action d'unité motrice qui sont responsable de la contraction musculaire et de la génération du mouvement. Ce signal électrique peut être mesuré par des électrodes à la surface de la peau et est appelé I'EMG de surface {sEMG). Pour un muscle unique, en supposant que la relation entre l'amplitude du sEMG et la force est monotone, plusieurs études ont essayé d'estimer cette force en développant des modèles actionnés par ce signal. Toutefois, ces modèles contiennent plusieurs limites à cause des hypothèses irréalistes par rapport à l'activation neurale. Dans cette thèse, nous proposons un nouveau modèle de relation sEMG/force en intégrant ce qu'on appelle le sEMG haute définition (HD-sEMG), qui est une nouvelle technique d'enregistrement des signaux sEMG ayant démontré une meilleure estimation de la force en surmontant le problème de la position de l'électrode sur le muscle. Ce modèle de relation sEMG/force sera développé dans un contexte sans fatigue pour des contractions isométriques, isotoniques et anisotoniques du Biceps Brachii (BB) lors une flexion isométrique de l'articulation du coude à 90°. / The neuromuscular and musculoskeletal systems are complex System of Systems (SoS) that perfectly interact to provide motion. This interaction is illustrated by the muscular force, generated by muscle activation driven by the Central Nervous System (CNS) which pilots joint motion. The knowledge of the force level is highly important in biomechanical and clinical applications. However, the recording of the force produced by a unique muscle is impossible using noninvasive procedures. Therefore, it is necessary to develop a way to estimate it. The muscle activation also generates another electric phenomenon, measured at the skin using electrodes, namely the surface electromyogram (sEMG). ln the biomechanics literature, several models of the sEMG/force relationship are provided. They are principally used to command musculoskeletal models. However, these models suffer from several important limitations such lacks of physiological realism, personalization, and representability when using single sEMG channel input. ln this work, we propose to construct a model of the sEMG/force relationship for the Biceps Brachii (BB) based on the data analysis of a High Density sEMG (HD-sEMG) sensor network. For this purpose, we first have to prepare the data for the processing stage by denoising the sEMG signals and removing the parasite signals. Therefore, we propose a HD-sEMG denoising procedure based on Canonical Correlation Analysis (CCA) that removes two types of noise that degrade the sEMG signals and a source separation method that combines CCA and image segmentation in order to separate the electrical activities of the BB and the Brachialis (BR). Second, we have to extract the information from an 8 X 8 HD-sEMG electrode grid in order to form the input of the sEMG/force model Thusly, we investigated different parameters that describe muscle activation and can affect the relationship shape then we applied data fusion through an image segmentation algorithm. Finally, we proposed a new HDsEMG/force relationship, using simulated data from a realistic HD-sEMG generation model of the BB and a Twitch based model to estimate a specific force profile corresponding to a specific sEMG sensor network and muscle configuration. Then, we tested this new relationship in force estimation using both machine learning and analytical approaches. This study is motivated by the impossibility of obtaining the intrinsic force from one muscle in experimentation. Système de systèmes Modélisation Electromyogramme de surface (EMG) Analyse par composantes canoniques Biceps brachii Électrodes de surface Analyse de forme Système neuro-musculaire Système musculo-squelettique Mouvement System of systems Surface electromyogram Muscle force Canonical correlation analysis Machine learning Biceps brachii High resolution sensor network
228	Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes / Multiple imputation using principal component methods : A new methodology to deal with missing values Audigier, Vincent 25 November 2015 (has links) Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev / This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods. Données manquantes Données mixtes Données qualitatives Imputation multiple Imputation simple Analyse factorielle des données mixtes Analyse en composantes principales Analyse des correspondances multiples Bayésien Bootstrap Missing data Mixed data Categorical data Multiple Imputation Single Imputation Factorial analysis of mixed data Principal component analysis Multiple correspondence analysis Bayesian Bootstrap
229	Pénalisation et réduction de la dimension des variables auxiliaires en théorie des sondages / Penalization and data reduction of auxiliary variables in survey sampling Shehzad, Muhammad Ahmed 12 October 2012 (has links) Les enquêtes par sondage sont utiles pour estimer des caractéristiques d'une populationtelles que le total ou la moyenne. Cette thèse s'intéresse à l'étude detechniques permettant de prendre en compte un grand nombre de variables auxiliairespour l'estimation d'un total.Le premier chapitre rappelle quelques définitions et propriétés utiles pour lasuite du manuscrit : l'estimateur de Horvitz-Thompson, qui est présenté commeun estimateur n'utilisant pas l'information auxiliaire ainsi que les techniques decalage qui permettent de modifier les poids de sondage de facon à prendre encompte l'information auxiliaire en restituant exactement dans l'échantillon leurstotaux sur la population.Le deuxième chapitre, qui est une partie d'un article de synthèse accepté pourpublication, présente les méthodes de régression ridge comme un remède possibleau problème de colinéarité des variables auxiliaires, et donc de mauvais conditionnement.Nous étudions les points de vue "model-based" et "model-assisted" dela ridge regression. Cette technique qui fournit de meilleurs résultats en termed'erreur quadratique en comparaison avec les moindres carrés ordinaires peutégalement s'interpréter comme un calage pénalisé. Des simulations permettentd'illustrer l'intérêt de cette technique par compar[a]ison avec l'estimateur de Horvitz-Thompson.Le chapitre trois présente une autre manière de traiter les problèmes de colinéaritévia une réduction de la dimension basée sur les composantes principales. Nousétudions la régression sur composantes principales dans le contexte des sondages.Nous explorons également le calage sur les moments d'ordre deux des composantesprincipales ainsi que le calage partiel et le calage sur les composantes principalesestimées. Une illustration sur des données de l'entreprise Médiamétrie permet deconfirmer l'intérêt des ces techniques basées sur la réduction de la dimension pourl'estimation d'un total en présence d'un grand nombre de variables auxiliaires / Survey sampling techniques are quite useful in a way to estimate population parameterssuch as the population total when the large dimensional auxiliary data setis available. This thesis deals with the estimation of population total in presenceof ill-conditioned large data set.In the first chapter, we give some basic definitions that will be used in thelater chapters. The Horvitz-Thompson estimator is defined as an estimator whichdoes not use auxiliary variables. Along with, calibration technique is defined toincorporate the auxiliary variables for sake of improvement in the estimation ofpopulation totals for a fixed sample size.The second chapter is a part of a review article about ridge regression estimationas a remedy for the multicollinearity. We give a detailed review ofthe model-based, design-based and model-assisted scenarios for ridge estimation.These estimates give improved results in terms of MSE compared to the leastsquared estimates. Penalized calibration is also defined under survey sampling asan equivalent estimation technique to the ridge regression in the classical statisticscase. Simulation results confirm the improved estimation compared to theHorvitz-Thompson estimator.Another solution to the ill-conditioned large auxiliary data is given in terms ofprincipal components analysis in chapter three. Principal component regression isdefined and its use in survey sampling is explored. Some new types of principalcomponent calibration techniques are proposed such as calibration on the secondmoment of principal component variables, partial principal component calibrationand estimated principal component calibration to estimate a population total. Applicationof these techniques on real data advocates the use of these data reductiontechniques for the improved estimation of population totals Sondage Colinéarité Régression ridge Calage pénalisé Estimateur assisté par un modèle Estimateur basé sur un modèle Estimateur de Horvitz-Thompson Calage sur composantes principales Survey sampling Multicollinearity Ridge regression Penalized calibration Model-based estimator Model-assisted estimator Horvitz-Thompson estimator Principal component calibration 519
230	Nouvelles observations et techniques d'apprentissage automatique appliquées aux galaxies et aux amas de galaxies Rhea, Carter 10 1900 (has links) Les amas de galaxies sont l'une des plus grandes structures dans l'univers et jouent le rôle d'hôte de plusieurs phénomènes complexes. Bien qu'il existe beaucoup d'études portant sur leur formation et leur évolution, l'avènement récent de l'apprentissage automatique en astronomie nous permet d'investiguer des questions qui, jusqu'à maintenant, demeuraient sans réponse. Même si ce mémoire se concentre sur l'application de techniques d'apprentissage automatique aux observations en rayons X des amas de galaxies, nous explorons l'usage de ces techniques à son homologue à une échelle réduite : les galaxies elles-mêmes. Malgré le fait que les trois articles présentés dans ce mémoire se concentrent sur différents aspects de la physique, sur de différentes échelles et sur de différentes techniques, ils forment une base d'études que je continuerai pendant mon doctorat : l'usage des nouvelles techniques pour investiguer la physique des régions galactiques et extragalactiques. Dans le premier article, nous introduisons les premières observations en rayons X d'un amas de galaxies lointain qui détient des attributs particuliers comme une formation stellaire hors pair (∽ 900 M⊙/an). Dans cet article, nous employons les techniques traditionnelles en astronomie rayons X pour déterminer si ce taux de formation stellaire est dû à un courant de refroidissement désinhibé. Puisque l'objet est très lointain (z=1.7), il faut faire nos calculs sans beaucoup de photons et il faut donc utiliser les indices par procuration. Nous déterminons que la galaxie centrale est séparée d'une distance de plus de 50 kpc du coeur froid de l'amas. À cause de cette séparation, le trou noir supermassif central n'est pas alimenté et il ne peut pas prévenir le courant de refroidissement. Ceci est le premier exemple d'un amas de galaxies où nous observons l'échec de la rétroaction d'un trou noir supermassif. De plus, ceci nous fournit un autre mécanisme qui peut créer la lumière intra-amas. Dans le deuxième article présenté ici, nous examinons l'émission rayons X provenant du milieu intra-amas extrêmement chaud des amas de galaxies. Nous développons une méthode compréhensive qui détermine le nombre de composantes thermiques sous-jacentes dans un spectre de plasma. Notre nouvelle technique est basée sur une combinaison d'algorithmes d'apprentissage automatique non supervisé (analyse de composantes principales) et d'apprentissage automatique supervisé (arbre aléatoire). Nous créons un ensemble de 100 000 observations synthétiques et réalistes de Chandra qui représentent le gaz chaud dans les amas de galaxies voisines. Après la réduction de notre ensemble d'entraînement à ses 25 composantes principales, nous entraînons notre classificateur afin qu'il puisse déterminer le nombre de composantes thermiques sous-jacentes. Une fois l'étape d'entraînement terminée et l'optimisation des hyperparamètres terminée, nous appliquons la méthodologie à l'amas de galaxies de Persée. En plus de créer une carte de l'amas qui indique le nombre de composantes thermiques nécessaires afin de modéliser précisément l'émission du gaz chaud, nous avons développé un ensemble d'outils numériques qui calculent les températures associées. Nos résultats sont en accord avec plus d'une décennie d'études sur l'amas de galaxies de Persée et nous indiquent qu'il faut utiliser plusieurs composantes thermiques pour modéliser le milieu intra-amas correctement. Le troisième article présenté dans ce mémoire emploie de nouveau l'apprentissage automatique pour résoudre une question précédemment sans réponse nécessaire pour la caractérisation précise de la cinématique de gaz chaud dans les galaxies. Nous avons construit un réseau de neurones convolutif qui estime la vitesse et l'élargissement des raies d'émission d'un spectre de galaxies en visible. Une fois construit, nous l'appliquons aux données synthétiques qui répliquent les observations réelles de SITELLE du programme SIGNALS. En utilisant notre réseau bien entraîné, nous caractérisons l'émission d'une cible de SIGNALS : la galaxie M33. Nos résultats indiquent que notre algorithme surpasse les méthodes standards et s'adapte bien aux procédures d'ajustement spectral. En outre, notre méthodologie augmente la vitesse des calculs par plus d'un ordre de grandeur. Bien que l'algorithme soit entraîné spécifiquement pour SITELLE, on peut faire de petites modifications pour l'utiliser avec des autres interféromètres tels que MUSE et ses futurs analogues dans la prochaine génération de télescopes. Notez que j'ai mené à titre de premier auteur deux des trois articles présentés dans ce mémoire et apporté des contributions majeures au troisième. Les trois articles ont déjà été acceptés pour publication ou ont déjà été soumis et révisés une fois. / Galaxy clusters are one of the largest structures in the universe and host several complex physical phenomena. Although a wealth of knowledge already exists on their formation and evolution, the recent advent of machine learning in the astronomical sciences has allowed us to probe questions heretofore unanswered. While this thesis does focus heavily on the application of machine learning techniques to X-ray observations of galaxy clusters, it takes the techniques applied there to galaxy cluster's smaller counterparts: the individual galaxies themselves. Although the three papers presented here focus on distinct physics, scales, and techniques, they all form a basis of studies that I will continue during my doctorate: using new techniques to probe the underlying physics of galactic and extragalactic regions. The first paper introduced is a study of a galaxy cluster near the beginning of the epoch of cluster formation exhibiting peculiar attributes such as an elevated stellar formation rate (∽ 900M⊙/yr). In this paper, we employ traditional techniques in X-ray astronomy to determine whether or not the prodigious formation rate is due to an uninhibited cooling core. Since the object is so distant (z=1.7), we must execute our calculations with relatively few photons and thus rely on proxy measures. We determine that there exists a strong cooling flow offset by over 50 kpc from the central galaxy. Because of this offset, the AGN is not fueled and thus fails to heat up the cooling flow. This is the first example of a galaxy cluster in which we observe the failure of AGN feedback. Additionally, this provides another mechanism for the creation of intracluster light. The second article presented here focuses on X-ray emission from the hot intra-cluster medium within the galaxy cluster. We develop a comprehensive method for determining the number of underlying thermal components in the plasma's spectra. Our novel technique relies on a combination of an unsupervised learning algorithm (principal component analysis) and a supervised learning algorithm (random forest classification). We create a set of 100,000 realistic mock Chandra observations of the hot X-ray emitting gas in nearby galaxy clusters. After reducing our synthetic training set to its 25 most important principal components, we trained a random forest classifier to distinguish between the number of underlying thermal components. After successful testing and hyperparameter optimization, we applied the methodology third paper featured in this thesis once again employs machine learning to solve a previously undetermined question necessary for the accurate characterization of the kinematics of the warm gas in galaxies. We constructed a convolutional neural network to estimate the velocity and broadening parameters from the optical spectra of emission-line nebula and applied it to synthetic data replicating real SITELLE observations from the SIGNALS program. With a trained and optimized network in hand, we apply our methodology to a target of the SIGNALS program: the galaxy M33. Our results indicate our algorithm out-performs previous methods and nicely complements spectral fitting procedures. Moreover, the methodology increases calculation speeds by more than an order of magnitude -- thus greatly reducing the time needed to determine the kinematic parameters. Although the algorithm was trained for SITELLE data, this method can be readily ported to other IFUs such as MUSE. I have led two of the papers presented in this memoire and made major contributions to the third. All three papers have been either accepted for publication or have already been submitted and revised once. to the Perseus Cluster. In addition to creating a map of the cluster indicating the number of thermal components required to accurately model the thermal emission, we developed a suite of analysis routines to determine the temperatures of the underlying components. Our results are in agreement with over a decade of studies on the Perseus cluster and indicate that multiple temperature components are required for the accurate study of its intracluster medium. Amas de galaxies Machine Learning Galaxy cluster Apprentissage automatique Régions H ii Analyse de composantes principales Réseau de neurones convolutif Milieu interstellaire Milieu intra-amas Rayons X HII regions Principal component analysis Convolutional neural network Interstellar medium Intracluster medium X-ray analysis

Search results