Global ETD Search

31	Machine learning methods for discrete multi-scale fows : application to finance / Méthodes d'apprentissage pour des flots discrets multi-échelles : application à la finance Mahler, Nicolas 05 June 2012 (has links) Ce travail de recherche traite du problème d'identification et de prédiction des tendances d'une série financière considérée dans un cadre multivarié. Le cadre d'étude de ce problème, inspiré de l'apprentissage automatique, est défini dans le chapitre I. L'hypothèse des marchés efficients, qui entre en contradiction avec l'objectif de prédiction des tendances, y est d'abord rappelée, tandis que les différentes écoles de pensée de l'analyse de marché, qui s'opposent dans une certaine mesure à l'hypothèse des marchés efficients, y sont également exposées. Nous explicitons les techniques de l'analyse fondamentale, de l'analyse technique et de l'analyse quantitative, et nous nous intéressons particulièrement aux techniques de l'apprentissage statistique permettant le calcul de prédictions sur séries temporelles. Les difficultés liées au traitement de facteurs temporellement dépendants et/ou non-stationnaires sont soulignées, ainsi que les pièges habituels du surapprentrissage et de la manipulation imprudente des données. Les extensions du cadre classique de l'apprentissage statistique, particulièrement l'apprentissage par transfert, sont présentées. La contribution principale de ce chapitre est l'introduction d'une méthodologie de recherche permettant le développement de modèles numériques de prédiction de tendances. Cette méthodologie est fondée sur un protocole d'expérimentation, constitué de quatre modules. Le premier module, intitulé Observation des Données et Choix de Modélisation, est un module préliminaire dévoué à l'expression de choix de modélisation, d'hypothèses et d'objectifs très généraux. Le second module, Construction de Bases de Données, transforme la variable cible et les variables explicatives en facteurs et en labels afin d'entraîner les modèles numériques de prédiction de tendances. Le troisième module, intitulé Construction de Modèles, a pour but la construction de modèles numériques de prédiction de tendances. Le quatrième et dernier module, intitulé Backtesting et Résultats Numériques, évalue la précision des modèles de prédiction de tendances sur un ensemble de test significatif, à l'aide de deux procédures génériques de backtesting. Le première procédure renvoie les taux de reconnaissance des tendances de hausse et de baisse. La seconde construit des règles de trading au moyen des predictions calculées sur l'ensemble de test. Le résultat (P&L) de chacune des règles de trading correspond aux gains et aux pertes accumulés au cours de la période de test. De plus, ces procédures de backtesting sont complétées par des fonctions d'interprétation, qui facilite l'analyse du mécanisme décisionnel des modèles numériques. Ces fonctions peuvent être des mesures de la capacité de prédiction des facteurs, ou bien des mesures de fiabilité des modèles comme des prédictions délivrées. Elles contribuent de façon décisive à la formulation d'hypothèses mieux adaptées aux données, ainsi qu'à l'amélioration des méthodes de représentation et de construction de bases de données et de modèles. Ceci est explicité dans le chapitre IV. Les modèles numériques, propres à chacune des méthodes de construction de modèles décrites au chapitre IV, et visant à prédire les tendances des variables cibles introduites au chapitre II, sont en effet calculés et backtestés. Les raisons du passage d'une méthode de construction de modèles à une autre sont particulièrement étayées. L'influence du choix des paramètres - et ceci à chacune des étapes du protocole d'expérimentation - sur la formulation de conclusions est elle aussi mise en lumière. La procédure PPVR, qui ne requiert aucun calcul annexe de paramètre, a ainsi été utilisée pour étudier de façon fiable l'hypothèse des marchés efficients. De nouvelles directions de recherche pour la construction de modèles prédictifs sont finalement proposées. / This research work studies the problem of identifying and predicting the trends of a single financial target variable in a multivariate setting. The machine learning point of view on this problem is presented in chapter I. The efficient market hypothesis, which stands in contradiction with the objective of trend prediction, is first recalled. The different schools of thought in market analysis, which disagree to some extent with the efficient market hypothesis, are reviewed as well. The tenets of the fundamental analysis, the technical analysis and the quantitative analysis are made explicit. We particularly focus on the use of machine learning techniques for computing predictions on time-series. The challenges of dealing with dependent and/or non-stationary features while avoiding the usual traps of overfitting and data snooping are emphasized. Extensions of the classical statistical learning framework, particularly transfer learning, are presented. The main contribution of this chapter is the introduction of a research methodology for developing trend predictive numerical models. It is based on an experimentation protocol, which is made of four interdependent modules. The first module, entitled Data Observation and Modeling Choices, is a preliminary module devoted to the statement of very general modeling choices, hypotheses and objectives. The second module, Database Construction, turns the target and explanatory variables into features and labels in order to train trend predictive numerical models. The purpose of the third module, entitled Model Construction, is the construction of trend predictive numerical models. The fourth and last module, entitled Backtesting and Numerical Results, evaluates the accuracy of the trend predictive numerical models over a "significant" test set via two generic backtesting plans. The first plan computes recognition rates of upward and downward trends. The second plan designs trading rules using predictions made over the test set. Each trading rule yields a profit and loss account (P&L), which is the cumulated earned money over time. These backtesting plans are additionally completed by interpretation functionalities, which help to analyze the decision mechanism of the numerical models. These functionalities can be measures of feature prediction ability and measures of model and prediction reliability. They decisively contribute to formulating better data hypotheses and enhancing the time-series representation, database and model construction procedures. This is made explicit in chapter IV. Numerical models, aiming at predicting the trends of the target variables introduced in chapter II, are indeed computed for the model construction methods described in chapter III and thoroughly backtested. The switch from one model construction approach to another is particularly motivated. The dramatic influence of the choice of parameters - at each step of the experimentation protocol - on the formulation of conclusion statements is also highlighted. The RNN procedure, which does not require any parameter tuning, has thus been used to reliably study the efficient market hypothesis. New research directions for designing trend predictive models are finally discussed. Apprentissage Statistiques financières Statistiques non-paramétriques Financial statistics Machine learning Non-parametric statistics
32	L'information statistique en ligne en matière de transport : comparaison France/ Etats-Unis / Rousseau, Emilie. January 2001 (has links) (PDF) Rapport de recherche bibliographique (DESS Ingénierie documentaire) : Ecole nationale supérieure des sciences de l'information et des bibliothèques, Université Claude Bernard Lyon 1 : Villeurbanne (France) : 2001. / Notes bibliogr.
33	Prévalence et facteurs associés aux données manquantes des registres de consultations médicales des médecins des centres de santé communautaires de Bamako Ly, Birama Apho 18 April 2018 (has links) Objectifs Cette étude avait pour but d’estimer la prévalence des données manquantes dans les registres de consultations médicales tenus par les médecins des Centres de santé communautaire (CSCOM) de Bamako et d’identifier, à partir de la théorie du comportement planifié, les facteurs qui prédisent l’intention des médecins de faire la collecte exhaustive des données dans leurs registres. Méthode Une étude transversale exploratoire a été conduite, incluant 3072 consultations médicales et 32 médecins aléatoirement choisis. Les données ont été collectées entre janvier et février 2011 à travers une fiche de dépouillement et un questionnaire portant sur les caractéristiques sociodémographiques et professionnelles des médecins et sur les construits de la théorie du comportement planifié. Des statistiques descriptives, des corrélations et des analyses de régression ont été effectuées. Résultats Toutes les variables contenues dans les registres de consultations médicales comportent des données manquantes. Toutefois, seules quatre variables (symptôme, diagnostic, traitement et observation) ont des prévalences élevées de données manquantes. La variable observation a la prévalence la plus élevée avec 95,6 % de données manquantes. Par ailleurs, l’intention des médecins de faire la collecte exhaustive des données est prédite par la norme subjective et le nombre d’années de service. Conclusion Les résultats de cette étude contribueront à faire avancer les connaissances sur les données manquantes en identifiant les stratégies possibles à mettre en œuvre pour améliorer la qualité de l’information sanitaire recueillie au niveau des CSCOM. Ils permettront, aussi, de mieux informer les décisions concernant l’allocation des ressources. / Objective This study aims to estimate the prevalence of missing data in the medical consultation registries held by physicians working in Bamako community health Centers (COMHC) and to identify the factors which predict physicians’ intention to collect completely the data in their registries, based on the Theory of Planned Behaviour (TPB). Method A exploratory cross-sectional study was conducted, including a random sample of 3072 medical consultations and 32 physicians. Data were collected between January and February 2011 through a standardized extraction form and a questionnaire measuring physicians’ sociodemographic and professional characteristics as well as constructs from the Theory of Planned Behaviour (TPB). Descriptive statistics, correlations and linear regression were performed. Results All the variables contained in the medical consultations registries have missing data. However, only four variables (symptom, diagnosis, treatment and observation) have a high prevalence of missing data. The variable observation has the highest prevalence with 95.6% of missing data. Physician’s intention to collect completely the data is predicted by their subjective norm and the number of years of practice. Conclusion The results of this study should contribute to advance knowledge on the prevalence of missing data and possible strategies to improve the quality of health information collected from the CSCOM. This information can possibly allow to better inform the decisions concerning resource allocation. Statistiques médicales Observations manquantes (Statistique) Bamako (Mali) -- Statistiques médicales
34	Modélisation et évaluation de la performance des trajectoires de multimorbidité en surveillance populationnelle Simard, Marc 08 January 2025 (has links) Mise en contexte : La multimorbidité, définie comme étant la coexistence d'au moins deux maladies chroniques, touche environ une personne de 65 ans et plus sur deux. Elle constitue un enjeu important en santé publique puisqu'elle est associée à une diminution de la qualité ou de l'espérance de vie et une augmentation de la détresse psychologique, de l'utilisation de soins et services de santé, de l'invalidité et de la mortalité. Les décideurs et les professionnels de la santé s'appuient entre autres sur des mesures de multimorbidité afin de planifier les activités de prévention et promotion de la santé et la prise en charge des individus atteints de multiples maladies chroniques. Ces mesures de multimorbidité, souvent issues des données médico-administratives, reposent traditionnellement sur le décompte de maladies chroniques à un moment donné. Néanmoins, des enjeux persistent quant à ces mesures dont : 1) l'absence de documentation sur leur qualité; 2) l'absence d'information sur la période de recherche requise dans les données médico-administratives pour documenter adéquatement les maladies chroniques de chaque individu et prédire de façon optimale les issues de santé associées à la multimorbidité; et 3) l'absence de la prise en compte de l'historique d'évolution des maladies chroniques, communément appelée trajectoires de multimorbidité. Objectifs : L'objectif de cette thèse était d'étudier différents éléments visant à documenter et à améliorer la mesure de multimorbidité dans la population à partir de données médico-administratives. Spécifiquement, les objectifs étaient de : 1) évaluer la qualité des mesures de multimorbidité issues des données médico-administratives; 2) déterminer la période de recherche requise dans les données médico-administratives pour documenter adéquatement les maladies chroniques de chaque individu et prédire de façon optimale les issues de santé associées à la multimorbidité; et 3) évaluer la pertinence de prendre en compte les trajectoires de multimorbidité dans l'élaboration de futures mesures de multimorbidité. Méthodes : Nous avons d'abord documenté l'hétérogénéité et la qualité méthodologique des mesures de multimorbidité en réalisant une revue systématique. Nous y avons entre autres comparé le nombre de maladies incluses dans les mesures, le processus d'extraction des données, et le processus de validation et la qualité de chaque mesure. Pour répondre à l'objectif 2, nous avons mené une étude populationnelle incluant la quasi-totalité des Québécois âgés de plus de 65 ans au 1er avril 2019. En nous basant sur les résultats de l'objectif 1, nous avons considéré trois mesures de multimorbidité avec une grande qualité méthodologique offrant une variété en termes de nombre de maladies chroniques incluses. Pour chaque mesure, nous avons : 1) mesuré la prévalence de la multimorbidité pour trois définitions de la multimorbidité (≥2, ≥3 ou ≥4 maladies chroniques); et 2) évalué la capacité à prédire les issues de santé en faisant varier de 1 à 20 ans la période de recherche rétrospective dans les données médico-administratives. Nous avons enfin mené une étude de cohorte populationnelle sur un échantillon représentatif de 99 411 Québécois âgés de plus de 65 ans au 1er avril 2019. Nous avons identifié les trajectoires de multimorbidité entre 2010 et 2019 à l'aide de modèles de croissance par classe latente et avons comparé leur capacité à prédire les issues de santé par rapport aux mesures traditionnelles de prévalence de la multimorbidité. Résultats : Les 22 mesures de multimorbidité identifiées dans la revue systématique présentaient une qualité méthodologique variable et étaient composées d'un nombre hétérogène de maladies et de systèmes d'organes couverts. Pour les six mesures ayant une qualité méthodologique élevée, certaines comprenaient un nombre élevé de maladies (ou la totalité) alors que les autres comprenaient un nombre restreint. Dans notre première étude populationnelle, nous avons observé qu'une période de recherche rétrospective de 10 ans est requise pour éviter de sous-estimer la prévalence de la multimorbidité chez les aînés. Une des mesures de multimorbidité étudiée, soit celle incluant 20 maladies chroniques les plus associées à une bonne espérance de vie sans incapacité, offrait le double avantage de prédire de façon optimale les issues de santé tout en limitant la sous-estimation de la prévalence de la multimorbidité. Dans notre dernière étude, huit trajectoires de multimorbidité ont été identifiées. Trois vitesses d'apparition des maladies chroniques ont été observées : croissante, stable et décroissante. Près du tiers des aînés se retrouvaient dans des trajectoires où le nombre de maladies chroniques s'accroissait durant le suivi alors qu'une minorité (<5 %) voyait leur nombre décroitre. Enfin, nous avons observé que la prise en compte des trajectoires de multimorbidité apporte peu d'amélioration dans la capacité à prédire les issues de santé comparativement aux mesures traditionnelles de prévalence de la multimorbidité. Conclusion : Les résultats de cette thèse offrent aux intervenants en santé publique et aux chercheurs une liste de mesures de multimorbidité de qualité, ainsi qu'une meilleure connaissance sur la longueur de recherche rétrospective requise pour mesurer efficacement la multimorbidité dans les données médico-administratives. De plus, ces résultats justifient la pertinence des mesures traditionnelles de prévalence de la multimorbidité en surveillance, en suggérant qu'il n'est pas nécessaire de prendre en compte la vitesse d'apparition des maladies dans ce contexte. À court terme, les résultats de cette thèse permettront d'améliorer les mesures de prévalence de la multimorbidité produites et diffusées par l'Institut national de santé publique du Québec et de justifier leur pertinence. Ceci est une bonne nouvelle puisque les mesures de multimorbidité basées sur le simple décompte de maladies chroniques sont appréciées par les décideurs et les professionnels de la santé du réseau pour leur facilité d'interprétation. / Background: Multimorbidity, defined as the coexistence of at least two chronic diseases, affects about 50% of individuals aged 65 years and over. Multimorbidity is a growing public health challenge as it is associated with a decrease in quality of life and life expectancy, and an increase in psychological distress, disability, mortality, and healthcare utilization. To effectively plan prevention and health promotion activities and the management of individuals with multiple chronic diseases, stakeholders and healthcare professionals rely, among other things, on multimorbidity prevalence measures at the population level. These measures of multimorbidity, derived from health administrative data, are traditionally based on the count of chronic diseases at a given point in time. Several issues persist regarding those measures: 1) the lack of documentation on their quality; 2) the absence of information on the required search period (lookback window) to adequately document each individual's chronic conditions and optimally predict health outcomes associated with multimorbidity; and 3) the lack of consideration of the speed of onset of historical progression of chronic conditions, commonly referred to as multimorbidity trajectories. Objectives: The objective of this thesis was to study various elements aimed at improving the measurement of multimorbidity at the population level using health administrative data. Specifically, the objectives were to: 1) evaluate the quality of multimorbidity measures derived from administrative data; 2) determine the required lookback window in administrative data to adequately document each individual's chronic diseases and optimally predict health outcomes associated with multimorbidity; and 3) assess the relevance of considering multimorbidity trajectories in the development of future multimorbidity measures. Methods: We first documented the heterogeneity and methodological quality of existing multimorbidity measures by performing a systematic review. We compared the number of conditions included in the measures, the data extraction process, the validation process, and the quality of each measure. To address objective 2, we conducted a population-based study including nearly all Quebecers aged over 65 years on April 1, 2019. We considered three multimorbidity measures with a varied number of chronic diseases and high methodological robustness, as identified in our systematic review. For each measure, we: 1) estimated the multimorbidity prevalence using three definitions (≥2, ≥3 or ≥4 chronic conditions); and 2) evaluated the capacity of each of these multimorbidity definitions to predict 1-year health outcomes by varying the length of the lookback window from 1 to 20 years. Finally, we conducted a population-based cohort study on a representative sample of 99,411 Quebecers aged over 65 years on April 1st, 2019. We identified multimorbidity trajectories from 2010 to 2019 using latent class growth models and compared their capacity to predict health outcomes with that of traditional multimorbidity prevalence measure. Results: The 22 multimorbidity measures identified in the systematic review showed a wide variety in methodological quality and included a heterogenous coverage of diseases and organ systems. Among the six measures with high methodological quality, some included a large number of conditions (or all of them); while others included a limited number. In our first population-based study, we observed that a 10-year retrospective lookback window is required to minimize underestimation of the multimorbidity prevalence among older adults. One of the multimorbidity measures studied, which included the 20 chronic conditions most associated with the highest disability adjusted life years, offered the dual advantage of optimally predicting health outcomes while limiting underestimation of multimorbidity prevalence. In our final study, we unveiled eight multimorbidity trajectories. Three speeds of onset of chronic conditions were observed: increasing, stable and decreasing. Nearly one-third of individuals aged over 65 years were in trajectories where the number of chronic conditions increased during the follow-up, while a minority (<5%) saw their number decrease. Finally, we observed that taking into account multimorbidity trajectories brings little improvement in the ability to predict health outcomes compared to traditional multimorbidity prevalence measures. Conclusion: The results of this thesis provide public health officials and researchers with a list of quality measures, as well as a better understanding of the lookback windows required to adequately measure multimorbidity in health administrative data. Additionally, these results justify the relevance of traditional prevalence measures of multimorbidity in surveillance, suggesting that it is not necessary to consider the speed of onset of chronic conditions in such context. In the short term, the results of this thesis will help improve the multimorbidity prevalence measures produced and disseminated by the Institut national de santé publique du Québec and justify their relevance. This is good news, as multimorbidity measures based on the simple counting of chronic diseases are appreciated by stakeholders and healthcare professionals for their ease of interpretation. Comorbidité -- Modèles mathématiques. Santé publique -- Surveillance Maladies chroniques -- Statistiques. Santé publique -- Statistiques.
35	Tests d'association génétique pour des durées de vie en grappes Leclerc, Martin 19 July 2024 (has links) Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2015-2016 / Les outils statistiques développés dans cette thèse par articles visent à détecter de nouvelles associations entre des variants génétiques et des données de survie en grappes. Le développement méthodologique en analyse des durées de vie est aujourd'hui ininterrompu avec la prolifération des tests d'association génétique et, de façon ultime, de la médecine personnalisée qui est centrée sur la prévention de la maladie et la prolongation de la vie. Dans le premier article, le problème suivant est traité : tester l'égalité de fonctions de survie en présence d'un biais de sélection et de corrélation intra-grappe lorsque l'hypothèse des risques proportionnels n'est pas valide. Le nouveau test est basé sur une statistique de type Cramérvon Mises. La valeur de p est estimée en utilisant une procédure novatrice de bootstrap semiparamétrique qui implique de générer des observations corrélées selon un devis non-aléatoire. Pour des scénarios de simulations présentant un écart vis-à-vis l'hypothèse nulle avec courbes de survie qui se croisent, la statistique de Cramer-von Mises offre de meilleurs résultats que la statistique de Wald du modèle de Cox à risques proportionnels pondéré. Le nouveau test a été utilisé pour analyser l'association entre un polymorphisme nucléotidique (SNP) candidat et le risque de cancer du sein chez des femmes porteuses d'une mutation sur le gène suppresseur de tumeur BRCA2. Un test d'association sequence kernel (SKAT) pour détecter l'association entre un ensemble de SNPs et des durées de vie en grappes provenant d'études familiales a été développé dans le deuxième article. La statistique de test proposée utilise la matrice de parenté de l'échantillon pour modéliser la corrélation intra-famille résiduelle entre les durées de vie via une copule gaussienne. La procédure de test fait appel à l'imputation multiple pour estimer la contribution des variables réponses de survie censurées à la statistique du score, laquelle est un mélange de distributions du khi-carré. Les résultats de simulations indiquent que le nouveau test du score de type noyau ajusté pour la parenté contrôle de façon adéquate le risque d'erreur de type I. Le nouveau test a été appliqué à un ensemble de SNPs du locus TERT. Le troisième article vise à présenter le progiciel R gyriq, lequel implante une version bonifiée du test d'association génétique développé dans le deuxième article. La matrice noyau identical-by-state (IBS) pondérée a été ajoutée, les tests d'association génétique actuellement disponibles pour des variables réponses d'âge d'apparition ont été brièvement revus de pair avec les logiciels les accompagnant, l'implantation du progiciel a été décrite et illustrée par des exemples. / The statistical tools developed in this manuscript-based thesis aim at detecting new associations between genetic variants and clustered survival data. Methodological development in lifetime data analysis is today ongoing with the proliferation of genetic association testing and, ultimately, personalized medicine which focuses on preventing disease and prolonging life. In the first paper, the following problem is considered: testing the equality of survival functions in the presence of selection bias and intracluster correlation when the assumption of proportional hazards does not hold. The new proposed test is based on a Cramér-von Mises type statistic. The p-value is approximated using an innovative semiparametric bootstrap procedure which implies generating correlated observations according to a non-random design. For simulation scenarios of departures from the null hypothesis with crossing survival curves, the Cramer-von Mises statistic clearly outperformed the Wald statistic from the weighted Cox proportional hazards model. The new test was used to analyse the association between a candidate single nucleotide polymorphism (SNP) and breast cancer risk in women carrying a mutation in the BRCA2 tumor suppressor gene. A sequence kernel association test (SKAT) to detect the association between a set of genetic variants and clustered survival outcomes from family studies is developed in the second manuscript. The proposed statistic uses the kinship matrix of the sample to model the residual intra-family correlation between survival outcomes via a Gaussian copula. The test procedure relies on multiple imputation to estimate the contribution of the censored survival outcomes to the score statistic which is a mixture of chi-square distributions. Simulation results show that the new kinship-adjusted kernel score test controls adequately for the type I error rate. The new test was applied to a set of SNPs from the TERT locus. The third manuscript aims at presenting the R package gyriq which implements an enhanced version of the genetic association test developed in the second manuscript. The weighted identical-by-state (IBS) kernel matrix is added, genetic association tests and accompanying software currently available for age-at-onset outcomes are briefly reviewed, the implementation of the package is described, and illustrated through examples. QA 3.5 UL 2016 Génétique -- Méthodes statistiques.
36	Étude des algorithmes de stratification et illustration utilisant la réalisation de l'enquête sur le recrutement, l'emploi et les besoins de formation au Québec en 2015, l'EREFEQ 2015 Houimli, Oussama 27 January 2024 (has links) Dans un plan stratifié, le calcul des bornes de strates peut se faire de plusieurs façons. On peut se fier à un jugement personnel et séparer les unités de la population en se basant sur la distribution de la variable de stratification. D’autres méthodes scientifiques et rigoureuses donnent un meilleur résultat, dont les algorithmes de cum √f, Sethi et Kosak. Pour les populations asymétriques, telles que retrouvées dans les enquêtes entreprises, l’utilisation d’une strate recensement permet de diminuer la taille d’échantillon et donner des estimations plus fiables. Parfois, la variable de stratification utilisée dans l’élaboration du plan de sondage ne garantit pas l’obtention de la précision cible pour toutes les variables d’intérêt de l’enquête. Utiliser la variable d’intérêt la plus difficile à estimer, comme variable de stratification, permet de garantir un CV cible minimal pour toutes les autres variables, mais engendre des grandes tailles d’échantillon. / In a stratified sampling design, the calculation of the stratum boundaries can be done in several ways. We can rely on personal judgment and separate the units of the population based on the distribution of the stratification variable. Other scientific and rigorous methods give a better result, including the algorithms of cum √f, Sethi and Kosak. For asymmetric populations, as found in the business surveys, the use of a census stratum reduces the sample size and gives more reliable estimates. Univariate methods, those that use a single stratification variable in calculating the boundaries, do not guarantee that the target precision will be obtained for all the variables of interest in the survey. Using the variable of interest that is the most difficult to estimate, as a stratification variable, makes it possible to guarantee a minimum target CV for all the other variables, but generates large sample sizes. Ensembles stratifiés. Algorithmes. Variables (Mathématiques)
37	Regroupement optimal d'objets à l'intérieur d'un nombre imposé de classes de taille égale Emond, David 19 April 2018 (has links) Dans ce mémoire, on considère la situation où l’on désire grouper des objets dans un nombre prédéterminé de classes de même cardinal. Le choix de la composition des classes est basé sur des critères de minimisation de la variance intragroupe ou de maximisation de la similarité intragroupe. Trois méthodes sont développées pour obtenir le regroupement optimal selon l'un de ces critères. Les deux premières approches consistent à diviser le problème global de classification en plusieurs sous-problèmes, respectivement selon les valeurs prises des variables d’intérêt et selon un aspect probabiliste. La troisième méthode utilise des propriétés de la loi stationnaire des chaînes de Markov. Les trois techniques sont utilisées pour tenter de trouver le regroupement optimal pour classer géographiquement les équipes de la Ligue nationale de hockey en six divisions de cinq équipes. Des études de simulation permettent de mesurer l'efficacité des méthodes. / This master's thesis is structured around the case in which we want to classify objects into a specific number of clusters of the same size. The choice of clusters to form is determined by minimizing the within-cluster variance or maximizing the within-cluster similarity. Three methods were developed to obtain the optimal clustering according to these two criterions. The first two approaches consist in splitting up the clustering problem in several sub-problems, one in a quantitative way and the other in a probabilistic way. The third method uses properties of the Markov chain limiting probabilities. The three methods are used to try to find the optimal geographic clustering to class the thirty National hockey league teams into six divisions of five teams. The efficiency of those approaches is assessed with simulations. QA 3.5 UL 2013 Ligue nationale de hockey Classification -- Méthodes statistiques
38	Non-random panel attrition : comparison of two alternative estimations Vachon, Patrice 20 April 2018 (has links) Les immigrants forment une partie grandissante de la population dans les pays d’occident. En ce sens, il est de plus en plus pertinent d’étudier leurs conditions de vie et leur intégration. Pour ce faire, au Canada, le gouvernement fédéral a mis en place deux enquêtes : Enquête longitudinale auprès des immigrants du Canada (ELIC) et la Base de données longitudinales sur les immigrants (BDIM). Comme les bases de données longitudinales d’immigrants ont possiblement une attrition non-aléatoire supérieure aux natifs, il est donc encore plus pertinent de venir corriger le biais de sélection potentiel que cela peut occasionnés. Ce mémoire teste deux techniques de correction, soit l’application de poids statistiques inversés et un modèle de correction non-pondéré à trois équations. Dans les deux cas, nous corrigeons la participation au marché du travail et le revenu de travail, mais seul le modèle à trois équations corrige la non-participation au panel. Nous constatons que la correction non-pondérée apporte une meilleure correction du biais sur la participation au marché du travail, mais aucune technique s’est avérée meilleure dans la correction de l’équation de revenu. / Immigrants are a growing part of the population in western countries. In this sense, it is more relevant to study their conditions and their integrations. To do so, in Canada, the federal government has developed two datasets: Longitudinal Survey of Immigrants to Canada (LSIC) and the Longitudinal Immigration Database (IMDB). In immigrant panels the non-random attrition is likely higher than in native one. Thus, it is relevant to correct this bias. In this paper, we test two correction techniques. We compare statistical weighting and a three equations unweighted correction. In those two cases, we are correcting for participation in the labor market, but only the unweighted procedure corrects for the participation in the panel. We found that the unweighted has a better correction on the bias on the labor market participation, but no estimator has correctly corrected the wage rates. HB 31.5 UL 2014
39	Contributions à la simulation des évènements rares dans les systèmes complexes Morio, Jérôme 09 December 2013 (has links) (PDF) Les trois principales parties qui composent ce dossier de synthèse HDR présentent, dans un premier temps, le contexte encadrant ces recherches et précisent les différents thèmes scientifiques abordés au cours de celles-ci, puis détaillent mes activités de publications, de communications, d'enseignement, d'administration de la recherche et enfin d'encadrement. Dans une seconde partie, ce mémoire aborde certains aboutissements de mes recherches, ici certaines contributions scientifiques que j'ai proposées, développant les méthodes d'estimation d'évènements rares dans les systèmes complexes. Enfin, un choix représentatif de cinq publications dont je suis co-auteur est proposé en conclusion de ce mémoire. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Probabilité statistiques simulation d'évènements rares systèmes complexes
40	L'effet de lissage induit par la répartition géographique de groupes éoliens Michaud, René 12 April 2018 (has links) L'introduction de production éolienne dans un réseau électrique, de par la nature stochastique du vent, impose au gestionnaire un investissement supplémentaire pour maintenir les réserves en capacité et les infrastructures rattachées afin de balancer les fluctuations de la filière éolienne. L'effet de lissage qu'induit la répartition des éoliennes sur un grand territoire, par son apport au crédit en capacité de la filière, peut être un facteur important de réduction de cet investissement. À l'aide de données recueillies au Québec, ce travail démontre la présence de lissage induit par la répartition des stations anémométriques et le quantifie, en termes de réduction de la variabilité des séries temporelles en vitesse du vent et en puissance. / When introducing wind power into an electricity grid, because of the stochastic nature of wind, investments must be made to insure capacity reserves and related infrastructures are available to balance the wind production fluctuations. Smoothing effect of geographically dispersed wind production may help minimize these investments by reducing variability of the wind production thus contributing to the wind power capacity credit. Based on measured wind speed data from Québec province, this study shows the existence of a smoothing effect induced by geographical dispersion of the measurement stations and quantifies it by means of reduced variability of the wind speed and power time series. TK 7.5 UL 2007 M622

Search results