Global ETD Search

71	Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique Bouchard, Simon 14 June 2023 (has links) Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data. Observations manquantes (Statistique) Imputation multiple (Statistique)
72	Estimation de la borne supérieur par des approches statistiques et par la méthode de Stringer Joubir, Sami January 2010 (has links) (PDF) Ce mémoire présente de nouvelles approches statistiques pour estimer la borne supérieure d'une population dans un contexte bien particulier, celui de la vérification comptable. Étant donné que dans la plupart des cas on se retrouve avec des échantillons où le nombre d'erreurs est souvent. faible ou nul, les méthodes classiques risquent fort d'être inadéquates. Dans ce mémoire, nous allons revenir sur quelques méthodes classiques puis présenter différentes méthodes spécifiques proposées par des chercheurs et nous mettrons l'accent sur la méthode de Stringer qui est très utilisée dans la pratique de la profession. Notre objectif est de voir dans quels cas ces méthodes pourraient être plus efficaces que les méthodes classiques. Les propriétés des méthodes classiques sont connues, contrairement à celles des approches spécifiqes où plusieurs d'entre elles n'ont jamais été démontrées et, parmi elles, la méthode de Stringer qui nous intéresse particulièrement. À cet effet, dans le chapitre 3, nous allons faire des simulations pour confirmer les comparaisons théoriques entre les méthodes dont on connait les propriétés et voir les résultats de celles qu'on ne connaît pas. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Échantillonnage, Estimation, Borne supérieure, Méthodes classiques, Méthode de Stringer. Méthode statistique Échantillonnage (Statistique) Théorie de l'estimation Vérification comptable
73	Estimation et prévision améliorées du paramètre d'une loi binomiale Nemiri, Ahmed 03 1900 (has links) (PDF) Dans ce mémoire, on présente une étude sur l'estimation et la prévision du paramètre binomial. Le Chapitre 1 traite de l'estimation ponctuelle et de la prévision du paramètre binomial. En suivant l'approche de Brown (2008a), on commence ce chapitre par la description de six estimateurs : trivial, moyenne générale, Bayes empirique paramétrique avec la méthode des moments, Bayes empirique paramétrique avec la méthode du maximum de vraisemblance, Bayes empirique non paramétrique et James-Stein. Ensuite, on évalue ces estimateurs en se servant de la base de données de baseball 2005 de Brown (2008b) et on finit par la comparaison des performances de ces estimateurs entre elles, selon leurs écarts quadratiques totaux normalisés. Le Chapitre 2 traite de l'estimation par intervalle de confiance et de la prévision du paramètre binomial. Dans ce chapitre, on étudie cinq intervalles de confiance en suivant l'approche de Brown, Cai et DasGupta (1999) et (2001) : standard ICs, Wilson ICw, Agresti-Coull ICac, maximum de vraisemblance ICrv et Jeffreys bilatéral ICj. En premier, vu l'importance particulière de l'intervalle standard, on calcule théoriquement, avec un n modéré, la déviation du biais, de la variance et des coefficients d'asymétrie et d'aplatissement de la variable aléatoire Wn = (n1/2(p-p) / √pq) loi→ N (0,1) par rapport à leurs valeurs asymptotiques correspondantes 0, 1, 0 et 3. Ensuite, on approxime la probabilité de couverture et la longueur moyenne de chacun des cinq intervalles de confiance mentionnés plus haut par un développement d'Edgeworth d'ordres 1 et 2. Enfin, en se servant de la même base de données de baseball 2005, on détermine ces intervalles ainsi que leurs probabilités de couverture et leurs longueurs moyennes et on compare leurs performances entre elles, selon leurs probabilités de couverture et leurs longueurs moyennes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : estimateur de Bayes empirique paramétrique, méthode des moments, méthode du maximum de vraisemblance, estimateur de Bayes empirique non paramétrique, estimateur de James-Stein, développement d'Edgeworth d'ordres 1 et 2, intervalle de Wald (standard), intervalle de Wilson , intervalle d'Agresti-Coull, intervalle du rapport de vraisemblance, intervalle de Jeffreys bilatéral, programmes en R. Estimation Bayesienne (Statistique) Expansion d'Edgeworth Maximum de vraisemblance Méthode des moments (Statistique)
74	Modèles semi-paramétriques appliqués à la prévision des séries temporelles cas de la consommation d'électricité / Lefieux, Vincent Carbon, Michel Delacroix, Michel. January 2007 (has links) Thèse de doctorat : Statistiques : Rennes 2 : 2007. / Bibliogr. p.99-103.
75	Analyse canonique régularisée pour des données fortement multidimensionnelles Gonzalez, Ignacio Baccini, Alain. Leon, José January 2008 (has links) Reproduction de : Thèse de doctorat : Mathématiques. Statistiques : Toulouse 3 : 2007. / Titre provenant de l'écran-titre. Bibliogr. p. 125-131.
76	Utilisation d'approches probabilistes basées sur les critères entropiques pour la recherche d'information sur supports multimédia Coq, Guilhelm Arnaudon, Marc. Olivier, Christian. Alata, Olivier. January 2008 (has links) (PDF) Reproduction de : Thèse de doctorat : Mathématiques et leurs interactions : Poitiers : 2008. / Titre provenant de l'écran-titre. Bibliogr. 56 réf.
77	La statistique appliquée Lusinchi, Dominic Ponton, Rémy. January 2009 (has links) (PDF) Reproduction de : Thèse de doctorat : Sociologie : Paris 8 : 2008. / Titre provenant de l'écran-titre. Bibliogr. p. 500-511.
78	Estimation du paramètre d'une copule archimedienne en présence de censure dépendante Monwanou, Mondji Herbert 24 April 2018 (has links) Les méthodes classiques d’analyse de survie notamment la méthode non paramétrique de Kaplan et Meier (1958) supposent l’indépendance entre les variables d’intérêt et de censure. Mais, cette hypothèse d’indépendance n’étant pas toujours soutenable, plusieurs auteurs ont élaboré des méthodes pour prendre en compte la dépendance. La plupart de ces méthodes émettent des hypothèses sur cette dépendance. Dans ce mémoire, nous avons proposé une méthode d’estimation de la dépendance en présence de censure dépendante qui utilise le copula-graphic estimator pour les copules archimédiennes (Rivest etWells, 2001) et suppose la connaissance de la distribution de la variable de censure. Nous avons ensuite étudié la consistance de cet estimateur à travers des simulations avant de l’appliquer sur un jeu de données réelles. / Conventional methods of survival analysis including non-parametric Kaplan-Meier (1958) assume independence between time to death and time to censoring. But this independence assumption is not always sustainable. Thus, several authors have developed methods to take into account the dependence by making assumptions about the relationship between the two times. In this paper, we proposed a method to estimate the dependence in case of competing risk data using the copula-graphic estimator for Archimedean copula (Rivest and Wells, 2001) and assuming knowledge of the distribution of censoring time. Then we studied the consistency of this estimator through simulations and applied to a real dataset. QA 3.5 UL 2016 Copules (Statistique mathématique) Dépendance (Statistique)
79	Bayesian nonparametric latent variable models Dallaire, Patrick 24 April 2018 (has links) L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire. / One of the important problems in machine learning is determining the complexity of the model to learn. Too much complexity leads to overfitting, which finds structures that do not actually exist in the data, while too low complexity leads to underfitting, which means that the expressiveness of the model is insufficient to capture all the structures present in the data. For some probabilistic models, the complexity depends on the introduction of one or more latent variables whose role is to explain the generative process of the data. There are various approaches to identify the appropriate number of latent variables of a model. This thesis covers various Bayesian nonparametric methods capable of determining the number of latent variables to be used and their dimensionality. The popularization of Bayesian nonparametric statistics in the machine learning community is fairly recent. Their main attraction is the fact that they offer highly flexible models and their complexity scales appropriately with the amount of available data. In recent years, research on Bayesian nonparametric learning methods have focused on three main aspects: the construction of new models, the development of inference algorithms and new applications. This thesis presents our contributions to these three topics of research in the context of learning latent variables models. Firstly, we introduce the Pitman-Yor process mixture of Gaussians, a model for learning infinite mixtures of Gaussians. We also present an inference algorithm to discover the latent components of the model and we evaluate it on two practical robotics applications. Our results demonstrate that the proposed approach outperforms, both in performance and flexibility, the traditional learning approaches. Secondly, we propose the extended cascading Indian buffet process, a Bayesian nonparametric probability distribution on the space of directed acyclic graphs. In the context of Bayesian networks, this prior is used to identify the presence of latent variables and the network structure among them. A Markov Chain Monte Carlo inference algorithm is presented and evaluated on structure identification problems and as well as density estimation problems. Lastly, we propose the Indian chefs process, a model more general than the extended cascading Indian buffet process for learning graphs and orders. The advantage of the new model is that it accepts connections among observable variables and it takes into account the order of the variables. We also present a reversible jump Markov Chain Monte Carlo inference algorithm which jointly learns graphs and orders. Experiments are conducted on density estimation problems and testing independence hypotheses. This model is the first Bayesian nonparametric model capable of learning Bayesian learning networks with completely arbitrary graph structures. QA 76.05 UL 2016 Statistique bayésienne Statistique non paramétrique Apprentissage automatique
80	Estimation bayésienne du lasso adaptatif pour l'issue Gaye, Serigne Abib 12 March 2020 (has links) Dans ce mémoire, on cherche à développer une nouvelle méthode d'estimation pour le lasso adaptatif pour l'issue en utilisant la machinerie bayésienne. L'hypothèse de recherche est que notre nouvelle méthode va beaucoup réduire la lourdeur computationnelle du lasso adaptatif pour l'issue. Notre méthode utilise les mêmes fondements théoriques que le lasso adaptatif pour l'issue. Elle remplit donc les conditions de la propriété d'oracle. Pour sa mise en ÷uvre, on ajuste d'abord un modèle du score de propension bayésien. Ensuite, on estime l'effet du traitement moyen par la pondération par l'inverse de la probabilité de traitement. Par ailleurs, nous considérons une distribution gamma pour le paramètre de régularisation qui nous permet de choisir ce paramètre à partir d'un ensemble continu, alors que le lasso adaptatif pour l'issue fréquentiste utilise une approche de validation croisée qui doit faire un choix parmi un ensemble discret de valeurs préspéciées. In ne, la méthode que nous avons développée répond bien à nos attentes, et permet donc de produire les inférences de façon beaucoup plus rapide. En effet, il a fallu seulement 41.298 secondes pour que cette méthode effectue les inférences, alors que 44.105 minutes ont été né- cessaires au lasso adaptatif pour l'issue. On espère que les idées développées dans ce mémoire vont contribuer signicativement à améliorer les méthodes de sélection de variables en inférence causale avec l'appui des techniques bayésiennes. / In this paper, we aim to develop a new estimation method for the outcome adaptive lasso using Bayesian machinery. The research hypothesis is that our new method will significantly reduce the computational burden of the outcome adaptive lasso. Our method uses the same theoretical foundation as the outcome adaptive lasso. It therefore meets the oracle properties. For its implementation, Bayesian propensity score model is first fitted. Next, the average treatment effect is estimated using inverse probability of treatment weights. In addition, we consider a gamma distribution for the regularisation parameter λ in order to choose this parameter over a continuous set, whereas the frequentist outcome adaptive lasso uses a cross-validation procedure that selects λ among a prespecified discrete set. In fine, the method we have developed meets our expectations, and therefore makes it possible to produce inferences much faster. Indeed, it took only 41.298 seconds for this method to yield inferences, while 44.105 minutes were required for the outcome adaptive lasso. We hope that the ideas developed in this paper will significantly contribute to improve methods for selecting variables in causal inference with the support of Bayesian techniques. QA 3.5 UL 2020 Statistique bayésienne Statistique mathématique

Search results