• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 949
  • 444
  • 93
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1536
  • 381
  • 295
  • 274
  • 226
  • 202
  • 192
  • 179
  • 153
  • 147
  • 144
  • 142
  • 142
  • 139
  • 136
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique

Bouchard, Simon 12 November 2023 (has links)
Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data.
72

Estimation de la borne supérieur par des approches statistiques et par la méthode de Stringer

Joubir, Sami January 2010 (has links) (PDF)
Ce mémoire présente de nouvelles approches statistiques pour estimer la borne supérieure d'une population dans un contexte bien particulier, celui de la vérification comptable. Étant donné que dans la plupart des cas on se retrouve avec des échantillons où le nombre d'erreurs est souvent. faible ou nul, les méthodes classiques risquent fort d'être inadéquates. Dans ce mémoire, nous allons revenir sur quelques méthodes classiques puis présenter différentes méthodes spécifiques proposées par des chercheurs et nous mettrons l'accent sur la méthode de Stringer qui est très utilisée dans la pratique de la profession. Notre objectif est de voir dans quels cas ces méthodes pourraient être plus efficaces que les méthodes classiques. Les propriétés des méthodes classiques sont connues, contrairement à celles des approches spécifiqes où plusieurs d'entre elles n'ont jamais été démontrées et, parmi elles, la méthode de Stringer qui nous intéresse particulièrement. À cet effet, dans le chapitre 3, nous allons faire des simulations pour confirmer les comparaisons théoriques entre les méthodes dont on connait les propriétés et voir les résultats de celles qu'on ne connaît pas. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Échantillonnage, Estimation, Borne supérieure, Méthodes classiques, Méthode de Stringer.
73

Estimation et prévision améliorées du paramètre d'une loi binomiale

Nemiri, Ahmed 03 1900 (has links) (PDF)
Dans ce mémoire, on présente une étude sur l'estimation et la prévision du paramètre binomial. Le Chapitre 1 traite de l'estimation ponctuelle et de la prévision du paramètre binomial. En suivant l'approche de Brown (2008a), on commence ce chapitre par la description de six estimateurs : trivial, moyenne générale, Bayes empirique paramétrique avec la méthode des moments, Bayes empirique paramétrique avec la méthode du maximum de vraisemblance, Bayes empirique non paramétrique et James-Stein. Ensuite, on évalue ces estimateurs en se servant de la base de données de baseball 2005 de Brown (2008b) et on finit par la comparaison des performances de ces estimateurs entre elles, selon leurs écarts quadratiques totaux normalisés. Le Chapitre 2 traite de l'estimation par intervalle de confiance et de la prévision du paramètre binomial. Dans ce chapitre, on étudie cinq intervalles de confiance en suivant l'approche de Brown, Cai et DasGupta (1999) et (2001) : standard ICs, Wilson ICw, Agresti-Coull ICac, maximum de vraisemblance ICrv et Jeffreys bilatéral ICj. En premier, vu l'importance particulière de l'intervalle standard, on calcule théoriquement, avec un n modéré, la déviation du biais, de la variance et des coefficients d'asymétrie et d'aplatissement de la variable aléatoire Wn = (n1/2(p-p) / √pq) loi→ N (0,1) par rapport à leurs valeurs asymptotiques correspondantes 0, 1, 0 et 3. Ensuite, on approxime la probabilité de couverture et la longueur moyenne de chacun des cinq intervalles de confiance mentionnés plus haut par un développement d'Edgeworth d'ordres 1 et 2. Enfin, en se servant de la même base de données de baseball 2005, on détermine ces intervalles ainsi que leurs probabilités de couverture et leurs longueurs moyennes et on compare leurs performances entre elles, selon leurs probabilités de couverture et leurs longueurs moyennes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : estimateur de Bayes empirique paramétrique, méthode des moments, méthode du maximum de vraisemblance, estimateur de Bayes empirique non paramétrique, estimateur de James-Stein, développement d'Edgeworth d'ordres 1 et 2, intervalle de Wald (standard), intervalle de Wilson , intervalle d'Agresti-Coull, intervalle du rapport de vraisemblance, intervalle de Jeffreys bilatéral, programmes en R.
74

Modèles semi-paramétriques appliqués à la prévision des séries temporelles cas de la consommation d'électricité /

Lefieux, Vincent Carbon, Michel Delacroix, Michel. January 2007 (has links)
Thèse de doctorat : Statistiques : Rennes 2 : 2007. / Bibliogr. p.99-103.
75

Analyse canonique régularisée pour des données fortement multidimensionnelles

Gonzalez, Ignacio Baccini, Alain. Leon, José January 2008 (has links)
Reproduction de : Thèse de doctorat : Mathématiques. Statistiques : Toulouse 3 : 2007. / Titre provenant de l'écran-titre. Bibliogr. p. 125-131.
76

Utilisation d'approches probabilistes basées sur les critères entropiques pour la recherche d'information sur supports multimédia

Coq, Guilhelm Arnaudon, Marc. Olivier, Christian. Alata, Olivier. January 2008 (has links) (PDF)
Reproduction de : Thèse de doctorat : Mathématiques et leurs interactions : Poitiers : 2008. / Titre provenant de l'écran-titre. Bibliogr. 56 réf.
77

La statistique appliquée

Lusinchi, Dominic Ponton, Rémy. January 2009 (has links) (PDF)
Reproduction de : Thèse de doctorat : Sociologie : Paris 8 : 2008. / Titre provenant de l'écran-titre. Bibliogr. p. 500-511.
78

Bayesian nonparametric latent variable models

Dallaire, Patrick 24 April 2018 (has links)
L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire. / One of the important problems in machine learning is determining the complexity of the model to learn. Too much complexity leads to overfitting, which finds structures that do not actually exist in the data, while too low complexity leads to underfitting, which means that the expressiveness of the model is insufficient to capture all the structures present in the data. For some probabilistic models, the complexity depends on the introduction of one or more latent variables whose role is to explain the generative process of the data. There are various approaches to identify the appropriate number of latent variables of a model. This thesis covers various Bayesian nonparametric methods capable of determining the number of latent variables to be used and their dimensionality. The popularization of Bayesian nonparametric statistics in the machine learning community is fairly recent. Their main attraction is the fact that they offer highly flexible models and their complexity scales appropriately with the amount of available data. In recent years, research on Bayesian nonparametric learning methods have focused on three main aspects: the construction of new models, the development of inference algorithms and new applications. This thesis presents our contributions to these three topics of research in the context of learning latent variables models. Firstly, we introduce the Pitman-Yor process mixture of Gaussians, a model for learning infinite mixtures of Gaussians. We also present an inference algorithm to discover the latent components of the model and we evaluate it on two practical robotics applications. Our results demonstrate that the proposed approach outperforms, both in performance and flexibility, the traditional learning approaches. Secondly, we propose the extended cascading Indian buffet process, a Bayesian nonparametric probability distribution on the space of directed acyclic graphs. In the context of Bayesian networks, this prior is used to identify the presence of latent variables and the network structure among them. A Markov Chain Monte Carlo inference algorithm is presented and evaluated on structure identification problems and as well as density estimation problems. Lastly, we propose the Indian chefs process, a model more general than the extended cascading Indian buffet process for learning graphs and orders. The advantage of the new model is that it accepts connections among observable variables and it takes into account the order of the variables. We also present a reversible jump Markov Chain Monte Carlo inference algorithm which jointly learns graphs and orders. Experiments are conducted on density estimation problems and testing independence hypotheses. This model is the first Bayesian nonparametric model capable of learning Bayesian learning networks with completely arbitrary graph structures.
79

Estimation du paramètre d'une copule archimedienne en présence de censure dépendante

Monwanou, Mondji Herbert 24 April 2018 (has links)
Les méthodes classiques d’analyse de survie notamment la méthode non paramétrique de Kaplan et Meier (1958) supposent l’indépendance entre les variables d’intérêt et de censure. Mais, cette hypothèse d’indépendance n’étant pas toujours soutenable, plusieurs auteurs ont élaboré des méthodes pour prendre en compte la dépendance. La plupart de ces méthodes émettent des hypothèses sur cette dépendance. Dans ce mémoire, nous avons proposé une méthode d’estimation de la dépendance en présence de censure dépendante qui utilise le copula-graphic estimator pour les copules archimédiennes (Rivest etWells, 2001) et suppose la connaissance de la distribution de la variable de censure. Nous avons ensuite étudié la consistance de cet estimateur à travers des simulations avant de l’appliquer sur un jeu de données réelles. / Conventional methods of survival analysis including non-parametric Kaplan-Meier (1958) assume independence between time to death and time to censoring. But this independence assumption is not always sustainable. Thus, several authors have developed methods to take into account the dependence by making assumptions about the relationship between the two times. In this paper, we proposed a method to estimate the dependence in case of competing risk data using the copula-graphic estimator for Archimedean copula (Rivest and Wells, 2001) and assuming knowledge of the distribution of censoring time. Then we studied the consistency of this estimator through simulations and applied to a real dataset.
80

Étude de certaines mesures d'association multivariées et d'un test de dépendance extrémale fondés sur les rangs

Ben Ghorbal, Noomen 17 April 2018 (has links)
Cette thèse contribue à la modélisation de la dépendance stochastique par la théorie des copules et la statistique non paramétrique. Elle s'appuie sur trois articles rédigés avec mes directeurs de thèse, M. Christian Genest et Mme Johanna Neslehovâ. Le premier article, intitulé ± On the Ghoudi, Khoudraji, and Rivest test for extreme-value dependence, ¿ a été publié en 2009 dans La revue canadienne de statistique, vol. 37, no 4, pp. 534-552. Le second article, intitulé ± Spearman's footrule and Gini's gamma : A review with complements, ¿ paraîtra sous peu dans le Journal of Nonparametric Statistics. Le troisième article, intitulé ± Estimators based on Kendall's tau in multivariate copula models, ¿ est en cours d'évaluation.

Page generated in 0.0289 seconds