• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 27
  • 12
  • 2
  • Tagged with
  • 42
  • 42
  • 18
  • 15
  • 10
  • 10
  • 9
  • 7
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Étude de tests de permutation en régression multiple

Elftouh, Naoual January 2008 (has links) (PDF)
Ce mémoire est centré sur l'étude des coefficients de corrélation partiels en régression linéaire multiple, à travers les tests de permutation. Ces tests sont nécessaires lorsque les suppositions du modèle linéaire ne sont pas verifiées, et l'application des tests classiques est erronnée. On présente les bases théoriques de trois méthodes de la littérature, Manly (1991), Freedman et Lane (1983) et Kennedy (1995), et on fait une étude de simulation afin de les comparer. On ajoute aux comparaisons le test paramétrique, ainsi qu'une méthode qu'on propose. On regarde l'erreur de type I et la puissance de ces tests. Un dernier volet du mémoire est la présentation des tests de Mantel (1967) et Smoose et al. (1986) qui sont des généralisations de ces méthodes de permutation pour la régression multiple à des matrices de distances. A titre d'exemple, ces différentes techniques de permutation sont appliquées sur des matrices de distances génétiques en relation avec des distances environnementales et des distances géographiques. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Échangeabilité, Test de permutation, Test de Mantel, Test de Mantel partiel, Régression multiple, Corrélation partielle, Résidus.
2

Méthodes de prévision en régression linéaire multivariée

Gueorguieva, Ana January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
3

Moyennage bayésien de modèles de régression linéaire simple

Dragomir, Elena Alice January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
4

Étude de la confusion résiduelle et erreur de mesure dans les modèles de régression

Fourati, Mariem January 2015 (has links)
Dans ce travail, j'ai étudié l'analyse des régressions linéaire et logistique comme méthodes de traitement des facteurs de confusion, qui ont servi à déterminer les effets d'une erreur de mesure dans une variable de confusion.
5

Inférence robuste sur les paramètres d'une régression linéaire bayésienne

Gagnon, Philippe 01 1900 (has links) (PDF)
La robustesse d'une inférence a posteriori face à des valeurs aberrantes est étudiée, dans un cadre de régression linéaire bayésienne. Il est montré que le modèle de régression linéaire simple avec une constante nulle peut être vu comme un problème d'inférence sur des paramètres de position-échelle. Un lien est alors effectué avec la théorie de robustesse de Desgagné (2011). En présence minoritaire de données aberrantes, une convergence en loi des densités a posteriori vers celles excluant les valeurs extrêmes, lorsque celles-ci tendent vers plus ou moins l'infini, est garantie sous une condition relative à des ailes suffisamment relevées de la densité des erreurs. Il est démontré que les estimations par maximum de vraisemblance sont eux aussi robustes. De plus, une nouvelle famille de densités, appelée DL-GEP, est proposée afin de guider l'utilisateur dans une recherche de distributions respectant le critère de robustesse. Les résultats théoriques sont illustrés d'abord à l'aide d'un exemple basé sur des données simulées, puis par une étude de cas s'appuyant sur des données financières, où les considérations pratiques sont abordées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Inférence bayésienne, robustesse, régression linéaire, valeurs aberrantes, paramètres de position-échelle, distributions à ailes relevées, fonctions à variation L-exponentielle, famille de densités DL-GEP.
6

Big Data : le nouvel enjeu de l'apprentissage à partir des données massives / Big Data : the new challenge Learning from data Massive

Adjout Rehab, Moufida 01 April 2016 (has links)
Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des donnée sont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data.L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel,ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples.Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pou raugmenter la capacité des approches sans nuire à leurs précisions.Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging.La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique.La deuxième contribution proposée est appelée "Bagging MR_PR_D" (Bagging based Map Reduce with Distributed PRuning), elle implémente une approche scalable du Bagging,permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications.Ces deux approches ont été testées sur une variété de jeux de données associées àdes problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing. / In recent years we have witnessed a tremendous growth in the volume of data generatedpartly due to the continuous development of information technologies. Managing theseamounts of data requires fundamental changes in the architecture of data managementsystems in order to adapt to large and complex data. Single-based machines have notthe required capacity to process such massive data which motivates the need for scalablesolutions.This thesis focuses on building scalable data management systems for treating largeamounts of data. Our objective is to study the scalability of supervised machine learningmethods in large-scale scenarios. In fact, in most of existing algorithms and datastructures,there is a trade-off between efficiency, complexity, scalability. To addressthese issues, we explore recent techniques for distributed learning in order to overcomethe limitations of current learning algorithms.Our contribution consists of two new machine learning approaches for large scale data.The first contribution tackles the problem of scalability of Multiple Linear Regressionin distributed environments, which permits to learn quickly from massive volumes ofexisting data using parallel computing and a divide and-conquer approach to providethe same coefficients like the classic approach.The second contribution introduces a new scalable approach for ensembles of modelswhich allows both learning and pruning be deployed in a distributed environment.Both approaches have been evaluated on a variety of datasets for regression rangingfrom some thousands to several millions of examples. The experimental results showthat the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction.
7

Quelques questions de sélection de variables autour de l'estimateur LASSO

Hebiri, Mohamed 30 June 2009 (has links) (PDF)
Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
8

Inférence statistique par lissage linéaire local pour une fonction de régression présentant des discontinuités

Hamrouni, Zouhir 20 January 1999 (has links) (PDF)
Nous nous intéressons dans cette thèse à l'estimation, dans un cadre non paramétrique, d'une fonction de régression présentant des discontinuités et, plus précisément aux pro\-blè\-mes de détection de ruptures, d'estimation des paramètres de rupture (nombre, localisations, amplitudes) et de segmentation de la fonction de régression (reconstitution de la fonction). La méthode utilisée est basée sur les propriétés du processsus de saut estimé, $\hat(\gamma)(t)$, défini en tout $t$ comme la différence entre un estimateur à droite et un estimateur à gauche, ces estimateurs étant obtenus régression linéaire locale.\par Dans un premier temps, nous considérons la situation d'une seule discontinuité et étudions les propriétés de l'estimateur de l'amplitude de la discontinuité lorsque la localisation est connue. Nous donnons l'expression de l'erreur quadratique moyenne asymptotique et montrons la convergence et la normalité asymptotique de l'estimateur. Lorsque la localisation $\tau$ n'est pas connue, nous construisons un estimateur de $\tau$ à l'aide du processus de déviation locale associé à $\hat(\gamma)(t)$ et montrons que cet estimateur converge avec une vitesse en $n^(-1)$ ou arbitrairement proche de $n^(-1)$ selon le noyau utilisé. Nous proposons ensuite trois tests d'existence d'une rupture : un test strictement local, un test local et un test global, tous trois définis en terme d'une statistique construite à l'aide du processus de saut estimé. Concernant le problème d'estimation du nombre de ruptures nous élaborons une procédure permettant à la fois d'estimer le nombre $p$ de ruptures et les localisations $\tau_1,\dots,\tau_p$. Nous montrons la convergence presque sûre de ces estimateurs et donnons aussi des résultats sur les vitesses de convergence. Enfin nous proposons une méthode de reconstitution d'une fonction de régression présentant des discontinuités basée sur la segmentation des observations. Nous montrons qu'en utilisant la procédure d'estimation du nombre de ruptures et des localisations développée auparavant, nous obtenons un estimateur de la fonction de régression qui a la même vitesse de convergence qu'en l'absence de ruptures. Des expérimentations numériques sont fournies pour chacun des problèmes étudiés de manière à mettre en évidence les propriétés des procédures étudiées et leur sensibilité aux divers paramètres.
9

Régression robuste bayésienne à l'aide de distributions à ailes relevées

Schiller, Ian January 2008 (has links) (PDF)
Dans ce mémoire nous nous intéressons à des méthodes d'estimations robustes de la pente de la droite de régression linéaire simple ainsi que du paramètre d'échelle de la densité des erreurs en présence de valeurs aberrantes dans l'échantillon de données. Une revue des méthodes d'estimations des paramètres de la droite de régression est présentée. Nous y analysons numériquement les différentes méthodes afin de décrire le comportement des estimateurs en présence d'une valeur aberrante dans l'échantillon. Une méthode d'estimation bayésienne est présentée afin d'estimer la pente de la droite de régression lorsque le paramètre d'échelle est connu. Nous exprimons le problème d'estimation de la pente de la droite de régression en un problème d'estimation d'un paramètre de position, ce qui nous permet d'utiliser les résultats de robustesse bayésienne pour un paramètre de position. Le comportement de cet estimateur est ensuite étudié numériquement lorsqu'il y a une valeur aberrante dans l'échantillon de données. Enfin, nous explorons une méthode bayésienne d'estimation simultanée du paramètre d'échelle et de la pente de la droite de régression. Nous exprimons le problème comme une estimation des paramètres de position et échelle même si les résultats de robustesse bayésienne pour ce cas ne sont pas encore publiés. Nous étudions tout de même le comportement des estimateurs de façon numérique. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Régression linéaire, Inférence bayésienne, Robustesse, Valeurs aberrantes, Densités à ailes relevées, Densités GEP (Generalized exponential power), P-credence.
10

Évaluation de méthodes de mise à l'échelle statistique : reconstruction des extrêmes et de la variabilité du régime de mousson au Sahel

Parishkura, Dimitri January 2009 (has links) (PDF)
Deux méthodes de mise à l'échelle statistique sont évaluées sur une station située au Burkina Faso afin de générer une information climatique pertinente au niveau local, en terme de climat moyen et des principales caractéristiques de variabilité et d'extrême du régime de précipitation. Les deux méthodes de régression multi-linéaire SDSM et ASD analysées reposent sur le principe que des relations empiriques entre certaines variables atmosphériques à grande échelle issues des réanalyses ou des Modèles Climatiques globaux (MCGs), variables dénommées prédicteurs, et des paramètres climatiques locaux (ex. précipitation) peuvent être établies. En mode réanalyse, le travail a consisté, d'une part, à partir de variables synoptiques de NCEP, à analyser (i) l'intérêt d'utiliser une gamme plus vaste de prédicteurs dérivés et sur plus de niveaux verticaux dans l'atmosphère, et (ii) l'intérêt d'utiliser une sélection des prédicteurs sur une base mensuelle versus annuelle. D'autre part, en mode climat, à partir de variables synoptiques issues de deux MCGs (CGCM2 et HadCM3), l'évaluation a porté sur l'utilisation de ces modèles climatiques mondiaux afin de générer une information climatique plausible et utile à l'échelle locale dans le but ultime de générer des scénarios climatiques pertinents pour les études d'impacts en milieu sahélien. En mode réanalyse, le fait de considérer un plus vaste ensemble de prédicteurs et plus de niveaux atmosphériques, a permis de réduire les biais de l'ensemble des critères statistiques/climatiques comme la moyenne quotidienne, la variabilité intra-saisonnière, les indices d'intensité et d'extrêmes, et l'indice des dates de début, de fin et de longueur de mousson. De plus, avec cette nouvelle configuration, les deux modèles de mise à l'échelle sont en mesure de reconstruire une partie des changements observés dans le régime de précipitation (i.e. diminution de la quantité totale de pluie et de la fréquence du nombre d'événements pluvieux). Si dans la majorité des cas ASD performe mieux que SDSM avec un choix restreint de prédicteurs, les différences entre les modèles diminuent en utilisant un plus grand choix de prédicteurs, et en sélectionnant ceux-ci sur une base mensuelle. Dans ce dernier cas, les incertitudes sur la valeur médiane et la moyenne des indices de précipitation, notamment au coeur de la saison pluvieuse et à la fin de celle-ci, sont réduites par rapport aux autres simulations. Avec les prédicteurs des MCGs, notamment le modèle HadCM3, la simulation de l'ensemble des indices est systématiquement améliorée par rapport aux valeurs équivalentes issues des variables brutes des MCGs, aussi bien avec SDSM que ASD, notamment l'occurrence des jours de pluie, la variabilité intra-saisonnière, les indices d'intensité et d'extrêmes. Par contre l'utilisation des prédicteurs CGCM2 dans la mise à l'échelle statistique ne permet pas d'améliorer systématiquement tous les indices analysés par rapport aux données brutes de ce MCG. Quoi qu'il en soit, notre étude a permis de montrer qu'avec des prédicteurs relativement bien reproduits à grande échelle par les modèles globaux, les distributions quotidiennes de précipitation étaient plus plausibles à l'échelle locale, en dépit des difficultés à simuler adéquatement les extrêmes (i.e. largement surestimés surtout avec le CGCM2). Dans l'avenir, d'autres analyses devront inclure des prédicteurs des modèles globaux ou régionaux, telles que suggérés avec les réanalyses NCEP (i.e. autres niveaux, variables et résolution temporelle), ainsi qu'à l'aide d'autres méthodes non-linéaires en lien avec les particularités physiques à l'échelle régionale et locale. Ceci contribuera ultimement à générer des scénarios plus plausibles à ces échelles, d'autant que la mousson Ouest Africaine est influencée naturellement par des téléconnections variées à l'échelle globale et régionale. L'usage de cette information climatique pour des applications locales pourrait ainsi être amélioré, en lien avec les besoins des études d'impacts et de vulnérabilité dans le domaine agropastoral, humain et de la modélisation environnementale. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : ASD, SDSM, NCEP, MCG, Variabilité interannuelle, Mousson ouest africaine, Prédicteurs, Indices de précipitations, Mise à l'échelle statistique.

Page generated in 0.0716 seconds