Global ETD Search

61	Big Data : le nouvel enjeu de l'apprentissage à partir des données massives / Big Data : the new challenge Learning from data Massive Adjout Rehab, Moufida 01 April 2016 (has links) Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des donnée sont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data.L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel,ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples.Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pou raugmenter la capacité des approches sans nuire à leurs précisions.Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging.La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique.La deuxième contribution proposée est appelée "Bagging MR_PR_D" (Bagging based Map Reduce with Distributed PRuning), elle implémente une approche scalable du Bagging,permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications.Ces deux approches ont été testées sur une variété de jeux de données associées àdes problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing. / In recent years we have witnessed a tremendous growth in the volume of data generatedpartly due to the continuous development of information technologies. Managing theseamounts of data requires fundamental changes in the architecture of data managementsystems in order to adapt to large and complex data. Single-based machines have notthe required capacity to process such massive data which motivates the need for scalablesolutions.This thesis focuses on building scalable data management systems for treating largeamounts of data. Our objective is to study the scalability of supervised machine learningmethods in large-scale scenarios. In fact, in most of existing algorithms and datastructures,there is a trade-off between efficiency, complexity, scalability. To addressthese issues, we explore recent techniques for distributed learning in order to overcomethe limitations of current learning algorithms.Our contribution consists of two new machine learning approaches for large scale data.The first contribution tackles the problem of scalability of Multiple Linear Regressionin distributed environments, which permits to learn quickly from massive volumes ofexisting data using parallel computing and a divide and-conquer approach to providethe same coefficients like the classic approach.The second contribution introduces a new scalable approach for ensembles of modelswhich allows both learning and pruning be deployed in a distributed environment.Both approaches have been evaluated on a variety of datasets for regression rangingfrom some thousands to several millions of examples. The experimental results showthat the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction. Données massives Big data Régression linéaire multiple Large scale data Mapreduce Multiple linear regression Bagging
62	Estimation semi-paramétrique et application à l’évaluation de la biomasse d'anchois / Semiparametric estimation and application to evaluate anchovy biomass Le, Thi Xuan Mai 16 March 2010 (has links) Notre étude est motivée par un problème d'évaluation de la biomasse, c'est à dire de la densité des œufs d'anchois à l'instant de ponte dans le golfe de Biscay-Gascogne. Les données sont les densités, c'est à dire les poids d' œufs d'anchois par unité de surface dans le golfe, collectées lors de la campagne d'échantillonnage de 1994. Le problème consiste à estimer la densité des œufs d'anchois au moment de leur ponte et le taux de mortalité. Jusqu'à présent, ce problème a été résolu en ajustant les données précédentes à un modèle classique de mortalité exponentielle. Notre analyse montre que ce modèle n'est pas adapté aux données à cause de la grande variation spatial de la densité d'œufs au moment de ponte. Or pour les données considérées, les densités A(tj,kj) des œufs au moment de ponte diffèrent de façon aléatoire selon les zones géographiques de kj ponte. Nous proposons de modéliser les A(tj,kj) comme un échantillon issu d'une variable aléatoire d'espérance a0 et ayant une densité de probabilité fA, ce qui conduit au modèle de mortalité étendue (EEM) suivant : Y (tj,kj) = A (tj,kj) e-z0tj +e(tj,kj) Le problème que nous avons à étudier alors est d'estimer les paramètres du modèle et la densité fA. Nous résolvons ce problème en deux étapes; nous commençons par estimer les paramètres par des techniques de régression, puis nous estimons la densité fA en combinant l'estimation non-paramétrique de densité, avec l'estimation du paramètre z0 et avec éventuellement une déconvolution de densités. Les résultats des études en simulations que nous réalisons corroborent les résultats théorique de la consistance / The motivation of this study is to evaluate the anchovy biomass, that is estimate the egg densities at the spawning time and the mortality rate. The data are the anchovy egg densities that are the egg weights by area unit, collected in the Gascogne bay. The problem we are faced is to estimate from these data the egg densities at the spawning time. Until now, this is done by using the classical exponential mortality model. However, such model is inadequate for the data under consideration because of the great spatial variability of the egg densities at the spawning time. They are samples of generated by a r.v whose mathematical expectation is a0 and the probability density function is fA. Therefore, we propose an extended exponential mortality model Y (tj,kj) = A (tj,kj) e-z0tj +e(tj,kj) where A(tj,kj) and e(tj,kj) are i.i.d, with the random variables A and e being assumed to be independent. Then the problem consists in estimating the mortality rate and the probability density of the random variable . We solve this semiparametric estimation problem in two steps. First, we estimate the mortality rate by fitting an exponential mortality model to averaged data. Second, we estimate the density fA by combining nonparametric estimation method with deconvolution technique and estimate the parameter z0. Theoretical results of consistence of these estimates are corroborated by simulation studies Modèle de mortalité étendue Taux de mortalité Régression non linéaire Non-consistance Estimation par noyau Variabilité spatiale
63	Régression sur variable fonctionnelle: Estimation, tests de structure et Applications. Delsol, Laurent 17 June 2008 (has links) (PDF) Au cours des dernières années, la branche de la statistique consacrée à l'étude de variables fonctionnelles a connu un réel essor tant en terme de développements théoriques que de diversification des domaines d'application. Nous nous intéressons plus particulièrement dans ce mémoire à des modèles de régression dans lesquels la variable réponse est réelle tandis que la variable explicative est fonctionnelle, c'est à dire à valeurs dans un espace de dimension infinie. Les résultats que nous énonçons sont liés aux propriétés asymptotiques de l'estimateur à noyau généralisé au cas d'une variable explicative fonctionnelle. Nous supposons pour commencer que l'échantillon que nous étudions est constitué de variables α-mélangeantes et que le modèle de régression est de nature nonparamétrique. Nous établissons la normalité asymptotique de notre estimateur et donnons l'expression explicite des termes asymptotiquement dominants du biais et de la variance. Une conséquence directe de ce résultat est la construction d'intervalles de confiance asymptotiques ponctuels dont nous étudions les propriétés aux travers de simulations et que nous appliquons sur des données liées à l'étude du courant marin El Niño. On établit également à partir du résultat de normalité asymptotique et d'un résultat d'uniforme intégrabilité l'expression explicite des termes asymptotiquement dominants des moments centrés et des erreurs Lp de notre estimateur. Nous considérons ensuite le problème des tests de structure en régression sur variable fonctionnelle et supposons maintenant que l'échantillon est composé de variables indépendantes. Nous construisons une statistique de test basée sur la comparaison de l'estimateur à noyau et d'un estimateur plus particulier dépendant de l'hypothèse nulle à tester. Nous obtenons la normalité asymptotique de notre statistique de test sous l'hypothèse nulle ainsi que sa divergence sous l'alternative. Les conditions générales sous lesquelles notre résultat est établi permettent l'utilisation de notre statistique pour construire des tests de structure innovants permettant de tester si l'opérateur de régression est de forme linéaire, à indice simple, . . . Différentes procédures de rééchantillonnage sont proposées et comparées au travers de diverses simulations. Nos méthodes sont enfin appliquées dans le cadre de tests de non effet à deux jeux de données spectrométriques. [MATH] Mathematics
64	Mécanismes de régression spontanée du mélanome chez le porc MeLiM Rambow, Florian 14 May 2008 (has links) (PDF) Le mélanome est une tumeur originaire des mélanocytes; c'est la forme la plus agressive des cancers cutanés. Son incidence s'accroît régulièrement. De plus sa résistance aux traitements actuels (chimiothérapie, radiothérapie et immunothérapie) ne laisse qu'une faible espérance de survie aux patients présentant un stade avancé de la maladie. Aujourd'hui il est nécessaire de développer de nouveaux traitements ciblés sur la cellule tumorale. Une stratégie originale consisterait à étudier le phénomène naturel de régression spontanée des mélanomes. Malheureusement chez l'homme la régression n'est que partielle et l'extrême rareté des cas de régression totale à un stade avancé de la maladie rend impossible son étude. Cependant le modèle porcin de mélanome cutané (MeLiM) présente une opportunité unique d'étudier ces mécanismes complexes de régression spontanée. En effet, les minis porcs MeLiM developpent des mélanomes héréditaires qui régressent totalement et spontanément, indépendamment de tous facteurs externes. Actuellement, les mécanismes responsables de cette régression spontanée sont peu ou mal connus. C'est pourquoi l'objectif principal de cette thèse a été l'étude des mécanismes de la régression spontanée du mélanome dans ce modèle animal. Dans un premier temps, grace à la technique d'hybridation suppressive soustractive (HSS) nous avons comparé le transcriptome d'une tumeur en croissance et d'une tumeur en tout début de régression. Dans le but de distinguer les signaux provenant du microenvironnement tumoral de ceux propres à la cellule tumorale, nous avons également réalisé une HSS à partir des cellules isolées d'une tumeur en progression et d'une tumeur au début de la régression. Nous avons trouvé très peu de gènes en commun entre les deux HSS. Nous avons donc focalisé notre étude sur les résultats issus de la HSS à partir des tumeurs. Des gènes surexprimés chez le porc pendant la phase de proliferation tumorale sont également retrouvés dans les études d'expression conduites dans le mélanome chez l'homme (TYR, MITF, MLANA, SDCBP, SILV, TYRP and ZFP106). Au tout début du phénomène de régression, on observe une surexpression des gènes impliqués dans les fonctions de la differentiation, le système immunitaire, l'arrêt du cycle cellulaire et la suppression des tumeurs. Deux gènes CD9 et RARRES1 montrent une très forte surexpression pendant la régression tant au niveau transcriptomique que protéique. Le CD9 est lié à la motilité cellulaire et RARRES1 est un gène potentiel suppresseur de tumeur. Dans un second temps, la dynamique du processus de régression a été étudiée grâce à la technologie des puces à ADN qui a permis d'établir un profil cinétique de l'expression génique. Ainsi, pour chacun des stades de la régression une corrélation entre la signature génique et son expression phénotypique a pu être établie. La signature de la régression comprend entre autres, des gènes impliqués dans la réponse immunitaire, le cycle cellulaire et la différentiation ainsi que la pigmentation des mélanocytes. Ce travail révèle que la régression des mélanomes semblerait être lié à une sous régulation précoce du cycle cellulaire. De plus le système immunitaire semble jouer un rôle majeur dans l'éradication des cellules tumorales. Par immunohistologie et cytometrie en flux, nous avons caracterisé le phenotype des cellules infiltrant les tumeurs : les cellules de l'immunité innée et acquise. On observe deux phases pendant le processus de la régression : une phase précoce consistant principalement à une infiltration par des cellules presentatrice d'antigènes (SWC3+) puis une phase d'infiltration tardive par des lymphocytes cytotoxiques (CD8+). La régression s'accompagne également de la présence de grosses cellules hyperpigmentées que nous avons commencés à caracteriser. Ce travail a permis de montrer qu'il existe des similarités entre le transcriptome du mélanome chez le porc et chez l'homme en plus de celles déjà observées au niveau clinique et génétique ce qui permet de confirmer l'utilité de ce modèle pour l'étude du mélanome chez l'homme. Il a surtout permis de disséquer le processus de régression au niveau cellulaire et moléculaire. Ainsi on a observé un signal précoce d'arrêt en mitose des cellules tumorales, phénomene inconnue jusqu'alors, puis une implication du système immunitaire. Il reste à demontrer si ce dernier est le réel inducteur de la régression. D'ores et déjà, ce travail apporte des cibles à utiliser pour développer des traitements contre le mélanome chez l'homme. [SDV] Life Sciences mélanome régression spontanée microarray expression de gènes porc modèle biomédical
65	Quelques questions de sélection de variables autour de l'estimateur LASSO Hebiri, Mohamed 30 June 2009 (has links) (PDF) Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation. [MATH] Mathematics Régression linéaire sélection de variables pénalisation LASSO Group Lasso Inégalité de Sparsité Oracle transduction prédiction conforme
66	Étude Statistique du Problème de la Trajectographie Passive Landelle, Benoit 30 June 2009 (has links) (PDF) Cette thèse présente une étude statistique du problème de la trajectographie passive. On s'intéresse dans une première partie à la question de l'observabilité pour des trajectoires paramétriques puis paramétriques par morceaux et ensuite des trajectoires à vitesse constante. La deuxième partie est consacrée à l'estimation : on présente les propriétés de l'estimateur du maximum de vraisemblance pour des trajectoires paramétriques et paramétriques par morceaux. On expose également le caractère non robuste de cette estimation en dépit de propriétés asymptotiques satisfaisantes. On s'intéresse alors à la sensibilité de l'estimation quand le modèle d'état n'est pas totalement spécifié. Son comportement est décrit pour des perturbations d'état déterministes puis stochastiques et un cadre semiparamétrique est considéré quand la loi du bruit d'état est inconnue. Dans la dernière partie, on aborde le problème de la trajectographie passive comme chaîne de Markov cachée. On s'intéresse à l'étude du filtre optimal et à sa résolution par des méthodes algorithmiques. Le filtre de Kalman étendu est expérimenté sous différentes conditions de bruit d'état. On présente ensuite des résultats de stabilité asymptotique du filtre optimal pour des chaînes de Markov cachées non ergodiques puis leur application en trajectographie passive. [MATH] Mathematics trajectographie passive chaîne de Markov cachée filtrage non linéaire filtres particulaires régression semiparamétrique robustesse
67	Contribution à la caractérisation de produits complexes non anonymes - application à l'évaluation du confort de l'habitacle avant des véhicules automobiles Blumenthal, David 11 December 2001 (has links) (PDF) L'objectif de cette étude est d'apporter une contribution à la description de produits complexes non anonymes. La complexité du produit choisi, l'habitacle avant de véhicules automobiles, tient principalement à la grande quantité d'éléments et de fonctions qu'il contient. <br />Lors de tests d'analyse sensorielle, les produits doivent être anonymes pour limiter l'influence sur les évaluations, de facteurs externes tels que l'image de marque du produit. Lors de notre étude, les produits, aisément reconnaissables, ne peuvent pas être rendus anonymes. Nous avons donc choisi de quantifier l'influence des propriétés sensorielles et de l'image de marque sur les préférences des consommateurs. <br /><br />Les propriétés sensorielles de 11 habitacles ont été décrites par un profil sensoriel comprenant 24 descripteurs. 204 consommateurs ont attribué des notes de préférence aux produits. Ils ont également évalué les images des constructeurs associés au moyen de 15 descripteurs sélectionnés lors d'une étude préliminaire. <br />La cartographie externe des préférences permet d'expliquer les préférences des consommateurs à l'aide des caractéristiques sensorielles des produits. <br />La régression progressive est employée à deux reprises sur les notes hédoniques de chaque consommateur, considéré individuellement. Les variables prédictives sont : <br />• les variables sensorielles issues du profil. Les descripteurs sensoriels sont ainsi hiérarchisés en fonction de l'importance qu'ils revêtent dans l'établissement des préférences. <br />• les variables sensorielles et les évaluations individuelles des images de marque des constructeurs. Les contributions relatives des sensations et de l'image de marque peuvent être estimées. Il est alors possible de classer les consommateurs : certains sont principalement influencés par les attributs sensoriels des produits ; d'autres par l'image de marque des descripteurs ; d'autres encore sont influencés à part égale par les deux aspects. [SPI] Engineering Sciences analyse sensorielle habitacle de voitures image de marque cartographie des préférences régression progressive
68	Estimation non paramétrique pour des modèles de diffusion et de régression Brua, Jean-Yves 17 November 2008 (has links) (PDF) Nous considérons le problème de l'estimation d'une fonction inconnue en un point fixe à l'aide de données régies par des modèles de régression ou de diffusion. Pour définir le risque associé à l'emploi d'un estimateur et ainsi mesurer la qualité de celui-ci, nous utilisons la fonction de perte liée à l'erreur absolue. Le travail de cette thèse suit l'approche minimax dont l'objectif est de trouver une borne inférieure asymptotique du risque minimax puis de construire un estimateur, dit asymptotiquement efficace, dont le risque maximal atteint asymptotiquement cette borne.<br />Pour un modèle de régression non paramétrique et hétéroscédastique, où l'écart-type du bruit dépend à la fois du régresseur et de la fonction de régression supposée appartenir à une classe höldérienne faible de régularité connue, nous montrons qu'un estimateur à noyau est asymptotiquement efficace. Lorsque la régularité de la fonction de régression est inconnue, nous obtenons la vitesse de convergence minimax adaptative des estimateurs sur une famille de classes höldériennes. Enfin, pour un modèle de diffusion où la dérive appartient à un voisinage höldérien faible centré en une fonction lipschitzienne, nous présentons la construction d'un estimateur à noyau asymptotiquement efficace. [MATH] Mathematics Efficacité asymptotique Régression non paramétrique Minimax Adaptation Estimateur à noyau Estimation séquentielle Diffusion ergodique Dérive
69	Méthodes appliquées de détection et d'estimation de rupture dans des modèles de régression Saidi, Yacine 30 January 1986 (has links) (PDF) Nous étudions deux procédures ― somme cumulée des résidus récursifs et rapport des vraisemblances maximales ― de détection de rupture dans un modèle de régression, en vue de leur application à des problèmes concrets. Nous menons une étude expérimentale par simulation, afin de cerner le comportement de ces deux méthodes de détection de rupture. Le problème de l'estimation, par le maximum de vraisemblance, dans un modèle de régression à une rupture est traité. Une application des méthodes étudiées sur des données d'hydrologie est présentée Maximum vraisemblance Simulation Régression Estimation statistique Rupture
70	Analyse statistique des données issues des biopuces à ADN Peyre, Julie 20 September 2005 (has links) (PDF) Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.<br /><br /> Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.<br /><br /> Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.<br /> <br /> Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés. [MATH] Mathematics biopuces test d'hypothèses multiples sélection de variables

Search results