Global ETD Search

1	Classification parcimonieuse et discriminante de données complexes. Une application à la cytologie Brunet, Camille 01 December 2011 (has links) (PDF) Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans une première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles latents discriminants (DLM) modèles est introduite et se base sur trois idées: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de K-1 dimensions est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Dans un second travail, nous nous sommes intéressés à la détermination du nombre de groupes en utilisant le cadre de la sériation. nous proposons d'intégrer de la parcimonie dans les données par l'intermédiaire d'une famille de matrices binaires. Ces dernière sont construites à partir d'une mesure de dissimilarité basée sur le nombre de voisins communs entre paires d'observations. En particulier, plus le nombre de voisins communs imposé est important, plus la matrice sera parcimonieuse, i.e. remplie de zéros, ce qui permet, à mesure que le seuil de parcimonie augmente, de retirer les valeurs extrêmes et les données bruitées. Cette collection de matrices parcimonieuses est ordonnée selon un algorithme de sériation de type forward, nommé PB-Clus, aﬁn d'obtenir des représentations par blocs des matrices sériées. Ces deux méthodes ont été validées sur une application biologique basée sur la détection du cancer du col de l'utérus. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications classification non supervisée réduction de dimension espace discriminant parcimonie
2	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données Guigourès, Romain 04 December 2013 (has links) (PDF) Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d'une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l'ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L'approche MODL permet d'obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d'analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d'en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d'analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes. Enfin une application sur des comptes-rendus d'appels de l'opérateur Orange, collectés en Côte d'Ivoire, montre l'intérêt de l'approche et des outils d'analyse exploratoire dans un contexte industriel. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Co-clustering Analyse exploratoire Théorie de l'information Théorie des graphes
3	Modélisation fonctionnelle de profils de vitesse en lien avec l'infrastructure et méthodologie de construction d'un profil agrégé Andrieu, Cindie 24 September 2013 (has links) (PDF) La connaissance des vitesses pratiquées est une caractéristique essentielle du comportement des conducteurs et de leur usage du réseau routier. Cette information est rendue disponible grâce à la généralisation des véhicules connectés, mais aussi des smartphones, qui permettent d'accroître le nombre de "traceurs" susceptibles de renvoyer leur position et leur vitesse en temps réel. Dans cette thèse, nous proposons d'utiliser ces traces numériques et de développer une méthodologie, fondée sur une approche fonctionnelle, permettant d'extraire divers profils de vitesse caractéristiques. Dans une première partie, nous proposons une modélisation fonctionnelle des profils spatiaux de vitesse (i.e. vitesse vs distance parcourue) et nous étudions leurs propriétés (continuité, dérivabilité). Dans une seconde partie, nous proposons une méthodologie permettant de construire un estimateur d'un profil spatial de vitesse à partir de mesures bruitées de position et de vitesse, fondée sur les splines de lissage et la théorie des espaces de Hilbert à noyau reproduisant (RKHS). Enfin, la troisième partie est consacrée à la construction de divers profils agrégés (moyen, médian). Nous proposons notamment un alignement des profils par landmarks au niveau des arrêts, puis nous proposons la construction d'enveloppes de vitesse reflétant la dispersion des vitesses pratiquées. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Profils de vitesse Analyse de données fonctionnelles Régression non paramétrique Splines de lissage Espaces de Hilbert à noyau reproduisant
4	Méthode des réseaux en analyse de données, application à l'analyse de concordance Tricot, Jean-Marie 29 June 1990 (has links) (PDF) Dans les différents domaines de la statistique descriptive, les données se présentent sous forme de nuages de points; sur ceux-ci, on est souvent amené à faire des études de proximité ou, plus généralement, de similarité, permettant de faire des analyses de structure. Il en est ainsi en analyse de concordance où il s'agit d'apprécier le degré d'accord entre d observateurs évaluant le même ensemble de n sujets au moyen d'une échelle de valeurs possibles prises par une variable (on peut généraliser le problème à plusieurs variables). [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Réseau Analyse de données Analyse de concordance projections révélatrice
5	Analyse d'incertitudes et aide à la décision : contributions méthodologiques, techniques et managériales aux études d'ingénierie et de R&D Pasanisi, Alberto 22 May 2014 (has links) (PDF) Le message principal livré par ce manuscrit, qui constitue également le fil conducteur des activités techniques et scientifiques que nous présentons ici, est que les méthodes mathématiques avancées, en particulier issues du domaine des probabilités et de la statistique sont nécessaires pour la résolution de problèmes d'ingénierie. Ces méthodes, pas toujours familières aux ingénieurs, deviennent de plus en plus indispensables dans la pratique industrielle. Le but de ce document est aussi de résumer et de mettre en valeur un certain nombre de contributions personnels a différents problèmes techniques et scientifiques. Ces contributions sont de nature différente : (i) méthodologiques : adapter, améliorer ou critiquer l'utilisation de méthodes et outils, (ii) techniques : résoudre des problèmes spécifiques d'ingénierie, (iii) managériales : organiser et piloter projets et activités de R&D. Malgré la diversité des méthodes, outils, domaines d'application et nature des contributions apportées, tous ces travaux restent dans un cadre cohérent : l'amélioration des études d'ingénierie à l'aide de méthodes mathématiques avancées pour traiter les incertitudes et recommander des décisions. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [SPI] Engineering Sciences [SPI] Sciences de l'ingénieur statistique aide à la décision ingénierie simulation expériences numériques fiabilité
6	Les processus à mémoire longue saisonniers avec variance infinie des innovations et leurs applications Ndongo, Mor 29 July 2011 (has links) (PDF) Dans ce travail, nous étudions de manière approfondie les processus à mémoire longue saisonniers avec variance infinie des innovations. Dans le premier chapitre, nous rappelons les différentes propriétés des lois -stables univariées (stabilité, calcul des moments, simulation, : : :). Nous introduisons ensuite deux modèles à variance infinie largement utilisés dans la littérature statistique : les modèles ARMA -stables et les modèles ARFIMA -stables développés respectivement par Mikosch et al. [57] et Kokoszka et Taqqu [45]. Constatant les limites de ces modèles, nous construisons dans le second chapitre de nouveaux modèles appelés processus ARFISMA symétriques -stables. Ces modèles nous permettent de prendre en compte dans une modélisation la présence éventuelle des trois éléments caractéristiques suivants : mémoire longue, saisonnalité et variance infinie, que l'on rencontre souvent en finance, en télécommunication ou en hydrologie. Après avoir conclu le chapitre par l'étude du comportement asymptotique du modèle par des simulations, nous abordons dans le troisième chapitre, le problème d'estimation des paramètres d'un processus ARFISMA -stable. Nous présentons plusieurs méthodes d'estimation : une méthode semiparamétrique développée par Reisen et al.[67], une méthode de Whittle classique utilisée par Mikosch et al. [57] et par Kokoszka et Taqqu [45], et une autre approche de la méthode de Whittle basée sur l'évaluation de la vraisemblance de Whittle par une méthode de Monte Carlo par chaînes de Markov (MCMC). De nombreuses simulations, effectuées avec le logiciel R [64], permettent de comparer ces méthodes d'estimation. Cependant, ces méthodes ne permettent pas d'estimer le paramètre d'innovation . Ainsi, nous introduisons, dans le quatrième chapitre deux méthodes d'estimation : la méthode de la fonction caractéristique empirique développée par Knight et Yu [43] et la méthode des moments généralisés basée sur des moments conditionnels continus, suggérée par Carrasco et Florens [16]. De plus, afin de comparer les propriétés asymptotiques des estimateurs, des simulations de Monte Carlo sont effectuées. Enfin, dans le cinquième chapitre, nous appliquons ce modèle sur des données de débits du fleuve Sénégal à la station de Bakel. En guise de comparaison, nous considérons le modèle linéaire classique de Box et Jenkins [11], et nous comparons leurs capacités prédictives. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications distribution alpha-stable variance infinie saisonnalité mémoire longue estimations semiparamétriques estimations de Whittle Monte Carlo chaînes de Markov
7	Computational Advances and Applications of Hidden (Semi-)Markov Models Bulla, Jan 29 November 2013 (has links) (PDF) The document is my habilitation thesis, which is a prerequisite for obtaining the "habilitation à diriger des recherche (HDR)" in France (https://fr.wikipedia.org/wiki/Habilitation_universitaire#En_France). The thesis is of cumulative form, thus providing an overview of my published works until summer 2013. [STAT:CO] Statistics/Computation [STAT:CO] Statistiques/Calcul [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Hidden Markov models hidden semi-Markov models computational statistics applied statistics
8	Développement de méthodes statistiques nécessaires à l'analyse de données génomiques : application à l'influence du polymorphisme génétique sur les caractéristiques cutanées individuelles et l'expression du vieillissement cutané. Bernard, Anne 20 December 2013 (has links) (PDF) Les nouvelles technologies développées ces dernières années dans le domaine de la génétique ont permis de générer des bases de données de très grande dimension, en particulier de Single Nucleotide Polymorphisms (SNPs), ces bases étant souvent caractérisées par un nombre de variables largement supérieur au nombre d'individus. L'objectif de ce travail a été de développer des méthodes statistiques adaptées à ces jeux de données de grande dimension et permettant de sélectionner les variables les plus pertinentes au regard du problème biologique considéré. Dans la première partie de ce travail, un état de l'art présente différentes méthodes de sélection de variables non supervisées et supervisées pour 2 blocs de variables et plus. Dans la deuxième partie, deux nouvelles méthodes de sélection de variables non supervisées de type "sparse" sont proposées : la Group Sparse Principal Component Analysis (GSPCA) et l'Analyse des Correspondances Multiples sparse (ACM sparse). Vues comme des problèmes de régression avec une pénalisation group LASSO elles conduisent à la sélection de blocs de variables quantitatives et qualitatives, respectivement. La troisième partie est consacrée aux interactions entre SNPs et dans ce cadre, une méthode spécifique de détection d'interactions, la régression logique, est présentée. Enfin, la quatrième partie présente une application de ces méthodes sur un jeu de données réelles de SNPs afin d'étudier l'influence possible du polymorphisme génétique sur l'expression du vieillissement cutané au niveau du visage chez des femmes adultes. Les méthodes développées ont donné des résultats prometteurs répondant aux attentes des biologistes, et qui offrent de nouvelles perspectives de recherches intéressantes [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Sélection de variables ACP sparse Acm SNP-SNP interactions Régression logique Méthodes multiblocs Méthodes sparse non supervisées
9	Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale Hamon, Julie 26 November 2013 (has links) (PDF) Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant ﬂexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les diﬀérentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diﬀusion. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [MATH:MATH_CO] Mathematics/Combinatorics Sélection de variables régression optimisation combinatoire modèle mixte grande dimension génomique animale
10	Prévisions hydrologiques d'ensemble : développements pour améliorer la qualité des prévisions et estimer leur utilité Zalachori, Ioanna 19 April 2013 (has links) (PDF) La dernière décennie a vu l'émergence de la prévision probabiliste de débits en tant qu'approche plus adaptée pour l'anticipation des risques et la mise en vigilance pour lasécurité des personnes et des biens. Cependant, au delà du gain en sécurité, la valeur ajoutée de l'information probabiliste se traduit également en gains économiques ou en une gestion optimale de la ressource en eau disponible pour les activités économiques qui en dépendent. Dans la chaîne de prévision de débits, l'incertitude des modèles météorologiques de prévision de pluies joue un rôle important. Pour pouvoir aller au-delà des limites de prévisibilité classiques, les services météorologiques font appel aux systèmes de prévision d'ensemble,générés sur la base de variations imposées dans les conditions initiales des modèlesnumériques et de variations stochastiques de leur paramétrisation. Des scénarioséquiprobables de l'évolution de l'atmosphère pour des horizons de prévision pouvant aller jusqu'à 10-15 jours sont ainsi proposés. L'intégration des prévisions météorologiques d'ensemble dans la chaîne de prévision hydrologique se présente comme une approche séduisante pour produire des prévisions probabilistes de débits et quantifier l'incertitude prédictive totale en hydrologie. [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Prévisions probabilistes d'ensemble Modèle hydrologique Evaluation Incertitude Traitement statistique Valorisation des prévisions

Search results