Global ETD Search

41	Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps Kassab, Randa 11 May 2009 (has links) (PDF) De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.<br /><br />L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. <br /><br />Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples. [INFO] Computer Science apprentissage automatique réseaux de neurones détection de nouveauté flux de données dérive de concept filtrage basé sur le contenu modélisation utilisateur
42	Potentiels des données de télédétection multisources pour la cartographie géologique : Application à la région de Rehoboth (Namibie) gomez, cecile 26 November 2004 (has links) (PDF) Les données de télédétection dans le domaine du Visible, de l'Infrarouge et du rayonnement Gamma ont un potentiel pour la cartographie géologique. Ce potentiel est évalué sur l'exemple de la carte géologique de Rehoboth, zone semi aride de Namibie en contexte sédimentaire. Une méthode de détermination des contours géologiques a été mise au point à partir d'une combinaison de données multispectrales ASTER (3 bandes dans le Visible, 6 bandes dans l'Infrarouge Moyen), de données hyperspectrales HYPERION (242 bandes du visible à l'Infrarouge Moyen) et de données de rayonnement Gamma (K, U, Th). Cette méthode permet de préciser la géométrie de la carte. Le potentiel des données HYPERION a ensuite été évalué pour l'identification et la quantification des lithologies à partir de deux techniques : la méthode N-FindR et la méthode d'Analyse en Composantes Indépendantes (ACI). Les tests montrent que la méthode ACI permet d'identifier de façon plus fiable les composants lithologiques présents dans un pixel. Cartographie géologique Hyperspectral Multispectral Radioéléments fusion de données classification supervisée Analyse en Composantes Indépendantes
43	Potentiels des données de télédétection multisources pour la cartographie géologique : Application à la région de Rehoboth (Namibie) Gomez, Cécile 26 November 2004 (has links) (PDF) Les données de télédétection dans le domaine du Visible, de l'Infrarouge et du rayonnement Gamma ont un potentiel pour la cartographie géologique. Ce potentiel est évalué sur l'exemple de la carte géologique de Rehoboth, zone semi aride de Namibie en contexte sédimentaire. Une méthode de détermination des contours géologiques a été mise au point à partir d'une combinaison de données multispectrales ASTER (3 bandes dans le Visible, 6 bandes dans l'Infrarouge Moyen), de données hyperspectrales HYPERION (242 bandes du visible à l'Infrarouge Moyen) et de données de rayonnement Gamma (K, U, Th). Cette méthode permet de préciser la géométrie de la carte. Le potentiel des données HYPERION a ensuite été évalué pour l'identification et la quantification des lithologies ' partir de deux techniques : la méthode N-FindR et la méthode d'Analyse en Composantes Indépendantes (ACI). Les tests montrent que la méthode ACI permet d'identifier de façon plus fiable les composants lithologiques présents dans un pixel. cartographie géologique Hyperspectral Multispectral Radioéléments fusion de données classification supervisée Analyse en Composantes Indépendantes
44	Recherche statistique de biomarqueurs du cancer et de l'allergie à l'arachide Collignon, Olivier 16 October 2009 (has links) (PDF) La première partie de la thèse traite de la recherche de biomarqueurs du cancer. Lors de la transcription, il apparaît que certains nucléotides peuvent être remplacés par un autre nucléotide. On s'intéresse alors à la comparaison des probabilités de survenue de ces infidélités de transcription dans des ARNm cancéreux et dans des ARNm sains. Pour cela, une procédure de tests multiples menée sur les positions des séquences de référence de 17 gènes est réalisée via les EST (Expressed Sequence Tag). On constate alors que ces erreurs de transcription sont majoritairement plus fréquentes dans les tissus cancéreux que dans les tissus sains. Ce phénomène conduirait ainsi à la production de protéines dites aberrantes, dont la mesure permettrait par la suite de détecter les patients atteints de formes précoces de cancer. La deuxième partie de la thèse s'attache à l'étude de l'allergie à l'arachide. Afin de diagnostiquer l'allergie à l'arachide et de mesurer la sévérité des symptômes, un TPO (Test de Provocation Orale) est réalisé en clinique. Le protocole consiste à faire ingérer des doses croissantes d'arachide au patient jusqu'à l'apparition de symptômes objectifs. Le TPO pouvant se révéler dangereux pour le patient, des analyses discriminantes de l'allergie à l'arachide, du score du TPO, du score du premier accident et de la dose réactogène sont menées à partir d'un échantillon de 243 patients, recrutés dans deux centres différents, et sur lesquels sont mesurés 6 dosages immunologiques et 30 tests cutanés. Les facteurs issus d'une Analyse Factorielle Multiple sont également utilisés comme prédicteurs. De plus, un algorithme regroupant simultanément en classes des intervalles comprenant les doses réactogènes et sélectionnant des variables explicatives est proposé, afin de mettre ensuite en compétition des règles de classement. La principale conclusion de cette étude est que les mesures de certains anticorps peuvent apporter de l'information sur l'allergie à l'arachide et sa sévérité, en particulier ceux dirigés contre rAra-h1, rAra-h2 et rAra-h3. [MATH] Mathematics [SDV] Life Sciences tests multiples ARNm cancer Expressed Sequence Tag substitution de nucléotides infidélité de transcription Analyse Factorielle Multiple analyse discriminante apprentissage statistique classification supervisée sélection de variables allergie à l'arachide test de provocation orale immunologie
45	Cartographie et mesure de la biodiversité du Mont Ventoux. Approche par Système d'Information Géographique et Télédétection, préconisations méthodologiques et application pour l'aménagement forestier Mafhoud, Ilène 16 July 2009 (has links) (PDF) Les données issues de la télédétection couplées à des approches de type système d'information géographique sont d'un grand intérêt potentiel pour l'aménagement forestier. Le but de cette recherche est dans un premier temps de fournir une cartographie utilisable des espèces forestières dominantes à l'échelle du pixel, en utilisant des méthodes éprouvées de la télédétection. Le site d'étude choisi est le versant sud du Mont Ventoux, une montagne méditerranéenne présentant une forte biodiversité forestière. Les travaux relatés dans la première partie ont permis de réaliser des cartographies discriminantes des espèces forestières à partir des données satellitaires (Spot 5) par classification supervisée et non supervisée, en lien avec des relevés terrains. La pertinence de ces méthodes pour la cartographie de la couverture forestière est évaluée et discutée, l'objectif étant d'identifier les conditions optimales en fonction de la résolution spatiale et de la bande spectrale pour la discrimination des espèces forestières majeures du Mont Ventoux. Ce travail nous a ensuite amenés à proposer une méthode originale de mesure de la variabilité de la biodiversité à l'aide de 4 indices classiques : indices de Shannon, de Simpson, de Richesse et de Dominance. L'approche a été appliquée en utilisant deux descripteurs de la biodiversité : l'indice de végétation normalisé (NDVI) et la diversité en espèces forestières. Cette méthode inédite permet, grâce au recours à différentes images de résolutions spatiales imbriquées et à un processus systématique d'agrégation, d'extraire la part de biodiversité (alpha et bêta) due à la structure spatiale, en éliminant l'effet du support spatial, composante déterminante du Modifiable Areal Unit Problem (MAUP). Nous discutons également dans cette recherche de la capacité de notre méthode à extraire, une « échelle pertinente » de mesure de la diversité. [SHS] Humanities and Social Sciences biodiversité aménagement forestier télédétection SIG cartographie classification supervisée bande spectrale résolution spatiale indice de végétation (NDVI) indice de Shannon indice de Simpson échelle agrégation support spatial Modifiable Areal Unit Problem
46	Classification supervisée d'images d'observation de la Terre à haute résolution par utilisation de méthodes markoviennes Voisin, Aurélie 17 October 2012 (has links) (PDF) La classification d'images de télédétection incluant des zones urbaines permet d'établir des cartes d'utilisation du sol et/ou de couverture du sol, ou de zones endommagées par des phénomènes naturels (tremblements de terre, inondations...). Les méthodes de classification développées au cours de cette thèse sont des méthodes supervisées fondées sur des modèles markoviens. Une première approche a porté sur la classification d'images d'amplitudes issues de capteurs RSO (radar à synthèse d'ouverture) à simple polarisation et mono-résolution. La méthode choisie consiste à modéliser les statistiques de chacune des classes par des modèles de mélanges finis, puis à intégrer cette modélisation dans un champ de Markov. Afin d'améliorer la classification au niveau des zones urbaines, non seulement affectées par le bruit de chatoiement, mais aussi par l'hétérogénéité des matériaux qui s'y trouvent, nous avons extrait de l'image RSO un attribut de texture qui met en valeur les zones urbaines (typiquement, variance d'Haralick). Les statistiques de cette information texturelle sont combinées à celles de l'image initiale via des copules bivariées. Par la suite, nous avons cherché à améliorer la méthode de classification par l'utilisation d'un modèle de Markov hiérarchique sur quad-arbre. Nous avons intégré, dans ce modèle, une mise à jour de l'a priori qui permet, en pratique, d'aboutir à des résultats moins sensibles bruit de chatoiement. Les données mono-résolution sont décomposées hiérarchiquement en ayant recours à des ondelettes. Le principal avantage d'un tel modèle est de pouvoir utiliser des images multi-résolution et/ou multi-capteur et de pouvoir les intégrer directement dans l'arbre. En particulier, nous avons travaillé sur des données optiques (type GeoEye) et RSO (type COSMO-SkyMed) recalées. Les statistiques à chacun des niveaux de l'arbre sont modélisées par des mélanges finis de lois normales pour les images optiques et de lois gamma généralisées pour les images RSO. Ces statistiques sont ensuite combinées via des copules multivariées et intégrées dans le modèle hiérarchique. Les méthodes ont été testées et validées sur divers jeux de données mono-/multi-résolution RSO et/ou optiques. Classification supervisée Champ de Markov hiérarchique Radar à synthèse d'ouverture Modélisation statistique Données multi-capteur
47	Classification sur données médicales à l'aide de méthodes d'optimisation et de datamining, appliquée au pré-screening dans les essais cliniques Jacques, Julie 02 December 2013 (has links) (PDF) Les données médicales souffrent de problèmes d'uniformisation ou d'incertitude, ce qui les rend difficilement utilisables directement par des logiciels médicaux, en particulier dans le cas du recrutement pour les essais cliniques. Dans cette thèse, nous proposons une approche permettant de palier la mauvaise qualité de ces données à l'aide de méthodes de classification supervisée. Nous nous intéresserons en particulier à 3 caractéristiques de ces données : asymétrie, incertitude et volumétrie. Nous proposons l'algorithme MOCA-I qui aborde ce problème combinatoire de classification partielle sur données asymétriques sous la forme d'un problème de recherche locale multi-objectif. Après avoir confirmé les apports de la modélisation multi-objectif dans ce contexte, nous calibrons MOCA-I et le comparons aux meilleurs algorithmes de classification de la littérature, sur des jeux de données réels et asymétriques de la littérature. Les ensembles de règles obtenus par MOCA-I sont statistiquement plus performants que ceux de la littérature, et 2 à 6 fois plus compacts. Pour les données ne présentant pas d'asymétrie, nous proposons l'algorithme MOCA, statistiquement équivalent à ceux de la littérature. Nous analysons ensuite l'impact de l'asymétrie sur le comportement de MOCA et MOCA-I, de manière théorique et expérimentale. Puis, nous proposons et évaluons différentes méthodes pour traiter les nombreuses solutions Pareto générées par MOCA-I, afin d'assister l'utilisateur dans le choix de la solution finale et réduire le phénomène de sur-apprentissage. Enfin, nous montrons comment le travail réalisé peut s'intégrer dans une solution logicielle. [MATH:MATH_CO] Mathematics/Combinatorics optimisation combinatoire classification supervisée classification partielle données asymétriques données médicales essais cliniques
48	Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques / Machine learning algorithms applied to audio features analysis : application in the automatic generation of thematic musical playlists Bayle, Yann 19 June 2018 (has links) Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles. / This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features. Annotations musicales automatiques Apprentissage automatique et profond Classification supervisée Fouille de mégadonnées Psychoacoustique Traitement du signal audio numérique Big data mining Machine and deep learning Digital audio signal processing Music information retrieval Psychoacoustics Supervised classification
49	Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques / Improvement of the information system of the Semantic Group Company through the creation of semantic resources Yahaya Alassan, Mahaman Sanoussi 05 October 2017 (has links) Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles. / Taking into account the semantic aspect of the textual data during the classification task has become a real challenge in the last ten years. This difficulty is in addition to the fact that most of the data available on social networks are short texts, which in particular results in making methods based on the "bag of words" representation inefficient. The approach proposed in this research project is different from the approaches proposed in previous work on the enrichment of short messages for three reasons. First, we do not use external knowledge like Wikipedia because typically short messages that are processed by the company come from specific domains. Secondly, the data to be processed are not used for the creation of resources because of the operation of the tool. Thirdly, to our knowledge there is no work on the one hand, which uses structured data such as the company's data to constitute semantic resources, and on the other hand, which measure the impact of enrichment on a system Interactive grouping of text flows. In this thesis, we propose the creation of resources enabling to enrich the short messages in order to improve the performance of the tool of the semantic grouping of the company Succeed Together. The tool implements supervised and unsupervised classification methods. To build these resources, we use sequential data mining techniques. Fouille de motifs séquentielle Extraction de ressources sémantiques Unsupervised short texts clustering Supervised short texts clustering Sequential data mining Semantic resources extraction
50	Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : applications en assurance et actuariat / Nonparametric estimation of conditional quantile and semi-parametric learning : applications on insurance and actuarial data Knefati, Muhammad Anas 19 November 2015 (has links) La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels.<br> La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring. / The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used.<br> The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data. Régression non-Paramétrique Quantile Paramètre de lissage Apprentissage statistique Classification supervisée Modèles à score unique Mean regression Quantile Smoothing parameter Statistical learning Supervised classification Semi parametric single index models 519.54

Search results