Spelling suggestions: "subject:"données hétérogène""
11 |
Low-rank methods for heterogeneous and multi-source data / Méthodes de rang faible pour les données hétérogènes et multi-sourceRobin, Geneviève 11 June 2019 (has links)
Dans les applications modernes des statistiques et de l'apprentissage, il est courant que les données récoltées présentent un certain nombre d'imperfections. En particulier, les données sont souvent hétérogènes, c'est-à-dires qu'elles contiennent à la fois des informations quantitatives et qualitatives, incomplètes, lorsque certaines informations sont inaccessibles ou corrompues, et multi-sources, c'est-à-dire qu'elles résultent de l'agrégation de plusieurs jeux de données indépendant. Dans cette thèse, nous développons plusieurs méthodes pour l'analyse de données hétérogènes, incomplètes et multi-source. Nous nous attachons à étudier tous les aspects de ces méthodes, en fournissant des études théoriques précises, ainsi que des implémentations disponibles au public, et des évaluations empiriques. En particulier, nous considérons en détail deux applications issues de l'écologie pour la première et de la médecine pour la seconde. / In modern applications of statistics and machine learning, one often encounters many data imperfections. In particular, data are often heterogeneous, i.e. combine quantitative and qualitative information, incomplete, with missing values caused by machine failure or nonresponse phenomenons, and multi-source, when the data result from the compounding of diverse sources. In this dissertation, we develop several methods for the analysis of multi-source, heterogeneous and incomplete data. We provide a complete framework, and study all the aspects of the different methods, with thorough theoretical studies, open source implementations, and empirical evaluations. We study in details two particular applications from ecology and medical sciences.
|
12 |
Extraction of mobility information through heterogeneous data fusion : a multi-source, multi-scale, and multi-modal problem / Fusion de données hétérogènes pour l'extraction d'informations de mobilité : un problème multi-source, multi-échelle, et multi-modalThuillier, Etienne 11 December 2017 (has links)
Aujourd'hui c'est un fait, nous vivons dans un monde où les enjeux écologiques, économiques et sociétaux sont de plus en plus pressants. Au croisement des différentes lignes directrices envisagées pour répondre à ces problèmes, une vision plus précise de la mobilité humaine est un axe central et majeur, qui a des répercussions sur tous les domaines associés tels que le transport, les sciences sociales, l'urbanisme, les politiques d'aménagement, l'écologie, etc. C'est par ailleurs dans un contexte de contraintes budgétaires fortes que les principaux acteurs de la mobilité sur les territoires cherchent à rationaliser les services de transport, et les déplacements des individus. La mobilité humaine est donc un enjeu stratégique aussi bien pour les collectivités locales que pour les usagers, qu'il faut savoir observer, comprendre, et anticiper.Cette étude de la mobilité passe avant tout par une observation précise des déplacements des usagers sur les territoires. Aujourd'hui les acteurs de la mobilité se tournent principalement vers l'utilisation massive des données utilisateurs. L'utilisation simultanée de données multi-sources, multi-modales, et multi-échelles permet d'entrevoir de nombreuses possibilités, mais cette dernière présente des défis technologiques et scientifiques majeurs. Les modèles de mobilité présentés dans la littérature sont ainsi trop souvent axés sur des zones d'expérimentation limitées, en utilisant des données calibrées, etc. et leur application dans des contextes réels, et à plus large échelle est donc discutable. Nous identifions ainsi deux problématiques majeures qui permettent de répondre à ce besoin d'une meilleure connaissance de la mobilité humaine, mais également à une meilleure application de cette connaissance. La première problématique concerne l'extraction d'informations de mobilité à partir de la fusion de données hétérogènes. La seconde problématique concerne la pertinence de cette fusion dans un contexte réel, et à plus large échelle. Nous apportons différents éléments de réponses à ces problématiques dans cette thèse. Tout d'abord en présentant deux modèles de fusion de données, qui permettent une extraction d'informations pertinentes. Puis, en analysant l'application de ces deux modèles au sein du projet ANR Norm-Atis.Dans cette thèse, nous suivons finalement le développement de toute une chaine de processus. En commençant par une étude de la mobilité humaine, puis des modèles de mobilité, nous présentons deux modèles de fusion de données, et nous analysons leur pertinence dans un cas concret. Le premier modèle que nous proposons permet d'extraire 12 comportements types de mobilité. Il est basé sur un apprentissage non-supervisé de données issues de la téléphonie mobile. Nous validons nos résultats en utilisant des données officielles de l'INSEE, et nous déduisons de nos résultats, des comportements dynamiques qui ne peuvent pas être observés par les données de mobilité traditionnelles. Ce qui est une forte valeur-ajoutée de notre modèle. Le second modèle que nous proposons permet une désagrégation des flux de mobilité en six motifs de mobilité. Il se base sur un apprentissage supervisé des données issues d'enquêtes de déplacements ainsi que des données statiques de description du sursol. Ce modèle est appliqué par la suite aux données agrégés au sein du projet Norm-Atis. Les temps de calculs sont suffisamment performants pour permettre une application de ce modèle dans un contexte temps-réel. / Today it is a fact that we live in a world where ecological, economic and societal issues are increasingly pressing. At the crossroads of the various guidelines envisaged to address these problems, a more accurate vision of human mobility is a central and major axis, which has repercussions on all related fields such as transport, social sciences, urban planning, management policies, ecology, etc. It is also in the context of strong budgetary constraints that the main actors of mobility on the territories seek to rationalize the transport services and the movements of individuals. Human mobility is therefore a strategic challenge both for local communities and for users, which must be observed, understood and anticipated.This study of mobility is based above all on a precise observation of the movements of users on the territories. Nowadays mobility operators are mainly focusing on the massive use of user data. The simultaneous use of multi-source, multi-modal, and multi-scale data opens many possibilities, but the latter presents major technological and scientific challenges. The mobility models presented in the literature are too often focused on limited experimental areas, using calibrated data, etc., and their application in real contexts and on a larger scale is therefore questionable. We thus identify two major issues that enable us to meet this need for a better knowledge of human mobility, but also to a better application of this knowledge. The first issue concerns the extraction of mobility information from heterogeneous data fusion. The second problem concerns the relevance of this fusion in a real context, and on a larger scale. These issues are addressed in this dissertation: the first, through two data fusion models that allow the extraction of mobility information, the second through the application of these fusion models within the ANR Norm-Atis project.In this thesis, we finally follow the development of a whole chain of processes. Starting with a study of human mobility, and then mobility models, we present two data fusion models, and we analyze their relevance in a concrete case. The first model we propose allows to extract 12 types of mobility behaviors. It is based on an unsupervised learning of mobile phone data. We validate our results using official data from the INSEE, and we infer from our results, dynamic behaviors that can not be observed through traditional mobility data. This is a strong added-value of our model. The second model operates a mobility flows decompositoin into six mobility purposes. It is based on a supervised learning of mobility surveys data and static data from the land use. This model is then applied to the aggregated data within the Norm-Atis project. The computing times are sufficiently powerful to allow an application of this model in a real-time context.
|
13 |
Federation de données semi-structurées avec XMLDang Ngoc, Tuyet Tram 10 June 2003 (has links) (PDF)
Contrairement aux données traditionnelles, les données semi-structurées<br />sont irrégulières : des données peuvent manquer, des concepts<br />similaires peuvent être représentés par différents types de données,<br />et les structures même peuvent être mal connues. Cette absence <br />de schéma prédéfini, permettant de tenir compte de toutes les données<br />du monde extérieur, présente l'inconvénient de complexifier les<br />algorithmes d'intégration des données de différentes sources.<br /><br />Nous proposons une architecture de médiation basée entièrement sur XML.<br />L'objectif de cette architecture de médiation est de fédérer des sources de<br />données distribuées de différents types.<br />Elle s'appuie sur le langage XQuery, un langage fonctionnel<br />conçu pour formuler des requêtes sur des documents XML. Le médiateur analyse<br />les requêtes exprimées en XQuery et répartit l'exécution de la requête<br />sur les différentes sources avant de recomposer les résultats.<br /><br />L'évaluation des requêtes doit se faire en exploitant au maximum les<br />spécificités des données et permettre une optimisation efficace.<br />Nous décrivons l'algèbre XAlgebre à base d'opérateurs conçus<br />pour XML. Cette algèbre a pour but de construire des plans d'exécution pour<br />l'évaluation de requêtes XQuery et traiter des tuples d'arbres XML.<br /><br />Ces plans d'exécution doivent pouvoir être modélisés par un modèle<br />de coût et celui de coût minimum sera sélectionné pour l'exécution. <br />Dans cette thèse, nous définissons un modèle de coût pour les données<br />semi-structurées adapté à notre algèbre.<br /><br />Les sources de données (SGBD, serveurs Web, moteur de recherche)<br />peuvent être très hétérogènes, elles peuvent avoir des<br />capacités de traitement de données très différentes, mais aussi avoir<br />des modèles de coût plus ou moins définis. <br />Pour intégrer ces différentes informations dans<br />l'architecture de médiation, nous devons déterminer comment communiquer<br />ces informations entre le médiateur et les sources, et comment les intégrer.<br />Pour cela, nous utilisons des langages basés sur XML comme XML-Schema et MathML<br />pour exporter les informations de métadonnées, de formules de coûts<br />et de capacité de sources.<br />Ces informations exportées sont communiquées par l'intermédiaire d'une interface<br />applicative nommée XML/DBC.<br /><br />Enfin, des optimisations diverses spécifiques à l'architecture de médiation<br />doivent être considérées. Nous introduisons pour cela un cache sémantique<br />basé sur un prototype de SGBD stockant efficacement des données XML<br />en natif.
|
14 |
Fusion d'images de télédétection hétérogènes par méthodes crédibilistes / Fusion of heterogeneous remote sensing images by credibilist methodsHammami, Imen 08 December 2017 (has links)
Avec l’avènement de nouvelles techniques d’acquisition d’image et l’émergence des systèmes satellitaires à haute résolution, les données de télédétection à exploiter sont devenues de plus en plus riches et variées. Leur combinaison est donc devenue essentielle pour améliorer le processus d’extraction des informations utiles liées à la nature physique des surfaces observées. Cependant, ces données sont généralement hétérogènes et imparfaites ce qui pose plusieurs problèmes au niveau de leur traitement conjoint et nécessite le développement de méthodes spécifiques. C’est dans ce contexte que s’inscrit cette thèse qui vise à élaborer une nouvelle méthode de fusion évidentielle dédiée au traitement des images de télédétection hétérogènes à haute résolution. Afin d’atteindre cet objectif, nous axons notre recherche, en premier lieu, sur le développement d’une nouvelle approche pour l’estimation des fonctions de croyance basée sur la carte de Kohonen pour simplifier l’opération d’affectation des masses des gros volumes de données occupées par ces images. La méthode proposée permet de modéliser non seulement l’ignorance et l’imprécision de nos sources d’information, mais aussi leur paradoxe. Ensuite, nous exploitons cette approche d’estimation pour proposer une technique de fusion originale qui permettra de remédier aux problèmes dus à la grande variété des connaissances apportées par ces capteurs hétérogènes. Finalement, nous étudions la manière dont la dépendance entre ces sources peut être considérée dans le processus de fusion moyennant la théorie des copules. Pour cette raison, une nouvelle technique pour choisir la copule la plus appropriée est introduite. La partie expérimentale de ce travail est dédiée à la cartographie de l’occupation des sols dans les zones agricoles en utilisant des images SPOT-5 et RADARSAT-2. L’étude expérimentale réalisée démontre la robustesse et l’efficacité des approches développées dans le cadre de cette thèse. / With the advent of new image acquisition techniques and the emergence of high-resolution satellite systems, remote sensing data to be exploited have become increasingly rich and varied. Their combination has thus become essential to improve the process of extracting useful information related to the physical nature of the observed surfaces. However, these data are generally heterogeneous and imperfect, which poses several problems in their joint treatment and requires the development of specific methods. It is in this context that falls this thesis that aimed at developing a new evidential fusion method dedicated to heterogeneous remote sensing images processing at high resolution. In order to achieve this objective, we first focus our research, firstly, on the development of a new approach for the belief functions estimation based on Kohonen’s map in order to simplify the masses assignment operation of the large volumes of data occupied by these images. The proposed method allows to model not only the ignorance and the imprecision of our sources of information, but also their paradox. After that, we exploit this estimation approach to propose an original fusion technique that will solve problems due to the wide variety of knowledge provided by these heterogeneous sensors. Finally, we study the way in which the dependence between these sources can be considered in the fusion process using the copula theory. For this reason, a new technique for choosing the most appropriate copula is introduced. The experimental part of this work isdevoted to land use mapping in case of agricultural areas using SPOT-5 and RADARSAT-2 images. The experimental study carried out demonstrates the robustness and effectiveness of the approaches developed in the framework of this thesis.
|
15 |
Maintien en conditions opérationnelles pour une flotte de véhicules : étude de la non stabilité des flux de rechange dans le temps / Maintenance, repair and operations for a fleet of vehicles : study of the non-stability of the flow of spares over timeDucros, Florence 26 June 2018 (has links)
Dans cette thèse, nous proposons une démarche méthodologique permettant de simuler le besoin en équipement de rechange pour une flotte de véhicules. Les systèmes se dégradent avec l’âge ou l’usage, et sont défaillants lorsqu’ils ne remplissent plus leur mission. L’usager a alors besoin d’une assurance que le système soit opérationnel pendant sa durée de vie utile. Un contrat de soutien oblige ainsi l’industriel à remédier à une défaillance et à maintenir le système en condition opérationnelle durant la durée du contrat. Ces dernières années, la mondialisation et l’évolution rapide des technologies obligent les constructeurs à proposer des offres de contrat de maintenance bien au-delà de la vie utile des équipements. La gestion de contrat de soutien ou d’extension de soutien requiert la connaissance de la durée de vie des équipements, mais aussi des conditions d’usages des véhicules, dépendant du client. L’analyse des retours clientèle ou des RetEx est alors un outil important d’aide à la décision pour l’industriel. Cependant ces données ne sont pas homogènes et sont très fortement censurées, ce qui rend les estimations difficiles. La plupart du temps, cette variabilité n’est pas observée mais doit cependant être prise en compte sous peine d’erreur de décision. Nous proposons dans cette thèse de modéliser l’hétérogénéité des durées de vie par un modèle de mélange et de concurrence de deux lois de Weibull. On propose une méthode d’estimation des paramètres capable d’être performante malgré la forte présence de données censurées.Puis, nous faisons appel à une méthode de classification non supervisée afin d’identifier des profils d’utilisation des véhicules. Cela nous permet alors de simuler les besoins en pièces de rechange pour une flotte de véhicules pour la durée du contrat ou pour une extension de contrat. / This thesis gathers methodologicals contributions to simulate the need of replacement equipment for a vehile fleet. Systems degrade with age or use, and fail when they do not fulfill their mission. The user needs an assurance that the system is operational during its useful life. A support contract obliges the manufacturer to remedy a failure and to keep the system in operational condition for the duration of the MCO contract.The management of support contracts or the extension of support requires knowledge of the equipment lifetime and also the uses condition of vehicles, which depends on the customer. The analysis of customer returns or RetEx is then an important tool to help support the decision of the industrial. In reliability or warranty analysis, engineers must often deal with lifetimes data that are non-homogeneous. Most of the time, this variability is unobserved but has to be taken into account for reliability or warranty cost analysis.A further problem is that in reliability analysis, the data is heavily censored which makes estimations more difficult. We propose to consider the heterogeneity of lifetimes by a mixture and competition model of two Weibull laws. Unfortunately, the performance of classical estimation methods (maximum of likelihood via EM, Bayes approach via MCMC) is jeopardized due to the high number of parameters and the heavy censoring.To overcome the problem of heavy censoring for Weibull mixture parameters estimation, we propose a Bayesian bootstrap method, called Bayesian RestorationMaximization.We use an unsupervised clustering method to identify the profiles of vehicle uses. Our method allows to simulate the needs of spare parts for a vehicles fleet for the duration of the contract or for a contract extension.
|
16 |
Intelligent flood adaptative contex-aware system / Système sensible et adaptatif au contexte pour la gestion intelligente de cruesSun, Jie 23 October 2017 (has links)
A l’avenir, l'agriculture et l'environnement vont pouvoir bénéficier de plus en plus de données hétérogènes collectées par des réseaux de capteurs sans fil (RCSF). Ces données alimentent généralement des outils d’aide à la décision (OAD). Dans cette thèse, nous nous intéressons spécifiquement aux systèmes sensibles et adaptatifs au contexte basés sur un RCSF et un OAD, dédiés au suivi de phénomènes naturels. Nous proposons ainsi une formalisation pour la conception et la mise en œuvre de ces systèmes. Le contexte considéré se compose de données issues du phénomène étudié mais également des capteurs sans fil (leur niveau d’énergie par exemple). Par l’utilisation des ontologies et de techniques de raisonnement, nous visons à maintenir le niveau de qualité de service (QdS) des données collectées (en accord avec le phénomène étudié) tant en préservant le fonctionnement du RCSF. Pour illustrer notre proposition, un cas d'utilisation complexe, l'étude des inondations dans un bassin hydrographique, est considéré. Cette thèse a produit un logiciel de simulation de ces systèmes qui intègre un système de simulation multi-agents (JADE) avec un moteur d’inférence à base de règles (Jess). / In the future, agriculture and environment will rely on more and more heterogeneous data collected by wireless sensor networks (WSN). These data are generally used in decision support systems (DSS). In this dissertation, we focus on adaptive context-aware systems based on WSN and DSS, dedicated to the monitoring of natural phenomena. Thus, a formalization for the design and the deployment of these kinds of systems is proposed. The considered context is established using the data from the studied phenomenon but also from the wireless sensors (e.g., their energy level). By the use of ontologies and reasoning techniques, we aim to maintain the required quality of service (QoS) level of the collected data (according to the studied phenomenon) while preserving the resources of the WSN. To illustrate our proposal, a complex use case, the study of floods in a watershed, is described. During this PhD thesis, a simulator for context-aware systems which integrates a multi-agent system (JADE) and a rule engine (Jess) has been developed.Keywords: ontologies, rule-based inferences, formalization, heterogeneous data, sensors data streams integration, WSN, limited resources, DSS, adaptive context-aware systems, QoS, agriculture, environment.
|
17 |
Fusion de Données Multicapteurs pour un Système de Télésurveillance Médicale de Personnes à DomicileDuchêne, Florence 15 October 2004 (has links) (PDF)
Le développement des systèmes de télésurveillance médicale à domicile est fondamental face au vieillissement de la population et aux capacités limitées d admission dans les hôpitaux et centres spécialisés. Ce travail de thèse concerne particulièrement la conception d un assistant intelligent pour l analyse des données hétérogènes collectées par des capteurs au domicile afin de détecter, voire prévenir, l occurrence de situations inquiétantes. Il s agit de concevoir un système d apprentissage des habitudes de vie d une personne, tout écart par rapport à ce profil comportemental étant considéré comme critique. L étude proposée concerne d une part la conception d un processus de simulation pour la génération de grandes quantités de données appropriées au contexte expérimental. D autre part, une méthode générique pour l extraction non supervisée de motifs dans des séquences temporelles multidimensionnelles et hétérogènes est proposée puis expérimentée dans le contexte de l identification des comportements récurrents d une personne dans ses activités quotidiennes. On évalue en particulier les indices de sensibilité (tolérance aux modifications normales de comportement) et de spécificité (rejet des modifications inquiétantes) du système. L application du système d apprentissage aux séquences générées par la simulation permet également de vérifier l extraction possible de comportements récurrents interprétés a posteriori en terme de la réalisation d activités de la vie quotidienne.
|
Page generated in 0.0453 seconds