Global ETD Search

91	Discovering data quality rules in a master data management context / Fouille de règles de qualité de données dans un contexte de gestion de données de référence Diallo, Thierno Mahamoudou 17 July 2013 (has links) Le manque de qualité des données continue d'avoir un impact considérable pour les entreprises. Ces problèmes, aggravés par la quantité de plus en plus croissante de données échangées, entrainent entre autres un surcoût financier et un rallongement des délais. De ce fait, trouver des techniques efficaces de correction des données est un sujet de plus en plus pertinent pour la communauté scientifique des bases de données. Par exemple, certaines classes de contraintes comme les Dépendances Fonctionnelles Conditionnelles (DFCs) ont été récemment introduites pour le nettoyage de données. Les méthodes de nettoyage basées sur les CFDs sont efficaces pour capturer les erreurs mais sont limitées pour les corriger . L’essor récent de la gestion de données de référence plus connu sous le sigle MDM (Master Data Management) a permis l'introduction d'une nouvelle classe de règle de qualité de données: les Règles d’Édition (RE) qui permettent d'identifier les attributs en erreur et de proposer les valeurs correctes correspondantes issues des données de référence. Ces derniers étant de très bonne qualité. Cependant, concevoir ces règles manuellement est un processus long et coûteux. Dans cette thèse nous développons des techniques pour découvrir de manière automatique les RE à partir des données source et des données de référence. Nous proposons une nouvelle sémantique des RE basée sur la satisfaction. Grace à cette nouvelle sémantique le problème de découverte des RE se révèle être une combinaison de la découverte des DFCs et de l'extraction des correspondances entre attributs source et attributs des données de référence. Nous abordons d'abord la découverte des DFCs, en particulier la classe des DFCs constantes très expressives pour la détection d'incohérence. Nous étendons des techniques conçues pour la découverte des traditionnelles dépendances fonctionnelles. Nous proposons ensuite une méthode basée sur les dépendances d'inclusion pour extraire les correspondances entre attributs source et attributs des données de référence avant de construire de manière automatique les RE. Enfin nous proposons quelques heuristiques d'application des ER pour le nettoyage de données. Les techniques ont été implémenté et évalué sur des données synthétiques et réelles montrant la faisabilité et la robustesse de nos propositions. / Dirty data continues to be an important issue for companies. The datawarehouse institute [Eckerson, 2002], [Rockwell, 2012] stated poor data costs US businesses $611 billion dollars annually and erroneously priced data in retail databases costs US customers $2.5 billion each year. Data quality becomes more and more critical. The database community pays a particular attention to this subject where a variety of integrity constraints like Conditional Functional Dependencies (CFD) have been studied for data cleaning. Repair techniques based on these constraints are precise to catch inconsistencies but are limited on how to exactly correct data. Master data brings a new alternative for data cleaning with respect to it quality property. Thanks to the growing importance of Master Data Management (MDM), a new class of data quality rule known as Editing Rules (ER) tells how to fix errors, pointing which attributes are wrong and what values they should take. The intuition is to correct dirty data using high quality data from the master. However, finding data quality rules is an expensive process that involves intensive manual efforts. It remains unrealistic to rely on human designers. In this thesis, we develop pattern mining techniques for discovering ER from existing source relations with respect to master relations. In this set- ting, we propose a new semantics of ER taking advantage of both source and master data. Thanks to the semantics proposed in term of satisfaction, the discovery problem of ER turns out to be strongly related to the discovery of both CFD and one-to-one correspondences between sources and target attributes. We first attack the problem of discovering CFD. We concentrate our attention to the particular class of constant CFD known as very expressive to detect inconsistencies. We extend some well know concepts introduced for traditional Functional Dependencies to solve the discovery problem of CFD. Secondly, we propose a method based on INclusion Dependencies to extract one-to-one correspondences from source to master attributes before automatically building ER. Finally we propose some heuristics of applying ER to clean data. We have implemented and evaluated our techniques on both real life and synthetic databases. Experiments show both the feasibility, the scalability and the robustness of our proposal. Informatique Fouille de données Qualité des données Dépendance de données Contraintes Gestion de données de références Information Technology Data mining Data quality Data dependency Constraints Master data management 006.310 72
92	Spatio-temporal grid mining applied to image classification and cellular automata analysis / Fouille de grille spatio-temporelle appliqué à la classification d'image et à l'analyse d'automate cellulaire Deville, Romain 30 May 2018 (has links) Durant cette thèse, nous abordons le problème de la fouille exhaustive de motifs pour un cas particulier de graphes : les grilles. Ces grilles peuvent être utilisées pour modéliser des objets ayant une structure régulière. Ces structures sont naturellement présentes dans de nombreux jeux de plateaux (les dames, les échecs ou le go par exemple) ou encore dans les modélisations d’écosystèmes utilisant des automates cellulaires. On les retrouve également à un plus bas niveau dans les images, qui sont des grilles 2D de pixels ou encore les vidéos, qui sont des grilles spatio-temporelles 2D+t de pixels. Au cours de cette thèse, nous avons proposé un nouvel algorithme de fouille de motifs fréquents dédié aux grilles spatio-temporelles, GriMA. L’usage des grilles régulières permet à notre algorithme de réduire la complexité des tests d’isomorphismes. Ces tests sont souvent utilisés par les algorithmes génériques de fouilles de graphes mais ayant une complexité importante, cela limite leur usage sur des données réelles. Deux applications ont été proposées pour évaluer notre algorithme : la classification d’images pour la fouille de grilles 2D et la prédiction d’automates cellulaires pour la fouille de grilles 2D+t. / During this thesis, we consider the exhaustive graph mining problem for a special kind of graphs : the grids. Theses grids can be used to model objects that present a regular structure. These structures are naturally present in multiple board games (checkers, chess or go for instance) or in ecosystems models using cellular automata. It is also possible to find this structure in a lower level in images, which are 2D grids of pixels, or even in videos, which are 2D+t spatio-temporal grids of pixels. In this thesis, we proposed a new algorithm to find frequent patterns dedicated to spatio-temporal grids, GriMA. Use of regular grids allow our algorithm to reduce the complexity of the isomorphisms test. These tests are often use by generic graph mining algorithm but because of their complexity, they are rarely used on real data. Two applications were proposed to evaluate our algorithm: image classification for 2D grids mining and prediction of cellular automata for 2D+t grids mining. Informatique Fouille de données Fouille de grilles Motifs spatiaux-Temporels Classification d'images Automates cellulaires Information Technology Data mining Grids mining Spatio-Temporal patterns Image classification Cellular automata 006.310 72
93	Prédire et influencer l'apparition des événements dans une séquence complexe / Predicting and influencing the appearance of events in a complex sequence Fahed, Lina 27 October 2016 (has links) Depuis plusieurs années, un nouveau phénomène lié aux données numériques émerge : des données de plus en plus volumineuses, variées et véloces, apparaissent et sont désormais disponibles, elles sont souvent qualifiées de données complexes. Dans cette thèse, nous focalisons sur un type particulier de données complexes : les séquences complexes d’événements, en posant la question suivante : “comment prédire au plus tôt et influencer l’apparition des événements futurs dans une séquence complexe d’événements ?”. Tout d’abord, nous traitons le problème de prédiction au plus tôt des événements. Nous proposons un algorithme de fouille de règles d’épisode DEER qui a l’originalité de maîtriser l’horizon d’apparition des événements futurs à travers d’une distance imposée au sein de règles extraites. Dans un deuxième temps, nous focalisons sur la détection de l’émergence dans un flux d’événements. Nous proposons l’algorithme EER pour la détection au plus tôt de l’émergence de nouvelles règles. Pour augmenter la fiabilité de nouvelles règles lorsque leur support est très faible, EER s’appuie sur la similarité entre ces règles et les règles déjà connues. Enfin, nous étudions l’impact porté par des événements sur d’autres dans une séquence d’événements. Nous proposons l’algorithme IE qui introduit la notion des “événements influenceurs” et étudie l’influence sur le support, la confiance et la distance à travers de trois mesures d’influence proposées. Ces travaux sont évalués et validés par une étude expérimentale menée sur un corpus de données réelles issues de blogs / For several years now, a new phenomenon related to digital data is emerging : data which are increasingly voluminous, varied and rapid, appears and becomes available, they are often referred to as complex data. In this dissertation, we focus on a particular type of data : complex sequence of events, by asking the following question : “how to predict as soon as possible and to influence the appearance of future events within a complex sequence of events?”. First of all, we focus on the problem of predicting events as soon as possible in a sequence of events. We propose DEER : an algorithm for mining episode rules, which has the originality of controlling the horizon of the appearance of future events by imposing a temporal distance within the extracted rules. In a second phase, we address the problem of emergence detection in an events stream. We propose EER : an algorithm for detecting new emergent rules as soon as possible. In order to increase the reliability of new rules, EER relies on the similarity between theses rules and previously extracted rules. At last, we study the impact carried by events on other events within a sequence of events. We propose IE : an algorithm that introduces the concept of “influencer events” and studies the influence on the support, on the confidence and on the distance through three proposed measures. Our work is evaluated and validated through an experimental study carried on a real data set of blogs messages Fouille de données Règles d’épisodes Séquence d’événements Prédiction d’événements Détection de l’émergence Événements influenceurs Data mining Episode rules Events sequence Events prediction Emergent events Influencer events 006.312 519.54 003.2
94	Contribution à l'extraction des règles d'association basée sur des préférences / Contribution to the extraction of association rules based on preferences Bouker, Slim 30 June 2015 (has links) Résumé indisponible. / Résumé indisponible. Fouille de données Extraction des règles d'association Mesures de qualité Préférences des experts Relation de dominance Data mining Extraction of association rules Interestingness measures Experts preferences Dominance relationship
95	Extraction de relations spatio-temporelles à partir des données environnementales et de la santé / Spatio-temporal data mining from health and environment data Alatrista-Salas, Hugo 04 October 2013 (has links) Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système.Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts. / Thanks to the new technologies (smartphones, sensors, etc.), large amounts of spatiotemporal data are now available. The associated database can be called spatiotemporal databases because each row is described by a spatial information (e.g. a city, a neighborhood, a river, etc.) and temporal information (e.g. the date of an event). This huge data is often complex and heterogeneous and generates new needs in knowledge extraction methods to deal with these constraints (e.g. follow phenomena in time and space).Many phenomena with complex dynamics are thus associated with spatiotemporal data. For instance, the dynamics of an infectious disease can be described as the interactions between humans and the transmission vector as well as some spatiotemporal mechanisms involved in its development. The modification of one of these components can trigger changes in the interactions between the components and finally develop the overall system behavior.To deal with these new challenges, new processes and methods must be developed to manage all available data. In this context, the spatiotemporal data mining is define as a set of techniques and methods used to obtain useful information from large volumes of spatiotemporal data. This thesis follows the general framework of spatiotemporal data mining and sequential pattern mining. More specifically, two generic methods of pattern mining are proposed. The first one allows us to extract sequential patterns including spatial characteristics of data. In the second one, we propose a new type of patterns called spatio-sequential patterns. This kind of patterns is used to study the evolution of a set of events describing an area and its near environment.Both approaches were tested on real datasets associated to two spatiotemporal phenomena: the pollution of rivers in France and the epidemiological monitoring of dengue in New Caledonia. In addition, two measures of quality and a patterns visualization prototype are also available to assist the experts in the selection of interesting patters. Fouille de données spatio-temporelles Information Géographique Recherche de corrélations Exploration de données Système de détection épidémiologique Spatio-temporal data mining Geographic information Research of correlations Data exploration Epidemiology detection system
96	Extraction d'informations synthétiques à partir de données séquentielles : application à l'évaluation de la qualité des rivières / Extraction of synthetic information from sequential data : application to river quality assessment Fabregue, Mickael 26 November 2014 (has links) L'exploration des bases de données temporelles à l'aide de méthodes de fouille de données adaptées a fait l'objet de nombreux travaux de recherche. Cependant le volume d'informations extraites est souvent important et la tâche d'analyse reste alors difficile. Dans cette thèse, nous présentons des méthodes pour synthétiser et filtrer l'information extraite. L'objectif est de restituer des résultats qui soient interprétables. Pour cela, nous avons exploité la notion de séquence partiellement ordonnée et nous proposons (1) un algorithme qui extrait l'ensemble des motifs partiellement ordonnés clos; (2) un post-traitement pour filtrer un ensemble de motifs d'intérêt et(3) une approche qui extrait un consensus comme alternative à l'extraction de motifs. Les méthodes proposées ont été testées sur des données hydrobiologiques issues du projet ANR Fresqueau et elles ont été implantées dans un logiciel de visualisation destiné aux hydrobiologistes pour l'analyse de la qualité des cours d'eau. / Exploring temporal databases with suitable data mining methods have been the subject of several studies. However, it often leads to an excessive volume of extracted information and the analysis is difficult for the user. We addressed this issue and we specically focused on methods that synthesize and filter extracted information. The objective is to provide interpretable results for humans. Thus, we relied on the notion of partially ordered sequence and we proposed (1) an algorithm that extracts the set of closed partially ordered patterns ; (2) a post-processing to filter some interesting patterns for the user and (3) an approach that extracts a partially ordered consensus as an alternative to pattern extraction. The proposed methods were applied for validation on hydrobiological data from the Fresqueau ANR project. In addition, they have been implemented in a visualization tool designed for hydrobiologists for water course quality analysis. Fouille de données séquentielles Motifs séquentiels Motifs partiellement ordonnés Résumé de l'information Hydrobiologie Sequential data mining Sequential patterns Partially ordered patterns Summarized information Hydrobiology 004.2 577.6
97	Compréhension fine du comportement des lignes des réseaux métro, RER ettramway pour la réalisation des études d’exploitabilité. / Detailed understanding of the metro, RER and streetcar network lines behaviour for the realization of operating studies Dimanche, Vincent 11 June 2018 (has links) Les réseaux ferroviaires en milieu dense font face à des saturations importantes. Et l'adéquation entre l'offre théorique et la demande croissante impose des contraintes d'exploitabilités fortes. Un déséquilibre générera des points conflictuels comme des goulets d'étranglement avec pour effet des retards sur les trains amonts. Comme le facteur humain, parmi une multitude, influence l'exploitation ; le prendre en compte plus finement devrait améliorer la compréhension et la modélisation des lignes pour en accroître la capacité sans sacrifier le confort des passagers. Pour répondre à cet objectif, nos travaux reposent sur une visualisation adaptée des données remontées de l'exploitation et sur leur fouille automatisée. Elles ont été adaptées et appliquées au domaine ferroviaire notamment aux lignes des réseaux ferrés exploités par la RATP. Le processus « Visual Analytics », mis en œuvre dans nos travaux pour répondre à ces besoins, englobe les étapes nécessaires à la valorisation de la donnée, allant de leur préparation à l’analyse experte en passant par leur représentation graphique et par l’utilisation d'algorithmes de fouille de données. Parmi ces derniers, le CorEx et le Sieve nous ont permis par un apprentissage non supervisé basé sur une mesure de l'information mutuelle multivariée d'analyser les données d'exploitation pour en extraire des caractéristiques du comportement humain. Enfin, nous proposons aussi une visualisation intuitive d'une grande quantité de données permettant leur intégration et facilitant le diagnostic global du comportement des lignes ferroviaires. / Dense railway networks face significant saturation. And the balance between the theoretical offer and the growing demand imposes strong operability constraints. An imbalance will generate conflicting points such as bottlenecks with the effect of delays on the following trains. As the human factor influences the operation performance; taking it into account more accurately should improve understanding and modeling of railway lines to increase capacity without reducing passenger comfort. To fulfill this objective, we are working on an adapted visualization of the operating data and on their automated mining. These two solutions have been adapted and applied to the railway sector, particularly to the lines of rail networks operated by RATP. The "Visual Analytics" process, implemented in our work to meet these needs, encompasses the steps required to value the data, going from the preparation of the data to the expert analysis. This expert analysis is made through graphic representation and the use of data mining algorithms. Among these data mining algorithms, CorEx and Sieve allowed us to analyze operating data and then extract characteristics human behavior thanks to unsupervised learning based on a multivariate mutual information measure to. Finally, we propose an intuitive visualization of a large amount of data allowing their global integration and facilitating the overall diagnosis of the railway lines behavior. Etudes d’exploitabilité Visual analytics Fouille de données Data visualization Domaine ferroviaire Operating studies Visual analytics Data mining Data visualization Railway network 005.74
98	Extraction de motifs spatio-temporels dans des séries d'images de télédétection : application à des données optiques et radar Julea, Andreea Maria 20 September 2011 (has links) (PDF) Les Séries Temporelles d'Images Satellitaires (STIS), visant la même scène en évolution, sont très intéressantes parce qu'elles acquièrent conjointement des informations temporelles et spatiales. L'extraction de ces informations pour aider les experts dans l'interprétation des données satellitaires devient une nécessité impérieuse. Dans ce mémoire, nous exposons comment on peut adapter l'extraction de motifs séquentiels fréquents à ce contexte spatio-temporel dans le but d'identifier des ensembles de pixels connexes qui partagent la même évolution temporelle. La démarche originale est basée sur la conjonction de la contrainte de support avec différentes contraintes de connexité qui peuvent filtrer ou élaguer l'espace de recherche pour obtenir efficacement des motifs séquentiels fréquents groupés (MSFG) avec signification pour l'utilisateur. La méthode d'extraction proposée est non supervisée et basée sur le niveau pixel. Pour vérifier la généricité du concept de MSFG et la capacité de la méthode proposée d'offrir des résultats intéressants à partir des SITS, sont réalisées des expérimentations sur des données réelles optiques et radar. [SPI:OTHER] Engineering Sciences/Other Télédétection Fouille de données Contraintes de connexité Motifs séquentiels fréquents groupés Images satellitaires optiques et radar
99	Méthodes d'extraction de connaissances à partir de données modélisables par des graphes. Application à des problèmes de synthèse organique. Pennerath, Frédéric 02 July 2009 (has links) (PDF) Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. [INFO] Computer Science Fouille de données fouille de graphes recherche des motifs fréquents classification supervisée chémoinformatique
100	Apport de la réalité virtuelle pour la rééducation fonctionnelle Nguyen, Van Hanh 17 December 2010 (has links) (PDF) La réalité virtuelle est un domaine pluridisciplinaire qui se trouve à la croisée des chemins des sciences de l'ingénieur et des sciences humaines. Dans le domaine de la médecine, la réalité virtuelle s'est imposée comme un nouvel outil thérapeutique non seulement pour la médecine et la chirurgie mais également pour le traitement des troubles psychologiques et de la rééducation des personnes handicapées. Nos travaux de recherche présentés dans ce mémoire ont pour but de développer des techniques d'aide à la rééducation fonctionnelle en utilisant les technologies de la réalité virtuelle. La question de recherche au cœur de nos travaux concerne l'effet des métaphores de représentation sur la réalisation de gestes observés en environnement virtuel. Pour cela, nous avons discuté et considéré des problématiques essentielles à la fois en aspects technologiques et aspects scientifiques. Trois verrous scientifiques et technologiques ont été adressés et étudiés dans nos travaux. Le premier verrou est relatif à l'évaluation des gestes. Nous avons développé un outil permettant d'évaluer les gestes pour aider le patient dans son apprentissage et l'informer de ses progrès dans le processus de rééducation motrice. Le second verrou est relatif à l'évaluation de l'utilisabilité de l'environnement virtuel pour la rééducation motrice. Nous avons réalisé un travail pour évaluer le rôle de l'avatar virtuel, un facteur important de l'environnement virtuel, pour favoriser le processus d'empathie postural est la représentation de l'avatar. Le dernier verrou que nous avons adressé a pour but d'améliorer la capacité du sujet de travailler en autonomie au sein de l'environnement virtuel pour sa rééducation motrice. Pour cela, nous avons réalisé un outil qui permette au sujet de fouiller automatiquement le geste humain pour l'entraînement. Dans ces travaux, nous avons implémenté des protocoles d'évaluation qui ont permis de mettre en évidence la pertinence de nos hypothèses. Réalité virtuelle Rééducation motrice Evaluation de mouvement Fouille de données chronologique

Search results