Global ETD Search

131	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique Hussain, Syed Fawad 28 September 2010 (has links) (PDF) La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. [INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering
132	Mining Intentional Process Models Khodabandelou, Ghazaleh 13 June 2014 (has links) (PDF) Jusqu'à présent, les techniques de fouille de processus ont modélisé les processus en termes des séquences de tâches qui se produisent lors de l'exécution d'un processus. Cependant, les recherches en modélisation du processus et de guidance ont montrée que de nombreux problèmes, tels que le manque de flexibilité ou d'adaptation, sont résolus plus efficacement lorsque les intentions sont explicitement spécifiées. Cette thèse présente une nouvelle approche de fouille de processus, appelée Map Miner méthode (MMM). Cette méthode est conçue pour automatiser la construction d'un modèle de processus intentionnel à partir des traces d'activités des utilisateurs. MMM utilise les modèles de Markov cachés pour modéliser la relation entre les activités des utilisateurs et leurs stratégies (i.e., les différentes façons d'atteindre des intentions). La méthode comprend également deux algorithmes spécifiquement développés pour déterminer les intentions des utilisateurs et construire le modèle de processus intentionnel de la Carte. MMM peut construire le modèle de processus de la Carte avec différents niveaux de précision (pseudo-Carte et le modèle du processus de la carte) par rapport au formalisme du métamodèle de Map. L'ensemble de la méthode proposée a été appliqué et validé sur des ensembles de données pratiques, dans une expérience à grande échelle, sur les traces d'événements des développeurs de Eclipse UDC. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Modèles de processus intentionnels Apprentissage automatique
133	Identification du profil des utilisateurs d'un hypermédia encyclopédique à l'aide de classifieurs basés sur des dissimilarités : création d'un composant d'un système expert pour Hypergéo Abou Latif, Firas 08 July 2011 (has links) (PDF) L'objectif de cette thèse est d'identifier le profil d'utilisateur d'un hypermédia afin de l'adapter. Ceprofil est déterminé en utilisant des algorithmes d'apprentissage supervisé comme le SVM.Le modèle d'utilisateur est l'un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d'associer l'utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l'aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d'utiliser la structure et le contenu de l'hypermédia. Pour cela, nous avons utilisé des algorithmes d'apprentissage à noyau pour lesquels nous avons défini l'élément clé qu'est la mesure de similarité entre traces basée sur une " distance " entre documents du site. Notre approche a été validée à l'aide de données synthétiques puis à l'aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l'aide d'une des techniques du WUM (l'algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une" distance sémantique " entre documents, les utilisateurs d'Hypergéo ont été classés correctement selon leurs centres d'intérêt. [INFO] Computer Science [INFO] Informatique Fouille de données d'usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif
134	Optimization-based User Group Management : Discovery, Analysis, Recommendation / Optimization-based User Group Management : Discovery, Analysis, Recommendation Omidvar Tehrani, Behrooz 06 November 2015 (has links) Les donn ́ees utilisateurs sont devenue de plus en plus disponibles dans plusieurs do- maines tels que les traces d'usage des smartphones et le Web social. Les donn ́ees util- isateurs, sont un type particulier de donn ́ees qui sont d ́ecrites par des informations socio-d ́emographiques (ex., ˆage, sexe, m ́etier, etc.) et leurs activit ́es (ex., donner un avis sur un restaurant, voter, critiquer un film, etc.). L'analyse des donn ́ees utilisa- teurs int ́eresse beaucoup les scientifiques qui travaillent sur les ́etudes de la population, le marketing en-ligne, les recommandations et l'analyse des donn ́ees `a grande ́echelle. Cependant, les outils d'analyse des donn ́ees utilisateurs sont encore tr`es limit ́es.Dans cette th`ese, nous exploitons cette opportunit ́e et proposons d'analyser les donn ́ees utilisateurs en formant des groupes d'utilisateurs. Cela diff`ere de l'analyse des util- isateurs individuels et aussi des analyses statistiques sur une population enti`ere. Un groupe utilisateur est d ́efini par un ensemble des utilisateurs dont les membres parta- gent des donn ́ees socio-d ́emographiques et ont des activit ́es en commun. L'analyse au niveau d'un groupe a pour objectif de mieux g ́erer les donn ́ees creuses et le bruit dans les donn ́ees. Dans cette th`ese, nous proposons un cadre de gestion de groupes d'utilisateurs qui contient les composantes suivantes: d ́ecouverte de groupes, analyse de groupes, et recommandation aux groupes.La premi`ere composante concerne la d ́ecouverte des groupes d'utilisateurs, c.- `a-d., compte tenu des donn ́ees utilisateurs brutes, obtenir les groupes d'utilisateurs en op- timisantuneouplusieursdimensionsdequalit ́e. Ledeuxi`emecomposant(c.-`a-d., l'analyse) est n ́ecessaire pour aborder le probl`eme de la surcharge de l'information: le r ́esultat d'une ́etape d ́ecouverte des groupes d'utilisateurs peut contenir des millions de groupes. C'est une tache fastidieuse pour un analyste `a ́ecumer tous les groupes trouv ́es. Nous proposons une approche interactive pour faciliter cette analyse. La question finale est comment utiliser les groupes trouv ́es. Dans cette th`ese, nous ́etudions une applica- tion particuli`ere qui est la recommandation aux groupes d'utilisateurs, en consid ́erant les affinit ́es entre les membres du groupe et son ́evolution dans le temps.Toutes nos contributions sont ́evalu ́ees au travers d'un grand nombre d'exp ́erimentations `a la fois pour tester la qualit ́e et la performance (le temps de r ́eponse). / User data is becoming increasingly available in multiple domains ranging from phone usage traces to data on the social Web. User data is a special type of data that is described by user demographics (e.g., age, gender, occupation, etc.) and user activities (e.g., rating, voting, watching a movie, etc.) The analysis of user data is appealing to scientists who work on population studies, online marketing, recommendations, and large-scale data analytics. However, analysis tools for user data is still lacking.In this thesis, we believe there exists a unique opportunity to analyze user data in the form of user groups. This is in contrast with individual user analysis and also statistical analysis on the whole population. A group is defined as set of users whose members have either common demographics or common activities. Group-level analysis reduces the amount of sparsity and noise in data and leads to new insights. In this thesis, we propose a user group management framework consisting of following components: user group discovery, analysis and recommendation.The very first step in our framework is group discovery, i.e., given raw user data, obtain user groups by optimizing one or more quality dimensions. The second component (i.e., analysis) is necessary to tackle the problem of information overload: the output of a user group discovery step often contains millions of user groups. It is a tedious task for an analyst to skim over all produced groups. Thus we need analysis tools to provide valuable insights in this huge space of user groups. The final question in the framework is how to use the found groups. In this thesis, we investigate one of these applications, i.e., user group recommendation, by considering affinities between group members.All our contributions of the proposed framework are evaluated using an extensive set of experiments both for quality and performance. Fouille de données Analyse des données Recommandation Analyse interactive Data mining Data Analysis Exploratory Analysis Interactive Analysis Recommendation 621
135	Découverte de règles de préférences contextuelles : application à la construction de profils utilisateurs / Contextual preference rules mining : an application for building user profiles Diallo, Mouhamadou Saliou 27 March 2015 (has links) L’utilisation de préférences suscite un intérêt croissant pour personnaliser des réponses aux requêtes et effectuer des recommandations ciblées. Pourtant, la construction manuelle de profils de préférences reste à la fois complexe et consommatrice de temps. Dans ce contexte, nous présentons dans cette thèse une nouvelle méthode automatique d’extraction de préférences basée sur des techniques de fouille de données. L’approche que nous proposons est constituée de deux phases : (1) une phase d’extraction de toutes les règles de préférences contextuelles intéressantes et (2) une phase de construction du profil utilisateur. A la fin de la première phase, nous constatons qu’il y a des règles redondantes voir superflues ; la seconde phase permet d’éliminer les règles superflues afin d’avoir un profil concis et consistant. Dans notre approche, un profil utilisateur est constitué de cet ensemble de règles de préférences contextuelles résultats de la seconde phase. La consistance garantit que les règles de préférences spécifiant les profils sont en accord avec un grand nombre de préférences utilisateur et contredisent un petit nombre d’entre elles. D’autre part, la concision implique que les profils sont constitués d’un petit nombre de règles de préférences. Nous avons aussi proposé quatre méthodes de prédiction qui utilisent les profils construits. Nous avons validé notre approche sur une base de données de films construite à partir de MovieLens et IMDB. La base de données contient 3 881 films notés par 6 040 utilisateurs. Ces derniers ont attribué 800 156 notes. Les résultats de ces expériences démontrent que la concision des profils utilisateurs est contrôlée par le seuil d’accord minimal et que même avec une forte réduction du nombre de règles, les qualités de prédiction des profils restent à un niveau acceptable. En plus des expérimentations montrant la qualité de prédiction de notre approche, nous avons montré également que les performances de notre approche peuvent rivaliser avec les qualités de prédiction de certaines méthodes de l’état de l’art, en particulier SVMRank. / The use of preferences arouses a growing interest to personalize response to requests and making targeted recommandations. Nevertheless, manual construction of preferences profiles remains complex and time-consuming. In this context, we present in this thesis a new automatic method for preferences elicitation based on data mining techniques. Our proposal is a two phase algorithm : (1) Extracting all contextual preferences rules from a set of user preferences and (2) Building user profile. At the end of the first phase, we notice that there is to much preference rules which satisfy the fixed constraints then in the second phase we eliminate the superfluous preferences rules. In our approach a user profile is constituted by the set of contextual preferences rules resulting of the second phase. A user profile must satisfy conciseness and soundness properties. The soundness property guarantees that the preference rules specifying the profiles are in agreement with a large set of the user preferences, and contradict a small number of them. On the other hand, conciseness implies that profiles are small sets of preference rules. We also proposed four predictions methods which use the extracted profiles. We validated our approach on a set of real-world movie rating datasets built from MovieLens and IMDB. The whole movie rating database consists of 800,156 votes from 6,040 users about 3,881 movies. The results of these experiments demonstrates that the conciseness of user profiles is controlled by the minimal agreement threshold and that even with strong reduction, the soundness of the profile remains at an acceptable level. These experiment also show that predictive qualities of some of our ranking strategies outperform SVMRank in several situations. Elicitation de préférences Règles de préférences contextuelles Extraction de profil utilisateur Fouille de données Preference elicitation Contextual preference rule User profile mining Data mining
136	Co-développement d'un modèle d'aide à la décision pour la gestion intégrée de la flore adventice. Méta-modélisation et analyse de sensibilité d'un modèle mécaniste complexe (FLORSYS) des effets des systèmes de culture sur les services et disservices écosystémiques de la flore adventice / Co-design of a decision support system for integrated weed management. Meta-modelling and sensitivity analysis of a complex mechanistic model (FLORSYS) of cropping system effects on ecosystem services and disservices of weeds Colas, Floriane 26 March 2018 (has links) Les adventices sont la principale menace pour les cultures, pour les gérer le moyen le plus utilisé est l’application d’herbicides. Leur emploi doit être réduit en raison de problèmes de santé et d'environnement. Pour les remplacer, il faut mettre en place des combinaisons de pratiques culturales. Cette complexification de la gestion des adventices, la nécessité de la raisonner sur le long terme et la multiplicité des impacts du système de culture font que les outils de modélisation sont d'une grande aide pour concevoir des systèmes de culture innovants. L'objectif de la thèse est de développer un outil d'aide à la décision (OAD) pour des conseillers agricoles afin d'assister la reconception de systèmes de culture moins consommateurs en herbicides. Notre approche consiste à déterminer la structure de ce nouvel OAD en interaction avec les futurs utilisateurs et son contenu biophysique à partir du fonctionnement de l'agroécosystème d'un modèle de recherche. Ce modèle est FLORSYS, un modèle mécaniste de « parcelle virtuelle » qui simule la dynamique de la flore adventice et du couvert cultivé en fonction des systèmes de culture et du pédoclimat et qui en déduit des indicateurs d'impact de la flore adventice sur la production agricole et les services écosystémiques. La thèse comprend trois étapes : (1) accélération de FLORSYS en méta-modélisant, par polynômes du chaos, son module le plus lent, le module d'interception du rayonnement lumineux individu-centrée du couvert culture:adventices avec transfert et interception de la lumière simulée au niveau du voxel (pixel 3D); (2) identification des pratiques culturales ayant le plus d'effet sur les indicateurs d'impact de la flore adventice, par fouille de données sur un très grand nombre de systèmes de culture réels simulés avec FLORSYS. Pour élargir la gamme des combinaisons d'entrées explorées, des systèmes de culture aléatoires ont été ajoutés à l'analyse. Des forêts aléatoires ont permis d'établir des grilles des techniques culturales les plus influentes en fonction des objectifs visés ; les arbres de régression identifient les combinaisons de pratiques culturales permettant d'atteindre ces mêmes objectifs; (3) en parallèle, le co-développement de la structure de l'OAD avec les futurs utilisateurs s’est fait via enquêtes et ateliers de co-conception de systèmes de culture, en termes de questions traitées, choix et formats des entrées et sorties etc. Dans l'étape (1), la comparaison entre la version voxelisée et la version méta-modélisée au niveau de la plante entière a mis en lumière le compromis précision/rapidité du modèle. Le métamodèle est plus rapide pour tester des stratégies d'agriculture de précision nécessitant de connaître précisément la position et le volume des plantes. Dans les autres cas, diminuer la précision en utilisant la version voxelisée avec un grand voxel est plus rapide. L'étape (2) montre que pour réduire l'impact des adventices sur la production, le travail du sol, principalement en été, et l’utilisation d’herbicides sont les pratiques les plus influentes. L'étape (3) a identifié deux cas d'utilisation pour le futur OAD : la reconception de systèmes de culture nécessite un OAD synthétique basé sur des méta-règles de décision; le réajustement de système de culture nécessite un OAD plus détaillé en termes de description du système de culture et des effets de la flore. L'OAD synthétique est composé de grilles de conseil, d'arbres de décision et d’un simulateur rapide basé sur des forêts aléatoires; sa facilité et sa capacité à prédire à la fois des éléments connus mais aussi surprenants pour les conseillers, en font un intéressant support lors d'ateliers de conception de systèmes de culture pour proposer les grandes lignes de reconception des systèmes de culture multiperformants. L’OAD détaillé sera une version de FLORSYS pré-paramétrée pour différentes régions pour ajuster finement des systèmes de culture candidats à chaque type de situation d'agriculteur. / The main threat to agricultural crops are weeds with herbicides being the primary cropping management practice. Due to the negative impact of herbicides on health and environment, their use must be reduced. To replace herbicides, numerous cropping practices need to be implemented. This makes weed management more complicated and, together with necessity of scheduling operations at long-term and the multiplicity of cropping system impacts, explains why models are so useful for designing innovative cropping systems. The aim of this thesis was to develop a Decision Support System (DSS) intended for crop advisors to help design cropping systems that are less dependent on herbicides. Our approach consisted in identifying the structure of the DSS in interaction with future users while using an existing research model for the biophysical content of the tool. The research model, FLORSYS, is a mechanistic model of a “virtual field” simulating the weed flora dynamics from both cropping systems and pedoclimatic conditions. As output, it provides weed impact indicators, both for crop production and ecosystem services. This work was achieved via three steps: (1) increasing the speed of FLORSYS simulations by metamodelling, via polynomial chaos extension, the slowest submodel, i.e. the radiation interception. This submodel is based on a 3D representation of each plant of the crop:weed canopy where the transfer and interception of the radiation is computed at a voxel (3D pixel) scale. (2) The identification of the most influential cropping practices on weed impacts indicators via datamining on a wide range of simulated cropping systems with FLORSYS. To widen the range of cropping systems, random cropping systems were added to the study. Random forest allowed the construction of charts of the most important cropping practices contingent on different objectives; classification and regression trees gave the optimal combinations of practices leading to those objectives. (3) Simultaneously, the co-development of the structure of the DSS with future users was done via surveys and workshops to design cropping systems. These interactions aimed at defining which questions should be answered with the DSS, which inputs and outputs, and with which format, should be used. In step (1), the simulation time of the voxelised FLORSYS and the FLORSYS metamodelled at the scale of the plant highlighted the precision/speed trade-off of the model. The metamodel is faster for agricultural practices requiring precise knowledge of the position and volume of plants. In other cases, decreasing the precision by using the voxelized FLORSYS with an increased voxel size is much faster. Step (2) shows no general conflict between crop protection and ecosystem service indicators. The conservation of both crop protection and ecosystem services is thus possible, except for bee food offer. To reduce weed impacts on production, tillage, especially in summer, and herbicide use are the main cropping techniques. In step (3) two use cases were identified: (1st) the redesign of a cropping system requires a synthetic tool, based on meta-decision rules (e.g. rotating winter and spring crops, ploughing once every three years); (2nd) adjusting cropping practices requires a detailed tool, with detailed inputs on the cropping system. The synthetic DSS is composed of charts of the most important cropping system practices, of decision trees, and an emulator of FLORSYS based on random forests. Its capacity to predict known facts makes it an essential discussion medium for cropping system design workshops, particularly to suggest the outlines of multi-performant cropping systems. The detailed DSS consists of a pre-parameterized version of FLORSYS for different regions, to allow the fine tuning of cropping systems to constraints and objectives of farmers. Agroécologie Fouille de donnée Simplification Conseiller agricole Conception multi critères Ateliers Agroecology Data mining Simplification Workshops Crop advisor Multicriteria design 577.3
137	Querying and Mining Multigraphs / Requêtes et fouille de multigraphes Ingalalli, Vijay 27 February 2017 (has links) Avec des volumes de données et d’informations de plus en plus importants, des données de plus en plus complexes et fortement inter-reliées, l’extraction de connaissances reste un véritable défi. Les graphes offrent actuellement un support de représentation efficace pour représenter ces données. Parmi les approches existantes, les multi-graphes ont montré que leur pouvoir d’expression était particulièrement adapté pour manipuler des données complexes possédant de nombreux types de relations entre elles. Cette thèse aborde deux aspects principaux liés aux multigraphes : la recherche de sous graphes et la fouille de sous graphes fréquents dans des multigraphes.Elle propose trois propositions dans le domaines du requêtage et de la fouille de données.La première contribution s’inscrit dans la recherche de sous graphes et concerne l’isomorphisme de sous graphes dans des multigraphes. Cette approche peut, par exemple, être appliquée dans de nombreux domaines d’applications comme l’analyse d’images satellites ou de réseaux sociaux. Dans la seconde, nous nous intéressons aux graphes de connaissances et abordons la problématique de l’homorphisme de graphes dans des multigraphes RDF. Dans les deux contributions, nous proposons de nouvelles techniques d’indexations pour représenter efficacement les informations contenues dans les multigraphes. La recherche des sous graphes tire avantage de ces nouveaux index et différentes heuristiques et optimisations sont également proposées pour garantir de bonnes performances lors de l’exécution des requêtes. La seconde contribution s’inscrit dans le domaine de la fouille de données et nous proposons un algorithme efficace pour extraire les multigraphes fréquents. Etant donné l’espace de recherche à considérer, la recherche de motifs fréquents dans des graphes est un problème difficile en fouille de données. Pour parcourir efficacement l’espace de recherche encore plus volumineux pour les multigraphes, nous proposons de nouvelles techniques et méthodes pour le traverser efficacement notamment en éliminant des candidats où détectant à l’avance les motifs non fréquents. Pour chacune de ces propositions de nombreuses expérimentations sont réalisées pour valider à la fois leurs performances et exactitudes en les comparant avec les approches existantes. Finalement, nous proposons une étude de cas sur des jeux de données issues d’images satellites modélisées sous la forme de multigraphe et montrons que l’application de nos propositions permet de mettre en évidence de nouvelles connaissances utiles. / With the ever-increasing growth of data and information, extracting the right knowledge has become a real challenge.Further, the advanced applications demand the analysis of complex, interrelated data which cannot be adequately described using a propositional representation. The graph representation is of great interest for the knowledge extraction community, since graphs are versatile data structures and are one of the most general forms of data representation. Among several classes of graphs, textit{multigraphs} have been captivating the attention in the recent times, thanks to their inherent property of succinctly representing the entities by allowing the rich and complex relations among them.The focus of this thesis is streamlined into two themes of knowledge extraction; one being textit{knowledge retrieval}, where we focus on the subgraph query matching aspects in multigraphs, and the other being textit{knowledge discovery}, where we focus on the problem of frequent pattern mining in multigraphs.This thesis makes three main contributions in the field of query matching and data mining.The first contribution, which is very generic, addresses querying subgraphs in multigraphs that yields isomorphic matches, and this problem finds potential applications in the domains of remote sensing, social networks, bioinformatics, chemical informatics. The second contribution, which is focussed on knowledge graphs, addresses querying subgraphs in RDF multigraphs that yield homomorphic matches. In both the contributions, we introduce efficient indexing structures that capture the multiedge information. The query matching processes introduced have been carefully optimized, w.r.t. the time performance and the heuristics employed assure robust performance.The third contribution is in the field of data mining, where we propose an efficient frequent pattern mining algorithm for multigraphs. We observe that multigraphs pose challenges while exploring the search space, and hence we introduce novel optimization techniques and heuristic search methods to swiftly traverse the search space.For each proposed approach, we perform extensive experimental analysis by comparing with the existing state-of-the-art approaches in order to validate the performance and correctness of our approaches.In the end, we perform a case study analysis on a remote sensing dataset. Remote sensing dataset is modelled as a multigraph, and the mining and query matching processes are employed to discover some useful knowledge. Exploration de données Fouille de graphes La théorie des graphes Base de données du graphes Data mining Graph mining Graph theory Graph database
138	Explorer les trajectoires de patients via les bases médico-économiques : application à l'infarctus du myocarde / Exploring trajectories of patients via medico-economic databases : application to myocardial infarction Pinaire, Jessica 17 October 2017 (has links) Avec environ 120 000 personnes atteintes chaque année, 12 000 décès suite à la première crise et 18 000 décès après une année, l'infarctus du myocarde est un enjeu majeur de santé publique. Cette pathologie nécessite une hospitalisation et une prise en charge dans une unité de soins intensifs de cardiologie. Pour étudier cette pathologie, nous nous sommes orientés vers les bases hospitalières du PMSI.La collecte des données hospitalières dans le cadre du PMSI génère sur le plan national des bases de données de l'ordre de 25 millions d'enregistrements par an.Ces données, qui sont initialement recueillies à des fins médico-économiques, contiennent des informations qui peuvent avoir d'autres finalités : amélioration de la prise en charge du patient, prédiction de l'évolution des soins, planification de leurs coûts, etc.Ainsi émerge un autre enjeu : celui de fournir des outils d'explorations des trajectoires hospitalières des patients à partir des données issues du PMSI. Par le biais de plusieurs objectifs, les travaux menés dans le cadre de cette thèse ont pour vocation de proposer des outils combinant des méthodes issues de trois disciplines : informatique médicale, fouille de données et biostatistique.Nous apportons quatre contributions.La première contribution concerne la constitution d'une base de données de qualité pour analyser les trajectoires de patients. La deuxième contribution est une méthode semi-automatique pour la revue systématique de la littérature. Cette partie des travaux délimite les contours du concept de trajectoire dans le domaine biomédical. La troisième contribution est l'identification des parcours à risque dans la prédiction du décès intra-hospitalier. Notre stratégie de recherche s'articule en deux phases : 1) Identification de trajectoires types de patients à l'aide d'outils issus de la fouille de données ; 2) Construction d'un modèle de prédiction à partir de ces trajectoires afin de prédire le décès. Enfin, la dernière contribution est la caractérisation des flux de patients à travers les différents évènements hospitaliers mais aussi en termes de délais d'occurrences et de coûts de ces évènements. Dans cette partie, nous proposons à nouveau une alliance entre une méthode de fouille de données et de classification de données longitudinales. / With approximately 120,000 people affected each year, 12,000 deaths from the first crisis and 18,000 deaths after one year, myocardial infarction is a major public health issue. This pathology requires hospitalization and management in an intensive care cardiology unit. We study this pathology using the French national Prospective Paiement System (PPS) databases.The collection of national hospital data within the framework of the PPS generates about 25 million records per year.These data, which are initially collected for medico-economic purposes, contain information that may have other purposes: improving patient care, predicting the evolution of care, planning their costs, etc.Another emerging issue is that of providing tools for exploring patients' hospital trajectories using data from the PPS. Through several objectives, this thesis aims to suggest tools combining methods from three disciplines: medical computing, data mining and biostatistics.We make four contributions.The first contribution concerns the constitution of a quality database to analyze patient trajectories. The second contribution is a semi-automatic method for the systematic review of the literature. This part of the work delineates the contours of the trajectory concept in the biomedical field. The third contribution is the identification of care trajectories in the prediction of intra-hospital death. Our research strategy is divided into two phases: 1) Identification of typical patient trajectories using data mining tools; 2) Construction of a prediction model from these trajectories to predict death. Finally, the last contribution is the characterization of patient flows through the various hospital events, also considering of delays and costs. In this contribution, we propose a combined-data mining and a longitudinal data clustering technique. Pmsi Trajectoires hospitalières Infarctus du myocarde Fouille de données Prédiction Flux de patients Pps Healthcare trajectories Myocardial infarction Data mining Prediction Flow of patients
139	Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques / Automatic algorithms for visual data mining and association rules visualization : application to aeronautical data Bothorel, Gwenael 18 November 2014 (has links) Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. / In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms. Visual Analytics Fouille de données Règles d'association Mesures de qualité Sémiologie graphique Visual Analytics Data Mining Association Rules Quality Measures Graphic Semiology
140	Fouille d'items et d'itemsets représentatifs avec des méthodes de décomposition de matrices binaires et de sélection d'instances / Mining Representative Items and Itemsets with Binary Matrix Factorization and Instance Selection Mirisaee, Seyed Hamid 16 September 2015 (has links) Dans cette thèse, nous nous intéressons à la recherche d'“items” et d'“itemsets” d'intérêt via la décomposition de matrice binaire (Binary Matrix Factorization, BMF) et à la recherche d'objets représentatifs. Pour cela, nous étudions l'état de l'art des techniques de décomposition matricielle. Nous établissons, dans le premier Chapitre, un lien entre BMF et le problème de programmation binaire quadratique sans contraintes (Unconstrained Binary Quadratic Programming, UBQP) afin d'utiliser les algorithmes et heuristiques existant dans la littérature pour UBQP et les appliquer à BMF.Nous proposons dans le Chapitre 2 une nouvelle heuristique adaptée au calcul de BMF. Cette technique efficace optimise les solutions de BMF ligne par ligne (ou colonne par colonne) en inversant 1 bit à chaque fois. En utilisant le lien établi dans le Chapitre 2 qui nous permet d'appliquer les algorithmes et heuristiques d'UBQP à BMF, nous comparons la méthode proposée (1-opt-BMF) avec les heuristiques spécialisées pour UBQP (1-opt-UBQP) ainsi que les heuristiques classiques (1-opt-Standard). Nous montrons ensuite, en théorie et en pratique, l'efficacité de 1-opt-BMF sur une large variété de données publiques. Dans le Chapitre 3, nous nous intéressons au problème de la recherche des itemsets représentatifs en utilisant BMF et 1-opt-BMF. Pour cela, nous considérons dans un premier temps le lien entre le problème de “frequent itemset mining” et BMF, et proposons une nouvelle méthode que nous appelons “Decomposition Itemset Miner” (DIM). Une série d'expérience montre la qualité des résultats obtenus et l'efficacité de notre méthode.Enfinf, nous nous intéressons, dans le Chapitre 4, à la recherche d'objets représentatifs (qui donnent une vue globale sur les données) dans des données de grandes dimensions. Nous examinons les méthodes disponibles dans la littérature en donnant les avantages et les inconvénients de chacune. Ensuite, nous défnissons mathématiquement le problème de sélection d'instance (Instance Selection Problem: ISP) et présentons trois variantes à ce problème ainsi que leur solutions. Dans les expériences, nous montrons que, bien qu'ISP puisse surpasser les autres méthodes dans certains cas, il vaut mieux le considérer en général comme une technique complémentaire dans le cadre de la recherche des objets représentatifs. / This thesis focuses on mining representative items and itemsets using Binary Matrix Factorization (BMF) and instance selection. To accomplish this task, we first, in Chapter 1, consider the BMF problem by studying the literature on matrix decomposition techniques and the state-of-the-art algorithms. Then, we establish a connection between BMF problem and Unconstrained Binary Quadratic Programming (UBQP) problem in order to use UBQP's algorithms and heuristics, available in the literature, in case of BMF solutions. Next, in Chapter 2, we propose a new, efficient heuristic which flips 1 bit at the time in order to improve the solutions of BMF. Using the established link discussed in Chapter 2, which enables us to use heuristics of UBQP, we compare the proposed technique, called 1-opt-BMF with that of UBQP, called 1opt-UBQP as well as the standard approach, called 1-opt-Standard. We then show, theoretically and experimentally, the efficiency of 1-opt-BMF on a wide range of publicly available datasets. Next, in Chapter 3, we explore addressing the problem of finding representative itemsets via BMF. To do that, we first consider the theoretical relation between the frequent itemset mining problem and BMF; while established, we propose a new technique called Decomposition Itemset Miner (DIM). We then design a set of experiments to show the efficiency of DIM and the quality of its results.Finally, in Chapter 4, we consider the problem of finding representative objects (instances) in big, high-dimensional datasets. These objects helps us to find objects providing a global, top-view of the data and are very important in data analysis process. We first study the available methods for finding representative objects and discuss the pros and cons of each. We then formally define the Instance Selection Problem (ISP), provide three variants of that and examine their complexities before providing their solutions. In the experimental section, we show that although the ISP solutions can outperform other methods in some cases, in general it should be considered as a complementary technique in the context of finding representative objects. Décomposition de matrices Fouille de donnees Objets représentatifs Matrice binaire Matrix decomposition Data mining Representative objects Binary matrix 621

Search results