Global ETD Search

101	Évaluation de l'impact des pratiques agricoles sur les fonctions de la biodiversité à l'aide d'indicateurs agri-environnementaux : approche globale et développement d'un indicateur de "résistance aux stress biotiques" / Assessment of the impact of agricultural practices on biodiversity functions using agri-environmental indicators : global approach and building of an indicator "biotic stress resistance" Clergué, Boris 20 October 2008 (has links) Des outils d’évaluation pertinents sont nécessaires pour évaluer l’impact des pratiques agricoles sur les fonctions assurées par la biodiversité de l’échelle de la parcelle à l’échelle du territoire. L’objectif et l’innovation du présent travail a été d’explorer une nouvelle méthode de création d’un outil d’évaluation des fonctions de la biodiversité. Nous avons choisi comme méthode d’évaluation les indicateurs agri-environnementaux, qui permettent d’évaluer l’impact des pratiques agricoles sur les compartiments de l’environnement (eau, sol, air, faune et flore) et aident à la prise de décisions. Nous proposons donc une architecture générale d’un indicateur de biodiversité fonctionnelle et le détail d’un indicateur de fonction agronomique d’importance: la résistance aux stress biotiques. Au sein de cet indicateur se trouve un sous-indicateur : le « rôle des auxiliaires terrestre ». Les carabes seront utilisés comme auxiliaire modèle pour la construction de ce sous-indicateur. Deux méthodes de construction d’indicateurs sont comparées: une méthode à dire d’expert et une méthode par fouille de données, cette deuxième méthode représentant une innovation de la thèse. Les résultats de ces méthodes sont ensuite comparés à des mesures de terrain conduit sur le territoire de Vittel. Les mesures de terrain ont concerné le suivi des populations de carabes, et l’organisation du territoire agricole. Un traitement par un système d’information géographique a permis la validation des indicateurs obtenus / Relevant tools for assessment are necessary to evaluate the impact of agricultural pratices on the functions provided by biodiversity at the plot scale to the landscape scale. The goal and the innovation of this work has been to explore a new method of creation of an assessment tool of the biodiversity functions. We have chosen like assessment method the agri-environmental indicators, which make it possible to evaluate the impact of agricultural practices on environment compartments (water, soil, air, fauna and flora) and help to decision-making. We thus propose a general architecture of an indicator of functional biodiversity and the detail of an agronomic function indicator of importance: resistance to the biotic stresses. Within this indicator, an under-indicator is: the « role of the terrestrial auxiliaries ». Carabids will be used as model auxiliary for the construction of this under-indicator. Two building methods of indicators are compared: a method with expert saying and a method with data mining, this second method representing an innovation of the thesis. The results of these methods are then compared with field datas leads on the Vittel territory. Field datas related to the follow-up of the carabid populations and the organization of the agricultural landscape. A treatment by a geographical information system allowed the validation of the indicators obtained Biodiversité Pratiques agricoles Carabes Fouille de données Indicateur Evaluation Biodiversity Carabid beetles Agricultural practice Data mining Indicator Assessment
102	Etude des projections de données comme support interactif de l’analyse visuelle de la structure de données de grande dimension / Study of multidimensional scaling as an interactive visualization to help the visual analysis of high dimensional data Heulot, Nicolas 04 July 2014 (has links) Acquérir et traiter des données est de moins en moins coûteux, à la fois en matériel et en temps, mais encore faut-il pouvoir les analyser et les interpréter malgré leur complexité. La dimensionnalité est un des aspects de cette complexité intrinsèque. Pour aider à interpréter et à appréhender ces données le recours à la visualisation est indispensable au cours du processus d’analyse. La projection représente les données sous forme d’un nuage de points 2D, indépendamment du nombre de dimensions. Cependant cette technique de visualisation souffre de distorsions dues à la réduction de dimension, ce qui pose des problèmes d’interprétation et de confiance. Peu d’études ont été consacrées à la considération de l’impact de ces artefacts, ainsi qu’à la façon dont des utilisateurs non-familiers de ces techniques peuvent analyser visuellement une projection. L’approche soutenue dans cette thèse repose sur la prise en compte interactive des artefacts, afin de permettre à des analystes de données ou des non-experts de réaliser de manière fiable les tâches d’analyse visuelle des projections. La visualisation interactive des proximités colore la projection en fonction des proximités d’origine par rapport à une donnée de référence dans l’espace des données. Cette technique permet interactivement de révéler les artefacts de projection pour aider à appréhender les détails de la structure sous-jacente aux données. Dans cette thèse, nous revisitons la conception de cette technique et présentons ses apports au travers de deux expérimentations contrôlées qui étudient l’impact des artefacts sur l’analyse visuelle des projections. Nous présentons également une étude de l’espace de conception d’une technique basée sur la métaphore de lentille et visant à s’affranchir localement des problématiques d’artefacts de projection. / The cost of data acquisition and processing has radically decreased in both material and time. But we also need to analyze and interpret the large amounts of complex data that are stored. Dimensionality is one aspect of their intrinsic complexity. Visualization is essential during the analysis process to help interpreting and understanding these data. Projection represents data as a 2D scatterplot, regardless the amount of dimensions. However, this visualization technique suffers from artifacts due to the dimensionality reduction. Its lack of reliability implies issues of interpretation and trust. Few studies have been devoted to the consideration of the impact of these artifacts, and especially to give feedbacks on how non-expert users can visually analyze projections. The main approach of this thesis relies on an taking these artifacts into account using interactive techniques, in order to allow data scientists or non-expert users to perform a trustworthy visual analysis of projections. The interactive visualization of the proximities applies a coloring of the original proximities relatives to a reference in the data-space. This interactive technique allows revealing projection artifacts in order to help grasping details of the underlying data-structure. In this thesis, we redesign this technique and we demonstrate its potential by presenting two controlled experiments studying the impact of artifacts on the visual analysis of projections. We also present a design-space based on the lens metaphor, in order to improve this technique and to locally visualize a projection free of artifacts issues. Visualisation d’information Fouille visuelle de données Données de grande dimension Projection de données Information Visualization Visual Analytics High-Dimensional Data Multidimensional Scaling
103	Leveraging User-Generated Content for Enhancing and Personalizing News Recommendation. / Analyse des opinions pour personnaliser la recommandation d’articles dans les portails d’informations Meguebli, Youssef 27 March 2015 (has links) La motivation principale de cette thèse est de proposer un système de recommandation personnalisé pour les plateformes d’informations. Pour cela, nous avons démontré que les opinions peuvent constituer un descripteur efficace pour améliorer la qualité de la recommandation. Au cours de cette thèse, nous avons abordé ce problème en proposant trois contributions principales. Tout d’abord, nous avons proposé un modèle de profil qui décrit avec précision les intérêts des utilisateurs ainsi que le contenu des articles de presse. Le modèle de profil proposé repose sur trois éléments : les entités nommées, les aspects et les sentiments. Nous avons testé notre modèle de profil sur les trois applications différentes que sont l’identification des orientations politiques des utilisateurs, la recommandation personnalisée des articles de presse et enfin la diversification de la liste des articles recommandés. Deuxièmement, nous avons proposé une approche de classement des opinions permettant de filtrer et sélectionner seulement les opinions pertinentes. Pour cela, nous avons utilisé une variation de la technique de PageRank pour définir le score de chaque opinion. Les résultats montrent que notre approche surpasse deux approches récemment proposées pour le classement des opinions. Troisièmement, nous avons étudié différentes façons d’enrichir le contenu des articles de presse par les opinions : par toutes les opinions, par seulement le topk des opinions, et enfin par un ensemble d’opinions diversifiées. Les résultats montrent que l’enrichissement des contenus des articles de presse / In this thesis, we have investigated how to exploit user-generated-content for personalized news recommendation purpose. The intuition behind this line of research is that the opinions provided by users, on news websites, represent a strong indicator about their profiles. We have addressed this problem by proposing three main contributions. Firstly, we have proposed a profile model that accurately describes both users’ interests and news article contents. The profile model was tested on three different applications ranging from identifying the political orientation of users to the context of news recommendation and the diversification of the list of recommended news articles. Results show that our profile model give much better results compared to state-of-the-art models. Secondly, we have investigated the problem of noise on opinions and how we can retrieve only relevant opinions in response to a given query.The proposed opinion ranking strategy is based on users’ debates features. We have used a variation of PageRank technique to define the score of each opinion. Results show that our approach outperforms two recent proposed opinions ranking strategies, particularly for controversial topics. Thirdly, we have investigated different ways of leveraging opinions on news article contents including all opinions, topk opinions based on opinion ranking strategy, and a set of diverse opinion. To extract a list of diverse opinions, we have employed a variation of an existing opinion diversification model. Results show that diverse opinions give the best performance over other leveraging strategies. Recherche d’information Recommandation des articles de presse Personnalisation Fouille d’opinion Diversification Information Retrieval News Recommendation Personalization Opinion Mining Diversification 378.242
104	Finding homogeneous collections of dense subgraphs using constraint-based data mining approaches / Découverte de collections homogènes de sous-graphes denses par des méthodes de fouille de données sous contraintes Mougel, Pierre-Nicolas 14 September 2012 (has links) Ce travail de thèse concerne la fouille de données sur des graphes attribués. Il s'agit de graphes dans lesquels des propriétés, encodées sous forme d'attributs, sont associées à chaque sommet. Notre objectif est la découverte, dans ce type de données, de sous-graphes organisés en plusieurs groupes de sommets fortement connectés et homogènes au regard des attributs. Plus précisément, nous définissons l'extraction sous contraintes d'ensembles de sous-graphes densément connectés et tels que les sommets partagent suffisamment d'attributs. Pour cela nous proposons deux familles de motifs originales ainsi que les algorithmes justes et complets permettant leur extraction efficace sous contraintes. La première famille, nommée Ensembles Maximaux de Cliques Homogènes, correspond à des motifs satisfaisant des contraintes concernant le nombre de sous-graphes denses, la taille de ces sous-graphes et le nombre d'attributs partagés. La seconde famille, nommée Collections Homogènes de k-cliques Percolées emploie quant à elle une notion de densité plus relaxée permettant d'adapter la méthode aux données avec des valeurs manquantes. Ces deux méthodes sont appliquées à l'analyse de deux types de réseaux, les réseaux de coopérations entre chercheurs et les réseaux d'interactions de protéines. Les motifs obtenus mettent en évidence des structures utiles dans un processus de prise de décision. Ainsi, dans un réseau de coopérations entre chercheurs, l'analyse de ces structures peut aider à la mise en place de collaborations scientifiques entre des groupes travaillant sur un même domaine. Dans le contexte d'un graphe de protéines, les structures exhibées permettent d'étudier les relations entre des modules de protéines intervenant dans des situations biologiques similaires. L'étude des performances en fonction de différentes caractéristiques de graphes attribués réels et synthétiques montre que les approches proposées sont utilisables sur de grands jeux de données. / The work presented in this thesis deals with data mining approaches for the analysis of attributed graphs. An attributed graph is a graph where properties, encoded by means of attributes, are associated to each vertex. In such data, our objective is the discovery of subgraphs formed by several dense groups of vertices that are homogeneous with respect to the attributes. More precisely, we define the constraint-based extraction of collections of subgraphs densely connected and such that the vertices share enough attributes. To this aim, we propose two new classes of patterns along with sound and complete algorithms to compute them efficiently using constraint-based approaches. The first family of patterns, named Maximal Homogeneous Clique Set (MHCS), contains patterns satisfying constraints on the number of dense subgraphs, on the size of these subgraphs, and on the number of shared attributes. The second class of patterns, named Collection of Homogeneous k-clique Percolated components (CoHoP), is based on a relaxed notion of density in order to handle missing values. Both approaches are used for the analysis of scientific collaboration networks and protein-protein interaction networks. The extracted patterns exhibit structures useful in a decision support process. Indeed, in a scientific collaboration network, the analysis of such structures might give hints to propose new collaborations between researchers working on the same subjects. In a protein-protein interaction network, the analysis of the extracted patterns can be used to study the relationships between modules of proteins involved in similar biological situations. The analysis of the performances, on real and synthetic data, with respect to different attributed graph characteristics, shows that the proposed approaches scale well for large datasets. Informatique Fouille de données Graphes attribués K-clique percolée Information Technology Data mining Attributed graphs K-clique pecolated component 006.310 72
105	Extraction de motifs séquentiels dans des données séquentielles multidimensionnelles et hétérogènes : une application à l'analyse de trajectoires de patients / Mining heterogeneous multidimensional sequential data : An application to the analysis of patient healthcare trajectories Egho, Elias 02 July 2014 (has links) Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L'exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l'exploration et l'analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l'extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d'abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d'énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelles et hétérogènes. Nous utilisons l'analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l'intérêt des treillis de concepts et de l'indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d'évaluer la proximité entre deux séquences formées d'une liste d'ensemble d'items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d' une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d'identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine / All domains of science and technology produce large and heterogeneous data. Although a lot of work was done in this area, mining such data is still a challenge. No previous research work targets the mining of heterogeneous multidimensional sequential data. This thesis proposes a contribution to knowledge discovery in heterogeneous sequential data. We study three different research directions: (i) Extraction of sequential patterns, (ii) Classification and (iii) Clustering of sequential data. Firstly we generalize the notion of a multidimensional sequence by considering complex and heterogeneous sequential structure. We present a new approach called MMISP to extract sequential patterns from heterogeneous sequential data. MMISP generates a large number of sequential patterns as this is usually the case for pattern enumeration algorithms. To overcome this problem, we propose a novel way of considering heterogeneous multidimensional sequences by mapping them into pattern structures. We develop a framework for enumerating only patterns satisfying given constraints. The second research direction is in concern with the classification of heterogeneous multidimensional sequences. We use Formal Concept Analysis (FCA) as a classification method. We show interesting properties of concept lattices and of stability index to classify sequences into a concept lattice and to select some interesting groups of sequences. The third research direction in this thesis is in concern with the clustering of heterogeneous multidimensional sequential data. We focus on the notion of common subsequences to define similarity between a pair of sequences composed of a list of itemsets. We use this similarity measure to build a similarity matrix between sequences and to separate them in different groups. In this work, we present theoretical results and an efficient dynamic programming algorithm to count the number of common subsequences between two sequences without enumerating all subsequences. The system resulting from this research work was applied to analyze and mine patient healthcare trajectories in oncology. Data are taken from a medico-administrative database including all information about the hospitalizations of patients in Lorraine Region (France). The system allows to identify and characterize episodes of care for specific sets of patients. Results were discussed and validated with domain experts Fouille de données Motifs séquentiels multidimensionnels Données hétérogènes séquentielles Data mining Multidimensional sequential patterns Heterogeneous sequential data 006.312
106	Extraction d'information spatiale à partir de données textuelles non-standards / Spatial information extraction from non-standard textual data Zenasni, Sarah 05 January 2018 (has links) L’extraction d’information spatiale à partir de données textuelles est désormais un sujet de recherche important dans le domaine du Traitement Automatique du Langage Naturel (TALN). Elle répond à un besoin devenu incontournable dans la société de l’information, en particulier pour améliorer l’efficacité des systèmes de Recherche d’Information (RI) pour différentes applications (tourisme, aménagement du territoire, analyse d’opinion, etc.). De tels systèmes demandent une analyse fine des informations spatiales contenues dans les données textuelles disponibles (pages web, courriels, tweets, SMS, etc.). Cependant, la multitude et la variété de ces données ainsi que l’émergence régulière de nouvelles formes d’écriture rendent difficile l’extraction automatique d’information à partir de corpus souvent peu standards d’un point de vue lexical voire syntaxique.Afin de relever ces défis, nous proposons, dans cette thèse, des approches originales de fouille de textes permettant l’identification automatique de nouvelles variantes d’entités et relations spatiales à partir de données textuelles issues de la communication médiée. Ces approches sont fondées sur trois principales contributions qui sont cruciales pour fournir des méthodes de navigation intelligente. Notre première contribution se concentre sur la problématique de reconnaissance et d’extraction des entités spatiales à partir de corpus de messages courts (SMS, tweets) marqués par une écriture peu standard. La deuxième contribution est dédiée à l’identification de nouvelles formes/variantes de relations spatiales à partir de ces corpus spécifiques. Enfin, la troisième contribution concerne l’identification des relations sémantiques associées à l’information spatiale contenue dans les textes. Les évaluations menées sur des corpus réels, principalement en français (SMS, tweets, presse), soulignent l’intérêt de ces contributions. Ces dernières permettent d’enrichir la typologie des relations spatiales définies dans la communauté scientifique et, plus largement, de décrire finement l’information spatiale véhiculée dans les données textuelles non standards issues d’une communication médiée aujourd’hui foisonnante. / The extraction of spatial information from textual data has become an important research topic in the field of Natural Language Processing (NLP). It meets a crucial need in the information society, in particular, to improve the efficiency of Information Retrieval (IR) systems for different applications (tourism, spatial planning, opinion analysis, etc.). Such systems require a detailed analysis of the spatial information contained in the available textual data (web pages, e-mails, tweets, SMS, etc.). However, the multitude and the variety of these data, as well as the regular emergence of new forms of writing, make difficult the automatic extraction of information from such corpora.To meet these challenges, we propose, in this thesis, new text mining approaches allowing the automatic identification of variants of spatial entities and relations from textual data of the mediated communication. These approaches are based on three main contributions that provide intelligent navigation methods. Our first contribution focuses on the problem of recognition and identification of spatial entities from short messages corpora (SMS, tweets) characterized by weakly standardized modes of writing. The second contribution is dedicated to the identification of new forms/variants of spatial relations from these specific corpora. Finally, the third contribution concerns the identification of the semantic relations associated withthe textual spatial information. Fouille de texte Information géographique Text mining Geographic Information
107	Orion, a generic model for data mining : application to video games / Orion, un modèle générique pour la fouille de données : application aux jeux vidéo Soler, Julien 08 September 2015 (has links) Les besoins de l'industrie des jeux vidéo sont en constante évolution. Dans le domaine de l'intelligence artificielle, nous identifions dans le chapitre 1, les différents besoins de l'industrie dans ce domaine. Nous pensons que la conception d'une solution d'apprentissage de comportements par imitation qui soit fonctionnelle et efficace permettrait de couvrir la plupart de ces besoins. Dans le chapitre 2, nous montrons que les techniques d'extraction de données peuvent être très utiles pour offrir une telle solution. Cependant, ces techniques ne sont pas suffisantes pour construire automatiquement un comportement complet qui serait utilisable dans les jeux vidéo modernes. Dans le chapitre 3, nous proposons un modèle générique pour apprendre des comportements en imitant des joueurs humains : Orion. Ce modèle est composé de deux parties, un modèle structurel et un modèle comportemental. Le modèle structurel propose un framework généraliste d'exploration de données, fournissant une abstraction des différentes méthodes utilisées dans ce domaine de recherche. Ce framework nous permet de construire un outil d'usage général avec de meilleures possibilités de visualisation que les outils d'extraction de données existants. Le modèle comportemental est conçu pour intégrer des techniques d'exploration de données dans une architecture plus générale et repose sur les Behavior Trees. Dans le chapitre 4, nous illustrons comment nous utilisons notre modèle en mettant en oeuvre le comportement des joueurs dans les jeux Pong et UT3 en utilisant Orion. Dans le chapitre 5, nous identifions les améliorations possibles, à la fois de notre outil d'extraction de données et de notre modèle comportemental. / The video game industry's needs are constantly changing. In the field of artificial intelligence, we identify inchapter 1, the different needs of industry in this area. We believe that the design of a learning behavior through imitation solution that is functional and efficient would cover most of these needs. In chapter 2, we show that data mining techniques can be very useful to provide such a solution. However, for now, these techniques are not sufficient to automatically build a comprehensive behavior that would be usable in modern video games. In chapter 3, we propose a generic model to learn behavior by imitating human players: Orion.This model consists of two parts, a structural model and a behavioral model. The structural model provides a general data mining framework, providing an abstraction of the different methods used in this research. This framework allows us to build a general purpose tool with better possibilities for visualizing than existing data mining tools. The behavioral model is designed to integrate data mining techniques in a more general architecture and is based on the Behavior Trees. In chapter 4, we illustrate how we use our model by implementing the behavior of players in the Pong and Unreal Tournament 3 games using Orion. In chapter 5,we identify possible improvements, both of our data mining framework and our behavioral model. Intelligence artificielle Jeux vidéo Apprentissage automatique Fouille de données Artificial Intelligence Video Games Machine Learning Data Mining 006.3
108	Exctraction de chroniques discriminantes / Discriminant chronicle mining Dauxais, Yann 13 April 2018 (has links) De nombreuses données sont enregistrées dans le cadre d'applications variées et leur analyse est un challenge abordé par de nombreuses études. Parmi ces différentes applications, cette thèse est motivée par l'analyse de parcours patients pour mener des études de pharmaco-épidémiologie. La pharmaco-épidémiologie est l'étude des usages et effets de produits de santé au sein de populations définies. Le but est donc d'automatiser ce type d'étude en analysant des données. Parmi les méthodes d'analyses de données, les approches d'extraction de motifs extraient des descriptions de comportements, appelées motifs, caractérisant ces données. L'intérêt principal de telles approches est de donner un aperçu des comportements décrivant les données. Dans cette thèse, nous nous intéressons à l'extraction de motifs temporels discriminants au sein de séquences temporelles, c'est-à-dire une liste d'évènements datés. Les motifs temporels sont des motifs représentant des comportements par leur dimension temporelle. Les motifs discriminants sont des motifs représentant les comportements apparaissant uniquement pour une sous-population bien définie. Alors que les motifs temporels sont essentiels pour décrire des données temporelles et que les motifs discriminants le sont pour décrire des différences de comportement, les motifs temporels discriminants ne sont que peu étudiés. Dans cette thèse, le modèle de chronique discriminante est proposé pour combler le manque d'approches d'extraction de motifs temporels discriminants. Une chronique est un motif temporelle représentable sous forme de graphe dont les nœuds sont des évènements et les arêtes sont des contraintes temporelles numériques. Le modèle de chronique a été choisi pour son expressivité concernant la dimension temporelle. Les chroniques discriminantes sont, de ce fait, les seuls motifs temporels discriminants représentant numériquement l'information temporelle. Les contributions de cette thèse sont : (i) un algorithme d'extraction de chroniques discriminantes (DCM), (ii) l'étude de l'interprétabilité du modèle de chronique au travers de sa généralisation et (iii) l'application de DCM sur des données de pharmaco-épidémiologie. L'algorithme DCM est dédié à l'extraction de chroniques discriminantes et basé sur l'algorithme d'extraction de règles numériques Ripperk . Utiliser Ripperk permet de tirer avantage de son efficacité et de son heuristique incomplète évitant la génération de motifs redondants. La généralisation de cet algorithme permet de remplacer Ripperk par n'importe quel algorithme de machine learning. Les motifs extraits ne sont donc plus forcément des chroniques mais une forme généralisée de celles-ci. Un algorithme de machine learning plus expressif extrait des chroniques généralisées plus expressives mais impacte négativement leur interprétabilité. Le compromis entre ce gain en expressivité, évalué au travers de la précision de classification, et cette perte d'interprétabilité, est comparé pour plusieurs types de chroniques généralisées. L'intérêt des chroniques discriminantes à représenter des comportements et l'efficacité de DCM est validée sur des données réelles et synthétiques dans le contexte de classification à base de motifs. Des chroniques ont finalement été extraites à partir des données de pharmaco-épidémiologie et présentées aux cliniciens. Ces derniers ont validés l'intérêt de celles-ci pour décrire des comportements d'épidémiologie discriminants. / Data are recorded for a wide range of application and their analysis is a great challenge addressed by many studies. Among these applications, this thesis was motivated by analyzing care pathway data to conduct pharmaco-epidemiological studies. Pharmaco-epidemiology is the study of the uses and effects of healthcare products in well defined populations. The goal is then to automate this study by analyzing data. Within the data analysis approaches, pattern mining approaches extract behavior descriptions, called patterns, characterizing the data. Patterns are often easily interpretable and give insights about hidden behaviors described by the data. In this thesis, we are interested in mining discriminant temporal patterns from temporal sequences, i.e. a list of timestamped events. Temporal patterns represent expressively behaviors through their temporal dimension. Discriminant patterns are suitable adapted for representing behaviors occurring specifically in small subsets of a whole population. Surprisingly, if temporal patterns are essential to describe timestamped data and discriminant patterns are crucial to identify alternative behaviors that differ from mainstream, discriminant temporal patterns received little attention up to now. In this thesis, the model of discriminant chronicles is proposed to address the lack of interest in discriminant temporal pattern mining approaches. A chronicle is a temporal pattern representable as a graph whose nodes are events and vertices are numerical temporal constraints. The chronicle model was choosen because of its high expressiveness when dealing with temporal sequences and also by its unique ability to describe numerically the temporal dimension among other discriminant pattern models. The contribution of this thesis, centered on the discriminant chronicle model, is threefold: (i) a discriminant chronicle model mining algorithm (DCM), (ii) the study of the discriminant chronicle model interpretability through its generalization and (iii) the DCM application on a pharmaco-epidemiology case study. The DCM algorithm is an efficient algorithm dedicated to extract discriminant chronicles and based on the Ripperk numerical rule learning algorithm. Using Ripperk allows to take advantage to its efficiency and its incomplete heuristic dedicated to avoid redundant patterns. The DCM generalization allows to swap Ripperk with alternative machine learning algorithms. The extracted patterns are not chronicles but a generalized form of chronicles. More expressive machine learning algorithms extract more expressive generalized chronicles but impact negatively their interpretability. The trade-off between this expressiveness gain, evaluated by classification accuracy, and this interpretability loss, is compared for several types of generalized chronicles. The interest of the discriminant chronicle model and the DCM efficiency is validated on synthetic and real datasets in pattern-based classification context. Finally, chronicles are extracted from a pharmaco-epidemiology dataset and presented to clinicians who validated them to be interesting to describe epidemiological behaviors. Fouille de données Données temporelles Extraction de motifs temporels Apprentissage supervisé Data mining Temporal data Temporal pattern mining Supervised machine learning
109	Systèmes producteurs de confiance : ouverture de droit à des services par apprentissage dynamique du comportement des utilisateurs du système d'information / Design of a right-to-service system by dynamic learning of the information service users' behaviour Dia, Diyé 17 March 2016 (has links) Résumé indisponible. / Résumé indisponible. Fouille de données Sécurité Confiance Authentification implicite Data-mining Security Trust Implicit authentication Discriminative frequent closed itemsets
110	Reconnaissance et prédiction d'activités dans la maison connectée / Recognizing and predicting activities in smart homes Cumin, Julien 04 December 2018 (has links) Comprendre le contexte ambiant d'une maison est essentiel pour pouvoir proposer à ses occupants des services adaptés à leurs situations de vie, et qui répondent donc à leurs besoins. Un exemple de tel service est un assistant de communication, qui pourrait par exemple informer les personnes hors de la maison à propos de la disponibilité des habitants de celle-ci pour communiquer. Pour implémenter un tel service, il est en effet nécessaire que la maison prenne en compte les situations de ses occupants, pour ensuite en déduire leurs disponibilités.Dans cette thèse, nous nous intéressons dans un premier temps à définir ce qu'est le contexte dans une maison. Nous défendons que l'activité des occupants est l'une des dimensions principales du contexte d'une maison, nécessaire à la mise en œuvre de systèmes sensibles au contexte. C'est pourquoi nous étudions dans un second temps le problème de la reconnaissance automatique d'activités humaines, à partir des données de capteurs ambiants installés dans la maison. Nous proposons une nouvelle approche d'apprentissage automatique supervisé basée sur les lieux de la maison, qui améliore à la fois les performances de reconnaissance correcte d'activités ainsi que les temps de calcul nécessaires, par rapport aux approches de l'état de l'art.Par ailleurs, ces services sensibles au contexte auront probablement besoin de pouvoir anticiper les situations futures de la maison. En particulier, ils doivent pouvoir anticiper les activités futures réalisées par les occupants. C'est pourquoi nous proposons un nouveau modèle de prédiction supervisée d'activités, basé sur des modèles de l'état de l'art. Nous introduisons un certain nombre d'extensions à ce modèle afin d'améliorer les performances de prédiction, en se basant sur des spécificités des environnements de maisons instrumentées.Enfin, nous nous intéressons à l'estimation de la disponibilité des occupants à communiquer, afin d'illustrer la faisabilité de notre exemple de service d'assistance à la communication. Nous suggérons que la disponibilité peut être inférée à partir des dimensions primaires du contexte, comme le lieu et l'activité (que l'on peut reconnaitre et prédire à l'aide de nos contributions précédentes), mais en prenant également en compte le correspondant initiant la communication, ainsi que la modalité utilisée. Nous discutons de l'impact de l'étape de reconnaissance d'activités sur l'estimation de la disponibilité.Nous évaluons expérimentalement ces contributions sur différents jeux de données de l'état de l'art, ainsi que sur un nouveau jeu de données d'activités et de disponibilités dans la maison que nous avons spécifiquement construit durant cette thèse : Orange4Home. À travers nos contributions à ces trois problèmes, nous démontrons l'implémentabilité d'un service d'assistance à la communication, pouvant conseiller des correspondants extérieurs sur les futures disponibilités des occupants de la maison. De manière plus générale, nous montrons comment des dimensions secondaires du contexte, comme la disponibilité, peuvent être inférées d'autres dimensions du contexte, comme l'activité. Il est donc essentiel pour qu'une maison devienne sensible au contexte, que celle-ci dispose de systèmes de reconnaissance et de prédiction d'activités les plus fiables possibles. / Understanding the context of a home is essential in order to provide services to occupants that fit their situations and thus fulfil their needs. One example of service that such a context-aware smart home could provide is that of a communication assistant, which can for example advise correspondents outside the home on the availability for communication of occupants. In order to implement such a service, it is indeed required that the home understands the situations of occupants, in order to derive their availability.In this thesis, we first propose a definition of context in homes. We argue that one of the primary context dimensions necessary for a system to be context-aware is the activity of occupants. As such, we then study the problem of recognizing activities, from ambient smart home sensors. We propose a new supervised place-based approach which both improves activity recognition accuracy as well as computing times compared to standard approaches.Smart home services, such as our communication assistance example, may often need to anticipate future situations. In particular, they need to anticipate future activities of occupants. Therefore, we design a new supervised activity prediction model, based on previous state-of-the-art work. We propose a number of extensions to improve prediction accuracy based on the specificities of smart home environments.Finally, we study the problem of inferring the availability of occupants for communication, in order to illustrate the feasibility of our communication assistant example. We argue that availability can be inferred from primary context dimensions such as place and activity (which can be recognized or predicted using our previous contributions), and by taking into consideration the correspondent initiating the communication as well as the modality of communication used. We discuss the impact of the activity recognition step on availability inference.We evaluate those contributions on various state-of-the-art datasets, as well as on a new dataset of activities and availabilities in homes which we constructed specifically for the purposes of this thesis: Orange4Home. Through our contributions to these 3 problems, we demonstrate the way in which an example context-aware communication assistance service can be implemented, which can advise on future availability for communication of occupants. More generally, we show how secondary context dimensions such as availability can be inferred from other context dimensions, in particular from activity. Highly accurate activity recognition and prediction are thus mandatory for a smart home to achieve context awareness. Fouille de données Apprentissage automatique Maison connectée Internet des objets Contexte Data mining Machine learning Smart home Internet of things Context 004

Search results