• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 97
  • 59
  • 24
  • Tagged with
  • 174
  • 174
  • 92
  • 91
  • 68
  • 67
  • 39
  • 36
  • 32
  • 31
  • 30
  • 25
  • 24
  • 24
  • 23
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Méthodes statistiques pour la fouille de données dans les bases de données de génomique / Statistical methods for data mining in genomics databases (Gene Set En- richment Analysis)

Charmpi, Konstantina 03 July 2015 (has links)
Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction. / Our focus is on statistical testing methods, that compare a given vector of numeric values, indexed by all genes in the human genome, to a given set of genes, known to be associated to a particular type of cancer for instance. Among existing methods, Gene Set Enrichment Analysis is the most widely used. However it has several drawbacks. Firstly, the calculation of p-values is very much time consuming, and insufficiently precise. Secondly, like most other methods, it outputs a large number of significant results, the majority of which are not biologically meaningful. The two issues are addressed here, by two new statistical procedures, the Weighted and Doubly Weighted Kolmogorov-Smirnov tests. The two tests have been applied both to simulated and real data, and compared with other existing procedures. Our conclusion is that, beyond their mathematical and algorithmic advantages, the WKS and DWKS tests could be more informative in many cases, than the classical GSEA test and efficiently address the issues that have led to their construction.
42

Proposition d'un environnement numérique dédié à la fouille et à la synthèse collaborative d'exigences en ingénierie de produits / A collaborative requirement mining framework.

Pinquié, Romain 07 October 2016 (has links)
Il est communément admis que 70 % des coûts du cycle de vie d’un produit sont engagés dès la phase de spécification. Or, aujourd’hui, dans chacune des relations contrac-tuelles client-fournisseur, le fournisseur doit faire face à un amas d’exigences à partir duquel il est difficile de prendre des décisions stratégiques avisées. Pour aider les sous-traitants, nous proposons une méthode outillée de synthèse des exigences, laquelle est supportée par un environnement numérique basé sur les sciences des données. Des modèles de classification extraient les exigences des documents. Les exigences sont ensuite analysées au moyen des techniques de traitement du langage naturel afin d’identifier les défauts de qualité qui mettent en péril le reste du cycle de vie. Pour faciliter leur exploitation, les exigences, dépourvues de leurs principaux défauts, sont non seulement classifiées automatiquement au sein de catégories métiers grâce aux techniques d’apprentissage machine, mais aussi segmentées en communautés au moyen des récentes avancées en théorie des graphes. Chacune des communautés d’exigences est caractérisée par un ensemble configurable de critères d’aide à la décision, dont l’estimation collaborative est assurée par des experts représentant les diverses fonctions de l’entreprise. Enfin, une synthèse graphique des estimations est restituée au décideur via un tableau de bord de résumés statistiques descriptifs facilitant la prise de décisions informées. La validation théorique et empirique de notre proposition corrobore l’hypothèse que les sciences des données est un moyen de synthétiser plusieurs centaines ou milliers d’exigences. / It is broadly accepted that 70 % of the total life cycle cost is committed during the specification phase. However, nowadays, we observe a staggering increase in the number of requirements. We consider the tremendous volume of requirements as big data with which sub-contractors struggle to make strategic decisions early on. Thus, we propose to methodologically integrate data science techniques into a collaborative requirement mining framework, which enables decision-makers to gain insight and discover opportunities in a massive set of requirements. Initially, classification models extract requirements from prescriptive documents. Requirements are subsequently analysed with natural language processing techniques so as to identify quality defects. After having removed the quality defects, the analyst can navigate through clusters of requirements that ease the exploration of big data. Each cluster gathers the requirements that belong to a functional area (mechanics, electronics, IT, etc.). Each domain expert can therefore easily filter out the requirements subset that is relevant for him. A complementary approach consists in detecting communities of requirements by analysing the topology of a graph. Each community owns a customisable set of decision-making criteria which are estimated by all functional areas. A dashboard of statistical visuals distils the estimation results from which a decision maker can make informed decisions. We conclude that the theoretical and empirical validation of our proposition corroborates the assumption that data science is an effective way to gain insight from hundreds or thousands of requirements.
43

Pronostic de défaillances de pompes à vide - Exploitation automatique de règles extraites par fouille de données / Fault prognosis for vacuum pumps - Automatic exploitation of rules extracted from data mining technics

Martin, Florent 29 June 2011 (has links)
Cette thèse présente une méthode de pronostic basée sur des règles symboliques extraites par fouille de données. Une application de cette méthode au cas du grippage de pompes à vide est aussi détaillée. Plus précisément, à partir d'un historique de données vibratoires, nous modélisons le comportement des pompes par extraction d'un type particulier de règles d'épisode appelé « First Local Maximum episode rules » (FLM-règles). L'algorithme utilisé pour extraire ces FLM-règles extrait aussi de manière automatique leur fenêtre optimale respective, i.e. la fenêtre dans laquelle la probabilité d'observer la prémisse et la conclusion de la règle est maximale. Un sous-ensemble de ces FLM-règles est ensuite sélectionné pour prédire les grippages à partir d'un flux de données vibratoires. Notre contribution porte sur la sélection des FLM-règles les plus fiables, la recherche de ces FLM-règles dans un flux continu de données vibratoires et la construction d'un intervalle de pronostic de grippage à partir des fenêtres optimales des FLM-règles retrouvées. / This thesis presents a symbolic rule-based method that addresses system prognosis. It also details a successful application to complex vacuum pumping systems. More precisely, using historical vibratory data, we first model the behavior of the pumps by extracting a given type of episode rules, namely the First Local Maximum episode rules (FLM-rules). The algorithm that extracts FLM-rules also determines automatically their respective optimal temporal window, i.e. the temporal window in which the probability of observing the premiss and the conclusion of a rule is maximum. A subset of the extracted FLM-rules is then selected in order to further predict pumping system failures in a vibratory data stream context. Our contribution consists in selecting the most reliable FLM-rules, continuously matching them in a data stream of vibratory data and building a forecast time interval using the optimal temporal windows of the FLM-rules that have been matched.
44

Recherche de motifs fréquents dans une base de cartes combinatoires / Frequent pattern discovery in combinatorial maps databases

Gosselin, Stéphane 24 October 2011 (has links)
Une carte combinatoire est un modèle topologique qui permet de représenter les subdivisions de l’espace en cellules et les relations d’adjacences et d’incidences entre ces cellules en n dimensions. Cette structure de données est de plus en plus utilisée en traitement d’images, mais elle manque encore d’outils pour les analyser. Notre but est de définir de nouveaux outils pour les cartes combinatoires nD. Nous nous intéressons plus particulièrement à l’extraction de sous-cartes fréquentes dans une base de cartes. Nous proposons deux signatures qui sont également des formes canoniques de cartes combinatoires. Ces signatures ont chacune leurs avantages et leurs inconvénients. La première permet de décider de l’isomorphisme entre deux cartes en temps linéaire, en contrepartie le coût de stockage en mémoire est quadratique en la taille de la carte. La seconde signature a un coût de stockage en mémoire linéaire en la taille de la carte, cependant le temps de calcul de l’isomorphisme est quadratique. Elles sont utilisables à la fois pour des cartes connexes, non connexes, valuées ou non valuées. Ces signatures permettent de représenter une base de cartes combinatoires et de rechercher un élément de manière efficace. De plus, le temps de recherche ne dépend pas du nombre de cartes présent dans la base. Ensuite, nous formalisons le problème de recherche de sous-cartes fréquentes dans une base de cartes combinatoires nD. Nous implémentons deux algorithmes pour résoudre ce problème. Le premier algorithme extrait les sous-cartes fréquentes par une approche en largeur tandis que le second utilise une approche en profondeur. Nous comparons les performances de ces deux algorithmes sur des bases de cartes synthétiques. Enfin, nous proposons d’utiliser les motifs fréquents dans une application de classification d’images. Chaque image est décrite par une carte qui est transformée en un vecteur représentant le nombre d’occurrences des motifs fréquents. À partir de ces vecteurs, nous utilisons des techniques classiques de classification définies sur les espaces vectoriels. Nous proposons des expérimentations en classification supervisée et non supervisée sur deux bases d’images. / A combinatorial map is a topological model that can represent the subdivisions of space into cells and their adjacency relations in n dimensions. This data structure is increasingly used in image processing, but it still lacks tools for analysis. Our goal is to define new tools for combinatorial maps nD. We are particularly interested in the extraction of submaps in a database of maps. We define two combinatorial map signatures : the first one has a quadratic space complexity and may be used to decide of isomorphism with a new map in linear time whereas the second one has a linear space complexity and may be used to decide of isomorphism in quadratic time. They can be used for connected maps, non connected maps, labbeled maps or non labelled maps. These signatures can be used to efficiently search for a map in a database.Moreover, the search time does not depend on the number of maps in the database. Then, we formalize the problem of finding frequent submaps in a database of combinatorial nD maps. We implement two algorithms for solving this problem. The first algorithm extracts the submaps with a breadth-first search approach and the second uses a depth-first search approach. We compare the performance of these two algorithms on synthetic database of maps. Finally, we propose to use the frequent patterns in an image classification application. Each image is described by a map that is transformed into a vector representing the number of occurrences of frequent patterns. From these vectors, we use standard techniques of classification defined on vector spaces. We propose experiments in supervised and unsupervised classification on two images databases.
45

Factorisation matricielle, application à la recommandation personnalisée de préférences / Matrix factorization, application to preference prediction in recommender systems

Delporte, Julien 03 February 2014 (has links)
Cette thèse s'articule autour des problèmes d'optimisation à grande échelle, et plus particulièrement autour des méthodes de factorisation matricielle sur des problèmes de grandes tailles. L'objectif des méthodes de factorisation de grandes matrices est d'extraire des variables latentes qui permettent d'expliquer les données dans un espace de dimension réduite. Nous nous sommes intéressés au domaine d'application de la recommandation et plus particulièrement au problème de prédiction de préférences d'utilisateurs.Dans une contribution, nous nous sommes intéressés à l'application de méthodes de factorisation dans un environnement de recommandation contextuelle et notamment dans un contexte social.Dans une seconde contribution, nous nous sommes intéressés au problème de sélection de modèle pour la factorisation où l'on cherche à déterminer de façon automatique le rang de la factorisation par estimation de risque. / This thesis focuses on large scale optimization problems and especially on matrix factorization methods for large scale problems. The purpose of such methods is to extract some latent variables which will explain the data in smaller dimension space. We use our methods to address the problem of preference prediction in the framework of the recommender systems. Our first contribution focuses on matrix factorization methods applied in context-aware recommender systems problems, and particularly in socially-aware recommandation.We also address the problem of model selection for matrix factorization which ails to automatically determine the rank of the factorization.
46

Gradual Pattern Extraction from Property Graphs / l’extraction de motifs graduels à partir de graphes de propriétés

Shah, Faaiz Hussain 16 July 2019 (has links)
Les bases de données orientées graphes (NoSQL par exemple) permettent de gérer des données dans lesquelles les liens sont importants et des requêtes complexes sur ces données à l’aide d’un environnement dédié offrant un stockage et des traitements spécifiquement destinés à la structure de graphe. Un graphe de propriété dans un environnement NoSQL est alors vu comme un graphe orienté étiqueté dans lequel les étiquettes des nœuds et les relations sont des ensembles d’attributs (propriétés) de la forme (clé:valeur). Cela facilite la représentation de données et de connaissances sous la forme de graphes. De nombreuses applications réelles de telles bases de données sont actuellement connues dans le monde des réseaux sociaux, mais aussi des systèmes de recommandation, de la détection de fraudes, du data-journalisme (pour les panama papers par exemple). De telles structures peuvent cependant être assimilées à des bases NoSQL semi-structurées dans lesquelles toutes les propriétés ne sont pas présentes partout, ce qui conduit à des valeurs non présentes de manière homogène, soit parce que la valeur n’est pas connue (l’âge d’une personne par exemple) ou parce qu’elle n’est pas applicable (l’année du service militaire d’une femme par exemple dans un pays et à une époque à laquelle les femmes ne le faisaient pas). Cela gêne alors les algorithmes d’extraction de connaissance qui ne sont pas tous robustes aux données manquantes. Des approches ont été proposées pour remplacer les données manquantes et permettre aux algorithmes d’être appliqués. Cependant,nous considérons que de telles approches ne sont pas satisfaisantes car elles introduisent un biais ou même des erreurs quand aucune valeur n’était applicable. Dans nos travaux, nous nous focalisons sur l’extraction de motifs graduels à partir de telles bases de données. Ces motifs permettent d’extraire automatiquement les informations corrélées. Une première contribution est alors de définir quels sont les motifs pouvant être extraits à partir de telles bases de données. Nous devons, dans un deuxième temps, étendre les travaux existant dans la littérature pour traiter les valeurs manquantes dans les bases de données graphe, comme décrit ci-dessus. L’application de telles méthodes est alors rendue difficile car les propriétés classiquement appliquées en fouille de données (anti-monotonie) ne sont plus valides. Nous proposons donc une nouvelle approche qui est testée sur des données réelles et synthétiques. Une première forme de motif est extrait à partir des propriétés des nœuds et est étendue pour prendre en compte les relations entre nœuds. Enfin, notre approche est étendue au cas des motifs graduels flous afin de mieux prendre en compte la nature imprécise des connaissances présentes et à extraire. Les expérimentations sur des bases synthétiques ont été menées grâce au développement d’un générateur de bases de données de graphes de propriétés synthétiques. Nous en montrons les résultats en termes de temps calcul et consommation mémoire ainsi qu’en nombre de motifs générés. / Graph databases (NoSQL oriented graph databases) provide the ability to manage highly connected data and complex database queries along with the native graph-storage and processing. A property graph in a NoSQL graph engine is a labeled directed graph composed of nodes connected through relationships with a set of attributes or properties in the form of (key:value) pairs. It facilitates to represent the data and knowledge that are in form of graphs. Practical applications of graph database systems have been seen in social networks, recommendation systems, fraud detection, and data journalism, as in the case for panama papers. Often, we face the issue of missing data in such kind of systems. In particular, these semi-structured NoSQL databases lead to a situation where some attributes (properties) are filled-in while other ones are not available, either because they exist but are missing (for instance the age of a person that is unknown) or because they are not applicable for a particular case (for instance the year of military service for a girl in countries where it is mandatory only for boys). Therefore, some keys can be provided for some nodes and not for other ones. In such a scenario, when we want to extract knowledge from these new generation database systems, we face the problem of missing data that arise need for analyzing them. Some approaches have been proposed to replace missing values so as to be able to apply data mining techniques. However, we argue that it is not relevant to consider such approaches so as not to introduce biases or errors. In our work, we focus on the extraction of gradual patterns from property graphs that provide end-users with tools for mining correlations in the data when there exist missing values. Our approach requires first to define gradual patterns in the context of NoSQL property graph and then to extend existing algorithms so as to treat the missing values, because anti-monotonicity of the support can not be considered anymore in a simple manner. Thus, we introduce a novel approach for mining gradual patterns in the presence of missing values and we test it on real and synthetic data. Further to this work, we present our approach for mining such graphs in order to extract frequent gradual patterns in the form of ``the more/less $A_1$,..., the more/less $A_n$" where $A_i$ are information from the graph, should it be from the nodes or from the relationships. In order to retrieve more valuable patterns, we consider fuzzy gradual patterns in the form of ``The more/less the A_1 is F_1,...,the more/less the A_n is F_n" where A_i are attributes retrieved from the graph nodes or relationships and F_i are fuzzy descriptions. For this purpose, we introduce the definitions of such concepts, the corresponding method for extracting the patterns, and the experiments that we have led on synthetic graphs using a graph generator. We show the results in terms of time utilization, memory consumption and the number of patterns being generated.
47

Fouille de données par extraction de motifs graduels : contextualisation et enrichissement / Data mining based on gradual itemsets extraction : contextualization and enrichment

Oudni, Amal 09 July 2014 (has links)
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription. / This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription.
48

Fouille Sous Contraintes de Motifs Fermés dans des Relations n-aires Bruitées

Cerf, Loïc 09 July 2010 (has links) (PDF)
Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, c'est à dire des matrices 0/1. Dans une telle relation, un ensemble fermé est un sous-ensemble maximal d'objets partageant le même sous-ensemble maximal de propriétés. L'extraction de ces motifs, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à en ignorer d'autres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs permet d'arriver à ses fins.
49

Extraction de connaissances spatio-temporelles incertaines pour la prédiction de changements en imagerie satellitale

BOULILA, Wadii 28 June 2012 (has links) (PDF)
L'interprétation d'images satellitales dans un cadre spatiotemporel devient une voie d'investigation de plus en plus pertinente pour l'étude et l'interprétation des phénomènes dynamiques. Cependant, le volume de données images devient de plus en plus considérable ce qui rend la tâche d'analyse manuelle des images satellitales plus difficile. Ceci a motivé l'intérêt des recherches sur l'extraction automatique de connaissances appliquée à l'imagerie satellitale. Notre thèse s'inscrit dans ce contexte et vise à exploiter les connaissances extraites à partir des images satellitales pour prédire les changements spatiotemporels de l'occupation du sol. L'approche proposée consiste en trois phases : i) la première phase permet une modélisation spatiotemporelle des images satellitales, ii) la deuxième phase assure la prédiction de changements de l'occupation du sol et iii) la troisième phase consiste à interpréter les résultats obtenus. Notre approche intègre trois niveaux de gestion des imperfections : la gestion des imperfections liées aux données, la gestion des imperfections liées à la prédiction et finalement la gestion des imperfections liées aux résultats. Pour les imperfections liées aux données, nous avons procédé par une segmentation collaborative. Le but étant de réduire la perte d'information lors du passage du niveau pixel au niveau objet. Pour les imperfections liées à la prédiction, nous avons proposé un processus basé sur les arbres de décisions floues. Ceci permet de modéliser les imperfections liées à la prédiction de changements. Finalement, pour les imperfections liées aux résultats, nous avons utilisé les techniques de Raisonnement à Base des Cas et de fusion pour identifier et combiner les décisions pertinentes. L'expérimentation de l'approche proposée est scindée en deux étapes : une étape d'application et une étape d'évaluation. Les résultats d'évaluation ont montré la performance de notre approche mesurée en termes de taux d'erreur par rapport à des approches existantes.
50

Intégration de connaissances expertes dans le processus de fouille de données pour l'extraction d'informations pertinentes

Brisson, Laurent 13 December 2006 (has links) (PDF)
L'extraction automatique de connaissances à partir des données peut être considérée comme la découverte d'informations enfouies dans de très grands volumes de données. Les approches Actuelles, pour évaluer la pertinence des informations extraites, se distinguent en deux catégories : les approches objectives qui mettent en oeuvre des mesures d'intérêt afin d'évaluer les propriétés statistiques des modèles extraits et les approches subjectives qui confrontent les modèles extraits à des connaissances exprimées sur le domaine et nécessitent généralement l'interrogation d'experts. Toutefois, le choix de modèles pertinents en regard de la connaissance métier d'un expert reste un problème ouvert et l'absence de formalisme dans l'expression des connaissances nuit à la mise au point de techniques automatiques de confrontation des modèles permettant d'exploiter toute la richesse sémantique des connaissances expertes. L'approche KEOPS que nous proposons dans ce mémoire, répond à cette problématique en proposant une méthodologie qui intègre les connaissances des experts d'un domaine tout au long du processus de fouille. Un système d'information dirigé par une ontologie (ODIS) joue un rôle central dans le système KEOPS en permettant d'organiser rationnellement non seulement la préparation des données mais aussi la sélection et l'interprétation des modèles générés. Une mesure d'intérêt est proposée afin de prendre en compte les centres d'intérêt et le niveau de connaissance des experts. Le choix des modèles les plus pertinents se base sur une évaluation à la fois objective pour évaluer la précision des motifs et subjective pour évaluer l'intérêt des modèles pour les experts du domaine. Enfin l'approche KEOPS facilite la définition de stratégies pour améliorer le processus de fouille de données dans le temps en fonction des résultats observés. Les différents apports de l'approche KEOPS favorisent l'automatisation du processus de fouille de données, et ainsi, une dynamique d'apprentissage peut être initiée pour obtenir un processus de fouille particulièrement bien adapté au domaine étudié. KEOPS a été mise en oeuvre dans le cadre de l'étude de la gestion des relations avec les allocataires au sein des Caisses d'Allocations Familiales. L'objectif de cette étude a été d'analyser la relation de service rendu aux allocataires afin de fournir aux décideurs des connaissances précises, pertinentes et utiles pour l'amélioration de ce service.

Page generated in 0.4685 seconds