Global ETD Search

1	Methodologie et structuration d'un outil de decouverte de connaissances base sur la litterture biomedicale : une application basee sur le MeSH Pierret, Jean-Dominique 28 February 2006 (has links) (PDF) L'information disponible dans les bases de données bibliographiques est une information datée, validée par un processus long qui la rend peu innovante. Dans leur mode d'exploitation, les bases de données bibliographiques sont classiquement interrogées de manière booléenne. Le résultat d'une requête est donc un ensemble d'informations connues qui n'apporte en lui-même aucune nouveauté. <br />Pourtant, en 1985, Don Swanson propose une méthode originale pour extraire de bases de donnés une information innovante. Son raisonnement est basé sur une exploitation systématique de la littérature biomédicale afin de dégager des connexions latentes entre différentes connaissances bien établies. Ses travaux montrent le potentiel insoupçonné des bases bibliographiques dans la révélation et la découverte de connaissances. Cet intérêt ne tient pas tant à la nature de l'information disponible qu'à la méthodologie utilisée. Cette méthodologie générale s'applique de façon privilégiée dans un environnement d'information validée et structurée ce qui est le cas de l'information bibliographique. Nous proposons de tester la robustesse de la théorie de Swanson en présentant les méthodes qu'elle a inspirées et qui conduisent toutes aux mêmes conclusions. Nous exposons ensuite, comment à partir de sources d'information biomédicales publiques, nous avons développé un système de découverte de connaissances basé sur la littérature. Découverte de Connaissances Bases de Données Bibliographiques Bibliométrie
2	Traitement de données numériques par analyse formelle de concepts et structures de patrons Kaytoue, Mehdi 22 April 2011 (has links) (PDF) Le sujet principal de cette thèse porte sur la fouille de données numériques et plus particulièrement de données d'expression de gènes. Ces données caractérisent le comportement de gènes dans diverses situations biologiques (temps, cellule, etc.). Un problème important consiste à établir des groupes de gènes partageant un même comportement biologique. Cela permet d'identifier les gènes actifs lors d'un processus biologique, comme par exemple les gènes actifs lors de la défense d'un organisme face à une attaque. Le cadre de la thèse s'inscrit donc dans celui de l'extraction de connaissances à partir de données biologiques. Nous nous proposons d'étudier comment la méthode de classification conceptuelle qu'est l'analyse formelle de concepts (AFC) peut répondre au problème d'extraction de familles de gènes. Pour cela, nous avons développé et expérimenté diverses méthodes originales en nous appuyant sur une extension peu explorée de l'AFC : les structures de patrons. Plus précisément, nous montrons comment construire un treillis de concepts synthétisant des familles de gènes à comportement similaire. L'originalité de ce travail est (i) de construire un treillis de concepts sans discrétisation préalable des données de manière efficace, (ii) d'introduire une relation de similarité entres les gènes et (iii) de proposer des ensembles minimaux de conditions nécessaires et suffisantes expliquant les regroupements formés. Les résultats de ces travaux nous amènent également à montrer comment les structures de patrons peuvent améliorer la prise de d écision quant à la dangerosité de pratiques agricoles dans le vaste domaine de la fusion d'information. [INFO] Computer Science Découverte de connaissances analyse formelle de concepts extraction de motifs numériques bi-clustering fusion d'information
3	Représentation de collections de documents textuels : application à la caractéristique thématique Mokrane, Abdenour 17 November 2006 (has links) (PDF) Ce travail de thèse s'inscrit dans le contexte d'extraction de connaissances à partir de documents textuels, appelé Fouille de textes (FdT) ou Text Mining (TM). Ce mémoire s'articule autour des problématiques liées à la modélisation de documents et la représentation de connaissances textuelles. Il s'intéresse à des collections de documents qui abordent des thématiques différentes. Le mémoire s'attache à élaborer un modèle de représentation et un système permettant d'extraire automatiquement des informations sur les différentes thématiques abordées mais également des mécanismes offrant la possibilité d'avoir des aperçus sur les contenus. Il est montré que les approches basées sur les associations de termes sont adaptées à ce contexte. Cependant, ces approches souffrent de certaines lacunes liées au choix du modèle et de la connaissance à retenir. Pour l'élaboration du modèle de représentation, le choix porte sur l'extension de l'approche d'association de termes. A cet effet, la notion de contexte est étudiée et un nouveau critère appelé « partage de contextes » est défini. Via ce critère, il est possible de détecter des liens entre termes qui n'apparaîtraient pas autrement. L'objectif est de représenter le plus de connaissances possibles. Ces dernières sont exploitées pour une meilleure représentation du contenu et des informations enfouies dans les textes. Un système appelé IC-DOC est réalisé, ce dernier met en oeuvre le modèle de représentation dans un nouvel environnement d'extraction de connaissances à partir de documents textuels. Dans un contexte de veille scientifique, la proposition de ce type de systèmes devient indispensable pour extraire et visualiser de manière automatique l'information contenue dans les collections de documents textuels. L'originalité du système IC-DOC est de tirer profit du modèle de représentation proposé. Une série d'expérimentations et de validations sur divers jeux de données sont réalisées via le système IC-DOC. Deux applications sont considérées. La première s'intéresse à la caractérisation thématique et la seconde étend la première pour une cartographie visuelle de connaissances textuelles. Fouille de textes Représentation de connaissances Partage de contextes Caractérisation thématique Cartographie d'informations
4	Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes / Uncertainty and imprecision management in a knowledge extraction process from unstructured texts Jean, Pierre-Antoine 23 November 2017 (has links) Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/. / Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/. Incertitude Extraction d'information Traitement du langage naturel Base de connaissances Découverte de connaissances Uncertainty Information extraction Natural Language Processing Ontology Knowledge discovery
5	Traitement de données numériques par analyse formelle de concepts et structures de patrons / Mining numerical data with formal concept analysis and pattern structures Kaytoue, Mehdi 22 April 2011 (has links) Le sujet principal de cette thèse porte sur la fouille de données numériques et plus particulièrement de données d'expression de gènes. Ces données caractérisent le comportement de gènes dans diverses situations biologiques (temps, cellule, etc.). Un problème important consiste à établir des groupes de gènes partageant un même comportement biologique. Cela permet d'identifier les gènes actifs lors d'un processus biologique, comme par exemple les gènes actifs lors de la défense d'un organisme face à une attaque. Le cadre de la thèse s'inscrit donc dans celui de l'extraction de connaissances à partir de données biologiques. Nous nous proposons d'étudier comment la méthode de classification conceptuelle qu'est l'analyse formelle de concepts (AFC) peut répondre au problème d'extraction de familles de gènes. Pour cela, nous avons développé et expérimenté diverses méthodes originales en nous appuyant sur une extension peu explorée de l'AFC : les structures de patrons. Plus précisément, nous montrons comment construire un treillis de concepts synthétisant des familles de gènes à comportement similaire. L'originalité de ce travail est (i) de construire un treillis de concepts sans discrétisation préalable des données de manière efficace, (ii) d'introduire une relation de similarité entres les gènes et (iii) de proposer des ensembles minimaux de conditions nécessaires et suffisantes expliquant les regroupements formés. Les résultats de ces travaux nous amènent également à montrer comment les structures de patrons peuvent améliorer la prise de décision quant à la dangerosité de pratiques agricoles dans le vaste domaine de la fusion d'information / The main topic of this thesis addresses the important problem of mining numerical data, and especially gene expression data. These data characterize the behaviour of thousand of genes in various biological situations (time, cell, etc.).A difficult task consists in clustering genes to obtain classes of genes with similar behaviour, supposed to be involved together within a biological process.Accordingly, we are interested in designing and comparing methods in the field of knowledge discovery from biological data. We propose to study how the conceptual classification method called Formal Concept Analysis (FCA) can handle the problem of extracting interesting classes of genes. For this purpose, we have designed and experimented several original methods based on an extension of FCA called pattern structures. Furthermore, we show that these methods can enhance decision making in agronomy and crop sanity in the vast formal domain of information fusion Découverte de connaissances Analyse formelle de concepts Extraction de motifs numériques Bi-clustering Fusion d'information Knowledge discovery in databases Formal concept analysis Numerical pattern mining Biclustering Information fusion
6	On Computational Stylistics : mining Literary Texts for the Extraction of Characterizing Stylistic Patterns / De la stylistique computationnelle : fouille de textes littéraires pour l'extraction de motifs stylistiques caractérisants Boukhaled, Mohamed Amine 13 September 2016 (has links) Notre thèse se situe dans le domaine interdisciplinaire de la stylistique computationnelle, à savoir l'application des méthodes statistiques et computationnelles à l'étude du style littéraire. Historiquement, la plupart des travaux effectués en stylistique computationnelle se sont concentrés sur les aspects lexicaux. Dans notre thèse, l’accent est mis sur l'aspect syntaxique du style qui est beaucoup plus difficile à analyser étant donné sa nature abstraite. Comme contribution principale, dans cette thèse, nous travaillons sur une approche à l'étude stylistique computationnelle de textes classiques de littérature française d'un point de vue herméneutique, où découvrir des traits linguistiques intéressants se fait sans aucune connaissance préalable. Plus concrètement, nous nous concentrons sur le développement et l'extraction des motifs morphosyntaxiques. Suivant la ligne de pensée herméneutique, nous proposons un processus de découverte de connaissances pour la caractérisation stylistique accentué sur la dimension syntaxique du style et permettant d'extraire des motifs pertinents à partir d'un texte donné. Ce processus proposé consiste en deux étapes principales, une étape d'extraction de motifs séquentiels suivi de l'application de certaines mesures d'intérêt. En particulier, l'extraction de tous les motifs syntaxiques possibles d'une longueur donnée est proposée comme un moyen particulièrement utile pour extraire des caractéristiques intéressantes dans un scénario exploratoire. Nous proposons, évaluons et présentons des résultats sur les trois mesures d'intérêt proposées, basée chacune sur un raisonnement théorique linguistique et statistique différent. / The present thesis locates itself in the interdisciplinary field of computational stylistics, namely the application of statistical and computational methods to the study of literary style. Historically, most of the work done in computational stylistics has been focused on lexical aspects especially in the early decades of the discipline. However, in this thesis, our focus is put on the syntactic aspect of style which is quite much harder to capture and to analyze given its abstract nature. As main contribution, we work on an approach to the computational stylistic study of classic French literary texts based on a hermeneutic point of view, in which discovering interesting linguistic patterns is done without any prior knowledge. More concretely, we focus on the development and the extraction of complex yet computationally feasible stylistic features that are linguistically motivated, namely morpho-syntactic patterns. Following the hermeneutic line of thought, we propose a knowledge discovery process for the stylistic characterization with an emphasis on the syntactic dimension of style by extracting relevant patterns from a given text. This knowledge discovery process consists of two main steps, a sequential pattern mining step followed by the application of some interestingness measures. In particular, the extraction of all possible syntactic patterns of a given length is proposed as a particularly useful way to extract interesting features in an exploratory scenario. We propose, carry out an experimental evaluation and report results on three proposed interestingness measures, each of which is based on a different theoretical linguistic and statistical backgrounds. Stylistique computationnelle Fouille de données séquentielles Découverte de connaissances Fouille de textes Motif morphosyntaxique Mesure d'interêt Computational stylistics Sequential data mining Knowledge dicovery 004
7	Definition of a human-machine learning process from timed observations : application to the modelling of human behaviourfor the detection of abnormal behaviour of old people at home / Définition d'un processus d'apprentissage par l'homme et la machine à partir d'observations datées : application à la modélisation du comportement humain pour la détection des comportements anormaux de personnes âgées maintenues dans leur domicile Pomponio, Laura 26 June 2012 (has links) L'acquisition et la modélisation de connaissances ont été abordés jusqu'à présent selon deux approches principales : les êtres humains (experts) à l'aide des méthodologies de l'Ingénierie des Connaissances et le Knowledge Management, et les données à l'aide des techniques relevant de la découverte de connaissances à partir du contenu de bases de données (fouille de données). Cette thèse porte sur la conception d'un processus d'apprentissage conjoint par l'être humain et la machine combinant une approche de modélisation des connaissances de type Ingénierie des Connaissances (TOM4D, Timed Observation Modelling for Diagnosis) et une approche d'apprentissage automatique fondée sur un processus de découverte de connaissances à partir de données datées (TOM4L, Timed Observation Mining for Learning). Ces deux approches étant fondées sur la Théorie des Observations Datées, les modèles produits sont représentés dans le même formalisme ce qui permet leur comparaison et leur combinaison. Le mémoire propose également une méthode d'abstraction, inspiée des travaux de Newell sur le "Knowledge Level'' et fondée sur le paradigme d'observation datée, qui a pour but de traiter le problème de la différence de niveau d'abstraction inhérent entre le discours d'un expert et les données mesurées sur un système par un processus d'abstractions successives. Les travaux présentés dans ce mémoire ayant été menés en collaboration avec le CSTB de Sophia Antipolis (Centre Scientifique et Technique du Bâtiment), ils sont appliqués à la modélisation de l'activité humaine dans le cadre de l'aide aux personnes âgées maintenues à domicile. / Knowledge acquisition has been traditionally approached from a primarily people-driven perspective, through Knowledge Engineering and Management, or from a primarily data-driven approach, through Knowledge Discovery in Databases, rather than from an integral standpoint. This thesis proposes then a human-machine learning approach that combines a Knowledge Engineering modelling approach called TOM4D (Timed Observation Modelling For Diagnosis) with a process of Knowledge Discovery in Databases based on an automatic data mining technique called TOM4L (Timed Observation Mining For Learning). The combination and comparison between models obtained through TOM4D and those ones obtained through TOM4L is possible, owing to that TOM4D and TOM4L are based on the Theory of Timed Observations and share the same representation formalism. Consequently, a learning process nourished with experts' knowledge and knowledge discovered in data is defined in the present work. In addition, this dissertation puts forward a theoretical framework of abstraction levels, in line with the mentioned theory and inspired by the Newell's Knowledge Level work, in order to reduce the broad gap of semantic content that exists between data, relative to an observed process, in a database and what can be inferred in a higher level; that is, in the experts' discursive level. Thus, the human-machine learning approach along with the notion of abstraction levels are then applied to the modelling of human behaviour in smart environments. In particular, the modelling of elderly people's behaviour at home in the GerHome Project of the CSTB (Centre Scientifique et Technique du Bâtiment) of Sophia Antipolis, France. Ingénierie des Connaissances Modéle de Connaissance Fouille de donnés Niveaux d'Abstraction Environnements Intelligents Activités Humaines Knowledge Engineering Knowledge Modelling Knowledge Discovery in Databases Data Mining Abstraction Levels Smart Environments Human Activity
8	Contribution de la découverte de motifs à l’analyse de collections de traces unitaires / Contribution to unitary traces analysis with pattern discovery Cavadenti, Olivier 27 September 2016 (has links) Dans le contexte manufacturier, un ensemble de produits sont acheminés entre différents sites avant d’être vendus à des clients finaux. Chaque site possède différentes fonctions : création, stockage, mise en vente, etc. Les données de traçabilités décrivent de manière riche (temps, position, type d’action,…) les événements de création, acheminement, décoration, etc. des produits. Cependant, de nombreuses anomalies peuvent survenir, comme le détournement de produits ou la contrefaçon d’articles par exemple. La découverte des contextes dans lesquels surviennent ces anomalies est un objectif central pour les filières industrielles concernées. Dans cette thèse, nous proposons un cadre méthodologique de valorisation des traces unitaires par l’utilisation de méthodes d’extraction de connaissances. Nous montrons comment la fouille de données appliquée à des traces transformées en des structures de données adéquates permet d’extraire des motifs intéressants caractéristiques de comportements fréquents. Nous démontrons que la connaissance a priori, celle des flux de produits prévus par les experts et structurée sous la forme d’un modèle de filière, est utile et efficace pour pouvoir classifier les traces unitaires comme déviantes ou non, et permettre d’extraire les contextes (fenêtre de temps, type de produits, sites suspects,…) dans lesquels surviennent ces comportements anormaux. Nous proposons de plus une méthode originale pour détecter les acteurs de la chaîne logistique (distributeurs par exemple) qui auraient usurpé une identité (faux nom). Pour cela, nous utilisons la matrice de confusion de l’étape de classification des traces de comportement pour analyser les erreurs du classifieur. L’analyse formelle de concepts (AFC) permet ensuite de déterminer si des ensembles de traces appartiennent en réalité au même acteur. / In a manufacturing context, a product is moved through different placements or sites before it reaches the final customer. Each of these sites have different functions, e.g. creation, storage, retailing, etc. In this scenario, traceability data describes in a rich way the events a product undergoes in the whole supply chain (from factory to consumer) by recording temporal and spatial information as well as other important elements of description. Thus, traceability is an important mechanism that allows discovering anomalies in a supply chain, like diversion of computer equipment or counterfeits of luxury items. In this thesis, we propose a methodological framework for mining unitary traces using knowledge discovery methods. We show how the process of data mining applied to unitary traces encoded in specific data structures allows extracting interesting patterns that characterize frequent behaviors. We demonstrate that domain knowledge, that is the flow of products provided by experts and compiled in the industry model, is useful and efficient for classifying unitary traces as deviant or not. Moreover, we show how data mining techniques can be used to provide a characterization for abnormal behaviours (When and how did they occur?). We also propose an original method for detecting identity usurpations in the supply chain based on behavioral data, e.g. distributors using fake identities or concealing them. We highlight how the knowledge discovery in databases, applied to unitary traces encoded in specific data structures (with the help of expert knowledge), allows extracting interesting patterns that characterize frequent behaviors. Finally, we detail the achievements made within this thesis with the development of a platform of traces analysis in the form of a prototype. Informatique Fouille de données Fouille de motifs Modèle expert Découverte de connaissances Trace unitaire Produits manufacturiers Information Technology Data mining Pattern mining Expert model Knowledge discovery Unitary trace Manufacturing product 006.330 72
9	Anytime discovery of a diverse set of patterns with Monte Carlo tree search / Découverte d'un ensemble diversifié de motifs avec la recherche arborescente de Monte Carlo Bosc, Guillaume 11 September 2017 (has links) La découverte de motifs qui caractérisent fortement une classe vis à vis d'une autre reste encore un problème difficile en fouille de données. La découverte de sous-groupes (Subgroup Discovery, SD) est une approche formelle de fouille de motifs qui permet la construction de classifieurs intelligibles mais surtout d'émettre des hypothèses sur les données. Cependant, cette approche fait encore face à deux problèmes majeurs : (i) comment définir des mesures de qualité appropriées pour caractériser l'intérêt d'un motif et (ii) comment sélectionner une méthode heuristique adaptée lorsqu’une énumération exhaustive de l'espace de recherche n'est pas réalisable. Le premier problème a été résolu par la fouille de modèles exceptionnels (Exceptional Model Mining, EMM) qui permet l'extraction de motifs couvrant des objets de la base de données pour lesquels le modèle induit sur les attributs de classe est significativement différent du modèle induit par l'ensemble des objets du jeu de données. Le second problème a été étudié en SD et EMM principalement avec la mise en place de méthodes heuristiques de type recherche en faisceau (beam-search) ou avec des algorithmes génétiques qui permettent la découverte de motifs non redondants, diversifiés et de bonne qualité. Dans cette thèse, nous soutenons que la nature gloutonne des méthodes d'énumération précédentes génère cependant des ensembles de motifs manquant de diversité. Nous définissons formellement la fouille de données comme un jeu que nous résolvons par l'utilisation de la recherche arborescente de Monte Carlo (Monte Carlo Tree Search, MCTS), une technique récente principalement utilisée pour la résolution de jeux et de problèmes de planning en intelligence artificielle. Contrairement aux méthodes traditionnelles d'échantillonnage, MCTS donne la possibilité d'obtenir une solution à tout instant sans qu'aucune hypothèse ne soit faite que ce soit sur la mesure de qualité ou sur les données. Cette méthode d'énumération converge vers une approche exhaustive si les budgets temps et mémoire disponibles sont suffisants. Le compromis entre l'exploration et l'exploitation que propose cette approche permet une augmentation significative de la diversité dans l'ensemble des motifs calculés. Nous montrons que la recherche arborescente de Monte Carlo appliquée à la fouille de motifs permet de trouver rapidement un ensemble de motifs diversifiés et de bonne qualité à l'aide d'expérimentations sur des jeux de données de référence et sur un jeu de données réel traitant de l'olfaction. Nous proposons et validons également une nouvelle mesure de qualité spécialement conçue pour des jeux de donnée multi labels présentant une grande variance de fréquences des labels. / The discovery of patterns that strongly distinguish one class label from another is still a challenging data-mining task. Subgroup Discovery (SD) is a formal pattern mining framework that enables the construction of intelligible classifiers, and, most importantly, to elicit interesting hypotheses from the data. However, SD still faces two major issues: (i) how to define appropriate quality measures to characterize the interestingness of a pattern; (ii) how to select an accurate heuristic search technique when exhaustive enumeration of the pattern space is unfeasible. The first issue has been tackled by Exceptional Model Mining (EMM) for discovering patterns that cover tuples that locally induce a model substantially different from the model of the whole dataset. The second issue has been studied in SD and EMM mainly with the use of beam-search strategies and genetic algorithms for discovering a pattern set that is non-redundant, diverse and of high quality. In this thesis, we argue that the greedy nature of most such previous approaches produces pattern sets that lack diversity. Consequently, we formally define pattern mining as a game and solve it with Monte Carlo Tree Search (MCTS), a recent technique mainly used for games and planning problems in artificial intelligence. Contrary to traditional sampling methods, MCTS leads to an any-time pattern mining approach without assumptions on either the quality measure or the data. It converges to an exhaustive search if given enough time and memory. The exploration/exploitation trade-off allows the diversity of the result set to be improved considerably compared to existing heuristics. We show that MCTS quickly finds a diverse pattern set of high quality in our application in neurosciences. We also propose and validate a new quality measure especially tuned for imbalanced multi-label data. Informatique Intelligence artificielle Fouille de données Découverte de connaissances Règles supervisées Sous-Groupes Recherche arborescente de Monte Carlo Diversité Olfaction Information Technology Artificial intelligence Data mining Knowlege discovery Supervised rules discovery Subgroups discovery Monte Carlo tree search Diversity Olfaction 006.330 72
10	Co-évolution dans les Réseaux Epistémiques<br />- Un exemple de reconstruction en sciences sociales Roth, Camille 19 November 2005 (has links) (PDF) Des agents produisant, manipulant et échangeant des connaissances constituent un système complexe socio-sémantique, dont l'étude représente un défi à la fois théorique, dans la perspective d'étendre la naturalisation des sciences sociales, et pratique, avec des applications permettant aux agents de connaître la dynamique du système dans lequel ils évoluent.<br /><br />Cette thèse se situe dans le cadre de ce programme de recherche. Parallèlement et plus largement, nous nous intéressons à la question de la reconstruction en sciences sociales. La reconstruction est un problème inverse comprenant deux volets complémentaires: (i) la déduction d'observations de haut-niveau à partir de phénomènes de bas-niveau; et (ii) la reproduction de l'évolution des observations de haut-niveau à partir de la dynamique des objets de bas-niveau.<br /><br />Nous affirmons que plusieurs aspects significatifs de la structure d'une communauté de savoirs sont principalement produits par la dynamique d'un réseau épistémique où co-évoluent agents et concepts. En particulier, nous résolvons le premier volet du problème de la reconstruction en utilisant des treillis de Galois afin de recréer des taxonomies de communautés de savoirs à partir de simples relations entre agents et concepts; nous obtenons de fait une description historique se rapportant à la progression des champs, leur déclin, leur spécialisation ou leurs interactions (fusion ou scission). Nous micro-fondons ensuite la structure de ces communautés de savoirs en exhibant et en estimant empiriquement des processus d'interaction au niveau des agents, en co-évolution avec les concepts au sein du réseau épistémique, qui rendent compte de la morphogenèse et de l'émergence de plusieurs faits stylisés structurels de haut-niveau - il s'agit là du deuxième volet.<br /><br />Nous défendons finalement un point de vue épistémologique concernant la méthodologique générale de reconstruction d'un système complexe qui appuie notre choix d'un cadre co-évolutionnaire. systèmes complexes cognition sociale reconstruction épistémologie appliquée treillis de Galois taxonomies réseaux sociaux dynamiques sociologie mathématique co-évolution culturelle scientométrie

Search results