• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 29
  • 13
  • 2
  • Tagged with
  • 47
  • 47
  • 36
  • 20
  • 20
  • 17
  • 13
  • 12
  • 9
  • 8
  • 6
  • 6
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Reconnaissance et localisation de symboles dans les documents graphiques : approches basées sur le treillis de concepts / Graphics Recognition and Spotting in Graphical Documents : Approaches Based On the Galois Lattice Structure

Boumaiza, Ameni 20 May 2013 (has links)
Omniprésents, la relation homme-machine est encore une définition ardue à cerner. Les ordinateurs réalisent dans le temps des tâches récurrentes. Ils aident ainsi l'homme à manipuler d'énormes quantités de données, souvent même plus rapidement et plus précisément que lui. Malgré cela, la capacité des ordinateurs demeure limitée lorsqu'il s'agit d'extraire automatiquement des informations d'images ou de vidéos, qui représentent pourtant des volumes de données extrêmement importants. La vision par ordinateur est un domaine qui inclut des méthodes d'acquisition, de traitement, d'analyse et de compréhension des images afin de produire de l'information numérique ou symbolique. Un axe de recherche contribuant au développement de ce domaine consiste à reproduire les capacités de la vision humaine par voie électronique afin de percevoir et de comprendre une image. Il s'agit de développer des algorithmes qui reproduisent une des capacités les plus étonnantes du cerveau humain à savoir la déduction des propriétés du monde purement externe au moyen de la lumière qui nous revient des divers objets qui nous entourent. Nos travaux de thèse s'inscrivent dans cet axe de recherche. Nous proposons plusieurs contributions originales s'inscrivant dans le cadre de résolution des problèmes de la reconnaissance et de la localisation des symboles graphiques en contexte. L'originalité des approches proposées réside dans la proposition d'une alliance intéressante entre l'Analyse Formelle de Concepts et la vision par ordinateur. Pour ce faire, nous nous sommes confrontés à l'étude du domaine de l'AFC et plus précisément l'adaptation de la structure du treillis de concepts et son utilisation comme étant l'outil majeur de nos travaux. La principale particularité de notre travail réside dans son aspect générique vu que les méthodes proposées peuvent être alliées à divers outils autre que le treillis de concepts en gardant les mêmes stratégies adoptées et en suivant une procédure semblable. Notre incursion dans le domaine de l'Analyse Formelle de Concepts et plus précisément notre choix de la structure du treillis de Galois appelé aussi treillis de concepts est motivé par les nombreux avantages présentés par cet outil. Le principal avantage du treillis de concepts est l'aspect symbolique qu'il offre. Il présente un espace de recherche concis, précis et souple facilitant ainsi la prise de décision. Nos contributions sont inscrites dans le cadre de la reconnaissance et de localisation de symboles dans les documents graphiques. Nous proposons des chaînes de traitement s'inscrivant dans le domaine de la vision par ordinateur / Computer vision is a field that includes methods for the acquisition, processing, analysis and understanding of images to produce numerical or symbolic information. A research contributing to the development of this area is to replicate the capabilities of human vision to perceive and understand images. Our thesis is part of this research axis. We propose several original contributions belonging to the context of graphics recognition and spotting context. The originality of the proposed approaches is the proposal of an interesting alliance between the Formal Concept Analysis and the Computer Vision fields. We face the study of the FCA field and more precisely the adaptation of the structure of concept lattice and its use as the main tool of our work. The main feature of our work lies in its generic aspect because the proposed methods can be combined with various other tools keeping the same strategies and following a similar procedure. Our foray into the area of the Formal Concept Analysis and more precisely our choice of the structure of the Galois lattice, also called concept lattice is motivated by the many advantages offered by this tool. The main advantage of concept lattice is the symbolic aspect. It is a concise, accurate and flexible search space thus facilitating decision making. Our contributions are recorded as part of the recognition and localization of symbols in graphic documents. We propose to recognize and spot symbols in graphical documents (technical drawings for example) using the alliance between the bag of words representation and the Galois lattice formalism. We opt for various methods belonging to the computer vision field
22

L'analyse formelle de concepts : un cadre structurel pour l'étude de la variabilité de familles de logiciels / Formal concept analysis : a structural framework to study variability in software families

Carbonnel, Jessie 29 October 2018 (has links)
Des familles de logiciels similaires proviennent fréquemment de pratiques de réutilisation de clones de logiciels existants, qui sont ensuite enrichis ou dépouillés de fonctionnalités pour suivre de nouvelles exigences. Avec le temps, ces variantes se multiplient et se complexifient, et il devient difficile de les maintenir, de les faire évoluer. L’ingénierie des lignes de produits logiciels regroupe un ensemble de méthodes visant à faciliter le développement et la gestion de telles collections de logiciels similaires. Documenter la variabilité est le point central de ce paradigme ; on la représente à travers des modèles de variabilité, qui servent de supports à la grande majorité des processus propres à l’ingénierie des lignes de produits. La migration complète ou partielle de ces familles de logiciels vers des approches de type lignes de produits permet la simplification de leur exploitation. La rétro-ingénierie, la modélisation et la gestion de la variabilité sont reconnues comme une phase cruciale et ardue de cette migration. Par conséquent, de nombreuses approches ont été proposées pour étudier des descriptions de familles de logiciels dans ce but. Plusieurs d’entre elles s’appuient sur l’analyse formelle de concepts, un cadre mathématique de groupement hiérarchique qui organise un ensemble d’objets et leurs descriptions dans une structure canonique mettant naturellement en évidence leurs aspects communs et variables.Dans ce manuscrit, nous défendons l'idée que l’analyse formelle de concepts, plus qu’un outil, offre un véritable cadre structurel et réutilisable à l’étude de la variabilité des familles de produits.Dans un premier temps, nous établissons un panorama des informations sur la variabilité qui sont mises en évidence grâce à ce formalisme, et discutons de son spectre d’applicabilité. Nous étudions les points communs entre les structures conceptuelles produites par l’analyse formelle de concepts et les modèles de variabilité. Dans un second temps, nous illustrons l’utilisation originale de ces structures conceptuelles comme support à des opérations de conception et de recherche d’informations. Enfin, nous élargissons notre champ d’étude aux informations plus complexes définies par des modèles de variabilité qui ont été étendus pour en améliorer l’expressivité, et dont la rétro-ingénierie est encore peu étudiée à ce jour. Nous montrons comment certaines propriétés de l’analyse formelle de concepts permettent de généraliser son utilisation à des descriptions de variantes plus complexes, et étudions son application pour la manipulation d’attributs multivalués et de cardinalités, en complément des caractéristiques booléennes traditionnelles. Nous évaluons notre approche sur des données issues de dépôts tels que SPLOT, fork-insight et de matrices de comparaison de produits de wikipedia. / Software families often rise from reuse practices as cloning existing software products which are then enhanced or pruned to fulfill new requirements. With time, these variants grow in number and in complexity, and become more and more complex to maintain. Software product line engineering gathers a set of methods that aims at facilitating the management and development of such collections of existing variants. Documenting variability is the central point of this paradigm; This variability is represented in variability models that support a large part of software product line engineering processes.The partial or complete migration from software families to a product line approach eases their exploitation.Reverse-engineering, modeling and managing variability are known as crucial tasks of the migration: therefore, numerous methods have been proposed to study descriptions of software families for this goal.Some of them are based on formal concept analysis, a mathematical framework for hierarchical clustering which organises set of objects and their descriptions in canonical structures highlighting naturally their commonalities and variability.In this thesis, we defend that formal concept analysis, more than a tool, is a relevant structural, reusable and extensible framework to study variability of software families.First, we propose an overview of variability information which is highlighted thanks to this framework, and we discuss its scope of applicability.We study the common points between the conceptual structures of formal concept analysis and variability models.Then, we show how to use these conceptual structures to support research and modeling operations.Finally, we broaden the scope of this study to take into account more complex information about extended variability.We evaluate our method on data taken from the SPLOT repository, fork-insight and product comparison matrices from wikipedia.
23

Treillis de Galois pour les contextes multi-valués flous. Application à l'étude des traits de vie en hydrobiologie.

Bertaux, Aurélie 01 October 2010 (has links) (PDF)
Cette thèse en informatique se place dans le cadre de l'Analyse de Concepts Formels (ACF) ou les treillis de Galois. Ce sont des outils basés sur des opérateurs mathématiques appelés fermetures de Galois permettant de calculer des concepts. Un concept est formé d'un ensemble d'objets partageant tous un ensemble d'attributs communs. Ces concepts sont extraits à partir d'un contexte qui est une table de relation binaire entre ces objets et ces attributs. Nous nous intéressons à des contextes complexes dont la complexité repose sur deux axes. D'une part, les contextes multi-valués dont les attributs se divisent en plusieurs modalités. D'autre part, les contextes flous dont la relation entre objets et attributs n'est pas binaire. Nous définissons les contextes multi-valués flous qui héritent de ces deux complexités et présentons deux conversions des données multi-valuées floues. La première conversion est une binarisation par une disjonction totale des attributs permettant d'une part l'exploitation d'outils comme des implications et d'autre part de comparer et combiner les treillis avec des méthodes statistiques telles que l'analyse factorielle. La seconde conversion est issue de l'échelonnage histogramme que nous définissons et qui permet de convertir les attributs en histogrammes. Afin de générer les concepts à partir des histogrammes, nous proposons une nouvelle fermeture de Galois basée sur une mesure de similarité entre ces histogrammes. Cette fermeture permet d'obtenir des concepts pour lesquels les objets possèdent des attributs non plus égaux mais similaires compris entre un minimum et un maximum communs. Nous proposons également des mesures de seuillage pour limiter le nombre de concepts générés et diminuer les temps de calculs. Enfin, deux algorithmes ont été testés pour implémenter cette fermeture : MinMaxNC et MinMaxC, dont nous comparons les performances. Cette thèse trouve son application notamment dans le domaine hydrobiologique dont une problématique est la sélection de traits écologiques de taxons permettant de caractériser l'état écologique des cours d'eau par le comportement des espèces au sein de leur environnement. La sélection de ces traits s'appuie sur la recherche de groupes de taxons possédant des caractéristiques morphologiques et physiologiques (appelés traits biologiques) communes. Ces groupes correspondent à des concepts au sens de l'ACF et les données biologiques se présentent sous la forme d'un contexte multi-valué flou pour lequel nous montrons l'efficacité de notre approche.
24

Expansion de la représentation succincte des générateurs minimaux

Abbas, Hafida 03 1900 (has links) (PDF)
L'évolution rapide des techniques de génération et de stockage de données a permis à de nombreux organismes la création de bases de données volumineuses, pour stocker l'information nécessaire à leurs activités. Ces bases de données qui deviennent de plus en plus importantes sont réellement peu exploitées, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de données est traitée par la fouille de données ("Data Mining"). Ce projet de mémoire traite plus particulièrement le problème d'extraction des informations sous forme de règles d'associations. Le problème de la pertinence et de l'utilité des règles extraites est un problème majeur de l'extraction des règles d'associations. Ce problème est lié au nombre important de règles extraites et à la présence d'une forte proportion de règles redondantes. Nombreuses techniques de réduction de la famille de règles ont été publiées. Dans ce contexte, les résultats obtenus par l'analyse formelle des concepts (AFC) ont permis de définir un sous-ensemble de l'ensemble des règles d'associations valides appelés bases informatives. La génération de ces bases informatives se fait par une extraction efficace des itemsets fermés fréquents et leurs générateurs minimaux associés. Les générateurs minimaux composent les prémisses minimales de ces règles alors que leurs fermetures composent les conclusions maximales de ces règles. Cependant un survol de la littérature montre que les générateurs minimaux composant l'antécédent et la conséquence de ces bases, contiennent encore de la redondance. Une représentation réduite de ces générateurs minimaux est utile pour révéler la relation d'équivalence parmi les générateurs minimaux. Une étude a été menée dernièrement dans ce sens dans laquelle l'algorithme DSFS_MINER a été proposé et validé, permettant l'extraction d'une représentation succincte sans perte d'informations des générateurs minimaux. Notre contribution dans ce projet réside d'une part, dans l'étude et l'expérimentation d'approches de représentations succinctes des générateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dérivation de tous les générateurs minimaux afin de constituer la famille entière des générateurs minimaux du contexte d'extraction. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Data Mining, Règles d'associations, Analyse formelle des concepts, Générateurs minimaux, Itemset fermés, Générateur minimal, Représentation succincte des générateurs minimaux.
25

Une problématique de découverte de signatures de biomarqueurs / A biomarkers signatures discovery problem

Abtroun Hamlaoui Belmouloud, Lilia 12 December 2011 (has links)
Appliqué à des problèmes actuels de recherche pharmaceutique, ce mémoire traite de la génération de signatures de biomarqueurs par une approche d'extraction de règles d'association et une Analyse Formelle de Concepts. Elle a aboutit au développement d'une méthodologie qui a été validée par six projets de recherche de signatures de biomarqueurs.Alors qu'il n'existe pas de méthode optimale pour traiter les données biomarqueurs, cette méthodologie logique s'appuie sur un scénario global d'analyse déployant quatre méthodes, chacune dépendante de procédés différents. Cette architecture qualifie une problématique centrale de manière à optimiser la qualité d'une solution aux différents problèmes scientifiques posés. Les six applications pratiques ont démontré l'intérêt de la prise en compte précoce des critères de qualité énoncés par les experts du domaine. L'interactivité est soutenue tout au long du processus de découverte et produit des résultats imprévus pour l'expert. La méthodologie s'inscrit dans la lignée des approches dédiées à la stratification systématique des individus, qui constitue le premier palier vers une médecine personnalisée. / In the framework of current intricate questions to be solved by the pharmaceutical industry, this manuscript examines the generation of biomarker signatures through an approach that combines association rules extraction and Formal Concept Analysis. It led to the development of a methodology which was validated by six research industrial projects. While there is no single optimal method to handle biomarkers datasets, this logical methodology relies on a global datamining scenario made up of four different methods. Each method utilizes different processes. This architecture qualifies global approach that helps to optimize a response to different biomarker signatures discovery problems. The six applications presented in this manuscript demonstrate the interest of an early consideration of the quality criteria are expressed by the experts in the field. The interactivity is supported throughout the process of discovery and produces unexpected results for the expert. The methodology helps the systematic stratification of individuals, which constitutes the first step towards personalized medicine.
26

Aspectualizing Component Models : implementation and Interferences Analysis / Aspectualiser les modèles de composants : implémentation et analyse d'interférence

Hannousse, Abdelhakim 14 November 2011 (has links)
L'utilisation d'AOP pour modéliser les préoccupations transverses ou non modulaire de CBSE assure une meilleure modularité et réutilisabilité des composants. Dans ce cadre, nous proposons une approche générique pour modéliser les aspects dans les modèles à composants. Nous modélisons un aspect par un wrapper sur une vue de système. Une vue décrit une configuration adéquate du système où tous les composants dans l'intérêt d'un aspect sont encapsulés dans le même composite. Pour la définition des vues, nous définissons un langage déclaratif VIL. Nous illustrons comment les vues sont mises en œuvre dans des modèles à composants (ex., Fractal), et nous fournissons un modèle formel pour l'analyse des interférences d'aspects. Les composants et les aspects sont modélisés par des automates et Uppaal est utilisé pour détecter les interférences. Pour la résolution d'interférences, nous fournissons un ensemble d'opérateurs de composition. Notre approche est illustrée par un exemple : l'accès wifi dans un aéroport. / Using AOP to model non-modular concerns in CBSE ensures better modularity and reusability of components. In this thesis, we provide a model independent approach for modeling aspects in component models. In the approach we model aspects as wrappers on views of component systems. A view describes an adequate component system configuration where all the components of interest of an aspect are encapsulated in the same composite.For declarative definition of views, we provide a declarative language VIL. We illustrate how views are implemented in component models(e.g., Fractal). We provide a formal framework for aspect interferences analysis. In the framework component systems and aspects are modeled as automata and Uppaal model checker is used for the detection of aspect interferences. For interferences resolution, we provide a set of composition operators as templates to be instantiated for any two arbitrary aspects. Our approach is illustrated with an airport wireless access example.
27

Analyse formelle de concepts et fusion d'informations : application à l'estimation et au contrôle d'incertitude des indicateurs agri-environnementaux / Formal concept analysis and information fusion : application on the uncertainty estimation of environmental indicator

Assaghir, Zainab 12 November 2010 (has links)
La fusion d'informations consiste à résumer plusieurs informations provenant des différentes sources en une information exploitable et utile pour l'utilisateur.Le problème de la fusion est délicat surtout quand les informations délivrées sont incohérentes et hétérogènes. Les résultats de la fusion ne sont pas souvent exploitable et utilisables pour prendre une décision, quand ils sont imprécis. C'est généralement due au fait que les informations sont incohérentes. Plusieurs méthodes de fusion sont proposées pour combiner les informations imparfaites et elles appliquent l'opérateur de fusion sur l'ensemble de toutes les sources et considèrent le résultat tel qu'il est. Dans ce travail, nous proposons une méthode de fusion fondée sur l'Analyse Formelle de Concepts, en particulier son extension pour les données numériques : les structures de patrons. Cette méthode permet d'associer chaque sous-ensemble de sources avec son résultat de fusion. Toutefois l'opérateur de fusion est choisi, alors un treillis de concept est construit. Ce treillis fournit une classification intéressante des sources et leurs résultats de fusion. De plus, le treillis garde l'origine de l'information. Quand le résultat global de la fusion est imprécis, la méthode permet à l'utilisateur d'identifier les sous-ensemble maximaux de sources qui supportent une bonne décision. La méthode fournit une vue structurée de la fusion globale appliquée à l'ensemble de toutes les sources et des résultats partiels de la fusion marqués d'un sous-ensemble de sources. Dans ce travail, nous avons considéré les informations numériques représentées dans le cadre de la théorie des possibilités et nous avons utilisé trois sortes d'opérateurs pour construire le treillis de concepts. Une application dans le monde agricole, où la question de l'expert est d'estimer des valeurs des caractéristiques de pesticide provenant de plusieurs sources, pour calculer des indices environnementaux est détaillée pour évaluer la méthode de fusion proposée / Merging pieces of information into an interpretable and useful format is a tricky task even when an information fusion method is chosen. Fusion results may not be in suitable form for being used in decision analysis. This is generally due to the fact that information sources are heterogeneous and provide inconsistent information, which may lead to imprecise results. Several fusion operators have been proposed for combining uncertain information and they apply the fusion operator on the set of all sources and provide the resulting information. In this work, we studied and proposed a method to combine information using Formal Concept Analysis in particular Pattern Structures. This method allows us to associate any subset of sources with its information fusion result. Then once a fusion operator is chosen, a concept lattice is built. The concept lattice gives an interesting classification of fusion results and it keeps a track of the information origin. When the fusion global result is too imprecise, the method enables the users to identify what maximal subset of sources would support a more precise and useful result. Instead of providing a unique fusion result, the method yields a structured view of partial results labeled by subsets of sources. In this thesis, we studied the numerical information represented in the framework of possibility theory and we used three fusion operators to built the concept lattice. We applied this method in the context of agronomy when experts have to estimate several characteristics values coming from several sources for computing an environmental risk
28

Traitement de données numériques par analyse formelle de concepts et structures de patrons / Mining numerical data with formal concept analysis and pattern structures

Kaytoue, Mehdi 22 April 2011 (has links)
Le sujet principal de cette thèse porte sur la fouille de données numériques et plus particulièrement de données d'expression de gènes. Ces données caractérisent le comportement de gènes dans diverses situations biologiques (temps, cellule, etc.). Un problème important consiste à établir des groupes de gènes partageant un même comportement biologique. Cela permet d'identifier les gènes actifs lors d'un processus biologique, comme par exemple les gènes actifs lors de la défense d'un organisme face à une attaque. Le cadre de la thèse s'inscrit donc dans celui de l'extraction de connaissances à partir de données biologiques. Nous nous proposons d'étudier comment la méthode de classification conceptuelle qu'est l'analyse formelle de concepts (AFC) peut répondre au problème d'extraction de familles de gènes. Pour cela, nous avons développé et expérimenté diverses méthodes originales en nous appuyant sur une extension peu explorée de l'AFC : les structures de patrons. Plus précisément, nous montrons comment construire un treillis de concepts synthétisant des familles de gènes à comportement similaire. L'originalité de ce travail est (i) de construire un treillis de concepts sans discrétisation préalable des données de manière efficace, (ii) d'introduire une relation de similarité entres les gènes et (iii) de proposer des ensembles minimaux de conditions nécessaires et suffisantes expliquant les regroupements formés. Les résultats de ces travaux nous amènent également à montrer comment les structures de patrons peuvent améliorer la prise de décision quant à la dangerosité de pratiques agricoles dans le vaste domaine de la fusion d'information / The main topic of this thesis addresses the important problem of mining numerical data, and especially gene expression data. These data characterize the behaviour of thousand of genes in various biological situations (time, cell, etc.).A difficult task consists in clustering genes to obtain classes of genes with similar behaviour, supposed to be involved together within a biological process.Accordingly, we are interested in designing and comparing methods in the field of knowledge discovery from biological data. We propose to study how the conceptual classification method called Formal Concept Analysis (FCA) can handle the problem of extracting interesting classes of genes. For this purpose, we have designed and experimented several original methods based on an extension of FCA called pattern structures. Furthermore, we show that these methods can enhance decision making in agronomy and crop sanity in the vast formal domain of information fusion
29

Contributions à l'indexation et à la recherche d'information avec l'analyse formelle de concepts / Contributions to indexing and retrieval using Formal Concept Analysis

Codocedo-Henríquez, Víctor 04 September 2015 (has links)
Un des premiers modèles d'indexation de documents qui utilise des termes comme descripteurs était une structure de treillis, cela une vingtaine d'années avant l'arrivée de l'analyse formelle de concepts (FCA pour "Formal Concept Analysis"), qui s'affirme maintenant comme un formalisme théorique important et solide pour l'analyse de données et la découverte de connaissances. Actuellement, la communauté en recherche d'information (RI) s'intéresse particulièrement à des techniques avancées pour la recherche des documents qui relèvent des probabilités et des statistiques. En parallèle, l'intérêt de la communauté FCA au développement de techniques qui font avancer l'état de l'art en RI tout en offrant des fonctionnalités sémantiques lui est toujours bien vivant. Dans cette thèse, nous présentons un ensemble de contributions sur ce que nous avons appelé les systèmes FCA de recherche d'information ("FCA-based IR systems''). Nous avons divisé nos contributions en deux parties, à savoir l'extraction et l'indexation. Pour la récupération, nous proposons une nouvelle technique qui exploite les relations sémantiques entre les descripteurs dans un corpus de documents. Pour l'indexation, nous proposons un nouveau modèle qui permet de mettre en oeuvre un modèle vectoriel d'indexation des documents s'appuyant sur un treillis de concepts (ou treillis de Galois). En outre, nous proposons un modèle perfectionné pour l'indexation hétérogène dans lequel nous combinons le modèle vectoriel et le modèle de recherche booléen. Finalement, nous présentons une technique de fouille de données inspiré de l'indexation des documents, à savoir un modèle d'énumération exhaustive des biclusters en utilisant la FCA. Le biclustering est une nouvelle technique d'analyse de données dans laquelle les objets sont liés via la similitude dans certains attributs de l'espace de description, et non pas par tous les attributs comme dans le "clustering'' standard. En traduisant ce problème en termes d'analyse formelle de concepts, nous pouvons exploiter l'algorithmique associée à la FCA pour développer une technique d'extraction de biclusters de valeurs similaires. Nous montrons le très bon comportement de notre technique, qui fonctionne mieux que les techniques actuelles de biclustering avec énumération exhaustive / One of the first models ever to be considered as an index for documents using terms as descriptors, was a lattice structure, a couple of decades before the arrival of Formal Concept Analysis (FCA) as a solid theory for data mining and knowledge discovery.While the Information Retrieval (IR) community has shifted to more advanced techniques for document retrieval, like probabilistic and statistic paradigms, the interest of the FCA community on developing techniques that would improve the state-of-the-art in IR while providing relevance feedback and semantic based features, never decayed. In this thesis we present a set of contributions on what we call FCA-based IR systems. We have divided our contributions in two sets, namely retrieval and indexing. For retrieval, we propose a novel technique that exploits semantic relations among descriptors in a document corpus and a new concept lattice navigation strategy (called cousin concepts), enabling us to support classification-based reasoning to provide better results compared with state-of-the-art retrieval techniques. The basic notion in our strategy is supporting query modification using "term replacements'' using the lattice structure and semantic similarity. For indexing, we propose a new model that allows supporting the vector space model of retrieval using concept lattices. One of the main limitations of current FCA-based IR systems is related to the binary nature of the input data required for FCA to generate a concept lattice. We propose the use of pattern structures, an extension of FCA to deal with complex object descriptions, in order to support more advanced retrieval paradigms like the vector space model. In addition, we propose an advanced model for heterogeneous indexing through which we can combine the vector space model and the Boolean retrieval model. The main advantage of this approach is the ability of supporting indexing of convex regions in an arbitrary vectorial space built from a document collection. Finally, we move forward to a mining model associated with document indexing, namely exhaustive bicluster enumeration using FCA. Biclustering is an emerging data analysis technique in which objects are related by similarity under certain attributes of the description space, instead of the whole description space like in standard clustering. By translating this problem to the framework of FCA, we are able to exploit the robust machinery associated with the computation of concept lattices to provide an algorithm for mining biclusters based on similar values. We show how our technique performs better than current exhaustive enumeration biclustering techniques.
30

Un système interactif et itératif extraction de connaissances exploitant l'analyse formelle de concepts / An Interactive and Iterative Knowledge Extraction Process Using Formal Concept Analysis

Tang, My Thao 30 June 2016 (has links)
Dans cette thèse, nous présentons notre méthodologie de la connaissance interactive et itérative pour une extraction des textes - le système KESAM: Un outil pour l'extraction des connaissances et le Management de l’Annotation Sémantique. Le KESAM est basé sur l'analyse formelle du concept pour l'extraction des connaissances à partir de ressources textuelles qui prend en charge l'interaction aux experts. Dans le système KESAM, l’extraction des connaissances et l'annotation sémantique sont unifiées en un seul processus pour bénéficier à la fois l'extraction des connaissances et l'annotation sémantique. Les annotations sémantiques sont utilisées pour formaliser la source de la connaissance dans les textes et garder la traçabilité entre le modèle de la connaissance et la source de la connaissance. Le modèle de connaissance est, en revanche, utilisé afin d’améliorer les annotations sémantiques. Le processus KESAM a été conçu pour préserver en permanence le lien entre les ressources (textes et annotations sémantiques) et le modèle de la connaissance. Le noyau du processus est l'Analyse Formelle de Concepts (AFC) qui construit le modèle de la connaissance, i.e. le treillis de concepts, et assure le lien entre le modèle et les annotations des connaissances. Afin d'obtenir le résultat du treillis aussi près que possible aux besoins des experts de ce domaine, nous introduisons un processus itératif qui permet une interaction des experts sur le treillis. Les experts sont invités à évaluer et à affiner le réseau; ils peuvent faire des changements dans le treillis jusqu'à ce qu'ils parviennent à un accord entre le modèle et leurs propres connaissances ou le besoin de l’application. Grâce au lien entre le modèle des connaissances et des annotations sémantiques, le modèle de la connaissance et les annotations sémantiques peuvent co-évoluer afin d'améliorer leur qualité par rapport aux exigences des experts du domaine. En outre, à l'aide de l’AFC de la construction des concepts avec les définitions des ensembles des objets et des ensembles d'attributs, le système KESAM est capable de prendre en compte les deux concepts atomiques et définis, à savoir les concepts qui sont définis par un ensemble des attributs. Afin de combler l'écart possible entre le modèle de représentation basé sur un treillis de concept et le modèle de représentation d'un expert du domaine, nous présentons ensuite une méthode formelle pour l'intégration des connaissances d’expert en treillis des concepts d'une manière telle que nous pouvons maintenir la structure des concepts du treillis. La connaissance d’expert est codée comme un ensemble de dépendance de l'attribut qui est aligné avec l'ensemble des implications fournies par le concept du treillis, ce qui conduit à des modifications dans le treillis d'origine. La méthode permet également aux experts de garder une trace des changements qui se produisent dans le treillis d'origine et la version finale contrainte, et d'accéder à la façon dont les concepts dans la pratique sont liés à des concepts émis automatiquement à partir des données. Nous pouvons construire les treillis contraints sans changer les données et fournir la trace des changements en utilisant des projections extensives sur treillis. À partir d'un treillis d'origine, deux projections différentes produisent deux treillis contraints différents, et, par conséquent, l'écart entre le modèle de représentation basée sur un treillis de réflexion et le modèle de représentation d'un expert du domaine est rempli avec des projections / In this thesis, we present a methodology for interactive and iterative extracting knowledge from texts - the KESAM system: A tool for Knowledge Extraction and Semantic Annotation Management. KESAM is based on Formal Concept Analysis for extracting knowledge from textual resources that supports expert interaction. In the KESAM system, knowledge extraction and semantic annotation are unified into one single process to benefit both knowledge extraction and semantic annotation. Semantic annotations are used for formalizing the source of knowledge in texts and keeping the traceability between the knowledge model and the source of knowledge. The knowledge model is, in return, used for improving semantic annotations. The KESAM process has been designed to permanently preserve the link between the resources (texts and semantic annotations) and the knowledge model. The core of the process is Formal Concept Analysis that builds the knowledge model, i.e. the concept lattice, and ensures the link between the knowledge model and annotations. In order to get the resulting lattice as close as possible to domain experts' requirements, we introduce an iterative process that enables expert interaction on the lattice. Experts are invited to evaluate and refine the lattice; they can make changes in the lattice until they reach an agreement between the model and their own knowledge or application's need. Thanks to the link between the knowledge model and semantic annotations, the knowledge model and semantic annotations can co-evolve in order to improve their quality with respect to domain experts' requirements. Moreover, by using FCA to build concepts with definitions of sets of objects and sets of attributes, the KESAM system is able to take into account both atomic and defined concepts, i.e. concepts that are defined by a set of attributes. In order to bridge the possible gap between the representation model based on a concept lattice and the representation model of a domain expert, we then introduce a formal method for integrating expert knowledge into concept lattices in such a way that we can maintain the lattice structure. The expert knowledge is encoded as a set of attribute dependencies which is aligned with the set of implications provided by the concept lattice, leading to modifications in the original lattice. The method also allows the experts to keep a trace of changes occurring in the original lattice and the final constrained version, and to access how concepts in practice are related to concepts automatically issued from data. The method uses extensional projections to build the constrained lattices without changing the original data and provide the trace of changes. From an original lattice, two different projections produce two different constrained lattices, and thus, the gap between the representation model based on a concept lattice and the representation model of a domain expert is filled with projections.

Page generated in 0.4692 seconds