Global ETD Search

21	Un système interactif et itératif extraction de connaissances exploitant l'analyse formelle de concepts / An Interactive and Iterative Knowledge Extraction Process Using Formal Concept Analysis Tang, My Thao 30 June 2016 (has links) Dans cette thèse, nous présentons notre méthodologie de la connaissance interactive et itérative pour une extraction des textes - le système KESAM: Un outil pour l'extraction des connaissances et le Management de l’Annotation Sémantique. Le KESAM est basé sur l'analyse formelle du concept pour l'extraction des connaissances à partir de ressources textuelles qui prend en charge l'interaction aux experts. Dans le système KESAM, l’extraction des connaissances et l'annotation sémantique sont unifiées en un seul processus pour bénéficier à la fois l'extraction des connaissances et l'annotation sémantique. Les annotations sémantiques sont utilisées pour formaliser la source de la connaissance dans les textes et garder la traçabilité entre le modèle de la connaissance et la source de la connaissance. Le modèle de connaissance est, en revanche, utilisé afin d’améliorer les annotations sémantiques. Le processus KESAM a été conçu pour préserver en permanence le lien entre les ressources (textes et annotations sémantiques) et le modèle de la connaissance. Le noyau du processus est l'Analyse Formelle de Concepts (AFC) qui construit le modèle de la connaissance, i.e. le treillis de concepts, et assure le lien entre le modèle et les annotations des connaissances. Afin d'obtenir le résultat du treillis aussi près que possible aux besoins des experts de ce domaine, nous introduisons un processus itératif qui permet une interaction des experts sur le treillis. Les experts sont invités à évaluer et à affiner le réseau; ils peuvent faire des changements dans le treillis jusqu'à ce qu'ils parviennent à un accord entre le modèle et leurs propres connaissances ou le besoin de l’application. Grâce au lien entre le modèle des connaissances et des annotations sémantiques, le modèle de la connaissance et les annotations sémantiques peuvent co-évoluer afin d'améliorer leur qualité par rapport aux exigences des experts du domaine. En outre, à l'aide de l’AFC de la construction des concepts avec les définitions des ensembles des objets et des ensembles d'attributs, le système KESAM est capable de prendre en compte les deux concepts atomiques et définis, à savoir les concepts qui sont définis par un ensemble des attributs. Afin de combler l'écart possible entre le modèle de représentation basé sur un treillis de concept et le modèle de représentation d'un expert du domaine, nous présentons ensuite une méthode formelle pour l'intégration des connaissances d’expert en treillis des concepts d'une manière telle que nous pouvons maintenir la structure des concepts du treillis. La connaissance d’expert est codée comme un ensemble de dépendance de l'attribut qui est aligné avec l'ensemble des implications fournies par le concept du treillis, ce qui conduit à des modifications dans le treillis d'origine. La méthode permet également aux experts de garder une trace des changements qui se produisent dans le treillis d'origine et la version finale contrainte, et d'accéder à la façon dont les concepts dans la pratique sont liés à des concepts émis automatiquement à partir des données. Nous pouvons construire les treillis contraints sans changer les données et fournir la trace des changements en utilisant des projections extensives sur treillis. À partir d'un treillis d'origine, deux projections différentes produisent deux treillis contraints différents, et, par conséquent, l'écart entre le modèle de représentation basée sur un treillis de réflexion et le modèle de représentation d'un expert du domaine est rempli avec des projections / In this thesis, we present a methodology for interactive and iterative extracting knowledge from texts - the KESAM system: A tool for Knowledge Extraction and Semantic Annotation Management. KESAM is based on Formal Concept Analysis for extracting knowledge from textual resources that supports expert interaction. In the KESAM system, knowledge extraction and semantic annotation are unified into one single process to benefit both knowledge extraction and semantic annotation. Semantic annotations are used for formalizing the source of knowledge in texts and keeping the traceability between the knowledge model and the source of knowledge. The knowledge model is, in return, used for improving semantic annotations. The KESAM process has been designed to permanently preserve the link between the resources (texts and semantic annotations) and the knowledge model. The core of the process is Formal Concept Analysis that builds the knowledge model, i.e. the concept lattice, and ensures the link between the knowledge model and annotations. In order to get the resulting lattice as close as possible to domain experts' requirements, we introduce an iterative process that enables expert interaction on the lattice. Experts are invited to evaluate and refine the lattice; they can make changes in the lattice until they reach an agreement between the model and their own knowledge or application's need. Thanks to the link between the knowledge model and semantic annotations, the knowledge model and semantic annotations can co-evolve in order to improve their quality with respect to domain experts' requirements. Moreover, by using FCA to build concepts with definitions of sets of objects and sets of attributes, the KESAM system is able to take into account both atomic and defined concepts, i.e. concepts that are defined by a set of attributes. In order to bridge the possible gap between the representation model based on a concept lattice and the representation model of a domain expert, we then introduce a formal method for integrating expert knowledge into concept lattices in such a way that we can maintain the lattice structure. The expert knowledge is encoded as a set of attribute dependencies which is aligned with the set of implications provided by the concept lattice, leading to modifications in the original lattice. The method also allows the experts to keep a trace of changes occurring in the original lattice and the final constrained version, and to access how concepts in practice are related to concepts automatically issued from data. The method uses extensional projections to build the constrained lattices without changing the original data and provide the trace of changes. From an original lattice, two different projections produce two different constrained lattices, and thus, the gap between the representation model based on a concept lattice and the representation model of a domain expert is filled with projections. Analyse formelle de concepts Extraction de connaissances Annotation sémantique Implication de l’attribut Dépendance de l’attribut Formal concept analysis Knowledge extraction Semantic annotation Attribute implication Attribute dependency 006.33
22	Modélisation spatio-temporelle multi-niveau à base d'ontologies pour le suivi de la dynamique en imagerie satellitaire / Ontology-based multi-level spatio-temporal modeling for monitoring dynamics in satellite imagery Ghazouani, Fethi 10 December 2018 (has links) La modélisation de la dynamique des objets spatio-temporels fait partie des sujets de recherche pour le suivi et l'interprétation des changements affectant le globe terrestre. Pour cela, l'exploitation des images satellitaires se présente comme un moyen efficace qui aide à l'étude de la dynamique des phénomènes spatio-temporels qui peuvent se produire sur la surface de la Terre notamment l'urbanisation, la déforestation, la désertification, etc. Divers modèles et approches ont été proposés pour modéliser les évolutions des objets spatio-temporels. Toutes fois, chaque modèle présente une capacité limitée pour capturer l'évolution des différentes caractéristiques de l'environnement, en plus la structure de représentation utilisée par chaque modèle ne permet pas de saisir complètement la sémantique de l'évolution d'un objet spatio-temporel. Les travaux de notre thèse s'intéressent à la modélisation de la dynamique des objets spatio-temporels pour l'interprétation des changements en imagerie satellitaire. En conséquence, nous avons proposé dans un premier temps une architecture ontologiques multi-niveaux pour la représentation et la modélisation des objets et des processus spatio-temporels dynamiques. Également, nous avons présenté une nouvelle stratégie d'interprétation sémantique de scènes d'images satellites pour l'interprétation de changements. Le cadre applicatif concerne l'interprétation sémantique d'une scène d'images satellites pour l'interprétation des phénomènes de changements, tels que l'urbanisation et la déforestation. Le résultat obtenu est une carte de changements qui pourra guider une meilleure gestion de l'utilisation/couverture des sols. / Modeling the dynamics of spatio-temporal objects is part of the research subjects for monitoring and interpretation of the changes affecting the Earth. Satellite images are an effective way for studying the dynamics of spatio-temporal phenomena, including urbanization, deforestation, flooding, desertification, and so on, that can occur on the surface of the Earth. Various models and approaches have been proposed to model the evolution of the spatio-temporal objects. However, each of these models has a limited ability to capture the evolution of the different characteristics of the environment, and the representation structure used by each model does not fully capture the semantics of the evolution of a spatio-temporal object. The works of our thesis interested in modeling the dynamics of spatio-temporal objects for changes interpretation in satellite imagery. Therefore, we proposed initially a multi-level ontological architecture for representation and modeling the dynamic of spatio-temporal objects and process. Also, we have presented a new semantic scene interpretation strategy for change interpretation in remote sensing imagery. The application Framework concerns the semantic interpretation of a satellite images scenes for change interpretation of phenomena, such as urbanization and deforestation. The result is a change map that can guide better management of the land use/cover. Modélisation de la dynamique Ontologies Interprétation sémantique Interprétation de changements Extraction de connaissances Dynamics modeling Spatio-temporal reasoning and modeling Ontologies Semantic interpretation Change interpretation Knowledge extraction 004
23	Agrégation et extraction des connaissances dans les réseaux inter-véhicules / Aggregation and extraction of knowledge in inter-vehicle networks Zekri, Dorsaf 17 January 2013 (has links) Les travaux réalisés dans cette thèse traitent de la gestion des données dans les réseaux inter-véhiculaires (VANETs). Ces derniers sont constitués d’un ensemble d’objets mobiles qui communiquent entre eux à l’aide de réseaux sans fil de type IEEE 802.11, Bluetooth, ou Ultra Wide Band (UWB). Avec de tels mécanismes de communication, un véhicule peut recevoir des informations de ses voisins proches ou d’autres plus distants, grâce aux techniques de multi-sauts qui exploitent dans ce cas des objets intermédiaires comme relais. De nombreuses informations peuvent être échangées dans le contexte des «VANETs», notamment pour alerter les conducteurs lorsqu’un événement survient (accident, freinage d’urgence, véhicule quittant une place de stationnement et souhaitant en informer les autres, etc.). Au fur et à mesure de leurs déplacements, les véhicules sont ensuite « contaminés » par les informations transmises par d’autres. Dans ce travail, nous voulons exploiter les données de manière sensiblement différente par rapport aux travaux existants. Ces derniers visent en effet à utiliser les données échangées pour produire des alertes aux conducteurs. Une fois ces données utilisées, elles deviennent obsolètes et sont détruites. Dans ce travail, nous cherchons à générer dynamiquement à partir des données collectées par les véhicules au cours de leur trajet, un résumé (ou agrégat) qui fourni des informations aux conducteurs, y compris lorsqu’aucun véhicule communicant ne se trouve pas à proximité. Pour ce faire, nous proposons tout d’abord une structure d’agrégation spatio-temporelle permettant à un véhicule de résumer l’ensemble des événements observés. Ensuite, nous définissons un protocole d’échange des résumés entre véhicules sans l’intermédiaire d’une infrastructure, permettant à un véhicule d’améliorer sa base de connaissances locale par échange avec ses voisins. Enfin, nous définissons nos stratégies d’exploitation de résumé afin d’aider le conducteur dans la prise de décision. Nous avons validé l’ensemble de nos propositions en utilisant le simulateur « VESPA » en l’étendant pour prendre en compte la notion de résumés. Les résultats de simulation montrent que notre approche permet effectivement d’aider les conducteurs à prendre de bonnes décisions, sans avoir besoin de recourir à une infrastructure centralisatrice / The works in this thesis focus on data management in inter-vehicular networks (VANETs). These networks consist of a set of moving objects that communicate with wireless networks IEEE 802.11, Bluetooth, or Ultra Wide Band (UWB). With such communication mechanisms, a vehicle may receive information from its close neighbors or other more remote, thanks to multi-jump techniques that operate in this case intermediate objects as relays. A lot of information can be exchanged in the context of « VANETs », especially to alert drivers when an event occurs (accident, emergency braking, vehicle leaving a parking place and want to inform others, etc.). In their move vehicles are then « contaminated » by the information provided by others. In this work, we use the data substantially different from the existing work. These are, in fact, use the data exchanged to produce alerts drivers. Once these data are used, they become obsolete and are destroyed. In this work, we seek to generate dynamically from data collected by vehicles in their path, a summary (or aggregate) which provides information to drivers, including when no communicating vehicle is nearby. To do this, we first propose a spatio-temporal aggregation structure enabling a vehicle to summarize all the observed events. Next, we define a protocol for exchanging summaries between vehicles without the mediation of an infrastructure, allowing a vehicle to improve its local knowledge base by exchange with its neighbors. Finally, we define our operating strategies of the summary to assist the driver in making decision. We validated all of our proposals using the «VESPA» simulator by extending it to take into account the concept of summaries. Simulation results show that our approach can effectively help drivers make good decisions without the need to use a centralized infrastructure Réseaux inter-véhicule Agrégation d’événements de résumé Protocole d’échange Extraction de connaissances Construction de résumé Inter-vehicle network Event aggregation Buiding summaries Exchange protocol Extracting knowledge
24	Extraction de connaissances d'adaptation en raisonnement à partir de cas Badra, Fadi 20 November 2009 (has links) (PDF) Cette thèse se situe à l'intersection de trois domaines de recherche : le raisonnement à partir de cas, l'extraction de connaissances et la représentation des connaissances. Raisonner à partir de cas consiste à résoudre un nouveau problème en utilisant un ensemble de problèmes déjà résolus, appelés cas. Dans cette thèse, un langage de représentation des variations entre cas est introduit. Nous montrons comment ce langage peut être utilisé pour représenter les connaissances d'adaptation et pour modéliser la phase d'adaptation en raisonnement à partir de cas. Ce langage est ensuite appliqué à la tâche d'apprentissage de connaissances d'adaptation. Un processus d'extraction de connaissances, appelé CabamakA, est mis au point. Ce processus permet d'apprendre des connaissances d'adaptation par généralisation à partir d'une représentation des variations entre cas. Une discussion est ensuite menée sur les conditions d'opérationnalisation de CabamakA au sein d'un processus d'acquisition de connaissances. L'étude aboutit à la proposition d'un nouveau type d'approche pour l'acquisition de connaissances d'adaptation dans lequel le processus d'extraction de connaissances est déclenché de manière opportuniste au cours d'une session particulière de résolution de problèmes. Les diérents concepts introduits dans la thèse sont illustrés dans le domaine culinaire à travers leur application au système de raisonnement à partir de cas Taaable, qui constitue le contexte applicatif de l'étude. raisonnement à partir de cas extraction de connaissances représentation des connaissances
25	SAFE-NEXT : UNE APPROCHE SYSTEMIQUE POUR L'EXTRACTION DE CONNAISSANCES DE DONNEES.<br />Application A La Construction Et A L'interprétation De Scénarios D'accidents De La Route Ben Ahmed, Walid 17 January 2005 (has links) (PDF) Aujourd'hui, l'informatisation des saisies de données et la puissance des systèmes de collecte conduisent à la construction de grandes Bases de Données (BD). L'exploitation de ces millions de données en accidentologie et dans beaucoup d'autres domaines (e.g. management, marketing, etc.) fait appel à des techniques d'Extraction de Connaissances de Données (ECD). La complexité des données, du domaine d'application et des connaissances recherchées rendent fondamentale l'intégration des connaissances expertes dans le processus d'ECD. Cela nécessite la mise en place d'approches, méthodes et techniques d'identification, de représentation et d'opérationnalisation de ces connaissances.<br />Dans ce travail de thèse, nous proposons une nouvelle approche, appelée SAFE-Next (Systemic Approach For Enhanced kNowledge EXTraction, approche systémique pour l'extraction des connaissances) qui intègre les quatre approches suivantes : La première est appelée ASMEC (Approche Systémique de ModElisation des Connaissances). Elle consiste en une méthode de modélisation des connaissances multi-vues et selon une architecture à plusieurs niveaux d'abstraction. La deuxième approche, AICEF (Approche d'Incorporation des Connaissances Expertes dans la Fouille de données), propose l'élaboration et l'utilisation de méta-données multi-vues comme un moyen pour l'incorporation des connaissances formalisées par ASMEC dans le processus d'ECD. La troisième approche, ASAIC (Approche Systémique d'Analyse d'Impact de Changement), utilise le modèle de connaissances d'ASMEC pour une analyse interactive et multi-vues de l'impact d'un changement sur un système. La quatrième approche, ASEM (Approche Systémique d'Evaluation de Modèles), fournit un modèle général d'évaluation de modèles de connaissances. <br />Les fondements épistémologiques et méthodologiques de nos travaux sont respectivement le constructivisme et la systémique (ou cybernétique). En se basant sur ces fondements, nos travaux de recherche ont conduit à des contributions réparties en quatre domaines : En accidentologie, SAFE-Next fournit un outil efficace pour l'élaboration des STA permettant une meilleure analyse et compréhension de l'accident. Elle fournit aussi un moyen de capitalisation des connaissances offrant une vision synthétique des différents types de connaissances du domaine de l'accidentologie. En Ingénierie des Connaissances (IC), SAFE-Next propose un modèle général multi-vues et multi-niveaux d'abstraction de modélisation des connaissances pour le développement des Systèmes à Base de Connaissances (SBC). Elle permet aussi de guider l'élicitation des connaissances selon un modèle multi-vues. En ECD, SAFE-Next propose l'utilisation des métadonnées multi-vues pour l'incorporation des connaissances expertes du domaine dans la première et la dernière phase du processus d'ECD (i.e. préparation des données et interprétation des résultats). En conception de nouveaux systèmes, SAFE-Next fournit à travers les STA un moyen de communication entre les accidentologistes et les concepteurs des systèmes de sécurité embarqués dans les véhicules. Cette interface entre les deux métiers (i.e. conception et accidentologie) permet la construction de l'espace de conception pour développer et évaluer les systèmes de sécurité. Elle offre aussi un moyen d'analyse de l'impact d'un changement (e.g. introduction d'un nouveau système de sécurité) sur le comportement du système Conducteur-Véhicule-Environnement. [SPI] Engineering Sciences Ingénierie des Connaissances Extraction de Connaissances de Données Modélisation des connaissances Modélisation des systèmes complexes Cybernétique Systémique Analyse de changement Conception de nouveaux systèmes Evaluation de modèles
26	Analyse Quantifiée de la Marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade ARMAND, Stéphane 29 June 2005 (has links) (PDF) L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discriminantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique. [SDV] Life Sciences Analyse Quantifiée de la Marche marche humaine marche digitigrade apprentissage automatique aide à l'interprétation c-moyennes floues arbres de décision flous règles floues explication classification
27	Calcul de centralité et identification de structures de communautés dans les graphes de documents Chikhi, Nacim Fateh 17 December 2010 (has links) (PDF) Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problématique du calcul de centralité dans les graphes de documents. Nous avons décrit les principaux algorithmes de calcul de centralité existants en mettant l'accent sur le problème TKC (Tightly Knit Community) dont souffre la plupart des mesures de centralité récentes. Ensuite, nous avons proposé trois nouveaux algorithmes de calcul de centralité (MHITS, NHITS et DocRank) permettant d'affronter le phénomène TKC. Les différents algorithmes proposés ont été évalués et comparés aux approches existantes. Des critères d'évaluation ont notamment été proposés pour mesurer l'effet TKC. Dans un deuxième temps, nous nous sommes intéressés au problème de la classification non supervisée de documents. Plus précisément, nous avons envisagé ce regroupement comme une tâche d'identification de structures de communautés (ISC) dans les graphes de documents. Nous avons décrit les principales approches d'ISC existantes en distinguant les approches basées sur un modèle génératif des approches algorithmiques ou classiques. Puis, nous avons proposé un modèle génératif (SPCE) basé sur le lissage et sur une initialisation appropriée pour l'ISC dans des graphes de faible densité. Le modèle SPCE a été évalué et validé en le comparant à d'autres approches d'ISC. Enfin, nous avons montré que le modèle SPCE pouvait être étendu pour prendre en compte simultanément les liens et les contenus des documents. Calcul de centralité Graphes de documents Analyse de liens Modèles génératifs Marches aléatoires Effet TKC (Tightly Knit Community)
28	Simulation numérique et approche orientée connaissance pour la découverte de nouvelles molécules thérapeutiques Ghemtio, Leo 07 May 2010 (has links) (PDF) L'innovation thérapeutique progresse traditionnellement par la combinaison du criblage expérimental et de la modélisation moléculaire. En pratique, cette dernière approche est souvent limitée par la pénurie de données expérimentales, particulièrement les informations structurales et biologiques. Aujourd'hui, la situation a complètement changé avec le séquençage à haut débit du génome humain et les avancées réalisées dans la détermination des structures tridimensionnelles des protéines. Cette détermination permet d'avoir accès à une grande quantité de données pouvant servir à la recherche de nouveaux traitements pour un grand nombre de maladies. À cet égard, les approches informatiques permettant de développer des programmes de criblage virtuel à haut débit offrent une alternative ou un complément aux méthodes expérimentales qui font gagner du temps et de l'argent dans la découverte de nouveaux traitements. Appliqué aux grandes bases de données moléculaires, le criblage virtuel à haut débit permet de limiter le criblage expérimental en fournissant, pour chaque cible biologique visée, des molécules potentiellement intéressantes au moyen de méthodes informatiques adaptées. Cependant, la plupart de ces approches souffrent des mêmes limitations. Le coût et la durée des temps de calcul pour évaluer la fixation d'une collection de molécules à une cible, qui est considérable dans le contexte du haut débit, ainsi que la précision des résultats obtenus sont les défis les plus évidents dans le domaine. Le besoin de gérer une grande quantité de données hétérogènes est aussi particulièrement crucial. Pour surmonter les limitations actuelles du criblage virtuel à haut débit et ainsi optimiser les premières étapes du processus de découverte de nouveaux médicaments, j'ai mis en place une méthodologie innovante permettant, d'une part, de gérer une masse importante de données hétérogènes et d'en extraire des connaissances et, d'autre part, de distribuer les calculs nécessaires sur les grilles de calcul comportant plusieurs milliers de processeurs, le tout intégré à un protocole de criblage virtuel en plusieurs étapes. L'objectif est la prise en compte, sous forme de contraintes, des connaissances sur le problème posé afin d'optimiser la précision des résultats et les coûts en termes de temps et d'argent du criblage virtuel. Les approches méthodologiques développées ont été appliquées avec succès à une étude concernant le problème de résistance du VIH aux antiviraux, projet soutenu par la fondation Bill et Melinda Gates dans le cadre d'un projet de collaboration avec le CIRCB au Cameroun. [CHIM:OTHE] Chemical Sciences/Other [INFO] Computer Science Criblage virtuel à haut débit base de données grille de calculs extraction de connaissances
29	AROMA : une méthode pour la découverte d'alignements orientés entre ontologies à partir de règles d'association David, Jérôme 08 November 2007 (has links) (PDF) Ce travail de thèse s'inscrit à l'intersection des deux domaines de recherche que sont l'extraction des connaissances dans les données (ECD) et de l'ingénierie des connaissances. Plus précisément, en nous appuyant sur la combinaison des travaux menés, d'une part sur l'alignement des ontologies, et d'autre part sur la fouille de règles d'association, nous proposons une nouvelle méthode d'alignement d'ontologies associées à des corpus textuels (taxonomies, hiérarchies documentaires, thésaurus, répertoires ou catalogues Web), appelée AROMA (\emph{Association Rule Matching Approach}).<br /><br />Dans la littérature, la plupart des travaux traitant des méthodes d'alignement d'ontologies ou de schémas s'appuient sur une définition intentionnelle des schémas et utilisent des relations basées sur des mesures de similarité qui ont la particularité d'être symétriques (équivalences). Afin d'améliorer les méthodes d'alignement, et en nous inspirant des travaux sur la découverte de règles d'association, des mesures de qualité associées, et sur l'analyse statistique implicative, nous proposons de découvrir des appariements asymétriques (implications) entre ontologies. Ainsi, la contribution principale de cette thèse concerne la conception d'une méthode d'alignement extensionnelle et orientée basée sur la découverte des implications significatives entre deux hiérarchies plantées dans un corpus textuel.<br />Notre méthode d'alignement se décompose en trois phases successives. La phase de prétraitement permet de préparer les ontologies à l'alignement en les redéfinissant sur un ensemble commun de termes extraits des textes et sélectionnés statistiquement. La phase de fouille extrait un alignement implicatif entre hiérarchies. La dernière phase de post-traitement des résultats permet de produire des alignements consistants et minimaux (selon un critère de redondance).<br /><br />Les principaux apports de cette thèse sont : (1) Une modélisation de l'alignement étendue pour la prise en compte de l'implication. Nous définissons les notions de fermeture et couverture d'un alignement permettant de formaliser la redondance et la consistance d'un alignement. Nous étudions également la symétricité et les cardinalités d'un alignement. (2) La réalisation de la méthode AROMA et d'une interface d'aide à la validation d'alignements. (3) Une extension d'un modèle d'évaluation sémantique pour la prise en compte de la présence d'implications dans un alignement. (4) L'étude du comportement et de la performance d'AROMA sur différents types de jeux de tests (annuaires Web, catalogues et ontologies au format OWL) avec une sélection de six mesures de qualité.<br /><br />Les résultats obtenus sont prometteurs car ils montrent la complémentarité de notre méthode avec les approches existantes. Alignement d'ontologies Ingénierie des Connaissances fouille de données règle d'association Web Sémantique mesures de qualité
30	Techniques d'optimisation pour la fouille de données Francisci, Dominique 11 March 2004 (has links) (PDF) Les technologies numériques ont engendré depuis peu, des volumes de données importants, qui peuvent receler des informations utiles. Ceci a donné naissance à l'extraction de connaissances à partir des données qui désigne le processus d'extraction d'informations implicites, précédemment inconnues et potentiellement utiles enfouies dans les données. La fouille de données comprend cinq phases dont la principale est l'extraction de modèles. Nous nous intéressons aux connaisances exprimées sous la forme de règles de dépendance et à la qualité de ces règles. Une règle de dépendance est une implication conditionnelle entre ensembles d'attributs. Les algorithmes standard ont pour but de rechercher les meilleurs modèles. Derrière ces processus se cache en fait une véritable problématique d'optimisation. Nous considérons la recherche des règles de dépendance les plus intéressantes comme étant un problème d'optimisation dans lequel la qualité d'une règle est quantifiée par des mesures. Ainsi, il convient d'étudier les espaces de recherche induits par les mesures ainsi que les algorithmes de recherche dans ces espaces. Il ressort que la plupart des mesures observées présentent des propriétés différentes suivant le jeu de données. Une approche analytique n'est donc pas envisageable dans fixer certains paramères. Nous observons les variations relatives de mesures évaluées simultanément ; certaines d'entre elles sont antagonistes ce qui ne permet pas d'obtenir "la" meilleure règle ; il faut alors considérer un ensemble de compromis satisfaisants. Nous apportons des solutions par le biais des algorithmes génétiques. base de données algorithme évolutionnaire règle de dépendance mesure de qualité optimisation multi-critères

Search results