Les données disponibles sur le Web sont généralement de deux natures : (1) des données non structurées ou semi-structurées difficilement exploitables de manière automatique ou (2) des données structurées destinées à une utilisation particulière, difficilement réutilisables par d’autres applications. Le Web de données est une application du Web sémantique facilitant l’accès, le partage et l’alignement des données. Il existe actuellement de très nombreuses données disponibles sur le Web, mais qui ne sont pas publiées en suivant les principes du Web de données liées. Elles nécessiteraient d’être transformées en bases de connaissances. Nous proposons une méthodologie innovante qui permet de transformer plusieurs sources simultanément et non séquentiellement. Cette méthodologie permet la fusion de plusieurs sources de données orientée par des patrons de conception du domaine. Notre méthodologie spécifie la modélisation attendue du domaine en définissant la partie haute d’un module ontologique. Une chaîne de processus enrichit ce module par des éléments issus des sources : transformation syntaxique des sources, alignement, identification des éléments équivalents pour construire des candidats, calcul de score de confiance des candidats, filtrage des candidats. Notre travail part de l’hypothèse suivante : si un élément apparaît dans plusieurs sources, alors la possibilité qu’il appartienne au domaine d’étude est accrue. Nous avons défini différentes fonctions de calcul de la confiance consensuelle d’un candidat en mettant en évidence plusieurs caractéristiques comme le consensus entre sources ou la connectivité entre éléments d’un même candidat. Nous posons une deuxième hypothèse : un élément ne doit apparaître que dans un seul candidat pour obtenir une modélisation correcte. Cette hypothèse nous amène à définir la notion d’incompatibilité entre candidats. Nous pouvons considérer alors l’extraction des candidats qui ne partagent pas d’éléments, ce qui permet de faciliter le travail de validation. Pour évaluer nos propositions, nous avons mené trois expérimentations. La première a porté sur le domaine de la classification taxonomique des blés. Cette expérimentation nous a permis d’analyser la qualité des candidats générés avec l’aide de trois experts du domaine. La deuxième expérimentation a porté sur le même domaine et nous a permis de valider le temps gagné par un expert lors de la validation des candidats en considérant les incompatibilités. Pour la dernière expérimentation nous avons utilisé les données d’une campagne d’évaluation de systèmes d’alignements. Nous avons adaptés ces données pour évaluer la génération de candidats et la définition du score de confiance sur un grand jeu de données. Nous proposons une implémentation de cette proposition dans un outil réutilisable et paramétrable : Muskca. Celui-ci permet la fusion multi-sources pour la génération d’une base de connaissances consensuelle. L’application de nos travaux dans le domaine de l’agriculture nous a permis de constituer une base de connaissances sur la taxonomie des plantes. Cette base de connaissances permettra la représentation d’observations des attaques des agresseurs sur les cultures, ainsi que les techniques de traitement des agresseurs. Cette base de connaissances permettra de publier les données disponibles mais aussi d’annoter les nombreux documents mobilisables pour faire évoluer les pratiques agricoles. / The data available on the Web are generally of two kinds: (1) non structured data or semi structured data, which are difficult to exploit automatically; or (2) structured data, dedicated to a specific usage, which are difficult to reuse for a different application. The Linked Open Data is a Semantic Web application facilitating access, share ability and alignment of data. There are many data available on the Web, but these are not always published using the Linked Open Data theory and thus need to be transformed into knowledge bases. An innovative methodology is proposed in this work: one that transforms several sources simultaneously, not sequentially. This methodology merges several data sources oriented by domain design patterns and defines the expected domain representation using the upper part of an ontological module. A process chain enriches this module with elements from the sources: syntactic transformation of the sources, alignment, identification of equivalent elements for the construction of candidates, computation of the candidates’ trust scores and candidate filtering. This work is based on the following hypothesis: if an element appears in several sources then the possibility that it belongs to the studied domain is increased. Several functions were defined in order to compute the consensual trust score of a specific candidate by bringing out such characteristics as the consensus between the sources or the connectivity between the elements within a given candidate. A second hypothesis is put forward: to obtain a valid design, an element must be part of one candidate only. This hypothesis resulted in the definition of the notion of incompatibility between the candidates. The extraction of the candidates that do not share elements can then be considered, which made the experts’ validation task easier. To evaluate the proposals, three experiments were conducted. The first one dealt with the taxonomic classification of wheat. With the assistance of three experts, this experiment made for the analysis of the validation of the generated candidates. The second experiment, still in the same domain, lead to the evaluation of the time an expert saved using the notion of incompatibility during the validation of the candidates. As for the last experiment, the data from an evaluation campaign of alignment systems were used. These data had to be adapted to evaluate the generation of the candidates and the definition of the consensual trust score on a large data set. These three proposals were implemented in a new reusable and configurable tool: Muskca. This tool allows a multi-source fusion for the generation of a consensual knowledge base. This methodology was applied to agriculture, which allowed the creation of a knowledge base on plant taxonomy. The knowledge base will be used to represent the observations of pest attacks on crops along with pest treatment techniques. Not only will this knowledge base help the publication of the available data but it will also allow the annotation of the various documents that will be used, so as to improve agricultural practices.
Identifer | oai:union.ndltd.org:theses.fr/2015TOU20138 |
Date | 18 December 2015 |
Creators | Amarger, Fabien |
Contributors | Toulouse 2, Haemmerlé, Ollivier, Roussey, Catherine |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0021 seconds