Le développement rapide des techniques d’extraction d’information a permis de construire de vastes bases de connaissances généralistes. Ces bases de connaissances contiennent des millions de faits portant sur des entités du monde réel, comme des personnes, des lieux, ou des organisations. Ces faits sont accessibles aux ordinateurs, et leur permettent ainsi de “comprendre” le monde réel. Ces bases trouvent donc de nombreuses applications, notamment pour la recherche d’information, le traitement de requêtes, et le raisonnement automatique. Les nombreuses informations contenues dans les bases de connaissances peuvent également être utilisées pour découvrir des motifs intéressants et fréquents dans les données. Cette tâche, l’extraction de règles d’association, permet de comprendre la structure des données ; les règles ainsi obtenues peuvent être employées pour l’analyse de données, la prédiction, et la maintenance de données, entre autres applications. Cette thèse présente deux contributions principales. En premier lieu, nous proposons une nouvelle méthode pour l’extraction de règles d’association dans les bases de connaissances. Cette méthode s’appuie sur un modèle d’extraction qui convient particulièrement aux bases de connaissances potentiellement incomplètes, comme celles qui sont extraites à partir des données du Web. En second lieu, nous montrons que l’extraction de règles peut être utilisée sur les bases de connaissances pour effectuer de nombreuses tâches orientées vers les données. Nous étudions notamment la prédiction de faits, l’alignement de schémas, la mise en forme canonique de bases de connaissances ouvertes, et la prédiction d’annotations de complétude. / The continuous progress of information extraction (IE) techniques has led to the construction of large general-purpose knowledge bases (KBs). These KBs contain millions of computer-readable facts about real-world entities such as people, organizations and places. KBs are important nowadays because they allow computers to “understand” the real world. They are used in multiple applications in Information Retrieval, Query Answering and Automatic Reasoning, among other fields. Furthermore, the plethora of information available in today’s KBs allows for the discovery of frequent patterns in the data, a task known as rule mining. Such patterns or rules convey useful insights about the data. These rules can be used in several applications ranging from data analytics and prediction to data maintenance tasks. The contribution of this thesis is twofold : First, it proposes a method to mine rules on KBs. The method relies on a mining model tailored for potentially incomplete webextracted KBs. Second, the thesis shows the applicability of rule mining in several data-oriented tasks in KBs, namely facts prediction, schema alignment, canonicalization of (open) KBs and prediction of completeness.
Identifer | oai:union.ndltd.org:theses.fr/2016ENST0050 |
Date | 29 September 2016 |
Creators | Galarraga Del Prado, Luis |
Contributors | Paris, ENST, Suchanek, Fabian |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English, French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds