En kunskapsgraf lagrar information från webben i form av relationer mellan olika entiteter. En kunskapsgrafs kvalité bestäms av hur komplett den är och dess noggrannhet. Dessvärre har många nuvarande kunskapsgrafer brister i form av saknad fakta och inkorrekt information. Nuvarande lösningar av länkförutsägelser mellan entiteter har problem med skalbarhet och hög arbetskostnad. Denna uppsats föreslår ett deklarativt regelbaserat probabilistiskt ramverk för att utföra länkförutsägelse. Systemet involverar en regelutvinnande modell till ett “hinge-loss Markov random fields” för att föreslå länkar. Vidare utvecklades tre strategier för regeloptimering för att förbättra reglernas kvalité. Jämfört med tidigare lösningar så bidrar detta arbete till att drastiskt reducera arbetskostnader och en mer spårbar modell. Varje metod har utvärderas med precision och F-värde på NELL och Freebase15k. Det visar sig att strategin för regeloptimering presterade bäst. MAP-uppskattningen för den bästa modellen på NELL är 0.754, vilket är bättre än en nuvarande spjutspetsteknologi graphical model(0.306). F-värdet för den bästa modellen på Freebase15k är 0.709. / The knowledge graph stores factual information from the web in form of relationships between entities. The quality of a knowledge graph is determined by its completeness and accuracy. However, most current knowledge graphs often miss facts or have incorrect information. Current link prediction solutions have problems of scalability and high labor costs. This thesis proposed a declarative rule-based probabilistic framework to perform link prediction. The system incorporates a rule-mining model into a hingeloss Markov random fields to infer links. Moreover, three rule optimization strategies were developed to improve the quality of rules. Compared with previous solutions, this work dramatically reduces manual costs and provides a more tractable model. Each proposed method has been evaluated with Average Precision or F-score on NELL and Freebase15k. It turns out that the rule optimization strategy performs the best. The MAP of the best model on NELL is 0.754, better than a state-of-the-art graphical model (0.306). The F-score of the best model on Freebase15k is 0.709.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-210650 |
Date | January 2017 |
Creators | Gao, Xiaoxu |
Publisher | KTH, Skolan för informations- och kommunikationsteknik (ICT) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-ICT-EX ; 2017:101 |
Page generated in 0.0026 seconds