Similarity analysis of documents is a well studied field. With a focus instead on the opposite concept, how can we try to define and distinguish the differences within documents? This project tries to determine if differences within documents can be detected as well as quantified based on their semantic qualities. We propose a method for quantifying differences by applying tf-idf based models with analysis methods for lemmatization and synonym extraction, together with utility ranking algorithms. The method is implemented and tested. The results show that the method has potential but that further studies are required in order to fully evaluate to what extent it could be of practical use. Such a method could though reap significant benefits within several different fields in which automatic difference detection could replace error prone manual labor in document management, as well as other beneficial purposes such as to provide automatically generated difference summaries. / Likhetsanalys mellan dokument är ett välutforskat område. Med fokus istället på motsatsen, hur kan vi försöka definiera och särskilja skillnaderna mellan dokument? Detta projekt försöker undersöka om skillnader mellan dokument kan detekteras samt kvantifieras baserat på deras semantiska kvalitéer. Vi föreslår en metod för kvantifiering av skillnader genom att applicera tf-idf baserade modeller tillsammans med analysmetoder för lemmatisering och synonymextrahering, i kombination med utilitetsrankningsalgoritmer. Metoden implementeras och testas. Resultaten visar att metoden har potential men att det krävs ytterligare studier för att fullt ut avgöra till vilken grad den skulle kunna vara praktiskt användbar. En sådan metod skulle dock kunna erbjuda stora fördelar för ett flertal olika discipliner, där automatisk skillnadsdetektering skulle kunna ersätta felbenägen manuellt arbete gällande dokumentationshantering, samt också fylla andra förmånliga syften som t.ex. att kunna erbjuda automatgenererade skillnadssammanfattningar.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-219566 |
Date | January 2017 |
Creators | Serra, Andreas |
Publisher | KTH, Skolan för datavetenskap och kommunikation (CSC) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0017 seconds