Return to search

A difference analysis method for detecting differences between similar documents / En differens-analysmetod för att upptäcka skillnader mellan liknande dokument

Similarity analysis of documents is a well studied field. With a focus instead on the opposite concept, how can we try to define and distinguish the differences within documents? This project tries to determine if differences within documents can be detected as well as quantified based on their semantic qualities. We propose a method for quantifying differences by applying tf-idf based models with analysis methods for lemmatization and synonym extraction, together with utility ranking algorithms. The method is implemented and tested. The results show that the method has potential but that further studies are required in order to fully evaluate to what extent it could be of practical use. Such a method could though reap significant benefits within several different fields in which automatic difference detection could replace error prone manual labor in document management, as well as other beneficial purposes such as to provide automatically generated difference summaries. / Likhetsanalys mellan dokument är ett välutforskat område. Med fokus istället på motsatsen, hur kan vi försöka definiera och särskilja skillnaderna mellan dokument? Detta projekt försöker undersöka om skillnader mellan dokument kan detekteras samt kvantifieras baserat på deras semantiska kvalitéer. Vi föreslår en metod för kvantifiering av skillnader genom att applicera tf-idf baserade modeller tillsammans med analysmetoder för lemmatisering och synonymextrahering, i kombination med utilitetsrankningsalgoritmer. Metoden implementeras och testas. Resultaten visar att metoden har potential men att det krävs ytterligare studier för att fullt ut avgöra till vilken grad den skulle kunna vara praktiskt användbar. En sådan metod skulle dock kunna erbjuda stora fördelar för ett flertal olika discipliner, där automatisk skillnadsdetektering skulle kunna ersätta felbenägen manuellt arbete gällande dokumentationshantering, samt också fylla andra förmånliga syften som t.ex. att kunna erbjuda automatgenererade skillnadssammanfattningar.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-219566
Date January 2017
CreatorsSerra, Andreas
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0016 seconds