Return to search

Methoden des Data-Minings zur Plagiatanalyse studentischer Abschlussarbeiten

Bestehende Ansätze der automatisierten Plagiatanalyse nutzen umfangreiche und pflegeaufwändige Referenzkorpora oder greifen ausschließlich auf die im Untersuchungsobjekt enthaltenen Informationen zurück. Die Nutzung externer Daten führt in der Regel zu besseren Analyseergebnissen (vgl. [Tschuggnall 2014, 8]). In der vorliegenden Arbeit wurde ein extrinsisches Verfahren zur Plagiatanalyse studentischer Abschlussarbeiten entwickelt und evaluiert, welches einen begrenzten Trainingsdatensatz als Referenzkorpus nutzt. Das genannte Verfahren greift hierbei auf die Methoden der Dokumenttypklassifikation und der Stilometrie zurück. Entspricht ein Abschnitt des Eingabedokuments nicht dem durchschnittlichen Schreibstil einer studentischen Abschlussarbeit, so wird dieser als potentielles Plagiat markiert. Anhand verschiedener Evaluationsschritte konnte gezeigt werden, dass das Verfahren prinzipiell für die Plagiatanalyse studentischer Abschlussarbeiten geeignet ist. Im simulierten Anwendungskontext konnten 71,03 % der Segmente aus Bachelor- und Masterarbeiten sowie 53,62 % der Segmente aus Fachbüchern, Fachartikeln und Wikipediaartikeln korrekt eingeordnet werden. Der erreichte F1-Wert entspricht der Performanz intrinsischer Verfahren. Der erzielte Recall-Wert ist hierbei wesentlich höher. Die aus den Trainingskorpora extrahierten features wurden als ARFF-Dateien zur Verfügung gestellt.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:32000
Date24 October 2018
CreatorsMärker, Johann-David
ContributorsBaum, David, Eisenecker, Ulrich, Universität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds