Den här studien utforskar den textmässiga likheten mellan AI-genererade texter av ChatGPT och ursprungliga akademiska texter, jämför prestandan hos AI-detekteringsverktyg och maskininlärningsklassificerare, inklusive SVM, Logistic Regression och Random Forest, vid detektering av AI-genererat innehåll, och undersöker hur användarinstruktioner påverkar textkvaliteten. En rad mätvärden som stilometri, sentiment, textlikhet, läsbarhet och relevans användes för att analysera textegenskaper. Resultaten visar att även om AI-genererade texter uppvisar textegenskaper som originaltexter i viss utsträckning, finns det tydliga skillnader. Maskinlärande klassificerare, tränade på DistilBERT-inbäddningar, uppnådde ett F1 Score på 99 % för SVM och Logistic Regression och 96 % för Random Forest, vilket överträffade prestandan för AI-detektionsverktyget, som fick mellan 64– 83 % i F1 Score. Detaljerade instruktioner till ChatGPT visade sig förbättra likheten med originaltexter och minska effektiviteten hos detektionsverktyg. Denna studie bidrar till förståelsen av AI-genererat innehåll och hjälper till att utveckla mer effektiva identifieringsmetoder. / This study explores the textual resemblance between AI-generated texts by ChatGPT and original academic texts, compares the performance of AI-detection tools and machine-learning classifiers, including SVM, Logistic Regression, and Random Forest, in detecting AI-generated content, and investigates the influence of user instructions on text quality. A range of metrics such as stylometry, sentiment, text similarity, readability, and relevance were utilized to analyze text characteristics. Findings reveal that while AI-generated texts do exhibit textual characteristics like original texts to some extent, there are clear differences. Machine-learning classifiers, trained on DistilBERT embeddings, achieved an F1 score of 99% for SVM and Logistic Regression, and 96% for Random Forest, surpassing the performance of the AI detection tool, which scored between 64-83% in F1 measure. Detailed instructions to ChatGPT were found to improve the resemblance to original texts and reduce the effectiveness of detection tools. This study contributes to the understanding of AI-generated content and aids the development of more efficient identification methods.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-48587 |
Date | January 2023 |
Creators | Al Medawer, Adnan |
Publisher | Mittuniversitetet, Institutionen för data- och elektroteknik (2023-) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0026 seconds