Spelling suggestions: "subject:"text characteristics"" "subject:"next characteristics""
1 |
Textual Analysis and Detection of AIGenerated Academic Texts : A Study of ChatGPT Output, User Instructions, and Machine-Learning ClassifiersAl Medawer, Adnan January 2023 (has links)
Den här studien utforskar den textmässiga likheten mellan AI-genererade texter av ChatGPT och ursprungliga akademiska texter, jämför prestandan hos AI-detekteringsverktyg och maskininlärningsklassificerare, inklusive SVM, Logistic Regression och Random Forest, vid detektering av AI-genererat innehåll, och undersöker hur användarinstruktioner påverkar textkvaliteten. En rad mätvärden som stilometri, sentiment, textlikhet, läsbarhet och relevans användes för att analysera textegenskaper. Resultaten visar att även om AI-genererade texter uppvisar textegenskaper som originaltexter i viss utsträckning, finns det tydliga skillnader. Maskinlärande klassificerare, tränade på DistilBERT-inbäddningar, uppnådde ett F1 Score på 99 % för SVM och Logistic Regression och 96 % för Random Forest, vilket överträffade prestandan för AI-detektionsverktyget, som fick mellan 64– 83 % i F1 Score. Detaljerade instruktioner till ChatGPT visade sig förbättra likheten med originaltexter och minska effektiviteten hos detektionsverktyg. Denna studie bidrar till förståelsen av AI-genererat innehåll och hjälper till att utveckla mer effektiva identifieringsmetoder. / This study explores the textual resemblance between AI-generated texts by ChatGPT and original academic texts, compares the performance of AI-detection tools and machine-learning classifiers, including SVM, Logistic Regression, and Random Forest, in detecting AI-generated content, and investigates the influence of user instructions on text quality. A range of metrics such as stylometry, sentiment, text similarity, readability, and relevance were utilized to analyze text characteristics. Findings reveal that while AI-generated texts do exhibit textual characteristics like original texts to some extent, there are clear differences. Machine-learning classifiers, trained on DistilBERT embeddings, achieved an F1 score of 99% for SVM and Logistic Regression, and 96% for Random Forest, surpassing the performance of the AI detection tool, which scored between 64-83% in F1 measure. Detailed instructions to ChatGPT were found to improve the resemblance to original texts and reduce the effectiveness of detection tools. This study contributes to the understanding of AI-generated content and aids the development of more efficient identification methods.
|
Page generated in 0.1116 seconds