Return to search

Τεχνικές για την εξαγωγή γνώσης από την πλατφόρμα του Twitter

Η χρήση του Twitter από ολοένα και περισσότερους ανθρώπους έχει ως
συνέπεια την παραγωγή μεγάλου όγκου «υποκειμενικών» δεδομένων. Η ανάγκη για
εξεύρεση τυχόν πολύτιμης κρυμμένης πληροφορίας σε αυτά τα δεδομένα, έδωσε
ώθηση στην ανάπτυξη ενός νέου πεδίου έρευνας, του Sentiment Analysis, που έχει
ως αντικείμενο τον εντοπισμό του συναισθήματος ενός χρήστη (ή μιας ομάδας
χρηστών) ως προς κάποιο θέμα. Οι παραδοσιακοί αλγόριθμοι και μέθοδοι
εντοπισμού συναισθήματος στηρίζονται στην λεκτική ανάλυση φράσεων ή
προτάσεων σε «επίσημα» κείμενα και καλούνται word based approaches. Ωστόσο,
το μικρό μέγεθος των κειμένων του Twitter, σε συνδυασμό με την χαλαρότητα της
χρησιμοποιούμενης γλώσσας (από πλευράς χρηστών), δεν επιτρέπει την
αποτελεσματική χρήση αυτών των τεχνικών. Για τον λόγο αυτό, προτιμάται η χρήση
τεχνικών που βασίζονται σε χαρακτήρες (αντί για λέξεις) και καλούνται character
based approaches.
Στόχος της διπλωματικής εργασίας είναι η εφαρμογή της character based
μεθόδου στην ανάλυση tweets πολιτικού περιεχομένου. Συγκεκριμένα,
χρησιμοποιήθηκαν δεδομένα από την πολιτική σκηνή των Η.Π.Α., με σκοπό να
εντοπιστεί η προτίμηση ενός χρήστη ως προς το Ρεπουμπλικανικό ή το Δημοκρατικό
κόμμα μέσω σχετικών tweets. Για την ανάλυση χρησιμοποιήθηκε επιβλεπόμενη
μάθηση με την βοήθεια του Naive Bayes ταξινομητή.
Αρχικά, συλλέχθηκε ένα σύνολο από 7904 tweets, προερχόμενα από τους
επίσημους λογαριασμούς Twitter 48 γερουσιαστών. Το σύνολο αυτό χωρίσθηκε σε
δυο επιμέρους σύνολα, το σύνολο εκπαίδευσης και το σύνολο ελέγχου, ελέγχοντας
για κάθε μια από τις δυο μεθόδους ανάλυσης (την word based και character based
μέθοδο) την ακρίβεια της ταξινόμησης. Από τα πειράματα πρόεκυψε πως η
character based μέθοδος ταξινομεί τα tweets με μεγαλύτερη ακρίβεια. Στην
συνέχεια συλλέξαμε δυο νέα σύνολα έλεγχου, ένα από τον επίσημο λογαριασμό
Twitter του Ρεπουμπλικανικού κόμματος και ένα από τον επίσημο λογαριασμό
Twitter του Δημοκρατικού κόμματος. Αυτή την φορά, ως σύνολο εκπαίδευσης
χρησιμοποιήθηκε ολόκληρο το αρχικό σύνολο από τα tweets των γερουσιαστών και
ελέγχθηκε η ακρίβεια ταξινόμησης για την character based μέθοδο στα δυο νέα
σύνολα ελέγχου. Αν και στην περίπτωση του Democratic Twitter account τα
αποτελέσματα μπορούν να χαρακτηριστούν ως «ικανοποιητικά», μιας και η
ακρίβεια της ταξινόμησης πλησίασε το 80%, για την περίπτωση του Republican
Twitter account κάτι τέτοιο δεν ισχύει. Για το λόγο αυτό, προχωρήσαμε σε μια πιο
διεξοδική μελέτη της δομής και του περιεχομένου αυτών tweets. Από την ανάλυση
προέκυψαν ορισμένα ενδιαφέροντα αποτελέσματα για την προέλευση των
χαμηλών ποσοστών στην ακρίβεια ταξινόμησης. Συγκεκριμένα, πρόεκυψε πως στην
πλειοψηφία των tweets που έγιναν από τους Ρεπουμπλικάνους γερουσιαστές, δεν
περιέχονταν κάποια προσωπική τους άποψη. Ήταν απλά μια αναφορά σε κάποιο
άρθρο ή video που είδαν στον διαδίκτυο. Άρα, η πλειοψηφία των tweets αυτών
περιέχουν «αντικειμενική» αντί για «υποκειμενική» πληροφορία. Συνεπώς, δεν
είναι δυνατόν να εξαχθούν τα χαρακτηριστικά εκείνα που θα βοηθήσουν στον
εντοπισμό της πολικότητας των χρηστών. / As more people enter the “social web”, social media platforms are becoming an increasingly valuable source of subjective information. The large volume of social media content available requires automatic techniques in order to process and extract any valuable information. This need recently gave rise to the field of Sentiment Analysis, also known as Opinion Mining. The goal of sentiment analysis is to identify the position of a user (or a group of users – a crowd), with respect to a particular issue or topic. Existing sentiment analysis systems aim at extracting patterns mainly from formal documents with respect to a particular language (most techniques concern English). They either search for discriminative series of words or use dictionaries that assess the meaning and sentiment of specific words and phrases. The limited size of Twitter posts in conjunction with the non-standard vocabulary and shortened words (used by its users) inserts a great deal of noise, making word based approaches ineffective. For all of the above reasons, a new approach was recommended in the literature. This new approach is not based on the study of words but rather on the study of consecutive character sequences (namely character-based approaches).
In this work, we demonstrate the superiority of the character based approach over the word based one in determining political sentiment. We argue that this approach can be used in order to efficiently determine the political preference (e.g. Republican or Democrat) of voters or to identify the importance that particular issues have on particular voters. This type of feedback can be useful in the organization of political campaigns or policies.
We created a corpus consisting of 7904 tweets, collected from the Twitter accounts of 48 U.S. senators. This corpus was then separated into two sets, the training set and the test set, in order to measure for each method (word and character based) the accuracy of the classification. From the experiments it was found that the character based method classified the tweets with greater accuracy. In the next test, we used two new test sets, one from the official Twitter account of the Republican Party and one from the official Twitter account of the Democratic Party. The main difference, with respect to the previous test, was the use of the total set of tweets collected from the senators’ Twitter accounts as a training set and the use of the tweets from the official Twitter accounts of each party as a test set. Even though from the official Democrat Twitter account, 80% of the tweets were correctly classified as Democrat, for the official Republican Twitter account this is not the case (56.7% accuracy).
This was found to be partly because the majority of the Republican account tweets were references to online articles or videos and not the personal opinions or views of the users. In other words, such tweets cannot be characterized as personal (subjective), in order to classify the respective user as leaning towards one party or the other, but rather should be considered as objective.

Identiferoai:union.ndltd.org:upatras.gr/oai:nemertes:10889/6386
Date12 October 2013
CreatorsΔήμας, Αναστάσιος
ContributorsΒαρβαρίγος, Εμμανουήλ, Dimas, Anastasios, Βαρβαρίγος, Εμμανουήλ
Source SetsUniversity of Patras
Languagegr
Detected LanguageGreek
TypeThesis
Rights0

Page generated in 0.0027 seconds