Return to search

Maskininlärning som instrument för att analysera Twitter : En studie kring datahantering på Twitter för tillämpning på riktad marknadsföring

Marketing in social media becomes increasingly more common in today's society thanks to the rapidly expanding digitalization, while the interest and integration of machine learning in everyday products and services has increased. The purpose of this paper is to investigate the possibility of determining the interests of Twitter users from their everyday tweets with the help of machine learning and thus target relevant advertising. To achieve this goal a Bag of Words approach, a supervised machine learning method, was used to collect data from Twitter users using the Python based library Tweepy. The collected data, consisting of the user's most common words was compared to predetermined interest-classified glossaries. All of the selected Twitter users were also given a survey where they would rate their interest areas, which would later be used train the program. The program's and the surveys' results were compared to determine the deviation whereas the program was further enhanced with the training data to achieve an improved precision. The program was enhanced to a sense, with the cosine similarity angles small enough, that it could be considered effective. An analysis of targeted marketing was made to investigate the possibilities of applying machine learning on collected data. This study shows that it is possible, with a cosine similarity less than 45o, to determine the interests of a user using data retrieved from Twitter and suggest how the applied method can be further improved. / Marknadsföring i sociala medier blir i dagens samhälle mer vanligt i samband med den kraftigt växande digitaliseringen, samtidigt som intresset och integrering av maskininlärning i vardagliga produkter och tjänster har ökat. Syftet med detta arbete är att undersöka möjligheten att med hjälp av maskininlärning och data från olika twitteranvändare kunna bestämma dessa användares intressen och därmed kunna rikta relevant reklam. För att uppnå detta syfte tillämpades en Bag of Words-approach, en så kallad övervakad maskininlärningsmetod, där data samlades in från twitteranvändare med hjälp av pythonbaserade biblioteket Tweepy. Den insamlade datan, bestående av användarnas mest använda ord, jämfördes med förbestämda intresseklassificerade ordlistor för att få ut en procentuell överensstämmelse. Samtliga valda twitteranvändare fick även besvara en enkät där de själva fick gradera sina intresseområden vilket senare jämfördes med programmets svar. Programmets och enkätsvarens resultat jämfördes för att kunna bestämma avvikelsen och programmet bearbetades vidare med hjälp av träningsdatan för att uppnå en förbättrad precision. Programmet tränades upp till en gräns där den ansågs vara effektiv då cosinusvinklarna var tillräckligt små. Det utfördes en analys av riktad marknadsföring för att utforska möjligheterna att tillämpa maskininlärning på insamlad data. Denna studie visar att det är möjligt, med en cosinuslikhet mindre än 45o, att med hjälp av inhämtad data från Twitter bestämma en användares intressen och ger förslag på hur den tillämpade metoden kan förbättras vidare.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-223707
Date January 2017
CreatorsRönnbäck, Leo, Strandberg, Dan, Stenberg, Louise
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0179 seconds