This work presents a first venture into the search for features that define the rhetorical strategy known as Rogerian rhetoric. Rogerian rhetoric is a conflictsolving rhetorical strategy intended to find common ground instead of polarizing debates further by presenting strong arguments and counter arguments, as is often done in debates. The goal of the thesis is to lay the groundwork, a feature exploration and an evaluation of machine learning in this domain, for others tempted to model consensus-mediating arguments. In order to evaluate different sets of features statistical testing is applied to test if the distribution of certain features differ over consensus-mediating comments compared to nonconsensus mediating comments. Machine Learning in this domain is evaluated using support vector machines and different featuresets. The results show that on this data the consensus-mediating comments do have some characteristics that differ from other comments, some of which may generalize across debates. Next, as consensus-mediating arguments proved to be rare, these comments are a minority class, and in order to classify them using machine learning techniques overfitting needs to be addressed, the results suggest that the strategy applied to deal with overfitting is highly important. Due to the bias inherent in the hand annotated dataset the results should be considered provisional, more studies using debates from more domains with either expert or crowdsourced annotations are necessary to take the research further and produce results that generalize well. / Detta arbete presenterar en första resa in i eftersökningen för egenskaper som definierar den retoriska strategin kallat Rogerian Rhetoric. Rogerian Rhetoric är en konfliktlösande retorikstrategi skapat för att hitta en gemensam grund, istället för att polarisera debatten ytterligare genom att presentera starka och motstridiga argument, som det ofta görs. Målet med denna uppsats är att skapa det underliggande jobbet, en egenskapsundersökning och en evaluering av maskininlärning i denna domän, för andra som tänker att modellera konsensusförmedlade kommentarer. For at kunna evaluera olika sätt av egenskaper används statistiska tester. För att kunna testa om bestämda egenskaper varierar i konsensusförmedlade kommentarer sammanhållit med icke-konsensus förmedlade kommentarer. Maskininlärning i denna domän är evaluerat genom användning av support vector machine och olika egenskapssätt. Resultatet visar att på det använda datasätt har de konsensusförmedlade kommentarerna några karakteristika som skiljer sig från andra kommentarer, några av dom generaliserar på tvärs av debatter. Eftersom konsensusförmedlade kommentarer är sällsynta, är dissa kommentar en minority class och för att kunna klassificera genom användande av maskininlärningstekniker måste overfitting hanteras, resultatet visar att vilken strategi som man använder till overfitting är av högsta betydning. Grundet biasen som uppstår i det manuellt-kategoriserat datasätt skal resultatet anses för att provisorisk, behöves fler studier på debatter inom andra domänen göras, äntligen med expert eller crowdsourced kategoriseringar för att ta forskningen till nästa steg och producera resultat som sen kan används brett.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-227858 |
Date | January 2017 |
Creators | Kaas Johansen, Andreas |
Publisher | KTH, Skolan för informations- och kommunikationsteknik (ICT) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-ICT-EX ; 2017:188 |
Page generated in 0.0027 seconds