Return to search

A Deep Learning approach to Analysing Multimodal User Feedback during Adaptive Robot-Human Presentations : A comparative study of state-of-the-art Deep Learning architectures against high performing Machine Learning approaches / En djupinlärningsmetod för att analysera multimodal användarfeedback under adaptiva presentationer från robotar till människor : En jämförande studie av toppmoderna djupinlärningsarkitekturer mot högpresterande maskininlärningsmetoder

When two human beings engage in a conversation, feedback is generally present since it helps in modulating and guiding the conversation for the involved parties. When a robotic agent engages in a conversation with a human, the robot is not capable of understanding the feedback given by the human as other humans would. In this thesis, we model human feedback as a Multivariate Time Series to be classified as positive, negative or neutral. We explore state-of-the-art Deep Learning architectures such as InceptionTime, a Convolutional Neural Network approach, and the Time Series Encoder, a Transformer approach. We demonstrate state-of-the art performance in accuracy, loss and f1-score of such models and improved performance in all metrics when compared to best performing approaches in previous studies such as the Random Forest Classifier. While InceptionTime and the Time Series Encoder reach an accuracy of 85.09% and 84.06% respectively, the Random Forest Classifier stays back with an accuracy of 81.99%. Moreover, InceptionTime reaches an f1-score of 85.07%, the Time Series Encoder of 83.27% and the Random Forest Classifier of 77.61%. In addition to this, we study the data classified by both Deep Learning approaches to outline relevant, redundant and trivial human feedback signals over the whole dataset as well as for the positive, negative and neutral cases. / När två människor konverserar, är feedback (återmatning) en del av samtalet eftersom det hjälper till att styra och leda samtalet för de samtalande parterna. När en robot-agent samtalar med en människa, kan den inte förstå denna feedback på samma sätt som en människa skulle kunna. I den här avhandlingen modelleras människans feedback som en flervariabeltidsserie (Multivariate Time Series) som klassificeras som positiv, negativ eller neutral. Vi utforskar toppmoderna djupinlärningsarkitekturer som InceptionTime, en CNN-metod och Time Series Encoder, som är en Transformer-metod. Vi uppnår hög noggrannhet, F1 och lägre värden på förlustfunktionen jämfört med tidigare högst presterande metoder, som Random Forest-metoder. InceptionTime och Time Series Encoder uppnår en noggrannhet på 85,09% respektive 84,06%, men Random Forest-klassificeraren uppnår endast 81,99%. Dessutom uppnår InceptionTime ett F1 på 85,07%, Time Series Encoder 83,27%, och Random Forest-klassificeraren 77,61. Utöver detta studerar vi data som har klassificerats av båda djupinlärningsmetoderna för att hitta relevanta, redundanta och enklare mänskliga feedback-signaler över hela datamängden, samt för positiva, negativa och neutrala datapunkter.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-333922
Date January 2023
CreatorsFraile Rodríguez, Manuel
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:393

Page generated in 0.002 seconds