Global ETD Search

Return to search

Safe Reinforcement Learning for Social Human-Robot Interaction : Shielding for Appropriate Backchanneling Behavior / Säker förstärkningsinlärning för social människa-robotinteraktion : Avskärmning för lämplig uppbackningsbeteende

Achieving appropriate and natural backchanneling behavior in social robots remains a challenge in Human-Robot Interaction (HRI). This thesis addresses this issue by utilizing methods from Safe Reinforcement Learning in particular shielding to improve social robot backchanneling behavior. The aim of the study is to develop and implement a safety shield that guarantees appropriate backchanneling. In order to achieve that, a Recurrent Neural Network (RNN) is trained on a human-human conversational dataset. Two agents are built; one uses a random algorithm to backchannel and another uses shields on top of its algorithm. The two agents are tested using a recorded human audio, and later evaluated in a between-subject user study with 41 participants. The results did not show any statistical significance between the two conditions, for the chosen significance level of α < 0.05. However, we observe that the agent with shield had a better listening behavior, more appropriate backchanneling behavior and missed less backchanneling opportunities than the agent without shields. This could indicate that shields have a positive impact on the robot’s behavior. We discuss potential explanations for why we did not obtain statistical significance and shed light on the potential for further exploration. / Att uppnå lämpligt och naturligt upbbackningsbeteende i sociala robotar är fortfarande en utmaning i Människa-Robot Interaktion (MRI). Den här avhandlingen tar upp detta problem genom att använda metoder från säker förstärkningsinlärning i synnerhet avskärmning för att förbättra sociala robotars upbbackningsbeteende. Syftet med studien är att utveckla och implementera en säkerhetsavskärmning som garanterar lämplig upbbackning. För att uppnå det, tränas ett återkommande neuralt nätverk på en människa-människa konversationsdatamängd. Två agenter byggs; en använder en slumpmässig algoritm för att upbbacka och en annan använder avskärmninng ovanpå sin algoritm. De två agenterna testas med hjälp av ett inspelat mänskligt ljud och utvärderas senare i en användarstudie med 41 deltagare. Resultaten visade inte någon statistisk signifikans mellan de två skicken, för den valda signifikansnivån < 0, 05. Vi observerar dock att agenten med avskärmning hade ett bättre lyssningsbeteende, mer lämplig upbbackningsbeteende och missade mindre upbbacknings-möjligheter än agenten utan avskärmning. Detta kan indikera att avskärmning har en positiv inverkan på robotarnas beteende. Vi diskuterar potentiella förklaringar till varför vi inte fick statistisk signifikans och belyser potentialen för ytterligare utforskning.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-337060

Human-Robot Interaction

Backchanneling

Social Robots

Safe Reinforcement Learning

Shielding

Recurrent Neural Network

Gated Recurrent Unit

Människa-Robot Interaktion

Uppbackning

Sociala Robotar

Säker Förstärkningsinlärning

Avskärmning

Återkommande Neurala Nätverk

Gated Återkommande Enhet

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337060
Date	January 2023
Creators	Akif, Mohamed
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2023:638

Page generated in 0.0026 seconds

Safe Reinforcement Learning for Social Human-Robot Interaction : Shielding for Appropriate Backchanneling Behavior / Säker förstärkningsinlärning för social människa-robotinteraktion : Avskärmning för lämplig uppbackningsbeteende

Description

Links & Downloads

Tags

Additional Fields