Global ETD Search

1	A Deep Learning approach to Analysing Multimodal User Feedback during Adaptive Robot-Human Presentations : A comparative study of state-of-the-art Deep Learning architectures against high performing Machine Learning approaches / En djupinlärningsmetod för att analysera multimodal användarfeedback under adaptiva presentationer från robotar till människor : En jämförande studie av toppmoderna djupinlärningsarkitekturer mot högpresterande maskininlärningsmetoder Fraile Rodríguez, Manuel January 2023 (has links) When two human beings engage in a conversation, feedback is generally present since it helps in modulating and guiding the conversation for the involved parties. When a robotic agent engages in a conversation with a human, the robot is not capable of understanding the feedback given by the human as other humans would. In this thesis, we model human feedback as a Multivariate Time Series to be classified as positive, negative or neutral. We explore state-of-the-art Deep Learning architectures such as InceptionTime, a Convolutional Neural Network approach, and the Time Series Encoder, a Transformer approach. We demonstrate state-of-the art performance in accuracy, loss and f1-score of such models and improved performance in all metrics when compared to best performing approaches in previous studies such as the Random Forest Classifier. While InceptionTime and the Time Series Encoder reach an accuracy of 85.09% and 84.06% respectively, the Random Forest Classifier stays back with an accuracy of 81.99%. Moreover, InceptionTime reaches an f1-score of 85.07%, the Time Series Encoder of 83.27% and the Random Forest Classifier of 77.61%. In addition to this, we study the data classified by both Deep Learning approaches to outline relevant, redundant and trivial human feedback signals over the whole dataset as well as for the positive, negative and neutral cases. / När två människor konverserar, är feedback (återmatning) en del av samtalet eftersom det hjälper till att styra och leda samtalet för de samtalande parterna. När en robot-agent samtalar med en människa, kan den inte förstå denna feedback på samma sätt som en människa skulle kunna. I den här avhandlingen modelleras människans feedback som en flervariabeltidsserie (Multivariate Time Series) som klassificeras som positiv, negativ eller neutral. Vi utforskar toppmoderna djupinlärningsarkitekturer som InceptionTime, en CNN-metod och Time Series Encoder, som är en Transformer-metod. Vi uppnår hög noggrannhet, F1 och lägre värden på förlustfunktionen jämfört med tidigare högst presterande metoder, som Random Forest-metoder. InceptionTime och Time Series Encoder uppnår en noggrannhet på 85,09% respektive 84,06%, men Random Forest-klassificeraren uppnår endast 81,99%. Dessutom uppnår InceptionTime ett F1 på 85,07%, Time Series Encoder 83,27%, och Random Forest-klassificeraren 77,61. Utöver detta studerar vi data som har klassificerats av båda djupinlärningsmetoderna för att hitta relevanta, redundanta och enklare mänskliga feedback-signaler över hela datamängden, samt för positiva, negativa och neutrala datapunkter. Human Feedback Deep Learning Convolutional Neural Networks Transformers Mänsklig återmatning mänsklig feedback djupinlärning CNN transformer Computer and Information Sciences Data- och informationsvetenskap
2	Fine-tuning a LLM using Reinforcement Learning from Human Feedback for a Therapy Chatbot Application / Finjustering av en LLM med hjälp av förstärkande inlärning från mänsklig återkoppling (eng. RLHF) för en Psykolog-chatbot applikation Bill, Desirée, Eriksson, Theodor January 2023 (has links) The field of AI and machine learning has seen exponential growth in the last decade and even more so in the recent year with the considerable public interest in Large Language models (LLMs) such as chat-GPT. LLMs can be used for several purposes, but one possible application would be fine-tuning a model to perform a particular function in a specific field. The goal is therefore fine-tuning a LLM in the field of psychology using a new method called Reinforcement Learning from Human Feedback to determine if it is a viable method in such cases. The theory behind LLMs and RLHF as well as the ethical perspective on developing a psychological AI is presented. Previous studies on both RLHF and AI in psychology are presented, showing the goal is feasible. Then the method is explained for both training and evaluating the model which is done by comparing a pre-trained model with the fine-tuned one. The study is considered scientifically relevant as RLHF has been used to fine-tune LLMs earlier, but has not been done with the intent to make it more specified in a field. The result did not show any clear difference between the pre-trained and the fine-tuned model therefore, more tests are required. However, with the limitations regarding hardware, time to train, and available data, there is much improvement needed for future studies. An ethical framework applied to a digital psychology assistant is discussed and a suitable introduction to the market and division of responsibilities is proposed. / Området AI och maskininlärning har sett exponentiell tillväxt under det senaste decenniet och ännu mer under det senaste året med det stora allmänintresset för stora språkmodeller som chat-GPT. Stora språkmodeller kan användas till flera saker där en möjlig tillämpning är att finjustera en modell för att fylla en viss funktion inom ett specifikt yrke. Målet med arbetet är därför att finjustera en språkmodell inom området psykologi med hjälp av en ny metod kallad Reinforcement Learning from Human Feedback för att undersöka metodens tillämplighet. Teorin bakom stora språkmodeller och RLHF samt det etiska perspektivet på att utveckla en digital psykologi assistent förklaras. Därefter presenteras tidigare studier om både RLHF och AI inom psykologi som visar att målet är genomförbart. Metoden för att både träna och utvärdera modellen förklaras som görs genom att jämföra den förtränade modellen med den finjusterade. Studien bedöms som vetenskapligt relevant även fast RLHF har använts för att finjustera språkmodeller tidigare, har det inte gjorts med målet att finjustera en språkmodell till ett visst yrke. Resultatet visade inte på någon tydlig skillnad mellan den förtränade och den finjusterade modellen, därför krävs fler tester krävs. Men med de begräsningar som fanns gällande hårdvara, tid att träna och tillgänglig data är det mycket som kan förbättras i framtida studier. Det etiska ramverket applicerat på en digital psykologi assistent diskuteras och en lämplig introduktion till marknaden och ansvarsfördelning föreslås. Ethics Fine-tuning Large Language Models Machine learning Psychology Computer and Information Sciences Data- och informationsvetenskap

Search results

Fine-tuning a LLM using Reinforcement Learning from Human Feedback for a Therapy Chatbot Application / Finjustering av en LLM med hjälp av förstärkande inlärning från mänsklig återkoppling (eng. RLHF) för en Psykolog-chatbot applikation