Spelling suggestions: "subject:"representationsinlärning""
1 |
Barns lek : - En studie om hur barn i 1-2-års åldern använder sin erfarenhet av styrd lek i den fria leken.Boström, Carina January 2012 (has links)
Barns lek i styrd lek och fri lek är intressant för alla som arbetar med barn eller bara är intresserade av barns utveckling. Leken är de små barnens sätt att upptäcka och utforska sin värld. På förskolan får barn möjlighet till att utveckla alla sina sinnen och med hjälp av pedagoger som fyller på deras lekar får barnen en bra start i sin utveckling. Lek är viktigt. Syftet med undersökningen är att förstå hur barnen lär sig och hur de använder sina erfarenheter. Jag har använt mig av kvalitativ metod med observationer som redskap. Metoden bygger på teori och kunskap som kan utvecklas med hjälp av praktiska forskningsresultat. Med observationer har jag kunnat undersöka barnens utveckling och med kameraögat se deras utveckling som kanske annars aldrig blivit upptäckt. Urvalet var fyra barn i ett och tvåårsåldern. Resultatet visar hur viktig leken är för barnens utveckling och att pedagogernas roll på förskolan är en tillgång för barnens lek. I det insamlade materialet framgår det hur barnen utifrån en styrd lek av pedagogen kan ta leken vidare och undersöka, experimentera vidare för att få fler intryck och erfarenheter. Deras sociala samspel växer med leken om de får en bakgrund till den. I barnens värld pågår hela tiden ett lärande både i sitt eget utforskande men även i samspel med andra barn. Pedagogerna kan stötta och vara lyhörda och hjälpa dem i leken med hjälp av styrd lek och redskap som de själva sedan kan föra vidare i sitt lärande.
|
2 |
Playstyle Generation with Multimodal Generative Adversarial Imitation Learning : Style-reward from Human Demonstration for Playtesting Agents / Spelstilsgenerering med Multimodal Generativ Motståndarimitationsinlärning : Spelstilsbelöning från Demonstrationer för Playtesting-AgenterAhlberg, William January 2023 (has links)
Playtesting plays a crucial role in video game production. The presence of gameplay issues and faulty design choices can be of great detriment to the overall player experience. Machine learning has the potential to be applied to automated playtesting solutions, removing mundane and repetitive testing, and allowing game designers and playtesters to focus their efforts on rewarding tasks. It is important in playtesting to consider the different playstyles players might use to adapt game design choices accordingly. With Reinforcement learning, it is possible to create high quality agents able to play and traverse complex game environments with fairly simple task-rewards. However, an automated playtesting solution must also be able to incorporate unique behaviour which mimic human playstyles. It can often be difficult to handcraft a quantitative style-reward to drive agent learning, especially for those with limited reinforcement learning experience, like game developers. MultiGAIL, Multimodal Generative Adversarial Imitation Learning, is a proposed learning algorithm able to generate autonomous agents imbued with human playstyles from recorded playstyle demonstrations. The proposed method requires no handcrafted style-reward, and can generate novel intermediate playstyles from demonstrated ones. MultiGAIL is evaluated in game environments resembling complex 3D games with both discrete and continuous action spaces. The playstyle the agent exhibits is easily controllable at inference with an auxiliary input parameter. Evaluation shows the agent is able to successfully replicate the underlying playstyles in human demonstrations, and that novel playstyles generate explainable action distributions indicative of the level of blending the auxiliary input declares. The results indicate that MultiGAIL could be a suitable solution to incorporate style behaviours in playtesting autonomous agents, and can be easily be used by those with limited domain knowledge of reinforcement learning. / ”Playtesting” har en viktig roll i TV-spelsutveckling. Fel i spel, såsom buggar och dålig speldesign kan drastiskt försämra spelupplevelsen. Maskininlärning kan användas för att automatisera testandet av spel och därmed ta bort behovet för människor att utföra repetitiva och tråkiga test. Spelutvecklare och speltestare kan då istället inrikta sig på mer nyttiga uppgifter. I playtesting så behöver de diverse spelstilar som spelare kan ha beaktas, så att spelutvecklare har möjligheten att anpassa spelet därefter. Förstärkande inlärning har använts för att skapa högkvalitativa agenter som kan spela och navigera komplexa spelmiljöer genom att definiera relativt simpla belöningsfunktioner. Dock är uppgiften att skapa en belöningsfunktion som formar agenten att följa specifika spelstilar en mycket svårare uppgift. Att anta att de utan förkunskaper inom maskininlärning och förstärkande inlärning, som spelutvecklare, ska kunna skapa sådana belöningsfunktioner är orealistiskt. MultiGAIL, Multimodal Generative Adversarial Imitation Learning", är en maskininlärningsalgoritm som kan generera autonoma agenter som efterföljer spelstilar med hjälp av tillgången till inspelade spelstilsdemonstrationer. Metoden kräver inga hårdkodade stilbelöningar och kan interpolera de spelstilarna funna i demonstrationerna, därav skapa nya beteenden för agenterna. MultiGAIL evalueras i spelmiljöer liknande komplexa 3D spel och kan använda både diskreta och kontinuerliga åtgärdsrum. Den spelstil agenten uppvisar kan enkelt kontrolleras vid inferens av en varierbar parameter. Vår evaluering visar att metoden kan lära agenten att korrekt imitera de spelstilar som definieras av inspelade demonstrationer. Nya spelstilar generade av MultiGAIL har förutsägbara beteenden utefter värdet på den varierande parametern. MultiGAIL kan mycket troligt användas för att skapa playtesting autonoma agenter som beter sig utefter specifika spelstilar utan att behöva definiera en belöningsfunktion.
|
3 |
On the Efficiency of Transfer Learning in a Fighter Pilot Behavior Modelling Context / Effektiviteten av överföringsinlärning vid beteendemodellering av stridspiloterSandström, Viktor January 2021 (has links)
Creating realistic models of human fighter pilot behavior is made possible with recent deep learning techniques. However, these techniques are often highly dependent on large datasets, often unavailable in many settings, or expensive to produce. Transfer learning is an active research field where the idea is to leverage the knowledge gained from studying a problem for which large amounts of training data are more readily available, when considering a different, related problem. The related problem is called the target task and the initial problem is called the source task. Given a successful transfer scenario, a smaller amount of data, or less training, can be required to reach high quality results on the target task. The first part of this thesis focuses on the development of a fighter pilot model using behavior cloning, a method for reducing an imitation learning problem to standard supervised learning. The resulting model, called a policy, is capable of imitating a human pilot controlling a fighter jet in the military combat simulator Virtual BattleSpace 3. In this simulator, the forces acting on the aircraft can be modelled using one of several flight dynamic models (FDMs). In the second part, the efficiency of transfer learning is measured. This is done by replacing the built-in FDM to one with a significant variation in the input response, and subsequently train two policies on successive amount of data. One policy was trained using only the latter FDM, whereas the other policy exploits the gained knowledge from the first part of the thesis, using a technique called fine-tuning. The results indicate that a model already capable of handling one FDM, adapts to a different FDM with less data compared to a previously untrained policy. / Realistiska modeller av mänskligt pilotbeteende kan potentiellt skapas med djupinlärningstekniker. För detta krävs ofta stora datamängder som för många tillämpningar saknas, eller är dyra att ta fram. Överföringsinlärning är ett aktivt forskningsfält där grundidén är att utnyttja redan inlärd kunskap från ett problem där stora mängder träningsdata finns tillgängligt, vid undersökning av ett relaterat problem. Vid lyckad överföringinlärning behövs en mindre mängd data, eller mindre träning, för att uppnå ett önskvärt resultat på denna måluppgift. Första delen av detta examensarbete handlar om utvecklingen av en pilotmodell med hjälp av beteendekloning, en metod som reducerar imitationsinlärning till vanlig övervakad inlärning. Den resulterande pilotmodellen klarar av att imitera en mänsklig pilot som styr ett stridsflygplan i den militära simulatormiljön Virtual BattleSpace 3, där krafterna som verkar på flygplanet modelleras med en enkel inbyggd flygdynamiksmodell. I den andra delen av arbetet utvärderas överföringsförmågan mellan olika flygdynamiksmodeller. Detta gjordes genom att ersätta den inbyggda dynamiken till en dynamik som modellerar ett annat flygplan och som svarar på styrsignaler på ett vida olikartat sätt. Sedan tränades två stridspilotmodeller successivt på ökad mängd data. Den ena pilotmodellen tränas endast med den ena dynamiken varvid den andra pilotmodellen utnyttjar det redan inlärda beteendet från första delen av arbetet, med hjälp av en teknik som kallas finjustering. Resultaten visar att en pilotmodell som redan lärt sig att flyga med en specifik flygdynamik har lättare att lära sig en ny dynamik, jämfört med en pilotmodell som inte förtränats.
|
4 |
Performance Evaluation of Imitation Learning Algorithms with Human ExpertsBåvenstrand, Erik, Berggren, Jakob January 2019 (has links)
The purpose of this thesis was to compare the performance of three different imitation learning algorithms with human experts, with limited expert time. The central question was, ”How should one implement imitation learning in a simulated car racing environment, using human experts, to achieve the best performance when access to the experts is limited?”. We limited the work to only consider the three algorithms Behavior Cloning, DAGGER, and HG-DAGGER and limited the implementation to the car racing simulator TORCS. The agents consisted of the same type of feedforward neural network that utilized sensor data provided by TORCS. Through comparison in the performance of the different algorithms on a different amount of expert time, we can conclude that HGDAGGER performed the best. In this case, performance is regarded as a distance covered given set time. Its performance also seemed to scale well with more expert time, which the others did not. This result confirmed previously published results when comparing these algorithms. / Målet med detta examensarbete var att jämföra prestandan av tre olika algoritmer inom området imitationinlärning med mänskliga experter, där experttiden är begränsad. Arbetets frågeställning var, ”Hur ska man implementera imitationsinlärning i en bilsimulator, för att få bäst prestanda, med mänskliga experter där experttiden är begränsad?”. Vi begränsade arbetet till att endast omfatta de tre algoritmerna, Behavior Cloning, DAGGER och HG-DAGGER, och begränsade implementationsmiljön till bilsimulatorn TORCS. Alla agenterna bestod av samma sorts feedforward neuralt nätverk som använde sig av sensordata från TROCS. Genom jämförelse i prestanda på olika mängder experttid kan vi dra slutsatsen att HG-DAGGER gav bäst resultat. I detta fall motsvarar prestanda körsträcka, givet en viss tid. Dess prestanda verkar även utvecklas väl med ytterligare experttid, vilket de övriga inte gjorde. Detta resultat bekräftar tidigare publicerade resultat om jämförelse av de tre olika algoritmerna.
|
5 |
Imitation Learning on Branching Strategies for Branch and Bound Problems / Imitationsinlärning av Grenstrategier för Branch and Bound-ProblemAxén, Magnus January 2023 (has links)
A new branch of machine and deep learning models has evolved in constrained optimization, specifically in mixed integer programming problems (MIP). These models draw inspiration from earlier solver methods, primarily the heuristic, branch and bound. While utilizing the branch and bound framework, machine and deep learning models enhance either the computational efficiency or performance of the model. This thesis examines how imitating different variable selection strategies of classical MIP solvers behave on a state-of-the-art deep learning model. A recently developed deep learning algorithm is used in this thesis, which represents the branch and bound state as a bipartite graph. This graph serves as the input to a graph network model, which determines the variable in the MIP on which branching occurs. This thesis compares how imitating different classical branching strategies behaves on different algorithm outputs and, most importantly, time span. More specifically, this thesis conducts an empirical study on a MIP known as the facility location problem (FLP) and compares the different methods for imitation. This thesis shows that the deep learning algorithm can outperform the classical methods in terms of time span. More specifically, imitating the branching strategies resulting in small branch and bound trees give rise to a more rapid performance in finding the global optimum. Lastly, it is shown that a smaller embedding size in the network model is preferred for these instances when looking at the trade-off between variable selection and time cost. / En ny typ av maskin och djupinlärningsmodeller har utvecklats inom villkors optimering, specifikt för så kallade blandade heltalsproblem (MIP). Dessa modeller hämtar inspiration från tidigare lösningsmetoder, främst en heuristisk som kallas “branch and bound”. Genom att använda “branch and bound” ramverket förbättrar maskin och djupinlärningsmodeller antingen beräkningshastigheten eller prestandan hos modellen. Denna uppsats undersöker hur imitation av olika strategier för val av variabler från klassiska MIP-algoritmer beter sig på en modern djupinlärningsmodell. I denna uppsats används en nyligen utvecklad djupinlärningsalgoritm som representerar “branch and bound” tillståndet som en bipartit graf. Denna graf används som indata till en “graph network” modell som avgör vilken variabel i MIP-problemet som tas hänsyn till. Uppsatsen jämför hur imitation av olika klassiska “branching” strategier påverkar olika algoritmutgångar, framför allt, tidslängd. Mer specifikt utför denna uppsats en empirisk studie på ett MIP-problem som kallas för “facility location problem” (FLP) och jämför imitationen av de olika metoderna. I denna uppsats visas det att denna djupinlärningsalgoritm kan överträffa de klassiska metoderna när det gäller tidslängd. Mer specifikt ger imitation av “branching” strategier som resulterar i små “branch and bound” träd upphov till en snabbare prestation vid sökning av den globala optimala lösningen. Slutligen visas det att en mindre inbäddningsstorlek i nätverksmodellen föredras i dessa fall när man ser på avvägningen mellan val av variabler och tidskostnad.
|
Page generated in 0.1287 seconds