Spelling suggestions: "subject:"minnesförstärkta nätverk"" "subject:"minnesförstärkt nätverk""
1 |
Memory and Reasoning in Deep Learning : Data efficiency of the SAM-based Two-memory (STM) Model / Minne och Resonemang i Djupinlärning : Dataeffektivitet av SAM-baserad Tvåminnesmodellen (STM)Perzanowski, Andrzej January 2022 (has links)
Developing Deep Learning models capable of learning to reason and store memories are some of the most important current challenges in AI research. Finding out which network architectures are best suited for tackling this problem can guide research toward the most promising approaches. The bAbI challenge is a popular benchmark dataset composed of different Question Answering tasks each designed to test specific memory and reasoning abilities fundamental for text comprehension. A model well adapted to learning reasoning should be able to efficiently extract relevant knowledge from small amount of training data and generalise from it to achieve good performance, referred to as the model being data efficient. Memory-augmented networks are one of the most successful kinds of neural network architecture at the bAbI challenge and the SAM-based Two-memory (STM) model uses this architectural approach. This thesis compares STM model performance on the version of the bAbI challenge with little training data (bAbI 1k) to the best performing memory-augmented model on this challenge, the MemN2N model. The aim is to find out which memory-augmented architecture approach is more data efficient at bAbI. STM model performance is compared to two variants of the MemN2N model: MemN2N basic and its enhanced version MemN2N LS-RN. STM and MemN2N basic are found to have similar overall performance while the MemN2N LS-RN model is found to outperform them both, meaning it is more data efficient at bAbI. Differences in performance between models on several individual bAbI tasks are found, with a few being significant. STM is found to perform significantly worse at tasks involving temporal relation and time dependency reasoning than both MemN2N models. MemN2N LS-RN is also found to vastly outperform both STM and MemN2N basic at basic induction. Lastly, all models are found to perform poorly at complex spatial reasoning tasks. / En av de viktigaste aktuella utmaningarna inom AI-forskning är att utveckla och studera Djupinlärning-modeller som kan lära sig att resonera och lagra minnen. Att ta reda på vilka nätverksarkitekturer är bäst lämpade för att hantera detta problem kan leda forskningen fram mot de mest lovande lösningarna. bAbI-utmaningen är en populär benchmark-datauppsättning sammansatt av olika fråga och svarsuppgifter, var och designad för att testa specifika minnes- och resonemangsförmågor grundläggande för textförståelse. En modell väl anpassad för att lära sig resonemang bör kunna effektivt utvinna relevant kunskap från små mängder träningsdata och generalisera från det för att uppnå bra prestanda. En sådan modell kallas dataeffektiv. Minnesförstärkta nätverk är en av de mest framgångsrika typerna av neurala nätverksarkitektur er vid bAbI-utmaningen och den SAM-baserade Tvåminnesmodellen (STM) använder denna arkitektoniska lösning. Denna avhandling jämför STM-modellens prestanda på versionen av bAbI-utmaningen med liten mängd träningsdata (bAbI 1k) med den bäst presterande minnesförstärkta modellen på denna utmaning, MemN2N-modellen. Syftet är att ta reda på vilken minnesförstärkt arkitektur är mer dataeffektiv för bAbI. STM-modellens prestanda jämförs med två varianter av MemN2N-modellen: MemN2N basic och dess förbättrade version MemN2N LS-RN. STM och MemN2N basic har visat sig ha liknande övergripande prestanda, medan MemN2N LS-RN modellen visar sig överträffa dem båda, vilket betyder att den är mer dataeffektiv vid bAbI. Skillnader i prestanda mellan modeller på flera individuella bAbI uppgifter finns, och några få av dem är betydande. STM visar sig prestera betydligt sämre vid uppgifter som involverar tidsrelativa och tidsberoende resonemang än båda MemN2N modeller. MemN2N LS-RN visar sig också överträffa både STM och MemN2N basic vid grundläggande induktion. Slutligen har alla modeller visat sig prestera dåligt vid komplexa spatiala resonemangsuppgifter.
|
Page generated in 0.0756 seconds