1 |
MetaNet: A Meta Learning Model for Automated Penetration Testing of Networked Systems : Application of Meta Learning Ideas on Penetration Testing ProblemsFu, Chang January 2024 (has links)
With the development of networked systems, vulnerabilities underlying a network have kept increasing in recent years, and cyber security has become an essential part when building such networks. One of the most popular methods of evaluating the security of a network is penetration testing. However, we have seen a shortage of experts in the penetration testing field due to its complexity and the training cost. One way to alleviate this problem is automated penetration testing, which automates the penetration test process using algorithms, including the Attack Graph model, Partially Observable Markov Decision Process (POMDP) method. In this thesis, we demonstrates the application of reinforcement learning algorithms on penetration testing problems and shows the potential application of meta-learning methods on such problems to boost the generalization ability of reinforcement learning algorithms. We first test the performance of Advantage Actor Critic (A2C) and Double Deep Q-Network (DDQN) on different static networks and compare their convergence speed, stability and total rewards achieved. Then we incorporate meta-learning ideas into reinforcement learning algorithms and propose a new model named MetaNet. Our results show that reinforcement learning algorithms are capable of solving penetration testing problems with little prior knowledge, and by using meta-learning methods, MetaNet shows a great improvement in generalization ability. To conduct our experiments, we first create a test environment, which is a structured network mimicking actual communication networks in real-world. Each network is composed of several hosts, and each host contains several services that can be compromised. Then we apply A2C and DDQN on these networks. The algorithms start from a certain host and try to compromise the target host. Our results show that both A2C and DDQN are capable to compromise the target host and achieve positive rewards under most circumstances. To increase the generalization ability of these algorithms, we propose MetaNet, where we add additional inputs to the model, wrap the model with Long Short-Term Memory (LSTM) and train the model on different networks at once. Our results show that MetaNet not only keeps high winning ratios on networks that it is trained on but also performs better than the vanilla algorithms on other unseen networks. / I och med utvecklingen av nätverkssystem har sårbarheterna i ett nätverk ökat under de senaste åren, och cybersäkerhet har blivit en viktig del när man bygger sådana nätverk. En av de mest populära metoderna för att utvärdera säkerheten i ett nätverk är penetrationstestning. Vi har dock sett en brist på experter inom penetrationstestområdet på grund av dess komplexitet och utbildningskostnaden. Ett sätt att lindra detta problem är automatiserad penetrationstestning, som automatiserar penetrationstestprocessen med hjälp av algoritmer, inklusive Attack Graph-modellen, POMDP-metoden. Denna avhandling demonstrerar tillämpningen av förstärkningsinlärningsalgoritmer på problem med penetrationstestning och visar den potentiella tillämpningen av meta-inlärningsmetoder på sådana problem för att öka generaliseringsförmågan hos förstärkningsinlärningsalgoritmer. Vi testar först prestandan hos A2C och DDQN på olika statiska nätverk och jämför deras konvergenshastighet, stabilitet och totala uppnådda belöningar. Sedan införlivar vi meta-lärande idéer i förstärkningsinlärningsalgoritmer och föreslår en ny modell som heter MetaNet. Våra resultat visar att förstärkningsinlärningsalgoritmer kan lösa penetrationstestningsproblem med få förkunskaper, och genom att använda meta-inlärningsmetoder visar MetaNet en stor förbättring av generaliseringsförmågan. För att genomföra våra experiment skapar vi först en testmiljö, som är ett strukturerat nätverk som efterliknar faktiska kommunikationsnätverk i verkligheten. Varje nätverk består av flera värdar, och varje värd innehåller flera tjänster som kan äventyras. Sedan tillämpar vi A2C och DDQN på dessa nätverk. Algoritmerna utgår från en viss värd och försöker äventyra målvärden. Våra resultat visar att både A2C och DDQN är kapabla att äventyra målvärden och uppnå positiva belöningar under de flesta omständigheter. För att öka generaliseringsförmågan hos dessa algoritmer föreslår vi MetaNet, där vi lägger till ytterligare input till modellen, slår in modellen med LSTM och tränar modellen på olika nätverk samtidigt. Våra resultat visar att MetaNet inte bara håller höga vinstkvoter på nätverk som det är tränade på utan också presterar bättre än vaniljalgoritmerna på andra osynliga nätverk.
|
2 |
Strojové učení ve strategických hrách / Machine Learning in Strategic GamesVlček, Michael January 2018 (has links)
Machine learning is spearheading progress for the field of artificial intelligence in terms of providing competition in strategy games to a human opponent, be it in a game of chess, Go or poker. A field of machine learning, which shows the most promising results in playing strategy games, is reinforcement learning. The next milestone for the current research lies in a computer game Starcraft II, which outgrows the previous ones in terms of complexity, and represents a potential new breakthrough in this field. The paper focuses on analysis of the problem, and suggests a solution incorporating a reinforcement learning algorithm A2C and hyperparameter optimization implementation PBT, which could mean a step forward for the current progress.
|
Page generated in 0.0219 seconds