Background. The awareness of cyber attacks in businesses is increasing with the rising number of cyber incidents for businesses. With nearly 350 000 new malware detected per day, there is a big incentive to allocate resources to company infrastructure to mitigate malware. These solutions require scalability not to become bottlenecks and expensive. Therefore, to combat malware, automated solutions have been developed. The automated solutions comprises isolated virtual environments (sandbox), automated analysis, and reports. As a response from malware developers, malware has evolved to become aware of its environment, which has led to an arms race between malware developers and analysts. Objectives. In this thesis, we study how malware can identify sandbox environments and attempt to find appropriate values for masking system information (features). Methods. First, we research previous techniques to identify sandbox environments and consult with Windows environment experts from Truesec. We found 179 features to examine. Then, we gather a dataset of 2448 non-sandbox samples and 77 sandbox samples with a probing method. We use the statistical test Mann-Whitney U-test to identify features that differ between the dataset's groups. We conduct masking on a dataset level and evaluate it with a method similar to k-fold cross-validation using a random forest classifier. Furthermore, we analyze each feature's ability to detect sandboxes with the feature importance calculated by the Mean Decrease in Impurity (MDI). Results. We found 156 out of 179 features that reveal sandbox environments. Which seven out of those features could independently expose sandboxes, i.e., it was possible to classify all sandboxes and non-sandboxes with only one of them. The masking evaluation indicates that our proposed methods are effective at masking the sandboxes. The results of the feature importance showed that Windows Management Instrumentation (WMI) is an ideal source of information when it comes to exposing sandbox environments. Conclusions. Based on the result, we conclude that various values can expose a sandbox. Furthermore, we conclude that our method to find masking values is adequate and the proposed masking methods successfully masks sandbox samples. Lastly, we conclude that there needs to be a change of focus from evasion techniques to masking implementations in the research field. / Bakgrund. Medvetenheten om cyberattacker i företag ökar med det ökande antalet cyberincidenter mot företag. Med nästan 350 000 nya skadliga program som upptäcks per dag, finns det ett stort incitament att allokera resurser till företagets infrastruktur för att motarbeta denna typ av attack. Dessa lösningar kräver skalbarhet för att inte bli flaskhalsar och dyra. Därför har automatiserade lösningar utvecklats för att bekämpa skadlig programvara. De automatiserade lösningarna omfattar isolerade virtuella miljöer (sandlådor), automatiserad analys och rapporter. Som ett svar från utvecklare av skadlig programvara har skadlig programvara utvecklats till att bli medveten om sin miljö, vilket har lett till en kapprustning mellan utvecklare av skadlig programvara och analytiker. Syfte. I den här artikeln studerar vi hur skadlig programvara kan identifiera sandlådemiljöer och försöka hitta lämpliga värden för att maskera systeminformation (parametrar). Metod. Först undersöker vi tidigare tekniker för att identifiera sandlådemiljöer och rådgör med Windows-miljöexperter från Truesec. Vi hittade 179 parametrar att undersöka. Sedan samlar vi en datauppsättning med 2448 icke-sandlådeprover och 77 sandlådeprover med en sonderingsmetod. Vi använder det statistiska testet Mann-Whitney U-test för att identifiera parametrar som skiljer sig åt mellan datamängdens grupper. Vi utför maskering på datauppsättningsnivå och utvärderar den med en metod som liknar k-faldig korsvalidering med hjälp av en random forest klassificerare. Vidare analyserar vi hur viktig varje parameter är för klassificeraren för att utvärdera parametrarnas förmåga att avslöja sandlådor. Resultat. Vi hittade 156 av 179 parametrar som avslöjar sandlådemiljöer. Vilka sju av dessa parametrar kunde oberoende avslöja sandlådor, det vill säga det var möjligt att klassificera alla sandlådor och icke-sandlådor med endast en av dem. Maskeringsutvärderingen indikerar att våra föreslagna metoder är effektiva för att maskera sandlådorna. Resultaten av viktigheten för parametrarna visade att Windows Management Instrumentation (WMI) är en ideal informationskälla när det gäller att exponera sandlådemiljöer. Slutsatser. Baserat på resultatet drar vi slutsatsen att olika värden kan exponera en sandlåda. Dessutom drar vi slutsatsen att vår metod för att hitta maskeringsvärden är adekvat och de föreslagna maskeringsmetoderna maskerar framgångsrikt sandlådeprover. Slutligen drar vi slutsatsen att det måste ske en förändring av fokus från undanflyktstekniker till maskeringsimplementeringar inom forskningsfältet.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:bth-23025 |
Date | January 2022 |
Creators | Ljungberg, Alexander, Smedberg, Simon |
Publisher | Blekinge Tekniska Högskola, Institutionen för datavetenskap |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0031 seconds