Under de senaste åren fick maskininlärning mer och mer popularitet i samhället. Den implementeras i stor utsträckning inom många datavetenskapliga områden, t.ex. igenkänning av tal, video, objekt, sentimentanalys osv. Dessutom genererar moderna datorsystem och program stora filer med loggdata under deras körning och användning. Dessa loggfiler innehåller vanligtvis enorma mängder data, vilket leder till svårigheter att bearbeta all data manuellt. Således är användning av maskininlärningstekniker vid analys av loggdata för detektering av anomalibeteende av stort intresse för att uppnå skalbar underhåll av systemen. Syftet med detta arbete var att undersöka tillgängliga framträdande metoder för att implementera maskininlärning för upptäckning av loggfel och utvärdera en av dessa metoder. Uppsatsen fokuserade på att utvärdera DeepLog artificiella neurala nätverk som innehåller Long short-term memory algoritm. Utvärderingen omfattade mätning av den exekveringstid som behövdes och vilken precision, återkallande, noggrannhet och F1-index uppnåddes med modellen för maskininlärningsfelsdetektering vid användning av två olika loggdatamängder, en från OpenStack och en annan från Hadoop Distributed File System. Resultaten visade att DeepLog presterade bättre när man använde OpenStack-datamängd genom att uppnå höga resultat för alla index, särskilt recallsindex på cirka 90% som minimerade falska negativa förutsägelser, vilket är viktigt vid loggfelsdetektering. När DeepLog användes med HDFS-datamängd förbättrades körningstiden något men noggrannheten och recall av modellen tappades. Framtida arbete inkluderar att försöka och testa modellen med andra loggdatamängder eller andra ML-modeller för upptäckning av loggfel. / During the last years machine learning was gaining more and more popularity in the society. It is widely implemented in many fields of computer science, e.g. recognition of speech, video, objects, sentiment analysis, etc. Additionally, modern computer systems and programs generate large files with log data through their execution. These log files contain usually immense amount of data, which is a struggle for processing it manually. Thus, using machine learning techniques in the analysis of log data for detection of anomaly behavior is of a high interest for achieving scalable maintaining of the systems. The purpose of this work was to look into available prominent approaches of implementing machine learning for log fault detection and evaluate one of them. The paper focused on evaluating DeepLog artificial neural network that incorporates Long short-term memory. The evaluation included measuring the execution time needed and what precision, recall, accuracy and F1-index were achieved by the machine learning fault detection model when using two different log datasets, one from OpenStack and another from Hadoop Distributed File System. The results showed that DeepLog performed better when using OpenStack dataset by achieving high results for all indexes, especially the recall index of around 90%, minimizing the false negative predictions, which is important in the log fault detection. When using DeepLog with HDFS dataset the execution time was slightly improved but the accuracy and recall of the model were dropped. Future works includes trying another log datasets or ML models for log fault detection.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-42441 |
Date | January 2021 |
Creators | Tenov, Rosen Nikolaev |
Publisher | Mittuniversitetet, Institutionen för informationssystem och –teknologi |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0027 seconds