Network log records are robust evidence for enterprises to make error diagnoses. The current method of Ericsson’s Networks team for troubleshooting is mainly by manual observation. However, as the system is getting vast and complex, the log messages show a growth trend. At this point, it is vital to accurately and quickly discern the root cause of error logs. This thesis proposes models that can address two main problems applying Natural Language Processing methods: manual log root cause classification is progressed to automated classification and Question Answering (QA) system to give root cause directly. Models are validated on Ericsson’s firewall traffic data. Different feature extraction methods and classification models are chosen, with the more effective Term Frequency-Inverse Document Frequency (TF-IDF) method combined with a Random Forest classifier obtaining the F1 score of 0.87 and Bidirectional Encoder Representations from Transformers (BERT) fine-tuned classification obtaining the F1 score of 0.90. The validated QA model also gets good performance in quality assessment. The final results demonstrate that the proposed models can optimize manual analysis. While choosing algorithms, deep learning models such as BERT can produce similar or even better results than Random Forest and Naive Bayes classifiers. However, it is complex to implement the BERT since it requires more resources compared to more straightforward solutions and more caution. / Nätverksloggposter är robusta bevis för företag att göra feldiagnoser. Ericssons nätverksteams nuvarande metod för felsökning är huvudsakligen manuell observation. Men eftersom systemet blir stort och komplext visar loggmeddelandena en tillväxttrend. Vid denna tidpunkt är det viktigt att noggrant och snabbt urskilja grundorsaken till felloggar. Den här avhandlingen föreslår modeller som kan lösa två huvudproblem vid tillämpning av Natural Language Processing-metoder: manuell logggrundorsaksklassificering går vidare till automatiserad klassificering och QA-system (Question Answering) för att ge grundorsaken direkt. Modellerna är validerade på Ericssons brandväggstrafikdata. Olika funktionsextraktionsmetoder och klassificeringsmodeller valdes, med den mer effektiva metoden Term Frequency-Inverse Document Frequency (TF-IDF) kombinerad med en Random Forest-klassificerare som fick ett F1-poäng på 0,87 och Bidirectional Encoder Representations from Transformers (BERT) finjusterade klassificering som erhåller en F1-poäng på 0,90. Den validerade QA-modellen får också bra prestanda vid kvalitetsbedömning. De slutliga resultaten visar att de föreslagna modellerna kan optimera manuell analys. När man väljer algoritmer kan djupinlärningsmodeller som BERT ge liknande eller till och med bättre resultat än Random Forest och Naive Bayes klassificerare. Det är dock komplicerat att implementera BERT eftersom det kräver mer resurser jämfört med enklare lösningar och mer försiktighet.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325737 |
Date | January 2022 |
Creators | Wang, Tongxin |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:935 |
Page generated in 0.0017 seconds