Return to search

Classifying Previous Covid-19 Infection : Advanced Logistic Regression Approach / Klassifiering av tidigare Covid-19 infektion : Avancerad logistisk regressionsmetodik

The study aimed to developed a logistic model based on antibody proteins, vaccinations and demographic factors that predicts previous infection in Covid-19. The data set comprised of 2750 individuals from eldercare homes in Sweden, with four test dates executed between October of 2021 and August of 2022.  Exploratory data analysis revealed bimodal patterns in the antibodies against nucleocapsid protein within the non-infected group, raising suspicions of false negatives in the data. Due to the binary nature of the response and to be interpretable for further research, logistic regressions were used to model the relation between predictors and the logit of the response. Because of low performance scores and high probability for the presence of false negatives, K-means clustering algorithm was performed on the data. As a clustering variable, the logarithm of base 2 of the nucleocapsid protein was used, because of its theoretical relationship with previous infection in Covid-19.  Observations were reclassified using the clustering technique, and two new logistic models were fitted to the data. The final model contained polynomial terms to handle the non-linear relationship between the logit of the response and the predictors. We found a significant relationship between the logarithm of 2 of nucleocapsid protein and previous Covid-19 infection in the final model, with high prediction results. We reached an F1-score of 0.94, indicating a well-performing model.  Additionally, an algorithm was created to predict the days since infection, involving the change in nucleocapsid protein from one test date to the next, and a GAM model for fitting a smooth line to the data between nucleocapsid protein as response against the days since infection. Using this algorithm, we reached an absolute mean error between predicted results and actual days since infection of 23 days. This algorithm was later applied to observations reclassified in the clustering process.  In conclusion, the study successfully reclassified false negative observations with previous Covid-19 infection, and fitted a logistic model with high prediction score with F1-score of 0.94. Finally, an algorithm was created that estimated the days since infection with an absolute mean error of 23 days. / Syftet med studien var att utveckla en logistisk modell baserad på antikroppsproteiner, vaccinationer och demografiska faktorer som förutsäger tidigare infektion i Covid-19. Datamängden bestod av 2750 individer från äldreboenden i Sverige, med fyra testdatum utförda mellan oktober 2021 och augusti 2022.  Utforskande dataanalys visade på bimodala mönster i antikroppar mot nukleokapsidprotein inom den icke- infekterade gruppen, vilket gav upphov till misstankar om falskt negativa resultat i datamaterialet. På grund av svarets binära karaktär och för att vara tolkningsbara för vidare forskning användes logistiska regressioner för att modellera förhållandet mellan prediktorer och responsvariabeln. På grund av låga prediktionsresultat och hög sannolikhet av förekomsten av falskt negativa svar utfördes K-means-klusteralgoritmen på datat. Som klustervariabel användes logaritmen av bas 2 för nukleokapsidproteinet, på grund av dess teoretiska samband med tidigare infektion i Covid-19.  Observationerna omklassificerades med hjälp av klustertekniken, och två nya logistiska modeller anpassades till datat. Den slutliga modellen innehöll polynomiala termer för att hantera det icke-linjära förhållandet mellan responsens logit och prediktorerna. Vi fann ett signifikant samband mellan logaritmen av 2 av nuk- leokapsidprotein och tidigare Covid-19-infektion i den slutliga modellen, med ett högt prediktionsresultat. Vi nådde en F1-score på 0.94.  Dessutom skapades en algoritm som predicerade dagar sedan infektion med hjälp av förändringen i nukleokap- sidprotein från ett testdatum till nästa, och en GAM-modell för att anpassa ett glidande medelvärdeslinje till datat mellan nukleokapsidprotein som response mot dagarna sedan infektionen. Med hjälp av denna algoritm nåddes ett absolut medelfel på 23 dagar mellan prediktion och faktiskt tid sedan infektionen. Denna algoritm tillämpades senare på observationer som omklassificerats i klusterprocessen.  Sammanfattningsvis lyckades studien framgångsrikt omklassificera falskt negativa observationer med tidigare Covid-19-infektion och anpassade en logistisk modell med hög prediktionspoäng med en F1-score på 0.94. Slutligen skapades en algoritm som uppskattade dagarna sedan infektionen med ett absolut medelfel på 23 dagar.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:umu-210494
Date January 2023
CreatorsWesterholm, Daniel
PublisherUmeå universitet, Institutionen för matematik och matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds