Global ETD Search

1	Online Learning with Sample Selection Gao, Cong January 2021 (has links) In data-driven network and systems engineering, we often train models offline using measurement data collected from networks. Offline learning achieves good results but has drawbacks. For example, model training incurs a high computational cost and the training process takes a long time. In this project, we follow an online approach for model training. The approach involves a cache of fixed size to store measurement samples and recomputation of ML models based on the current cache. Key to this approach are sample selection algorithms that decide which samples are stored in the cache and which are evicted. We implement three sample selection methods in this project: reservoir sampling, maximum entropy sampling and maximum coverage sampling. In the context of sample selection methods, we evaluate model recomputation methods to control when to retrain the model using the samples in the current cache and use the retrained model to predict the following samples before the next recomputation moment. We compare three recomputation strategies: no recomputation, periodic recomputation and recomputation using the ADWIN algorithm. We evaluate the three sample selection methods on five datasets. One of them is the FedCSIS 2020 Challenge dataset and the other four are KTH testbed datasets. We find that maximum entropy sampling can achieve quite good performance compared to other sample selection methods and that recomputation using the ADWIN algorithm can help reduce the number of recomputations and does not affect the prediction performance. / Vid utveckling och underhåll av datornätverk och system så används ofta maskininlärningsmodeller (ML) som beräknats offline med datavärden som insamlats från nätverket. Att beräkna ML-modeller offline ger bra resultat men har nackdelar. Beräkning av ML-modeller är tidskrävande och medför en hög beräkningskostnad. I detta projekt undersöker vi en metod för att beräkna ML-modeller online. Metoden använder en cache av fixerad storlek för att lagra mätningsvärden och omberäknar ML-modeller baserat på innehållet i cachen. Nyckeln till denna metod är användandet av urvalsalgoritmer som avgör vilka mätningsvärden som ska lagras i cachen och vilka som ska tas bort. Vi tillämpar tre urvalsmetoder: urval baserat på en behållare av fixerad storlek, urval baserat på maximal entropi, samt urval baserat på maximal täckning. Vid användning av urvalsmetoder så utvärderar vi metoder för att avgöra när en ML-modell ska omberäknas baserat på urvalet i cachen. Den omberäknade ML-modellen används sedan för att göra prediktioner tills dess att modellen omberäknas igen. Vi utvärderar tre strategier för att avgöra när en modell ska omberäknas: ingen omberäkning, periodisk omberäkning, samt omberäkning baserat på ADWIN-algoritmen. Vi utvärderar tre urvalsmetoder på fem olika datauppsättningar. En av datauppsättningarna är baserat på FedCSIS 2020 Challenge och de andra fyra datauppsättningarna har insamlats från en testbädd på KTH. Vi _nner att urval baserat på maximal entropi uppnår bra prestanda jämfört med de andra urvalsmetoderna samt att en omberäkningstrategi baserat på ADWIN-algoritmen kan minska antalet omberäkningar och försämrar inte prediktionsprestandan. data-driven engineering online learning sample selection model recomputation datadriven teknik online-lärande dataurval omberäkning av modeller Annan elektroteknik och elektronik
2	Data-Driven Success in Infrastructure Megaprojects. : Leveraging Machine Learning and Expert Insights for Enhanced Prediction and Efficiency / Datadriven framgång inom infrastrukturmegaprojekt. : Utnyttja maskininlärning och expertkunskap för förbättrad prognostisering och effektivitet. Nordmark, David E.G. January 2023 (has links) This Master's thesis utilizes random forest and leave-one-out cross-validation to predict the success of megaprojects involving infrastructure. The goal was to enhance the efficiency of the design and engineering phase of the infrastructure and construction industries. Due to the small sample size of megaprojects and limitated data sharing, the lack of data poses significant challenges for implementing artificial intelligence for the evaluation and prediction of megaprojects. This thesis explore how megaprojects can benefit from data collection and machine learning despite small sample sizes. The focus of the research was on analyzing data from thirteen megaprojects and identifying the most influential data for machine learning analysis. The results prove that the incorporation of expert data, representing critical success factors for megaprojects, significantly enhanced the accuracy of the predictive model. The superior performance of expert data over economic data, experience data, and documentation data demonstrates the significance of domain expertise. In addition, the results demonstrate the significance of the planning phase by implementing feature selection techniques and feature importance scores. In the planning phase, a small, devoted, and highly experienced team of project planners has proven to be a crucial factor for project success. The thesis concludes that in order for companies to maximize the utility of machine learning, they must identify their critical success factors and collect the corresponding data. / Denna magisteruppsats undersöker följande forskningsfråga: Hur kan maskininlärning och insiktsfull dataanalys användas för att öka effektiviteten i infrastruktursektorns plannerings- och designfas? Denna utmaning löses genom att analysera data från verkliga megaprojekt och tillämpa avancerade maskininlärningsalgoritmer för att förutspå projektframgång och ta reda på framgångsfaktorerna. Vår forskning är särskilt intresserad av megaprojekt på grund av deras komplicerade natur, unika egenskaper och enorma inverkan på samhället. Dessa projekt slutförs sällan, vilket gör att det är svårt att få tillgång till stora mängder verklig data. Det är uppenbart att AI har potential att vara ett ovärderligt verktyg för att förstå och hantera megaprojekts komplexitet, trots de problem vi står inför. Artificiell intelligens gör det möjligt att fatta beslut som är datadrivna och mer informerade. Uppsatsen lyckas med att hanterard det stora problemet som är bristen på data från megaprojekt. Uppsatsen motiveras även av denna brist på data, vilket gör forskningen relevant för andra områden som präglas av litet dataurval. Resultaten från uppsatsen visar att evalueringen av megaprojekt går att förbättra genom smart användning av specifika dataattribut. Uppsatsen inspirerar även företag att börja samla in viktig data för att möjliggöra användningen av artificiell intelligens och maskinginlärning till sin fördel. Megaproject Small sample size Project management Random forest Critical success factors Feature selection Recursive feature elimination Megaprojekt Små dataurval Projektledning Random forest Kritiska framgångsfaktorer Variabel urval Rekursiv variabel eliminering Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik Computer and Information Sciences Data- och informationsvetenskap

Search results

Online Learning with Sample Selection

Data-Driven Success in Infrastructure Megaprojects. : Leveraging Machine Learning and Expert Insights for Enhanced Prediction and Efficiency / Datadriven framgång inom infrastrukturmegaprojekt. : Utnyttja maskininlärning och expertkunskap för förbättrad prognostisering och effektivitet.