Development of a Software Reliability Prediction Method for Onboard European Train Control System

Longrais, Guillaume Pierre January 2021 (has links)
Software prediction is a complex area as there are no accurate models to represent reliability throughout the use of software, unlike hardware reliability. In the context of the software reliability of on-board train systems, ensuring good software reliability over time is all the more critical given the current density of rail traffic and the risk of accidents resulting from a software malfunction. This thesis proposes to use soft computing methods and historical failure data to predict the software reliability of on-board train systems. For this purpose, four machine learning models (Multi-Layer Perceptron, Imperialist Competitive Algorithm Multi-Layer Perceptron, Long Short-Term Memory Network and Convolutional Neural Network) are compared to determine which has the best prediction performance. We also study the impact of having one or more features represented in the dataset used to train the models. The performance of the different models is evaluated using the Mean Absolute Error, Mean Squared Error, Root Mean Squared Error and the R Squared. The report shows that the Long Short-Term Memory Network is the best performing model on the data used for this project. It also shows that datasets with a single feature achieve better prediction. However, the small amount of data available to conduct the experiments in this project may have impacted the results obtained, which makes further investigations necessary. / Att förutsäga programvara är ett komplext område eftersom det inte finns några exakta modeller för att representera tillförlitligheten under hela programvaruanvändningen, till skillnad från hårdvarutillförlitlighet. När det gäller programvarans tillförlitlighet i fordonsbaserade tågsystem är det ännu viktigare att säkerställa en god tillförlitlighet över tiden med tanke på den nuvarande tätheten i järnvägstrafiken och risken för olyckor till följd av ett programvarufel. I den här avhandlingen föreslås att man använder mjuka beräkningsmetoder och historiska data om fel för att förutsäga programvarans tillförlitlighet i fordonsbaserade tågsystem. För detta ändamål jämförs fyra modeller för maskininlärning (Multi-Layer Perceptron, Imperialist Competitive Algorithm Mult-iLayer Perceptron, Long Short-Term Memory Network och Convolutional Neural Network) för att fastställa vilken som har den bästa förutsägelseprestandan. Vi undersöker också effekten av att ha en eller flera funktioner representerade i den datamängd som används för att träna modellerna. De olika modellernas prestanda utvärderas med hjälp av medelabsolut fel, medelkvadratfel, rotmedelkvadratfel och R-kvadrat. Rapporten visar att Long Short-Term Memory Network är den modell som ger bäst resultat på de data som använts för detta projekt. Den visar också att dataset med en enda funktion ger bättre förutsägelser. Den lilla mängd data som fanns tillgänglig för att genomföra experimenten i detta projekt kan dock ha påverkat de erhållna resultaten, vilket gör att ytterligare undersökningar är nödvändiga.

Bid Forecasting in Public Procurement / Budgivningsmodeller i offentliga upphandlingar

Stiti, Karim, Yape, Shih Jung January 2019 (has links)
Public procurement amounts to a significant part of Sweden's GDP. Nevertheless, it is an overlooked sector characterized by low digitization and inefficient competition where bids are not submitted based on proper mathematical tools. This Thesis seeks to create a structured approach to bidding in cleaning services by determining factors affecting the participation and pricing decision of potential buyers. Furthermore, we assess price prediction by comparing multiple linear regression models (MLR) to support vector regression (SVR). In line with previous research in the construction sector, we find significance for several factors such as project duration, location and type of contract on the participation decision in the cleaning sector. One notable deviant is that we do not find contract size to have an impact on the pricing decision. Surprisingly, the performance of MLR are comparable to more advanced SVR models. Stochastic dominance tests on price performance concludes that experienced bidders perform better than their inexperienced counterparts and companies place more competitive bids in lowest price tenders compared to economically most advantageous tenders (EMAT) indicating that EMAT tenders are regarded as unstructured. However, no significance is found for larger actors performing better in bidding than smaller companies. / Offentliga upphandlingar utgör en signifikant del av Sveriges BNP. Trots detta är det en förbisedd sektor som karakteriseras av låg digitalisering och ineffektiv konkurrens där bud läggs baserat på intuition snarare än matematiska modeller. Denna avhandling ämnar skapa ett strukturerat tillvägagångssätt för budgivning inom städsektorn genom att bestämma faktorer som påverkar deltagande och prissättning. Vidare undersöker vi prisprediktionsmodeller genom att jämföra multipel linjära regressionsmodeller med en maskininlärningsmetod benämnd support vector regression. I enlighet med tidigare forskning i byggindustrin finner vi att flera faktorer som typ av kontrakt, projekttid och kontraktsplats har en statistisk signifikant påverkan på deltagande i kontrakt i städindustrin. En anmärkningsvärd skillnad är att kontraktsvärdet inte påverkar prissättning som tidigare forskning visat i andra områden. För prisprediktionen är det överraskande att den enklare linjära regressionsmodellen presterar jämlikt till den mer avancerade maskininlärningsmodellen. Stokastisk dominanstest visar att erfarna företag har en bättre precision i sin budgivning än mindre erfarna företag. Därtill lägger företag överlag mer konkurrenskraftiga bud i kontrakt där kvalitetsaspekter tas i beaktning utöver priset. Vilket kan indikera att budgivare upplever dessa kontrakt som mindre strukturerade. Däremot finner vi ingen signifikant skillnad mellan större och mindre företag i denna bemärkning.

Feature selection in short-term load forecasting / Val av attribut vid kortvarig lastprognos för energiförbrukning

Söderberg, Max Joel, Meurling, Axel January 2019 (has links)
This paper investigates correlation between energy consumption 24 hours ahead and features used for predicting energy consumption. The features originate from three categories: weather, time and previous energy. The correlations are calculated using Pearson correlation and mutual information. This resulted in the highest correlated features being those representing previous energy consumption, followed by temperature and month. Two identical feature sets containing all attributes1 were obtained by ranking the features according to correlation. Three feature sets were created manually. The first set contained seven attributes representing previous energy consumption over the course of seven days prior to the day of prediction. The second set consisted of weather and time attributes. The third set consisted of all attributes from the first and second set. These sets were then compared on different machine learning models. It was found the set containing all attributes and the set containing previous energy attributes yielded the best performance for each machine learning model. 1In this report, the words ”attribute” and ”feature” are used interchangeably. / I denna rapport undersöks korrelation och betydelsen av olika attribut för att förutspå energiförbrukning 24 timmar framåt. Attributen härstammar från tre kategorier: väder, tid och tidigare energiförbrukning. Korrelationerna tas fram genom att utföra Pearson Correlation och Mutual Information. Detta resulterade i att de högst korrelerade attributen var de som representerar tidigare energiförbrukning, följt av temperatur och månad. Två identiska attributmängder erhölls genom att ranka attributen över korrelation. Tre attributmängder skapades manuellt. Den första mängden innehåll sju attribut som representerade tidigare energiförbrukning, en för varje dag, sju dagar innan datumet för prognosen av energiförbrukning. Den andra mängden bestod av väderoch tidsattribut. Den tredje mängden bestod av alla attribut från den första och andra mängden. Dessa mängder jämfördes sedan med hjälp av olika maskininlärningsmodeller. Resultaten visade att mängden med alla attribut och den med tidigare energiförbrukning gav bäst resultat för samtliga modeller.

Assessing the Operational Value Creation by the Private Equity Industry in the Nordics / Utvärdering av Private Equity Industrins Påverkan på Operationell Effektivitet i Nordiska Portföljbolag

Wuilmart, Adam, Harrysson, Erik January 2020 (has links)
More and more capital is being directed towards the private equity industry. As a result, private equity owned firms make up an increasingly large share of the economy. Therefore, it is becoming more important to understand the nature of how the operational performance of firms change under private equity ownership. This study looked at how the operational efficiency in terms of EBIT-margin changed over a three-year period after a private equity acquisition in the Nordic market. The study found that companies which had an initial positive EBIT margin behaved differently from companies with an initial negative EBIT margin and therefore two separate models where created. It was found that in the case where the company had a positive EBIT margin before being bought by a private equity firm saw an average decrease in EBIT margin of 1.14% units. In the case of a firm with initial negative EBIT-margin a private equity acquisition led to an average increase in EBIT margin by 1.99% units compared to the reference data. This study thus shows that private equity ownership affects the operational efficiency of companies. Moreover, it shows that one should make a distinction between PE ownership in profitable growth cases and turn-around cases of inefficient companies and that the impact of PE ownership in terms of effect on operational profitability can be vastly different depending on the nature of the acquisition in this regard. / Private Equity industrin ser ökande inströmning av investeringskapital, vilket resulterat i att en allt större del av ekonomin utgörs av private equity-ägda företag. Därmed ökar vikten av att förstå hur private equity firmor påverkar sina portföljbolag under ägandeperioden. Denna studie undersöker hur EBIT-marginalen i företag förändrats över en treårsperiod efter att företagen blivit förvärvade av ett nordiskt private equity-bolag. Studien hittade en signifikant skillnad mellan hur företag med initialt positiv, respektive negativ EBIT-marginal påverkades under treårsperioden och två separata modeller skapades för att utvärdera effekten. Resultaten påvisade med signifikans att företag med initial positiv EBIT-marginal minskade sin EBIT-marginal med 1.14% relativt jämförbara företag efter ett private equity förvärv. För företag med initialt negativ EBIT-marginal påvisades med signifikans en ökning av EBIT-marginalen med 1.99% relativt jämförbara företag efter ett private equity förvärv. Studien påvisar därmed att private equity ägande har en påverkan på operationell lönsamhet och att den skiljer sig markant beroende på ifall företaget initialt är operativt lönsamt eller ej.

Determining the impact of ESG metrics on the financial performance of public Nordic companies / Betydelsen av ESG-mått på finansiell prestation för publika Nordiska företag

Hagéus, Tom, Nyhrén, Malin January 2021 (has links)
The use of sustainability within the investment community is becoming increasingly common. More specifically, investors are now more than ever leaning towards ESG scores as a way of incorporating a more holistic approach when making investment decisions. However, the evidence for a relationship between financial performance and ESG scores is inconsistent. Besides, a recent study has also shown a large divergence between ESG scores. Together this urges a need for a more in-depth understanding of which, if any, non-financial metrics have an impact on financial performance. Therefore, this study investigated if there is any relationship between ESG metrics and financial performance for Nordic public companies by performing a multiple linear regression analysis. Our results concluded that such a relationship exists, both for accounting-based ROA and market-based Tobin’s Q between 2017-2018. This study also shows that there is an overall concentration towards social metrics for both models. Secondly, it shows that some metrics such as “Percentage of Female Employees” are positively significant for ROA but not valued by the market model. The opposite outcome also exists where “Code of Conduct/Ethics Policy” is positively significant for Tobin’s Q but not for ROA. Lastly, it is also shown that some important metrics are negative significant for ROA and therefore urging for inclusion of non-financial measurements when making strategic decisions. / Användandet av hållbarhet inom investeringssfären blir allt vanligare. Investerare förlitar sig allt mer på ESG-betyg som ett sätt att integrera en helhetssyn när de fattar investeringsbeslut. Bevisen för ett samband mellan finansiell prestation och ESG-betyg är dock inkonsekventa. Dessutom har en ny studie också påvisat stora skillnader mellan ESG-betyg. Tillsammans skapar detta ett behov av mer fördjupad förståelse för vilka, om ens några, icke finansiella mått som har en inverkan på den finansiella prestationen. Därför undersökte denna studie om det finns något samband mellan ESG-mått och finansiell prestation för nordiska börsnoterade företag genom att utföra en multipel linjär regressionsanalys. Resultaten konkluderade att en sådan relation existerar, både för det bokföringsbaserade måttet ROA och marknadsbaserade måttet Tobin’s Q mellan 2017-2018. Studien visar också att det finns en övergripande koncentration mot sociala mått för båda modellerna. Efter det visas det även att mått som exempelvis “Percentage of Female Employees” är positivt signifikanta för ROA men inte signifikanta alls för Tobin’s Q. Ett liknande men motsatt resultat finns också då måttet “Code of Conduct/Ethics Policy” är positivt signifikant för Tobin’s Q men inte för ROA. Slutligen visar också denna studie på att det finns viktiga mått som visar en negativ signifikans med ROA och att det därför är viktigt att även inkludera icke-finansiella mått när strategiska beslut ska fattas.

Predicting PV self-consumption in villas with machine learning

GALLI, FABIAN January 2021 (has links)
In Sweden, there is a strong and growing interest in solar power. In recent years, photovoltaic (PV) system installations have increased dramatically and a large part are distributed grid connected PV systems i.e. rooftop installations. Currently the electricity export rate is significantly lower than the import rate which has made the amount of self-consumed PV electricity a critical factor when assessing the system profitability. Self-consumption (SC) is calculated using hourly or sub-hourly timesteps and is highly dependent on the solar patterns of the location of interest, the PV system configuration and the building load. As this varies for all potential installations it is difficult to make estimations without having historical data of both load and local irradiance, which is often hard to acquire or not available. A method to predict SC using commonly available information at the planning phase is therefore preferred.  There is a scarcity of documented SC data and only a few reports treating the subject of mapping or predicting SC. Therefore, this thesis is investigating the possibility of utilizing machine learning to create models able to predict the SC using the inputs: Annual load, annual PV production, tilt angle and azimuth angle of the modules, and the latitude. With the programming language Python, seven models are created using regression techniques, using real load data and simulated PV data from the south of Sweden, and evaluated using coefficient of determination (R2) and mean absolute error (MAE). The techniques are Linear Regression, Polynomial regression, Ridge Regression, Lasso regression, K-Nearest Neighbors (kNN), Random Forest, Multi-Layer Perceptron (MLP), as well as the only other SC prediction model found in the literature. A parametric analysis of the models is conducted, removing one variable at a time to assess the model’s dependence on each variable.  The results are promising, with five out of eight models achieving an R2 value above 0.9 and can be considered good for predicting SC. The best performing model, Random Forest, has an R2 of 0.985 and a MAE of 0.0148. The parametric analysis also shows that while more input data is helpful, using only annual load and PV production is sufficient to make good predictions. This can only be stated for model performance for the southern region of Sweden, however, and are not applicable to areas outside the latitudes or country tested. / I Sverige finns ett starkt och växande intresse för solenergi. De senaste åren har antalet solcellsanläggningar ökat dramatiskt och en stor del är distribuerade nätanslutna solcellssystem, dvs takinstallationer. För närvarande är elexportpriset betydligt lägre än importpriset, vilket har gjort mängden egenanvänd solel till en kritisk faktor vid bedömningen av systemets lönsamhet. Egenanvändning (EA) beräknas med tidssteg upp till en timmes längd och är i hög grad beroende av solstrålningsmönstret för platsen av intresse, PV-systemkonfigurationen och byggnadens energibehov. Eftersom detta varierar för alla potentiella installationer är det svårt att göra uppskattningar utan att ha historiska data om både energibehov och lokal solstrålning, vilket ofta inte är tillgängligt. En metod för att förutsäga EA med allmän tillgänglig information är därför att föredra.  Det finns en brist på dokumenterad EA-data och endast ett fåtal rapporter som behandlar kartläggning och prediktion av EA. I denna uppsats undersöks möjligheten att använda maskininlärning för att skapa modeller som kan förutsäga EA. De variabler som ingår är årlig energiförbrukning, årlig solcellsproduktion, lutningsvinkel och azimutvinkel för modulerna och latitud. Med programmeringsspråket Python skapas sju modeller med hjälp av olika regressionstekniker, där energiförbruknings- och simulerad solelproduktionsdata från södra Sverige används. Modellerna utvärderas med hjälp av determinationskoefficienten (R2) och mean absolute error (MAE). Teknikerna som används är linjär regression, polynomregression, Ridge regression, Lasso regression, K-nearest neighbor regression, Random Forest regression, Multi-Layer Perceptron regression. En additionell linjär regressions-modell skapas även med samma metodik som används i en tidigare publicerad rapport. En parametrisk analys av modellerna genomförs, där en variabel exkluderas åt gången för att bedöma modellens beroende av varje enskild variabel.  Resultaten är mycket lovande, där fem av de åtta undersökta modeller uppnår ett R2-värde över 0,9. Den bästa modellen, Random Forest, har ett R2 på 0,985 och ett MAE på 0,0148. Den parametriska analysen visar också att även om ingångsdata är till hjälp, är det tillräckligt att använda årlig energiförbrukning och årlig solcellsproduktion för att göra bra förutsägelser. Det måste dock påpekas att modellprestandan endast är tillförlitlig för södra Sverige, från var beräkningsdata är hämtad, och inte tillämplig för områden utanför de valda latituderna eller land.

PV self-consumption: Regression models and data visualization

Tóth, Martos January 2022 (has links)
In Sweden the installed capacity of the residential PV systems is increasing every year. The lack of feed-in-tariff-scheme makes the techno-economic optimization of the PV systems mainly based on the self-consumption. The calculation of this parameter involves hourly building loads and hourly PV generation. This data cannot be obtained easily from households. A predictive model based on already available data would be preferred and needed in this case. The already available machine learning models can be suitable and have been tested but the amount of literature in this topic is fairly low. The machine learning models are using a dataset which includes real measurement data of building loads and simulated PV generation data and the calculated self-consumption data based on these two inputs. The simulation of PV generation can be based on Typical Meteorological Year (TMY) weather file or on measured weather data. The TMY file can be generated quicker and more easily, but it is only spatially matched to the building load, while the measured data is matched temporally and spatially. This thesis investigates if the usage of TMY file leads to any major impact on the performance of the regression models by comparing it to the measured weather file model. In this model the buildings are single-family houses from south Sweden region.  The different building types can have different load profiles which can affect the performance of the model. Because of the different load profiles, the effect of using TMY file may have more significant impact. This thesis also compares the impact of the TMY file usage in the case of multifamily houses and also compares the two building types by performance of the machine learning models. The PV and battery prices are decreasing from year to year. The subsidies in Sweden offer a significant tax credit on battery investments with PV systems. This can make the batteries profitable. Lastly this thesis evaluates the performance of the machine learning models after adding the battery to the system for both TMY and measured data. Also, the optimal system is predicted based on the self-consumption, PV generation and battery size.  The models have high accuracy, the random forest model is above 0.9 R2for all cases. The results confirm that using the TMY file only leads to marginal errors, and it can be used for the training of the models. The battery model has promising results with above 0.9 R2 for four models: random forest, k-NN, MLP and polynomial. The prediction of the optimal system model has promising results as well for the polynomial model with 18% error in predicted payback time compared to the reference. / I Sverige ökar den installerade kapaciteten för solcellsanläggningarna för bostäder varje år. Bristen på inmatningssystem gör att den tekniska ekonomiska optimeringen av solcellssystemen huvudsakligen bygger på egen konsumtion. Beräkningen av denna parameter omfattar byggnadsbelastningar per timme och PV-generering per timme. Dessa uppgifter kan inte lätt erhållas från hushållen. En prediktiv modell baserad på redan tillgängliga data skulle vara att föredra och behövas i detta fall. De redan tillgängliga maskininlärningsmodellerna kan vara lämpliga och redan testade men mängden litteratur i detta ämne är ganska låg. Maskininlärningsmodellerna använder en datauppsättning som inkluderar verkliga mätdata från byggnader och simulerad PV-genereringsdata och den beräknade egenförbrukningsdata baserad på dessa två indata. Simuleringen av PV-generering kan baseras på väderfilen Typical Meteorological Year (TMY) eller på uppmätta väderdata. TMY-filen kan genereras snabbare och enklare, men den anpassas endast rumsligt till byggnadsbelastningen, medan uppmätta data är temporärt och rumsligt. Denna avhandling undersöker om användningen av TMY-fil leder till någon större påverkan på prestandan genom att jämföra den med den uppmätta väderfilsmodellen. I denna modell är byggnaderna småhus från södra Sverige. De olika byggnadstyperna kan ha olika belastningsprofiler vilket kan påverka modellens prestanda. På grund av dessa olika belastningsprofiler kan effekten av att använda TMY-fil ha mer betydande inverkan. Den här avhandlingen jämför också effekten av TMY-filanvändningen i fallet med flerfamiljshus och jämför också de två byggnadstyperna efter prestanda för maskininlärningsmodellerna. PV- och batteripriserna minskar från år till år. Subventionerna i Sverige ger en betydande skattelättnad på batteriinvesteringar med solcellssystem. Detta kan göra batterierna lönsamma. Slutligen utvärderar denna avhandling prestandan för maskininlärningsmodellerna efter att ha lagt till batteriet i systemet för både TMY och uppmätta data. Det optimala systemet förutsägs också baserat på egen förbrukning, årlig byggnadsbelastning, årlig PV-generering och batteristorlek. Modellerna har hög noggrannhet, den slumpmässiga skogsmodellen är över 0,9 R2 för alla fall. Resultaten bekräftar att användningen av TMY-filen endast leder till marginella fel, och den kan användas för träning av modellerna. Batterimodellen har lovande resultat med över 0,9 R2 för fyra modeller: random skog, k-NN, MLP och polynom. Förutsägelsen av den optimala systemmodellen har också lovande resultat för polynommodellen med 18 % fel i förutspådd återbetalningstid jämfört med referensen.

Effect of polysemy and homography on sentiment analysis / Effekten av polysemi och homografi på sentimentanalys

Ljung, Oskar January 2024 (has links)
This bachelor's thesis studied the difference in sentiment between different homographic or polysemous senses of individual words. It did this by training a linear regression model on a version of the British National corpus that had been disambiguated along WordNet word senses (synsets) and analysing sentiment data from SentiWordNet. Results were partial, but indicated that word senses differ somewhat in sentiment. In the process of this study, a new and improved version of the Lesk disambiguation algorithm was also developed, named Nomalised Lesk. The validation of that algorithm compared to the regular Lesk algorithm is presented here as well.

