Global ETD Search

401	Measurement of the energy spectrum of the BL Lac object PG1553+113 with the MAGIC telescope in 2005 and 2006 Hengstebeck, Thomas 01 June 2007 (has links) In dieser Doktorarbeit wurden im Rahmen des MAGIC Experimentes neue Datenanalysemethoden implementiert, die sich insbesondere fuer die Analyse von Ereignissen niedriger Gammastrahlungsenergie eignen. Die Methoden konnten erfolgreich in Monte Carlo Studien getestet und auf Beobachtungsdaten des Krebsnebels und der extragalaktischen Gammastrahlungsquelle PG1553+113 angewandt werden. Diese Methoden reichen von ''image cleaning'' Techniken und der Nutzung neuer Bildparameter bis zu fortgeschrittenen g/h-Separations- und Energieabschaetzungsverfahren. Zum ersten Mal wurden die Vorteile von Klassifikations- und Regressionsbaeumen in der Gamma-Astrophysik ausgenutzt, um existierende klassische Methoden zu verbessern. Die Analyse - getestet an Monte Carlo Daten - bewies ihre Zuverlaessigkeit bei der Untersuchung der Gammastrahlungsemission des Krebsnebels, wobei ein hochsignifikanter Exzess im Energiebereich unterhalb 100 GeV in nur 1.7 h nachgewiesen werden konnte. Die Analyse von Daten des BL Lac Objekts PG1553+113 ergab signifikante Exzesse fuer Beobachtungen in den Jahren 2005 und 2006. Das kombinierte alpha-Histogramm zeigt ein Signal mit einer Signifikanz, die 8 sigma ueberschreitet. Bei der weiteren Analyse konnte ein differentielles Energiespektrum fuer die kombinierten Daten aus den Jahren 2005 und 2006 erstellt werden. Der integrale Fluss oberhalb von 200 GeV wurde wie folgt bestimmt: F(> 200 GeV) = (1.7+-0.3) 10^(-12)/(cm^2 s), der spektrale Index betraegt Gamma = 3.6+-0.3. Dieses Spektrum konnte daraufhin verwendet werden, um die (unbekannte) Rotverschiebung von PG1553+113 auf z / In this thesis new data analysis methods for the MAGIC experiment were implemented, which are especially suited for the investigation of low energy gamma-ray events. They were successfully tested by means of Monte Carlo studies and applied to observational data of the Crab Nebula and of the extragalactic gamma-ray source PG1553+113. These methods extend from image cleaning techniques and the utilization of new image parameters to sophisticated g/h-separation and energy estimation approaches. For the first time in gamma-ray astrophysics the advantages of classification and regression trees were exploited in order to improve existing `classical'' methods. The analysis procedure - tested on Monte Carlo data - was demonstrated to be reliable in the investigation of the Crab Nebula gamma-ray emission yielding a significant excess in the energy range below 100 GeV in only 1.7 h observation time. The analysis of data taken on the BL Lac PG1553+113 yielded significant excesses for both years 2005 and 2006. The combined alpha histogram shows a signal in excess of 8 sigma. In the further analysis a spectrum could be derived for the combined data sets of 2005 and 2006. The integral flux above 200 GeV could be derived as F(> 200 GeV) = (1.7+-0.3) 10^(-12)/(cm^2 s), the power-law index was measured to be Gamma = 3.6+-0.3. This spectrum was used to constrain the redshift z of PG1553+113 with the result z Absorption Physik Cherenkov Astronomie Astrophysik Gammastrahlung Aktiver Galaktischer Kern AGN Blazar Rotverschiebung Photon-Photon Extragalaktisches Hintergrundlicht EBL g/h-Separation Random Forest Krebsnebel PG1553+113 Cherenkov physics astronomy astrophysics gamma radiation Active Galactic Nucleus AGN blazar redshift photon-photon absorption Extragalactic Background Light EBL g/h-separation Random Forest Crab Nebula PG1553+113 530 Physik 29 Physik, Astronomie ddc:530
402	[en] MACHINE LEARNING METHODS APPLIED TO PREDICTIVE MODELS OF CHURN FOR LIFE INSURANCE / [pt] MÉTODOS DE MACHINE LEARNING APLICADOS À MODELAGEM PREDITIVA DE CANCELAMENTOS DE CLIENTES PARA SEGUROS DE VIDA THAIS TUYANE DE AZEVEDO 26 September 2018 (has links) [pt] O objetivo deste estudo foi explorar o problema de churn em seguros de vida, no sentido de prever se o cliente irá cancelar o produto nos próximos 6 meses. Atualmente, métodos de machine learning vêm se popularizando para este tipo de análise, tornando-se uma alternativa ao tradicional método de modelagem da probabilidade de cancelamento através da regressão logística. Em geral, um dos desafios encontrados neste tipo de modelagem é que a proporção de clientes que cancelam o serviço é relativamente pequena. Para isso, este estudo recorreu a técnicas de balanceamento para tratar a base naturalmente desbalanceada – técnicas de undersampling, oversampling e diferentes combinações destas duas foram utilizadas e comparadas entre si. As bases foram utilizadas para treinar modelos de Bagging, Random Forest e Boosting, e seus resultados foram comparados entre si e também aos resultados obtidos através do modelo de Regressão Logística. Observamos que a técnica SMOTE-modificado para balanceamento da base, aplicada ao modelo de Bagging, foi a combinação que apresentou melhores resultados dentre as combinações exploradas. / [en] The purpose of this study is to explore the churn problem in life insurance, in the sense of predicting if the client will cancel the product in the next 6 months. Currently, machine learning methods are becoming popular in this type of analysis, turning it into an alternative to the traditional method of modeling the probability of cancellation through logistics regression. In general, one of the challenges found in this type of modelling is that the proportion of clients who cancelled the service is relatively small. For this, the study resorted to balancing techniques to treat the naturally unbalanced base – under-sampling and over-sampling techniques and different combinations of these two were used and compared among each other. The bases were used to train models of Bagging, Random Forest and Boosting, and its results were compared among each other and to the results obtained through the Logistics Regression model. We observed that the modified SMOTE technique to balance the base, applied to the Bagging model, was the combination that presented the best results among the explored combinations. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] ARVORE DE DECISAO [en] DECISION TREE [pt] SEGURO DE VIDA [en] LIFE INSURANCE [pt] BOOSTING [en] BOOSTING [pt] PROPENSAO A CANCELAMENTO [en] CANCELLATION PROPENSITY [pt] BAGGING [en] BAGGING [pt] RANDOM FOREST [en] RANDOM FOREST [pt] DADO DESBALANCEADO [en] UNBALANCED DATA [pt] UNDER SAMPLING [en] UNDER SAMPLING [pt] OVER SAMPLING [en] OVER SAMPLING [pt] SMOTE [en] SMOTE
403	Geospatial Approaches to Social Determinants of Cancer Outcomes Dong, Weichuan 19 November 2021 (has links) No description available. Epidemiology Geography Geographic Information Science Health Health Care Health Care Management Oncology Public Health Public Policy Statistics geography geographic information science geographic information systems social determinants of health machine learning spatial statistics spatial epidemiology breast cancer late-stage cancer classification and regression tree random forest geographic random forest space-time scan statistic SaTScan Medicaid expansion health disparity
404	Feature selection in short-term load forecasting / Val av attribut vid kortvarig lastprognos för energiförbrukning Söderberg, Max Joel, Meurling, Axel January 2019 (has links) This paper investigates correlation between energy consumption 24 hours ahead and features used for predicting energy consumption. The features originate from three categories: weather, time and previous energy. The correlations are calculated using Pearson correlation and mutual information. This resulted in the highest correlated features being those representing previous energy consumption, followed by temperature and month. Two identical feature sets containing all attributes1 were obtained by ranking the features according to correlation. Three feature sets were created manually. The first set contained seven attributes representing previous energy consumption over the course of seven days prior to the day of prediction. The second set consisted of weather and time attributes. The third set consisted of all attributes from the first and second set. These sets were then compared on different machine learning models. It was found the set containing all attributes and the set containing previous energy attributes yielded the best performance for each machine learning model. 1In this report, the words ”attribute” and ”feature” are used interchangeably. / I denna rapport undersöks korrelation och betydelsen av olika attribut för att förutspå energiförbrukning 24 timmar framåt. Attributen härstammar från tre kategorier: väder, tid och tidigare energiförbrukning. Korrelationerna tas fram genom att utföra Pearson Correlation och Mutual Information. Detta resulterade i att de högst korrelerade attributen var de som representerar tidigare energiförbrukning, följt av temperatur och månad. Två identiska attributmängder erhölls genom att ranka attributen över korrelation. Tre attributmängder skapades manuellt. Den första mängden innehåll sju attribut som representerade tidigare energiförbrukning, en för varje dag, sju dagar innan datumet för prognosen av energiförbrukning. Den andra mängden bestod av väderoch tidsattribut. Den tredje mängden bestod av alla attribut från den första och andra mängden. Dessa mängder jämfördes sedan med hjälp av olika maskininlärningsmodeller. Resultaten visade att mängden med alla attribut och den med tidigare energiförbrukning gav bäst resultat för samtliga modeller. Short-term load forecasting energy consumption forecasting Linear regression SVR Random Forest machine learning regression feature selection attribute selection Pearson correlation Mutual information correlation matrix Two-way ANOVA Tukey’s HSD test. Kortsiktig lastprognos Energiförbrukningsprognos Linjär regression SVR Random forest Maskininlärning Attributval Pearson-korrelation Ömsesidig information Korrelationsmatris Tvåvägs ANOVA Tukey’s HSD-test. Computer and Information Sciences Data- och informationsvetenskap
405	Reliable Detection of Water Areas in Multispectral Drone Imagery : A faster region-based CNN model for accurately identifying the location of small-scale standing water bodies / Tillförlitlig detektering av vattenområden i multispektrala drönarbilder : En snabbare regionbaserad CNN-modell för noggrann identifiering av var småskaliga stående vattenförekomster finns Shangguan, Shengyao January 2023 (has links) Dengue and Zika are two arboviral viruses that affect a significant portion of the world population. The principal vector species of both viruses are Aedes aegypti and Aedes albopictus mosquitoes. They breed in very slow flowing or standing pools of water. It is important to reduce and control such potential breeding grounds to contain the spread of these diseases. This thesis investigates a model for the detection of water bodies using high-resolution images collected by Unmanned Aerial Vehicles (UAVs) in tropical countries, exemplified by Sri Lanka, and their multispectral information to help detect water bodies where larvae are most likely to breed quickly and accurately. Although machine learning has been studied in previous work to process multispectral image information to obtain the location of water bodies, different machine learning methods have not been compared, only random forest algorithms have been used. Because Convolutional Neural Networks (CNNs) are known to provide advanced classification performance for visual recognition tasks, in this thesis, faster region-based CNNs are introduced to perform fast and accurate identification of water body locations. In order to better evaluate the experimental results, this thesis introduces Intersection over Union (IoU) as a criterion for evaluating the results. On the one hand, IoU can judge the success rate of the model for water region recognition, and on the other hand, analysis of the model recall rate under different IoU values can also evaluate the model’s ability to detect the range of water regions. Meanwhile, the basic CNN network and random forest algorithm in the previous work are also implemented to compare the results of faster region-based CNNs. In conclusion, the faster region-based CNN model achieves the best results with a 98.33% recognition success rate for water bodies in multispectral images, compared to 95.80% for the CNN model and 95.74% for the random forest model. In addition, the faster region-based CNN model significantly outperformed the CNN model and the random forest model for training speed. / Dengue och zika är två arbovirala virus som drabbar en stor del av världens befolkning. De viktigaste vektorerna för båda virusen är myggorna Aedes aegypti och Aedes albopictus. De förökar sig i mycket långsamt rinnande eller stående vattensamlingar. Det är viktigt att minska och kontrollera sådana potentiella grogrunder för att begränsa spridningen av dessa sjukdomar. I denna avhandling undersöks en modell för att upptäcka vattenområden med hjälp av högupplösta bilder som samlas in av Unmanned Aerial Vehicles (UAV) i tropiska länder, exemplifierat av Sri Lanka, och deras multispektrala information för att hjälpa till att upptäcka vattenområden där larverna sannolikt förökar sig snabbt och noggrant. Även om maskininlärning har studerats i tidigare arbeten för att bearbeta multispektral information från bilder för att få fram platsen för vattenförekomster, har olika metoder för maskininlärning inte jämförts, utan endast random forest-algoritmer har använts. Eftersom Convolutional Neural Networks (CNN) är kända för att erbjuda avancerade klassificeringsprestanda för visuella igenkänningsuppgifter i denna avhandling introduceras snabbare regionbaserade CNN för att utföra snabb och exakt identifiering av vattenkropparnas läge. För att bättre kunna utvärdera de experimentella resultaten införs i denna avhandling Intersection over Union (IoU) som ett kriterium för utvärdering av resultaten. Å ena sidan kan IoU bedöma modellens framgång för igenkänning av vattenområden, och å andra sidan kan analysen av modellens återkallningsfrekvens under olika IoU-värden också utvärdera modellens förmåga att upptäcka olika vattenområden. Samtidigt genomförs även det grundläggande CNN-nätverket och algoritmen för slumpmässig skog i det tidigare arbetet för att jämföra resultaten av Faster regionbaserad CNN. Sammanfattningsvis ger den snabbare regionbaserade CNN-modellen de bästa resultaten med 98,33% av alla igenkänningsresultat för vattenkroppar i multispektrala bilder, jämfört med 95,80% för CNN-modellen och 95,74% för modellen med slumpmässig skog. Dessutom överträffade den snabbare regionbaserade CNN-modellen CNN-modellen och random forest-modellen avsevärt när det gäller träningshastighet. Water Detection Multiple images Convolutional neural networks Random Forest Vattendetektering Flera bilder Konvolutionella neurala nätverk Random Forest Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik Elektroteknik och elektronik
406	A Study on Comparison Websites in the Airline Industry and Using CART Methods to Determine Key Parameters in Flight Search Conversion / En studie av jämförelsehemsidor i flygbranschen och tillämpningen av CART metoder för att analysera nyckelparametrar i konvertering av flygsökningar. Hansén, Jacob, Gustafsson, Axel January 2019 (has links) This bachelor thesis in applied mathematics and industrial engineering and management aimed to identify relationships between search parameters in flight comparison search engines and the exit conversion rate, while also investigating how the emergence of such comparison search engines has impacted the airline industry. To identify such relationships, several classification models were employed in conjunction with several sampling methods to produce a predictive model using the program R. To investigate the impact of the emergence of comparison websites, Porter's 5 forces and a SWOT - analysis were employed to analyze findings of a literature study and a qualitative interview. The classification models developed performed poorly with regards to several assessments metrics which suggested that there were little to no significance in the relationship between the search parameters investigated and exit conversion rate. Porter's 5 forces and the SWOT-analysis suggested that the competitive landscape of the airline industry has become more competitive and that airlines which do not manage to adapt to this changing market environment will experience decreasing profitability. / Detta kandidatexamensarbete inriktat på tillämpad matematik och industriell ekonomi syftade till att identifiera samband mellan sökparametrar från flygsökmotorer och konverteringsgraden för utträde till ett flygbolags hemsida, och samtidigt undersöka hur uppkomsten av flygsökmotorer har påverkat flygindustrin för flygbolag. För att identifiera sådana samband, tillämpades flera klassificeringsmodeller tillsammans med stickprovsmetoder för att bygga en predikativ modell i programmet R. För att undersöka påverkan av flygsökmotorer tillämpades Porters 5 krafter och SWOT-analys som teoretiska ramverk för att analysera information uppsamlad genom en litteraturstudie och en intervju. Klassificeringsmodellerna som byggdes presterade undermåligt med avseende på flera utvärderingsmått, vilket antydde att det fanns lite eller inget samband mellan de undersökta sökparametrarna och konverteringsgraden för utträde. Porters 5 krafter och SWOT-analysen visade att flygindustrin hade blivit mer konkurrensutsatt och att flygbolag som inte lyckas anpassa sig efter en omgivning i ändring kommer att uppleva minskande lönsamhet. True positives true negatives false positives false negatives Classification Trees Random Forest SMOTE ROSE ROC AUC LCC meta-search engine Online Travel Agency Gini impurity index Sann negativ sann positiv falsk positiv falsk negativ klassificationsträd Random Forest SMOTE ROSE ROC AUC jämförelsehemsida resebyrå Gini koefficient Probability Theory and Statistics Sannolikhetsteori och statistik
407	Loan Default Prediction using Supervised Machine Learning Algorithms / Fallissemangprediktion med hjälp av övervakade maskininlärningsalgoritmer Granström, Daria, Abrahamsson, Johan January 2019 (has links) It is essential for a bank to estimate the credit risk it carries and the magnitude of exposure it has in case of non-performing customers. Estimation of this kind of risk has been done by statistical methods through decades and with respect to recent development in the field of machine learning, there has been an interest in investigating if machine learning techniques can perform better quantification of the risk. The aim of this thesis is to examine which method from a chosen set of machine learning techniques exhibits the best performance in default prediction with regards to chosen model evaluation parameters. The investigated techniques were Logistic Regression, Random Forest, Decision Tree, AdaBoost, XGBoost, Artificial Neural Network and Support Vector Machine. An oversampling technique called SMOTE was implemented in order to treat the imbalance between classes for the response variable. The results showed that XGBoost without implementation of SMOTE obtained the best result with respect to the chosen model evaluation metric. / Det är nödvändigt för en bank att ha en bra uppskattning på hur stor risk den bär med avseende på kunders fallissemang. Olika statistiska metoder har använts för att estimera denna risk, men med den nuvarande utvecklingen inom maskininlärningsområdet har det väckt ett intesse att utforska om maskininlärningsmetoder kan förbättra kvaliteten på riskuppskattningen. Syftet med denna avhandling är att undersöka vilken metod av de implementerade maskininlärningsmetoderna presterar bäst för modellering av fallissemangprediktion med avseende på valda modelvaldieringsparametrar. De implementerade metoderna var Logistisk Regression, Random Forest, Decision Tree, AdaBoost, XGBoost, Artificiella neurala nätverk och Stödvektormaskin. En översamplingsteknik, SMOTE, användes för att behandla obalansen i klassfördelningen för svarsvariabeln. Resultatet blev följande: XGBoost utan implementering av SMOTE visade bäst resultat med avseende på den valda metriken. Machine Learning Deep Learning Credit Risk Default Prediction Logistic Regression Random Forest Decision Tree AdaBoost XGBoost Artificial Neural Network Support Vector Machine SMOTE Maskininlärning Djupinlärning Kreditrisk Fallissemangprediktion Logistisk Regression Random Forest Decision Tree AdaBoost XGBoost Artificiella neurala nätverk Stödvektormaskin SMOTE Probability Theory and Statistics Sannolikhetsteori och statistik
408	Modeling of non-maturing deposits / Modellering av icke-tidsbunda inlåningsvolymer Stavrén, Fredrik, Domin, Nikita January 2019 (has links) The interest in modeling non-maturing deposits has skyrocketed ever since thefinancial crisis 2008. Not only from a regulatory and legislative perspective,but also from an investment and funding perspective.Modeling of non-maturing deposits is a very broad subject. In this thesis someof the topics within the subject are investigated, where the greatest focus inon the modeling of the deposit volumes. The main objective is to providethe bank with an analysis of the majority of the topics that needs to be cov-ered when modeling non-maturing deposits. This includes short-rate model-ing using Vasicek’s model, deposit rate modeling using a regression approachand a method proposed by Jarrow and Van Deventer, volume modeling usingSARIMA, SARIMAX and a general additive model, a static replicating port-folio based on Maes and Timmerman’s to model the behaviour of the depositaccounts and finally a liquidity risk model that was suggested by Kalkbrenerand Willing. All of these models have been applied on three different accounttypes: private transaction accounts, savings accounts and corporate savingsaccounts.The results are that, due to the current market, the static replicating portfoliodoes not achieve the desired results. Furthermore, the best volume model forthe data provided is a SARIMA model, meaning the effect of the exogenousvariables are seemingly already embedded in the lagged volume. Finally, theliquidity risk results are plausible and thus deemed satisfactory. / Intresset för att modellera inlåningsvolymer utan en kontrakterad förfallodaghar ökat markant sedan finanskrisen 2008. Inte bara sett utifrån ett perspek-tiv att uppfylla krav som ställs av tillsynsmyndigheter, men också sett utifrånbankens investerings-och finansieringsperspektiv.Målet med det här arbetet är att förse banken med en analys av majoritetenav de olika områdena som man behöver ta hänsyn till när man ska model-lera inlåningar utan förfallodatum, men med ett fokus på volymmodellering.I den här rapporten modelleras räntor (kortränta och kontoränta), kontovoly-merna, kontobeteendet samt likviditetsrisken. Detta görs med hjälp av Vasicekför korträntan, en regressionsmetod samt en metod som föreslagits av Jarrowoch Van Deventer för kontoräntan, SARIMA, SARIMAX och en generell ad-ditiv regressionsmetod för volymerna, en statisk replikeringsportfölj baseradpå Maes och Timmermans modell för att imitera kontona och slutligen så mo-delleras likviditetsrisken med ett ramverk som föreslagits av Kalkbrener ochWilling. Alla dessa nämnda modeller appliceras, där det är möjligt, på de treolika kontotyperna: privatkonton, sparkonton samt företagssparkonto.Resultatet är att räntemodelleringen samt replikeringsportföljen inte ger ade-kvata resultat på grund av den rådande marknaden. Vidare så ger en SARIMA-modell den bästa prediktionen, vilket gör att slutsatsen är att andra exogenavariabler redan är inneslutna i den fördröjda volymvariabeln. Avslutningsvisså ger likviditetsmodellen tillfredsställande resultat och antas vara rimlig. Financial mathematics time series analysis replicating portfolio risk management risk analysis econometric anaylsis non-maturing deposits SARIMA Random forest regression EBA BCBS Finansiell matematik tidsserieanalys replikeringsportfölj riskhantering riskanalys Ekonometrisk analys Icke-tidsbunden inlåning ARIMA SARIMA SARIMAX Random Forest Regression EBA BCBS Probability Theory and Statistics Sannolikhetsteori och statistik
409	Analysis of machine learning for human motion pattern recognition on embedded devices / Analys av maskininlärning för igenkänning av mänskliga rörelser på inbyggda system Fredriksson, Tomas, Svensson, Rickard January 2018 (has links) With an increased amount of connected devices and the recent surge of artificial intelligence, the two technologies need more attention to fully bloom as a useful tool for creating new and exciting products. As machine learning traditionally is implemented on computers and online servers this thesis explores the possibility to extend machine learning to an embedded environment. This evaluation of existing machine learning in embedded systems with limited processing capa-bilities has been carried out in the specific context of an application involving classification of basic human movements. Previous research and implementations indicate that it is possible with some limitations, this thesis aims to answer which hardware limitation is affecting clas-sification and what classification accuracy the system can reach on an embedded device. The tests included human motion data from an existing dataset and included four different machine learning algorithms on three devices. Support Vector Machine (SVM) are found to be performing best com-pared to CART, Random Forest and AdaBoost. It reached a classification accuracy of 84,69% between six different included motions with a clas-sification time of 16,88 ms per classification on a Cortex M4 processor. This is the same classification accuracy as the one obtained on the host computer with more computational capabilities. Other hardware and machine learning algorithm combinations had a slight decrease in clas-sification accuracy and an increase in classification time. Conclusions could be drawn that memory on the embedded device affect which al-gorithms could be run and the complexity of data that can be extracted in form of features. Processing speed is mostly affecting classification time. Additionally the performance of the machine learning system is connected to the type of data that is to be observed, which means that the performance of different setups differ depending on the use case. / Antalet uppkopplade enheter ökar och det senaste uppsvinget av ar-tificiell intelligens driver forskningen framåt till att kombinera de två teknologierna för att både förbättra existerande produkter och utveckla nya. Maskininlärning är traditionellt sett implementerat på kraftfulla system så därför undersöker den här masteruppsatsen potentialen i att utvidga maskininlärning till att köras på inbyggda system. Den här undersökningen av existerande maskinlärningsalgoritmer, implemen-terade på begränsad hårdvara, har utförts med fokus på att klassificera grundläggande mänskliga rörelser. Tidigare forskning och implemen-tation visar på att det ska vara möjligt med vissa begränsningar. Den här uppsatsen vill svara på vilken hårvarubegränsning som påverkar klassificering mest samt vilken klassificeringsgrad systemet kan nå på den begränsande hårdvaran. Testerna inkluderade mänsklig rörelsedata från ett existerande dataset och inkluderade fyra olika maskininlärningsalgoritmer på tre olika system. SVM presterade bäst i jämförelse med CART, Random Forest och AdaBoost. Den nådde en klassifikationsgrad på 84,69% på de sex inkluderade rörelsetyperna med en klassifikationstid på 16,88 ms per klassificering på en Cortex M processor. Detta är samma klassifikations-grad som en vanlig persondator når med betydligt mer beräknings-resurserresurser. Andra hårdvaru- och algoritm-kombinationer visar en liten minskning i klassificeringsgrad och ökning i klassificeringstid. Slutsatser kan dras att minnet på det inbyggda systemet påverkar vilka algoritmer som kunde köras samt komplexiteten i datan som kunde extraheras i form av attribut (features). Processeringshastighet påverkar mest klassificeringstid. Slutligen är prestandan för maskininlärningsy-stemet bunden till typen av data som ska klassificeras, vilket betyder att olika uppsättningar av algoritmer och hårdvara påverkar prestandan olika beroende på användningsområde. ai machine learning embedded systems internet of things human motion analysis support vector machines decision tree random forest features cortex m-series ai maskininlärning inbyggda system internet of things människliga rörelser support vector machines decision tree random forest features cortex m-series Mechanical Engineering Maskinteknik
410	Estimating the load weight of freight trains using machine learning Kongpachith, Erik January 2023 (has links) Accurate estimation of the load weight of freight trains is crucial for ensuring safe, efficient and sustainable rail freight transports. Traditional methods for estimating load weight often suffer from limitations in accuracy and efficiency. In recent years, machine learning algorithms have gained significant attention and use cases within the railway industry due to their strong predictive capabilities for classification and regression tasks. This study aims to present a proof of concept in the form of a comparative analysis of five machine learning regression algorithms: Polynomial Regression, K-Nearest Neighbors, Regression Trees, Random Forest Regression, and Support Vector Regression for estimating the load weight of freight trains using simulation data. The study utilizes two comprehensive datasets derived from train simulations in GENSYS, a simulation software for modeling rail vehicles. The datasets encompasses various driving condition factors such as train speed, track conditions and running gear configurations. The algorithms are trained and evaluated on these datasets and their performance is evaluated based on the root mean squared error and R2 metrics. Results from the experiments demonstrate that all five machine learning algorithms show promising performance for estimating the load weight. Polynomial regression achieves the best result for both of the datasets when using many features of the datasets are considered. Random forest regression achieves the best result for both of the data sets when a small number features of the datasets are considered. Furthermore, it is suggested that the methodical approach of this study is examined on real world data from operating freight trains to assert the proof of concept in a real world setting. / Noggrann uppskattning av godstågens lastvikt är avgörande för att säkerställa säkra, effektiva och hållbara godstransporter via järnväg. Traditionella metoder för att uppskatta lastvikt lider ofta av begränsningar i noggrannhet och effektivitet. Under de senaste åren har maskininlärningsalgoritmer fått betydande uppmärksamhet och användningsfall inom järnvägsindustrin på grund av deras starka prediktiva förmåga för klassificerings- och regressionsproblem. Denna studie syftar till att presentera en proof of concept i form av en jämförande analys av fem maskininlärningalgoritmer för regression: Polynom regression, K-Nearest Neighbors, Regression träd, Random Forest Regression och Support Vector Regression för att uppskatta lastvikten för godståg med hjälp av simuleringsdata. Studien använder två omfattande dataset konstruerade från tågsimuleringar i GENSYS, en simuleringsprogramvara för modellering av järnvägsfordon. Dataseten omfattar olika körfaktorer såsom tåghastighet, spårförhållanden och vagns konfigurationer. Algoritmerna tränas och utvärderas på dessa dataset och deras prestanda utvärderas baserat på root mean squared error och R2 måtten. Resultat från experimenten visar att alla fem maskininlärningsalgoritmerna visar lovande prestanda för att uppskatta lastvikten. Polynom regression uppnår det bästa resultatet för båda dataset när många variabler i datan beaktas. Random Forest Regression ger det bästa resultatet för båda dataset när ett mindre antal variabler i datan beaktas. Det föreslås det att det metodiska tillvägagångssättet för denna studie undersöks på verklig data från aktiva godståg för att fastställa en proof of concept på en verklig världsbild. Railway freight Transport Rail Vehicle Weighing Y25 Bogie Sdggmrss T3000eD GENSYS Machine Learning Regression Polynomial Regression Regression Trees Random Forest Regression Support Vector Regression Järnvägsgods transport Vägning av järnvägsfordon Y25 Bogie Sdggmrss T3000eD GENSYS Maskininlärning Regression Polynom Regression Regressionsträd Random Forest Regression Support Vector Regression Computer and Information Sciences Data- och informationsvetenskap

Search results