Spelling suggestions: "subject:"slumpmässig"" "subject:"slumpmässigt""
11 |
Encoding Temporal Healthcare Data for Machine LearningLaczik, Tamás January 2021 (has links)
This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna.
|
12 |
Detection and Classification of Anomalies in Road Traffic using Spark StreamingConsuegra Rengifo, Nathan Adolfo January 2018 (has links)
Road traffic control has been around for a long time to guarantee the safety of vehicles and pedestrians. However, anomalies such as accidents or natural disasters cannot be avoided. Therefore, it is important to be prepared as soon as possible to prevent a higher number of human losses. Nevertheless, there is no system accurate enough that detects and classifies anomalies from the road traffic in real time. To solve this issue, the following study proposes the training of a machine learning model for detection and classification of anomalies on the highways of Stockholm. Due to the lack of a labeled dataset, the first phase of the work is to detect the different kind of outliers that can be found and manually label them based on the results of a data exploration study. Datasets containing information regarding accidents and weather are also included to further expand the amount of anomalies. All experiments use real world datasets coming from either the sensors located on the highways of Stockholm or from official accident and weather reports. Then, three models (Decision Trees, Random Forest and Logistic Regression) are trained to detect and classify the outliers. The design of an Apache Spark streaming application that uses the model with the best results is also provided. The outcomes indicate that Logistic Regression is better than the rest but still suffers from the imbalanced nature of the dataset. In the future, this project can be used to not only contribute to future research on similar topics but also to monitor the highways of Stockholm. / Vägtrafikkontroll har funnits länge för att garantera säkerheten hos fordon och fotgängare. Emellertid kan avvikelser som olyckor eller naturkatastrofer inte undvikas. Därför är det viktigt att förberedas så snart som möjligt för att förhindra ett större antal mänskliga förluster. Ändå finns det inget system som är noggrannt som upptäcker och klassificerar avvikelser från vägtrafiken i realtid. För att lösa detta problem föreslår följande studie utbildningen av en maskininlärningsmodell för detektering och klassificering av anomalier på Stockholms vägar. På grund av bristen på en märkt dataset är den första fasen av arbetet att upptäcka olika slags avvikare som kan hittas och manuellt märka dem utifrån resultaten av en datautforskningsstudie. Dataset som innehåller information om olyckor och väder ingår också för att ytterligare öka antalet anomalier. Alla experiment använder realtidsdataset från antingen sensorerna på Stockholms vägar eller från officiella olyckor och väderrapporter. Därefter utbildas tre modeller (beslutsträd, slumpmässig skog och logistisk regression) för att upptäcka och klassificera outliersna. Utformningen av en Apache Spark streaming-applikation som använder modellen med de bästa resultaten ges också. Resultaten tyder på att logistisk regression är bättre än resten men fortfarande lider av datasetets obalanserade natur. I framtiden kan detta projekt användas för att inte bara bidra till framtida forskning kring liknande ämnen utan även att övervaka Stockholms vägar.
|
13 |
Segmentering av medicinska bilder med inspiration från en quantum walk algoritm / Segmentation of Medical Images Inspired by a Quantum Walk AlgorithmAltuni, Bestun, Aman Ali, Jasin January 2023 (has links)
För närvarande utforskas quantum walk som en potentiell metod för att analysera medicinska bilder. Med inspiration från Gradys random walk-algoritm för bildbehandling har vi utvecklat en metod som bygger på de kvantmekaniska fördelar som quantum walk innehar för att detektera och segmentera medicinska bilder. Vidare har de segmenterade bilderna utvärderats utifrån klinisk relevans. Teoretiskt sett kan quantum walk-algoritmer erbjuda en mer effektiv metod för bildanalys inom medicin jämfört med traditionella metoder för bildsegmentering som exempelvis klassisk random walk, som inte bygger på kvantmekanik. Inom området finns omfattande potential för utveckling, och det är av yttersta vikt att fortsätta utforska och förbättra metoder. För närvarande kan det konstateras att det är en lång väg att vandra innan detta är något som kan appliceras i en klinisk miljö. / Currently, quantum walk is being explored as a potential method for analyzing medical images. Taking inspiration from Grady's random walk algorithm for image processing, we have developed an approach that leverages the quantum mechanical advantages inherent in quantum walk to detect and segment medical images. Furthermore, the segmented images have been evaluated in terms of clinical relevance. Theoretically, quantum walk algorithms have the potential to offer a more efficient method for medical image analysis compared to traditional methods of image segmentation, such as classical random walk, which do not rely on quantum mechanics. Within this field, there is significant potential for development, and it is of utmost importance to continue exploring and refining these methods. However, it should be noted that there is a long way to go before this becomes something that can be applied in a clinical environment.
|
14 |
Bounded exhaustive generation of tests in model-based testing / Begränsad uttömmande generation av tester inom modellbaserad testningAlmajni, Nour Alhuda January 2021 (has links)
There are some systems (or parts of systems) that are very critical and need especially good test suites to test them. For these critical systems, exhaustive testing may be a good way to test them. Thus, we have implemented two versions of bounded exhaustive search (BES) algorithms in a model-based testing tool called, Modbat. One of the BES versions (BESnL) visits each self-loop in the model only once. The other version (BESL) has no constraint or limitation on the number of time it visits each self-loop. We have then compared the two BES algorithms with each other and with an already implemented algorithm in Modbat called random search (RS). We have run the three mentioned algorithms (BESL, BESnL and RS) on five different models and compared their performance on these models in terms of time, coverage and finding faults. We have found that BESnL is faster than BESL and it can miss some faults that BESL can find. However, BESnL can find errors faster than BESL. BESL has sometimes better performance than BESnL in terms of branch coverage. In terms of other coverage criteria (like state coverage, transition coverage and instruction coverage), both BESL and BESnL has very similar performance. We have also found that running the RS algorithm is, in general, faster than both BES algorithms at generating tests (given the same total number of tests generated) if the model has a clear end state. RS may also be faster at finding faults than the BES algorithms. However, The BES algorithms and the RS algorithm have similar behaviours regarding coverage. Nevertheless, RS can sometimes reach higher coverage faster than the BES algorithms and with a smaller number of tests. / Det finns vissa system (eller delar av system) som är mycket essentiella och som behöver särskilt bra testsviter för att testa dem. För dessa essentiella system kan uttömmande tester vara ett bra sätt att testa dem. Således har vi implementerat två versioner av begränsad uttömmande sökning eller på engelska ”bounded exhuastive search” (BES) algoritmer i ett modellbaserat testverktyg kallat Modbat. En av BES-versionerna (BESnL) besöker varje självslinga i modellen bara en gång. Den andra versionen (BESL) har ingen begränsning av hur många gånger den besöker varje självslinga. Vi har sedan jämfört de två BES-algoritmerna med varandra och med en redan implementerad algoritm i Modbat som kallas slumpmässig sökning eller på engelska ”random search” (RS). Vi har kört de tre nämnda algoritmerna (BESL, BESnL och RS) på fem olika modeller och jämfört deras prestanda på dessa modeller när det gäller tid, täckning (coverage) och att hitta fel. Vi har funnit att BESnL är snabbare än BESL och det kan missa några fel som BESL kan hitta, men BESnL kan hitta fel snabbare än BESL. BESL har ibland bättre prestanda än BESnL när det gäller filialtäckning (branch-coverage). När det gäller andra täckningskriterier (som statlig täckning, övergångstäckning (tranintion-coverage) och instruktionstäckning) har både BESL och BESnL mycket liknande resultat. Vi har också funnit att körning av RS-algoritmen i allmänhet är snabbare än båda BES- algoritmerna vid generering av tester (givet samma totala antal genererade tester) om modellen har ett klart slutläge (end-state). RS kan också vara snabbare att hitta fel än BES-algoritmerna. BES-algoritmerna och RS-algoritmen har dock liknande beteenden när det gäller täckning. RS kan ibland nå högre täckning snabbare än BES-algoritmerna och med ett mindre antal tester.
|
15 |
Initial access in 5G mmWave networks with different base station parameters / Initial access i 5G mmWave-nät med olika basstationsparametrarYang, Xiao January 2022 (has links)
Nowadays in the fifth generation (5G) communication systems, millimeter wave (mmWave) has aroused interest to not only industrial use but also network operators due to the massive amount of bandwidth available at mmWave frequencies. Initial access in cellular systems is an essential procedure in which new mobile user equipment (UE) establishes a connection with a base station (BS). However, mmWave relies on highly directional beamforming (BF) to overcome its severe path loss, while the initial access requires a wide beam to obtain sufficient information for beamforming. So the challenge is to handle the balance between highly directional mmWave and fast and reliable initial access. The high path loss of millimetre wave transmission dictates that multiple BSs may be closer and interfere more with each other. We focus our study on two BS parameters under the random search method. In our study, the beamwidth can be different for each BS, but a uniform number of slot limits needs to be chosen for all BSs. Our objective is to obtain the best parameters for each BS in a reasonable period of time. We build a systemlevel simulation in MATLAB and explored a variety of methods to select the best parameters, including reinforcement learning, supervised learning, and genetic algorithms. It is identified that the main challenge of applying reinforcement learning and supervised learning is the exponentially growing variety of BS parameters. A genetic algorithm is able to derive approximate best values in complex relational species. Therefore the genetic algorithm is considered to be able to be applied in scenarios with a high number of BSs. The result shows that reinforcement learning has great performance in a few BS cases, and the genetic algorithm is able to provide a large improvement over most of the BS methods with the same parameters. / I den femte generationens kommunikationssystem har millimetervågor väckt intresse, inte bara inom industrin utan även hos nätverksoperatörer, på grund av den enorma bandbredd som finns tillgänglig vid mmWave-frekvenser. Initial access i cellulära system är ett viktigt förfarande där ny mobil användarutrustning upprättar en anslutning till en basstation. mmWave är dock beroende av starkt riktad strålformning för att övervinna den allvarliga vägförlusten, medan den inledande åtkomsten kräver en bred stråle för att få tillräcklig information för strålformning. Utmaningen består alltså i att hantera balansen mellan mycket riktgivande mmWave och snabb och tillförlitlig initial access. Den höga vägförlusten för millimetervågsöverföring innebär att flera stationära basstationer kan vara närmare varandra och störa varandra mer. Vi fokuserar vår studie på två parametrar för BS med hjälp av metoden för slumpmässig sökning. I vår studie kan strålbredden vara olika för varje BS, men ett enhetligt antal slotgränser måste väljas för alla BS. Vårt mål är att få fram debästa parametrarna för varje BS på en rimlig tidsperiod. Vi bygger upp en simulering på systemnivå i MATLAB och utforskade en rad olika metoder för att välja de bästa parametrarna, bland annat förstärkningsinlärning, övervakad inlärning och genetiska algoritmer. Det konstateras att de största utmaningarna vid tillämpning av förstärkningsinlärning och övervakad inlärning är det exponentiellt växande utbudet av parametrar för BS. Genetisk algoritm kan härleda ungefärliga bästa värden i komplexa relationella arter. Därför anses den genetiska algoritmen kunna tillämpas i scenarier med ett stort antal BSs. Resultatet visar att förstärkningsinlärning har stor prestanda i ett fåtal BS-fall och att genetisk algoritm kan ge en stor förbättring jämfört med de flesta BS-metoder med samma parametrar.
|
16 |
BFT Baxos : Robust and Efficient BFT Consensus using Random Backoff / BFT Baxos: Robust och Effektiv BFT Konsensus med Användning av Slumpmässig BackoffCui, Zhanbo January 2024 (has links)
BFT consensus algorithms can ensure the consistency of distributed systems where nodes may behave arbitrarily due to faults or intentional malicious actions. However, most of the practical BFT consensus algorithms are leader-based. In an adversarial network, leader-based BFT consensus algorithms exhibit vulnerabilities and lack resilience. Byzantine leaders can pose a potential threat to the system; firstly, malicious leaders can actively downgrade the processing speed of handling proposals, thereby diminishing the system’s overall performance. Secondly, they can determine the submission order of received requests, which can be fatal in specific decentralized financial systems. Additionally, external attackers can compromise the system’s stability by conducting DDoS attacks on leader nodes, frequently triggering view changes and potentially causing the system to lose liveness altogether. We present BFT Baxos, a more robust and resilient BFT consensus protocol that equips a BFT random exponential backoff mechanism to ensure each node has the egalitarian right to propose. Employing random exponential backoff as a replacement for leader election eliminates the potential malicious actions of Byzantine leaders and prevents external attackers from conducting targeted DDoS attacks on the leader node within systems. We implemented and evaluated our BFT Baxos prototype. Our results indicate that BFT Baxos exhibits good performance and scalability in low-concurrency scenarios. Additionally, we illustrated the functioning of BFT Baxos even in extremely adverse network conditions by subjecting it to random DDoS attacks. / BFT-konsensusalgoritmer är utformade för att säkerställa konsistensen i distribuerade system där noder kan agera godtyckligt, antingen på grund av fel eller avsiktliga skadliga handlingar. Dock är de flesta praktiska BFT-konsensusalgoritmerna baserade på ledare. I en fientlig nätverksmiljö uppvisar ledar-baserade BFT-konsensusalgoritmer sårbarheter och brist på motståndskraft. Bysantinska ledare kan utgöra en potentiell hot mot systemet; för det första kan skadliga ledare aktivt sänka behandlingshastigheten för hantering av förslag och därigenom minska systemets totala prestanda. För det andra kan de bestämma ordningen för inskickning av mottagna begäranden, vilket kan vara ödesdigert i vissa decentraliserade finansiella system. Dessutom kan externa angripare kompromettera systemets stabilitet genom att genomföra DDoS-attacker mot ledarnoder, vilket ofta utlöser vynändringar och potentiellt orsakar att systemet förlorar livskraft helt och hållet. Vi presenterar BFT Baxos, en mer robust och motståndskraftig BFT-konsensusprotokoll som utrustar en BFT slumpmässig exponentiell backoff-mekanism för att säkerställa att varje nod har rätten att föreslå på ett egalitärt sätt. Genom att använda slumpmässig exponentiell backoff som ett alternativ till ledarval eliminerar det inte bara möjliga skadliga handlingar från bysantinska ledare utan förhindrar även externa angripare från att genomföra riktade DDoS-attacker mot ledarnoden inom system. Vi implementerade och utvärderade vår BFT Baxos-prototyp. Våra resultat visar att BFT Baxos uppvisar god prestanda och skalbarhet i scenarier med låg samtidighet. Dessutom illustrerade vi funktionen av BFT Baxos även under extremt ogynnsamma nätverksförhållanden genom att utsätta den för slumpmässiga DDoS-attacker.
|
17 |
High frequency rainfall data disaggregation with a random cascade model : Identifying regional differences in hyetographs in SwedenRulewski Stenberg, Louis January 2021 (has links)
The field of urban hydrology is in need of high temporal resolution data series in order to effectively model and analyse existing and future trends in extreme precipitation. When high resolution data sets are, for any number of reasons, not available for a given location, the technique of disaggregation using a random cascade model can be applied. Previous studies have demonstrated the relevance of random cascades in the context of rainfall data disaggregation with temporal resolutions usually down to 1 hour. In this study, an attempt at disaggregation to a resolution of 1 minute was made. Using newly disaggregated rainfall data for different regions in Sweden, the possibility of clustering rain events into separate regional hyetographs was investigated. The random cascade model was calibrated using existing municipal rainfall data with a temporal resolution of 1 minute, in order to disaggregate continuous 15 minutes data series provided by the Swedish Meteorological and Hydrological Institute (SMHI). The disaggregation process was then performed in multiple stochastic realisations, in order to correct the uncertainties inherent to the random cascade model. The disaggregation results were assessed by comparing them with calibration data: two main rainfall parameters, EV and ED, were analysed by determining their behaviours and distribution. The possibility of transfering calibration parameters from one station to another was also assessed in a similar manner, again by studying EV & ED for different scenarios. Finally, hyetographs were clustered, compared and contrasted, in order to ascertain previously theorized differences between regions. This research showed the feasibility of applying a random cascade model to very high temporal resolutions in Sweden, while replicating rainfall characteristics from the calibration data quite well. The analysis of the spatial transferability of calibration parameters yielded inconclusive results, as rainfall characteristics were preserved in some cases but failed in others. Lastly, distinct regional differences in hyetographs were noted, but no clear conclusions could be drawn owing to the delimitations of this study. / Inom småskalig hydrologisk modellering finns det idag ett behov av dataserier med hög tidsupplösning för att effektivt kunna modellera och analysera både aktuella och kommande trender hos extrema regnhändelser. När högupplösta dataserier är otillgängliga vid en önskad mätplats kan disaggregering med hjälp av en slumpmässig kaskadmodell tillämpas. Tidigare forskning har visat att kaskadmodeller är användbara för disaggregering av regndata med en tidsupplösning av 1 timme. I denna studie disaggregerades dataserier med syftet att uppnå en tidsupplösningav av 1 minut. För att kunna analysera eventuella skillnader mellan regioner klustrades även hyetografer med de framtagna dataserierna. Den slumpmässiga kaskadmodellen kalibrerades med befintlig kommunal data med en tidsupplösning på 1 minut, för att sedan kunna disaggregera 15 minuters data från SMHIs databaser. Disaggregeringen genomfördes i ett antal olika stokastiska realisationer för att kunna ta hänsyn till, och korrigera, de inneboende osäkerheterna i den slumpmässiga kaskadmodellen. Disaggregeringsresultaten bedömdes genom en jämförelse med kalibreringsdata: två regnegenskaper, regnvaraktighet (ED) och regnvolym (EV), analyserades för att kunna bestämma derasfördelningar och beteenden. Kalibreringsparametrarnas överförbarhet analyserades också med hjälp av ED & EV för olika scenarier. Slutligen klustrades hyetografer för att fastställa potentiella skillnader mellan regioner. Studien påvisade möjligheten att använda en slumpmässig kaskadmodell till höga tidsupplösningar i Sverige. Modellen lyckades återskapa regnegenskaper från kalibreringsdata vid disaggregeringen. Möjligheten att överföra kalibreringsparametrar från en station till en annan visade sig dock inte vara helt övertygande: regnegenskaper återskapades endast i vissa fall, men inte i samtliga. Slutligen konstaterades regionala skillnader i hyetografer, men tydliga slutsatser kunde inte dras på grund av underliggande begränsningar med studien.
|
18 |
Analyzing Radial Basis Function Neural Networks for predicting anomalies in Intrusion Detection Systems / Utvärdera prestanda av radiella basfunktionsnätverk för intrångsdetekteringssystemKamat, Sai Shyamsunder January 2019 (has links)
In the 21st century, information is the new currency. With the omnipresence of devices connected to the internet, humanity can instantly avail any information. However, there are certain are cybercrime groups which steal the information. An Intrusion Detection System (IDS) monitors a network for suspicious activities and alerts its owner about an undesired intrusion. These commercial IDS’es react after detecting intrusion attempts. With the cyber attacks becoming increasingly complex, it is expensive to wait for the attacks to happen and respond later. It is crucial for network owners to employ IDS’es that preemptively differentiate a harmless data request from a malicious one. Machine Learning (ML) can solve this problem by recognizing patterns in internet traffic to predict the behaviour of network users. This project studies how effectively Radial Basis Function Neural Network (RBFN) with Deep Learning Architecture can impact intrusion detection. On the basis of the existing framework, it asks how well can an RBFN predict malicious intrusive attempts, especially when compared to contemporary detection practices.Here, an RBFN is a multi-layered neural network model that uses a radial basis function to transform input traffic data. Once transformed, it is possible to separate the various traffic data points using a single straight line in extradimensional space. The outcome of the project indicates that the proposed method is severely affected by limitations. E.g. the model needs to be fine tuned over several trials to achieve a desired accuracy. The results of the implementation show that RBFN is accurate at predicting various cyber attacks such as web attacks, infiltrations, brute force, SSH etc, and normal internet behaviour on an average 80% of the time. Other algorithms in identical testbed are more than 90% accurate. Despite the lower accuracy, RBFN model is more than 94% accurate at recording specific kinds of attacks such as Port Scans and BotNet malware. One possible solution is to restrict this model to predict only malware attacks and use different machine learning algorithm for other attacks. / I det 21: a århundradet är information den nya valutan. Med allnärvaro av enheter anslutna till internet har mänskligheten tillgång till information inom ett ögonblick. Det finns dock vissa grupper som använder metoder för att stjäla information för personlig vinst via internet. Ett intrångsdetekteringssystem (IDS) övervakar ett nätverk för misstänkta aktiviteter och varnar dess ägare om ett oönskat intrång skett. Kommersiella IDS reagerar efter detekteringen av ett intrångsförsök. Angreppen blir alltmer komplexa och det kan vara dyrt att vänta på att attackerna ska ske för att reagera senare. Det är avgörande för nätverksägare att använda IDS:er som på ett förebyggande sätt kan skilja på oskadlig dataanvändning från skadlig. Maskininlärning kan lösa detta problem. Den kan analysera all befintliga data om internettrafik, känna igen mönster och förutse användarnas beteende. Detta projekt syftar till att studera hur effektivt Radial Basis Function Neural Networks (RBFN) med Djupinlärnings arkitektur kan påverka intrångsdetektering. Från detta perspektiv ställs frågan hur väl en RBFN kan förutsäga skadliga intrångsförsök, särskilt i jämförelse med befintliga detektionsmetoder.Här är RBFN definierad som en flera-lagers neuralt nätverksmodell som använder en radiell grundfunktion för att omvandla data till linjärt separerbar. Efter en undersökning av modern litteratur och lokalisering av ett namngivet dataset användes kvantitativ forskningsmetodik med prestanda indikatorer för att utvärdera RBFN: s prestanda. En Random Forest Classifier algorithm användes också för jämförelse. Resultaten erhölls efter en serie finjusteringar av parametrar på modellerna. Resultaten visar att RBFN är korrekt när den förutsäger avvikande internetbeteende i genomsnitt 80% av tiden. Andra algoritmer i litteraturen beskrivs som mer än 90% korrekta. Den föreslagna RBFN-modellen är emellertid mycket exakt när man registrerar specifika typer av attacker som Port Scans och BotNet malware. Resultatet av projektet visar att den föreslagna metoden är allvarligt påverkad av begränsningar. T.ex. så behöver modellen finjusteras över flera försök för att uppnå önskad noggrannhet. En möjlig lösning är att begränsa denna modell till att endast förutsäga malware-attacker och använda andra maskininlärnings-algoritmer för andra attacker.
|
19 |
Performance comparison of data mining algorithms for imbalanced and high-dimensional dataRubio Adeva, Daniel January 2023 (has links)
Artificial intelligence techniques, such as artificial neural networks, random forests, or support vector machines, have been used to address a variety of problems in numerous industries. However, in many cases, models have to deal with issues such as imbalanced data or high multi-dimensionality. This thesis implements and compares the performance of support vector machines, random forests, and neural networks for a new bank account fraud detection, a use case defined by imbalanced data and high multi-dimensionality. The neural network achieved both the best AUC-ROC (0.889) and the best average precision (0.192). However, the results of the study indicate that the difference between the models’ performance is not statistically significant to reject the initial hypothesis that assumed equal model performances. / Artificiell intelligens, som artificiella neurala nätverk, random forests eller support vector machines, har använts för att lösa en mängd olika problem inom många branscher. I många fall måste dock modellerna hantera problem som obalanserade data eller hög flerdimensionalitet. Denna avhandling implementerar och jämför prestandan hos support vector machines, random forests och neurala nätverk för att upptäcka bedrägerier med nya bankkonton, ett användningsfall som definieras av obalanserade data och hög flerdimensionalitet. Det neurala nätverket uppnådde både den bästa AUC-ROC (0,889) och den bästa genomsnittliga precisionen (0,192). Resultaten av studien visar dock att skillnaden mellan modellernas prestanda inte är statistiskt signifikant för att förkasta den ursprungliga hypotesen som antog lika modellprestanda.
|
20 |
Learning to Price Apartments in Swedish Cities / Lära sig prissätta lägenheter i svenska städerSegerhammar, Fredrik January 2021 (has links)
This thesis tackles the problem of accurately pricing apartments in large Swedish cities using geospatial data. The aim is to determine if geospatial data and population statistics can be used in conjunction with direct apartment data to accurately price apartments in large cities. There has previously been little research in this domain due to a lack of available data in many countries. In Sweden, apartment transaction data is public which enabled this thesis to be performed. We apply and compare a multiple linear regression, a multi-layer perceptron and a random forest to appraise apartments in six of the largest cities in Sweden. To perform the appraisals, geospatial data and population statistics were gathered in the areas surrounding the apartments. Five of the six cities were used to train and test the models, whereas one city was only used for testing. The two best performing models, the multi-layer perceptron and random forest achieved a mean absolute percentage error of 8.68% and 8.76% respectively within cities they were previously trained within and a mean absolute percentage error of 22.62% and 20.6% respectively on apartment in the test city dataset. In conclusion this thesis suggests that with the use of this data, multi-layer perceptrons and random forests are useful for appraising apartments in different cities, however that more data is probably needed to appraise apartments in cities previously unseen by the models. / Detta masterarbete tar upp problemet med att korrekt prissätta lägenheter i stora svenska städer med hjälp av geospatiala data. Syftet är att avgöra om geospatiala data och befolkningsstatistik kan användas tillsammans med direkt lägenhetsdata för att korrekt prissätta lägenheter i storstäder. Det har tidigare utförts lite forskning inom detta område på grund av brist på tillgängliga data i många länder. I Sverige är uppgifter om lägenhetstransaktioner offentliga vilket gjorde att denna avhandling kunde utföras. Vi tillämpar och jämför en multipel linjär regression, en flerskiktsperceptron och en slumpmässig skog för att värdera lägenheter i sex av de största städerna i Sverige. För att göra värderingarna samlades geospatiala data och befolkningsstatistik i de områden som omger lägenheterna. Fem av de sex städerna användes för att träna och testa modellerna, medan en stad endast användes för testning. De två bäst presterande modellerna, flerskiktsperceptronen och slumpmässig skog uppnådde ett genomsnittligt absolut procentfel på 8,68% respektive 8,76% inom städer som de tidigare var tränade inom och ett genomsnittligt absolut procentfel på 22,62% respektive 20,6% på lägenheter i teststadens dataset. Sammanfattningsvis tyder detta verk på att med hjälp av dessa data är flerskiktsperceptroner och slumpmässiga skogar användbara för att värdera lägenheter i olika städer, men att mer data förmodligen behövs för att värdera lägenheter i städer som modellerna tidigare inte har tränats på.
|
Page generated in 0.0697 seconds