101 |
Probability of Default Term Structure Modeling : A Comparison Between Machine Learning and Markov ChainsEnglund, Hugo, Mostberg, Viktor January 2022 (has links)
During the recent years, numerous so-called Buy Now, Pay Later companies have emerged. A type of financial institution offering short term consumer credit contracts. As these institutions have gained popularity, their undertaken credit risk has increased vastly. Simultaneously, the IFRS 9 regulatory requirements must be complied with. Specifically, the Probability of Default (PD) for the entire lifetime of such a contract must be estimated. The collection of incremental PDs over the entire course of the contract is called the PD term structure. Accurate estimates of the PD term structures are desirable since they aid in steering business decisions based on a given risk appetite, while staying compliant with current regulations. In this thesis, the efficiency of Machine Learning within PD term structure modeling is examined. Two categories of Machine Learning algorithms, in five variations each, are evaluated; (1) Deep Neural Networks; and (2) Gradient Boosted Trees. The Machine Learning models are benchmarked against a traditional Markov Chain model. The performance of the models is measured by a set of calibration and discrimination metrics, evaluated at each time point of the contract as well as aggregated over the entire time horizon. The results show that Machine Learning can be used efficiently within PD term structure modeling. The Deep Neural Networks outperform the Markov Chain model in all performance metrics, whereas the Gradient Boosted Trees are better in all except one metric. For short-term predictions, the Machine Learning models barely outperform the Markov Chain model. For long-term predictions, however, the Machine Learning models are superior. / Flertalet s.k. Köp nu, betala senare-företag har växt fram under de senaste åren. En sorts finansiell institution som erbjuder kortsiktiga konsumentkreditskontrakt. I samband med att dessa företag har blivit alltmer populära, har deras åtagna kreditrisk ökat drastiskt. Samtidigt måste de regulatoriska kraven ställda av IFRS 9 efterlevas. Specifikt måste fallisemangsrisken för hela livslängden av ett sådant kontrakt estimeras. Samlingen av inkrementell fallisemangsrisk under hela kontraktets förlopp kallas fallisemangsriskens terminsstruktur. Precisa estimat av fallisemangsriskens terminsstruktur är önskvärda eftersom de understödjer verksamhetsbeslut baserat på en given riskaptit, samtidigt som de nuvarande regulatoriska kraven efterlevs. I denna uppsats undersöks effektiviteten av Maskininlärning för modellering av fallisemangsriskens terminsstruktur. Två kategorier av Maskinlärningsalgoritmer, i fem variationer vardera, utvärderas; (1) Djupa neuronnät; och (2) Gradient boosted trees. Maskininlärningsmodellerna jämförs mot en traditionell Markovkedjemodell. Modellernas prestanda mäts via en uppsättning kalibrerings- och diskrimineringsmått, utvärderade i varje tidssteg av kontraktet samt aggregerade över hela tidshorisonten. Resultaten visar att Maskininlärning är effektivt för modellering av fallisemangsriskens terminsstruktur. De djupa neuronnäten överträffar Markovkedjemodellen i samtliga prestandamått, medan Gradient boosted trees är bättre i alla utom ett mått. För kortsiktiga prediktioner är Maskininlärningsmodellerna knappt bättre än Markovkedjemodellen. För långsiktiga prediktioner, däremot, är Maskininlärningsmodellerna överlägsna.
|
102 |
Deep Learning For RADAR Signal ProcessingWharton, Michael K. January 2021 (has links)
No description available.
|
103 |
"Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řeči / Semi-Supervised Training of Deep Neural Networks for Speech RecognitionVeselý, Karel January 2018 (has links)
V této dizertační práci nejprve prezentujeme teorii trénování neuronových sítí pro rozpoznávání řeči společně s implementací trénovacího receptu 'nnet1', který je součástí toolkitu s otevřeným kódem Kaldi. Recept se skládá z předtrénování bez učitele pomocí algoritmu RBM, trénování klasifikátoru z řečových rámců s kriteriální funkcí Cross-entropy a ze sekvenčního trénování po větách s kriteriální funkcí sMBR. Následuje hlavní téma práce, kterým je semi-supervised trénování se smíšenými daty s přepisem i bez přepisu. Inspirováni konferenčními články a úvodními experimenty jsme se zaměřili na několik otázek: Nejprve na to, zda je lepší konfidence (t.j. důvěryhodnosti automaticky získaných anotací) počítat po větách, po slovech nebo po řečových rámcích. Dále na to, zda by konfidence měly být použity pro výběr dat nebo váhování dat - oba přístupy jsou kompatibilní s trénováním pomocí metody stochastického nejstrmějšího sestupu, kde jsou gradienty řečových rámců násobeny vahou. Dále jsme se zabývali vylepšováním semi-supervised trénování pomocí kalibrace kofidencí a přístupy, jak model dále vylepšit pomocí dat se správným přepisem. Nakonec jsme navrhli jednoduchý recept, pro který není nutné časově náročné ladění hyper-parametrů trénování, a který je prakticky využitelný pro různé datové sady. Experimenty probíhaly na několika sadách řečových dat: pro rozpoznávač vietnamštiny s 10 přepsaným hodinami (Babel) se chybovost snížila o 2.5%, pro angličtinu se 14 přepsanými hodinami (Switchboard) se chybovost snížila o 3.2%. Zjistili jsme, že je poměrně těžké dále vylepšit přesnost systému pomocí úprav konfidencí, zároveň jsme ale přesvědčení, že naše závěry mají značnou praktickou hodnotu: data bez přepisu je jednoduché nasbírat a naše navrhované řešení přináší dobrá zlepšení úspěšnosti a není těžké je replikovat.
|
104 |
Deep learning methods for reverberant and noisy speech enhancementZhao, Yan 15 September 2020 (has links)
No description available.
|
105 |
Deep Learning in der Krebsdiagnostik − Chancen überstrahlen die RisikenKöhler, Till 28 December 2018 (has links)
Krebs ist die zweithäufigste Todesursache weltweit und zählt damit zu den größten Plagen der Menschheit. Jährlich sterben Menschen an den Folgen bösartiger Tumore und stellen Ärzte vor scheinbar unlösbare Aufgaben. Um Krebsgeschwüre effizient bekämpfen oder sogar vollständig beseitigen zu können, ist es enorm wichtig diese früh genug zu diagnostizieren. Oft stellt jedoch genau das in der Praxis ein großes Problem dar und Tumore werden erst dann als solche erkannt, wenn das Zellwachstum schon sehr weit fortgeschritten ist.
Eine große Chance für die frühzeitige Erkennung von Krebs bieten unterdessen Deep Learning Algorithmen. Die vorliegende Seminararbeit stellt diese Verfahren und ihre Anwendung in der Krebsdiagnostik vor. Es wird hierbei genauer auf Convolutional Neural Networks eingegangen, die besonders gut geeignet für die Analyse von Gewebebildern sind und unter anderem auch im System von Google's DeepMind zum Einsatz kommen. Die Arbeit analysiert Chancen und Risiken des Einsatzes von Deep Neural Networks bei der Diagnose von bösartigen Tumoren und verschafft dem Leser damit einen ganzheitlichen Überblick über die Anwendung von Deep Neural Networks im Bereich der Onkologie.:1 Einleitung
2 Vom Neuronalen Netz zum Deep Learning Algorithmus
2.1 Grundlagen Künstlicher Neuronaler Netze
2.1.1 Allgemeiner Aufbau
2.1.2 Das Neuron als Grundbaustein
2.1.3 Lernen in neuronalen Netzen
2.1.4 Loss Function und Optimizer
2.2 Convolutional Neural Networks
2.2.1 Convolutional Layer
2.2.2 Pooling Layer
2.2.3 Fully Connected Layer
2.2.4 Lernen und Aktivierung in CNN’s
3 DeepMind als Deep Learning Multitalent
3.1 Bisherige Erfolge
3.2 DeepMind Health
4 Chancen und Risiken in der Krebsdiagnostik
4.1 Aktueller Stand der Brustkrebsdiagnostik
4.2 Chancen von Deep Learning Algorithmen
4.3 Ethische Risiken
4.3.1 False Positives
4.3.2 False Negatives
4.4 Fazit der Risikoanalyse
5 Ausblick
|
106 |
An Investigation of Low-Rank Decomposition for Increasing Inference Speed in Deep Neural Networks With Limited Training DataWikén, Victor January 2018 (has links)
In this study, to increase inference speed of convolutional neural networks, the optimization technique low-rank tensor decomposition has been implemented and applied to AlexNet which had been trained to classify dog breeds. Due to a small training set, transfer learning was used in order to be able to classify dog breeds. The purpose of the study is to investigate how effective low-rank tensor decomposition is when the training set is limited. The results obtained from this study, compared to a previous study, indicate that there is a strong relationship between the effects of the tensor decomposition and how much available training data exists. A significant speed up can be obtained in the different convolutional layers using tensor decomposition. However, since there is a need to retrain the network after the decomposition and due to the limited dataset there is a slight decrease in accuracy. / För att öka inferenshastigheten hos faltningssnätverk, har i denna studie optimeringstekniken low-rank tensor decomposition implementerats och applicerats på AlexNet, som har tränats för att klassificera hundraser. På grund av en begränsad mängd träningsdata användes transfer learning för uppgiften. Syftet med studien är att undersöka hur effektiv low-rank tensor decomposition är när träningsdatan är begränsad. Jämfört med resultaten från en tidigare studie visar resultaten från denna studie att det finns ett starkt samband mellan effekterna av low-rank tensor decomposition och hur mycket tillgänglig träningsdata som finns. En signifikant hastighetsökning kan uppnås i de olika faltningslagren med hjälp av low-rank tensor decomposition. Eftersom det finns ett behov av att träna om nätverket efter dekompositionen och på grund av den begränsade mängden data så uppnås hastighetsökningen dock på bekostnad av en viss minskning i precisionen för modellen.
|
107 |
Implementation and verification of the Information Bottleneck interpretation of deep neural networksLiu, Feiyang January 2018 (has links)
Although deep neural networks (DNNs) have made remarkable achievementsin various elds, there is still not a matching practical theory that is able toexplain DNNs' performances. Tishby (2015) proposed a new insight to analyzeDNN via the Information bottleneck (IB) method. By visualizing how muchrelevant information each layer contains in input and output, he claimed thatthe DNNs training is composed of tting phase and compression phase. Thetting phase is when DNNs learn information both in input and output, andthe prediction accuracy goes high during this process. Afterwards, it is thecompression phase when information in output is preserved while unrelatedinformation in input is thrown away in hidden layers. This is a tradeo betweenthe network complexity (complicated DNNs lose less information in input) andprediction accuracy, which is the same goal with the IB method.In this thesis, we verify this IB interpretation rst by reimplementing Tishby'swork, where the hidden layer distribution is approximated by the histogram(binning). Additionally, we introduce various mutual information estimationmethods like kernel density estimators. Based upon simulation results, we concludethat there exists an optimal bound on the mutual information betweenhidden layers with input and output. But the compression mainly occurs whenthe activation function is \double saturated", like hyperbolic tangent function.Furthermore, we extend the work to the simulated wireless model where thedata set is generated by a wireless system simulator. The results reveal that theIB interpretation is true, but the binning is not a correct tool to approximatehidden layer distributions. The ndings of this thesis reect the informationvariations in each layer during the training, which might contribute to selectingtransmission parameter congurations in each frame in wireless communicationsystems. / Ä ven om djupa neuronnät (DNN) har gjort anmärkningsvärda framsteg på olikaområden, finns det fortfarande ingen matchande praktisk teori som kan förklara DNNs prestanda. Tishby (2015) föreslog en ny insikt att analysera DNN via informationsflaskhack (IB) -metoden. Genom att visualisera hur mycket relevant information varje lager innehåller i ingång och utgång, hävdade han att DNNs träning består av monteringsfas och kompressionsfas. Monteringsfasenär när DNN lär sig information både i ingång och utgång, och prediktionsnoggrannheten ökar under denna process. Efteråt är det kompressionsfasen när information i utgången bevaras medan orelaterad information i ingången kastas bort. Det här är en kompromiss mellan nätkomplexiteten (komplicerade DNN förlorar mindre information i inmatning) och predictionsnoggrannhet, vilket är exakt samma mål med informationsflaskhals (IB) -metoden.I detta examensarbete kontrollerar vi denna IB-framställning först genom att implementera om Tishby’s arbete, där den dolda lagerfördelningen approximeras av histogrammet (binning). Dessutom introducerar vi olika metoder förömsesidig information uppskattning som kernel density estimators. Baserat på simuleringsresultatet drar vi slutsatsen att det finns en optimal bindning för denömsesidiga informationen mellan dolda lager med ingång och utgång. Men komprimeringen sker huvudsakligen när aktiveringsfunktionen är “dubbelmättad”, som hyperbolisk tangentfunktion.Dessutom utvidgar vi arbetet till den simulerad trådlösa modellen där data set genereras av en trådlös systemsimulator. Resultaten visar att IB-framställning är sann, men binningen är inte ett korrekt verktyg för att approximera dolda lagerfördelningar. Resultatet av denna examensarbete reflekterar informationsvariationerna i varje lager, vilket kan bidra till att välja överföringspa-rameterns konfigurationer i varje ram i trådlösa kommunikationssystem
|
108 |
Tackling the Communication Bottlenecks of Distributed Deep Learning Training WorkloadsHo, Chen-Yu 08 1900 (has links)
Deep Neural Networks (DNNs) find widespread applications across various domains, including computer vision, recommendation systems, and natural language processing.
Despite their versatility, training DNNs can be a time-consuming process, and accommodating large models and datasets on a single machine is often impractical.
To tackle these challenges, distributed deep learning (DDL) training workloads have gained increasing significance.
However, DDL training introduces synchronization requirements among nodes, and the mini-batch stochastic gradient descent algorithm heavily burdens network connections.
This dissertation proposes, analyzes, and evaluates three solutions addressing the communication bottleneck in DDL learning workloads.
The first solution, SwitchML, introduces an in-network aggregation (INA) primitive that accelerates DDL workloads.
By aggregating model updates from multiple workers within the network, SwitchML reduces the volume of exchanged data.
This approach, which incorporates switch processing, end-host protocols, and Deep Learning frameworks, enhances training speed by up to 5.5 times for real-world benchmark models.
The second solution, OmniReduce, is an efficient streaming aggregation system designed for sparse collective communication.
It optimizes performance for parallel computing applications, such as distributed training of large-scale recommendation systems and natural language processing models.
OmniReduce achieves maximum effective bandwidth utilization by transmitting only nonzero data blocks and leveraging fine-grained parallelization and pipelining.
Compared to state-of-the-art TCP/IP and RDMA network solutions, OmniReduce outperforms them by 3.5 to 16 times, delivering significantly better performance for network-bottlenecked DNNs, even at 100 Gbps.
The third solution, CoInNetFlow, addresses congestion in shared data centers, where multiple DNN training jobs compete for bandwidth on the same node.
The study explores the feasibility of coflow scheduling methods in hierarchical and multi-tenant in-network aggregation communication patterns.
CoInNetFlow presents an innovative utilization of the Sincronia priority assignment algorithm.
Through packet-level DDL job simulation, the research demonstrates that appropriate weighting functions, transport layer priority scheduling, and gradient compression on low-priority tensors can significantly improve the median Job Completion Time Inflation by over $70\%$.
Collectively, this dissertation contributes to mitigating the network communication bottleneck in distributed deep learning.
The proposed solutions can enhance the efficiency and speed of distributed deep learning systems, ultimately improving the performance of DNN training across various domains.
|
109 |
Study of augmentations on historical manuscripts using TrOCRMeoded, Erez 08 December 2023 (has links) (PDF)
Historical manuscripts are an essential source of original content. For many reasons, it is hard to recognize these manuscripts as text. This thesis used a state-of-the-art Handwritten Text Recognizer, TrOCR, to recognize a 16th-century manuscript. TrOCR uses a vision transformer to encode the input images and a language transformer to decode them back to text. We showed that carefully preprocessed images and designed augmentations can improve the performance of TrOCR. We suggest an ensemble of augmented models to achieve an even better performance.
|
110 |
Modelling Proxy Credit Cruves Using Recurrent Neural Networks / Modellering av Proxykreditkurvor med Rekursiva Neurala NätverkFageräng, Lucas, Thoursie, Hugo January 2023 (has links)
Since the global financial crisis of 2008, regulatory bodies worldwide have implementedincreasingly stringent requirements for measuring and pricing default risk in financialderivatives. Counterparty Credit Risk (CCR) serves as the measure for default risk infinancial derivatives, and Credit Valuation Adjustment (CVA) is the pricing method used toincorporate this default risk into derivatives prices. To calculate the CVA, one needs the risk-neutral Probability of Default (PD) for the counterparty, which is the centre in this type ofderivative.The traditional method for calculating risk-neutral probabilities of default involves constructingcredit curves, calibrated using the credit derivative Credit Default Swap (CDS). However,liquidity issues in CDS trading present a major challenge, as the majority of counterpartieslack liquid CDS spreads. This poses the difficult question of how to model risk-neutral PDwithout liquid CDS spreads.The current method for generating proxy credit curves, introduced by the Japanese BankNomura in 2013, involves a cross-sectional linear regression model. Although this model issufficient in most cases, it often generates credit curves unsuitable for larger counterpartiesin more volatile times. In this thesis, we introduce two Long Short-Term Memory (LSTM)models trained on similar entities, which use CDS spreads as input. Our introduced modelsshow some improvement in generating proxy credit curves compared to the Nomura model,especially during times of higher volatility. While the result were more in line with the tradedCDS-market, there remains room for improvement in the model structure by using a moreextensive dataset. / Ända sedan 2008 års finanskris har styrande finansiella organ ökat kraven för mätning ochprissättning av konkursrisk inom derivat. Ett område av särskilt högt intresse för detta arbete ärmotpartskreditrisker (CCR). I detta är Kreditvärdesjustering (CVA) den huvudsakliga metodenför prissättning av konkursrisk inom finansiella derivat och för att kunna få fram ett värde avCVA behövs en risk-neutral konkurssannolikhet (PD).En av de traditionella metoderna för att räkna ut denna sannolikhet är genom att skapakreditkurvor som sedan är kalibrerade utifrån CDS:ar. Detta handlade derivat (CDS) finns baraför ett mindre antal företag över hela världen vilket gör att en majoritet av marknaden saknaren tillräckligt handlad CDS. Lösning på detta är att ta fram proxy CDS för ett motsvarande bolag.Idag görs detta framförallt med en tvärsnitts-regressionsmodell som introducerades 2013 avden japanska banken Nomura. Den skapar i många fall rimliga kurvor men ett problem den harär att den oftare gör proxyn lägre än vad den borde vara.I detta arbete introducerar vi istället en LSTM modell som tränas på liknande företag. Resultatetav detta är att vi får en bättre modell i många fall för att skapa en proxy kurva men som delvishar liknande brister som Nomura modellen. Men med fortsatta undersökningar inom områdetsamt med mer data kan detta skapa en mer exakt och säkrare proxy modell.
|
Page generated in 0.0861 seconds