Global ETD Search

101	Speech to Text for Swedish using KALDI / Tal till text, utvecklandet av en svensk taligenkänningsmodell i KALDI Kullmann, Emelie January 2016 (has links) The field of speech recognition has during the last decade left the re- search stage and found its way in to the public market. Most computers and mobile phones sold today support dictation and transcription in a number of chosen languages. Swedish is often not one of them. In this thesis, which is executed on behalf of the Swedish Radio, an Automatic Speech Recognition model for Swedish is trained and the performance evaluated. The model is built using the open source toolkit Kaldi. Two approaches of training the acoustic part of the model is investigated. Firstly, using Hidden Markov Model and Gaussian Mixture Models and secondly, using Hidden Markov Models and Deep Neural Networks. The later approach using deep neural networks is found to achieve a better performance in terms of Word Error Rate. / De senaste åren har olika tillämpningar inom människa-dator interaktion och främst taligenkänning hittat sig ut på den allmänna marknaden. Många system och tekniska produkter stöder idag tjänsterna att transkribera tal och diktera text. Detta gäller dock främst de större språken och sällan finns samma stöd för mindre språk som exempelvis svenskan. I detta examensprojekt har en modell för taligenkänning på svenska ut- vecklas. Det är genomfört på uppdrag av Sveriges Radio som skulle ha stor nytta av en fungerande taligenkänningsmodell på svenska. Modellen är utvecklad i ramverket Kaldi. Två tillvägagångssätt för den akustiska träningen av modellen är implementerade och prestandan för dessa två är evaluerade och jämförda. Först tränas en modell med användningen av Hidden Markov Models och Gaussian Mixture Models och slutligen en modell där Hidden Markov Models och Deep Neural Networks an- vänds, det visar sig att den senare uppnår ett bättre resultat i form av måttet Word Error Rate. Automatic Speech Recognition Kaldi Hidden Markov Model Gaussian Mixture Model Deep Neural Network Taligenkänning Kaldi Hidden Markov Model Gaussian Mixture Models Deep Neural Networks Mathematics Matematik
102	Probability of Default Term Structure Modeling : A Comparison Between Machine Learning and Markov Chains Englund, Hugo, Mostberg, Viktor January 2022 (has links) During the recent years, numerous so-called Buy Now, Pay Later companies have emerged. A type of financial institution offering short term consumer credit contracts. As these institutions have gained popularity, their undertaken credit risk has increased vastly. Simultaneously, the IFRS 9 regulatory requirements must be complied with. Specifically, the Probability of Default (PD) for the entire lifetime of such a contract must be estimated. The collection of incremental PDs over the entire course of the contract is called the PD term structure. Accurate estimates of the PD term structures are desirable since they aid in steering business decisions based on a given risk appetite, while staying compliant with current regulations. In this thesis, the efficiency of Machine Learning within PD term structure modeling is examined. Two categories of Machine Learning algorithms, in five variations each, are evaluated; (1) Deep Neural Networks; and (2) Gradient Boosted Trees. The Machine Learning models are benchmarked against a traditional Markov Chain model. The performance of the models is measured by a set of calibration and discrimination metrics, evaluated at each time point of the contract as well as aggregated over the entire time horizon. The results show that Machine Learning can be used efficiently within PD term structure modeling. The Deep Neural Networks outperform the Markov Chain model in all performance metrics, whereas the Gradient Boosted Trees are better in all except one metric. For short-term predictions, the Machine Learning models barely outperform the Markov Chain model. For long-term predictions, however, the Machine Learning models are superior. / Flertalet s.k. Köp nu, betala senare-företag har växt fram under de senaste åren. En sorts finansiell institution som erbjuder kortsiktiga konsumentkreditskontrakt. I samband med att dessa företag har blivit alltmer populära, har deras åtagna kreditrisk ökat drastiskt. Samtidigt måste de regulatoriska kraven ställda av IFRS 9 efterlevas. Specifikt måste fallisemangsrisken för hela livslängden av ett sådant kontrakt estimeras. Samlingen av inkrementell fallisemangsrisk under hela kontraktets förlopp kallas fallisemangsriskens terminsstruktur. Precisa estimat av fallisemangsriskens terminsstruktur är önskvärda eftersom de understödjer verksamhetsbeslut baserat på en given riskaptit, samtidigt som de nuvarande regulatoriska kraven efterlevs. I denna uppsats undersöks effektiviteten av Maskininlärning för modellering av fallisemangsriskens terminsstruktur. Två kategorier av Maskinlärningsalgoritmer, i fem variationer vardera, utvärderas; (1) Djupa neuronnät; och (2) Gradient boosted trees. Maskininlärningsmodellerna jämförs mot en traditionell Markovkedjemodell. Modellernas prestanda mäts via en uppsättning kalibrerings- och diskrimineringsmått, utvärderade i varje tidssteg av kontraktet samt aggregerade över hela tidshorisonten. Resultaten visar att Maskininlärning är effektivt för modellering av fallisemangsriskens terminsstruktur. De djupa neuronnäten överträffar Markovkedjemodellen i samtliga prestandamått, medan Gradient boosted trees är bättre i alla utom ett mått. För kortsiktiga prediktioner är Maskininlärningsmodellerna knappt bättre än Markovkedjemodellen. För långsiktiga prediktioner, däremot, är Maskininlärningsmodellerna överlägsna. Machine Learning Deep Neural Networks XGBoost Probability of Default Term Structure Modeling IFRS 9 Maskininlärning Djupa neuronnät XGBoost Fallisemangsrisk Terminsstruktursmodellering IFRS 9 Mathematics Matematik
103	Deep Learning For RADAR Signal Processing Wharton, Michael K. January 2021 (has links) No description available. Electrical Engineering Engineering
104	"Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řeči / Semi-Supervised Training of Deep Neural Networks for Speech Recognition Veselý, Karel January 2018 (has links) V této dizertační práci nejprve prezentujeme teorii trénování neuronových sítí pro rozpoznávání řeči společně s implementací trénovacího receptu 'nnet1', který je součástí toolkitu s otevřeným kódem Kaldi. Recept se skládá z předtrénování bez učitele pomocí algoritmu RBM, trénování klasifikátoru z řečových rámců s kriteriální funkcí Cross-entropy a ze sekvenčního trénování po větách s kriteriální funkcí sMBR. Následuje hlavní téma práce, kterým je semi-supervised trénování se smíšenými daty s přepisem i bez přepisu. Inspirováni konferenčními články a úvodními experimenty jsme se zaměřili na několik otázek: Nejprve na to, zda je lepší konfidence (t.j. důvěryhodnosti automaticky získaných anotací) počítat po větách, po slovech nebo po řečových rámcích. Dále na to, zda by konfidence měly být použity pro výběr dat nebo váhování dat - oba přístupy jsou kompatibilní s trénováním pomocí metody stochastického nejstrmějšího sestupu, kde jsou gradienty řečových rámců násobeny vahou. Dále jsme se zabývali vylepšováním semi-supervised trénování pomocí kalibrace kofidencí a přístupy, jak model dále vylepšit pomocí dat se správným přepisem. Nakonec jsme navrhli jednoduchý recept, pro který není nutné časově náročné ladění hyper-parametrů trénování, a který je prakticky využitelný pro různé datové sady. Experimenty probíhaly na několika sadách řečových dat: pro rozpoznávač vietnamštiny s 10 přepsaným hodinami (Babel) se chybovost snížila o 2.5%, pro angličtinu se 14 přepsanými hodinami (Switchboard) se chybovost snížila o 3.2%. Zjistili jsme, že je poměrně těžké dále vylepšit přesnost systému pomocí úprav konfidencí, zároveň jsme ale přesvědčení, že naše závěry mají značnou praktickou hodnotu: data bez přepisu je jednoduché nasbírat a naše navrhované řešení přináší dobrá zlepšení úspěšnosti a není těžké je replikovat.
105	Deep learning methods for reverberant and noisy speech enhancement Zhao, Yan 15 September 2020 (has links) No description available. Computer Science Engineering Deep neural networks Supervised learning Attention Speech enhancement Speech denoising Speech dereverberation Time-frequency masking Speech intelligibility Speech quality Computational auditory scene analysis
106	Deep Learning in der Krebsdiagnostik − Chancen überstrahlen die Risiken Köhler, Till 28 December 2018 (has links) Krebs ist die zweithäufigste Todesursache weltweit und zählt damit zu den größten Plagen der Menschheit. Jährlich sterben Menschen an den Folgen bösartiger Tumore und stellen Ärzte vor scheinbar unlösbare Aufgaben. Um Krebsgeschwüre effizient bekämpfen oder sogar vollständig beseitigen zu können, ist es enorm wichtig diese früh genug zu diagnostizieren. Oft stellt jedoch genau das in der Praxis ein großes Problem dar und Tumore werden erst dann als solche erkannt, wenn das Zellwachstum schon sehr weit fortgeschritten ist. Eine große Chance für die frühzeitige Erkennung von Krebs bieten unterdessen Deep Learning Algorithmen. Die vorliegende Seminararbeit stellt diese Verfahren und ihre Anwendung in der Krebsdiagnostik vor. Es wird hierbei genauer auf Convolutional Neural Networks eingegangen, die besonders gut geeignet für die Analyse von Gewebebildern sind und unter anderem auch im System von Google's DeepMind zum Einsatz kommen. Die Arbeit analysiert Chancen und Risiken des Einsatzes von Deep Neural Networks bei der Diagnose von bösartigen Tumoren und verschafft dem Leser damit einen ganzheitlichen Überblick über die Anwendung von Deep Neural Networks im Bereich der Onkologie.:1 Einleitung 2 Vom Neuronalen Netz zum Deep Learning Algorithmus 2.1 Grundlagen Künstlicher Neuronaler Netze 2.1.1 Allgemeiner Aufbau 2.1.2 Das Neuron als Grundbaustein 2.1.3 Lernen in neuronalen Netzen 2.1.4 Loss Function und Optimizer 2.2 Convolutional Neural Networks 2.2.1 Convolutional Layer 2.2.2 Pooling Layer 2.2.3 Fully Connected Layer 2.2.4 Lernen und Aktivierung in CNN’s 3 DeepMind als Deep Learning Multitalent 3.1 Bisherige Erfolge 3.2 DeepMind Health 4 Chancen und Risiken in der Krebsdiagnostik 4.1 Aktueller Stand der Brustkrebsdiagnostik 4.2 Chancen von Deep Learning Algorithmen 4.3 Ethische Risiken 4.3.1 False Positives 4.3.2 False Negatives 4.4 Fazit der Risikoanalyse 5 Ausblick info:eu-repo/classification/ddc/004 ddc:004
107	An Investigation of Low-Rank Decomposition for Increasing Inference Speed in Deep Neural Networks With Limited Training Data Wikén, Victor January 2018 (has links) In this study, to increase inference speed of convolutional neural networks, the optimization technique low-rank tensor decomposition has been implemented and applied to AlexNet which had been trained to classify dog breeds. Due to a small training set, transfer learning was used in order to be able to classify dog breeds. The purpose of the study is to investigate how effective low-rank tensor decomposition is when the training set is limited. The results obtained from this study, compared to a previous study, indicate that there is a strong relationship between the effects of the tensor decomposition and how much available training data exists. A significant speed up can be obtained in the different convolutional layers using tensor decomposition. However, since there is a need to retrain the network after the decomposition and due to the limited dataset there is a slight decrease in accuracy. / För att öka inferenshastigheten hos faltningssnätverk, har i denna studie optimeringstekniken low-rank tensor decomposition implementerats och applicerats på AlexNet, som har tränats för att klassificera hundraser. På grund av en begränsad mängd träningsdata användes transfer learning för uppgiften. Syftet med studien är att undersöka hur effektiv low-rank tensor decomposition är när träningsdatan är begränsad. Jämfört med resultaten från en tidigare studie visar resultaten från denna studie att det finns ett starkt samband mellan effekterna av low-rank tensor decomposition och hur mycket tillgänglig träningsdata som finns. En signifikant hastighetsökning kan uppnås i de olika faltningslagren med hjälp av low-rank tensor decomposition. Eftersom det finns ett behov av att träna om nätverket efter dekompositionen och på grund av den begränsade mängden data så uppnås hastighetsökningen dock på bekostnad av en viss minskning i precisionen för modellen. deep neural networks convolutional neural networks AlexNet inference speed optimization low-rank tensor decomposition fine-grained classification problem dog breed classification transfer learning Computer Sciences Datavetenskap (datalogi)
108	Implementation and verification of the Information Bottleneck interpretation of deep neural networks Liu, Feiyang January 2018 (has links) Although deep neural networks (DNNs) have made remarkable achievementsin various elds, there is still not a matching practical theory that is able toexplain DNNs' performances. Tishby (2015) proposed a new insight to analyzeDNN via the Information bottleneck (IB) method. By visualizing how muchrelevant information each layer contains in input and output, he claimed thatthe DNNs training is composed of tting phase and compression phase. Thetting phase is when DNNs learn information both in input and output, andthe prediction accuracy goes high during this process. Afterwards, it is thecompression phase when information in output is preserved while unrelatedinformation in input is thrown away in hidden layers. This is a tradeo betweenthe network complexity (complicated DNNs lose less information in input) andprediction accuracy, which is the same goal with the IB method.In this thesis, we verify this IB interpretation rst by reimplementing Tishby'swork, where the hidden layer distribution is approximated by the histogram(binning). Additionally, we introduce various mutual information estimationmethods like kernel density estimators. Based upon simulation results, we concludethat there exists an optimal bound on the mutual information betweenhidden layers with input and output. But the compression mainly occurs whenthe activation function is \double saturated", like hyperbolic tangent function.Furthermore, we extend the work to the simulated wireless model where thedata set is generated by a wireless system simulator. The results reveal that theIB interpretation is true, but the binning is not a correct tool to approximatehidden layer distributions. The ndings of this thesis reect the informationvariations in each layer during the training, which might contribute to selectingtransmission parameter congurations in each frame in wireless communicationsystems. / Ä ven om djupa neuronnät (DNN) har gjort anmärkningsvärda framsteg på olikaområden, finns det fortfarande ingen matchande praktisk teori som kan förklara DNNs prestanda. Tishby (2015) föreslog en ny insikt att analysera DNN via informationsflaskhack (IB) -metoden. Genom att visualisera hur mycket relevant information varje lager innehåller i ingång och utgång, hävdade han att DNNs träning består av monteringsfas och kompressionsfas. Monteringsfasenär när DNN lär sig information både i ingång och utgång, och prediktionsnoggrannheten ökar under denna process. Efteråt är det kompressionsfasen när information i utgången bevaras medan orelaterad information i ingången kastas bort. Det här är en kompromiss mellan nätkomplexiteten (komplicerade DNN förlorar mindre information i inmatning) och predictionsnoggrannhet, vilket är exakt samma mål med informationsflaskhals (IB) -metoden.I detta examensarbete kontrollerar vi denna IB-framställning först genom att implementera om Tishby’s arbete, där den dolda lagerfördelningen approximeras av histogrammet (binning). Dessutom introducerar vi olika metoder förömsesidig information uppskattning som kernel density estimators. Baserat på simuleringsresultatet drar vi slutsatsen att det finns en optimal bindning för denömsesidiga informationen mellan dolda lager med ingång och utgång. Men komprimeringen sker huvudsakligen när aktiveringsfunktionen är “dubbelmättad”, som hyperbolisk tangentfunktion.Dessutom utvidgar vi arbetet till den simulerad trådlösa modellen där data set genereras av en trådlös systemsimulator. Resultaten visar att IB-framställning är sann, men binningen är inte ett korrekt verktyg för att approximera dolda lagerfördelningar. Resultatet av denna examensarbete reflekterar informationsvariationerna i varje lager, vilket kan bidra till att välja överföringspa-rameterns konfigurationer i varje ram i trådlösa kommunikationssystem The Information bottleneck method Mutual information Deep neural networks Binning nformations askhack (IB) -metoden ömsesidig information djupa neuronnät binning Elektroteknik och elektronik
109	Tackling the Communication Bottlenecks of Distributed Deep Learning Training Workloads Ho, Chen-Yu 08 1900 (has links) Deep Neural Networks (DNNs) find widespread applications across various domains, including computer vision, recommendation systems, and natural language processing. Despite their versatility, training DNNs can be a time-consuming process, and accommodating large models and datasets on a single machine is often impractical. To tackle these challenges, distributed deep learning (DDL) training workloads have gained increasing significance. However, DDL training introduces synchronization requirements among nodes, and the mini-batch stochastic gradient descent algorithm heavily burdens network connections. This dissertation proposes, analyzes, and evaluates three solutions addressing the communication bottleneck in DDL learning workloads. The first solution, SwitchML, introduces an in-network aggregation (INA) primitive that accelerates DDL workloads. By aggregating model updates from multiple workers within the network, SwitchML reduces the volume of exchanged data. This approach, which incorporates switch processing, end-host protocols, and Deep Learning frameworks, enhances training speed by up to 5.5 times for real-world benchmark models. The second solution, OmniReduce, is an efficient streaming aggregation system designed for sparse collective communication. It optimizes performance for parallel computing applications, such as distributed training of large-scale recommendation systems and natural language processing models. OmniReduce achieves maximum effective bandwidth utilization by transmitting only nonzero data blocks and leveraging fine-grained parallelization and pipelining. Compared to state-of-the-art TCP/IP and RDMA network solutions, OmniReduce outperforms them by 3.5 to 16 times, delivering significantly better performance for network-bottlenecked DNNs, even at 100 Gbps. The third solution, CoInNetFlow, addresses congestion in shared data centers, where multiple DNN training jobs compete for bandwidth on the same node. The study explores the feasibility of coflow scheduling methods in hierarchical and multi-tenant in-network aggregation communication patterns. CoInNetFlow presents an innovative utilization of the Sincronia priority assignment algorithm. Through packet-level DDL job simulation, the research demonstrates that appropriate weighting functions, transport layer priority scheduling, and gradient compression on low-priority tensors can significantly improve the median Job Completion Time Inflation by over $70\%$. Collectively, this dissertation contributes to mitigating the network communication bottleneck in distributed deep learning. The proposed solutions can enhance the efficiency and speed of distributed deep learning systems, ultimately improving the performance of DNN training across various domains. deep neural networks deep learning distributed training in-network aggregation communication bottleneck streaming aggregation collective communication gradient compression sparsity coflow scheduling multi-tenancy congestion hierarchical aggregation
110	Study of augmentations on historical manuscripts using TrOCR Meoded, Erez 08 December 2023 (has links) (PDF) Historical manuscripts are an essential source of original content. For many reasons, it is hard to recognize these manuscripts as text. This thesis used a state-of-the-art Handwritten Text Recognizer, TrOCR, to recognize a 16th-century manuscript. TrOCR uses a vision transformer to encode the input images and a language transformer to decode them back to text. We showed that carefully preprocessed images and designed augmentations can improve the performance of TrOCR. We suggest an ensemble of augmented models to achieve an even better performance. TrOCR Transformer Ensemble learning OCR Handwritten Text Recognition Deep Neural Networks Machine Learning Artificial Intelligence Huggingface Python Artificial Intelligence and Robotics Data Science

Search results