• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 56
  • 21
  • Tagged with
  • 77
  • 57
  • 49
  • 43
  • 36
  • 34
  • 30
  • 27
  • 18
  • 17
  • 15
  • 15
  • 15
  • 15
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Point Cloud Data Augmentation for 4D Panoptic Segmentation / Punktmolndataförstärkning för 4D-panoptisk Segmentering

Jin, Wangkang January 2022 (has links)
4D panoptic segmentation is an emerging topic in the field of autonomous driving, which jointly tackles 3D semantic segmentation, 3D instance segmentation, and 3D multi-object tracking based on point cloud data. However, the difficulty of collection limits the size of existing point cloud datasets. Therefore, data augmentation is employed to expand the amount of existing data for better generalization and prediction ability. In this thesis, we built a new point cloud dataset named VCE dataset from scratch. Besides, we adopted a neural network model for the 4D panoptic segmentation task and proposed a simple geometric method based on translation operation. Compared to the baseline model, better results were obtained after augmentation, with an increase of 2.15% in LSTQ. / 4D-panoptisk segmentering är ett framväxande ämne inom området autonom körning, som gemensamt tar itu med semantisk 3D-segmentering, 3D-instanssegmentering och 3D-spårning av flera objekt baserat på punktmolnsdata. Svårigheten att samla in begränsar dock storleken på befintliga punktmolnsdatauppsättningar. Därför används dataökning för att utöka mängden befintliga data för bättre generalisering och förutsägelseförmåga. I det här examensarbetet byggde vi en ny punktmolndatauppsättning med namnet VCE-datauppsättning från grunden. Dessutom antog vi en neural nätverksmodell för 4D-panoptisk segmenteringsuppgift och föreslog en enkel geometrisk metod baserad på översättningsoperation. Jämfört med baslinjemodellen erhölls bättre resultat efter förstärkning, med en ökning på 2.15% i LSTQ.
62

Modelling Cyber Security of Networks as a Reinforcement Learning Problem using Graphs : An Application of Reinforcement Learning to the Meta Attack Language / Cybersäkerhet för datornätverk representerat som ett förstärkningsinlärningsproblem med grafer : Förstärkningsinlärning applicerat på Meta Attack Language

Berglund, Sandor January 2022 (has links)
ICT systems are part of the vital infrastructure in today’s society. These systems are under constant threat and efforts are continually being put forth by cyber security experts to protect them. By applying modern AI methods, can these efforts both be improved and alleviated of the cost of expert work. This thesis examines whether a reinforcement learning (RL) algorithm can be applied to a cyber security modelling of ICT systems. The research question answered is that of how well an RL algorithm can optimise the resource cost of successful cyber attacks, as represented by a cyber security model? The modelling, called Meta Attack Language (MAL), is a meta language for attack graphs that details the individual steps to be taken in a cyber attack. In the previous work of Manuel Rickli’s thesis, a method of automatically generating attack graphs according to MAL aimed at modelling industry-level computer networks, was presented. The method was used to generate different distributions of attack graphs that were used to train deep Q-learning (DQN) agents. The agents’ results were then compared with a random agent and a greedy method based on the A∗ search algorithm. The results show that attack step selection can be achieved with a higher performance than the uninformed choice of the random agent, by DQN. However, DQN was unable to achieve higher performance than the A∗ method. This may be due to the simplicity of the attack graph generation or the fact that the A∗ method has access to the complete attack graph, amongst other factors. The thesis also raises questions about general representation of MAL attack graphs as RL problems and how to apply RL algorithms to the RL problem. The source code of this thesis is available at: https://github.com/KTH-SSAS/sandor-berglund-thesis. / IT-system är i dagens samhälle en väsentlig del av infrastrukturen som är under konstant hot av olika personer och organisationer. IT-säkerhetsexperter lägger ner beständigt arbete på att hålla dessa system säkra och för att avvärja illvilliga auktioner mot IT-system. Moderna AI-metoder kan användas för att förbättra och lätta på kostnaden av expertarbetet inom området. Detta examensarbete avser att undersöka hur en förstärkningsinlärningsalgoritm kan appliceras på en cybersäkerhetsmodell. Det görs genom att besvara frågeställningen: Hur väl kan en förstärkningsinlärningsalgoritm optimera en cyberattack representerat av en cybersäkerhetsmodell? Meta Attack Language (MAL) är ett metaspråk för attackgrafer som beskriver varje steg i en cyberattack. I detta examensarbete användes Manuell Ricklis implementation av MAL samt attack grafs generation för att definiera ett förstärkningsinlärningsproblem. Förstärkningsinlärningsalgoritmen deep Q-learning (DQN) användes för att träna ett attention baserat neuronnät på olika fördelningar av attackgrafer och jämfördes med en slumpmässig agent och en girig metod baserad på sökalgoritmen A∗ . Resultaten visar att DQN kunde producera en agent som presterar bättre än den oinformerade slumpmässiga agenten. Agenten presterade däremot inte bättre än den giriga A∗ metoden, vilket kan bero på att A∗ har tillgång till den fulla attack grafen, bland andra bidragande faktorer. Arbetet som läggs fram här väcker frågor om hur MAL-attackgrafer representeras som förstärkningsinlärningsproblem och hur förstärkningsinlärningsalgoritmer appliceras där av. Källkoden till det här examensarbetet finns på: https://github.com/KTHSSAS/sandor-berglund-thesis.
63

Matching Sticky Notes Using Latent Representations / Matchning av klisterlappar med hjälp av latent representation

García San Vicent, Javier January 2022 (has links)
his project addresses the issue of accurately identifying repeated images of sticky notes. Due to environmental conditions and the 3D location of the camera, different pictures taken of sticky notes may look distinct enough to be hard to determine if they belong to the same note. More specifically, this thesis aims to create latent representations of these pictures of sticky notes to encode their content so that all the pictures of the same note have a similar representation that allows to identify them. Thus, those representations must be invariant to light conditions, blur and camera position. To that end, a Siamese neural architecture will be trained based on data augmentation methods. The method consists of learning to embed two augmented versions of the same image into similar representations. This architecture has been trained with unsupervised learning and fine-tuned with supervised learning to detect if two representations belong or not to the same note. The performance of ResNet, EfficientNet and Vision Transformers in encoding the images into their representations has been compared with different configurations. The results show that, while the most complex models overfit small amounts of data, the simplest encoders are capable of properly identifying more than 95% of the sticky notes in grey scale. Those models can create invariant representations that are close to each other in the latent space for pictures of the same sticky note. Gathering more data could result in an improvement of the performance of the model and the possibility of applying it to other fields such as handwritten documents. / Detta projekt tar upp frågan om att identifiera upprepade bilder av klisterlappar. På grund av miljöförhållanden och kamerans 3D-placering kan olika bilder som tagits till klisterlappar se tillräckligt distinkta ut för att det ska vara svårt att avgöra om de faktiskt tillhör samma klisterlappar. Mer specifikt är syftet med denna avhandling att skapa latenta representationer av bilder av klisterlappar som kodar deras innehåll, så att alla bilder av en klisterlapp har en liknande representation som gör det möjligt att identifiera dem. Sålunda måste representationerna vara oföränderliga för ljusförhållanden, oskärpa och kameraposition. För det ändamålet kommer en enkel siamesisk neural arkitektur att tränas baserad på dataförstärkningsmetoder. Metoden går ut på att lära sig att göra representationerna av två förstärkta versioner av en bild så lika som möjligt. Genomatt tillämpa vissa förbättringar av arkitekturen kan oövervakat lärande användas för att träna nätverket. Prestandan hos ResNet, EfficientNet och Vision Transformers när det gäller att koda bilderna till deras representationer har jämförts med olika konfigurationer. Resultaten visar att även om de mest komplexa modellerna överpassar små mängder data, kan de enklaste kodarna korrekt identifiera mer än 95% av klisterlapparna. Dessa modeller kan skapa oföränderliga representationer som är nära i det latenta utrymmet för bilder av samma klisterlapp. Att samla in mer data kan resultera i en förbättring av modellens prestanda och möjligheten att tillämpa den på andra områden som till exempel handskrivna dokument.
64

Real-time adaptation of robotic knees using reinforcement control

Daníel Sigurðarson, Leifur January 2023 (has links)
Microprocessor-controlled knees (MPK’s) allow amputees to walk with increasing ease and safety as technology progresses. As an amputee is fitted with a new MPK, the knee’s internal parameters are tuned to the user’s preferred settings in a controlled environment. These parameters determine various gait control settings, such as flexion target angle or swing extension resistance. Though these parameters may work well during the initial fitting, the MPK experiences various internal & external environmental changes throughout its life-cycle, such as product wear, changes in the amputee’s muscle strength, temperature changes, etc. This work investigates the feasibility of using a reinforcement learning (RL) control to adapt the MPK’s swing resistance to consistently induce the amputee’s preferred swing performance in realtime. Three gait features were identified as swing performance indicators for the RL algorithm. Results show that the RL control is able to learn and improve its tuning performance in terms of Mean Absolute Error over two 40-45 minute training sessions with a human-in-the-loop. Additionally, results show promise in using transfer learning to reduce strenuous RL training times. / Mikroprocessorkontrollerade knän (MPK) gör att amputerade kan utföra fysiska aktiviteter med ökad lätthet och säkerhet allt eftersom tekniken fortskrider. När en ny MPK monteras på en amputerad person, anpassas knäts interna parametrar till användarens i ett kontrollerad miljö. Dessa parametrar styr olika gångkontrollinställningar, såsom flexionsmålvinkel eller svängförlängningsmotstånd. Även om parametrarna kan fungera bra under den initiala anpassningen, upplever den MPK olika interna och yttre miljöförändringar under sin hela livscykel, till exempel produktslitage, förändringar i den amputerades muskelstyrka, temperaturförändringar, etc. Detta arbete undersöker möjligheten av, med hjälp av en förstärkningsinlärningskontroll (RL), att anpassa MPK svängmotstånd för att konsekvent inducera den amputerades föredragna svängprestanda i realtid. Tre gångegenskaper identifierades som svingprestandaindikatorer för RL-algoritmen. Resultaten visar att RL-kontrollen kan lära sig och förbättra sin inställningsprestanda i termer av Mean Absolute Error under två 40-45 minuters träningspass med en människa-i-loopen. Dessutom är resultaten lovande när det gäller att använda överföringsinlärning för att minska ansträngande RL-träningstider.
65

Data Harvesting and Path Planning in UAV-aided Internet-of-Things Wireless Networks with Reinforcement Learning : KTH Thesis Report / Datainsamling och vägplanering i UAV-stödda Internet-of-Things trådlösa nätverk med förstärkningsinlärning : KTH Examensrapport

Zhang, Yuming January 2023 (has links)
In recent years, Unmanned aerial vehicles (UAVs) have developed rapidly due to advances in aerospace technology, and wireless communication systems. As a result of their versatility, cost-effectiveness, and flexibility of deployment, UAVs have been developed to accomplish a variety of large and complex tasks without terrain restrictions, such as battlefield operations, search and rescue under disaster conditions, monitoring, etc. Data collection and offloading missions in The internet of thingss (IoTs) networks can be accomplished with the use of UAVs as network edge nodes. The fundamental challenge in such scenarios is to develop a UAV movement policy that enhances the quality of mission completion and avoids collisions. Real-time learning based on neural networks has been proven to be an effective method for solving decision-making problems in a dynamic, unknown environment. In this thesis, we assume a real-life scenario in which a UAV collects data from Ground base stations (GBSs) without knowing the information of the environment. A UAV is responsible for the MOO including collecting data, avoiding obstacles, path planning, and conserving energy. Two Deep reinforcement learnings (DRLs) approaches were implemented in this thesis and compared. / Under de senaste åren har UAV utvecklats snabbt på grund av framsteg inom flygteknik och trådlösa kommunikationssystem. Som ett resultat av deras mångsidighet, kostnadseffektivitet och flexibilitet i utbyggnaden har UAV:er utvecklats för att utföra en mängd stora och komplexa uppgifter utan terrängrestriktioner, såsom slagfältsoperationer, sök och räddning under katastrofförhållanden, övervakning, etc. Data insamlings- och avlastningsuppdrag i IoT-nätverk kan utföras med användning av UAV:er som nätverkskantnoder. Den grundläggande utmaningen i sådana scenarier är att utveckla en UAV-rörelsepolicy som förbättrar kvaliteten på uppdragets slutförande och undviker kollisioner. Realtidsinlärning baserad på neurala nätverk har visat sig vara en effektiv metod för att lösa beslutsfattande problem i en dynamisk, okänd miljö. I den här avhandlingen utgår vi från ett verkligt scenario där en UAV samlar in data från GBS utan att känna till informationen om miljön. En UAV är ansvarig för MOO inklusive insamling av data, undvikande av hinder, vägplanering och energibesparing. Två DRL-metoder implementerades i denna avhandling och jämfördes.
66

Robot Control Using Path Integral Policy Improvement and Deep Dynamics Models / Robotstyrning med Vägenintegrerad Politikförbättring och Djupa Dynamik Modeller

Shi, Haoxiang January 2021 (has links)
Robotics is an interdisciplinary field that integrates computer science, electrical engineering, mechanical engineering, control engineering and other related fields. As the quick development of these fields, people have been building more complex robots with more advanced control strategies in order to solve more challenging tasks. In addition, it is always a target for researchers to achieve autonomous operation of robots so that the manpower can be saved and the robot can work in harsh environment like on Mars. In this project, I focus on the trajectory planning problem of a unicycle model running in 2D environment. I choose Path Integral Policy Improvement (PI2) control algorithm in this project as the main study object. And Model Predictive Control (MPC) is chosen as a reference in order to be compared with PI2 to evaluate the performance of PI2. In order to simulate the tasks that the robot needs to handle in practice, I use obstacles to represent the complex environment and I use Signal Temporal Logic (STL) to represent the complex tasks. Furthermore, I also incorporate the deep dynamics model in the project so that the the method put forward in this project is able to handle complex robot models and complex working environments. To evaluate the performances of PI2 and MPC, five criteria are put forward in this project. Finally, based on the evaluation results, possible improvement and future research are proposed. / Robotics är ett tvärvetenskapligt område som integrerar datavetenskap, elektroteknik, maskinteknik, styrteknik och andra relaterade områden. Som den snabba utvecklingen av dessa fält har människor byggt mer komplexa robotar med mer avancerade kontrollstrategier för att lösa mer utmanande uppgifter. Dessutom är det alltid ett mål för forskare att uppnå autonom drift av robotar så att arbetskraften kan sparas och roboten kan arbeta i tuffa miljöer som på Mars. I det här projektet fokuserar jag på banplaneringsproblemet för en enhjulingsmodell som körs i 2D-miljö. Jag väljer Path Integral Policy Improvement (PI2) kontrollalgoritm i detta projekt som huvudstudieobjekt. Och Model Predictive Control (MPC) väljs som referens för att kunna jämföras med PI2 för att utvärdera prestandan för PI2. För att simulera de uppgifter som roboten behöver hantera i praktiken använder jag hinder för att representera den komplexa miljön och jag använder Signal Temporal Logic (STL) för att representera de komplexa uppgifterna. Dessutom införlivar jag också den djupa dynamikmodellen i projektet så att metoden som läggs fram i detta projekt kan hantera komplexa robotmodeller och komplexa arbetsmiljöer. För att utvärdera prestanda för PI2 och MPC presenteras fem kriterier i detta projekt. Slutligen, baserat på utvärderingsresultaten, föreslås möjliga förbättringar och framtida forskning.
67

Road Segmentation and Optimal Route Prediction using Deep Neural Networks and Graphs / Vägsegmentering och förutsägelse av optimala rutter genom djupa neurala nätverk och grafer

Ossmark, Viktor January 2021 (has links)
Observing the earth from above is a great way of understanding our world better. From space, many complex patterns and relationships on the ground can be identified through high-quality satellite data. The quality and availability of this data in combination with recent advancement in various deep learning techniques allows us to find these patterns more effectively then ever. In this thesis, we will analyze satellite imagery by using deep neural networks in an attempt to find road networks in different cities around the world. Once we have located networks of roads in the cities we will represent them as graphs and deploy the Dijkstra shortest path algorithm to find optimal routes within these networks. Having the ability to efficiently use satellite imagery for near real-time road detection and optimal route prediction has many possible applications, especially from a humanitarian and commercial point of view. For example, in the humanitarian realm, the frequency of natural disasters is unfortunately increasing due to climate change and the need for emergency real-time mapping for relief organisations in the case of a severe flood or similar is growing.  The state-of-the-art deep neural network models that will be implemented, compared and contrasted for this task are mainly based on the U-net and ResNet architectures. However, before introducing these architectures the reader will be given a comprehensive introduction and theoretical background of deep neural networks to distinctly formulate the mathematical groundwork. The final results demonstrates an overall strong model performance across different metrics and data sets, with the highest obtained IoU-score being approximately 0.7 for the segmentation task. For some models we can also see a high degree of similarity between the predicted optimal paths and the ground truth optimal paths. / Att betrakta jorden från ovan är ett bra tillvägagångsätt för att förstå vår egen värld bättre. Från rymden, många komplexa mönster och samband på marken går att urskilja genom hög-upplöst satellitdata. Kvalitén och tillgängligheten av denna data, i kombination med de senaste framstegen inom djupa inlärningstekniker, möjliggör oss att hissa dessa mönster mer effektivt än någonsin. I denna avhandling kommer vi analysera satellitbilder med hjälp av djupa neurala nätverk i ett försök att hitta nätverk av vägar i olika städer runtom i världen. Efter vi har lokaliserat dessa nätverk av vägar så kommer vi att representera nätverken som grafer och använda oss av Dijkstras algoritm för att hitta optimala rutter inom dessa nätverk.  Att ha förmågan att kunna effektivt använda sig av satellitbilder för att i nära realtid kunna identifiera vägar och optimala rutter har många möjliga applikationer. Speciellt ur ett humant och kommersiellt perspektiv. Exempelvis, inom det humanitära området, så ökar dessvärre frekvensen av naturkatastrofer på grund av klimatförändringar och därmed är behovet av nödkartläggning i realtid för hjälporganisationer större än någonsin. En effektiv nödkartläggning skulle exempelvis kunna underlätta enormt vid en allvarlig översvämning eller dylikt.  Dem toppmoderna djupa neurala nätverksmodellerna som kommer implementeras, jämföras och nyanseras för denna uppgift är i huvudsak baserad på U-net och ResNet arkitekturerna. Innan vi presenterar dessa arkitekturer i denna avhandling så kommer läsaren att få en omfattande teoretisk bakgrund till djupa neurala nätverk för att tydligt formulera dem matematiska grundpelarna. Dem slutgiltiga resultaten visar övergripande stark prestanda för samtliga av våra modeller. Både på olika datauppsättningar samt utvärderingsmått. Den högste IoU poängen som uppnås är cirka 0,7 och vi kan även se en hög grad av likhet mellan vissa av våra förutsagda optimala rutter och mark sanningens optimala rutter.
68

Designing a VR user experience test regarding the Vergence-Accommodation Conflict : An investigation surrounding the relations to Depth Perception

Estemyr, Emil, Ekhagen, Alexander January 2023 (has links)
This bachelor project investigates how to design a virtual reality (VR) user experience test to analyze the effect that the vergence-accommodation conflict (VAC) has on a users ability to judge focus. Furthermore, we want to investigate how the amount of depth cues can affect a user's perception of this conflict in VR. A user experience test has been designed through an iterative process where the prototype has gone through smaller user tests between each iteration. We validate the design through testing a larger number of participants, where we gather subjective data through the use of the “Think Aloud Method” as well as data based on the user's interactions within the test environment. Analyzed results show that the absence of depth cues makes it significantly harder for users to judge depth and focus, and that the presence of an additional reference-object in many cases is enough to assist users with this issue. Furthermore, we notice better user performance at closer distances. The aim of this investigation is to provide more information surrounding the perception of VAC, as it is one of the few issues within the VR industry that prevents us from experiencing depth in virtual worlds in a more realistic way. / Detta kandidatarbete undersöker hur man kan designa ett test i virtuell verklighet (VR) kring användarens upplevelse för att analysera effekten som "Vergence-Accommodation Conflict” (VAC) har på användarens förmåga att bedöma fokus. Vidare vill vi också ta reda på hur mängden ledtrådar för djupseende kan påverka användarens upplevelse av denna konflikt i VR. Ett test för användarens upplevelse har designats genom en iterativ process där prototypen genomgått mindre tester mellan iterationerna. Designen valideras genom ett större användartest där vi samlar subjektiv data genom användning av “Think Aloud Method” samt data baserat på användarens interaktion i testmiljön. Analyserad data visar att frånvaron av ledtrådar för djup har en betydande påverkan på användarens förmåga att bedöma djup och fokus, samt att närvaron av ytterligare ett referensobjekt i många fall är tillräckligt för att hjälpa användaren med detta problem. Vidare har vi kunnat se en bättre prestationsförmåga hos användarna på närmare distanser. Syftet med denna undersökning är att tillföra mer information kring upplevelsen av VAC, då det är ett av de få problem inom VR-industrin som hindrar oss från att uppleva djup i virtuella världar på ett mer realistiskt sätt.
69

Optimizing the Fronthaul in C-RAN by Deep Reinforcement Learning : Latency Constrained Fronthaul optimization with Deep Reinforment Learning / Optimering av Fronthaul i C-RAN med Djup Förstärknings Inlärning : Latens begränsad Fronthaul Optimering med Djup Förstärknings Inlärning

Grönland, Axel January 2023 (has links)
Centralized Radio Access Networks or C-RAN for short is a type of network that aims to centralize perform some of it's computation at centralized locations. Since a lot of functionality is centralized we can show from multiplexing that the centralization leads to lower operating costs. The drawback with C-RAN are the huge bandwidth requirements over the fronthaul. We know that scenarios where all cells experience high load is a very low probability scenario. Since functions are centralized this also allows more adaptability, we can choose to change the communication standard for each cell depending on the load scenario. In this thesis we set out to create such a controller with the use of Deep Reinforcement Learning. The problem overall is difficult due to the complexity of modelling the problem, but also since C-RAN is a relatively new concept in the telecom world. We solved this problem with two traditional reinforcement learning algorithms, DQN and SAC. We define a constraint optimization problem and phrase it in such a way that the problem can be solved with a deep reinforcement learning algorithm. We found that the learning worked pretty well and we can show that our trained policies satisfy the constraint. With these results one could show that resource allocations problems can be solved pretty well by a deep reinforcement learning controller. / Centralized Radio Access Networks eller C-RAN som förkortning är en kommunications nätverk som siktar på att centralisera vissa funktioner i centrala platser. Eftersom mmånga funktioner är centraliserade så kan vi visa från statistisk multiplexing att hög trafik scenarion över många celler är av låg sannolikhet vilket leder till lägre service kostnader. Nackdelen med C-RAN är den höga bandbredds kravet över fronthaulen. Trafik scenarion där alla celler utsäts för hög last är väldigt låg sannolikhet så kan vi dimensionera fronthaulen för att klara mindre än det värsta trafik scenariot. Eftersom funktioner är centralizerade så tillåter det även att vi kan adaptivt anpassa resurser för trafiken. I denna uppsats så kommer vi att skapa en sådan kontroller med djup reinforcement learning. Problemet är komplext att modellera och C-RAN är ett relativt nytt concept i telecom världen. Vi löser detta problem med två traditionella algoritmer, deep Q networks(DQN) och soft actor critic(SAC). Vi definierar ett vilkorligt optimerings problem och visar hur det kan formuleras som ett inlärnings problem. Vi visar att denna metod funkar rätt bra som en lösning till problemet och att den uppfyller bivilkoren. Våra resultat visar att resurs allokerings problem kan lösas nära optimalitet med reinforcement learning.
70

DeePMOS: Deep Posterior Mean-Opinion-Score for Speech Quality Assessment : DNN-based MOS Prediction Using a Posterior / DeePMOS: Deep Posterior Mean-Opinion-Score för talkvalitetsbedömning : DNN-baserad MOS-prediktion med hjälp av en posterior

Liang, Xinyu January 2024 (has links)
This project focuses on deep neural network (DNN)-based non-intrusive speech quality assessment, specifically addressing the challenge of predicting mean-opinion-score (MOS) with interpretable posterior distributions. The conventional approach of providing a single point estimate for MOS lacks interpretability and doesn't capture the uncertainty inherent in subjective assessments. This thesis introduces DeePMOS, a novel framework capable of producing MOS predictions in the form of posterior distributions, offering a more nuanced and understandable representation of speech quality. DeePMOS adopts a CNN-BLSTM architecture with multiple prediction heads to model Gaussian and Beta posterior distributions. For robust training, we use a combination of maximum-likelihood learning, stochastic gradient noise, and a student-teacher learning setup to handle limited and noisy training data. Results showcase DeePMOS's competitive performance, particularly with DeePMOS-B achieving state-of-the-art utterance-level performance. The significance lies in providing accurate predictions along with a measure of confidence, enhancing transparency and reliability. This opens avenues for application in domains such as telecommunications and audio-processing systems. Future work could explore additional posterior distributions, evaluate the model on high-quality datasets, and consider incorporating listener-dependent scores. / Detta projekt fokuserar på icke-intrusiv bedömning av tal-kvalitet med hjälp av djupa neurala nätverk (DNN), särskilt för att hantera utmaningen att förutsäga mean-opinion-score (MOS) med tolkningsbara posteriora fördelningar. Den konventionella metoden att ge en enda punktsuppskattning för MOS saknar tolkningsbarhet och fångar inte osäkerheten som är inneboende i subjektiva bedömningar. Denna avhandling introducerar DeePMOS, en ny ramverk kapabel att producera MOS-förutsägelser i form av posteriora fördelningar, vilket ger en mer nyanserad och förståelig representation av tal-kvalitet. DeePMOS antar en CNN-BLSTM-arkitektur med flera förutsägelsehuvuden för att modellera Gaussiska och Beta-posteriora fördelningar. För robust träning använder vi en kombination av maximum-likelihood learning, stokastisk gradientbrus och en student-lärare inlärningsuppsättning för att hantera begränsad och brusig träningsdata. Resultaten visar DeePMOS konkurrenskraftiga prestanda, särskilt DeePMOS-B som uppnår state-of-the-art prestanda på uttalnivå. Signifikansen ligger i att ge noggranna förutsägelser tillsammans med en mått på förtroende, vilket ökar transparensen och tillförlitligheten. Detta öppnar möjligheter för tillämpningar inom områden som telekommunikation och ljudbehandlingssystem. Framtida arbete kan utforska ytterligare posteriora fördelningar, utvärdera modellen på högkvalitativa dataset och överväga att inkludera lyssnarberoende poäng.

Page generated in 0.0889 seconds