Global ETD Search

1	Generate synthetic datasets and scenarios by learning from the real world Berizzi, Paolo January 2021 (has links) The modern paradigms of machine learning algorithms and artificial intelligence base their success on processing a large quantity of data. Nevertheless, data does not come for free, and it can sometimes be practically unfeasible to collect enough data to train machine learning models successfully. That is the main reason why synthetic data generation is of great interest in the research community. Generating realistic synthetic data can empower machine learning models with vast datasets that are difficult to collect in the real world. In autonomous vehicles, it would require thousands of hours of driving recording for a machine learning model to learn how to drive a car in a safety-critical and effective way. The use of synthetic data, on the other hand, make it possible to simulate many different driving scenarios at a much lower cost. This thesis investigates the functioning of Meta-Sim, a synthetic data generator used to create datasets by learning from the real world. I evaluated the effects of replacing the stem of the Inception-V3 with the stem of the Inception- V4 as the feature extractor needed to process image data. Results showed similar behaviour of models that used the stem of the Inception-V4 instead of the Inception-V3. Slightly differences were found when the model tried to simulate more complex images. In these cases, the models that use the stem of the Inception-V4 converged in fewer iterations than those that used the Inception-V3, demonstrating superior behaviours of the Inception-V4. In the end, I proved that the Inception-V4 could be used to achieve state-of-the- art results in synthetic data generation. Moreover, in specific cases, I show that the Inception-V4 can exceed the performance attained by Meta-Sim. The outcome suggests further research in the field to validate the results on a larger scale. / De moderna paradigmen för algoritmer för maskininlärning och artificiell intelligens bygger sin framgång på att bearbeta en stor mängd data. Data är dock inte gratis, och det kan ibland vara praktiskt omöjligt att samla in tillräckligt med data för att träna upp maskininlärningsmodeller på ett framgångsrikt sätt. Det är huvudskälet till att generering av syntetiska data är av stort intresse för forskarsamhället. Genom att generera realistiska syntetiska data kan maskininlärningsmodeller få tillgång till stora datamängder som är svåra att samla in i den verkliga världen. I autonoma fordon skulle det krävas tusentals timmars körning för att en maskininlärningsmodell ska lära sig att köra en bil på ett säkerhetskritiskt och effektivt sätt. Användningen av syntetiska data gör det å andra sidan möjligt att simulera många olika körscenarier till en mycket lägre kostnad. I den här avhandlingen undersöks hur Meta-Sim fungerar, en generator för syntetiska data som används för att skapa dataset genom att lära sig av den verkliga världen. Jag utvärderade effekterna av att ersätta stammen från Inception-V3 med stammen från Inception-V4 som den funktionsextraktor som behövs för att bearbeta bilddata. Resultaten visade ett liknande beteende hos modeller som använde stammen från Inception-V4 i stället för Inception- V3. Små skillnader konstaterades när modellen försökte simulera mer komplexa bilder. I dessa fall konvergerade de modeller som använde Inception-V4:s stam på färre iterationer än de som använde Inception-V3, vilket visar att Inception- V4:s beteende är överlägset. I slutändan bevisade jag att Inception-V4 kan användas för att uppnå toppmoderna resultat vid generering av syntetiska data. Dessutom visar jag i specifika fall att Inception-V4 kan överträffa den prestanda som uppnås av Meta-Sim. Resultatet föreslår ytterligare forskning på området för att validera resultaten i större skala. Synthetic Data Rendered Images Computer Vision Syntetiska data återgivna bilder datorsyn Computer and Information Sciences Data- och informationsvetenskap
2	Learning from Synthetic Data : Towards Effective Domain Adaptation Techniques for Semantic Segmentation of Urban Scenes / Lärande från Syntetiska Data : Mot Effektiva Domänanpassningstekniker för Semantisk Segmentering av Urbana Scener Valls I Ferrer, Gerard January 2021 (has links) Semantic segmentation is the task of predicting predefined class labels for each pixel in a given image. It is essential in autonomous driving, but also challenging because training accurate models requires large and diverse datasets, which are difficult to collect due to the high cost of annotating images at pixel-level. This raises interest in using synthetic images from simulators, which can be labelled automatically. However, models trained directly on synthetic data perform poorly in real-world scenarios due to the distributional misalignment between synthetic and real images (domain shift). This thesis explores the effectiveness of several techniques for alleviating this issue, employing Synscapes and Cityscapes as the synthetic and real datasets, respectively. Some of the tested methods exploit a few additional labelled real images (few-shot supervised domain adaptation), some have access to plentiful real images but not their associated labels (unsupervised domain adaptation), and others do not take advantage of any image or annotation from the real domain (domain generalisation). After extensive experiments and a thorough comparative study, this work shows the severity of the domain shift problem by revealing that a semantic segmentation model trained directly on the synthetic dataset scores a poor mean Intersection over Union (mIoU) of 33:5% when tested on the real dataset. This thesis also demonstrates that such performance can be boosted by 25:7% without accessing any annotations from the real domain and 17:3% without leveraging any information from the real domain. Nevertheless, these gains are still inferior to the 31:0% relative improvement achieved with as little as 25 supplementary labelled real images, which suggests that there is still room for improvement in the fields of unsupervised domain adaptation and domain generalisation. Future work efforts should focus on developing better algorithms and creating synthetic datasets with a greater diversity of shapes and textures in order to reduce the domain shift. / Semantisk segmentering är uppgiften att förutsäga fördefinierade klassetiketter för varje pixel i en given bild. Det är viktigt för autonom körning, men också utmanande eftersom utveckling av noggranna modeller kräver stora och varierade datamängder, som är svåra att samla in på grund av de höga kostnaderna för att märka bilder på pixelnivå. Detta väcker intresset att använda syntetiska bilder från simulatorer, som kan märkas automatiskt. Problemet är emellertid att modeller som tränats direkt på syntetiska data presterar dåligt i verkliga scenarier på grund av fördelningsfel mellan syntetiska och verkliga bilder (domänskift). Denna avhandling undersöker effektiviteten hos flera tekniker för att lindra detta problem, med Synscapes och Cityscapes som syntetiska respektive verkliga datamängder. Några av de testade metoderna utnyttjar några ytterligare märkta riktiga bilder (few-shot övervakad domänanpassning), vissa har tillgång till många riktiga bilder men inte deras associerade etiketter (oövervakad domänanpassning), och andra drar inte nytta av någon bild eller annotering från den verkliga domänen (domängeneralisering). Efter omfattande experiment och en grundlig jämförande studie visar detta arbete svårighetsgraden av domänskiftproblemet genom att avslöja att en semantisk segmenteringsmodell som upplärts direkt på den syntetiska datauppsättningen ger en dålig mean Intersection over Union (mIoU) på 33; 5% när den testas på den verkliga datamängden. Denna avhandling visar också att sådan prestanda kan ökas med 25; 7% utan att komma åt några annoteringar från den verkliga domänen och 17; 3% utan att utnyttja någon information från den verkliga domänen. Ändå är dessa vinster fortfarande sämre än den 31; 0% relativa förbättringen som uppnåtts med så lite som 25 kompletterande annoterade riktiga bilder, vilket tyder på att det fortfarande finns utrymme för förbättringar inom områdena oövervakad domänanpassning och domängeneralisering. Framtida arbetsinsatser bör fokusera på att utveckla bättre algoritmer och på att skapa syntetiska datamängder med en större mångfald av former och texturer för att minska domänskiftet. Semantic Segmentation Synthetic Data Autonomous Driving Domain Shift Domain Adaptation Domain Generalisation Semantisk Segmentering Syntetiska Data Autonom Körning Domänskift Domänanpassning Domängeneralisering Computer and Information Sciences Data- och informationsvetenskap
3	Variational AutoEncoders and Differential Privacy : balancing data synthesis and privacy constraints / Variational AutoEncoders och Differential Privacy : balans mellan datasyntes och integritetsbegränsningar Bremond, Baptiste January 2024 (has links) This thesis investigates the effectiveness of Tabular Variational Auto Encoders (TVAEs) in generating high-quality synthetic tabular data and assesses their compliance with differential privacy principles. The study shows that while TVAEs are better than VAEs at generating synthetic data that faithfully reproduces the distribution of real data as measured by the Synthetic Data Vault (SDV) metrics, the latter does not guarantee that the synthetic data is up to the task in practical industrial applications. In particular, models trained on TVAE-generated data from the Creditcards dataset are ineffective. The author also explores various optimisation methods on TVAE, such as Gumbel Max Trick, Drop Out (DO) and Batch Normalization, while pointing out that techniques frequently used to improve two-dimensional TVAE, such as Kullback–Leibler Warm-Up and B Disentanglement, are not directly transferable to the one-dimensional context. However, differential privacy to TVAE was not implemented due to time constraints and inconclusive results. The study nevertheless highlights the benefits of stabilising training with the Differential Privacy - Stochastic Gradient Descent (DP-SGD), as with a dropout, and the existence of an optimal equilibrium point between the constraints of differential privacy and the number of training epochs in the model. / Denna avhandling undersöker hur effektiva Tabular Variational AutoEncoders (TVAE) är när det gäller att generera högkvalitativa syntetiska tabelldata och utvärderar deras överensstämmelse med differentierade integritetsprinciper. Studien visar att även om TVAE är bättre än VAE på att generera syntetiska data som troget återger fördelningen av verkliga data mätt med Synthetic Data Vault (SDV), garanterar det senare inte att de syntetiska data är upp till uppgiften i praktiska industriella tillämpningar. I synnerhet är modeller som tränats på TVAE-genererade data från Creditcards-datasetet ineffektiva. Författaren undersöker också olika optimeringsmetoder för TVAE, såsom Gumbel Max Trick, DO och Batch Normalization, samtidigt som han påpekar att tekniker som ofta används för att förbättra tvådimensionell TVAE, såsom Kullback-Leibler Warm-Up och B Disentanglement, inte är direkt överförbara till det endimensionella sammanhanget. På grund av tidsbegränsningar och redan ofullständiga resultat implementerades dock inte differentierad integritet för TVAE. Studien belyser ändå fördelarna med att stabilisera träningen med Differential Privacy - Stochastic Gradient Descent (DP-SGD), som med en drop-out, och förekomsten av en optimal jämviktspunkt mellan begränsningarna för differential privacy och antalet träningsepoker i modellen. TVAE Differential privacy Tabular data Synthetic data DP-SGD TVAE differentiell integritet tabelldata syntetiska data DP-SGD Computer and Information Sciences Data- och informationsvetenskap
4	Privacy preserving data access mechanism for health data / Sekretessbevarande dataåtkomstmekanism för hälsodata Abdi Dahir, Najiib, Dahir Ali, Ikran January 2023 (has links) Due to the rise of digitalization and the growing amount of data, ensuring the integrity and security of patient data has become increasingly vital within the healthcare industry, which has traditionally managed substantial quantities of sensitive patient and personal information. This bachelor's thesis focused on designing and implementing a secure data sharing infrastructure to protect the integrity and confidentiality of patient data. Synthetic data was used to enable access for researchers and students in regulated environments without compromising patient privacy. The project successfully achieved its goals by evaluating different privacy-preserving mechanisms and developing a machine learning-based application to demonstrate the functionality of the secure data sharing infrastructure. Despite some challenges, the chosen algorithms showed promising results in terms of privacy preservation and statistical similarity. Ultimately, the use of synthetic data can promote fair decision-making processes and contribute to secure data sharing practices in the healthcare industry. / Hälso- och sjukvårdsbranschen har länge varit en sektor som hanterar stora mängder känsliga patientdata och personuppgifter. Integriteten och säkerheten hos patientdata har blivit allt viktigare som en följd av ökad datavolym och digitalisering. Detta examensarbete fokuserade på att utforma och implementera en säker datadelning infrastruktur för att skydda integritet och sekretess för patientdata. Syntetisk data användes för att möjliggöra tillgång för forskare och studenter i reglerade miljöer utan att riskera patienters privatliv. Projektet lyckades genom att utvärdera olika integritetsbevarande mekanismer och skapa en maskininlärningsbaserad applikation för att visa den säkra datadelningsinfrastrukturens funktionalitet. Trots vissa utmaningar visade de valda algoritmerna lovande resultat i fråga om integritetsbevarande och statistisk likhet. Slutligen kan användningen av syntetiska data främja rättvisa beslutsprocesser och bidra till säkra datadelningspraxis inom hälso- och sjukvårdsbranschen. Secure data sharing synthetic data privacy preservation healthcare machine learning. Säker datadelning syntetiska data integritetsbevarande hälso- och sjukvård maskininlärning Computer Engineering Datorteknik
5	Synthesizing of brain MRE wave data / Syntetistering av vågrörelsedata för hjärnan med MRE Yuliuhina, Maryia January 2023 (has links) Magnetic resonance elastography (MRE) is an imaging technique that allows for non-invasive access to the physical properties of body tissues. MRE has great potential, but it is difficult to conduct research due to the time-consuming estimation of stiffness maps, which could be speeded up by using neural network. However, there is not enough real data to train one, thus, synthetic data is needed. To create synthetic data three techniques of simulating tissue displacement due to wave propagation was explored, including solving differential equations for a system of coupled harmonic oscillators (CHO method) and using two different functions from the k-Wave toolbox. Each of the three methods demonstrated the ability to replicate the displacement pattern in a phantom with a simple structure. The CHO method and \texttt{kspaceFirstOrder} function of the k-Wave toolbox showed the best performance when simulating displacement in a 2D brain slice. The models are not very accurate, but capture general features of displacement in a brain and hold potential for future improvement. / Magnetresonans-elastografi (MRE) är en avbildningsteknik som möjliggör icke-invasiv åtkomst till de fysiska egenskaperna hos olika vävnader. MRE har stor potential, men forskning inom ämnet försvåras på grund av den tidskrävande beräkningen av elasticitetskartorna, vilket kan påskyndas med hjälp av ett neuralt nätverk. Dock finns det inte tillräckligt med experimentiell data för att träna ett sådant nätverk, och därför behövs syntetisk data. För att skapa sådan syntetisk MRE-data utforskades tre tekniker för att simulera vågrörelser i hjärnvävnad; dessa tekniker inkluderar lösning av differentialekvationer för ett system av kopplade harmoniska oscillatorer (CHO-metoden) och användning av två olika funktioner från det Matlab-baserade programmet k-Wave. Var och en av de tre metoderna visade potential att återskapa vågsmönstret i en enkel strukturerad fantom. CHO-metoden och funktionen kspaceFirstOrder från k-Wave visade bäst prestanda vid simulering av vågrörelser i ett 2D-segment av hjärnan. Modellerna visade sig inte vara särskilt precisa, men fångar allmänna, kvalitativa, egenskaper av vågrörelser i hjärnan och uppvisar potential för framtida förbättring. MR elastography brain MRE synthetic data computational modeling shear wave elastography MR-elastografi hjärn MRE syntetiska data beräkningsmodellering skjuvvåg elastografi Medical Engineering Medicinteknik

1

Page generated in 0.0659 seconds