• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 95
  • 12
  • 6
  • 4
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 153
  • 153
  • 153
  • 80
  • 57
  • 55
  • 25
  • 24
  • 24
  • 23
  • 21
  • 21
  • 20
  • 19
  • 19
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

Conditional generative modeling for images, 3D animations, and video

Voleti, Vikram 07 1900 (has links)
Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video. Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content. Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications. In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time. Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information. We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets. Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de modèles génératifs conditionnels et des applications innovantes dans les images, les animations 3D et la vidéo. Notre recherche se concentre sur des architectures offrant des transformations réversibles du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles, améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré. Les techniques génératives antérieures qui sont réversibles entre le bruit et les données et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de diffusion de débruitage. La variante continue des flux de normalisation est alimentée par les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs capacités de généralisation, notamment dans les applications de texte vers image. Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire les images actuelles. Dans notre prochaine contribution, nous proposons une variante conditionnelle des flux de normalisation continus qui permet une génération d’images à résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant considérablement le nombre de paramètres et le temps d’entraînement. Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline complet qui prend des images de personnes en entrée, aligne automatiquement un personnage 3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition de la pose en fonction d’informations partielles. Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la qualité des images générées est comparable à la formulation d’origine. Dans notre dernière contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage, capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation. Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe sur plusieurs ensembles de données. Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision par ordinateur.
132

Road Segmentation and Optimal Route Prediction using Deep Neural Networks and Graphs / Vägsegmentering och förutsägelse av optimala rutter genom djupa neurala nätverk och grafer

Ossmark, Viktor January 2021 (has links)
Observing the earth from above is a great way of understanding our world better. From space, many complex patterns and relationships on the ground can be identified through high-quality satellite data. The quality and availability of this data in combination with recent advancement in various deep learning techniques allows us to find these patterns more effectively then ever. In this thesis, we will analyze satellite imagery by using deep neural networks in an attempt to find road networks in different cities around the world. Once we have located networks of roads in the cities we will represent them as graphs and deploy the Dijkstra shortest path algorithm to find optimal routes within these networks. Having the ability to efficiently use satellite imagery for near real-time road detection and optimal route prediction has many possible applications, especially from a humanitarian and commercial point of view. For example, in the humanitarian realm, the frequency of natural disasters is unfortunately increasing due to climate change and the need for emergency real-time mapping for relief organisations in the case of a severe flood or similar is growing.  The state-of-the-art deep neural network models that will be implemented, compared and contrasted for this task are mainly based on the U-net and ResNet architectures. However, before introducing these architectures the reader will be given a comprehensive introduction and theoretical background of deep neural networks to distinctly formulate the mathematical groundwork. The final results demonstrates an overall strong model performance across different metrics and data sets, with the highest obtained IoU-score being approximately 0.7 for the segmentation task. For some models we can also see a high degree of similarity between the predicted optimal paths and the ground truth optimal paths. / Att betrakta jorden från ovan är ett bra tillvägagångsätt för att förstå vår egen värld bättre. Från rymden, många komplexa mönster och samband på marken går att urskilja genom hög-upplöst satellitdata. Kvalitén och tillgängligheten av denna data, i kombination med de senaste framstegen inom djupa inlärningstekniker, möjliggör oss att hissa dessa mönster mer effektivt än någonsin. I denna avhandling kommer vi analysera satellitbilder med hjälp av djupa neurala nätverk i ett försök att hitta nätverk av vägar i olika städer runtom i världen. Efter vi har lokaliserat dessa nätverk av vägar så kommer vi att representera nätverken som grafer och använda oss av Dijkstras algoritm för att hitta optimala rutter inom dessa nätverk.  Att ha förmågan att kunna effektivt använda sig av satellitbilder för att i nära realtid kunna identifiera vägar och optimala rutter har många möjliga applikationer. Speciellt ur ett humant och kommersiellt perspektiv. Exempelvis, inom det humanitära området, så ökar dessvärre frekvensen av naturkatastrofer på grund av klimatförändringar och därmed är behovet av nödkartläggning i realtid för hjälporganisationer större än någonsin. En effektiv nödkartläggning skulle exempelvis kunna underlätta enormt vid en allvarlig översvämning eller dylikt.  Dem toppmoderna djupa neurala nätverksmodellerna som kommer implementeras, jämföras och nyanseras för denna uppgift är i huvudsak baserad på U-net och ResNet arkitekturerna. Innan vi presenterar dessa arkitekturer i denna avhandling så kommer läsaren att få en omfattande teoretisk bakgrund till djupa neurala nätverk för att tydligt formulera dem matematiska grundpelarna. Dem slutgiltiga resultaten visar övergripande stark prestanda för samtliga av våra modeller. Både på olika datauppsättningar samt utvärderingsmått. Den högste IoU poängen som uppnås är cirka 0,7 och vi kan även se en hög grad av likhet mellan vissa av våra förutsagda optimala rutter och mark sanningens optimala rutter.
133

Basil-GAN / Basilika-GAN

Risberg, Jonatan January 2022 (has links)
Developments in computer vision has sought to design deep neural networks which trained on a large set of images are able to generate high quality artificial images which share semantic qualities with the original image set. A pivotal shift was made with the introduction of the generative adversarial network (GAN) by Goodfellow et al.. Building on the work by Goodfellow more advanced models using the same idea have shown great improvements in terms of both image quality and data diversity. GAN models generate images by feeding samples from a vector space into a generative neural network. The structure of these so called latent vector samples show to correspond to semantic similarities of their corresponding generated images. In this thesis the DCGAN model is trained on a novel data set consisting of image sequences of the growth process of basil plants from germination to harvest. We evaluate the trained model by comparing the DCGAN performance on benchmark data sets such as MNIST and CIFAR10 and conclude that the model trained on the basil plant data set achieved similar results compared to the MNIST data set and better results in comparison to the CIFAR10 data set. To argue for the potential of using more advanced GAN models we compare the results from the DCGAN model with the contemporary StyleGAN2 model. We also investigate the latent vector space produced by the DCGAN model and confirm that in accordance with previous research, namely that the DCGAN model is able to generate a latent space with data specific semantic structures. For the DCGAN model trained on the data set of basil plants, the latent space is able to distinguish between images of early stage basil plants from late stage plants in the growth phase. Furthermore, utilizing the sequential semantics of the basil plant data set, an attempt at generating an artificial growth sequence is made using linear interpolation. Finally we present an unsuccessful attempt at visualising the latent space produced by the DCGAN model using a rudimentary approach at inverting the generator network function. / Utvecklingen inom datorseende har syftat till att utforma djupa neurala nätverk som tränas på en stor mängd bilder och kan generera konstgjorda bilder av hög kvalitet med samma semantiska egenskaper som de ursprungliga bilderna. Ett avgörande skifte skedde när Goodfellow et al. introducerade det generativa adversariella nätverket (GAN). Med utgångspunkt i Goodfellows arbete har flera mer avancerade modeller som använder samma idé uppvisat stora förbättringar när det gäller både bildkvalitet och datamångfald. GAN-modeller genererar bilder genom att mata in vektorer från ett vektorrum till ett generativt neuralt nätverk. Strukturen hos dessa så kallade latenta vektorer visar sig motsvara semantiska likheter mellan motsvarande genererade bilder. I detta examensarbete har DCGAN-modellen tränats på en ny datamängd som består av bildsekvenser av basilikaplantors tillväxtprocess från groning till skörd. Vi utvärderar den tränade modellen genom att jämföra DCGAN-modellen mot referensdataset som MNIST och CIFAR10 och drar slutsatsen att DCGAN tränad på datasetet för basilikaväxter uppnår liknande resultat jämfört med MNIST-dataset och bättre resultat jämfört med CIFAR10-datasetet. För att påvisa potentialen av att använda mer avancerade GAN-modeller jämförs resultaten från DCGAN-modellen med den mer avancerade StyleGAN2-modellen. Vi undersöker också det latenta vektorrum som produceras av DCGAN-modellen och bekräftar att DCGAN-modellen i enlighet med tidigare forskning kan generera ett latent rum med dataspecifika semantiska strukturer. För DCGAN-modellen som tränats på datamängden med basilikaplantor lyckas det latenta rummet skilja mellan bilder av basilikaplantor i tidiga stadier och sena stadier av plantor i tillväxtprocessen. Med hjälp av den sekventiella semantiken i datamängden för basilikaväxter gjörs dessutom ett försök att generera en artificiell tillväxtsekvens med hjälp av linjär interpolation. Slutligen presenterar vi ett misslyckat försök att visualisera det latenta rummet som produceras av DCGAN-modellen med hjälp av ett rudimentärt tillvägagångssätt för att invertera den generativa nätverksfunktionen.
134

Some phenomenological investigations in deep learning

Baratin, Aristide 12 1900 (has links)
Les remarquables performances des réseaux de neurones profonds dans de nombreux domaines de l'apprentissage automatique au cours de la dernière décennie soulèvent un certain nombre de questions théoriques. Par exemple, quels mecanismes permettent à ces reseaux, qui ont largement la capacité de mémoriser entièrement les exemples d'entrainement, de généraliser correctement à de nouvelles données, même en l'absence de régularisation explicite ? De telles questions ont fait l'objet d'intenses efforts de recherche ces dernières années, combinant analyses de systèmes simplifiés et études empiriques de propriétés qui semblent être corrélées à la performance de généralisation. Les deux premiers articles présentés dans cette thèse contribuent à cette ligne de recherche. Leur but est de mettre en évidence et d'etudier des mécanismes de biais implicites permettant à de larges modèles de prioriser l'apprentissage de fonctions "simples" et d'adapter leur capacité à la complexité du problème. Le troisième article aborde le problème de l'estimation de information mutuelle en haute, en mettant à profit l'expressivité et la scalabilité des reseaux de neurones profonds. Il introduit et étudie une nouvelle classe d'estimateurs, dont il présente plusieurs applications en apprentissage non supervisé, notamment à l'amélioration des modèles neuronaux génératifs. / The striking empirical success of deep neural networks in machine learning raises a number of theoretical puzzles. For example, why can they generalize to unseen data despite their capacity to fully memorize the training examples? Such puzzles have been the subject of intense research efforts in the past few years, which combine rigorous analysis of simplified systems with empirical studies of phenomenological properties shown to correlate with generalization. The first two articles presented in these thesis contribute to this line of work. They highlight and discuss mechanisms that allow large models to prioritize learning `simple' functions during training and to adapt their capacity to the complexity of the problem. The third article of this thesis addresses the long standing problem of estimating mutual information in high dimension, by leveraging the scalability of neural networks. It introduces and studies a new class of estimators and present several applications in unsupervised learning, especially on enhancing generative models.
135

A Deep Learning Approach to Predicting the Length of Stay of Newborns in the Neonatal Intensive Care Unit / En djupinlärningsstrategi för att förutsäga vistelsetiden för nyfödda i neonatala intensivvårdsavdelingen

Straathof, Bas Theodoor January 2020 (has links)
Recent advancements in machine learning and the widespread adoption of electronic healthrecords have enabled breakthroughs for several predictive modelling tasks in health care. One such task that has seen considerable improvements brought by deep neural networks is length of stay (LOS) prediction, in which research has mainly focused on adult patients in the intensive care unit. This thesis uses multivariate time series extracted from the publicly available Medical Information Mart for Intensive Care III database to explore the potential of deep learning for classifying the remaining LOS of newborns in the neonatal intensive care unit (NICU) at each hour of the stay. To investigate this, this thesis describes experiments conducted with various deep learning models, including long short-term memory cells, gated recurrentunits, fully-convolutional networks and several composite networks. This work demonstrates that modelling the remaining LOS of newborns in the NICU as a multivariate time series classification problem naturally facilitates repeated predictions over time as the stay progresses and enables advanced deep learning models to outperform a multinomial logistic regression baseline trained on hand-crafted features. Moreover, it shows the importance of the newborn’s gestational age and binary masks indicating missing values as variables for predicting the remaining LOS. / Framstegen inom maskininlärning och det utbredda införandet av elektroniska hälsoregister har möjliggjort genombrott för flera prediktiva modelleringsuppgifter inom sjukvården. En sådan uppgift som har sett betydande förbättringar förknippade med djupa neurala nätverk är förutsägelsens av vistelsetid på sjukhus, men forskningen har främst inriktats på vuxna patienter i intensivvården. Den här avhandlingen använder multivariata tidsserier extraherade från den offentligt tillgängliga databasen Medical Information Mart for Intensive Care III för att undersöka potentialen för djup inlärning att klassificera återstående vistelsetid för nyfödda i den neonatala intensivvårdsavdelningen (neonatal-IVA) vid varje timme av vistelsen. Denna avhandling beskriver experiment genomförda med olika djupinlärningsmodeller, inklusive longshort-term memory, gated recurrent units, fully-convolutional networks och flera sammansatta nätverk. Detta arbete visar att modellering av återstående vistelsetid för nyfödda i neonatal-IVA som ett multivariat tidsserieklassificeringsproblem på ett naturligt sätt underlättar upprepade förutsägelser över tid och gör det möjligt för avancerade djupa inlärningsmodeller att överträffaen multinomial logistisk regressionsbaslinje tränad på handgjorda funktioner. Dessutom visar det vikten av den nyfödda graviditetsåldern och binära masker som indikerar saknade värden som variabler för att förutsäga den återstående vistelsetiden.
136

Computational auditory scene analysis and robust automatic speech recognition

Narayanan, Arun 14 November 2014 (has links)
No description available.
137

Deep Learning for Sensor Fusion

Howard, Shaun Michael 30 August 2017 (has links)
No description available.
138

Flight search engine CPU consumption prediction

Tao, Zhaopeng January 2021 (has links)
The flight search engine is a technology used in the air travel industry. It allows the traveler to search and book for the best flight options, such as the combination of flights while keeping the best services, options, and price. The computation for a flight search query can be very intensive given its parameters and complexity. The project goal is to predict the flight search queries computation cost for a new flight search engine product when dealing with parameters change and optimizations. The problem of flight search cost prediction is a regression problem. We propose to solve the problem by delimiting the problem based on its business logic and meaning. Our problem has data defined as a graph, which is why we have chosen Graph Neural Network. We have investigated multiple pretraining strategies for the evaluation of node embedding concerning a realworld regression task, including using a line graph for the training. The embeddings are used for downstream regression tasks. Our work is based on some stateoftheart Machine Learning, Deep Learning, and Graph Neural Network methods. We conclude that for some business use cases, the predictions are suitable for production use. In addition, the prediction of tree ensemble boosting methods produces negatives predictions which further degrade the R2 score by 4% because of the business meaning. The Deep Neural Network outperformed the most performing Machine Learning methods by 8% to 12% of R2 score. The Deep Neural Network also outperformed Deep Neural Network with pretrained node embedding from the Graph Neural Network methods by 11% to 17% R2 score. The Deep Neural Network achieved 93%, 81%, and 63% R2 score for each task with increasing difficulty. The training time range from 1 hour for Machine Learning models, 2 to 10 hours for Deep Learning models, and 8 to 24 hours for Deep Learning model for tabular data trained end to end with Graph Neural Network layers. The inference time is around 15 minutes. Finally, we found that using Graph Neural Network for the node regression task does not outperform Deep Neural Network. / Flygsökmotor är en teknik som används inom flygresebranschen. Den gör det möjligt för resenären att söka och boka de bästa flygalternativen, t.ex. kombinationer av flygningar med bästa service, alternativ och pris. Beräkningen av en flygsökning kan vara mycket intensiv med tanke på dess parametrar och komplexitet. Projektets mål är att förutsäga beräkningskostnaden för flygsökfrågor för en ny produkt för flygsökmotor när parametrar ändras och optimeringar görs. Problemet med att förutsäga kostnaderna för flygsökning är ett regressionsproblem. Vi föreslår att man löser problemet genom att avgränsa det utifrån dess affärslogik och innebörd. Vårt problem har data som definieras som en graf, vilket är anledningen till att vi har valt Graph Neural Network. Vi har undersökt flera förträningsstrategier för utvärdering av nodinbäddning när det gäller en regressionsuppgift från den verkliga världen, bland annat genom att använda ett linjediagram för träningen. Inbäddningarna används för regressionsuppgifter i efterföljande led. Vårt arbete bygger på några toppmoderna metoder för maskininlärning, djupinlärning och grafiska neurala nätverk. Vi drar slutsatsen att förutsägelserna är lämpliga för produktionsanvändning i vissa Vi drar slutsatsen att förutsägelserna är lämpliga för produktionsanvändning i vissa fall. Dessutom ger förutsägelserna från trädens ensemble av boostingmetoder negativa förutsägelser som ytterligare försämrar R2poängen med 4% på grund av affärsmässiga betydelser. Deep Neural Network överträffade de mest effektiva metoderna för maskininlärning med 812% av R2poängen. Det djupa neurala nätverket överträffade också det djupa neurala nätverket med förtränad node embedding från metoderna för grafiska neurala nätverk med 11 till 17% av R2poängen. Deep Neural Network uppnådde 93, 81 och 63% R2poäng för varje uppgift med stigande svårighetsgrad. Träningstiden varierar från 1 timme för maskininlärningsmodeller, 2 till 10 timmar för djupinlärningsmodeller och 8 till 24 timmar för djupinlärningsmodeller för tabelldata som tränats från början till slut med grafiska neurala nätverkslager. Inferenstiden är cirka 15 minuter. Slutligen fann vi  att användningen av Graph Neural Network för uppgiften om regression av noder inte överträffar Deep Neural Network.
139

Fusion pour la séparation de sources audio / Fusion for audio source separation

Jaureguiberry, Xabier 16 June 2015 (has links)
La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante. / Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks.
140

Improving Brain Tumor Segmentation using synthetic images from GANs

Nijhawan, Aashana January 2021 (has links)
Artificial intelligence (AI) has been seeing a great amount of hype around it for a few years but more so now in the field of diagnostic medical imaging. AI-based diagnoses have shown improvements in detecting the smallest abnormalities present in tumors and lesions. This can tremendously help public healthcare. There is a large amount of data present in the field of biomedical imaging with the hospitals but only a small amount is available for the use of research due to data and privacy protection. The task of manually segmenting tumors in this magnetic resonance imaging (MRI) can be quite expensive and time taking. This segmentation and classification would need high precision which is usually performed by medical experts that follow clinical medical standards. Due to this small amount of data when used with machine learning models, the trained models tend to overfit. With advancing deep learning techniques it is possible to generate images using Generative Adversarial Networks (GANs). GANs has garnered a heap of attention towards itself for its power to produce realistic-looking images, videos, and audios. This thesis aims to use the synthetic images generated by progressive growing GANs (PGGAN) along with real images to perform segmentation on brain tumor MRI. The idea is to investigate whether the addition of this synthetic data improves the segmentation significantly or not. To analyze the quality of the images produced by the PGGAN, Multi-scale Similarity Index Measure (MS-SSIM) and Sliced Wasserstein Distance (SWD) are recorded. To exam-ine the segmentation performance, Dice Similarity Coefficient (DSC) and accuracy scores are observed. To inspect if the improved performance by synthetic images is significant or not, a parametric paired t-test and non-parametric permutation test are used. It could be seen that the addition of synthetic images with real images is significant for most cases in comparison to using only real images. However, this addition of synthetic images makes the model uncertain. The models’ robustness is tested using training-free uncertainty estimation of neural networks.

Page generated in 0.1361 seconds