• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • Tagged with
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Continuous Appearance for Material Textures with Neural Rendering : Using multiscale embeddings for efficient rendering of material textures at any scale in 3D engines. / Kontinuerligt Utseende för Materialtexturer med Neural Rendering : Användning av flerskaliga inbäddningar för effektiv rendering av materialtexturer i alla skalor i 3D-motorer.

de Oliveira, Louis January 2024 (has links)
Neural Rendering has recently shown potential for real-time applications such as video games. However, current state of the art Neural Rendering approaches still suffer from a high memory footprint and often require multiple inferences of large neural networks to produce a properly filtered output. This cost associated to filtering the output of Neural Rendering models makes real-time multiscale rendering difficult. In this work, we propose a neural architecture based on multiscale embeddings that take advantage of current rasterization pipelines to produce a filtered output in a single evaluation, allowing for a continuous appearance through scale using a very small neural network. The model is trained directly on a filtered signal in order to learn a continuous representation of the material instead of relying on a post-processing step. The proposed architecture enables efficient sampling on GPU both in texel position and in level of detail, and closely reproduces material textures while drastically reducing their memory footprint. The results show that this approach is a viable candidate for integration in rendering pipelines, as it can be inferred efficiently in regular fragment shaders and on consumer-level hardware inducing less than 1 millisecond of overhead compared to traditional pipelines while producing an output of similar quality with a 33% reduction in memory footprint. The model also produces a smooth reconstruction through scale, free of artifacts and visual discontinuities that would typically be observed for an unfiltered output. / Neural rendering har på senare år visat potential i realtidsapplikationer som t ex inom dataspel. Dessvärre begränsas dagens state-of-the-art metoder inom neural rendering av hög minnesanvändning och kräver ofta att multipla inferenser görs av relativt stora neuronnät för att skapa adekvat filtrerade resultat. Det är därför svårt att direkt tillämpa neural rendering i spelutveckling. I detta arbete föreslås en neural arkitektur som baserar sig på multiscale embeddings som tar tillvara på egenskaperna hos dagens renderingspipelines för att producera adekvat filtrerade resultat med endast en inferens, vilket möjliggör kontinuerliga utseendeegenskaper genom skalning med ett mycket litet neuronnät. Modellen tränas direkt på en filtrerad signal för att lära en kontinuerlig representation av materialet istället för att behöva ett separat post-processingsteg. Den föreslagna arkitekturen möjliggör effektiv sampling på GPU både i texelposition och level of detail, och reproducerar materialtexturerna väl, samtidigt som den reducerar minnesanvändningen drastiskt. Resultaten visar att denna metod är en gångbar kandidat för integration i en renderingspipeline, eftersom den kan inferreras effektivt i en vanlig fragmentsshader på konsumenthårdvara med under en millisekunds tidstillägg jämfört med en traditionell pipeline utan avkall på kvalitet med 33% lägre minnesanvändning. Modellen producerar också en slät rekonstruktion genom skalning, fri från artefakter och visuella diskontinuiteter som annars ofta syns i ett ofiltrerat resultat.
2

Deep Learning Approaches for Automatic Colorization, Super-resolution, and Representation of Volumetric Data

Devkota, Sudarshan 01 January 2023 (has links) (PDF)
This dissertation includes a collection of studies that aim to improve the way we represent and visualize volume data. The advancement of medical imaging has revolutionized healthcare, providing crucial anatomical insights for accurate diagnosis and treatment planning. Our first study introduces an innovative technique to enhance the utility of medical images, transitioning from monochromatic scans to vivid 3D representations. It presents a framework for reference-based automatic color transfer, establishing deep semantic correspondences between a colored reference image and grayscale medical scans. This methodology extends to volumetric rendering, eliminating the need for manual intervention in parameter tuning. Next, it delves into deep learning-based super-resolution for volume data. By leveraging color information and supplementary features, the proposed system efficiently upscales low-resolution renderings to achieve higher fidelity results. Temporal reprojection further strengthens stability in volumetric rendering. The third contribution centers on the compression and representation of volumetric data, leveraging coordinate-based networks and multi-resolution hash encoding. This approach demonstrates superior compression quality and training efficiency compared to other state-of-the-art neural volume representation techniques. Furthermore, we introduce a meta-learning technique for weight initialization to expedite convergence during training. These findings collectively underscore the potential for transformative advancements in large-scale data visualization and related applications.
3

Humans in the wild : NeRFs for Dynamic Scenes Modeling from In-the-Wild Monocular Videos with Humans

Alessandro, Sanvito January 2023 (has links)
Recent advancements in computer vision have led to the emergence of Neural Radiance Fields (NeRFs), a powerful tool for reconstructing photorealistic 3D scenes, even in dynamic settings. However, these methods struggle when dealing with human subjects, especially when the subject is partially obscured or not completely observable, resulting in inaccurate reconstructions of geometries and textures. To address this issue, this thesis evaluates state-of-the-art human modeling using implicit representations with partial observability of the subject. We then propose and test several novel methods to improve the generalization of these models, including the use of symmetry and Signed Distance Function (SDF) driven losses and leveraging prior knowledge from multiple subjects via a pre-trained model. Our results demonstrate that our proposed methods significantly improve the accuracy of the reconstructions, even in challenging ”in-the-wild” situations, both quantitatively and qualitatively. Our approach opens new opportunities for applications such as asset generation for video games and movies and improved simulations for autonomous driving scenarios from abundant in-the-wild monocular videos. In summary, our research presents a significant improvement to the state-of-the-art human modeling using implicit representations, with important implications for 3D Computer Vision (CV) and Neural Rendering and its applications in various industries. / De senaste framstegen inom datorseende har lett till uppkomsten av Neural Radiance Fields (NeRFs), ett kraftfullt verktyg för att rekonstruera fotorealistiska 3D-scener, även i dynamiska miljöer. Dessa metoder brister dock vid hantering av människor, särskilt när människan är delvis skymd eller inte helt observerbar, vilket resulterar i felaktiga rekonstruktioner av geometrier och texturer. För att ta itu med denna fråga, utvärderar denna avhandling toppmodern mänsklig modellering med hjälp av implicita representationer med partiell observerbarhet av ämnet. Vidare föreslår, samt testar vi, flertalet nya metoder för att förbättra generaliseringen av dessa modeller, inklusive användningen av symmetri och SDF-drivna förluster och utnyttjandet av förkunskaper från flera individer via en förtränad modell. Resultaten visar att våra föreslagna metoder avsevärt förbättrar rekonstruktionernas noggrannhet, även i utmanande ”in-the-wild” situationer, både kvantitativt och kvalitativt. Vårt tillvägagångssätt skapar nya möjligheter för applikationer som tillgångsgenerering för videospel och filmer och förbättrade simuleringar för scenarier för autonom körning från rikliga monokulära videor. Sammanfattningsvis, presenterar vår forskning en betydande förbättring av toppmodern modelleringen med hjälp av implicita representationer, med viktiga implikationer för 3D CV och neural rendering och dess tillämpningar i olika industrier.
4

3D Object Detection Using Sidescan Sonar Images

Georgiev, Ivaylo January 2024 (has links)
Sidescan sonars are tools used in seabed inspection and imagery. As a smaller and cheaper compared to the alternatives tool, it has attracted attention and many studies have been developed to extract information about the seabed altitude from the produced images. The main issue is that sidescan sonars do not provide elevation angle information, therefore a 3D map of the seabed cannot be inferred directly. One of the most recent techniques to tackle this problem is called neural rendering [1], in which the sea surface bathymetry is implicitly represented using a neural network. The purpose of this thesis is (1) to find the minimum altitude change that can be detected using this technique, (2) to check whether the position of the sonar ensonification has any effect on these results, and (3) to check from how many sides is it sufficient to ensonify the region with altitude change in order to detect it confidently. To conduct this research, simulations of missions conducted by an autonomous underwater vehicle with sidescan sonar heads on both sides are done on a map, where different objects from various sizes and shapes are put. Then, neural rendering is used to reconstruct the bathymetry of the maps before and after the object insertion from the sidescan sonar. The reconstructed seabed elevations are then compared and the objects with the smallest size or altitude that were detected (meaning that the predicted height from the model trained on the map with the objects is significantly larger than that of the model trained on the initial map) would be the answer to the first question. Then, those smallest objects are again put on the same map, and now smaller autonomous underwater vehicle missions are used to check how many sides are need so that the objects are still detectable. The conducted experiments suggest that objects with bathymetry elevation in the range of centimeters can be detected, and in some cases ensonification from 2 sides is sufficient to detect an object with confidence. / Sidenskannings-sonarer spelar en avgörande roll i inspektionen av havsbotten och erbjuder kostnadseffektiva alternativ till traditionella verktyg. Bristen på information om elevationsvinklar utgör dock en utmaning för att direkt härleda en 3D-karta över havsbotten. Denna avhandling undersöker tillämpningen av neural rendering [1], en nyligen utvecklad teknik som implicit representerar havsytsbathymetri med neurala nätverk, för att adressera denna begränsning. Målen med denna forskning är tre: (1) att bestämma den minsta detekterbara höjdändringen med hjälp av neural rendering, (2) att bedöma effekten av sonarens ensonifieringsposition på detektionsresultaten och (3) att undersöka det minsta antalet sidor som krävs för pålitlig objektdetektion i områden med höjdändringar. Metoden innefattar simuleringar av autonoma undervattensfordonsuppdrag utrustade med sidenskannings-sonarer på båda sidor. Olika objekt av varierande storlekar och former introduceras på en karta, och neural rendering används för att återskapa bathymetrier före och efter objektets insättning. Analysen fokuserar på att jämföra de återskapade havsbottenhöjderna och identifiera de minsta objekten eller höjdändringarna som är möjliga att detektera med modellen. Därefter återintroduceras dessa minimala objekt på kartan, och mindre uppdrag med autonoma undervattensfordon genomförs för att fastställa det minsta antalet sidor som krävs för pålitlig detektion. Forskningsresultaten indikerar att objekt med höjdändringar i centimeterskalan kan detekteras pålitligt. Dessutom tyder experimenten på att i vissa fall är ensonifiering från endast två sidor tillräckligt för pålitlig objektdetektion. Denna forskning bidrar med värdefulla insikter för att optimera sidenskanningssonarapplikationer för havsbotteninspektion, vilket erbjuder potentiella förbättringar av effektivitet och kostnadseffektivitet för undervattensutforskning och kartläggning.
5

Hybrid Methods for the Analysis and Synthesis of Human Faces

Paier, Wolfgang 18 November 2024 (has links)
Der Trend hin zu virtueller Realität (VR) hat neues Interesse an Themen wie der Modellierung menschlicher Körper geweckt, da sich neue Möglichkeiten für Unterhaltung, Konferenzsysteme und immersive Anwendungen bieten. Diese Dissertation stellt deshalb neue Ansätze für die Erstellung animierbarer/realistischer 3D-Kopfmodelle, zur computergestützten Gesichtsanimation aus Text/Sprache sowie zum fotorealistischen Echtzeit-Rendering vor. Um die 3D-Erfassung zu vereinfachen, wird ein hybrider Ansatz genutzt, der statistische Kopfmodelle mit dynamischen Texturen kombiniert. Das Modell erfasst Kopfhaltung und großflächige Deformationen, während die Texturen feine Details und komplexe Bewegungen kodieren. Anhand der erfassten Daten wird ein generatives Modell trainiert, das realistische Gesichtsausdrücke aus einem latenten Merkmalsvektor rekonstruiert. Zudem wird eine neue neuronale Rendering-Technik presentiert, die lernt den Vordergrund (Kopf) vom Hintergrund zu trennen. Das erhöht die Flexibilität während der Inferenz (z. B. neuer Hintergrund) und vereinfacht den Trainingsprozess, da die Segmentierung nicht vorab berechnet werden muss. Ein neuer Animationsansatz ermöglicht die automatische Synthese von Gesichtsvideos auf der Grundlage weniger Trainingssequenzen. Im Gegensatz zu bestehenden Arbeiten lernt das Verfahren einen latenten Merkmalsraum, der sowohl Emotionen als auch visuelle Variationen der Sprache erfasst, während gelernte Priors Animations-Artefakte und unrealistische Kopfbewegungen minimieren. Nach dem Training ist es möglich, realistische Sprachsequenzen zu erzeugen, während der latente Stil-Raum zusätzliche Gestaltungsmöglichkeiten bietet. Die vorgestellten Methoden bilden ein Komplettsystem für die realistische 3D-Modellierung, Animation und Darstellung von menschlichen Köpfen, das den Stand der Technik übertrifft. Dies wird in verschiedenen Experimenten, Ablations-/Nutzerstudien gezeigt und ausführlich diskutiert. / The recent trend of virtual reality (VR) has sparked new interest in human body modeling by offering new possibilities for entertainment, conferencing, and immersive applications (e.g., intelligent virtual assistants). Therefore, this dissertation presents new approaches to creating animatable and realistic 3D head models, animating human faces from text/speech, and the photo-realistic rendering of head models in real-time. To simplify complex 3D face reconstruction, a hybrid approach is introduced that combines a lightweight statistical head model for 3D geometry with dynamic textures. The model captures head orientation and large-scale deformations, while textures encode fine details and complex motions. A deep variational autoencoder trained on these textured meshes learns to synthesize realistic facial expressions from a compact vector. Additionally, a new neural-rendering technique is proposed that separates the head (foreground) from the background, providing more flexibility during inference (e.g., rendering on novel backgrounds) and simplifying the training process as no segmentation masks have to be pre-computed. This dissertation also presents a new neural-network-based approach to synthesizing novel face animations based on emotional speech videos of an actor. Unlike existing works, the proposed model learns a latent animation style space that captures emotions as well as natural variations in visual speech. Additionally, learned animation priors minimize animation artifacts and unrealistic head movements. After training, the animation model offers temporally consistent editing of the animation style according to the users’ needs. Together, the presented methods provide an end-to-end system for realistic 3D modeling, animation, and rendering of human heads. Various experimental results, ablation studies, and user evaluations demonstrate that the proposed approaches outperform the state-of-the-art.

Page generated in 0.095 seconds