• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Style-driven virtual camera control in 3D environments / Contrôle, basé sur le style, de caméras virtuelles dans des environnements 3D

Merabti, Billal 24 September 2015 (has links)
Calculer automatiquement une séquence d'images cinématographiquement cohérente, sur un ensemble d'actions qui se produisent dans un monde 3D, est une tâche complexe. Elle nécessite non seulement le calcul des plans de caméra ( points de vue ) et les transitions appropriées entre ces plans (coupures), mais aussi la capacité d'encoder et de reproduire des éléments de style cinématographique. Les modèles proposés dans la littérature, fondés généralement sur des représentations à machines d'états finis (FSMs), fournissent des fonctionnalités limitées pour construire des séquences de plans et ne permettent pas d'effectuer d'importantes variations de style sur une même séquence d'actions. Dans cette thèse, nous proposons d'abord un modèle cinématographique expressif, basé données, qui peut calculer des variations significatives en termes de style, avec la possibilité de contrôler la durée des prises de vue et la possibilité d'ajouter des contraintes spécifiques à la séquence souhaitée. Le modèle est paramétré de manière à faciliter l'application de techniques d'apprentissage pour reproduire des éléments de style extraits de films réels en utilisant une représentation à base de modèle de Markov caché du processus de montage. Le modèle proposé est à la fois plus général que les représentations existantes, et se révèle être plus expressif dans sa capacité à encoder précisément des éléments de style cinématographique pour des scènes de dialogues. Ensuite, nous introduisons une extension plus générique pour généraliser notre système de montage afin de traiter des contenus cinématographique plus complexes (autres que les dialogues). Il s'agit d'utiliser des Réseaux bayésiens dynamiques à la place des modèles de Markov à états cachés. Enfin, nous avons conçu un outil d'annotation et un format de représentation de données cinématographiques afin de simplifier le processus de création et de manipulation de ses données. Les données collectées serviront comme bases d'apprentissage pour des techniques basées données, telles que les nôtres, ainsi que pour l'analyse de films. / Automatically computing a cinematographically consistent sequence of shots, over a set of actions occurring in a 3D world, is a complex task which requires not only the computation of appropriate shots (viewpoints) and appropriate transitions between shots (cuts), but the ability to encode and reproduce elements of cinematographic style. The models proposed in the literature, generally rule-based, provide limited functionalities to build sequences of shots. These approaches are not designed in mind to easily learn elements of cinematographic style, nor do they allow to perform significant variations in style over the same sequence of actions. In this thesis, we first propose a data-driven model for automated cinematography (framing and editing) that can compute significant variations in terms of cinematographic style, with the ability to control the duration of shots and the possibility to add specific constraints to the desired sequence. By using a Hidden Markov Model representation of the editing process, we demonstrate the possibility of easily reproducing elements of style extracted from real movies. The proposed model is more elaborate in handling dialogue scenes than existing representations, and proves to be more expressive in its ability to precisely encode elements of cinematographic style. Then, we introduce an extension of this model to account for more complex environments (more than dialogues). To this end, we use a more general statistical model: Dynamic Bayesian Network, which enlarges considerably the possibilities in editing and film analysis. We finally designed a data annotation tool and a format to easily create film annotations that would be used for data-driven cinematography or film analysis.
2

Contributions aux problèmes de l'étalonnage extrinsèque d'affichages semi-transparents pour la réalité augmentée et de la mise en correspondance dense d'images / Contributions to the problems of extrinsic calibration semitransparent displays for augmented reality and dense mapping images

Braux-Zin, Jim 26 September 2014 (has links)
La réalité augmentée consiste en l'insertion d'éléments virtuels dans une scène réelle, observée à travers un écran. Les systèmes de réalité augmentée peuvent prendre des formes différentes pour obtenir l'équilibre désiré entre trois critères : précision, latence et robustesse. On identifie trois composants principaux : localisation, reconstruction et affichage. Nous nous concentrons sur l'affichage et la reconstruction. Pour certaines applications, l'utilisateur ne peut être isolé de la réalité. Nous proposons un système sous forme de "tablette augmentée" avec un écran semi transparent, au prix d'un étalonnage adapté. Pour assurer l'alignement entre augmentations et réalité, il faut connaître les poses relatives de l'utilisateur et de la scène observée par rapport à l'écran. Deux dispositifs de localisation sont nécessaires et l'étalonnage consiste à calculer la pose de ces dispositifs par rapport à l'écran. Le protocole d'étalonnage est le suivant : l'utilisateur renseigne les projections apparentes dans l'écran de points de référence d'un objet 3D connu ; les poses recherchées minimisent la distance 2D entre ces projections et celles calculées par le système. Ce problème est non convexe et difficile à optimiser. Pour obtenir une estimation initiale, nous développons une méthode directe par l'étalonnage intrinsèque et extrinsèque de caméras virtuelles. Ces dernières sont définies par leurs centres optiques, confondus avec les positions de l'utilisateur, ainsi que leur plan focal, constitué par l'écran. Les projections saisies par l'utilisateur constituent alors les observations 2D des points de référence dans ces caméras virtuelles. Un raisonnement symétrique permet de considérer des caméras virtuelles centrées sur les points de référence de l'objet, "observant" les positions de l'utilisateur. Ces estimations initiales sont ensuite raffinées par ajustement de faisceaux. La reconstruction 3D est basée sur la triangulation de correspondances entre images. Ces correspondances peuvent être éparses lorsqu'elles sont établies par détection, description et association de primitives géométriques ou denses lorsqu'elles sont établies par minimisation d'une fonction de coût sur toute l'image. Un champ dense de correspondance est préférable car il permet une reconstruction de surface, utile notamment pour une gestion réaliste des occultations en réalité augmentée. Les méthodes d'estimation d'un tel champ sont basées sur une optimisation variationnelle, précise mais sensible aux minimums locaux et limitée à des images peu différentes. A l'opposé, l'emploi de descripteurs discriminants peut rendre les correspondances éparses très robustes. Nous proposons de combiner les avantages des deux approches par l'intégration d'un coût basé sur des correspondances éparses de primitives à une méthode d'estimation variationnelle dense. Cela permet d'empêcher l'optimisation de tomber dans un minimum local sans dégrader la précision. Notre terme basé correspondances éparses est adapté aux primitives à coordonnées non entières, et peut exploiter des correspondances de points ou de segments tout en filtrant implicitement les correspondances erronées. Nous proposons aussi une détection et gestion complète des occultations pour pouvoir mettre en correspondance des images éloignées. Nous avons adapté et généralisé une méthode locale de détection des auto-occultations. Notre méthode produit des résultats compétitifs avec l'état de l'art, tout en étant plus simple et plus rapide, pour les applications de flot optique 2D et de stéréo à large parallaxe. Nos contributions permettent d'appliquer les méthodes variationnelles à de nouvelles applications sans dégrader leur performance. Le faible couplage des modules permet une grande flexibilité et généricité. Cela nous permet de transposer notre méthode pour le recalage de surfaces déformables avec des résultats surpassant l'état de l'art, ouvrant de nouvelles perspectives. / Augmented reality is the process of inserting virtual elements into a real scene, observed through a screen. Augmented Reality systems can take different forms to get the desired balance between three criteria: accuracy, latency and robustness. Three main components can be identified: localization, reconstruction and display. The contributions of this thesis are focused on display and reconstruction. Most augmented reality systems use non-transparent screens as they are widely available. However, for critical applications such as surgery or driving assistance, the user cannot be ever isolated from reality. We answer this problem by proposing a new “augmented tablet” system with a semi-transparent screen. Such a system needs a suitable calibration scheme:to correctly align the displayed augmentations and reality, one need to know at every moment the poses of the user and the observed scene with regard to the screen. Two tracking devices (user and scene) are thus necessary, and the system calibration aims to compute the pose of those devices with regard to the screen. The calibration process set up in this thesis is as follows: the user indicates the apparent projections in the screen of reference points from a known 3D object ; then the poses to estimate should minimize the 2D on-screen distance between those projections and the ones computed by the system. This is a non-convex problem difficult to solve without a sane initialization. We develop a direct estimation method by computing the extrinsic parameters of virtual cameras. Those are defined by their optical centers which coincide with user positions, and their common focal plane consisting of the screen plane. The user-entered projections are then the 2D observations of the reference points in those virtual cameras. A symmetrical thinking allows one to define virtual cameras centered on the reference points, and “looking at” the user positions. Those initial estimations can then be refined with a bundle adjustment. Meanwhile, 3D reconstruction is based on the triangulation of matches between images. Those matches can be sparse when computed by detection and description of image features or dense when computed through the minimization of a cost function of the whole image. A dense correspondence field is better because it makes it possible to reconstruct a 3D surface, useful especially for realistic handling of occlusions for augmented reality. However, such a field is usually estimated thanks to variational methods, minimizing a convex cost function using local information. Those methods are accurate but subject to local minima, thus limited to small deformations. In contrast, sparse matches can be made very robust by using adequately discriminative descriptors. We propose to combine the advantages of those two approaches by adding a feature-based term into a dense variational method. It helps prevent the optimization from falling into local minima without degrading the end accuracy. Our feature-based term is suited to feature with non-integer coordinates and can handle point or line segment matches while implicitly filtering false matches. We also introduce comprehensive handling of occlusions so as to support large deformations. In particular, we have adapted and generalized a local method for detecting selfocclusions. Results on 2D optical flow and wide-baseline stereo disparity estimation are competitive with the state of the art, with a simpler and most of the time faster method. This proves that our contributions enables new applications of variational methods without degrading their accuracy. Moreover, the weak coupling between the components allows great flexibility and genericness. This is the reason we were able to also transpose the proposed method to the problem of non-rigid surface registration and outperforms the state of the art methods.

Page generated in 0.0635 seconds