• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • 12
  • 1
  • Tagged with
  • 28
  • 28
  • 11
  • 10
  • 9
  • 8
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Nouvelles méthodes de codage vidéo distribué

Huchet, Grégory 16 April 2018 (has links)
De nos jours certaines applications vidéo de par des limitations de mémoire et de capacités de calculs requièrent un système où l'encodage d'une séquence vidéo doit être le plus simple possible. Le codage vidéo distribué nouveau paradigme de la compression vidéo semble prometteur pour ce genre de demande. Il permet une compression peu complexe de séquences animées. Son principe repose sur les travaux de D. Slepian et J. K. Wolf [1] ainsi que ceux de A. D. Wyner et J. Ziv [2] menés dans les années 70. La présente thèse énonce trois différentes contributions relatives au codage vidéo conventionnel et distribué. La première est un nouveau procédé de filtrage vidéo basé sur l'utilisation d'arbres de décision. Afin de réduire les artefacts visuels issus d'une trop forte compression, les arbres de décision identifient et appliquent les meilleurs coefficients de filtrage en fonction des données à filtrer. La seconde contribution concerne un schéma de codage vidéo distribué où l'on évite de transmettre au décodeur 1 information relative aux blocs de l'image les moins significatifs. De cette manière, on engendre une diminution importante du débit binaire et une réduction de la complexité de décodage. Ce schéma de codage repose sur une séparation en couche des coefficients de transformée en cosinus discret de l'image. Les coefficients DC sont les premiers à être transmis au décodeur. De là, ils sont analysés par ce dernier afin de trouver les blocs les plus significatifs de l'image. Le décodeur indique alors à l'encodeur, via un canal de retour, quels sont les coefficients AC des blocs à transmettre. Enfin, la dernière contribution consiste en une méthode de représentation binaire adaptative des images dans les procédés de codage vidéo distribué. Cette représentation permet de réduire efficacement le débit binaire et tenant compte uniquement de l'information source la plus pertinente. Ici encore cette méthode repose sur une utilisation plus efficace d 'un canal de retour.
2

Architecture auto-adaptative pour le transcodage vidéo / Self-Adaptive Architecture for Video Transcoding

Guarisco, Michael 14 November 2011 (has links)
Le transcodage est un élément clé dans la transmission vidéo permettant à une séquence vidéo de passer d'un type de codage à un autre afin de s'adapter au mieux aux capacités de transport d'un canal de transmission. L'intérêt de ce type de traitement est de faire profiter un maximum d'utilisateurs possédant des terminaux variés dont la résolution spatiale, la résolution temporelle affichable, et le type de canal utilisé pour accéder au média varient fortement, et cela à partir d'une seule source de qualité et résolution maximale, stockée sur un serveur, par exemple. Le transcodage est adapté dans les cas où l'on souhaite envoyer une séquence vidéo vers un destinataire et dont le chemin serait constitué de divers canaux de transmission. Nous avons réalisé un transcodeur par requantification ainsi qu'un transcodeur par troncature. Ces deux méthodes ont été comparées et il apparait qu'en termes de qualité d'image l'une ou l'autre de ces méthodes est plus efficace selon le contexte. La suite de nos travaux consiste en l'étude du standard scalable dérivé de H.264 AVC, le standard SVC (Scalable Video Coding). Nous avons souhaité étudier un transcodeur en qualité, mais aussi en résolution spatiale qui permettra de réécrire le flux SVC en un flux AVC décodable par les décodeurs du marché actuel. Cette transposition est réalisée grâce à une architecture reconfigurable permettant de s'adapter aux nombreux types de flux pouvant être conformes au standard SVC d' H.264. L'étude proposée a aboutie à une implémentation partielle d'un transcodeur du type SVC vers AVC. Nous proposons dans cette thèse une description des implémentations de transcodage concernant les formats AVC puis SVC / Transcoding is a key element in the video transmission allows a video to go from one encoding type to another in order to adapt better to the transport capacity of a transmission channel. The advantage of this type of treatment is to make the most of users with various terminals with spatial resolution, temporal resolution displayable, and type of channel used to access the media vary widely, and from that of a single source of quality and maximum resolution, stored on a server, for example. Transcoding is appropriate where you want to send a video to a recipient and whose path would consist of various transmission channels. We realized by a transcoder and a requantization transcoder by truncation. These two methods were compared and it appears that in terms of image quality in either of these methods is more effective depending on the context. Following our work is the study of the standard H.264 AVC scalable derivative of the standard SVC (Scalable Video Coding). We wanted to study as a transcoder, but also in spatial resolution which will rewrite the SVC flow in a stream stroke decodable by decoders on the market today. This mapping is achieved through are configurable architecture to adapt to many types of flow which may conform to standard SVC to H.264. The proposed study has accomplished a partial implementation of a transcoder type SVC to AVC. We propose here a description of the implementations on AVC transcoding and SVC
3

Compression vidéo fondée sur l'apparence

Schwerdt, Karl 18 May 2001 (has links) (PDF)
Cette thèse présente une nouvelle technique pour la compression de données vidéo numériques, appelée le Codage de Bases Orthonormales (CBO). Des algorithmes de vision par ordinateur, de compression de données, et d'identification de configuration sont combinés pour donner une méthode de codage en trois étapes. CBO recueille des informations sur le contenu d'une image sans utiliser de modèles. Au lieu de cela, il est basé sur l'apparence d'objets. Les techniques basées sur l'apparence utilisent des représentations orthonormales de l'espace de base des objets, habituellement dans l'espace propre, et exploitent les propriétés géométriques de ces représentations d'objet. Dans une séquence d'images d'un objet, chaque image est un point dans l'espace engendré par la base orthonormale utilisée. Une concentration sur un objet représente une normalisation des données visuelles d'entrée d'un objet principal. Étant donné les domaines d'application pour la compression vidéo, le visage d'un locuteur comme objet principal est un choix normal. Nous démontrons que CBO est une alternative valide aux techniques de compression vidéo conventionnelles. En fonction de la précision de la normalisation sur l'objet principal, le CBO montre une performance bien supérieure a celle des techniques conventionnelles.
4

Vers une solution réaliste de décodage source-canal conjoint de contenus multimédia

Marin, Cédric 27 March 2009 (has links) (PDF)
Lors d'une transmission vidéo sur les réseaux mobiles, les données doivent être efficacement comprimées pour s'adapter à la bande passante réduite du support. Cependant, plus un flux multimédia est comprimé, plus il est sensible aux erreurs de transmission. Pour garantir un signal exempt d'erreur à l'entrée du décodeur source, plusieurs mécanismes sont incorporés dans le récepteur. Ces techniques consistent principalement à retransmettre les paquets erronés et/ou à rajouter des redondances aux données transmises. Ces méthodes sont efficaces, mais entraînent une consommation excessive de ressources. Récemment, le concept de décodage conjoint a été proposé. Il consiste à utiliser les redondances inhérentes contenues dans les informations transmises pour améliorer la qualité du décodage multimédia. Dans cette thèse, nous explorons cet axe et proposons un nouveau schéma de décodage conjoint exploitant les propriétés sémantiques et syntaxiques du flux ainsi que les codes de détection d'erreurs (CRC) protégeant les paquets. Parallèlement, nous étudions les problématiques d'intégration des schémas de décodage conjoint dans les récepteurs traditionnels et nous montrons que de nombreuses modifications sont nécessaires. Nous proposons ensuite un principe universel permettant de résoudre simplement les difficultés en exploitant différemment la structure protocolaire. Ces techniques ont été testées en considérant une transmission vidéo H.264/AVC point-à-point sur un support WiFi. Les résultats obtenus ont confirmé l'intérêt du décodage robuste par une amélioration significative du bilan de liaison.
5

Mouvement et vidéo : estimation, compression et filtrage morphologique

Laveau, Nicolas 12 December 2005 (has links) (PDF)
Le travail de thèse développé dans ce mémoire porte sur le traitement des séquences vidéos. Ceci inclut la compression pour une grande partie de la thèse, mais également le filtrage spatio-temporel et la segmentation vidéo. Un des outils d'analyse récurrent dans chacune de ces applications est la mesure du mouvement, c'est-à-dire la description de la cohérence temporelle d'une séquence vidéo. Un système de compression vidéo comprend généralement les trois composantes suivantes : estimation du mouvement, transformations temporelle et spatiale, quantification et codage des coefficients. Nous nous intéressons successivement à chacune de ces composantes. Dans un premier temps, nous essayons d'adapter une méthode d'estimation par projection du flot optique sur une base d'ondelettes à valeur complexe à la compression vidéo. Le champ obtenu étant dense et sensible au bruit, nous introduisons dans la résolution un élément de régularisation afin de diminuer son coût de codage. En dépit d'une nette amélioration apportée par nos modifications, la technique d'estimation par projection sur une base d'ondelettes n'est pas compétitive face au block-matching qui constitue l'algorithme de référence pour la compression vidéo. Cela illustre bien le fait que le choix et la conception d'une méthode sont étroitement liés à l'usage qui en est fait : des mé- thodes d'estimation de mouvement optimisées pour des applications aussi diverses que la compression vidéo, le filtrage et la segmentation, ou encore l'analyse de scènes 3D ont peu de chances d'être les mêmes. Dans ces expériences, nous avons utilisé une méthode visant à satisfaire un critère qui est équivalent à un critère d'appariement optimal pour la compression sous des conditions théoriques qui ne sont en général pas vérifiées. Une telle approche est donc visiblement sous-optimale. Forts de cette observation, nous avons ensuite développé une méthode de mesure de mouvement qui repose sur une paramétrisation du champ bilinéaire par morceaux, et qui minimise cette fois directement l'erreur quadratique moyenne qui est notre critère d'évaluation. Nous montrons qu'il est possible d'obtenir de bons résultats quand les paramètres du champ sont épars. Un codage vidéo avec une prédiction temporelle suppose de coder des données aussi hétérogènes que des champs de mouvement ou des images d'erreur. Nous avons travaillé sur l'allocation de débit entre images d'erreur et de manière moins approfondie entre image d'erreur et champ de mouvement. Nous avons adapté un modèle de planification de débit introduit par Mallat et Falzon qui a été initialement conçu pour des images statiques et qui est actuellement utilisé pour la compression au ot d'images satellitales. Cette approche se révèle meilleure que des approches plus classiquement utilisées en compression vidéo. Pour pouvoir effectuer un codage par transformée du champ et des images d'erreur, nous avons cherché à concevoir de nouvelles transformations en sous-bandes non-linéaires. Pour cela, nous avons utilisé le schéma de lifting, qui garantit l'inversibilité formelle des transformations qu'il peut réaliser, que celles-ci soient linéaires ou non. Nous avons construit deux nouvelles décompositions non-linéaires. La première vise à réduire un artéfact communément appelé e et de Gibbs. Cette première décomposition consiste à utiliser un prédicteur de Deslauriers-Dubuc modifié de manière à réduire ces artéfacts. La modification introduite permet effectivement de réduire les oscillations autour de discontinuités en échange d'un surcoût modeste en terme d'efficacité de représentation dans les sections régulières du signal représenté. La formulation évite le mécanisme de transition d'un filtre à l'autre relativement habituel dans ce genre d'approche en recourant à des opérateurs continus de type min et max, qui permettent de garantir la continuité de la transformation et donc sa stabilité après quantification. L'autre se propose d'améliorer la décomposition en ondelettes du champ de mouvement en utilisant l'information qu'apporte chacune de ses composantes sur l'autre. En effet, l'intuition nous incite à penser que les discontinuités sont présentes au même endroit dans chacune des composantes du mouvement. Nous nous servons de cette co-occurrence des discontinuités pour choisir le filltre de prédiction. Dans les deux cas, les méthodes mises au point donnent des résultats positifs sur des signaux de synthèse mais perdent en efficacité sur des signaux réels. Une des grandes difficultés est de mettre au point un étage de mise-à-jour dans le schéma de lifting. Par ailleurs, le schéma linéaire le plus efficace est un schéma à 4 étages pour lequel il est difficile de concevoir un concurrent non-linéaire dans la mesure où ses propriétés sont difficilement lisibles sur les étages individuels du schéma de lifting. Nfin transposé des idées rencontrées en compression vidéo pour dé nir des opérations de filtrage morphologique vidéo intégrant la mesure du mouvement, utilisant des éléments structurants qui suivent le mouvement. L'application de ces idées donne des résultants probants en filltrage et en segmentation, en particulier grâce à une forte cohérence spatio-temporelle introduite dans les voisinages : cette approche donne des résultats de segmentation plus stables puisqu'elle impose une cohérence temporelle beaucoup plus forte aux frontières des régions que les méthodes itératives en temps. Nous discutons ensuite des possibilités d'utilisation de champs de mouvement à précision sous-pixellique.
6

From dataflow-based video coding tools to dedicated embedded multi-core platforms / Depuis des outils de codage vidéo basés sur la programmation flux de données vers des plates-formes multi-coeur embarquées et dédiées

Yviquel, Hervé 25 October 2013 (has links)
Le développement du multimédia, avec l'émergence des architectures parallèles, a ravivé l'intérêt de la programmation flux de données pour la conception de systèmes embarqués. En effet, la programmation flux de données offre une approche de développement suffisamment flexible pour créer des applications complexes tout en exprimant la concurrence et le parallélisme explicitement. Paradoxalement, la plupart des études portent sur des modèles flux de données statiques, même si un processus de développement pragmatique nécessite l'expressivité et la practicité d'un langage de programmation basé sur un modèle flux de données dynamiques, comme le langage de programmation utilisé dans le cadre de Reconfigurable Video Coding. Dans cette thèse, nous décrivons un environnement de développement pour la programmation flux de données qui facilite le développement multimédia pour des plates-formes multi-coeur embarquées. Cet environnement de développement repose sur une architecture logicielle modulaire qui bénéficie de techniques modernes de génie logiciel telles que la méta modélisation et la programmation orientée aspect. Ensuite, nous développons une implémentation logicielle optimisée des programmes flux de données ciblant aussi bien les ordinateurs de bureau que les plates-formes embarquées. Notre implémentation vise à combler le fossé entre la practicité du langage de programmation et l'efficacité de son exécution. Enfin, nous présentons un ensemble d'algorithmes de projection et d'ordonnancement d'acteurs qui permettent l'exécution de programmes flux de données dynamiques sur des plates-formes multi-coeur avec des performances extensibles. / The development of multimedia technology, along with the emergence of parallel architectures, has revived the interest on dataflow programming for designing embedded systems. Indeed, dataflow programming offers a flexible development approach in order to build complex applications while expressing concurrency and parallelism explicitly. Paradoxically, most of the studies focus on static dataflow models of computation, even if a pragmatic development process requires the expressiveness and the practicality of a programming language based on dynamic dataflow models, such as the language included in the Reconfigurable Video Coding framework. In this thesis, we describe a complete development environment for dataflow programming that eases multimedia development for embedded multi-core platforms. This development environment is built upon a modular software architecture that benefits from modern software engineering techniques such as meta modeling and aspect-oriented programming. Then, we develop an optimized software implementation of dataflow programs targeting desktop and embedded multi-core platforms. Our implementation aims to bridge the gap between the practicality of the programming language and the efficiency of the execution. Finally, we present a set of runtime actors mapping/scheduling algorithms that enable the execution of dynamic dataflow programs over multi-core platforms with scalable performance.
7

Second-order prediction and residue vector quantization for video compression / Prédiction de second ordre et résidu par quantification vectorielle pour la compression vidéo

Huang, Bihong 08 July 2015 (has links)
La compression vidéo est une étape cruciale pour une grande partie des applications de télécommunication. Depuis l'avènement de la norme H.261/MPEG-2, un nouveau standard de compression vidéo est produit tous les 10 ans environ, avec un gain en compression de 50% par rapport à la précédente. L'objectif de la thèse est d'obtenir des gains en compression par rapport à la dernière norme de codage vidéo HEVC. Dans cette thèse, nous proposons trois approches pour améliorer la compression vidéo en exploitant les corrélations du résidu de prédiction intra. Une première approche basée sur l'utilisation de résidus précédemment décodés montre que, si des gains sont théoriquement possibles, le surcoût de la signalisation les réduit pratiquement à néant. Une deuxième approche basée sur la quantification vectorielle mode-dépendent (MDVQ) du résidu préalablement à l'étape classique transformée-quantification scalaire, permet d'obtenir des gains substantiels. Nous montrons que cette approche est réaliste, car les dictionnaires sont indépendants du QP et de petite taille. Enfin, une troisième approche propose de rendre adaptatif les dictionnaires utilisés en MDVQ. Un gain substantiel est apporté par l'adaptivité, surtout lorsque le contenu vidéo est atypique, tandis que la complexité de décodage reste bien contenue. Au final on obtient un compromis gain-complexité compatible avec une soumission en normalisation. / Video compression has become a mandatory step in a wide range of digital video applications. Since the development of the block-based hybrid coding approach in the H.261/MPEG-2 standard, new coding standard was ratified every ten years and each new standard achieved approximately 50% bit rate reduction compared to its predecessor without sacrificing the picture quality. However, due to the ever-increasing bit rate required for the transmission of HD and Beyond-HD formats within a limited bandwidth, there is always a requirement to develop new video compression technologies which provide higher coding efficiency than the current HEVC video coding standard. In this thesis, we proposed three approaches to improve the intra coding efficiency of the HEVC standard by exploiting the correlation of intra prediction residue. A first approach based on the use of previously decoded residue shows that even though gains are theoretically possible, the extra cost of signaling could negate the benefit of residual prediction. A second approach based on Mode Dependent Vector Quantization (MDVQ) prior to the conventional transformed scalar quantization step provides significant coding gains. We show that this approach is realistic because the dictionaries are independent of QP and of a reasonable size. Finally, a third approach is developed to modify dictionaries gradually to adapt to the intra prediction residue. A substantial gain is provided by the adaptivity, especially when the video content is atypical, without increasing the decoding complexity. In the end we get a compromise of complexity and gain for a submission in standardization.
8

Backward compatible approaches for the compression of high dynamic range videos / Approches rétro-compatibles pour la compression de vidéos à grande gamme dynamique

Le Pendu, Mikaël 17 March 2016 (has links)
Les technologies d'écran ont connu récemment une évolution rapide. De la télévision 3D à l'Ultra Haute Définition, la tendance est maintenant aux écrans HDR (pour ''High Dynamic Range'') permettant de reproduire une gamme de luminance bien plus élevée que les écrans classiques. L'émergence de cette technologie implique de nouveaux travaux de standardisation dans le domaine de la compression vidéo. Une question essentielle pour la distribution à grande échelle de contenu HDR est celle de la rétro-compatibilité. Tandis que la future génération d'écrans de télévision sera adaptée à ce nouveau format, il est nécessaire de permettre aux équipements plus anciens de décoder et afficher une version du même contenu dont la dynamique a été préalablement réduite par un procédé appelé ''tone mapping''. Cette thèse vise à explorer les schémas de compression HDR rétro-compatibles. Dans une première approche, un algorithme de tone mapping spécifié par l'encodeur est appliqué à l'image HDR. L'image générée, alors appelée LDR (pour ''Low Dynamic Range''), peut être encodée et décodée dans un format classique. L'encodeur transmet par ailleurs une quantité réduite d'information permettant à un décodeur HDR d'inverser l'opération de tone mapping et de reconstruire une version HDR. L'étude de ces schémas est axée sur la définition de méthodes de tone mapping optimisées pour les performances de compression. La suite de la thèse se concentre sur l'approche scalable dans laquelle les deux versions sont fournies à l'encodeur sans connaissance à priori sur l'opérateur de tone mapping utilisé. Le producteur garde donc le contrôle sur la création du contenu LDR. Cette version LDR est d'abord compressée comme une première couche. L'image reconstruite est utilisée par le codeur scalable pour compresser plus efficacement la couche HDR grâce à un mécanisme de prédiction inter-couches. Notre approche locale et non linéaire nous permet d'améliorer les performances de codage par rapport aux méthodes scalables existantes, en particulier dans le cas où un tone mapping complexe est utilisé pour générer la version LDR. / In recent years, the display technologies have been rapidly evolving. From 3D television to Ultra High Definition, the trend is now towards High Dynamic Range (HDR) displays that can reproduce a luminance range far beyond the capabilities of conventional displays. The emergence of this technology involves new standardization effort in the field of video compression. In terms of large scale content distribution, the question of backward compatibility is critical. While the future generation of television displays will be adapted to this new format, it is necessary to enable the older equipment to decode and display a version of the same content whose dynamic range has been previously reduced by a process called “tone mapping”. This thesis aims at exploring the backward compatible HDR compression schemes. In a first approach, a tone mapping operator specified by the encoder is applied to the HDR image. The resulting image, called Low Dynamic Range (LDR), can then be encoded and decoded in a conventional format. The encoder additionally transmits a small amount of information enabling a HDR capable decoder to inverse the tone mapping operator and retrieve the HDR version. The study of these schemes is directed towards the definition of tone mapping operators optimized for the compression performance. We then focus on scalable approaches, where both versions are given to the encoder without prior knowledge on the tone mapping operator used. The producer thus keeps full control on the LDR content creation process. This LDR version is compressed as a first layer. The reconstructed image is used by the scalable encoder to compress the HDR layer efficiently by performing inter-layer predictions. Thanks to a local and non-linear approach, the proposed schemes improve the coding performance compared to the existing scalable methods, especially in the case where a complex tone mapping is used for generating the LDR version.
9

Towards novel inter-prediction methods for image and video compression / Nouvelles méthodes de prédiction inter-images pour la compression d’images et de vidéos

Begaint, Jean 29 November 2018 (has links)
En raison de la grande disponibilité des dispositifs de capture vidéo et des nouvelles pratiques liées aux réseaux sociaux, ainsi qu’à l’émergence des services en ligne, les images et les vidéos constituent aujourd’hui une partie importante de données transmises sur internet. Les applications de streaming vidéo représentent ainsi plus de 70% de la bande passante totale de l’internet. Des milliards d’images sont déjà stockées dans le cloud et des millions y sont téléchargés chaque jour. Les besoins toujours croissants en streaming et stockage nécessitent donc une amélioration constante des outils de compression d’image et de vidéo. Cette thèse vise à explorer des nouvelles approches pour améliorer les méthodes actuelles de prédiction inter-images. De telles méthodes tirent parti des redondances entre images similaires, et ont été développées à l’origine dans le contexte de la vidéo compression. Dans une première partie, de nouveaux outils de prédiction inter globaux et locaux sont associés pour améliorer l’efficacité des schémas de compression de bases de données d’image. En associant une compensation géométrique et photométrique globale avec une prédiction linéaire locale, des améliorations significatives peuvent être obtenues. Une seconde approche est ensuite proposée qui introduit un schéma de prédiction inter par régions. La méthode proposée est en mesure d’améliorer les performances de codage par rapport aux solutions existantes en estimant et en compensant les distorsions géométriques et photométriques à une échelle semi locale. Cette approche est ensuite adaptée et validée dans le cadre de la compression vidéo. Des améliorations en réduction de débit sont obtenues, en particulier pour les séquences présentant des mouvements complexes réels tels que des zooms et des rotations. La dernière partie de la thèse se concentre sur l’étude des méthodes d’apprentissage en profondeur dans le cadre de la prédiction inter. Ces dernières années, les réseaux de neurones profonds ont obtenu des résultats impressionnants pour un grand nombre de tâches de vision par ordinateur. Les méthodes basées sur l’apprentissage en profondeur proposées à l’origine pour de l’interpolation d’images sont étudiées ici dans le contexte de la compression vidéo. Des améliorations en terme de performances de codage sont obtenues par rapport aux méthodes d’estimation et de compensation de mouvements traditionnelles. Ces résultats mettent en évidence le fort potentiel de ces architectures profondes dans le domaine de la compression vidéo. / Due to the large availability of video cameras and new social media practices, as well as the emergence of cloud services, images and videos constitute today a significant amount of the total data that is transmitted over the internet. Video streaming applications account for more than 70% of the world internet bandwidth. Whereas billions of images are already stored in the cloud and millions are uploaded every day. The ever growing streaming and storage requirements of these media require the constant improvements of image and video coding tools. This thesis aims at exploring novel approaches for improving current inter-prediction methods. Such methods leverage redundancies between similar frames, and were originally developed in the context of video compression. In a first approach, novel global and local inter-prediction tools are associated to improve the efficiency of image sets compression schemes based on video codecs. By leveraging a global geometric and photometric compensation with a locally linear prediction, significant improvements can be obtained. A second approach is then proposed which introduces a region-based inter-prediction scheme. The proposed method is able to improve the coding performances compared to existing solutions by estimating and compensating geometric and photometric distortions on a semi-local level. This approach is then adapted and validated in the context of video compression. Bit-rate improvements are obtained, especially for sequences displaying complex real-world motions such as zooms and rotations. The last part of the thesis focuses on deep learning approaches for inter-prediction. Deep neural networks have shown striking results for a large number of computer vision tasks over the last years. Deep learning based methods proposed for frame interpolation applications are studied here in the context of video compression. Coding performance improvements over traditional motion estimation and compensation methods highlight the potential of these deep architectures.
10

Complexity Control for Low-Power HEVC Encoding / Contrôle de la complexité pour l'encodage HEVC basse consommation d'énergie

Mercat, Alexandre 07 December 2018 (has links)
L'Internet des objets (loT) est devenu une réalité et ses applications pressenties vont fortement augmenter la demande de vidéo mobile. En conséquence, les systèmes montent en complexité algorithmique et le portage du codage vidéo sur plates-formes embarquées devient problématique. Les nouveaux contenus vidéo 4K et 360°, venant avec des résolutions spatiales (8K, 16K) et temporelles (120 images/seconde élevées compliquent encore le problème. Il est donc nécessaire de réduire l'empreinte des nouveaux codec tels que HEVC tout en préservant les performances en compression et en qualité d'image de ces codecs, La performance énergétique limitée des batteries des systèmes embarqués pousse à proposer de nouvelle méthodes pour ajuster et contrôler la complexité et l'énergie des codecs HEVC. Ce document propose un ensemble d'études dont l'objectif est d'ajuster et de contrôler la complexité et donc la consommation énergétique de l'encodeur HEVC. Deux méthodes de prédiction de découpe de CTU sont proposées : la première basée sur une approche statistique utilisant la variance de l'image et la seconde utilisant l'intelligence artificielle. À partir de cette prédiction, une méthode est proposée pour ajuster la complexité de l'encodage HEVC. Cette solution étend l'espace de recherche autour de la prédiction et alloue la complexité dans l'image afin de minimiser les dégradations en termes de compression et de qualité. Enfin un système de contrôle temps réel de la complexité d'encodage est proposé. Il démontre l'applicabilité de contributions de ce document en maintenant la complexité d'encodage proche d'une consigne. / The Internet of Things (loT) is now a reality. Forthcoming applications will boost mobile video demand to an unprecedented level. The induced increase in computational complexity is a challenge when executing in real-time new video coding standards on embedded platforms, limited in computing, memory, and energy. New 4K UHD and 360-degree video contents coming with high spatial (SK, 16K) and temporal (120fp resolutions further complicate the problem. In this context, codecs such as HEVC (High Efficiency Vide Coding) must be worked on to reduce their complexity while preserving the bitrate and image quality. Th bounded energy density of embedded system's batteries requires designers to propose new methods scaling and controlling the complexity and energy consumption of HEVC codecs. This document presents a set of studies aiming at scaling and controlling the complexity, and therefore the energy consumption, of HEVC Intra encoding. Two methods of quad-tree partitioning prediction in "one-shot are proposed: one based on variance-aware statistic approach and one based on Machine Learning using data-mining classifiers. From the obtained prediction, a generic tunable complexity scheme of HEVC encoding is introduced. It expands the search space around the original partitioning prediction and allocates complexit in a frame while minimizing performance loss in terms of bitrate and visual quality. Finally, a real-time contr system is created that dynamically manages the encoding process to keep the encoding complexity under specific tarjet. It demonstrates the a licability of the mayor contributions of this document.

Page generated in 0.4785 seconds