Global ETD Search

51	Identification non-supervisée de personnes dans les flux télévisés / Unsupervised person recognition in TV broadcast Poignant, Johann 18 October 2013 (has links) Ce travail de thèse a pour objectif de proposer plusieurs méthodes d'identification non-supervisées des personnes présentes dans les flux télévisés à l'aide des noms écrits à l'écran. Comme l'utilisation de modèles biométriques pour reconnaître les personnes présentes dans de larges collections de vidéos est une solution peu viable sans connaissance a priori des personnes à identifier, plusieurs méthodes de l'état de l'art proposent d'employer d'autres sources d'informations pour obtenir le nom des personnes présentes. Ces méthodes utilisent principalement les noms prononcés comme source de noms. Cependant, on ne peut avoir qu'une faible confiance dans cette source en raison des erreurs de transcription ou de détection des noms et aussi à cause de la difficulté de savoir à qui fait référence un nom prononcé. Les noms écrits à l'écran dans les émissions de télévision ont été peu utilisés en raison de la difficulté à extraire ces noms dans des vidéos de mauvaise qualité. Toutefois, ces dernières années ont vu l'amélioration de la qualité des vidéos et de l'incrustation des textes à l'écran. Nous avons donc ré-évalué, dans cette thèse, l'utilisation de cette source de noms. Nous avons d'abord développé LOOV (pour Lig Overlaid OCR in Vidéo), un outil d'extraction des textes sur-imprimés à l'image dans les vidéos. Nous obtenons avec cet outil un taux d'erreur en caractères très faible. Ce qui nous permet d'avoir une confiance importante dans cette source de noms. Nous avons ensuite comparé les noms écrits et les noms prononcés dans leurs capacités à fournir le nom des personnes présentes dans les émissions de télévisions. Il en est ressorti que deux fois plus de personnes sont nommables par les noms écrits que par les noms prononcés extraits automatiquement. Un autre point important à noter est que l'association entre un nom et une personne est intrinsèquement plus simple pour les noms écrits que pour les noms prononcés. Cette très bonne source de noms nous a donc permis de développer plusieurs méthodes de nommage non-supervisé des personnes présentes dans les émissions de télévision. Nous avons commencé par des méthodes de nommage tardives où les noms sont propagés sur des clusters de locuteurs. Ces méthodes remettent plus ou moins en cause les choix fait lors du processus de regroupement des tours de parole en clusters de locuteurs. Nous avons ensuite proposé deux méthodes (le nommage intégré et le nommage précoce) qui intègrent de plus en plus l'information issue des noms écrits pendant le processus de regroupement. Pour identifier les personnes visibles, nous avons adapté la méthode de nommage précoce pour des clusters de visages. Enfin, nous avons aussi montré que cette méthode fonctionne aussi pour nommer des clusters multi-modaux voix-visage. Avec cette dernière méthode, qui nomme au cours d'un unique processus les tours de paroles et les visages, nous obtenons des résultats comparables aux meilleurs systèmes ayant concouru durant la première campagne d'évaluation REPERE / In this thesis we propose several methods for unsupervised person identification in TV broadcast using the names written on the screen. As the use of biometric models to recognize people in large video collections is not a viable option without a priori knowledge of people present in this videos, several methods of the state-of-the-art proposes to use other sources of information to get the names of those present. These methods mainly use the names pronounced as source of names. However, we can not have a good confidence in this source due to transcription or detection names errors and also due to the difficulty of knowing to who refers a pronounced name. The names written on the screen in TV broadcast have not be used in the past due to the difficulty of extracting these names in low quality videos. However, recent years have seen improvements in the video quality and overlay text integration. We therefore re-evaluated in this thesis, the use of this source of names. We first developed LOOV (for LIG Overlaid OCR in Video), this tool extract overlaid texts written in video. With this tool we obtained a very low character error rate. This allows us to have an important confidence in this source of names. We then compared the written names and pronounced names in their ability to provide the names of person present in TV broadcast. We found that twice persons are nameable by written names than by pronounced names with an automatic extraction of them. Another important point to note is that the association between a name and a person is inherently easier for written names than for pronounced names. With this excellent source of names we were able to develop several unsupervised naming methods of people in TV broadcast. We started with late naming methods where names are propagated onto speaker clusters. These methods question differently the choices made during the diarization process. We then proposed two methods (integrated naming and early naming) that incorporate more information from written names during the diarization process. To identify people appear on screen, we adapted the early naming method for faces clusters. Finally, we have also shown that this method also works for multi-modal speakers-faces clusters. With the latter method, that named speech turn and face during a single process, we obtain comparable score to the best systems that contribute during the first evaluation REPERE Fusion multimodale OCR dans les vidéos Reconnaissance de personnes Multimodale fusion Video OCR Person recognition 004
52	Image structures : from augmented reality to image stylization / Structure d'une image : de la réalité augmentée à la stylisation Chen, Jiazhou 12 July 2012 (has links) Dans cette thèse, nous nous intéressons aux structures d’une image en général, et plus particulièrement aux gradients et aux contours. Ces dernières se sont révélées très importantes ces dernières années pour de nombreuses applications en infographie,telles que la réalité augmentée et la stylisation d’images et de vidéos. Le but de toute analyse des structures d’une image est de décrire à un haut-niveau la compréhension que l’on peut avoir de son contenu et de fournir les bases nécessaires à l’amélioration de la qualité des applications citées au-dessus, notamment la lisibilité, la précision, la cohérence spatiale et temporelle.Dans une premier temps, nous démontrons le rôle important que ces structures jouent pour des applications de type composition “Focus+Context”. Une telle approche est utilisée en réalité augmentée pour permettre la visualisation de parties d’une scènes qui sont normalement derrières ce que l’on peut observer dans un flux vidéo. L’utilisation d’une segmentation et de lignes caractéristiques permettent de mettre en avant et/ou de révéler les relations d’ordre entre les différents objets de la scène. Pour la synthèse d’images guidée par une fonction d’importance, de multiples styles de rendu sont combinés de manière cohérente grâce à l’utilisation d’une carte de gradients et une de saillance.Dans un deuxième temps, nous introduisons une nouvelle techniques qui permet de reconstruire de manière continue un champ de gradient, et ceci sans trop lisser les détails originaux contenus dans l’image. Pour cela, nous développons une nouvelle méthode d’approximation locale et de plus haut-degré pour des champs de gradients discrets et non-orientés. Cette méthode est basée sur le formalisme“moving least square” (MLS). Nous démontrons que notre approximation isotrope et linéaire est de meilleure qualité que le classique tenseur de structure : les détails sont mieux préservés et les instabilités sont réduites de manière significative. Nous démontrons aussi que notre nouveau champ de gradients apporte des améliorations à de nombreuses techniques de stylisation.Finalement, nous démontrons que l’utilisation d’une technique d’analyse de profil caractéristique par approximation polynomiale permet de distinguer les variations douces des zones dures. Les paramètres du profil sont utilisés comme des paramètres de stylisation tels que l’orientation des coups de pinceau, leur taille et leur opacité. Cela permet la création d’une large variété de styles de ligne. / In this thesis we consider in general image structures and more specifically, imagegradient and contours. They have been proven useful in recent years for variouscomputer graphics applications, such as Augmented Reality (AR), image and videostylization. The goal of analyzing image structures is to describe a high level understandingof image contents and to provide a powerful support to improve thequality of applications, such as visual legibility, accuracy, spatial and temporal coherence.We first demonstrate the important role of image structures in Focus+Contextcompositing. For Focus+Context rendering in AR, a technique dedicated to the visualizationof hidden scenes in video streams, the use of screen segmentation andfeature lines significantly emphasizes the depth cues of occluded scenes, and revealsthe correct occluding order. For importance-driven image synthesis, multiplerendering styles are combined in a coherent manner by using image gradient fieldand saliency map.In the second part, we thus introduce a new approach to estimate a continuousgradient field without oversmoothing the original details contained in an image.For this purpose, we develop a new and higher-order local approximation methodof discrete non-oriented gradient fields based on a moving least square (MLS) formalism.We show that our isotropic linear approximation outperforms classicalstructure tensor: image details are better preserved and instabilities are significantlyreduced. We demonstrate how our non-oriented MLS gradient field benefitsto various image stylization approaches.Finally, we demonstrate that the use of a feature profile analysis for image lineextraction via fitting techniques permits to distinguish sharp and smooth features.Profile parameters are then mapped to stylistic parameters such as brush orientation,size or opacity to give rise to a wide range of line-based styles. Structures d’une image Réalité augmentée Stylisation d’images et de vidéos Champ de gradient Contours et lignes Image structure Augmented reality Image and video stylization Gradient field Contours and lines
53	Market competitions and operating mechanism of China online video content market based on the two-sided market theory / Concurrence et fonctionnement du marché des contenus vidéo en ligne en Chine fondés sur la théorie des marchés bifaces Hong, Ying 28 September 2015 (has links) Le développement des contenus vidéo en ligne ont changé l’environnement de l’internet et des médias jusqu’à devenir une partie de notre vie quotidienne. Cependant, le développement de cette industrie est contraint par plusieurs problèmes, tels que la faible valeur de la publicité, le manque de rentabilité et les litiges de droit d’auteur. Des recherches scientifiques sont à mener se concentrant sur les modes de revenu des plateformes de diffusion et le fonctionnement du marché.Ma thèse mène dans un premier temps une description détaillée de marché des contenus vidéo en ligne en Chine. J’analyse les caractéristiques du marché à l’aide de la théorie des marchés bifaces. Puis la thèse examine les modes de tarification, construit un modèle de marchés bifaces différenciée verticalement, et explore la stratégie de prix optimal dans les différents modes et le choix optimal du mode de fixation des prix. Ensuite, je construis un modèle de concurrence avec la différenciation horizontale avec différents choix d’accès des annonceurs. La thèse explore de manière centrale les modes de transaction et les comportements des entreprises entre les fournisseurs de contenu et la plateforme ainsi que l’équilibre du marché.La thèse procède à une description détaillée du mécanisme de revenus et le fonctionnement de l’industrie des contenus vidéo en ligne basé sur la théorie des marchés bifaces et les caractéristiques de cette industrie émergente. Selon les résultats de la modélisation mathématique, l’analyse conclut par des suggestions à destination des plateformes et de cette industrie adaptées aux caractéristiques chinoises. / The appearance and following flourish of online video content have changed the Internet environment and media ecology of information era, which even become part of our life every day. However, the development of online video content industry is persecuted by several problems, such as lower advertising value, lack of profitability and constant copyright disputes. Specific research on the revenue modes of online video content platform and the operating mechanism of online video content market is essential.I conduct a detailed description for present China’s online video content market at first and then analyze the market characteristics using two-sided market theory. Next the thesis examines the exiting price modes, constructs a model of two-sided vertically differentiated markets, and explore the optimal pricing strategy under the different modes and the optimal choice of pricing mode. Then the thesis constructs a horizontal differentiated model of market competition under the different accessing choices of advertisers. The thesis intensively explores the transaction mode and business behavior between content providers and content platform on the accessing ways and market equilibrium.The dissertation conducts a detailed description of the revenue and operation mechanism for online video content industry based on the theory of two-sided markets and the characteristics of this emerging fresh industry. According to the analysis results concluded by the mathematical modeling, corresponding policy suggestions confirming to the online video content market with Chinese characteristics would be proposed from the perspectives of platform operation and whole industry. Contenus vidéos en ligne Concurrence Economie chinoise Théorie des marchés bifaces Online video content Market competition Chinese economy Two-sided market theory 330
54	Subjective quality assessment : a study on the grading scales : illustrations for stereoscopic and 2D video content / Investigation sur les échelles de l'évaluation subjective de la qualité visuelle : illustrations pour des vidéos stéréoscopiques et 2D Bensaied Ghaly, Rania 05 July 2018 (has links) Les recommandations (normes) élaborées par l'UIT (l'Union Internationale de Télécommunications) précisent avec rigueur les conditions dans lesquelles les tests subjectifs de qualité visuelle doivent avoir lieu: la salle de test, les conditions de visualisation, le protocole d'évaluation, les méthodes de post-traitement des scores accordées par les évaluateurs, etc... Pourtant, les études de l'état de l'art mettent en évidence que des nombreuses inadvertances perdurent au niveau théorique et expérimental: (1) la modélisation statistique précise des scores attribués par les observateurs humains à un certain type de contenu reste encore inconnue, (2) la différence théorique et applicative entre les évaluations sur des échelles discrètes et continues ne fait pas encore l'objet d'une étude dédiée et (3) l'impact sémantique (psycho-cognitif) des étiquettes associées à l'échelle d'évaluation est toujours invoqué mais jamais évalué. Notre thèse offre un cadre méthodologique et expérimental permettant de: 1. Modéliser avec précision statistique la distribution des scores attribués par les observateurs et évaluer l'impact pratique d'une telle modélisation, 2. Établir la relation théorique entre les scores attribués par les observateurs sur une échelle continue et une échelle discrète, 3. Établir le cadre statistique permettant de quantifier l'impact sémantique induit par les étiquettes sémantiques associées à l'échelle d'évaluation, 4. Spécifier et réaliser un cadre expérimental de référence, à vocation d'utilisation ultérieure par les instances de l'UIT / Quality evaluation is an ever-fascinating field, covering at least a century of research works emerging from psychology, psychophysics, sociology, marketing, medicine… While for visual quality evaluation the IUT recommendations pave the way towards well-configured, consensual evaluation conditions granting reproducibility and comparability of the experimental results, an in-depth analysis of the state-of-the-art studies shows at least three open challenges related to the: (1) the continuous vs. discrete evaluation scales, (2) the statistical distribution of the scores assigned by the observers and (3) the usage of semantic labels on the grading scales. Thus, the present thesis turns these challenges into three research objectives: 1. bridging at the theoretical level the continuous and the discrete scale evaluation procedures and investigating whether the number of the classes on the discrete scales is a criterion meaningful in the results interpretations or just a parameter; studying the theoretical influence of the statistical model of evolution results and of the size of the panel (number of observers) in the accuracy of the results are also targeted; 2. quantifying the bias induced in subjective video quality experiments by the semantic labels (e.g. Excellent, Good, Fair, Poor and Bad) generally associated to the discrete grading scales; 3. designing and deploying an experimental test-bed able to support their precision and statistical relevance. With respect to these objectives, the main contributions are at theoretical, methodological and experimental levels Evaluation subjective Qualité d'image Vidéos stéréoscopiques Recommandations UIT Video Echelles continues et discètes Vidéo 2D Subjective assessment Image quality Stereoscopic vidéo ITU recommandations Video Continuous and discrete scales 2D video
55	Optimization algorithms for video service delivery / Algorithmes d'optimisation de service vidéo Abousabea, Emad Mohamed Abd Elrahman 12 September 2012 (has links) L'objectif de cette thèse est de fournir des algorithmes d'optimisation pour l'accès aux services vidéo qu’ils soient non-gérés (Internet TV) ou gérés (IPTV). Nous étudions des statistiques récentes concernant les services vidéo non-gérés comme YouTube et nous proposons des techniques d'optimisation appropriées qui pourraient améliorer l'accès aux fichiers vidéos et réduire le coût de cet accès. En outre, l’analyse des coûts joue un rôle important dans les décisions qui concernent la mise en cache des fichiers vidéos et celles liées au choix des périodes temporelles d'hébergement de ces fichiers sur les serveurs. En ce qui concerne les services vidéo gérés appelés IPTV, nous avons mené des expériences sur une architecture ouverte IPTV-collaboration entre différents opérateurs. Ce modèle est analysé selon un critère de coût d’investissement et d'exploitation à l'intérieur de la sphère domestique. En outre, nous avons introduit une solution d’optimisation dynamique de l'arbre « minimum spanning tree » (MST) pour le service IPTV multicast. Lors d’un accès nomade, les arbres statiques pourraient être incapables de fournir le service de manière efficace vu que l'utilisation de la bande passante augmente aux côté des points de streaming (racines de la topologie). Finalement, nous étudions des mesures de sécurité fiables en streaming vidéo basées sur la méthodologie de la chaîne de hachage et nous proposons un nouvel algorithme hybride. Nous effectuons des comparaisons entre les différentes manières utilisées dans la réalisation de la fiabilité des chaînes de hachage basées sur les classifications génériques / The aim of this thesis is to provide optimization algorithms for accessing video services either in unmanaged or managed ways. We study recent statistics about unmanaged video services like YouTube and propose suitable optimization techniques that could enhance files accessing and reduce their access costs. Moreover, this cost analysis plays an important role in decision making about video files caching and hosting periods on the servers. Under managed video services called IPTV, we conducted experiments for an open-IPTV collaborative architecture between different operators. This model is analyzed in terms of CAPEX and OPEX costs inside the domestic sphere. Moreover, we introduced a dynamic way for optimizing the Minimum Spanning Tree (MST) for multicast IPTV service. In nomadic access, the static trees could be unable to provide the service in an efficient manner as the utilization of bandwidth increases towards the streaming points (roots of topologies). Finally, we study reliable security measures in video streaming based on hash chain methodology and propose a new algorithm. Then, we conduct comparisons between different ways used in achieving reliability of hash chains based on generic classifications Serveurs de partage de vidéos Optimisation Mise en cache vidéo Fiabilité IPTV Chaînes de hachage Video Sharing Servers Optimization Caching Videos IPTV reliability Hash Chains
56	AI-based modeling of brain and behavior : combining neuroimaging, imitation learning and video games Kemtur, Anirudha 07 1900 (has links) Les récentes avancées dans le domaine de l'intelligence artificielle ont ouvert la voie au développement de nouveaux modèles d'activité cérébrale. Les réseaux neuronaux artificiels (RNA) formés à des tâches complexes, telles que la reconnaissance d'images, peuvent être utilisés pour prédire la dynamique cérébrale en réponse à une série de stimuli avec une précision sans précédent, un processus appelé encodage cérébral. Les jeux vidéo ont fait l'objet d'études approfondies dans le domaine de l'intelligence artificielle, mais n'ont pratiquement pas été utilisés pour l'encodage cérébral. Les jeux vidéo offrent un cadre prometteur pour comprendre l'activité cérébrale dans un environnement riche, engageant et actif, contrairement aux tâches essentiellement passives qui dominent actuellement le domaine, telles que la visualisation d'images. Un défi majeur soulevé par les jeux vidéo complexes est que le comportement individuel est très variable d'un sujet à l'autre, et nous avons émis l'hypothèse que les RNAs doivent prendre en compte le comportement spécifique du sujet afin de capturer correctement les dynamiques cérébrales. Dans cette étude, nous avons cherché à utiliser des RNAs pour modéliser l'imagerie par résonance magnétique fonctionnelle (IRMf) et les données comportementales des participants, que nous avons collectées pendant que les sujets jouaient au jeu vidéo Shinobi III. En utilisant l'apprentissage par imitation, nous avons entraîné un RNA à jouer au jeu vidéo en reproduisant fidèlement le style de jeu unique de chaque participant. Nous avons constaté que les couches cachées de notre modèle d'apprentissage par imitation parvenaient à encoder des représentations neuronales pertinentes pour la tâche et à prédire la dynamique cérébrale individuelle avec une plus grande précision que divers modèles de contrôle, y compris des modèles entraînés sur les actions d'autres sujets. Les corrélations les plus fortes entre les activations des couches cachées et les signaux cérébraux ont été observées dans des zones cérébrales biologiquement plausibles, à savoir les réseaux somatosensoriels, attentionnels et visuels. Nos résultats soulignent le potentiel de la combinaison de l'apprentissage par imitation, de l'imagerie cérébrale et des jeux vidéo pour découvrir des relations spécifiques entre le cerveau et le comportement. / Recent advances in the field of Artificial Intelligence have paved the way for the development of novel models of brain activity. Artificial Neural networks (ANN) trained on complex tasks, such as image recognition and language processing, can be used to predict brain dynamics in response to wide range of stimuli with unprecedented accuracy, a process called brain encoding. Videogames have been extensively studied in the AI field, but have hardly been used yet for brain encoding. Videogames provide a promising framework to understand brain activity in rich, engaging and active environments, in contrast to mostly passive tasks currently dominating the field, such as image viewing. A major challenge raised by complex videogames is that individual behavior is highly variable across subjects, and we hypothesized that ANNs need to account for subject-specific behavior in order to properly capture brain dynamics. In this study, we aimed to use ANNs to model functional magnetic resonance imaging (fMRI) and behavioral gameplay data, which we collected while subjects played the Shinobi III videogame. Using imitation learning, we trained an ANN to play the game closely replicating the unique gameplay style of individual participants. We found that hidden layers of our imitation learning model successfully encode task-relevant neural representations and predict individual brain dynamics with higher accuracy than various control models, including models trained on other subjects' actions. The highest correlations between layer activations and brain signals were observed in biologically plausible brain areas, i.e. somatosensory, attentional and visual networks. Our results highlight the potential of combining imitation learning, brain imaging, and videogames to uncover subject-specific relationships between brain and behavior. Imitation Learning Artificial Neural Networks Brain encoding Videogames fMRI Apprentissage par imitation Réseaux de neurones artificiels Codage cerveau Jeux vidéos IRMf
57	Reconnaissance de séquences d'états par le Modèle des Croyances Transférables. Application à l'analyse de vidéos d'athlétisme. Ramasso, Emmanuel 05 December 2007 (has links) (PDF) Cette thèse porte sur la problématique de reconnaissance automatique de systèmes dynamiques. Une méthodologie basée sur des modèles de séquences d'états est employée : les états permettent de décrire le système à un instant particulier tandis que des transitions permettent au système d'évoluer au cours du temps. Dans le cadre de la thèse, deux nouvelles méthodes de représentation et de reconnaissance de séquences d'états basées sur le Modèle des Croyances Transférables, modèle non probabiliste de raisonnement incertain basé sur les fonctions de croyance, sont proposées. La première méthode est déterministe et inspirée des travaux en Intelligence Artificielle, la seconde est stochastique et basée sur une généralisation aux fonctions de croyance des modèles de Markov cachés initialement développés dans la théorie des probabilités. Ces algorithmes, dont le cadre formel est générique, ont été intégrés dans un système de reconnaissance de mouvements humains dans les vidéos d'athlétisme que nous avons mis en place en collaboration avec l'Université de Crète dans le cadre du Réseau d'Excellence Européen SIMILAR. Les méthodes de reconnaissance de séquences ont été évaluées sur une base de 74 vidéos et comparées aux modèles de Markov cachés probabilistes. Séquences d'états Modèle des Croyances Transférables Fonction de croyance Modèle de Markov caché Fusion d'information Analyse de mouvements humains Indexation de vidéos
58	Semantic protection and personalization of video content PIAF : MPEG compliant adaptation framework preserving the user perceived quality / Protection sémantique et personnalisation du contenu de la vidéo PIAF : Un framework d'adaptation conforme à MPEG préservant la qualité perçue de l'utilisateur Khoury, Vanessa El 23 September 2013 (has links) Dans cette thèse, nous proposons un framework d’adaptation appelé "Personalized vIdeo Adaptation Framework" (PIAF) conçu à partir des standards MPEG. PIAF intègre les contraintes sémantiques et vise à maximiser la qualité perçue par l’utilisateur lors de la visualisation de la vidéo tout en respectant les droits de propriété intellectuelle. Les contributions de cette thèse peuvent être résumées comme suit. Dans un premier temps, nous avons utilisé et étendu les standards MPEG-7 et MPEG-21 afin de représenter les préférences des utilisateurs. Nous avons ensuite proposé un modèle formel du processus d’adaptation sémantique d’une vidéo et défini une fonction d’utilité régissant le mécanisme de prise de décision du MPDA. Cette fonction tient compte de différentes dimensions de qualité (qualité perceptuelle, sémantique, temps d’exécution nécessaire) afin d’évaluer quantitativement la qualité d’un plan d’adaptation. Le processus d’adaptation que nous proposons intègre les droits de propriété intellectuelle dans le processus de décision. Dans certains cas, le plan d’adaptation qui produirait la vidéo de meilleure qualité adaptée aux préférences de l’utilisateur peut être inapplicable car il ne respecte pas les contraintes du propriétaire. Trouver le meilleur plan d’adaptation devient alors un problème NP-complet. Nous avons proposé une solution pratique à ce problème sous la forme d’une heuristique capable de sélectionner un plan très proche de l’optimum en un temps de calcul raisonnable. Afin d’implémenter ce framework, nous avons également développé un outil d’annotation sémantique de contenu vidéo (SVCAT) qui produit des annotations sémantiques structurelles et de haut niveau selon un modèle objet basé sur du contenu vidéo. Nous avons validé nos travaux avec des évaluations qualitatives et quantitatives qui nous ont permis d’étudier la performance et l'efficacité du MPDA. Nous avons validé nos travaux avec des évaluations qualitatives et quantitatives qui nous ont permis d’étudier la performance et l'efficacité du MPDA. Les résultats obtenus démontrent que la fonction d’utilité proposée présente une forte corrélation avec les évaluations subjectives fournies par des utilisateurs concernant la qualité d’une vidéo adaptée, et constitue donc une base tout à fait pertinente pour le MPDA. / Universal Multimedia Experience (UME) is the notion that a user should receive informative adapted content anytime and anywhere. Personalization of videos, which adapts their content according to user preferences, is a vital aspect of achieving the UME vision. User preferences can be translated into several types of constraints that must be considered by the adaptation process, including semantic constraints directly related to the content of the video. The overall goal of this adaptation process is to provide users with adapted content that maximizes their Quality of Experience (QoE). This QoE depends at the same time on the level of the user's satisfaction in perceiving the adapted content, the amount of knowledge assimilated by them, and the adaptation execution time. In video adaptation frameworks, the Adaptation Decision Taking Engine (ADTE), is responsible for achieving this goal. The task of the ADTE is challenging as many adaptation operations can satisfy the same semantic constraint, and thus arising in several feasible adaptation plans. Indeed, for each entity to be adapted, the ADTE must decide on the adequate adaptation operator that satisfies the user's preferences while maximizing his/her quality of experience. The first challenge to achieve in this is to objectively measure the quality of the adapted video, while considering the multiple aspects of the QoE. The second challenge is to assess beforehand this quality in order to choose the most appropriate adaptation plan among all possible ones. The third challenge is to resolve conflicting or overlapping semantic constraints, in particular conflicts arising from constraints expressed by owner's intellectual property rights (IPR) about the modification of the content. In this thesis, we tackled the aforementioned challenges by proposing a Utility Function (UF), which integrates semantic concerns with user's perceptual considerations. This UF models the relationships among adaptation operations, user preferences, and the quality of the video content. We integrated this UF into an ADTE. This ADTE performs a multi-level piecewise reasoning to choose the adaptation plan that maximizes the user-perceived quality. Furthermore, we included IPR in the adaptation process. Thereby, we modeled content owner constraints, and proposed a heuristic to resolve conflicting user and owner constraints. More, we developed SVCAT, which produces structural and high-level semantic annotation according to an original object-based video content model. We modeled as well the user's preferences proposing extensions to MPEG-7 and MPEG-21. All the developed contributions were carried out as part of a coherent framework called PIAF. We validated this research with qualitative and quantitative evaluations, which assess the performance and the efficiency of the proposed adaptation decision-taking engine within PIAF. Informatique Expérience Multimédia Universelle Personnalisation de vidéos Adaptation sémantique Mpeg Qualité d'expérience Perception des utilisateurs Information Technology Universal Multimedia Experience Personalization of video Semantic adaptation Mpeg Quality of experience User perception 006.707 2
59	Deep Learning for Video Modelling Mastropietro, Olivier 12 1900 (has links) No description available. Réseaux de neurones Apprentissage machine Apprentissage profond Intelligence artificielle Vision par ordinateur Vidéos Modèles génératifs Neural networks Machine learning Deep learning Artificial intelligence Computer vision Generative models
60	Reconnaissance d'activités et connaissances incertaines dans les scènes vidéos appliquées à la surveillance de personnes âgées. Romdhane, Rim 30 September 2013 (has links) (PDF) Cette thèse aborde le problème de la reconnaissance d'activités. Elle est fortement motivée par la recherche dans le domaine de la reconnaissance des activités vidéo appliquée au domaine de la surveillance de personnes âgées. Dans ce travail, nous proposons deux contributions principales. La première contribution consiste en une approche pour la reconnaissance d'activité vidéo avec gestion de l'incertitude pour une détection précise d'événements. La deuxième contribution consiste à définir une ontologie et une base de connaissances pour la surveillance dans le domaine de la santé et en particulier la surveillance à l'hôpital de patients atteints de la maladie d'Alzheimer. L'approche de reconnaissance d'activité proposée combine une modélisation sémantique avec un raisonnement probabiliste pour faire face aux erreurs des détecteurs de bas niveau et pour gérer l'incertitude de la reconnaissance d'activité. La reconnaissance probabiliste des activités est basée sur la théorie des probabilités bayésienne qui fournit un cadre cohérent pour traiter les connaissances incertaines. L'approche proposée pour la vérification probabiliste des contraintes spatiale et temporelle des activités est basée sur le modèle de probabilité gaussienne. Nous avons travaillé en étroite collaboration avec les cliniciens pour définir une ontologie et une base de connaissances pour la surveillance à l'hôpital de patients atteints de la maladie d'Alzheimer. L'ontologie définie contient plusieurs concepts utiles dans le domaine de la santé. Nous avons également défini un certain nombre de critères qui peuvent être observés par les caméras pour permettre la détection des premiers symptômes de la maladie d'Alzheimer. Nous avons validé l'algorithme proposé sur des vidéos réelles. Les résultats expérimentaux montrent que l'algorithme de reconnaissance d'activité proposé a réussi à reconnaitre les activités avec un taux élevé de reconnaissance. Les résultats obtenus pour la surveillance de patients atteints de la maladie d'Alzheimer mettent en évidence les avantages de l'utilisation de l'approche proposée comme une plate-forme de soutien pour les cliniciens pour mesurer objectivement les performances des patients et obtenir une évaluation quantifiable des activités de la vie quotidienne. reconnaissance d'évènements vidéos modélisation d'évènements probabilité bayésienne densité de probabilité gaussienne probabilité cumulative surveillance des personnes âgées activités de la vie quotidienne maladie d'Alzheimer

Search results