Global ETD Search

21	Méthodes de rendu à base de vidéos et applications à la réalité Virtuelle Nozick, Vincent 07 June 2006 (has links) (PDF) Etant donné un ensemble de caméras filmant une même scène, le rendu à base de vidéos consiste à générer de nouvelles images de cette scène à partir de nouveaux points de vue. L'utilisateur a ainsi l'impression de pouvoir déplacer une caméra virtuelle dans la scène alors qu'en réalité, toutes les caméras sont fixes. Certaines méthodes de rendu à base de vidéos coûteuses en temps de calcul se basent sur une reconstruction 3d de la scène et produisent des images de très bonne qualité. D'autres méthodes s'orientent plutôt vers le rendu temps réel. C'est dans cette dernière catégorie que s'inscrit la méthode de Plane Sweep sur laquelle porte la majeure partie de nos travaux. Le principe de la méthode des Plane Sweep consiste à discrétiser la scène en plans parallèles et à traiter séparément chaque point de ces plans afin de déterminer s'ils se trouvent ou non sur la surface d'un objet de la scène. Les résultats obtenus permettent de générer une nouvelle image de la scène à partir d'un nouveau point de vue. Cette méthode est particulièrement bien adaptée à une utilisation optimale des ressources de la carte graphique ce qui explique qu'elle permette d'effectuer du rendu en temps réel. Notre principale contribution à cette méthode concerne la façon d'estimer si un point d'un plan représente la surface d'un objet. Nous proposons d'une part un nouveau mode de calcul permettant d'améliorer le résultat visuel tout en rendant la navigation de la caméra virtuelle plus souple. D'autre part, nous présentons une adaptation de la méthode des Plane Sweep permettant de gérer les occlusions partielles. Compte tenu des applications du rendu à base de vidéos en réalité virtuelle, nous proposons une amélioration des Plane Sweep appliquée à la réalité virtuelle avec notamment la création de paires d'images stéréoscopiques permettant de visualiser en relief la scène reconstruite. Notre amélioration consiste à calculer la seconde vue à moindre coût alors qu'une majorité des méthodes concurrentes sont contraintes d'effectuer deux rendus indépendants. Cette amélioration est basée sur un partage des données communes aux deux vues stéréoscopiques. Enfin, dans le cadre de l'utilisation des Plane Sweep en réalité virtuelle, nous présentons une méthode permettant de supprimer les mouvements pseudoscopiques. Ces mouvements pseudoscopiques apparaissent lorsque l'observateur se déplace devant une image stéréoscopique, il ressent alors une distorsion des proportions de la scène virtuelle et voit les objets se déplacer de façon anormale. La méthode de correction que nous proposons est applicable d'une part à des méthodes classiques de rendu d'images de synthèse et d'autre part à la méthode des Plane Sweep. Toutes les méthodes que nous présentons utilisent largement les possibilités du processeur de la carte graphique à l'aide des shader programs et génèrent toutes des images en temps réel. Seuls un ordinateur grand public, un dispositif d'acquisition vidéo et une bonne carte graphique sont suffisants pour les faire fonctionner. Les applications des Plane Sweep sont nombreuses, en particulier dans les domaines de la réalité virtuelle, du jeu vidéo, de la télévision 3d ou de la sécurité. rendu à base de vidéos GPU réalité virtuelle
22	Low latency video streaming solutions based on HTTP/2 / Solutions de transmission vidéo avec faible latence basées sur HTTP/2 Ben Yahia, Mariem 10 May 2019 (has links) Les techniques adaptatives de transmission vidéo s’appuient sur un contenu qui est encodé à différents niveaux de qualité et divisé en segments temporels. Avant de télécharger un segment, le client exécute un algorithme d’adaptation pour décider le meilleur niveau de qualité à considérer. Selon les services, ce niveau de qualité doit correspondre aux ressources réseaux disponibles, mais aussi à d’autres éléments comme le mouvement de tête d’un utilisateur regardant une vidéo immersive (à 360°) afin de maximiser la qualité de la portion de la vidéo qui est regardée. L’efficacité de l’algorithme d’adaptation a un impact direct sur la qualité de l’expérience finale. En cas de mauvaise sélection de segment, un client HTTP/1 doit attendre le téléchargement du prochain segment afin de choisir une qualité appropriée. Dans cette thèse, nous proposons d’utiliser le protocole HTTP/2 pour remédier à ce problème. Tout d’abord, nous nous focalisons sur le service de vidéo en direct. Nous concevons une stratégie de rejet d’images vidéo quand la bande passante est très variable afin d’éviter les arrêts fréquents de la lecture vidéo et l’accumulation des retards. Le client doit demander chaque image vidéo dans un flux HTTP/2 dédié pour contrôler la livraison des images par appel aux fonctionnalités HTTP/2 au niveau des flux concernées. Ensuite, nous optimisons la livraison des vidéos immersives en bénéficiant de l’amélioration de la prédiction des mouvements de têtes de l’utilisateur grâce aux fonctionnalités d’initialisation et de priorité de HTTP/2. Les résultats montrent que HTTP/2 permet d’optimiser l’utilisation des ressources réseaux et de s’adapter aux latences exigées par chaque service. / Adaptive video streaming techniques enable the delivery of content that is encoded at various levels of quality and split into temporal segments. Before downloading a segment, the client runs an adaptation algorithm to determine the level of quality that best matches the network resources. For immersive video streaming this adaptation mechanism should also consider the head movement of a user watching the 360° video to maximize the quality of the viewed portion. However, this adaptation may suffer from errors, which impact the end user’s quality of experience. In this case, an HTTP/1 client must wait for the download of the next segment to choose a suitable quality. In this thesis, we propose to use the HTTP/2 protocol instead to address this problem. First, we focus live streaming video. We design a strategy to discard video frames when the band width is very variable in order so as to avoid the rebuffering events and the accumulation of delays. The customer requests each video frame in an HTTP/2 stream which allows to control the delivery of frames by leveraging the HTTP/2 features at the level of the dedicated stream. Besides, we use the priority and reset stream features of HTTP/2 to optimize the delivery of immersive videos. We propose a strategy to benefit from the improvement of the user’s head movements prediction overtime. The results show that HTTP/2 allows to optimize the use of network resources and to adapt to the latencies required by each service. Diffusion à faible latence HTTP/2 Vidéos immersives Low-latency streaming HTTP/2 Video delivery Immersive video 004
23	Mesures de similarité statistiques et estimateurs par k plus proches voisins : une association pour gérer des descripteurs de haute dimension en traitement d'images et de vidéos Debreuve, Eric 08 July 2009 (has links) (PDF) Mesures de similarité statistiques et estimateurs par k plus proches voisins : une association pour gérer des descripteurs de haute dimension en traitement d'images et de vidéos Traitement des images et des vidéos Mesures de similarité statistiques Estimateurs par k plus proches voisins
24	Programmation et apprentissage bayésien de comportements pour personnages synthétiques -- application aux personnages de jeux vidéos Le Hy, Ronan 06 April 2007 (has links) (PDF) Nous nous intéressons à l'acquisition de comportements par des personnages autonomes (bots) évoluant dans des mondes virtuels, en prenant comme exemple les jeux vidéos. Deux objectifs essentiels sont poursuivis :<br>- réduire le temps et la difficulté de programmation pour le développeur, qui doit peupler un monde virtuel de nombreux personnages autonomes ;<br>- offrir au joueur une nouvelle possibilité : apprendre à des bots comment jouer. Alors que les environnements virtuels sont complexes, et que les comportements des bots doivent être riches, le défi est d'offrir des méthodes simples de programmation et d'apprentissage. Celles- ci doivent de plus se plier à des contraintes importantes sur la mémoire et le temps de calcul disponibles. Nous commençons par présenter les méthodes actuelles de programmation de tels personnages par une étude de cas avec Unreal Tournament, un jeu de combat à la première personne. Dans ce jeu, les comportements s'appuient sur un langage de programmation spécialisé pour la description de machines d'états finis. Cette méthodologie est caractérisée par une grande flexibilité, une faible formalisation et une grande complexité. Elle se prête difficilement à l'apprentissage. Nous proposons une méthode alternative de construction de comportements basée sur la programmation bayésienne, un formalisme de description de modèles probabilistes. D'une part, cette méthode permet de maîtriser la complexité de programmation de comportements composés. D'autre, part elle sépare clairement le travail de programmation de celui d'ajustement d'un comportement : ce dernier peut être fait par un non-informaticien. Techniquement cette méthode repose essentiellement sur deux innovations :<br>- Une technique générique de définition de tâches élémentaires, appelée fusion par cohé- rence améliorée. Elle permet de fusionner un nombre important de consignes exprimées comme des tableaux de valeurs définissant des distributions de probabilités. Chacune de ces consignes peut être soit prescriptive (que faire) soit proscriptive (que ne pas faire).<br>- Une technique de mise en séquence de ces tâches élémentaires, qui permet de construire le comportement complet du personnage à partir des tâches élémentaires précédentes, appelée programmation inverse. Elle repose sur un modèle de Markov caché spécialisé, qui peut lui aussi être vu comme une machine d'états finis mais dont la spécification est plus condensée qu'avec un langage de programmation classique. 4 Contrairement à l'approche classique, cette méthode de construction de comportement permet facilement l'apprentissage par démonstration. Un bot apprend son comportement en observant un humain qui joue. Les tâches élémentaires, comme les séquences, peuvent ainsi être apprises. Pour les tâches élémentaires, l'identification des paramètres se fait directement. Pour les séquences, il est nécessaire reconnaître les « intentions » du joueur (les tâches élémentaires) à partir des actions de son avatar. Cela est rendu possible en utilisant soit une méthode de reconnaissance à base d'heuristiques spécifiques, soit une méthode de reconnaissance bayésienne basée sur l'algorithme de Baum-Welch incrémental. programmation bayésienne jeux vidéos fusion par cohérence améliorée programmation inverse apprentissage par démonstration
25	Délinéarisation automatique de flux de télévision Manson, Gaël 13 July 2010 (has links) (PDF) Les flux de télévision sont structurés : ils sont en effet composés de programmes successifs (journaux, films, magazines, etc.) et entrecoupés par des inter-programmes (publicités, bandes annonces, parrainages, etc.). Dès que les flux sont diffusés sur les ondes, ils perdent malheureusement toute information de structure. La problématique de la délinéarisation automatique est de retrouver la structure des flux TV, avec en particulier le début précis et la fin précise de chaque programme, à partir des signaux audiovisuels reçus et des métadonnées éventuellement fournies par les chaînes TV. Cette thèse présente un système complet de délinéarisation automatique rigoureusement évalué sur quatre semaines de flux TV réels, pour deux chaînes de télévision différentes. Les travaux se basent sur la propriété de répétition des inter-programmes. Cette propriété est exploitée à travers la détection de toutes les répétitions d'un flux grâce à une technique de clustering des images clés du flux. Ces répétitions servent à la création de segments qui sont ensuite classés en segments de programme ou en segments d'inter-programme suivant les caractéristiques des répétitions et les relations entre les segments. Pour cela, le système utilise la programmation logique inductive. Une fois les segments classés, les segments de programme appartenant à un même programme sont étiquetés et réunifiés grâce aux métadonnées éventuelles. En l'absence de métadonnées, les segments de programme d'un même programme peuvent être seulement réunifiés grâce à des similarités visuelles. télédiffusion télévision - émissions vidéos indexation automatique répétations audiovisuelles apprentissage automatique programmation logique
26	Structures d'une image: De la réalité augmentée à la stylisation d'images Chen, Jiazhou 12 July 2012 (has links) (PDF) Dans cette thèse, nous nous intéressons aux structures d'une image en général, et plus particulièrement aux gradients et aux contours. Ces dernières se sont révélées très importantes ces dernières années pour de nombreuses applications en infographie, telles que la réalité augmentée et la stylisation d'images et de vidéos. Le but de toute analyse des structures d'une image est de décrire à un haut-niveau la compréhension que l'on peut avoir de son contenu et de fournir les bases nécessaires à l'amélioration de la qualité des applications citées au-dessus, notamment la lisibilité, la précision, la cohérence spatiale et temporelle. Dans une premier temps, nous démontrons le rôle important que ces structures jouent pour des applications de type composition ''Focus+Context''. Une telle approche est utilisée en réalité augmentée pour permettre la visualisation de parties d'une scènes qui sont normalement derrières ce que l'on peut observer dans un flux vidéo. L'utilisation d'une segmentation et de lignes caractéristiques permettent de mettre en avant et/ou de révéler les relations d'ordre entre les différents objets de la scène. Pour la synthèse d'images guidée par une fonction d'importance, de multiples styles de rendu sont combinés de manière cohérente grâce à l'utilisation d'une carte de gradients et une de saillance. Dans un deuxième temps, nous introduisons une nouvelle techniques qui permet de reconstruire de manière continue un champ de gradient, et ceci sans trop lisser les détails originaux contenus dans l'image. Pour cela, nous développons une nouvelle méthode d'approximation locale et de plus haut-degré pour des champs de gradients discrets et non-orientés. Cette méthode est basée sur le formalisme ''moving least square'' (MLS). Nous démontrons que notre approximation isotrope et linéaire est de meilleure qualité que le classique tenseur de structure~: les détails sont mieux préservés et les instabilités sont réduites de manière significative. Nous démontrons aussi que notre nouveau champ de gradients apporte des améliorations à de nombreuses techniques de stylisation. Finalement, nous démontrons que l'utilisation d'une technique d'analyse de profil caractéristique par approximation polynomiale permet de distinguer les variations douces des zones dures. Les paramètres du profil sont utilisés comme des paramètres de stylisation tels que l'orientation des coups de pinceau, leur taille et leur opacité. Cela permet la création d'une large variété de styles de ligne. Structures d'une image réalité augmentée stylisation d'images et de vidéos champ de gradient contours et lignes
27	Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes Gaidon, Adrien 25 October 2012 (has links) (PDF) Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. Reconnaissance d'Actions Analyse de Vidéos Vision par Ordinateur Apprentissage Statistique
28	Suivi volumétrique de formes 3D non rigides / Volumetric tracking of 3D deformable shapes Allain, Benjamin 31 March 2017 (has links) Dans cette thèse nous proposons des algorithmes pour le suivi 3D du mouvement des objects déformables à partir de plusieurs caméras vidéo. Bien qu’une suite de reconstructions tridimensionnelles peut être obtenue par des méthodes de reconstruction statique, celle-ci ne représente pas le mouvement. Nous voulons produire une représentation temporellement cohérente de la suite de formes prises par l’object. Précisément, nous souhaitons représenter l’objet par une surface maillée 3D dont les sommets se déplacent au cours du temps mais dont la topologie reste identique.Contrairement à beaucoup d’approches existantes, nous proposons de représenter le mouvement du volume intérieur des formes, dans le but de mieux représenter la nature volumétrique des objets. Nous traitons de manière volumétrique les problèmes fondamentaux du suivi déformable que sont l’association d’éléments semblables entre deux formes et la modélisation de la déformation. En particulier, nous adaptons au formes volumétriques les modèles d’association EM-ICP non-rigide ansi que l’association par détection par apprentissage automatique.D’autre part, nous abordons la question de la modélisation de l’évolution temporelle de la déformation au cours d’une séquence dans le but de mieux contraindre le problème du suivi temporel. Pour cela, nous modélisons un espace de forme construit autour de propriétés de déformations locales que nous apprenons automatiqument lors du suivi.Nous validons nos algorithmes de suivi sur des séquences vidéo multi-caméras avec vérité terrain (silhouettes et suivi par marqueurs). Nos résultats se révèlent meilleurs ou équivalents à ceux obtenus avec les méthodes de l’état de l’art.Enfin, nous démontrons que le suivi volumétrique et la représentation que nous avons choisie permettent de produire des animations 3D qui combinent l’acquisition et la simulation de mouvement. / In this thesis we propose algorithms for tracking 3D deformable shapes in motion from multiview video. Although series of reconstructed 3D shapes can be obtained by applying a static reconstruction algorithm to each temporal frame independently, such series do not represent motion. Instead, we want to provide a temporally coherent representation of the sequence of shapes resulting from temporal evolutions of a shape. Precisely, we want to represent the observed shape sequence as a 3D surface mesh whose vertices move in time but whose topology is constant.In contrast with most existing approaches, we propose to represent the motion of inner shape volumes, with the aim of better accounting for the volumetric nature of the observed object. We provide a fully volumetric approach to the fundamental problems of deformable shape tracking, which are the association between corresponding shape elements and the deformation model. In particular, we extend to a volumetric shape representation the EM-ICP tracking framework and the association-by-detection strategy.Furthermore, in order to better constrain the shape tracking problem, we propose a model for the temporal evolution of deformation. Our deformation model defines a shape space parametrized by variables that capture local deformation properties of the shape and whose values are automatically learned during the tracking process.We validate our tracking algorithms on several multiview video sequences with ground truth (silhouette and marker-based tracking). Our results are better or comparable to state of the art approaches.Finally, we show that volumetric tracking and the shape representation we choose can be leveraged for producing shape animations which combine captured and simulatated motion. Forme 3D Alignement temporel Suivi de surface Vidéos Reconstruction Non-Rigide 3D shape Temporal alignment Surface tracking Videos Reconstruction Non-Rigid 004
29	Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes / Structured Models for Action Recognition in Real-word Videos Gaidon, Adrien 25 October 2012 (has links) Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. / This dissertation introduces novel models to recognize broad action categories --- like "opening a door" and "running" --- in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich --- in order to correctly differentiate between different action categories --- and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features --- such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos. Reconnaissance d'Actions Analyse de Vidéos Vision par Ordinateur Apprentissage Statistique Action Recognition Video Analysis Computer Vision Machine Learning
30	Assessing the transfer of video game play versus attention training using 3D-Multiple Object Tracking Pakdaman Lahiji, Robyn 12 1900 (has links) Durant la dernière décennie, la recherche sur les jeux vidéo et leur implication sur les habiletés perceptivo-cognitives a gagné en intérêt. Plusieurs études ont démontré que les jeux vidéo (particulièrement les jeux d’action) possèdent la capacité d’influencer et d’améliorer différentes aptitudes perceptives et cognitives telles que l’attention visuo-spatiale, la vitesse de traitement de l’information, la mémoire visuelle à court terme ainsi que la poursuite d’objets en mouvement. Cependant, plusieurs autres études n’ont pas réussi à reproduire les mêmes résultats. D’un autre côté, un nouveau type d’entraînement perceptivo-cognitif, nommé 3-Dimensional Multiple-Object Tracking (3D-MOT), et qui consiste à traiter des scènes visuelles dynamiques dénuées de contexte, a démontré son implication sur différents types d’attention, la mémoire de travail ainsi que la vitesse de traitement de l’information. L’étude actuelle a examiné quatre groupes de joueurs inexpérimentés qui s’entrainaient durant 10 séances à l’aide d’un exercice perceptivo-cognitif (3D-MOT), ou d’un jeu de haut niveau visuel (jeu vidéo d’action : Call of Duty), de bas niveau visuel (Tetris) ou d’un jeu non-visuel (Sudoku). Des mesures d’électroencéphalographie quantitative et des tests neuropsychologiques effectués avant et après l’entraînement ont démontré que le 3D-MOT, par comparaison aux autres jeux testés, améliorait de façon plus efficace les fonctions reliées à l’attention, la mémoire de travail ainsi que la vitesse de traitement de l’information. Pour la première fois, cette étude démontre que l’entraînement non-contextuel de 3D-MOT améliore les habiletés perceptivo-cognitives plus efficacement que l’entraînement à des jeux de divertissement tels que les jeux vidéo. / In the past decade, research on video games and their implications on cognitive abilities have gained significant interest. Various studies suggest that video games (in particular action video games) have the inherent ability to influence and improve attentional abilities such as visual spatial attention, processing speed, visual short-term memory and multiple-object tracking. However, many other studies have been unable to replicate similar results. On the other hand, a recent cognitive enhancement tool that is visually dynamic and void of context called 3-Dimensional Multiple-Object tracking (3D-MOT), has demonstrated robust effects on cognitive-perceptual abilities such as divided, selective, and sustained attention as well as working memory and information processing speed. The current study examines four groups of non-video game players that train for 10 sessions on the cognitive enhancing technique (3D-MOT) or on one of three different visually stimulating games: highly visually stimulating game (Call of Duty), lowly visually stimulating game (Tetris), or non-visually stimulating puzzle (Sudoku). A battery of cognitive tests and quantitative electroencephalography preformed before and after training, demonstrated that training on 3D-MOT improved cognitive functions related to attention, working memory, and visual information processing compared to video games. For the first time, this study demonstrated that non-contextual training with 3D-MOT improves perceptual-cognitive abilities more efficiently than video game playing. 3D-MOT Jeux vidéos Entraînement perceptivo-cognitif qEEG Video games Perceptual-cognitive training

Search results