1 |
Les jeux vidéo américains de l’après 11 septembre 2001 : la guerre faite jeu, nouveau terrain de propagande idéologique ? / American video games after September 11, 2001 : The war made game, new field of ideological propaganda?Cayatte, Rémi 20 October 2016 (has links)
Les jeux vidéo qui abordent de manière explicite ou détournée des événements réels transmettentune certaine vision de tels événements à leurs utilisateurs. Que ce soit à travers les éléments de récitsur lesquels ils reposent, les images portées à l’écran ou leurs spécificités ludiques, certains jeuxvidéo s’inspirent ainsi du réel autant qu’ils (re)construisent ce dernier par l’intermédiaire desexpériences de jeu qu’ils proposent.Afin de mieux cerner les rouages et les mécanismes de ces jeux, nous avons pu proposer dans cetravail une méthode d’analyse qui prend en compte l’ensemble des éléments (narratifs, audiovisuels et ludiques) qui les constituent. Nous avons pu ensuite appliquer cette méthode aux trois jeux Call of Duty: Modern Warfare (2007-2011). Une fois l’étude de ces éléments formels réalisée, nous avons replacé ces jeux dans leurs contextes de production et de réception.Nous avons ainsi pu mettre en lumière le fait que, à l’exaltation de sentiments militaristes, guerriers, nationalistes et patriotiques, s’ajoute dans ces trois jeux une volonté assez nette de véhiculer une vision positive de l’engagement militaire américain à l’étranger et de l’adoption d’une doctrine de guerre préventive par les États-Unis au lendemain des attentats du 11 septembre 2001.Au-delà du travail réalisé sur les trois jeux Call of Duty: Modern Warfare, la méthode utilisée pour le mener à bien participe à proposer une approche qui prend en compte les multiples facettes de l’objet jeu vidéo pour en appréhender au mieux les possibilités de persuasion. / Video games that directly or indirectly address real events transmit a certain vision of such events to their users. Be it thanks to the narratives on which they are based, the images users interact with, or gameplay and game structure specificities, some video games are inspired by real events as much as they (re)build those through the play experiences that they propose.In order to better understand this dynamic, this dissertation proposes a method of analysis that takes into account the three key components that constitute video games (narrative, audiovisual, game and play). This method is then applied to the three Call of Duty: Modern Warfare games (2007-2011). The contexts of production and reception are also taken into account in this analysis.This dissertation highlights the fact that, in addition to the exaltation of a militaristic, nationalist and patriotic ethos, the three Call of Duty: Modern Warfare games strive to convey a particularly positive image of American military actions abroad and of the adoption of a preventive warfare doctrine in the aftermath of the 9/11 attacks.The method applied to this corpus of games is also meant to propose an approach to this medium that takes into account its globality and complexity in order to better understand its persuasive possibilities.
|
2 |
Indexation et recherche de vidéo pour la vidéosurveillanceLe, Thi Lan 03 February 2009 (has links) (PDF)
L'objectif de cette thèse est de proposer une approche générale pour l'indexation et la recherche de vidéos pour la vidéosurveillance. En se basant sur l'hypothèse que les vidéos sont prétraitées par un module d'analyse vidéo, l'approche proposée comprend deux phases : la phase d'indexation et celle de recherche. Afin d'utiliser les résultats de différents modules d'analyse vidéo, un modèle de données comprenant deux concepts, objets et événements, est proposé. La phase d'indexation visant à préparer des données déterminées dans ce modèle de données effectue trois tâches. Premièrement, deux nouvelles méthodes de détection des blobs représentatifs de la tâche représentation d'objets déterminent un ensemble de blobs associés à leurs poids pour chaque objet. Deuxièmement, la tâche extraction de descripteurs consiste à analyser des descripteurs d'apparence et aussi temporels sur les objets indexés. Finalement, la tâche indexation calcule les attributs des deux concepts et les stocke dans une base de données. La phase de recherche commence avec une requête de l'utilisateur et comprend quatre tâches. Dans la tâche formulation de requêtes, afin de permettre à l'utilisateur d'exprimer ses requêtes, un nouveau langage est proposé. La requête est traitée par la tâche analyse syntaxique. Une nouvelle méthode dans la tâche mise en correspondance permet de retrouver efficacement les résultats pertinents. Deux méthodes dans la tâche retour de pertinence permettent d'interagir avec l'utilisateur afin d'améliorer les résultats de recherche. Dans le but d'évaluer la performance de l'approche proposée, nous utilisons deux bases de vidéos dont l'une provenant du projet CARETAKER et l'autre provenant du projet CAVIAR. Les vidéos du projet CARETAKER sont analysées en utilisant la plate-forme VSIP de l'équipe PULSAR alors que les vidéos du projet CAVIAR sont manuellement annotées. La méthode de détection des blobs représentatifs améliore la performance d'une méthode dans l'état de l'art. L'utilisation du langage de requêtes montre qu'il permet d'exprimer de nombreuses requêtes à différents niveaux. La méthode de mise en correspondance obtient de meilleurs résultats en comparaison avec deux méthodes de l'état de l'art. Les résultats expérimentaux montrent que l'approche proposée retrouve efficacement les objets d'intérêt et les événements complexes.
|
3 |
L'État islamique raconté à l'OccidentCarrière, Virginie January 2017 (has links)
Cette recherche qualitative, une analyse structurale, vise à comprendre la trame narrative des vidéos de l'État islamique (ÉI) publiées depuis juin 2014 en français et en anglais. Elle fait état des objectifs, des thèmes et des symboles récurrents. Cette étude se base sur le schéma actanciel d'Algirdas Julien Greimas (1966) et sa théorie narrative bonifiée par l'apport de Vladimir Propp (1970), de Claude Lévi-Strauss (1973; 1974) et d'Anne Piret, Jean Nizet & Étienne Bourgeois (1996). La recherche a donné lieu à l'analyse de 40 vidéos de l'ÉI dont la catégorisation proposée par Bole & Kallmyer (2016) et Farwell (2014) a constitué le point de départ. L'interprétation des données a été guidée, dans un premier temps, par les théories portant sur l'opposition de Greimas, de Propp, de Lévi-Strauss et de Piret, Nizet & Bourgeois et, dans un deuxième temps, les théories de la narration de Nicole D'Almeida (2004) et les trois critères de la symbolique de Joseph Tuman (2010). À la lumière de cette recherche, 5 objectifs, dont ceux avancés par Bole & Kallmyer et Farwell, 7 thèmes et 59 symboles ont été répertoriés. Elle présente un portrait global de toutes les vidéos analysées grâce à une schématisation de la séquence de contenu et de la structure type, laquelle met en relief l'omniprésence de l'opposition dans la trame narrative de l'ÉI.
|
4 |
Supervised Learning Approaches for Automatic Structuring of Videos / Méthodes d'apprentissage supervisé pour la structuration automatique de vidéosPotapov, Danila 22 July 2015 (has links)
L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est "course-poursuite"; un autre exemple est "scène sentimentale". Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable. / Automatic interpretation and understanding of videos still remains at the frontier of computer vision. The core challenge is to lift the expressive power of the current visual features (as well as features from other modalities, such as audio or text) to be able to automatically recognize typical video sections, with low temporal saliency yet high semantic expression. Examples of such long events include video sections where someone is fishing (TRECVID Multimedia Event Detection), or where the hero argues with a villain in a Hollywood action movie (Inria Action Movies). In this manuscript, we present several contributions towards this goal, focusing on three video analysis tasks: summarization, classification, localisation.First, we propose an automatic video summarization method, yielding a short and highly informative video summary of potentially long videos, tailored for specified categories of videos. We also introduce a new dataset for evaluation of video summarization methods, called MED-Summaries, which contains complete importance-scorings annotations of the videos, along with a complete set of evaluation tools.Second, we introduce a new dataset, called Inria Action Movies, consisting of long movies, and annotated with non-exclusive semantic categories (called beat-categories), whose definition is broad enough to cover most of the movie footage. Categories such as "pursuit" or "romance" in action movies are examples of beat-categories. We propose an approach for localizing beat-events based on classifying shots into beat-categories and learning the temporal constraints between shots.Third, we overview the Inria event classification system developed within the TRECVID Multimedia Event Detection competition and highlight the contributions made during the work on this thesis from 2011 to 2014.
|
5 |
La lutte contre le streaming illégal cinématographique au Canada : étude du cadre législatif et propositions d'évolutionPicone, Anaïs 13 December 2023 (has links)
Mémoire présenté en cotutelle : Université Laval, Québec et Université Paris-Saclay, Orsay, France. / Les récentes évolutions techniques nous ont amené à repenser nos modes de consommation notamment des biens culturels. Ainsi, le cinéma s'est déplacé du grand au petit écran et les possibilités de consommation des biens dématérialisés comme les films se sont multipliées. Parallèlement, le piratage de ce type de contenu est devenu de plus en plus facile et accessible à tout un chacun posant ainsi de nouvelles problématiques aux ayants droit cherchant à protéger leurs œuvres. Ce mémoire de recherche vise à étudier les mesures légales en place afin de lutter contre le streaming illicite au Canada. L'étude s'attachera à soulever les difficultés techniques dues à l'aspect temporaire du streaming et à déterminer l'adéquation des mesures en vigueur au Canada. Dans cette optique, une étude comparée avec la France et les États-Unis sera réalisée. Selon les constats réalisés, des propositions de réformes seront émises. / Recent technical developments have led us to rethink our ways of consuming cultural goods. As a result, cinema has moved from the big screen to the small screen and the possibilities of consumption of dematerialized goods such as films have multiplied. At the same time, piracy of this type of content has become increasingly easy and accessible to everyone, leading to new problems for rights holders seeking to protect their works. This research paper aims to study the legal measures in place to fight illegal streaming in Canada. The study will focus on the technical difficulties arising from the temporary aspect of streaming and the adequacy of these measures in Canada. To this end, a comparative study with France and the United States will be carried out. According to the findings, proposals for reforms will be issued.
|
6 |
Time-slice analysis of dyadic human activityZiaeefard, Maryam 24 April 2018 (has links)
La reconnaissance d’activités humaines à partir de données vidéo est utilisée pour la surveillance ainsi que pour des applications d’interaction homme-machine. Le principal objectif est de classer les vidéos dans l’une des k classes d’actions à partir de vidéos entièrement observées. Cependant, de tout temps, les systèmes intelligents sont améliorés afin de prendre des décisions basées sur des incertitudes et ou des informations incomplètes. Ce besoin nous motive à introduire le problème de l’analyse de l’incertitude associée aux activités humaines et de pouvoir passer à un nouveau niveau de généralité lié aux problèmes d’analyse d’actions. Nous allons également présenter le problème de reconnaissance d’activités par intervalle de temps, qui vise à explorer l’activité humaine dans un intervalle de temps court. Il a été démontré que l’analyse par intervalle de temps est utile pour la caractérisation des mouvements et en général pour l’analyse de contenus vidéo. Ces études nous encouragent à utiliser ces intervalles de temps afin d’analyser l’incertitude associée aux activités humaines. Nous allons détailler à quel degré de certitude chaque activité se produit au cours de la vidéo. Dans cette thèse, l’analyse par intervalle de temps d’activités humaines avec incertitudes sera structurée en 3 parties. i) Nous présentons une nouvelle famille de descripteurs spatiotemporels optimisés pour la prédiction précoce avec annotations d’intervalle de temps. Notre représentation prédictive du point d’intérêt spatiotemporel (Predict-STIP) est basée sur l’idée de la contingence entre intervalles de temps. ii) Nous exploitons des techniques de pointe pour extraire des points d’intérêts afin de représenter ces intervalles de temps. iii) Nous utilisons des relations (uniformes et par paires) basées sur les réseaux neuronaux convolutionnels entre les différentes parties du corps de l’individu dans chaque intervalle de temps. Les relations uniformes enregistrent l’apparence locale de la partie du corps tandis que les relations par paires captent les relations contextuelles locales entre les parties du corps. Nous extrayons les spécificités de chaque image dans l’intervalle de temps et examinons différentes façons de les agréger temporellement afin de générer un descripteur pour tout l’intervalle de temps. En outre, nous créons une nouvelle base de données qui est annotée à de multiples intervalles de temps courts, permettant la modélisation de l’incertitude inhérente à la reconnaissance d’activités par intervalle de temps. Les résultats expérimentaux montrent l’efficience de notre stratégie dans l’analyse des mouvements humains avec incertitude. / Recognizing human activities from video data is routinely leveraged for surveillance and human-computer interaction applications. The main focus has been classifying videos into one of k action classes from fully observed videos. However, intelligent systems must to make decisions under uncertainty, and based on incomplete information. This need motivates us to introduce the problem of analysing the uncertainty associated with human activities and move to a new level of generality in the action analysis problem. We also present the problem of time-slice activity recognition which aims to explore human activity at a small temporal granularity. Time-slice recognition is able to infer human behaviours from a short temporal window. It has been shown that temporal slice analysis is helpful for motion characterization and for video content representation in general. These studies motivate us to consider timeslices for analysing the uncertainty associated with human activities. We report to what degree of certainty each activity is occurring throughout the video from definitely not occurring to definitely occurring. In this research, we propose three frameworks for time-slice analysis of dyadic human activity under uncertainty. i) We present a new family of spatio-temporal descriptors which are optimized for early prediction with time-slice action annotations. Our predictive spatiotemporal interest point (Predict-STIP) representation is based on the intuition of temporal contingency between time-slices. ii) we exploit state-of-the art techniques to extract interest points in order to represent time-slices. We also present an accumulative uncertainty to depict the uncertainty associated with partially observed videos for the task of early activity recognition. iii) we use Convolutional Neural Networks-based unary and pairwise relations between human body joints in each time-slice. The unary term captures the local appearance of the joints while the pairwise term captures the local contextual relations between the parts. We extract these features from each frame in a time-slice and examine different temporal aggregations to generate a descriptor for the whole time-slice. Furthermore, we create a novel dataset which is annotated at multiple short temporal windows, allowing the modelling of the inherent uncertainty in time-slice activity recognition. All the three methods have been evaluated on TAP dataset. Experimental results demonstrate the effectiveness of our framework in the analysis of dyadic activities under uncertainty
|
7 |
Foi, pandémie et contre-récits : les enjeux de la production et de la publication de vidéos en ligneSantander, Jérémie 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 10 janvier 2024) / Au fil de l'Histoire, des moments ont émergé où les courants complotistes se sont entremêlés avec la foi chrétienne, générant ainsi un mélange complexe de croyances. Cependant, l'avènement de la pandémie mondiale sans précédent du Covid-19 a projeté cette confluence sur le devant de la scène, en particulier à travers la production et la diffusion de vidéos sur internet. Cette exposition médiatique a mis en lumière le mariage délicat entre ces deux éléments, suscitant l'attention et la réflexion de tous. Parmi les milieux religieux touchés, le protestantisme évangélique s'est particulièrement illustré. C'est à travers l'étude de l'Église Nouvelle Vie, implantée à Longueuil au Québec, que cet enjeu sera étudié dans le cadre de ma recherche en théologie pratique. L'analyse approfondie de cette dynamique a révélé des signes préoccupants, dont la cristallisation des positions. Cette polarisation extrême menace non seulement la cohésion interne de l'institution chrétienne, mais projette également une ombre sur les interactions sociales plus larges. Les théories complotistes, que je qualifierai ici de contre-récits, semblent s'étendre comme un voile sombre sur tous les aspects de la société contemporaine. Cependant, c'est l'introduction du facteur religieux qui semble amplifier ces tensions, agissant à la fois comme un révélateur des fractures préexistantes et un catalyseur des conflits latents dans les relations humaines. L'Église Nouvelle Vie, dans son rôle d'exemple concret, illustre les défis complexes auxquels les institutions religieuses sont confrontées dans un monde saturé d'informations, de contre-récits et de discours alternatifs. Les enjeux d'unité, de crédibilité et de communication prennent une nouvelle dimension à l'ère de la communication numérique, de YouTube et des autres médias sociaux. Cette recherche démontre que l'identification des points de rupture et des failles dans la compréhension mutuelle est cruciale pour préserver l'intégrité des institutions religieuses et pour cultiver des dialogues authentiques dans un contexte de diversité d'opinions et de croyances. En fin de compte, l'étude approfondie de la fusion entre foi et contre-récits, à travers l'exemple spécifique de l'Église Nouvelle Vie, souligne l'urgence d'approches ouvertes et éclairées pour naviguer dans ce paysage complexe. Ce faisant, les institutions religieuses peuvent aspirer à préserver leur mission fondamentale de connexion spirituelle tout en favorisant l'harmonie sociale et en contribuant à la compréhension collective. / Throughout history, there have been moments when conspiracy theories intertwined with the Christian faith, creating a complex blend of beliefs. However, the unprecedented global Covid-19 pandemic brought this amalgamation to the forefront, particularly through the production and circulation of online videos. This media exposure illuminated the delicate interplay between these two elements, capturing the attention and contemplation of society at large. Within the realm of religious spheres, evangelical Protestantism emerged as a focal point. It is through the study of Nouvelle Vie church, situated in Longueuil, Quebec, that this issue is examined within the framework of my practical theology research. A comprehensive analysis of this dynamic has unveiled concerning indicators, notably the crystalization of positions. This extreme polarization not only jeopardizes the internal cohesion of the Christian institution but also casts a shadow over broader social interactions. The conspiracy theories, which I will term counter-narratives, appear to cast a dark veil across various facets of contemporary society. Nevertheless, it is the introduction of the religious factor that seems to intensify these tensions, serving as both a revealer of preexisting fractures and an accelerator of latent conflicts within human relationships. Nouvelle Vie church, as a concrete example, showcases the intricate challenges that religious institutions grapple with in a world saturated with information, counter-narratives, and alternative discourses. The challenges of unity, credibility, and communication take on new dimensions in the age of digital communication, YouTube, and other social media platforms. This research underscores the significance of identifying rupture points and gaps in mutual understanding, crucial for upholding the integrity of religious institutions and fostering authentic dialogues amidst a context of diverse opinions and beliefs. Ultimately, the in-depth exploration of the interplay between faith and counter-narratives, through the specific lens of Nouvelle Vie church, emphasizes the urgency of open-minded and enlightened approaches to navigate this intricate landscape. In doing so, religious institutions can strive to uphold their fundamental mission of spiritual connection while promoting social harmony and contributing to collective understanding.
|
8 |
Deep learning based semi-supervised video anomaly detectionBaradaran, Mohammad 25 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La détection d'anomalies vidéo (DAV) est une tâche cruciale de vision par ordinateur pour diverses applications du monde réel telles que la vidéosurveillance, le contrôle qualité, etc. Avec la rareté des données d'anomalies étiquetées et la nature ouverte des définitions d'anomalies, il y a eu une croissance d'intérêt des chercheurs pour l'exploration de méthodes semi-supervisées de détection d'anomalies vidéo. Ces méthodes utilisent une tâche proxy pour ajuster un modèle sur des échantillons normaux, en tenant compte de leurs caractéristiques d'apparence et de mouvement. Les anomalies sont par conséquent détectées en mesurant l'écart des échantillons de test par rapport au modèle normal formé. Cette thèse est dédiée à l'avancement de ce domaine, englobant quatre composantes distinctes. Dans la partie initiale, nous menons une étude approfondie sur les méthodes DAV semi-supervisées de pointe existantes afin d'examiner leurs points forts et leurs défis. Pour compléter notre examen, nous effectuons également des expériences pour mieux comprendre les capacités et les limites des approches existantes. Les résultats de cette étude servent de source de motivation et mettent en lumière l'orientation de notre recherche. Cette étude est publiée sous la forme d'un article de synthèse (MTAP2023). Lors de l'analyse des méthodes existantes, il devient évident qu'elles ne tiennent pas suffisamment compte de la classe des objets lorsqu'il s'agit de détecter des anomalies d'apparence. Inspirés par ce besoin, nous proposons, dans la deuxième partie, une méthode DAV basée sur l'apprentissage en profondeur et sensible aux classes d'objets. C'est une méthode à deux flux qui modélise et détecte les anomalies de mouvement et d'apparence dans différentes branches. Dans la branche apparence, nous introduisons une approche basée sur la distillation des connaissances qui utilise une méthode de segmentation sémantique pré-entraînée (Mask-RCNN) pour former un réseau étudiant dédié à la segmentation sémantique avec des objets normaux. Par conséquent, en mesurant l'écart entre les sorties des réseaux enseignant et étudiant, nous dérivons un score d'anomalie pour la branche d'apparence. La branche de mouvement, d'autre part, traduit une image brute en sa carte de magnitude de flux optique correspondante, pour modéliser les mouvements normaux et détecter les anomalies associées. L'approche de modélisation de mouvement proposée atténue le risque de généralisation aux anomalies, améliorant ainsi la fiabilité et la précision du processus de détection. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CRV 2022). Dans la troisième partie, nous proposons une méthode de détection d'anomalies vidéo basée sur l'apprentissage multi-tâches visant à tirer parti des avantages de la combinaison de plusieurs tâches proxy complémentaires pour améliorer les performances de détection d'anomalies. Différentes tâches complémentaires sont proposées en tenant compte de leurs capacités et insuffisances à détecter différents cas d'anomalies. De plus, nous proposons une nouvelle tâche proxy de prédiction de carte de segmentation sémantique future pour la détection d'anomalies vidéo qui bénéficie des capacités de prédiction de trames futures et de tâches de segmentation sémantique pour la détection d'anomalies de mouvement et d'apparence. De plus, pour améliorer encore la détection des anomalies de mouvement, nous intégrons la tâche de prédiction de l'amplitude du flux optique à partir d'une trame brute dans une autre branche. Finalement, pour relever les défis rencontrés dans notre méthode précédente, nous proposons plusieurs mécanismes d'attention pour engager des informations contextuelles dans la modélisation de mouvement, conduisant à une amélioration des performances. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CVPRW 2023). Dans la dernière partie, nous relevons un autre défi dans la modélisation du mouvement. Tant dans nos méthodes proposées que dans d'autres méthodes existantes, les modèles de mouvement à long terme n'ont pas été efficacement pris en compte pour la détection d'anomalies vidéo. Pour remédier à cette limitation, nous proposons une nouvelle tâche proxy pour la détection d'anomalies vidéo : la prédiction vidéo future à partir d'une seule image. Cette méthode prend en compte les modèles de mouvement à long terme en plus des modèles à court terme pour la détection d'anomalies vidéo et relève le défi de la généralisation aux mouvements anormaux. Cette étude donne des résultats significatifs. Les résultats démontrent que la formulation de DAV comme une prédiction d'images plus éloignées dans le futur (au lieu de l'image suivante immédiate) entraîne une plus grande disparité entre les normales et les anomalies et donc une amélioration des performances. Les résultats de cette étude sont acceptés sous forme d'article de conférence (ISVC 2023). Nos résultats qualitatifs et quantitatifs ainsi que des études d'ablation sur des ensembles de données de référence tels que les ensembles de données ShanghaiTech, UCSD-Ped1 et UCSD-Ped2 démontrent le succès de chaque contribution de notre thèse dans la réalisation de leurs objectifs respectifs. / Video anomaly detection (VAD) is a crucial computer vision task for various real-world applications such as video surveillance, quality control, etc. With the scarcity of labeled anomaly data and the open-ended nature of anomaly definitions, there has been a growing interest among researchers in exploring semi-supervised methods for video anomaly detection. These methods employ a proxy-task to fit a model on normal samples, taking into account their appearance and motion features. Anomalies are consequently detected by measuring the deviation of test samples from the trained normal model. This thesis is dedicated to advancing this field, encompassing four distinct components. In the initial part, we conduct an in-depth study on existing state-of-the-art semi-supervised VAD methods to examine their strong points and challenges. To supplement our review, we also conduct experiments to gain deeper insights into the capabilities and limitations of existing approaches. The outcomes of this study serve as a source of motivation and highlights the direction of our research. This study is published as a review paper (MTAP2023). Upon analyzing the existing methods, it becomes apparent that they do not adequately consider the object class when it comes to detecting appearance anomalies. Inspired by this need, we propose, in the second part, a two-stream object class-aware deep learning based VAD method that models and detects motion and appearance anomalies in different network branches. In the appearance branch, we introduce a knowledge-distillation-based approach that utilizes a pre-trained semantic segmentation method (Mask-RCNN) to train a student network dedicated to semantic segmentation with normal objects. Consequently, by measuring the disparity between the outputs of the teacher and student networks, we derive an anomaly score for the appearance branch. Motion branch, on the other hand, translates a raw frame to its corresponding optical flow magnitude map, to model normal motions and detect related anomalies. The proposed motion modeling approach, mitigates the risk of generalization to anomalies, thus enhancing the reliability and precision of the detection process. Results of this study is published as a conference paper (CRV 2022). In the third part, we put forth a multi-task learning based video anomaly detection method aimed at leveraging the benefits of combining multiple complementary proxy-tasks to enhance anomaly detection performance. Different complementary tasks are suggested taking into ac count their abilities and shortcomings in detecting different anomaly cases. Moreover, we propose a novel proxy-task of future semantic segmentation map prediction for video anomaly detection which benefits from the abilities of future frame prediction and semantic segmentation tasks for motion and appearance anomaly detection. Additionally, to further enhance the detection of motion anomalies, we incorporate the task of optical flow magnitude prediction from a raw frame in another branch. Finally, to address the challenges encountered in our previous method, we propose multiple attention mechanisms to engage context information in motion modeling, leading to performance improvement. Results of this study is published as a conference paper (CVPRW 2023). As the final part, we tackle another challenge in motion modeling. Both in our proposed methods and other existing methods, long-term motion patterns have not been effectively considered for video anomaly detection. To address this limitation, we put forward a novel proxy-task for video anomaly detection: future video prediction from a single frame. This method considers long-term motion patterns in addition to short-term ones for video anomaly detection and addresses the challenge of generalization to abnormal motion. This study yields significant findings. The results demonstrate that formulating VAD as a prediction of farther frames in the future (instead of the immediate next frame) results in a larger disparity between normals and anomalies and hence in improved performance. Results of this study is accepted as a conference paper (ISVC 2023). Our qualitative and quantitative results along with ablation studies on benchmark datasets such as ShanghaiTech, UCSD-Ped1 and UCSD-Ped2 datasets demonstrate the success of each contribution of our thesis in achieving their respective goals.
|
9 |
Création automatique de résumés vidéo par programmation par contraintes / Automatic video summarization using constraint satisfaction programmingBoukadida, Haykel 04 December 2015 (has links)
Cette thèse s’intéresse à la création automatique de résumés de vidéos. L’idée est de créer de manière adaptative un résumé vidéo qui prenne en compte des règles définies sur le contenu audiovisuel d’une part, et qui s’adapte aux préférences de l’utilisateur d’autre part. Nous proposons une nouvelle approche qui considère le problème de création automatique de résumés sous forme d’un problème de satisfaction de contraintes. La solution est basée sur la programmation par contraintes comme paradigme de programmation. Un expert commence par définir un ensemble de règles générales de production du résumé, règles liées au contenu multimédia de la vidéo d’entrée. Ces règles de production sont exprimées sous forme de contraintes à satisfaire. L’utilisateur final peut alors définir des contraintes supplémentaires (comme la durée souhaitée du résumé) ou fixer des paramètres de haut niveau des contraintes définies par l’expert. Cette approche a plusieurs avantages. Elle permet de séparer clairement les règles de production des résumés (modélisation du problème) de l’algorithme de génération de résumés (la résolution du problème par le solveur de contraintes). Le résumé peut donc être adapté sans qu’il soit nécessaire de revoir tout le processus de génération des résumés. Cette approche permet par exemple aux utilisateurs d’adapter le résumé à l’application cible et à leurs préférences en ajoutant une contrainte ou en modifiant une contrainte existante, ceci sans avoir à modifier l’algorithme de production des résumés. Nous avons proposé trois modèles de représentation des vidéos qui se distinguent par leur flexibilité et leur efficacité. Outre les originalités liées à chacun des trois modèles, une contribution supplémentaire de cette thèse est une étude comparative de leurs performances et de la qualité des résumés résultants en utilisant des mesures objectives et subjectives. Enfin, et dans le but d’évaluer la qualité des résumés générés automatiquement, l’approche proposée a été évaluée par des utilisateurs à grande échelle. Cette évaluation a impliqué plus de 60 personnes. Ces expériences ont porté sur le résumé de matchs de tennis. / This thesis focuses on the issue of automatic video summarization. The idea is to create an adaptive video summary that takes into account a set of rules defined on the audiovisual content on the one hand, and that adapts to the users preferences on the other hand. We propose a novel approach that considers the problem of automatic video summarization as a constraint satisfaction problem. The solution is based on constraint satisfaction programming (CSP) as programming paradigm. A set of general rules for summary production are inherently defined by an expert. These production rules are related to the multimedia content of the input video. The rules are expressed as constraints to be satisfied. The final user can then define additional constraints (such as the desired duration of the summary) or enter a set of high-level parameters involving to the constraints already defined by the expert. This approach has several advantages. This will clearly separate the summary production rules (the problem modeling) from the summary generation algorithm (the problem solving by the CSP solver). The summary can hence be adapted without reviewing the whole summary generation process. For instance, our approach enables users to adapt the summary to the target application and to their preferences by adding a constraint or modifying an existing one, without changing the summaries generation algorithm. We have proposed three models of video representation that are distinguished by their flexibility and their efficiency. Besides the originality related to each of the three proposed models, an additional contribution of this thesis is an extensive comparative study of their performance and the quality of the resulting summaries using objective and subjective measures. Finally, and in order to assess the quality of automatically generated summaries, the proposed approach was evaluated by a large-scale user evaluation. This evaluation involved more than 60 people. All these experiments have been performed within the challenging application of tennis match automatic summarization.
|
10 |
Recherche de vidéos académiques dans les collections en ligne : approche ergonomique / Searching academic videos in online collections : an ergonomic approachPapinot, Emmanuelle 14 December 2018 (has links)
De plus en plus d’environnements en ligne dédiés à la diffusion du savoir intègrent la vidéo dans leurs corpus multimédia. Par rapport au texte ou à l’image statique ou animée, la vidéo a encore peu fait l’objet d’études scientifiques en psychologie et ergonomie cognitive. La recherche de vidéo s’inscrit dans le contexte de la recherche d’information. Le cadre théorique de cette thèse est celui de l’Information Foraging (Pirolli & Card, 1999) qui conçoit la recherche d’information dans un environnement stochastique, fondée sur une fouille construite à partir de l’information intermédiaire de l’environnement. L’objectif principal de la thèse repose sur l’apport de connaissances sur les usagers, avec pour hypothèse initiale, la coexistence d’une diversité de buts de recherche de vidéos dont une meilleure connaissance permettrait de contribuer à l’amélioration de l’environnement. Une étude exploratoire utilisant une approche multi-méthodologique a été effectuée sur une plateforme audiovisuelle dont le corpus est ancré dans l’enseignement supérieur et la recherche et un musée virtuel dédié à l’histoire de la justice des crimes et des peines qui dispose d’un corpus multimédia. Les résultats montrent que les difficultés liées à la publication et aux conditions de mise en ligne des vidéos impactent directement la recherche de l’usager et qu’il s’avère pertinent de distinguer le média du document audiovisuel. La caractéristique commune aux deux dispositifs étudiés repose sur une fréquentation majoritaire représentée par des usagers cherchant à se cultiver qui questionne directement l’intérêt et l’usage de la vidéo en tant que véhicule de connaissances pour des buts spécifiques. / More and more online environments dedicated to the dissemination of academic knowledge are integrating videos into their multimedia corpus. Compared to static or animated text or graphics, video usability has not yet been the object of scientific studies in psychology and cognitive ergonomics. Video search is part of the information seeking process. The theoretical framework of this dissertation is the Information Foraging theory (Pirolli & Card, 1999), which describes information seeking in a stochastic environment, based on a search built on intermediary information. Our main goal is to provide knowledge about users, with the initial hypothesis that a variety of video-seeking goals can coexist among users. This knowledge can help improve the usability of online environments.An exploratory study using a multi-methodological approach was carried out on the usability of an audiovisual online platform for higher education and research and on a multimedia virtual museum dedicated to the history of crime justice and punishments. The results show that: (a) the difficulties related to online video publishing directly impact video search on the user side, (b) it is relevant to distinguish the video as a media from the audiovisual document. The characteristic common to both platforms is that a majority of users use the platform as a way to educate themselves, which directly questions the interest and use of video as a vehicle of knowledge acquisition for specific purposes.
|
Page generated in 0.1003 seconds