Contributions à la détection de concepts et d'événements dans les documents vidéos / Contributions for the concepts and events detection in videos documents

Derbas, Nadia 30 September 2014 (has links)
L'explosion de la quantité de documents multimédias, suite à l'essor des technologies numériques, a rendu leur indexation très coûteuse et manuellement impossible. Par conséquent, le besoin de disposer de systèmes d'indexation capables d'analyser, de stocker et de retrouver les documents multimédias automatiquement, et en se basant sur leur contenu (audio, visuel), s'est fait ressentir dans de nombreux domaines applicatifs. Cependant, les techniques d'indexation actuelles rencontrent encore des problèmes de faisabilité ou de qualité. Leur performance reste très limitée et est dépendante de plusieurs facteurs comme la variabilité et la quantité de données à traiter. En effet, les systèmes d'indexation cherchent à reconnaître des concepts statiques, comme des objets (vélo, chaise,...), ou des événements (mariage, manifestation,...). Ces systèmes se heurtent donc au problème de variabilité de formes, de positions, de poses, d'illuminations, d'orientations des objets. Le passage à l'échelle pour pouvoir traiter de très grands volumes de données tout en respectant des contraintes de temps de calcul et de stockage est également une contrainte.Dans cette thèse, nous nous intéressons à l'amélioration de la performance globale de ces systèmes d'indexation de documents multimédias par le contenu. Pour cela nous abordons le problème sous différents angles et apportons quatre contributions à divers stades du processus d'indexation. Nous proposons tout d'abord une nouvelle méthode de fusion "doublement précoce " entre différentes modalités ou différentes sources d'informations afin d'exploiter au mieux la corrélation entre les modalités. Cette méthode est ensuite appliquée à la détection de scènes violentes dans les films. Nous développons ensuite une méthode faiblement supervisée pour la localisation des concepts basiques (comme les objets) dans les images qui pourra être utilisé plus tard comme un descripteur et une information supplémentaire pour la détection de concepts plus complexes (comme des événements). Nous traitons également la problématique de réduction du bruit généré par des annotations ambiguës sur les données d'apprentissage en proposant deux méthodes: une génération de nouvelles annotations au niveau des plans et une méthode de pondération des plans. Enfin, nous avons mis en place une méthode d'optimisation des représentations du contenu multimédia qui combine une réduction de dimension basée sur une ACP et des transformations non linéaires.Les quatre contributions sont testées et évaluées sur les collections de données faisant référence dans le domaine, comme TRECVid ou MediaEval. Elles ont participé au bon classement de nos soumissions dans ces campagnes. / A consequence of the rise of digital technology is that the quantity of available collections of multimedia documents is permanently and strongly increasing. The indexing of these documents became both very costly and impossible to do manually. In order to be able to analyze, classify and search multimedia documents, indexing systems have been defined. However, most of these systems suffer quality or practicability issues. Their performance is limited and depends on the data volume and data variability. Indexing systems analyze multimedia documents, looking for static concepts (bicycle, chair,...), or events (wedding, protest,...). Therefore, the variability in shapes, positions, lighting or orientation of objects hinders the process. Another aspect is that systems must be scalable. They should be able to handle big data while using reasonable amount of computing time and memory.The aim of this thesis is to improve the general performance of content-based multimedia indexing systems. Four main contributions are brought in this thesis for improving different stages of the indexing process. The first one is an "early-early fusion method" that merges different information sources in order to extract their deep correlations. This method is used for violent scenes detection in movies. The second contribution is a weakly supervised method for basic concept (objects) localization in images. This can be used afterwards as a new descriptor to help detecting complex concepts (events). The third contribution tackles the noise reduction problem on ambiguously annotated data. Two methods are proposed: a shot annotation generator, and a shot weighing method. The last contribution is a generic descriptor optimization method, based on PCA and non-linear transforms.These four contributions are tested and evaluated using reference data collections, including TRECVid and MediaEval. These contributions helped our submissions achieving very good rankings in those evaluation campaigns.

Le multimédia en maternelle : tâches, activités et apprentissage du langage. / The multimedia in kindergarten : tasks, activities and language learning

Abdel Wahab, Shaimaa 16 March 2016 (has links)
Le but de cette recherche est d’étudier l’impact de l’apprentissage assisté par le multimédia sur le développement du vocabulaire et sur la compréhension, chez les enfants du préscolaire, par rapport à l’apprentissage traditionnel. Elle vise également à étudier l’impact des différents modes d’interaction dans les environnements informatisés, sur le développement du langage et sur la compréhension de l’histoire chez l’enfant.L’apprentissage du langage est un enjeu fort de réussite scolaire ultérieure pour les élèves de l’école maternelle. Cette recherche doctorale vise à étudier l’impact, sur l’acquisition de certaines compétences concernant le langage, de l’introduction d’environnements informatisés en dernière année d’école maternelle (grande section, enfant de 5 à 6 ans). Nous nous attachons particulièrement à l’acquisition, par les enfants, des connaissances linguistiques et des compétences langagières, en matière de lexique et à travers la réception et la compréhension de récits. Cette étude s’attache d’abord à faire le bilan des recherches et l’analyse des logiciels existants (les histoires électroniques) en français. Elle utilise ensuite un logiciel spécifique (Un Prince à l’école) dans des classes maternelles de région parisienne, pour étudier l’effet de son emploi dans le développement du vocabulaire (un pré/post-test) et la compréhension du récit (un post-test) pour ces élèves. Nous étudions (i) l’impact de l’interaction avec l’histoire sur support électronique vs l’histoire sur support papier, (ii) l’impact de l’interaction (individuelle vs collaborative) avec l’histoire sur support électronique sur le développement du vocabulaire et la compréhension du récit. / The purpose of this research is to study the impact of multimedia assisted learning on vocabulary development and comprehension among children of preschool, compared to traditional learning. It also aims to study the impact of different modes of interaction in computerized environments on language development and comprehension of the story among children of preschool.Learning the language is a major challenge for future academic success of students in kindergarten. This doctoral research aims to study the impact on the acquisition of certain skills on the language, and introduction of computerized environments in the final year of kindergarten (KG2, 5 to 6 year-olds). The study focuses particularly on the children acquisition of language skills in vocabulary and through the reception and comprehension of narratives. This work aims to take stock of existing research and analyses software (electronic stories) in French. It then uses special software (Un Prince à l’école) in the Paris region, and study the effectiveness in vocabulary development (pre/post test) and comprehension of the story (post-test) for these children. We studied (i) the impact of the interaction with the e-story vs. the story on paper, (ii) the impact of the interaction (individual vs. collaborative) with e-story on vocabulary development and comprehension of the story.

Návrh projektu "Multimediální portál pro školy JMK" financovaný v rámci programů ESF / The Project Proposal "Multimedial Portal for Schools in the Region South Moravia", with ESF Funding

Harásková, Monika January 2011 (has links)
This thesis focuses on the development proposal on the use of multimedia in primary and secondary schools. It specifies the conditions and requirements of entrepreneurs, who implement their business plan for development education and multimedia. Includes document preparation for applying for funding to support schools in the South Region in the development of multimedia in teaching.

API datového úložiště pro práci s videem a obrázky / The API of a Video and Image Datastore

Fröml, Vojtěch January 2013 (has links)
This master's thesis proposes and implements an extension of the database interface VTApi which is being developed as a part of the MV ČR project "Tools and methods for video and image processing for terrorism prevention" at FIT VUT. This interface provides support for representation, management and indexation of multimedia data and related descriptive metadata used by analytic applications based on computer vision. It currently uses DBMS PostgreSQL as its default datastore. Paper describes basic techniques for processing image and video data, VTApi concept and proposes and implements its modifications for the purpose of supporting multiple types of datastores. As an example of an alternative datastore, support for usage of a SQLite database is integrated into VTApi.

Obraz, zvuk a text v umění a ve škole / Picture, sound and text in art and at school

Žilka, Martin January 2014 (has links)
This diploma thesis is based on the assumption, that we live in the speeches of our surroundings. These manifestations and answers environments affect various aspects of our lives. One answer is surely sound. By examining this phenomenon, in the context of expressive subjects at primary school, we can achieve a closer engagement with our environment and understand its functioning. Formation of this feeling of belonging is a basic task of the school. The main aim of this thesis is to introduce a didactic and way of working potential subject at the elementary school, which will combine the expressive target education and deepening environmentality. ŽILKA, Martin: Picture, sound and text in art and at school. [Diploma thesis] Prague 2014 - Charles University in Prague, Faculty of Education, Department of Art Education, 68 pages. Key words: Sound and picture, text and picture, new media, multimedia, music, kontext, environment

La question de recherche des objets vidéo basés sur le contenu lui-même, est de plus en plus difficile et devient un élément obligatoire pour les moteurs de recherche vidéo. Cette thèse présente un cadre pour la recherche des objets vidéo définis par l'utilisateur et apporte deux grandes contributions. La première contribution, intitulée DOOR (Dynamic Object Oriented Retrieval), est un cadre méthodologique pour la recherche et récupération des instances d'objets vidéo sélectionnés par un utilisateur, tandis que la seconde contribution concerne le support offert pour la recherche des vidéos, à savoir la navigation dans les vidéo, le système de récupération de vidéos et l'interface avec son architecture sous-jacente.Dans le cadre DOOR, l'objet comporte une représentation hybride obtenues par une sur-segmentation des images, consolidé avec la construction des graphs d'adjacence et avec l'agrégation des points d'intérêt. L'identification des instances d'objets à travers plusieurs vidéos est formulée comme un problème d'optimisation de l'énergie qui peut approximer un tache NP-difficile. Les objets candidats sont des sous-graphes qui rendent une énergie optimale vers la requête définie par l'utilisateur. Quatre stratégies d'optimisation sont proposées: Greedy, Greedy relâché, recuit simulé et GraphCut. La représentation de l'objet est encore améliorée par l'agrégation des points d'intérêt dans la représentation hybride, où la mesure de similarité repose sur une technique spectrale intégrant plusieurs types des descripteurs. Le cadre DOOR est capable de s'adapter à des archives vidéo a grande échelle grâce à l'utilisation de représentation sac-de-mots, enrichi avec un algorithme de définition et d'expansion de la requête basée sur une approche multimodale, texte, image et vidéo. Les techniques proposées sont évaluées sur plusieurs corpora de test TRECVID et qui prouvent leur efficacité.La deuxième contribution, OVIDIUS (On-line VIDeo Indexing Universal System) est une plate-forme en ligne pour la navigation et récupération des vidéos, intégrant le cadre DOOR. Les contributions de cette plat-forme portent sur le support assuré aux utilisateurs pour la recherche vidéo - navigation et récupération des vidéos, interface graphique. La plate-forme OVIDIUS dispose des fonctionnalités de navigation hiérarchique qui exploite la norme MPEG-7 pour la description structurelle du contenu vidéo. L'avantage majeur de l'architecture propose c'est sa structure modulaire qui permet de déployer le système sur terminaux différents (fixes et mobiles), indépendamment des systèmes d'exploitation impliqués. Le choix des technologies employées pour chacun des modules composant de la plate-forme est argumentée par rapport aux d'autres options technologiques. / With the ever increasing amount of available video content on video repositories the issue of content-based video objects retrieval is growing in difficulty and becomes a mandatory feature for video search engines.The present thesis advances a user defined video object retrieval framework and brings two major contributions. The first contribution is a methodological framework for user selected video object instances retrieval, entitled DOOR (Dynamic Object Oriented Retrieval), while the second one concerns the support offered for video retrieval, namely the video navigation and retrieval system and interface and its underlying architecture.Under the DOOR framework, the user defined video object comports a hybrid representation obtained by over-segmenting the frames, constructing region adjacency graphs and aggregating interest points. The identification of object instances across multiple videos is formulated as an energy optimization problem approximating an NP-hard problem. Object candidates are sub-graphs that yield an optimum energy towards the user defined query. In order to obtain the optimum energy four optimization strategies are proposed: Greedy, Relaxed Greedy, Simulated Annealing and GraphCut. The region-based object representation is further improved by the aggregation of interest points into a hybrid object representation. The similarity between an object and a frame is achieved with the help of a spectral matching technique integrating both colorimetric and interest points descriptors.The DOOR framework is suitable to large scale video archives through the use of a Bag-of-Words representation enriched with a query definition and expansion mechanism based on a multi-modal, text-image-video principle.The performances of the proposed techniques are evaluated on multiple TRECVID video datasets prooving their effectiveness.The second contribution is related to the user support for video retrieval - video navigation, video retrieval, graphical interface - and consists in the OVIDIUS (On-line VIDeo Indexing Universal System) on-line video browsing and retrieval platform. The OVIDIUS platform features hierarchical video navigation functionalities that exploit the MPEG-7 approach for structural description of video content. The DOOR framework is integrated in the OVIDIUS platform, ensuring the search functionalities of the system. The major advantage of the proposed system concerns its modular architecture which makes it possible to deploy the system on various terminals (both fixed and mobile), independently of the exploitation systems involved. The choice of the technologies employed for each composing module of the platform is argumented in comparison with other technological options. Finally different scenarios and use cases for the OVIDIUS platform are presented.

Trahisons liquides : la composition d’un opéra dans le contexte des productions multimédias actuelles

Brown, Stacey 04 1900 (has links)
Mon projet de doctorat est en deux volets – recherche et création – et s’appuie sur l'interdépendance de ces deux aspects, car il s’agit d’un seul parcours séparé en deux parties ayant un objectif partagé : il vise à observer et analyser l’intégration des arts médiatiques dans l’opéra contemporain et à en étudier l’incidence sur ma propre démarche de compositrice à l’intérieur de la création d’un nouvel opéra. Cette thèse comprend un travail écrit et une composition originale de 90 minutes (partition et enregistrements). Le premier chapitre du travail écrit traite du contexte dans lequel mon projet de création s’est élaboré et la façon dont ma réflexion initiale m’a conduite vers une recherche plus approfondie sur les moyens multimédias employés dans plusieurs opéras depuis les dernières décennies du vingtième siècle jusqu’à aujourd’hui. J’expose la situation actuelle touchant l’étude de ce domaine, en particulier les obstacles terminologiques, et je présente des perspectives de recherche rendues possibles par les informations recueillies. C’est dans le sillage de cette réflexion que je définis mon approche de l’emploi du multimédia à l’opéra. Les deuxième et troisième chapitres concernent le travail préparatoire qui a fait partie intégrante de la composition de l’opéra Trahisons liquides. J’expose d’abord mon approche du livret : les questions de narrativité, de langue et de prosodie, les approches variées de la relation texte-musique, la collaboration avec le librettiste et l’évolution du drame. J’explique également l’élaboration des ambiances musicales de l’opéra et la gestion de l’élan sonore, puis j’établis certains points de repère motiviques pour les analyses présentées dans le chapitre final. Le quatrième chapitre est ainsi consacré aux analyses détaillées d’une sélection de huit scènes de l’opéra Trahisons liquides, choisies afin de mettre en relief divers aspects de ma démarche de composition et de mon langage musical. / My doctoral project is in two parts – research and creation – and relies on the interdependence of these two elements, for it is, in fact, one process whose two aspects share a common objective: observing and analysing the integration of media arts to contemporary opera and studying their influence on my own creative process for the composition of a new opera. This dissertation includes a written document and an original 90-minute composition (score and recordings). The first chapter of the written document examines the context in which my creative project was elaborated and the way that my initial reflections lead me to conduct more in-depth research into the multimedia means used in many operas from the last decades of the 20th century to today. I outline the current situation affecting study in this field, particularly the terminological obstacles, and I present some of the research prospects opened up by the information gathered. It is in light of this reflection that I define my approach to the use of multimedia in opera. The second and third chapters pertain to the preparatory work that was an integral part of the composition of the opera Trahisons liquides. I begin by detailing my approach to the libretto: questions of narrativity, language and prosody, varied approaches to the text-music relationship, my collaboration with the librettist and the evolution of the drama. I also explain elaborating the musical atmospheres and controlling the musical momentum of the opera, and then I establish certain motivic points of reference for the analyses presented in the final chapter. The fourth chapter is thus devoted to the detailed analyses of a selection of eight scenes from the opera Trahisons liquides, chosen to highlight various aspects of my compositional process and my musical language.

Postavení a funkce rozhlasu veřejné služby v éře multimédií / The position and the function of the public service radio in the age of multimedia

Trachtová, Zdeňka January 2014 (has links)
The master thesis The position and the function of the public service radio in the age of multimedia deals with changes of production of Český rozhlas (Czech radio) from 2005 till the present time in connection with the beginning of multimedia technologies. The most important chapteres of the theoretical part introduce definitions of basic concepts which are important basis for the analytical part: multimedia, media convergence, concept of active audience, interactivity and digitization. Another chapteres deal with public service media and technological and cultural development in the territory of Czech republic. The aim of practical part is to analyze technological changes, which happend in Český rozhlas after beginning of multimedia era, by using the method of case study. The purpose is to do complex introduction of multimedia platforms by means radio mediates its production. Another aim is to find out, how multimedia influence interaction between radio and its audience. The master thesis focus on the analysis of social networks through which Český rozhlas communicates with audience. The text also deal with the question, if beginning of multimedia era influences forms of traditional formats of broadcasting or if new formats emerge.

Amélioration de la transmission de contenus vidéo et de données dans les réseaux sans-fil / Improving the transmission of video and data in wireless networks

Ramadan, Wassim 04 July 2011 (has links)
Cette thèse traite de l’amélioration du transfert de données, d’une part sur les réseaux sans-fils et d’autre part pour des données continues telles que la vidéo. Pour améliorer les transmissions sur les réseaux sans-fils nous nous sommes intéressés au contrôle de congestion des protocoles de transport mais nous avons également proposé une méthode pratique d’adaptation de la vidéo aux conditions du réseau.Cette thèse contient donc deux volets. La première porte sur la différenciation de pertes entre les pertes de congestion et les pertes sur le réseau sans fil. Il est connu que lors d’une perte, les protocoles de transport actuels réduisent le débit (par deux par exemple). Or, pour les pertes sans fil, cela n’a pas d’intérêt. Pour différencier ces pertes sur l’émetteur des données, nous proposons une méthode originale qui utilise à la fois ECN (Explicit Congestion Notification) et le changement sur le RTT du paquet qui suit la perte. La seconde propose une méthode originale d’adaptation vidéo au niveau de la couche application sur l’émetteur. Avec l’arrivée des vidéos à bitrate élevés (HD, 3D) et l’augmentation constante mais irrégulière des bandes passantes réseau, la qualité vidéo à l’utilisateur reste à la traîne : elle est non-optimale (bitrate beaucoup plus petit ou plus grand que le débit disponible) et non adaptable (aux conditions dynamiques du réseau). Nous proposons une méthode très simple à implémenter, puisqu’elle ne requiert qu’une modification côté émetteur au niveau de la couche application. Elle adapte en permanence le bitrate de la vidéo aux conditions du réseau, autrement dit elle fait un contrôle de congestion sur l’émetteur. La visioconférence est un cas d’application idéal. Cette méthode fonctionne au-dessus de tout protocole de transport avec contrôle de congestion (TCP, DCCP), ce qui lui confère aussi la propriété de TCP-friendliness. / This thesis deals in improving the data transfer on wireless networks and for the continuous data such as video. To improve transmission over wireless networks, we were interested in congestion control transport protocols and we also proposed a practical method for adjusting the video rate to network conditions.This thesis composes of two parts. The first part concerns the loss differentiation between congestion losses and losses on the wireless network. It is known that when there is a loss, transport protocols reduce the current sending rate (e.g. by two). However, for wireless losses, it has no interest in reducing the rate. To differentiate these losses on the data senders side, we propose a novel method that uses both the ECN (Explicit Congestion Notification) and the change of RTT of the packet following the loss. The second part proposes a novel method for video adaptation at the application layer of the sender. With the advent of high bitrate video (e.g. HD, 3D) and steadily increasing but irregular network bandwidth, video quality to the user lags. It is non-optimal (bitrate is highly smaller or larger than the available bandwidth) and not adaptable (to the dynamic conditions of the network). We propose a simple method to implement, since it requires a change only at the application layer of the sender. It adapts the bitrate of the video to the network conditions, i.e. it is a congestion control on the transmitter. Videoconferencing is an ideal case for the application of adaptation. This method works over any transport protocol with congestion control (e.g. TCP, DCCP), which also confers the property of TCP-friendliness.

