Spelling suggestions: "subject:"audiovisual"" "subject:"audiovisuais""
71 |
Les plateformes de SVOD confrontées au maintien de la diversité culturelle : une prise de position des États à l'ère numériqueEmery, Lise 22 March 2024 (has links)
Thèse en cotutelle : Université Laval, Québec, Canada et Université Paris-Saclay, Cachan, France. / Cette étude a pour objet la diversité culturelle et son maintien dans le cadre de l’ère numérique et des plateformes de SVOD. Objectif des États dans le cadre de leur souveraineté culturelle, la diversité des expressions culturelles est mise à mal dans un contexte de bouleversement du marché de la production audiovisuelle par les acteurs internationaux issus du numérique. Cet objectif d’intérêt général, tant au niveau national qu’international, doit être préservé par les États, pour ne pas voir la création audiovisuelle perdre en qualité. Il convient dès lors de repenser les systèmes audiovisuels, pour intégrer les plateformes SVOD dans la mise en œuvre des obligations de diversité culturelle, notamment dans le cadre du financement de la création. Cette refonte de l’audiovisuel est en marche en France comme au Canada.
|
72 |
L'accès au lexique dans la perception audiovisuelle et visuelle de la paroleFort, Mathilde 05 December 2011 (has links) (PDF)
En situation de perception audiovisuelle de la parole (i.e., lorsque deux interlocuteurs communiquent face à face) et lorsque le signal acoustique est bruité, l‟intelligibilité des sons produits par un locuteur est augmentée lorsque son visage en mouvement est visible. L‟objectif des travaux présentés ici est de déterminer si cette capacité à " lire sur les lèvres " nous est utile seulement pour augmenter l‟intelligibilité de certains sons de parole (i.e., niveau de traitement pré-lexical) ou également pour accéder au sens des mots (i.e., niveau de traitement lexical). Chez l‟adulte, nos résultats indiquent que l‟information visuelle participe à l‟activation des représentations lexicales en présence d‟une information auditive bruitée (Etude 1 et 2). Voir le geste articulatoire correspondant à la première syllabe d‟un mot constitue une information suffisante pour contacter les représentations lexicales, en l‟absence de toute information auditive (Etude 3 et 4). Les résultats obtenus chez l‟enfant suggèrent néanmoins que jusque l‟âge de 10 ans, l‟information visuelle serait uniquement décodée à un niveau pré-lexical (Etude 5). Mots-clés : parole visuelle et audiovisuelle, reconnaissance de mots parlés, accès au lexique.
|
73 |
La dimension constitutionnelle de la liberté de communication audiovisuelle / The constitutionnal approach of broadcast freedomWeigel, Grégoire 26 January 2013 (has links)
Comment la liberté de communication audiovisuelle peut-elle prétendre à une forme de reconnaissance constitutionnelle dans la mesure où elle semble fragile – l’exercice de la liberté dépend d’un procédé technique – et bientôt dépassée – l’attention doit être portée sur les nouveaux médias ? La liberté de communication audiovisuelle tire sa force constitutionnelle, d’une part, de son rattachement à l’article 11 de la Déclaration de 1789 et, d’autre part, du principe de pluralisme des courants de pensée et d’opinion qui impose de prendre en considération la liberté du public. Les conséquences de ce rattachement constitutionnel ont conduit le législateur à faire le choix d’une autorité administrative indépendante à qui il revient de développer les outils de la régulation pour donner à la liberté sa pleine effectivité. L’approche constitutionnelle va permettre d’incorporer dans le champ de la communication audiovisuelle une partie des nouveaux acteurs de la convergence technologique. La liberté constitutionnelle de communication audiovisuelle doit également être conciliée avec d’autres libertés et droits fondamentaux. C’est ainsi qu’au nom du pluralisme les libertés économiques vont être réduites, notamment sous l’effet de la législation anticoncentration et des formes modernes d’intervention du régulateur qui intègre aux préoccupations du droit de la concurrence l’intérêt du public. Par ailleurs, dans la mesure où elle renvoie à l’expérience collective et au consensus social, la communication audiovisuelle est portée par certaines exigences traduites en droit constitutionnel. La liberté d’autrui et l’exigence première de dignité de la personne humaine doivent s’imposer. / How can the broadcast freedom claim constitutional principle in so far as it seems fragile – the exercise of this freedom depends on a technical process – and soon outdated – the attention must be focused on the new medias? The freedom of broadcasting activities pulls its constitutional strength, on one hand, of its link connection with article 11 of the Declaration of human rights of 1789 and, on the other hand, the principle of pluralism which imposes to consider the freedom of the audience. The consequences of this constitutional links led the legislator to choose an independent authority to develop the tools of regulation in order to give the freedom effectiveness. The constitutional approach allows to bring new actors of the technological convergence into the scope of broadcasting activities. The constitutional freedom of broadcasting must also be balanced with other rights and freedoms. This is how, in the name of pluralism, the economic freedoms are going to be reduced, in particular under anti trust law and modern forms of regulation which integrate public interest into the competition law. Besides, as far as it deals with the collective experience and social consensus, the broadcasting activities are influenced by certain requirements translated into constitutional main principles. The freedom of others and the first key principle of human dignity should prevail.
|
74 |
L'accès au lexique dans la perception audiovisuelle et visuelle de la parole / Lexical access in audiovisual speech perceptionFort, Mathilde 05 December 2011 (has links)
En situation de perception audiovisuelle de la parole (i.e., lorsque deux interlocuteurs communiquent face à face) et lorsque le signal acoustique est bruité, l‟intelligibilité des sons produits par un locuteur est augmentée lorsque son visage en mouvement est visible. L‟objectif des travaux présentés ici est de déterminer si cette capacité à « lire sur les lèvres » nous est utile seulement pour augmenter l‟intelligibilité de certains sons de parole (i.e., niveau de traitement pré-lexical) ou également pour accéder au sens des mots (i.e., niveau de traitement lexical). Chez l‟adulte, nos résultats indiquent que l‟information visuelle participe à l‟activation des représentations lexicales en présence d‟une information auditive bruitée (Etude 1 et 2). Voir le geste articulatoire correspondant à la première syllabe d‟un mot constitue une information suffisante pour contacter les représentations lexicales, en l‟absence de toute information auditive (Etude 3 et 4). Les résultats obtenus chez l‟enfant suggèrent néanmoins que jusque l‟âge de 10 ans, l‟information visuelle serait uniquement décodée à un niveau pré-lexical (Etude 5). Mots-clés : parole visuelle et audiovisuelle, reconnaissance de mots parlés, accès au lexique. / Seeing the facial gestures of a speaker enhances phonemic identification in noise. The goal of this research was to assess whether this visual information can activate lexical representations. We investigated this question in adults (Experiment 1 to 4) and in children (Experiment 5). First, our results provide evidence indicating that visual information on consonant (Experiment 1) and vowel identity (Experiment 2) contributes to lexical activation processes during word recognition, when the auditory information is deteriorated by noise. Then, we also demonstrated that the mere presentation of the first two phonemes – i.e., the articulatory gestures of the initial syllable– is enough visual information to activate lexical representations and initiate the word recognition process (Experiment 3 and 4). However, our data suggest that visual speech mostly contributes in pre-lexical phonological -rather than lexical- processing in children till the age of 10 (Experiment 5). Key words : speech, visual and audiovisual speech, spoken word recognition, lexical access.
|
75 |
Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d'un réseau de capteurs ambiants / Online learning of audiovisual signatures for people recognition and tracking within a network of ambient sensorsDecroix, François-Xavier 20 December 2017 (has links)
L'opération neOCampus, initiée en 2013 par l'Université Paul Sabatier, a pour objectif de créer un campus connecté, innovant, intelligent et durable en exploitant les compétences de 11 laboratoires et de plusieurs partenaires industriels. Pluridisciplinaires, ces compétences sont croisées dans le but d'améliorer le confort au quotidien des usagers du campus (étudiants, corps enseignant, personnel administratif) et de diminuer son empreinte écologique. L'intelligence que nous souhaitons apporter au Campus du futur exige de fournir à ses bâtiments une perception de son activité interne. En effet, l'optimisation des ressources énergétiques nécessite une caractérisation des activités des usagers afin que le bâtiment puisse s'y adapter automatiquement. L'activité humaine étant sujet à plusieurs niveaux d'interprétation nos travaux se focalisent sur l'extraction des déplacements des personnes présentes, sa composante la plus élémentaire. La caractérisation de l'activité des usagers, en termes de déplacements, exploite des données extraites de caméras et de microphones disséminés dans une pièce, ces derniers formant ainsi un réseau épars de capteurs hétérogènes. Nous cherchons alors à extraire de ces données une signature audiovisuelle et une localisation grossière des personnes transitant dans ce réseau de capteurs. Tout en préservant la vie privée de l'individu, la signature doit être discriminante, afin de distinguer les personnes entre elles, et compacte, afin d'optimiser les temps de traitement et permettre au bâtiment de s'auto-adapter. Eu égard à ces contraintes, les caractéristiques que nous modélisons sont le timbre de la voix du locuteur, et son apparence vestimentaire en termes de distribution colorimétrique. Les contributions scientifiques de ces travaux s'inscrivent ainsi au croisement des communautés parole et vision, en introduisant des méthodes de fusion de signatures sonores et visuelles d'individus. Pour réaliser cette fusion, des nouveaux indices de localisation de source sonore ainsi qu'une adaptation audiovisuelle d'une méthode de suivi multi-cibles ont été introduits, représentant les contributions principales de ces travaux. Le mémoire est structuré en 4 chapitres. Le premier présente un état de l'art sur les problèmes de ré-identification visuelle de personnes et de reconnaissance de locuteurs. Les modalités sonores et visuelles ne présentant aucune corrélation, deux signatures, une vidéo et une audio sont générées séparément, à l'aide de méthodes préexistantes de la littérature. Le détail de la génération de ces signatures est l'objet du chapitre 2. La fusion de ces signatures est alors traitée comme un problème de mise en correspondance d'observations audio et vidéo, dont les détections correspondantes sont cohérentes et compatibles spatialement, et pour lesquelles deux nouvelles stratégies d'association sont introduites au chapitre 3. La cohérence spatio-temporelle des observations sonores et visuelles est ensuite traitée dans le chapitre 4, dans un contexte de suivi multi-cibles. / The neOCampus operation, started in 2013 by Paul Sabatier University in Toulouse, aims to create a connected, innovative, intelligent and sustainable campus, by exploiting the skills of 11 laboratories and several industrial partners. These multidisciplinary skills are combined in order to improve users (students, teachers, administrative staff) daily comfort and to reduce the ecological footprint of the campus. The intelligence we want to bring to the campus of the future requires to provide to its buildings a perception of its intern activity. Indeed, optimizing the energy resources needs a characterization of the user's activities so that the building can automatically adapt itself to it. Human activity being open to multiple levels of interpretation, our work is focused on extracting people trajectories, its more elementary component. Characterizing users activities, in terms of movement, uses data extracted from cameras and microphones distributed in a room, forming a sparse network of heterogeneous sensors. From these data, we then seek to extract audiovisual signatures and rough localizations of the people transiting through this network of sensors. While protecting person privacy, signatures must be discriminative, to distinguish a person from another one, and compact, to optimize computational costs and enables the building to adapt itself. Having regard to these constraints, the characteristics we model are the speaker's timbre, and his appearance, in terms of colorimetric distribution. The scientific contributions of this thesis are thus at the intersection of the fields of speech processing and computer vision, by introducing new methods of fusing audio and visual signatures of individuals. To achieve this fusion, new sound source location indices as well as an audiovisual adaptation of a multi-target tracking method were introduced, representing the main contributions of this work. The thesis is structured in 4 chapters, and the first one presents the state of the art on visual reidentification of persons and speaker recognition. Acoustic and visual modalities are not correlated, so two signatures are separately computed, one for video and one for audio, using existing methods in the literature. After a first chapter dedicated to the state of the art in re-identification and speaker recognition methods, the details of the computation of the signatures is explored in chapter 2. The fusion of the signatures is then dealt as a problem of matching between audio and video observations, whose corresponding detections are spatially coherent and compatible. Two novel association strategies are introduced in chapter 3. Spatio-temporal coherence of the bimodal observations is then discussed in chapter 4, in a context of multi-target tracking.
|
76 |
Influence de la stéréoscopie sur la perception du son : cas de mixages sonores pour le cinéma en relief / The influence of stereoscopy on sound perception : a case study on the sound mixing of stereoscopic-3D moviesHendrickx, Etienne 04 December 2015 (has links)
Peu d'études ont été menées sur l'influence de la stéréoscopie sur la perception d'un mixage audio au cinéma. Les témoignages de mixeurs ou les articles scientifiques montrent pourtant une grande diversité d'opinions à ce sujet. Certains estiment que cette influence est négligeable, d'autres affirment qu'il faut totalement revoir notre conception de la bande-son, aussi bien au niveau du mixage que de la diffusion. Une première série d'expériences s'est intéressée à la perception des sons d'ambiance. 8 séquences, dans leurs versions stéréoscopiques (3D-s) et non-stéréoscopiques (2D), ont été diffusées dans un cinéma à des sujets avec plusieurs mixages différents. Pour chaque présentation, les sujets devaient évaluer à quel point le mixage proposé leur paraissait trop frontal ou au contraire trop « surround », le but étant de mettre en évidence une éventuelle influence de la stéréoscopie sur la perception de la balance frontal/surround d'un mixage audio. Les résultats obtenus ont rejoint ceux d'une expérience préliminaire menée dans un auditorium de mixage, où les sujets se trouvaient en situation de mixeur et devaient eux-mêmes régler la balance frontal/surround : l'influence de la stéréoscopie était faible et n'apparaissait que pour quelques séquences. Des études ont ensuite été menées sur la perception des objets sonores tels que dialogues et effets. Une quatrième expérience s'est intéressée à l'effet ventriloque en élévation : lorsque l'on présente à un sujet des stimuli audio et visuel temporellement coïncidents mais spatialement disparates, les sujets perçoivent parfois le stimulus sonore au même endroit que le stimulus visuel. On appelle ce phénomène l’effet ventriloque car il rappelle l'illusion créée par le ventriloque lorsque sa voix semble plutôt provenir de sa marionnette que de sa propre bouche. Ce phénomène a été très largement étudié dans le plan horizontal, et dans une moindre mesure en distance. Par contre, très peu d'études se sont intéressées à l'élévation. Dans cette expérience, nous avons présenté à des sujets des séquences audiovisuelles montrant un homme en train de parler. Sa voix pouvait être reproduite sur différents haut-parleurs, qui créaient des disparités plus ou moins grandes en azimut et en élévation entre le son et l'image. Pour chaque présentation, les sujets devaient indiquer si la voix semblait ou non provenir de la même direction que la bouche de l'acteur. Les résultats ont montré que l'effet ventriloque était très efficace en élévation, ce qui suggère qu'il n'est peut-être pas nécessaire de rechercher la cohérence audiovisuelle en élévation au cinéma. / Few psychoacoustic studies have been carried out about the influence of stereoscopy on the sound mixing of movies. Yet very different opinions can be found in the cinema industry and in scientific papers. Some argue that sound needs to be mixed differently for stereoscopic movies while others pretend that this influence is negligible.A first set of experiments was conducted, which focused on the perception of ambience. Eight sequences - in their stereoscopic (s-3D) and non-stereoscopic (2D) versions, with several different sound mixes - were presented to subjects. For each presentation, subjects had to judge to what extent the mix sounded frontal or “surround.” The goal was to verify whether stereoscopy had an influence on the perception of the front/surround balance of ambience. Results showed that this influence was weak, which was consistent with a preliminary experiment conducted in a mixing auditorium where subjects had to mix the front/surround balance of several sequences themselves.Studies were then conducted on the perception of sound objects such as dialogs or on-screen effects. A fourth experiment focused on ventriloquism in elevation: when presented with a spatially discordant auditory-visual stimulus, subjects sometimes perceive the sound and the visual stimuli as coming from the same location. Such a phenomenon is often referred to as ventriloquism, because it evokes the illusion created by a ventriloquist when his voice seems to emanate from his puppet rather than from his mouth. While this effect has been extensively examined in the horizontal plane and to a lesser extent in distance, few psychoacoustic studies have focused on elevation. In this experiment, sequences of a man talking were presented to subjects. His voice could be reproduced on different loudspeakers, which created disparities in both azimuth and elevation between the sound and the visual stimuli. For each presentation, subjects had to indicate whether or not the voice seemed to emanate from the mouth of the actor. Ventriloquism was found to be highly effective in elevation, which suggests that audiovisual coherence in elevation might be unnecessary in theaters.
|
77 |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuellePINQUIER, Julien 20 December 2004 (has links) (PDF)
Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés.
|
78 |
Structuration automatique de talk shows télévisésFélicien, Vallet 21 September 2011 (has links) (PDF)
Les problématiques modernes de conservation du patrimoine numérique ont rendu les compagnies professionnelles d'archivage demandeuses de nouveaux outils d'indexation et en particulier de méthodes de structuration automatique. Dans cette thèse, nous nous intéressons à un genre télévisuel à notre connaissance peu analysé : le talk show. Inspirés de travaux issus de la communauté des sciences humaines et plus spécifiquement d'études sémiologiques, nous proposons, tout d'abord, une réflexion sur la structuration d'émissions de talk show. Ensuite, ayant souligné qu'un schéma de structuration ne peut avoir de sens que s'il s'inscrit dans une démarche de résolution de cas d'usage, nous proposons une évaluation de l'organisation ainsi dégagée au moyen d'une expérience utilisateur. Cette dernière met en avant l'importance des locuteurs et l'avantage d'utiliser le tour de parole comme entité atomique en lieu et place du plan (shot), traditionnellement adopté dans les travaux de structuration. Ayant souligné l'importance de la segmentation en locuteurs pour la structuration d'émissions de talk show, nous y consacrons spécifiquement la seconde partie de cette thèse. Nous proposons tout d'abord un état de l'art des techniques utilisées dans ce domaine de recherche et en particulier des méthodes non-supervisées. Ensuite sont présentés les résultats d'un premier travail de détection et regroupement des tours de parole. Puis, un système original exploitant de manière plus efficace l'information visuelle est enfin proposé. La validité de la méthode présentée est testée sur les corpus d'émissions Le Grand Échiquier et On n'a pas tout dit. Au regard des résultats, notre dernier système se démarque avantageusement des travaux de l'état de l'art. Il conforte l'idée que les caractéristiques visuelles peuvent être d'un grand intérêt -- même pour la résolution de tâches supposément exclusivement audio comme la segmentation en locuteurs -- et que l'utilisation de méthodes à noyau dans un contexte multimodal peut s'avérer très performante.
|
79 |
Indexation vidéo non-supervisée basée sur la caractérisation des personnesEl Khoury, Elie 03 June 2010 (has links) (PDF)
Cette thèse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modèle audiovisuel dynamique des intervenants.
|
80 |
Les bases neurophysiologiques de la perception audiovisuelle syllabique : étude simultanée en imagerie par résonance magnétique fonctionnelle et en électroencéphalographie (IRMf/EEG)Dubois, Cyril 09 December 2009 (has links) (PDF)
Si, comme le disait Stetson (1951), la parole est davantage un ensemble de mouvements rendus audibles qu'un ensemble de sons produit par des mouvements, qu'en est-il de la dimension visible de ces mouvements ? L'intelligibilité de la parole est améliorée par l'apport des visèmes, dans un environnement bruyant (Sumby & Pollack, 1954), ce qui nous indique un effet facilitateur sur l'accès au lexique mental. Selon Massaro (1990), l'influence d'une source est maximale si une autre est ambiguë. Pourtant dans l'effet « McGurk » (McGurk & MacDonald, 1976), les deux sources, audible et visible sont équipotentes. Le résultat est bien une perturbation, puisque la « cible » a été mal interprétée. Certains chercheurs ont montré que l'effet McGurk pouvait avoir lieu sur des mots et même sur des phrases. Cela corrobore l'idée que l'intégration de la source visuelle est précoce et prélexicale, mais aussi sujette à l'influence d'effet top-down. Nous avons mené une étude anatomo-fonctionnelle simultanée en IRMf/EEG, en utilisant une tâche de discrimination à choix forcé, portant sur des syllabes CV, selon deux modalités perceptives : audiovisuelle animée et audiovisuelle fixe, afin de pouvoir observer les bases neurophysiologiques de la perception audiovisuelle syllabique. La tâche de discrimination portait sur des paires syllabiques s'opposant sur les trois traits suivants : la labialité vocalique, le lieu d'articulation et le voisement consonantiques.
|
Page generated in 0.0491 seconds