Return to search

Structuration automatique de talk shows télévisés

Les problématiques modernes de conservation du patrimoine numérique ont rendu les compagnies professionnelles d'archivage demandeuses de nouveaux outils d'indexation et en particulier de méthodes de structuration automatique. Dans cette thèse, nous nous intéressons à un genre télévisuel à notre connaissance peu analysé : le talk show. Inspirés de travaux issus de la communauté des sciences humaines et plus spécifiquement d'études sémiologiques, nous proposons, tout d'abord, une réflexion sur la structuration d'émissions de talk show. Ensuite, ayant souligné qu'un schéma de structuration ne peut avoir de sens que s'il s'inscrit dans une démarche de résolution de cas d'usage, nous proposons une évaluation de l'organisation ainsi dégagée au moyen d'une expérience utilisateur. Cette dernière met en avant l'importance des locuteurs et l'avantage d'utiliser le tour de parole comme entité atomique en lieu et place du plan (shot), traditionnellement adopté dans les travaux de structuration. Ayant souligné l'importance de la segmentation en locuteurs pour la structuration d'émissions de talk show, nous y consacrons spécifiquement la seconde partie de cette thèse. Nous proposons tout d'abord un état de l'art des techniques utilisées dans ce domaine de recherche et en particulier des méthodes non-supervisées. Ensuite sont présentés les résultats d'un premier travail de détection et regroupement des tours de parole. Puis, un système original exploitant de manière plus efficace l'information visuelle est enfin proposé. La validité de la méthode présentée est testée sur les corpus d'émissions Le Grand Échiquier et On n'a pas tout dit. Au regard des résultats, notre dernier système se démarque avantageusement des travaux de l'état de l'art. Il conforte l'idée que les caractéristiques visuelles peuvent être d'un grand intérêt -- même pour la résolution de tâches supposément exclusivement audio comme la segmentation en locuteurs -- et que l'utilisation de méthodes à noyau dans un contexte multimodal peut s'avérer très performante.

Identiferoai:union.ndltd.org:CCSD/oai:pastel.archives-ouvertes.fr:pastel-00635495
Date21 September 2011
CreatorsFélicien, Vallet
PublisherTélécom ParisTech
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds