Spelling suggestions: "subject:"segmentation mathématique hiérarchique""
1 |
Structuration automatique de flux télévisuelsGuinaudeau, Camille 07 December 2011 (has links) (PDF)
L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.
|
Page generated in 0.1658 seconds