• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole

Huet, Stéphane 11 December 2007 (has links) (PDF)
Une des voies pour améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) consiste à employer davantage de connaissances linguistiques. Nous nous plaçons dans ce cadre en axant nos travaux sur deux aspects : les informations morpho-syntaxiques et l'adaptation thématique. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur morpho-syntaxique développé pour tenir compte des spé- cificités des transcriptions. Nous réordonnons ces listes en modifiant le score global employé par un système de RAP pour reconnaître un groupe de souffle, de manière à inclure les informations morpho-syntaxiques. Une diminution significative du taux d'erreur de mots est obtenue lors d'expériences menées sur des émissions d'information francophones (corpus Ester). Nous établissons en outre l'intérêt des informations morpho-syntaxiques pour améliorer des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML) d'un système de RAP. Nous proposons à cette fin une chaîne de traitements originale qui nous permet de spécialiser de manière ne et non supervisée le ML. Nous découpons tout d'abord une première transcription du document étudié en sections thématiquement homogènes. Pour cela, nous développons un nouveau cadre probabiliste pour prendre en compte dfférentes modalités (cohérence lexicale, indices acoustiques et marqueurs linguistiques) et montrons son intérêt pour améliorer la qualité de la segmentation. Nous construisons ensuite des corpus d'adaptation à partir du Web en utilisant une procédure novatrice. Nous modifions enfin le ML avec ces corpus spécifiques et montrons que, sur des sections thématiques sélectionnées manuellement, cette méthode permet d'améliorer significativement la modélisation du ML, même si le gain constaté au niveau de la qualité de la transcription est léger.

Page generated in 0.1062 seconds