Return to search

Attelage de systèmes de transcription automatique de la parole

Nous abordons, dans cette thèse, les méthodes de combinaison de systèmesde transcription de la parole à Large Vocabulaire. Notre étude se concentre surl'attelage de systèmes de transcription hétérogènes dans l'objectif d'améliorerla qualité de la transcription à latence contrainte. Les systèmes statistiquessont affectés par les nombreuses variabilités qui caractérisent le signal dela parole. Un seul système n'est généralement pas capable de modéliserl'ensemble de ces variabilités. La combinaison de différents systèmes detranscription repose sur l'idée d'exploiter les points forts de chacun pourobtenir une transcription finale améliorée. Les méthodes de combinaisonproposées dans la littérature sont majoritairement appliquées a posteriori,dans une architecture de transcription multi-passes. Cela nécessite un tempsde latence considérable induit par le temps d'attente requis avant l'applicationde la combinaison.Récemment, une méthode de combinaison intégrée a été proposée. Cetteméthode est basée sur le paradigme de décodage guidé (DDA :Driven DecodingAlgorithm) qui permet de combiner différents systèmes durant le décodage. Laméthode consiste à intégrer des informations en provenance de plusieurs systèmes dits auxiliaires dans le processus de décodage d'un système dit primaire.Notre contribution dans le cadre de cette thèse porte sur un double aspect : d'une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes,appelé BONG. D'autre part, nous proposons un cadre permettant l'attelagede plusieurs systèmes mono-passe pour la construction collaborative, à latenceréduite, de la sortie de l'hypothèse de reconnaissance finale. Nous présentonsdifférents modèles théoriques de l'architecture d'attelage et nous exposons unexemple d'implémentation en utilisant une architecture client/serveur distribuée. Après la définition de l'architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatiqueà latence réduite. Nous proposons une adaptation de la combinaison BONGpermettant la collaboration, à latence réduite, de plusieurs systèmes mono-passe fonctionnant en parallèle. Nous présentons également, une adaptationde la combinaison ROVER applicable durant le processus de décodage via unprocessus d'alignement local suivi par un processus de vote basé sur la fréquence d'apparition des mots. Les deux méthodes de combinaison proposéespermettent la réduction de la latence de la combinaison de plusieurs systèmesmono-passe avec un gain significatif du WER.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00839990
Date23 November 2012
CreatorsBougares, Fethi
PublisherUniversité du Maine
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds