Return to search

Modélisation statistique du langage à partir d'Internet pour la reconnaissance automatique de la parole continue

Les ressources textuelles sont celles qui font le plus défaut dans les recherches sur la modélisation statistique du langage, surtout pour l'apprentissage de modèles adaptés au dialogue. Cette thèse propose d'utiliser les documents en provenance d'Internet pour l'apprentissage de tels modèles. La collecte de plusieurs corpus a permis la mise en évidence de certaines propriétés intéressantes. Celles-ci concernent la quantité de texte, le nombre de vocables différents mais surtout la possibilité de trouver des formes propres à l'expression orale. Ces formes ne se trouvent pas dans les corpus journalistiques qui sont pourtant très largement employés. L'évolution de ces documents au cours des dernières années a encore accru cette adéquation. La thèse introduit alors une nouvelle méthode, entièrement automatique, de calcul de modèles de langage à partir de ces données. Elle commence par un filtrage dit par " blocs minimaux " basé sur le vocabulaire de l'application visée. Ensuite, le calcul du modèle de langage statistique, type n-gramme, se fait au prix d'une légère adaptation des algorithmes standards dans le domaine. Les résultats de cette méthode sont de l'ordre de 90% de taux de reconnaissance pour des petits vocabulaires et de 80% pour de plus larges vocabulaires. De plus, les résultats obtenus, sans aucune adaptation, sur une base sonore état de l'art de l'AUPELF sont du même ordre que ceux des autres laboratoires ayant participé à l'évaluation. La thèse présente aussi d'autres applications d'Internet. Ainsi, L'utilisation de la hiérarchie des newsgroups permet la mise au point d'un détecteur de thème fondé sur une normalisation de modèles unigrammes. Ses performances sont d'environ 70%. L'intégration de ce détecteur au sein des algorithmes de reconnaissance de la parole permet un gain de 5% en taux de reconnaissance. Enfin, une adaptation de la méthode des blocs minimaux a été utilisée pour faciliter la définition d'un ensemble de phrases pour l'enregistrement d'un corpus sonore.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00326151
Date07 January 2002
CreatorsVaufreydaz, Dominique
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0016 seconds