• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Reducing development costs of large vocabulary speech recognition systems / Réduction des coûts de développement de systèmes de reconnaissance de la parole à grand vocabulaire

Fraga Da Silva, Thiago 29 September 2014 (has links)
Au long des dernières décennies, des importants avancements ont été réalisés dans le domaine de la reconnaissance de la parole à grand vocabulaire. Un des défis à relever dans le domaine concerne la réduction des coûts de développement nécessaires pour construire un nouveau système ou adapter un système existant à une nouvelle tâche, langue ou dialecte. Les systèmes de reconnaissance de la parole à l’état de l’art sont basés sur les principes de l’apprentissage statistique, utilisant l’information fournie par deux modèles stochastiques, un modèle acoustique (MA) et un modèle de langue (ML). Les méthodes standards utilisées pour construire ces modèles s’appuient sur deux hypothèses de base : les jeux de données d’apprentissage sont suffisamment grands, et les données d’apprentissage correspondent bien à la tâche cible. Il est bien connu qu’une partie importante des coûts de développement est dû à la préparation des corpora qui remplissent ces deux conditions, l’origine principale des coûts étant la transcription manuelle des données audio. De plus, pour certaines applications, notamment la reconnaissance des langues et dialectes dits "peu dotés", la collecte des données est en soi une mission difficile. Cette thèse a pour but d’examiner et de proposer des méthodes visant à réduire le besoin de transcriptions manuelles des données audio pour une tâche donnée. Deux axes de recherche ont été suivis. Dans un premier temps, des méthodes d’apprentissage dits "non-supervisées" sont explorées. Leur point commun est l’utilisation des transcriptions audio obtenues automatiquement à l’aide d’un système de reconnaissance existant. Des méthodes non-supervisées sont explorées pour la construction de trois des principales composantes des systèmes de reconnaissance. D’abord, une nouvelle méthode d’apprentissage non-supervisée des MAs est proposée : l’utilisation de plusieurs hypothèses de décodage (au lieu de la meilleure uniquement) conduit à des gains de performance substantiels par rapport à l’approche standard. L’approche non-supervisée est également étendue à l’estimation des paramètres du réseau de neurones (RN) utilisé pour l’extraction d’attributs acoustiques. Cette approche permet la construction des modèles acoustiques d’une façon totalement non-supervisée et conduit à des résultats compétitifs en comparaison avec des RNs estimés de façon supervisée. Finalement, des méthodes non-supervisées sont explorées pour l’estimation des MLs à repli (back-off ) standards et MLs neuronaux. Il est montré que l’apprentissage non-supervisée des MLs conduit à des gains de performance additifs (bien que petits) à ceux obtenus par l’apprentissage non-supervisée des MAs. Dans un deuxième temps, cette thèse propose l’utilisation de l’interpolation de modèles comme une alternative rapide et flexible pour la construction des MAs pour une tâche cible. Les modèles obtenus à partir d’interpolation se montrent plus performants que les modèles de base, notamment ceux estimés à échantillons regroupés ou ceux adaptés à la tâche cible. Il est montré que l’interpolation de modèles est particulièrement utile pour la reconnaissance des dialectes peu dotés. Quand la quantité de données d’apprentissage acoustiques du dialecte ciblé est petite (2 à 3 heures) ou même nulle, l’interpolation des modèles conduit à des gains de performances considérables par rapport aux méthodes standards. / One of the outstanding challenges in large vocabulary automatic speech recognition (ASR) is the reduction of development costs required to build a new recognition system or adapt an existing one to a new task, language or dialect. The state-of-the-art ASR systems are based on the principles of the statistical learning paradigm, using information provided by two stochastic models, an acoustic (AM) and a language (LM) model. The standard methods used to estimate the parameters of such models are founded on two main assumptions : the training data sets are large enough, and the training data match well the target task. It is well-known that a great part of system development costs is due to the construction of corpora that fulfill these requirements. In particular, manually transcribing the audio data is the most expensive and time-consuming endeavor. For some applications, such as the recognition of low resourced languages or dialects, finding and collecting data is also a hard (and expensive) task. As a means to lower the cost required for ASR system development, this thesis proposes and studies methods that aim to alleviate the need for manually transcribing audio data for a given target task. Two axes of research are explored. First, unsupervised training methods are explored in order to build three of the main components of ASR systems : the acoustic model, the multi-layer perceptron (MLP) used to extract acoustic features and the language model. The unsupervised training methods aim to estimate the model parameters using a large amount of automatically (and inaccurately) transcribed audio data, obtained thanks to an existing recognition system. A novel method for unsupervised AM training that copes well with the automatic audio transcripts is proposed : the use of multiple recognition hypotheses (rather than the best one) leads to consistent gains in performance over the standard approach. Unsupervised MLP training is proposed as an alternative to build efficient acoustic models in a fully unsupervised way. Compared to cross-lingual MLPs trained in a supervised manner, the unsupervised MLP leads to competitive performance levels even if trained on only about half of the data amount. Unsupervised LM training approaches are proposed to estimate standard back-off n-gram and neural network language models. It is shown that unsupervised LM training leads to additive gains in performance on top of unsupervised AM training. Second, this thesis proposes the use of model interpolation as a rapid and flexible way to build task specific acoustic models. In reported experiments, models obtained via interpolation outperform the baseline pooled models and equivalent maximum a posteriori (MAP) adapted models. Interpolation proves to be especially useful for low resourced dialect ASR. When only a few (2 to 3 hours) or no acoustic data truly matching the target dialect are available for AM training, model interpolation leads to substantial performance gains compared to the standard training methods.
2

Gestion des incertitudes dans le processus de développement de systèmes complexes / Uncertainty management in complexed development process

Xiao, Jing 04 December 2009 (has links)
La gestion des incertitudes constitue un sujet particulièrement important pour le processus de développement des systèmes (DS) complexes. Il faut donc améliorer la flexibilité et la prédictibilité des processus de DS en proposant une méthodologie pour appréhender et maîtriser les incertitudes qu’ils comportent, ce qui passe par la modélisation. Le travail présenté dans ce mémoire se concentre sur deux questions indispensables dans ce but : (1) Comment gérer les incertitudes pendant le processus de DS ? (2) Comment représenter les incertitudes dans la modélisation de processus de DS ? Pour répondre à ces questions, la thèse propose une méthodologie incluant l’identification des incertitudes, l’analyse de leurs effets, leur réduction et/ou leur exploitation, et leur surveillance et leur contrôle ; elle définit également une démarche de modélisation des incertitudes avec le langage UML en proposant un méta-modèle des incertitudes et un nouveau profil UML "Uncertainty-of" qui permet de rendre ce méta-modèle opérable avec les outils UML. La validité de la méthodologie et du profil proposés a été testée par l’étude d’un cas industriel. Cette étude a montré que la définition d’une telle méthodologie était utile pour l’organisation de la gestion des incertitudes dans la conception et le développement de systèmes, et que la création d’un nouveau profil UML apportait une solution pertinente dans la représentation des incertitudes. / Uncertainty management is a particularly important issue for complex systems development (SD) processes. The overall objective to be attained in this context is to improve the flexibility and predictability of SD process by proposing a methodology to understand and master the uncertainties. We believe that modeling uncertainties is an indispensable step in this direction. For this purpose, the presented work in this thesis focuses on two critical issues : (1) How should we manage uncertainties in SD processes ? (2) How can we represent uncertainties in modeling such processes ? In order to answer to these questions, this thesis proposes a methodology including identification, analysis of impact, diminution and / or exploitation, and monitoring and control of uncertainties ; and it also defines an approach to modeling uncertainties with UML by proposing a meta-model of uncertainties and a new UML profile named "Uncertaintyof", which allows to make this meta-model operable with UML tools. The validity of our proposals was tested by an industrial case study, which showed that the definition of such a methodology is helpful to manage the uncertainties in systems design and development, and that the creation of a new UML profile provides a valid solution in the representation of uncertainties.

Page generated in 0.075 seconds