Spelling suggestions: "subject:"aadaptation dde modèles"" "subject:"aadaptation dee modèles""
1 |
Reducing development costs of large vocabulary speech recognition systems / Réduction des coûts de développement de systèmes de reconnaissance de la parole à grand vocabulaireFraga Da Silva, Thiago 29 September 2014 (has links)
Au long des dernières décennies, des importants avancements ont été réalisés dans le domaine de la reconnaissance de la parole à grand vocabulaire. Un des défis à relever dans le domaine concerne la réduction des coûts de développement nécessaires pour construire un nouveau système ou adapter un système existant à une nouvelle tâche, langue ou dialecte. Les systèmes de reconnaissance de la parole à l’état de l’art sont basés sur les principes de l’apprentissage statistique, utilisant l’information fournie par deux modèles stochastiques, un modèle acoustique (MA) et un modèle de langue (ML). Les méthodes standards utilisées pour construire ces modèles s’appuient sur deux hypothèses de base : les jeux de données d’apprentissage sont suffisamment grands, et les données d’apprentissage correspondent bien à la tâche cible. Il est bien connu qu’une partie importante des coûts de développement est dû à la préparation des corpora qui remplissent ces deux conditions, l’origine principale des coûts étant la transcription manuelle des données audio. De plus, pour certaines applications, notamment la reconnaissance des langues et dialectes dits "peu dotés", la collecte des données est en soi une mission difficile. Cette thèse a pour but d’examiner et de proposer des méthodes visant à réduire le besoin de transcriptions manuelles des données audio pour une tâche donnée. Deux axes de recherche ont été suivis. Dans un premier temps, des méthodes d’apprentissage dits "non-supervisées" sont explorées. Leur point commun est l’utilisation des transcriptions audio obtenues automatiquement à l’aide d’un système de reconnaissance existant. Des méthodes non-supervisées sont explorées pour la construction de trois des principales composantes des systèmes de reconnaissance. D’abord, une nouvelle méthode d’apprentissage non-supervisée des MAs est proposée : l’utilisation de plusieurs hypothèses de décodage (au lieu de la meilleure uniquement) conduit à des gains de performance substantiels par rapport à l’approche standard. L’approche non-supervisée est également étendue à l’estimation des paramètres du réseau de neurones (RN) utilisé pour l’extraction d’attributs acoustiques. Cette approche permet la construction des modèles acoustiques d’une façon totalement non-supervisée et conduit à des résultats compétitifs en comparaison avec des RNs estimés de façon supervisée. Finalement, des méthodes non-supervisées sont explorées pour l’estimation des MLs à repli (back-off ) standards et MLs neuronaux. Il est montré que l’apprentissage non-supervisée des MLs conduit à des gains de performance additifs (bien que petits) à ceux obtenus par l’apprentissage non-supervisée des MAs. Dans un deuxième temps, cette thèse propose l’utilisation de l’interpolation de modèles comme une alternative rapide et flexible pour la construction des MAs pour une tâche cible. Les modèles obtenus à partir d’interpolation se montrent plus performants que les modèles de base, notamment ceux estimés à échantillons regroupés ou ceux adaptés à la tâche cible. Il est montré que l’interpolation de modèles est particulièrement utile pour la reconnaissance des dialectes peu dotés. Quand la quantité de données d’apprentissage acoustiques du dialecte ciblé est petite (2 à 3 heures) ou même nulle, l’interpolation des modèles conduit à des gains de performances considérables par rapport aux méthodes standards. / One of the outstanding challenges in large vocabulary automatic speech recognition (ASR) is the reduction of development costs required to build a new recognition system or adapt an existing one to a new task, language or dialect. The state-of-the-art ASR systems are based on the principles of the statistical learning paradigm, using information provided by two stochastic models, an acoustic (AM) and a language (LM) model. The standard methods used to estimate the parameters of such models are founded on two main assumptions : the training data sets are large enough, and the training data match well the target task. It is well-known that a great part of system development costs is due to the construction of corpora that fulfill these requirements. In particular, manually transcribing the audio data is the most expensive and time-consuming endeavor. For some applications, such as the recognition of low resourced languages or dialects, finding and collecting data is also a hard (and expensive) task. As a means to lower the cost required for ASR system development, this thesis proposes and studies methods that aim to alleviate the need for manually transcribing audio data for a given target task. Two axes of research are explored. First, unsupervised training methods are explored in order to build three of the main components of ASR systems : the acoustic model, the multi-layer perceptron (MLP) used to extract acoustic features and the language model. The unsupervised training methods aim to estimate the model parameters using a large amount of automatically (and inaccurately) transcribed audio data, obtained thanks to an existing recognition system. A novel method for unsupervised AM training that copes well with the automatic audio transcripts is proposed : the use of multiple recognition hypotheses (rather than the best one) leads to consistent gains in performance over the standard approach. Unsupervised MLP training is proposed as an alternative to build efficient acoustic models in a fully unsupervised way. Compared to cross-lingual MLPs trained in a supervised manner, the unsupervised MLP leads to competitive performance levels even if trained on only about half of the data amount. Unsupervised LM training approaches are proposed to estimate standard back-off n-gram and neural network language models. It is shown that unsupervised LM training leads to additive gains in performance on top of unsupervised AM training. Second, this thesis proposes the use of model interpolation as a rapid and flexible way to build task specific acoustic models. In reported experiments, models obtained via interpolation outperform the baseline pooled models and equivalent maximum a posteriori (MAP) adapted models. Interpolation proves to be especially useful for low resourced dialect ASR. When only a few (2 to 3 hours) or no acoustic data truly matching the target dialect are available for AM training, model interpolation leads to substantial performance gains compared to the standard training methods.
|
2 |
Reconnaissance automatique de la parole pour des langues peu dotéesLe, Viet Bac 01 June 2006 (has links) (PDF)
Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l'oral sont inexistants. L'originalité de mon travail de thèse vient de la volonté d'aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. <br />La nature statistique des approches nécessite de disposer d'une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d'un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d'accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d'abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d'un vocabulaire, collecte de documents à partir de l'Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique « open source » nommée CLIPS-Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue.<br />Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d'estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones, ...). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l'adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée.<br />Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées.
|
3 |
Étude d'équations aux dérivées partielles hyperboliques en mécanique des fluidesSeguin, Nicolas 08 December 2011 (has links) (PDF)
Ce mémoire est dédié à l'étude d'équations aux dérivées partielles de type hyperbolique intervenant en mécanique des fluides. Suivant les problèmes, on entend par étude la modélisation, l'analyse ou l'approximation numérique des modèles considérés. Le premier chapitre de ce mémoire traite des systèmes hyperboliques et de leur approximation par des schémas volumes finis. On présente notamment des schémas numériques simples pour approcher les solutions de systèmes de lois de conservation généraux. On étudie de plus la notion de hiérarchie de modèles, c'est-à-dire de connexion entre différents modèles à travers des procédés asymptotiques (relaxation, asymptotique parabolique et contrainte sur l'espace des états admissible), d'un point de vue théorique et/ou numérique, suivant le type de hiérarchie considéré. Le deuxième chapitre est consacré à la modélisation, l'analyse et l'approximation numérique d'écoulements diphasiques. Les modèles diphasiques envisagés ici sont les modèles compressibles avec deux vitesses et deux pressions, les modèles de dérive, les modèles pour un fluide avec transition de phase, ainsi que les modèles d'écoulements d'eau à surface libre. Pour la plupart des cas, on propose une analyse et une approximation numérique des modèles et quand c'est possible, on donne les liens les unissant. Le dernier chapitre compile différents travaux sur des modèles de fluides dans lesquels apparaissent des interfaces ayant une origine extérieure à l'écoulement lui-même. Les premiers travaux sont dédiés aux lois de conservation incluant une discontinuité, soit due à un changement brusque du milieu environnant, soit due à la présence d'une contrainte locale sur la solution. On présente ensuite l'analyse et l'approximation numérique d'un modèle de particule ponctuelle évoluant dans un fluide unidimensionnel. Enfin, on aborde le couplage de systèmes hyperboliques issus de la connexion interfaciale de codes de calcul, avec pour application l'adaptation dynamique de modèle, qui consiste à remplacer localement et dynamiquement un modèle par un modèle simplifié pour optimiser d'un code.
|
4 |
Enhancing supervised learning with complex aggregate features and context sensitivity / Amélioration de l'apprentissage supervisé par l'utilisation d'agrégats complexes et la prise en compte du contexteCharnay, Clément 30 June 2016 (has links)
Dans cette thèse, nous étudions l'adaptation de modèles en apprentissage supervisé. Nous adaptons des algorithmes d'apprentissage existants à une représentation relationnelle. Puis, nous adaptons des modèles de prédiction aux changements de contexte.En représentation relationnelle, les données sont modélisées par plusieurs entités liées par des relations. Nous tirons parti de ces relations avec des agrégats complexes. Nous proposons des heuristiques d'optimisation stochastique pour inclure des agrégats complexes dans des arbres de décisions relationnels et des forêts, et les évaluons sur des jeux de données réelles.Nous adaptons des modèles de prédiction à deux types de changements de contexte. Nous proposons une optimisation de seuils sur des modèles à scores pour s'adapter à un changement de coûts. Puis, nous utilisons des transformations affines pour adapter les attributs numériques à un changement de distribution. Enfin, nous étendons ces transformations aux agrégats complexes. / In this thesis, we study model adaptation in supervised learning. Firstly, we adapt existing learning algorithms to the relational representation of data. Secondly, we adapt learned prediction models to context change.In the relational setting, data is modeled by multiples entities linked with relationships. We handle these relationships using complex aggregate features. We propose stochastic optimization heuristics to include complex aggregates in relational decision trees and Random Forests, and assess their predictive performance on real-world datasets.We adapt prediction models to two kinds of context change. Firstly, we propose an algorithm to tune thresholds on pairwise scoring models to adapt to a change of misclassification costs. Secondly, we reframe numerical attributes with affine transformations to adapt to a change of attribute distribution between a learning and a deployment context. Finally, we extend these transformations to complex aggregates.
|
Page generated in 0.125 seconds