1 |
Subspace Gaussian mixture models for automatic speech recognitionLu, Liang January 2013 (has links)
In most of state-of-the-art speech recognition systems, Gaussian mixture models (GMMs) are used to model the density of the emitting states in the hidden Markov models (HMMs). In a conventional system, the model parameters of each GMM are estimated directly and independently given the alignment. This results a large number of model parameters to be estimated, and consequently, a large amount of training data is required to fit the model. In addition, different sources of acoustic variability that impact the accuracy of a recogniser such as pronunciation variation, accent, speaker factor and environmental noise are only weakly modelled and factorized by adaptation techniques such as maximum likelihood linear regression (MLLR), maximum a posteriori adaptation (MAP) and vocal tract length normalisation (VTLN). In this thesis, we will discuss an alternative acoustic modelling approach — the subspace Gaussian mixture model (SGMM), which is expected to deal with these two issues better. In an SGMM, the model parameters are derived from low-dimensional model and speaker subspaces that can capture phonetic and speaker correlations. Given these subspaces, only a small number of state-dependent parameters are required to derive the corresponding GMMs. Hence, the total number of model parameters can be reduced, which allows acoustic modelling with a limited amount of training data. In addition, the SGMM-based acoustic model factorizes the phonetic and speaker factors and within this framework, other source of acoustic variability may also be explored. In this thesis, we propose a regularised model estimation for SGMMs, which avoids overtraining in case that the training data is sparse. We will also take advantage of the structure of SGMMs to explore cross-lingual acoustic modelling for low-resource speech recognition. Here, the model subspace is estimated from out-domain data and ported to the target language system. In this case, only the state-dependent parameters need to be estimated which relaxes the requirement of the amount of training data. To improve the robustness of SGMMs against environmental noise, we propose to apply the joint uncertainty decoding (JUD) technique that is shown to be efficient and effective. We will report experimental results on the Wall Street Journal (WSJ) database and GlobalPhone corpora to evaluate the regularisation and cross-lingual modelling of SGMMs. Noise compensation using JUD for SGMM acoustic models is evaluated on the Aurora 4 database.
|
2 |
Robust model-based fault diagnosis for chemical process systemsRajaraman, Srinivasan 16 August 2006 (has links)
Fault detection and diagnosis have gained central importance in the chemical
process industries over the past decade. This is due to several reasons, one of them
being that copious amount of data is available from a large number of sensors in
process plants. Moreover, since industrial processes operate in closed loop with appropriate
output feedback to attain certain performance objectives, instrument faults
have a direct effect on the overall performance of the automation system. Extracting
essential information about the state of the system and processing the measurements
for detecting, discriminating, and identifying abnormal readings are important tasks
of a fault diagnosis system.
The goal of this dissertation is to develop such fault diagnosis systems, which
use limited information about the process model to robustly detect, discriminate, and
reconstruct instrumentation faults. Broadly, the proposed method consists of a novel
nonlinear state and parameter estimator coupled with a fault detection, discrimination,
and reconstruction system.
The first part of this dissertation focuses on designing fault diagnosis systems
that not only perform fault detection and isolation but also estimate the shape and
size of the unknown instrument faults. This notion is extended to nonlinear processes whose structure is known but the parameters of the process are a priori uncertain and
bounded. Since the uncertainty in the process model and instrument fault detection
interact with each other, a novel two-time scale procedure is adopted to render overall
fault diagnosis. Further, some techniques to enhance the convergence properties of
the proposed state and parameter estimator are presented.
The remaining part of the dissertation extends the proposed model-based fault
diagnosis methodology to processes for which first principles modeling is either expensive
or infeasible. This is achieved by using an empirical model identification
technique called subspace identification for state-space characterization of the process.
Finally the proposed methodology for fault diagnosis has been applied in numerical
simulations to a non-isothermal CSTR (continuous stirred tank reactor), an
industrial melter process, and a debutanizer plant.
|
3 |
Bayesovský přístup k určování akustických jednotek v řeči / Discovering Acoustic Units from Speech: a Bayesian ApproachOndel, Lucas Antoine Francois Unknown Date (has links)
Děti mají již od útlého věku vrozenou schopnost vyvozovat jazykové znalosti z mluvené řeči - dlouho předtím, než se naučí číst a psát. Moderní systémy pro rozpoznávání řeči oproti tomu potřebují k dosažení nízké chybovosti značná množství přepsaných řečových dat. Teprve nedávno založená vědecká oblast "učení řeči bez supervize" se věnuje přenosu popsaných lidských schopností do strojového učení. V rámci této oblasti se naše práce zaměřuje na problém určení sady akustických jednotek z jazyka, kde jsou k disposici pouze nepřepsané zvukové nahrávky. Pro řešení tohoto problému zkoumáme zejména potenciál bayesovské inference. V práci nejprve pro úlohu určování akustických jednotek revidujeme využití state-of-the-art neparametrického bayesovského modelu, pro který jsme odvodili rychlý a efektivní algoritmus variační bayesovské inference. Náš přístup se opírá o konstrukci Dirichletova procesu pomocí "lámání hůlky" (stick breaking) umožňující vyjádření modelu jako fonémové smyčky založené na skrytém Markovově modelu. S tímto modelem a vhodnou středopolní (mean-field) aproximací variační posteriorní pravděpodobnosti je inference realizována pomocí efektivního iteračního algoritmu, podobného známému schématu Expectation-Maximization (EM). Experimenty ukazují, že tento přístup zajišťuje lepší shlukování než původní model, přičemž je řádově rychlejší. Druhým přínosem práce je řešení problému definice smysluplného apriorního rozdělení na potenciální akustické jednotky. Za tímto účelem představujeme zobecněný podprostorový model (Generalized Subspace Model) - teoretický rámec umožňující definovat pravděpodobnostní rozdělení v nízkodimenzionálních nadplochách (manifoldech) ve vysokorozměrném prostoru parametrů. Pomocí tohoto nástroje učíme fonetický podprostor - kontinuum vektorových reprezentací (embeddingů) fonémů - z několika jazyků s přepsanými nahrávkami. Pak je tento fonetický podprostor použit k omezení našeho systému tak, aby určené akustické jednotky byly podobné fonémům z ostatních jazyků. Experimentální výsledky ukazují,že tento přístup významně zlepšuje kvalitu shlukování i přesnost segmentace systému pro určování akustických jednotek.
|
Page generated in 0.0584 seconds