1 |
A System Design of Chinese Resume by Speech ConstructionChen, Yue-sheng 28 August 2006 (has links)
A system of Chinese resume by speech construction is developed by the use of a novel segmentation mechanism and the classical Hidden Markov Model. The recognition system is based on both mono-syllable HMM's and speech-text alignment schemes. Experimental results indicate that the amount of training materials used for feature extraction can be greatly reduced, and the text content of the recorded speech training data can be different from those of the recognition tasks as well. Each phrase in the resume can be identified within one second, that is approximately the same as the graduate did last year. Furthermore, the user interface of the resume system has been redesigned and polished by the GTK toolkit in order to enable event-driven X-window operations.
|
2 |
A Design of Speech Recognition System for Chinese Names of Historical Figures Around the WorldLin, Wei-Ci 07 September 2006 (has links)
A design of speech recognition system for Chinese names of historical figures around the world is proposed in this thesis. A speech database of approximately forty-six thousand Chinese names is collected and recorded twice for system evaluation. This system applies Mel-frequency cepstrum coefficients, monosyllable HMM¡¦s and speech-text alignment scheme to accomplish initial candidate selection. A Mandarin pitch identification mechanism is then followed to increase the correct rate and obtain the final answer. The experimental results indicate that a 90% correct identification rate can be achieved, under the condition that the first session recording material is used for training and the second one for testing. For the speaker dependent case, the correct name can be recognized within 1.5 seconds, using a PC with an Intel Celeron 2.4 GHz CPU and RedHat Linux 9.0 Operation System.
|
3 |
Improved MFCC Front End Using Spectral Maxima For Noisy Speech RecognitionSujatha, J 11 1900 (has links) (PDF)
No description available.
|
4 |
SPARSE DISCRETE WAVELET DECOMPOSITION AND FILTER BANK TECHNIQUES FOR SPEECH RECOGNITIONJingzhao Dai (6642491) 11 June 2019 (has links)
<p>Speech recognition is widely applied to
translation from speech to related text, voice driven commands, human machine
interface and so on [1]-[8]. It has been increasingly proliferated to Human’s
lives in the modern age. To improve the accuracy of speech recognition, various
algorithms such as artificial neural network, hidden Markov model and so on
have been developed [1], [2].</p>
<p>In this thesis work, the tasks of speech
recognition with various classifiers are investigated. The classifiers employed
include the support vector machine (SVM), k-nearest neighbors (KNN), random
forest (RF) and convolutional neural network (CNN). Two novel features extraction
methods of sparse discrete wavelet decomposition (SDWD) and bandpass filtering
(BPF) based on the Mel filter banks [9] are developed and proposed. In order to
meet diversity of classification algorithms, one-dimensional (1D) and two-dimensional
(2D) features are required to be obtained. The 1D features are the array of
power coefficients in frequency bands, which are dedicated for training SVM,
KNN and RF classifiers while the 2D features are formed both in frequency domain
and temporal variations. In fact, the 2D feature consists of the power values
in decomposed bands versus consecutive speech frames. Most importantly, the 2D
feature with geometric transformation are adopted to train CNN.</p>
<p>Speech recognition including males and females
are from the recorded data set as well as the standard data set. Firstly, the
recordings with little noise and clear pronunciation are applied with the
proposed feature extraction methods. After many trials and experiments using
this dataset, a high recognition accuracy is achieved. Then, these feature
extraction methods are further applied to the standard recordings having random
characteristics with ambient noise and unclear pronunciation. Many experiment
results validate the effectiveness of the proposed feature extraction techniques.</p>
|
5 |
Semantic Classification And Retrieval System For Environmental SoundsOkuyucu, Cigdem 01 October 2012 (has links) (PDF)
The growth of multimedia content in recent years motivated the research on audio classification and content retrieval area. In this thesis, a general environmental audio classification and retrieval approach is proposed in which higher level semantic classes (outdoor, nature, meeting and violence) are obtained from lower level acoustic classes (emergency alarm, car horn, gun-shot, explosion, automobile, motorcycle, helicopter, wind, water, rain, applause, crowd and laughter). In order to classify an audio sample into acoustic classes, MPEG-7 audio features, Mel Frequency Cepstral Coefficients (MFCC) feature and Zero Crossing Rate (ZCR) feature are used with Hidden Markov Model (HMM) and Support Vector Machine (SVM) classifiers. Additionally, a new classification method is proposed using Genetic Algorithm (GA) for classification of semantic classes. Query by Example (QBE) and keyword-based query capabilities are implemented for content retrieval.
|
6 |
Sélection de paramètres acoustiques pertinents pour la reconnaissance de la paroleHacine-Gharbi, Abdenour 09 December 2012 (has links) (PDF)
L'objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l'estimation des densités de probabilités d'ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d'arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l'information mutuelle approximée à l'itération j de l'algorithme de recherche. Cependant l'estimation de l'information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d'échantillons finis. Une approche pour l'estimation de ces distributions est basée sur la méthode de l'histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l'histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l'estimateur de l'entropie et de l'information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2.
|
7 |
Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole / Relevant acoustic feature selection for speech recognitionHacine-Gharbi, Abdenour 09 December 2012 (has links)
L’objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l’estimation des densités de probabilités d’ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d’arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l’information mutuelle approximée à l’itération j de l’algorithme de recherche. Cependant l’estimation de l’information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d’échantillons finis. Une approche pour l’estimation de ces distributions est basée sur la méthode de l’histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l’histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l’estimateur de l’entropie et de l’information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2. / The objective of this thesis is to propose solutions and performance improvements to certain problems of relevant acoustic features selection in the framework of the speech recognition. Thus, our first contribution consists in proposing a new method of relevant feature selection based on an exact development of the redundancy between a feature and the feature previously selected using Forward search algorithm. The estimation problem of the higher order probability densities is solved by the truncation of the theoretical development of this redundancy up to acceptable orders. Moreover, we proposed a stopping criterion which allows fixing the number of features selected according to the mutual information approximated at the iteration J of the search algorithm. However, the mutual information estimation is difficult since its definition depends on the probability densities of the variables (features) in which the type of these distributions is unknown and their estimates are carried out on a finite sample set. An approach for the estimate of these distributions is based on the histogram method. This method requires a good choice of the bin number (cells of the histogram). Thus, we also proposed a new formula of computation of bin number that allows minimizing the estimator bias of the entropy and mutual information. This new estimator was validated on simulated data and speech data. More particularly, this estimator was applied in the selection of the static and dynamic MFCC parameters that were the most relevant for a recognition task of the connected words of the Aurora2 base.
|
Page generated in 0.0432 seconds