1 |
Určení výšky osob z řečového projevu / Determining person's height from spoken utterancePelikán, Pavel January 2013 (has links)
Diploma’s thesis is focused on determining person’s height from spoken utterance. First part of the work evaluates present situation and refers to the published studies. Knowledge gained in these studies was used in this thesis. Study with the best results according to estimated height of the speakers was chosen. The experiment realized in the chosen study was performed in this work. The system for the estimation of the height of the speakers based on the speech signal was created. This system was successfully tested by using several acoustic features on spoken utterances from TIMIT database.
|
2 |
Unsupervised clustering of audio data for acoustic modelling in automatic speech recognition systemsGoussard, George Willem 03 1900 (has links)
Thesis (MScEng (Electrical and Electronic Engineering))--University of Stellenbosch, 2011. / ENGLISH ABSTRACT: This thesis presents a system that is designed to replace the manual process of
generating a pronunciation dictionary for use in automatic speech recognition.
The proposed system has several stages.
The first stage segments the audio into what will be known as the subword
units, using a frequency domain method. In the second stage, dynamic
time warping is used to determine the similarity between the segments of each
possible pair of these acoustic segments. These similarities are used to cluster
similar acoustic segments into acoustic clusters. The final stage derives a
pronunciation dictionary from the orthography of the training data and corresponding
sequence of acoustic clusters. This process begins with an initial
mapping between words and their sequence of clusters, established by Viterbi
alignment with the orthographic transcription. The dictionary is refined iteratively
by pruning redundant mappings, hidden Markov model estimation and
Viterbi re-alignment in each iteration.
This approach is evaluated experimentally by applying it to two subsets of
the TIMIT corpus. It is found that, when test words are repeated often in the
training material, the approach leads to a system whose accuracy is almost as
good as one trained using the phonetic transcriptions. When test words are
not repeated often in the training set, the proposed approach leads to better
results than those achieved using the phonetic transcriptions, although the
recognition is poor overall in this case. / AFRIKAANSE OPSOMMING: Die doelwit van die tesis is om ’n stelsel te beskryf wat ontwerp is om die
handgedrewe proses in die samestelling van ’n woordeboek, vir die gebruik
in outomatiese spraakherkenningsstelsels, te vervang. Die voorgestelde stelsel
bestaan uit ’n aantal stappe.
Die eerste stap is die segmentering van die oudio in sogenaamde sub-woord
eenhede deur gebruik te maak van ’n frekwensie gebied tegniek. Met die tweede
stap word die dinamiese tydverplasingsalgoritme ingespan om die ooreenkoms
tussen die segmente van elkeen van die moontlike pare van die akoestiese segmente
bepaal. Die ooreenkomste word dan gebruik om die akoestiese segmente
te groepeer in akoestiese groepe. Die laaste stap stel die woordeboek
saam deur gebruik te maak van die ortografiese transkripsie van afrigtingsdata
en die ooreenstemmende reeks akoestiese groepe. Die finale stap begin met
’n aanvanklike afbeelding vanaf woorde tot hul reeks groep identifiseerders,
bewerkstellig deur Viterbi belyning en die ortografiese transkripsie. Die woordeboek
word iteratief verfyn deur oortollige afbeeldings te snoei, verskuilde
Markov modelle af te rig en deur Viterbi belyning te gebruik in elke iterasie.
Die benadering is getoets deur dit eksperimenteel te evalueer op twee subversamelings
data vanuit die TIMIT korpus. Daar is bevind dat, wanneer
woorde herhaal word in die afrigtingsdata, die stelsel se benadering die akkuraatheid
ewenaar van ’n stelsel wat met die fonetiese transkripsie afgerig is.
As die woorde nie herhaal word in die afrigtingsdata nie, is die akkuraatheid
van die stelsel se benadering beter as wanneer die stelsel afgerig word met die
fonetiese transkripsie, alhoewel die akkuraatheid in die algemeen swak is.
|
3 |
Segmentace řeči / Speech segmentationAndrla, Petr January 2010 (has links)
The programme for the segmentation of a speech into fonems was created as a part of the master´s thesis. This programme was made in the programme Matlab and consists of several scripts. The programme serves for automatic segmentation. Speech segmentation is the process of identifying the boundaries between phonemes in spoken natural languages. Automatic segmentation is based on vector quantization. In the first step of algorithm, feature extraction is realized. Then speech segments are assigned to calculated centroids. Position where centroid is changed is marked as a boundary of phoneme. The audiorecords were elaborated by the programme and a operation of the automatic segmentation was analysed. A detailed manual was created to the programme too. Individual used methods of the elaboration of a speech were in the master´s thesis briefly descripted, its implementations in the programme and reasons of set of its parameters.
|
4 |
FONOTAKTICKÉ A AKUSTICKÉ ROZPOZNÁVÁNÍ JAZYKŮ / PHONOTACTIC AND ACOUSTIC LANGUAGE RECOGNITIONMatějka, Pavel January 2009 (has links)
Práce pojednává o fonotaktickém a akustickém přístupu pro automatické rozpoznávání jazyka. První část práce pojednává o fonotaktickém přístupu založeném na výskytu fonémových sekvenci v řeči. Nejdříve je prezentován popis vývoje fonémového rozpoznávače jako techniky pro přepis řeči do sekvence smysluplných symbolů. Hlavní důraz je kladen na dobré natrénování fonémového rozpoznávače a kombinaci výsledků z několika fonémových rozpoznávačů trénovaných na různých jazycích (Paralelní fonémové rozpoznávání následované jazykovými modely (PPRLM)). Práce také pojednává o nové technice anti-modely v PPRLM a studuje použití fonémových grafů místo nejlepšího přepisu. Na závěr práce jsou porovnány dva přístupy modelování výstupu fonémového rozpoznávače -- standardní n-gramové jazykové modely a binární rozhodovací stromy. Hlavní přínos v akustickém přístupu je diskriminativní modelování cílových modelů jazyků a první experimenty s kombinací diskriminativního trénování a na příznacích, kde byl odstraněn vliv kanálu. Práce dále zkoumá různé druhy technik fúzi akustického a fonotaktického přístupu. Všechny experimenty jsou provedeny na standardních datech z NIST evaluaci konané v letech 2003, 2005 a 2007, takže jsou přímo porovnatelné s výsledky ostatních skupin zabývajících se automatickým rozpoznáváním jazyka. S fúzí uvedených technik jsme posunuli state-of-the-art výsledky a dosáhli vynikajících výsledků ve dvou NIST evaluacích.
|
5 |
Rekurentní neuronové sítě pro rozpoznávání řeči / Recurrent Neural Networks for Speech RecognitionNováčik, Tomáš January 2016 (has links)
This master thesis deals with the implementation of various types of recurrent neural networks via programming language lua using torch library. It focuses on finding optimal strategy for training recurrent neural networks and also tries to minimize the duration of the training. Furthermore various types of regularization techniques are investigated and implemented into the recurrent neural network architecture. Implemented recurrent neural networks are compared on the speech recognition task using AMI dataset, where they model the acustic information. Their performance is also compared to standard feedforward neural network. Best results are achieved using BLSTM architecture. The recurrent neural network are also trained via CTC objective function on the TIMIT dataset. Best result is again achieved using BLSTM architecture.
|
Page generated in 0.0205 seconds