[pt] Esta tese apresenta contribuições par a melhoria de
sistemas de reconhecimento de voz contínua, utilizando
Modelos de Markov Escondidos. A maioria dessas
contribuições são específicas para aplicações que envolvem
a língua portuguesa. Inicialmente, são propostos dois
inventários reduzidos de unidades fonéticas a partir de
características do português brasileiro. São analisadas
algumas formas de inicialização e propõe-se um método
rápido e eficaz de inicialização dos modelos dessas
unidades. Escolhe-se um método de segmentação, a forma de
concatenação dos modelos para a formação de modelos de
palavras e sentenças e propõe-se um algoritmo eficiente
para o treinamento. Resultado de simulações mostram que o
desempenho dos dois inventários são comparáveis, qundo
utilizados com gramática bigrama. O número de unidades
desses inventários é bastante reduzido quando comparado ao
inventário das unidades dependentes do contexto mais
utilizadas tais como dofones e trifones, entre outras.
Como o desempenho de recinhecimento de voz contínua
dependem fortemente dos atributos de voz utilizados.
examina-se diversos conjuntos de atributos e seu
comportamento relativo em reconhecedores baseados na
língua portuguesa, no modo independente do locutor. O
conjunto de coeficiente PLP com suas primeiras e segundas
derivadas apresentam o melhor desempenho. Em seguida é
proposto um sistema de reconhecimento de pedidos de
ligações telefônicas automáticas que utiliza conhecimentos
sintáticos da língua portuguesa e conhecimento dependentes
da tarefa. Esse sistema permite a decodificação nõa só de
dígitos mas também de números naturais o que o torna
bastante amigável ao usuário, permitindo ampla liberdade
aos locutores na forma de pedir uma ligação telefônica.Com
base em máquinas de estados finitos propostas para a
implementação do reconhecimento, ão analisados dois
algoritmos de decodificação, o Level Building e o One
Pass, e propõe-se um novo algoritm, a partir de
modificações no One Pass, mais eficiente na utilização das
fontes de conhecimento sitática e dependente da tarefa. O
sitems de RVC, em português, também é analisado utilizando-
se as sílabas como unidade fonéticas. Testes são
realizados no modo dependente e independente do locutor.
Conclui-se sobre a viabilidade do seu emprego em
reconhecimento de voz contínua baseados na língua
portuguesa, em contraste com seu desempenho insatisfatório
para a língua inglesa. Finalmente, é analisada a
influência das palavras-função (word-functions), no
desempenho de reconhecedores para o português. Embora para
a língua inglesa, as palavras-unção tenham um papel de
fundamental importância no desempenho do sistema de
reconhecimento, conclui-se que isso não é verdade para a
língua portuguesa. / [en] This work presents several contributions for the
improvement of CDHMM-based Continuous Speech Recognition
(CSR) Systems. Most of these contributions are specific
for Portuguese language.
Two reduced sets of phonetic units, based on the
characteristics of the Portuguese language, are proposed.
Several initialization procedures are analized and an
efficient and fast method of model initialization is
proposed. Methods are described for segmentation of
sentences and for concatenation of unit to form word and
sentence models. An efficient training algorithm for the
reduced sets of units is then proposed. Simulation results
show that the performance of the two sets are comparable
when bigrams are used. The number of units of these sets
are significantly reduced when compared to diphones and
triphones, which are widely used sets of context-dependent
units.
The performance of Continuous Speech Recognizers is
strongly dependent on the speech features. For this
reason, a comparative performance of several sets of
features for the Portuguese language is carried out. The
PLP coefficients with their first and second derivatives
yielded the best results.
A Continuous Speech Recognition System that uses syntactic
knowledge of the Portuguese language is proposed. This
system makes use of task dependent knowledges for
automatic dial-up telephone calls. The recognition system
can allows parsing of digits as well as natural numbers.
This is a user friendly feature feature that permits, for
the caller, a large degree of freedom in placing a call.
Based on the finite state machine proposed for the
implementation of the speech recognizer described in this
thesis, two parsing algorithms are analized - the Level
Building and the One pass. Then, a new algorithm is
proposed, which is more efficient than the other two
techniques. The proposed scheme is more suitable for the
use of synthatic and task-dependent knowledge sources.
The contribution of this thesis is concerned with the use
of the syllables as phonetic units in Portuguese-based CSR
systems. Dependent and Independent speaker tasks are
examined. It is shown that syllables provide good results
when used as phonetic units in Portuguese-based CSR
systemsm, in contrast with their poor performance in
English-based recognition schemes.
Finally, the influence of word-functions is analized in
Portuguese-based speech recognition systems. Although word-
functions play a critical role in the English-basec CSR,
it was found that this is not true for the Portuguese
language.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:8372 |
Date | 24 May 2006 |
Creators | SIDNEY CERQUEIRA BISPO DOS SANTOS |
Contributors | ABRAHAM ALCAIM |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0028 seconds