Spelling suggestions: "subject:"reconhecimento dde foz"" "subject:"reconhecimento dde coz""
21 |
[en] INTELLIGENT CONTROL OF ROBOTS / [pt] CONTROLE INTELIGENTE DE ROBOS (C.I.R)JACK ALBERTO SILBERMAN 02 July 2012 (has links)
[pt] Esta dissertação propõe um exemplo prático de desenvolvimento e integração de um sistema robotizado que dispensa um operador com conhecimentos mais profundos em robótica. A interface com o usuário é amigável, tanto quanto possível. O objetivo ao final do trabalho é ter um sistema que seja capaz de manipular peças mecânicas com um simples comando dado, pela voz do operador do sistema.
Para tanto, realiza-se uma integração de diversos sistemas independentes que, colocados para trabalhar em conjunto, irão proporcionar um certo grau de Inteligência ao sistema como um todo. O trabalho utiliza: um sistema de reconhecimento de voz, para permitir que a voz do operador interaja com o controle central; um sistema de reconhecimento de imagens, para possibilitar a identificação de objetos; e um robô, para manipular pequenas peças. / [en] This dissertation discusses a practical example development and integration of a robotics system that does not require an expert operator. The interface is as much as possible user friendly.
For that purpose, it will be shown how the integration of diverse independent systems, working together, make possible to the whole system to acquire some degree of intelligence. Techniques of voice recognition were used to give the system the ability of recognize voice commands. The system was completed using a computer vision system and a servo robot.
|
22 |
Acionamento a distância de circuitos eletropneumáticos por reconhecimento de voz / Remote triggering of electro-pneumatic circuits by voice recognitionVaslei Gil Balmant 19 March 2011 (has links)
Este trabalho tem como objetivo apresentar os passos iniciais para adequação entre a tecnologia de reconhecimento de voz e uma tecnologia de automatização de processos, mais especificamente, a eletropneumática, de forma que o comando do sistema possa ser realizado através de uma comunicação (voz) à distância. A implementação do sistema de reconhecimento de voz foi feita em um circuito elétrico de controle, para que válvulas eletropneumáticas possam ser acionadas à distância, visando oferecer uma nova opção de comando aos sistemas de automatização no setor industrial. Basicamente, os sinais dos comandos treinados pelo módulo de reconhecimento de voz são enviados a um visualizador digital, onde são interceptados por um circuito eletrônico, denominado, transmissor. O sinal interceptado em paralelo é convertido em serial, onde é enviado por rádio freqüência a outro circuito eletrônico, denominado, receptor. O sinal serial recebido pelo receptor é novamente convertido em paralelo. Esses sinais (comandos) digitais irão substituir os comandos musculares convencionais do circuito eletropneumático. Como o circuito elétrico de controle e o módulo de reconhecimento de voz possuem características funcionais específicas, há necessidade de realizar adequações no circuito eletropneumático tradicional, afim de garantir que a sequência de operações dos elementos de trabalhos sejam realizadas corretamente. Tais adequações consistem basicamente em garantir que apenas os comandos pré-determinados executem ações específicas, e que palavras não reconhecidas pelo módulo, ou códigos de erros, não interfiram no projeto. Para a avaliação do sistema foram realizados testes numa bancada de simulação para circuitos eletropneumáticos, utilizando-se um módulo de reconhecimento de voz para a emissão dos comandos. Os resultados obtidos após a validação do projeto foram plenamente satisfatórios. / This work aims to present the initial steps to adequacy between voice recognition technology and process automation technology, more specifically, the electro-pneumatic, so that the control of the system can be achieved through a remote kind of communication (voice). The implementation of the recognition of voice system was made in a control electrical circuit, so that the electro-pneumatic valves can be moved at a distance, aiming to provide a new option to the automation systems in the industrial sector. Basically, the signs of controls trained by voice recognition module are sent to a digital display, in which an electronic circuit called transmitter intercepts them. The signal intercepted in parallel is converted into serial, where it is sent by radio frequency to another circuit mail, called receiver. The serial signal received by the receiver is again converted into parallel. These signals (controls) will replace the conventional muscle controls circuit of the electro-pneumatic circuit. As the electrical control circuit and the voice recognition module have specific functional characteristics, there is a need to carry out adaptations in the electro-pneumatic traditional circuit, in order to ensure that the operation sequence of the elements of work be carried out correctly. Such adaptations consist basically in ensuring that only the pre-determined controls implement specific actions, but also words not recognized by module, or codes of errors, so that they do not interfere in the project. Tests were performed in a simulative workbench for electro-pneumatic circuits, using a voice recognition module for the control emission as the assessment of the system. The results obtained after validation of the project were fully satisfactory.
|
23 |
[en] CONTINUOUS SPEECH RECOGNITION FOR THE PORTUGUESE USING HIDDEN MARKOV MODELS / [pt] RECONHECIMENTO DE VOZ CONTÍNUA PARA O PORTUGUÊS UTILIZANDO MODELOS DE MARKOV ESCONDIDOSSIDNEY CERQUEIRA BISPO DOS SANTOS 24 May 2006 (has links)
[pt] Esta tese apresenta contribuições par a melhoria de
sistemas de reconhecimento de voz contínua, utilizando
Modelos de Markov Escondidos. A maioria dessas
contribuições são específicas para aplicações que envolvem
a língua portuguesa. Inicialmente, são propostos dois
inventários reduzidos de unidades fonéticas a partir de
características do português brasileiro. São analisadas
algumas formas de inicialização e propõe-se um método
rápido e eficaz de inicialização dos modelos dessas
unidades. Escolhe-se um método de segmentação, a forma de
concatenação dos modelos para a formação de modelos de
palavras e sentenças e propõe-se um algoritmo eficiente
para o treinamento. Resultado de simulações mostram que o
desempenho dos dois inventários são comparáveis, qundo
utilizados com gramática bigrama. O número de unidades
desses inventários é bastante reduzido quando comparado ao
inventário das unidades dependentes do contexto mais
utilizadas tais como dofones e trifones, entre outras.
Como o desempenho de recinhecimento de voz contínua
dependem fortemente dos atributos de voz utilizados.
examina-se diversos conjuntos de atributos e seu
comportamento relativo em reconhecedores baseados na
língua portuguesa, no modo independente do locutor. O
conjunto de coeficiente PLP com suas primeiras e segundas
derivadas apresentam o melhor desempenho. Em seguida é
proposto um sistema de reconhecimento de pedidos de
ligações telefônicas automáticas que utiliza conhecimentos
sintáticos da língua portuguesa e conhecimento dependentes
da tarefa. Esse sistema permite a decodificação nõa só de
dígitos mas também de números naturais o que o torna
bastante amigável ao usuário, permitindo ampla liberdade
aos locutores na forma de pedir uma ligação telefônica.Com
base em máquinas de estados finitos propostas para a
implementação do reconhecimento, ão analisados dois
algoritmos de decodificação, o Level Building e o One
Pass, e propõe-se um novo algoritm, a partir de
modificações no One Pass, mais eficiente na utilização das
fontes de conhecimento sitática e dependente da tarefa. O
sitems de RVC, em português, também é analisado utilizando-
se as sílabas como unidade fonéticas. Testes são
realizados no modo dependente e independente do locutor.
Conclui-se sobre a viabilidade do seu emprego em
reconhecimento de voz contínua baseados na língua
portuguesa, em contraste com seu desempenho insatisfatório
para a língua inglesa. Finalmente, é analisada a
influência das palavras-função (word-functions), no
desempenho de reconhecedores para o português. Embora para
a língua inglesa, as palavras-unção tenham um papel de
fundamental importância no desempenho do sistema de
reconhecimento, conclui-se que isso não é verdade para a
língua portuguesa. / [en] This work presents several contributions for the
improvement of CDHMM-based Continuous Speech Recognition
(CSR) Systems. Most of these contributions are specific
for Portuguese language.
Two reduced sets of phonetic units, based on the
characteristics of the Portuguese language, are proposed.
Several initialization procedures are analized and an
efficient and fast method of model initialization is
proposed. Methods are described for segmentation of
sentences and for concatenation of unit to form word and
sentence models. An efficient training algorithm for the
reduced sets of units is then proposed. Simulation results
show that the performance of the two sets are comparable
when bigrams are used. The number of units of these sets
are significantly reduced when compared to diphones and
triphones, which are widely used sets of context-dependent
units.
The performance of Continuous Speech Recognizers is
strongly dependent on the speech features. For this
reason, a comparative performance of several sets of
features for the Portuguese language is carried out. The
PLP coefficients with their first and second derivatives
yielded the best results.
A Continuous Speech Recognition System that uses syntactic
knowledge of the Portuguese language is proposed. This
system makes use of task dependent knowledges for
automatic dial-up telephone calls. The recognition system
can allows parsing of digits as well as natural numbers.
This is a user friendly feature feature that permits, for
the caller, a large degree of freedom in placing a call.
Based on the finite state machine proposed for the
implementation of the speech recognizer described in this
thesis, two parsing algorithms are analized - the Level
Building and the One pass. Then, a new algorithm is
proposed, which is more efficient than the other two
techniques. The proposed scheme is more suitable for the
use of synthatic and task-dependent knowledge sources.
The contribution of this thesis is concerned with the use
of the syllables as phonetic units in Portuguese-based CSR
systems. Dependent and Independent speaker tasks are
examined. It is shown that syllables provide good results
when used as phonetic units in Portuguese-based CSR
systemsm, in contrast with their poor performance in
English-based recognition schemes.
Finally, the influence of word-functions is analized in
Portuguese-based speech recognition systems. Although word-
functions play a critical role in the English-basec CSR,
it was found that this is not true for the Portuguese
language.
|
24 |
[en] DISTRIBUTED RECOGNITION FOR CONTINUOUS SPEECH IN LARGE VOCABULARY BRAZILIAN PORTUGUESE / [pt] RECONHECIMENTO DISTRIBUÍDO DE VOZ CONTÍNUA COM AMPLO VOCABULÁRIO PARA O PORTUGUÊS BRASILEIROVLADIMIR FABREGAS SURIGUE DE ALENCAR 05 October 2009 (has links)
[pt] Esta Tese visa explorar as oportunidades de melhoria do desempenho dos Sistemas
Automáticos de Reconhecimento de voz com amplo vocabulário para o Português Brasileiro
quando aplicados em um cenário distribuído (Reconhecimento de Voz Distribuído). Com esta
finalidade, foi construída uma base de vozes para reconhecimento de voz contínua para o
Português Brasileiro com 100 locutores, cada um falando 1000 frases foneticamente balanceadas.
A gravação foi realizada em estúdio, ambiente sem ruído, com uma especificação de gravação que
pudesse abranger a entrada dos diversos codificadores de voz utilizados em Telefonia Móvel
Celular e IP, em particular os codecs ITU-T G.723.1, AMR-NB e AMR-WB. Para um bom
funcionamento dos Sistemas Automáticos de Reconhecimento de voz é necessário que os atributos
de reconhecimento sejam obtidos a uma taxa elevada, porém os codificadores de Voz para
Telefonia IP e Móvel Celular normalmente geram seus parâmetros a taxas mais baixas, o que
degrada o desempenho do reconhecedor. Usualmente é utilizada a interpolação linear no domínio
das LSFs (Line Spectral Frequencies) para resolver este problema. Nesta Tese foi proposta a
realização da interpolação com a utilização de um Filtro Digital Interpolador que demonstrou ter
um desempenho de reconhecimento muito superior ao da interpolação linear. Foi avaliado também
o uso das ISFs (Immittance Spectral Frequencies) interpoladas como atributo de reconhecimento,
as quais se mostraram inadequadas para esta finalidade, assim como as LSFs. Outro aspecto de
fundamental importância para os reconhecedores de voz distribuídos é a recuperação de perda de
pacotes, que tem impacto direto no desempenho de reconhecimento. Normalmente os
codificadores inserem zeros nos pacotes perdidos ou interpolam linearmente os pacotes recebidos
visando restaurar estes pacotes. Foi proposta nesta tese uma nova técnica baseada em Redes
Neurais que se mostrou mais eficiente na restauração destes pacotes com a finalidade da realização
do reconhecimento. / [en] This Thesis aims at exploring several approaches for performance improvement of the
Automatic Speech Recognition System with large vocabulary for the Brazilian Portuguese when
applied in a distributed scenario (Distributed Speech Recognition). With this purpose, a speech
database for continuous speech recognition for the Brazilian Portuguese with 100 speakers was
constructed, each one uttering 1000 phonetic balanced sentences. The recording was carried out in
a studio (environment without noise) with a specification of recording that would be able to allow
the input of several speech codecs in Cellular Mobile Telephony and IP Networks, in particular the
ITU-T G.723.1, AMR-NB and AMR-WB. In order to work properly, Automatic Speech
Recognition Systems require that the recognition features be extracted at a high rate. However, the
Speech codecs for Cellular Mobile Telephony and IP Networks normally generate its parameters at
lower rates, which degrades the performance of the recognition system. Usually the linear
interpolation in the LSF (Line Spectral Frequencies) domain is used to solve this problem. In this
Thesis the accomplishment of the interpolation with the use of a Digital Filter Interpolator was
proposed and demonstrated to have a higher performance than the linear interpolation in
recognition systems. The use of the interpolated ISFs (Immittance Spectral Frequencies) was also
evaluated as recognition feature, which had shown to be inadequate for this purpose, as well as the
LSFs. Another very important aspect for the distributed speech recognizers is the recovery of lost
packets, that has direct impact in the recognition performance. Normally the coders insert zeros in
the lost packets or interpolate linearly the received packets aiming to restore them. A new
technique based on Neural Networks was proposed in this thesis that showed to be more efficient
in the restoration of these lost packets with the purpose of speech recognition.
|
25 |
Um framework para desenvolvimento de interfaces multimodais em aplicações de computação ubíqua / A framework for multimodal interfaces development in ubiquitous computing applicationsInacio Junior, Valter dos Reis 26 April 2007 (has links)
Interfaces multimodais processam vários tipos de entrada do usuário, tais como voz, gestos e interação com caneta, de uma maneira combinada e coordenada com a saída multimídia do sistema. Aplicações que suportam a multimodalidade provêem um modo mais natural e flexível para a execução de tarefas em computadores, uma vez que permitem que usuários com diferentes níveis de habilidades escolham o modo de interação que melhor se adequa às suas necessidades. O uso de interfaces que fogem do estilo convencional de interação baseado em teclado e mouse vai de encontro ao conceito de computação ubíqua, que tem se estabelecido como uma área de pesquisa que estuda os aspectos tecnológicos e sociais decorrentes da integração de sistemas e dispositivos computacionais à ambientes. Nesse contexto, o trabalho aqui reportado visou investigar a implementação de interfaces multimodais em aplicações de computação ubíqua, por meio da construção de um framework de software para integração de modalidades de escrita e voz / Multimodal interfaces process several types of user inputs, such as voice, gestures and pen interaction, in a combined and coordinated manner with the system?s multimedia output. Applications which support multimodality provide a more natural and flexible way for executing tasks with computers, since they allow users with different levels of abilities to choose the mode of interaction that best fits their needs. The use of interfaces that run away from the conventional style of interaction, based in keyboard and mouse, comes together with the concept of ubiquitous computing, which has been established as a research area that studies the social and technological aspects decurrent from the integration os systems and devices into the environments. In this context, the work reported here aimed to investigate the implementation of multimodal interfaces in ubiquitous computing applications, by means of the building of a software framework used for integrating handwriting and speech modalities
|
26 |
M?quinas de tradu??o aplicada ? comunica??o em tempo real para desenvolvimento distribu?do de softwareDuarte, Tiago da Silveira 18 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:17Z (GMT). No. of bitstreams: 1
463519.pdf: 1845086 bytes, checksum: dea8d1ebf4d1c816a35b958ede396328 (MD5)
Previous issue date: 2014-03-18 / The globalization allows companies to seek partnership for global project development in other countries. The domain of spoken English is considered one of the main reasons for the success of countries such as Ireland and India in global software development. However, A.T Kearney consultancy estimates that Brazil has only 5,4% of population fluent in English, and this is an important challenge that makes difficult the growth of geographically distributed software development in the country. In order to reduce the barriers posed by language differences, studies have been conducted to assess how machine translation can be used in the context of global software development in order to minimize or overcome such barriers. The goal of this research was in this context and aimed to study how speech translation can be used in global software development projects. In this research we first executed studies related to speech recognition and machine translation areas and identified available technologies for translation and speech recognition. After having identified these technologies, a simulation study was planned and executed in order to evaluate one of the identified technologies. The purpose of this study was to understand the feasibility of the available technology for speech recognition and translation for Brazilian Portuguese. The findings of the simulation indicate that Google technologies for speech recognition and translation for Brazilian Portuguese have adequate accuracy and could be used to create a complete machine translation in this language. / O aumento da globaliza??o possibilita que mais empresas busquem parcerias para execu??o de projetos em outros pa?ses. O dom?nio do idioma ingl?s, por exemplo, ? considerado um dos principais fatores para o sucesso de alguns pa?ses como Irlanda e ?ndia em desenvolvimento global de software. Entretanto, a consultoria A.T Kearney estima que o Brasil tem apenas 5,4% da popula??o fluente em ingl?s, e isto acaba se tornando um desafio para o desenvolvimento de software com equipes distribu?das geograficamente com integrantes que n?o dominam o mesmo idioma. Com o objetivo de reduzir as barreiras impostas pela diferen?a de idioma, estudos t?m sido conduzidos para avaliar de que forma m?quinas de tradu??o podem ser utilizadas em um contexto de Desenvolvimento Distribu?do de Software, a fim de minimizar ou transpor tais barreiras. O tema desta pesquisa est? inserido neste contexto e teve como objetivo estudar como m?quinas de tradu??o podem ser utilizadas em projetos de desenvolvimento distribu?do de software. Inicialmente foram realizados estudos na ?rea de reconhecimento de voz e m?quina de tradu??o, visando identificar tecnologias de tradu??o e reconhecimento de voz dispon?veis. As tecnologias foram estudadas e foi ent?o proposto um estudo de simula??o com uma destas tecnologias, para avaliar se ela poderia ser utilizada para compor um tradutor de voz para o idioma portugu?s brasileiro. Por fim, os resultados da simula??o levantaram ind?cios de que as tecnologias do Google para reconhecimento de voz no idioma portugu?s e para tradu??o do portugu?s para o ingl?s possuem n?veis adequados de precis?o e poderiam ser utilizadas no desenvolvimento de uma m?quina de tradu??o de voz para o idioma portugu?s.
|
27 |
Um framework para desenvolvimento de interfaces multimodais em aplicações de computação ubíqua / A framework for multimodal interfaces development in ubiquitous computing applicationsValter dos Reis Inacio Junior 26 April 2007 (has links)
Interfaces multimodais processam vários tipos de entrada do usuário, tais como voz, gestos e interação com caneta, de uma maneira combinada e coordenada com a saída multimídia do sistema. Aplicações que suportam a multimodalidade provêem um modo mais natural e flexível para a execução de tarefas em computadores, uma vez que permitem que usuários com diferentes níveis de habilidades escolham o modo de interação que melhor se adequa às suas necessidades. O uso de interfaces que fogem do estilo convencional de interação baseado em teclado e mouse vai de encontro ao conceito de computação ubíqua, que tem se estabelecido como uma área de pesquisa que estuda os aspectos tecnológicos e sociais decorrentes da integração de sistemas e dispositivos computacionais à ambientes. Nesse contexto, o trabalho aqui reportado visou investigar a implementação de interfaces multimodais em aplicações de computação ubíqua, por meio da construção de um framework de software para integração de modalidades de escrita e voz / Multimodal interfaces process several types of user inputs, such as voice, gestures and pen interaction, in a combined and coordinated manner with the system?s multimedia output. Applications which support multimodality provide a more natural and flexible way for executing tasks with computers, since they allow users with different levels of abilities to choose the mode of interaction that best fits their needs. The use of interfaces that run away from the conventional style of interaction, based in keyboard and mouse, comes together with the concept of ubiquitous computing, which has been established as a research area that studies the social and technological aspects decurrent from the integration os systems and devices into the environments. In this context, the work reported here aimed to investigate the implementation of multimodal interfaces in ubiquitous computing applications, by means of the building of a software framework used for integrating handwriting and speech modalities
|
28 |
Reconhecimento de voz atrav?s de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hier?rquica de decis?oBresolin, Adriano de Andrade 02 December 2008 (has links)
Made available in DSpace on 2014-12-17T14:54:51Z (GMT). No. of bitstreams: 1
AdrianoAB.pdf: 2240966 bytes, checksum: d9e93de6b9ef6f0023ed591b4d760ff9 (MD5)
Previous issue date: 2008-12-02 / The automatic speech recognition by machine has been the target of researchers in the past five decades. In this period have been numerous advances, such as in the field of recognition of isolated words (commands), which has very high rates of recognition, currently. However, we are still far from developing a system that could have a performance similar to the human being (automatic continuous speech recognition). One of the great challenges of searches for continuous speech recognition is the large amount of pattern. The modern languages such as English, French, Spanish and Portuguese
have approximately 500,000 words or patterns to be identified. The purpose of this study is to use smaller units than the word such as phonemes, syllables and difones units as the basis for the speech recognition, aiming to recognize any words without necessarily using them. The main goal is to reduce the restriction imposed by the excessive amount of patterns. In order to validate this proposal, the system was tested in the isolated word recognition in dependent-case. The phonemes characteristics of the Brazil s Portuguese language were used to developed the hierarchy decision system. These decisions are made through the use of neural networks SVM (Support Vector Machines). The main speech features used were obtained from the Wavelet Packet Transform. The descriptors MFCC (Mel-Frequency Cepstral Coefficient) are also used in this work. It was concluded that the method proposed in this work, showed good results in the
steps of recognition of vowels, consonants (syllables) and words when compared with other existing methods in literature / O reconhecimento autom?tico da voz por m?quinas inteligentes tem sido a meta de muitos pesquisadores nas ?ltimas cinco d?cadas. Neste per?odo, in?meros avan?os foram alcan?ados, como por exemplo no campo de reconhecimento de palavras isoladas (comandos), o qual atualmente apresenta taxas de reconhecimento muito altas. No entanto, ainda se est? longe de desenvolver um sistema que possa ter um desempenho parecido com o ser humano, ou seja, reconhecimento autom?tico de voz em modo cont?nuo. Um dos grandes desafios das pesquisas de reconhecimento de voz cont?nuo ? a grande quantidade de padr?es existentes, pois as linguagens modernas tais como: Ingl?s, Franc?s,
Espanhol e Portugu?s possuem aproximadamente 500.000 palavras ou padr?es a serem identificados.
A proposta deste trabalho ? utilizar unidades menores do que a palavra tais como: fonemas, difones e s?labas como unidades base para o reconhecimento da voz, visando o
reconhecimento quaisquer palavras sem necessariamente utiliz?-las. O objetivo principal deste trabalho ? reduzir a restri??o imposta pela quantidade excessiva de padr?es
existentes, ou seja, a quantidade excessiva de palavras. Com o objetivo de validar esta proposta, o sistema foi desenvolvido e testado para o reconhecimento de palavras isoladas no modo dependente do locutor.
O sistema apresentado neste trabalho foi desenvolvido com uma l?gica de reconhecimento hier?rquica baseada nas caracter?sticas de produ??o dos fonemas da l?ngua
Portuguesa do Brasil. Estas decis?es s?o feitas atrav?s da utiliza??o de redes neurais do tipo M?quinas de Vetor de Suporte agrupadas na forma de M?quinas de C?mite.
Os principais descritores do sinal de voz utilizados, foram obtidos atrav?s da Transformada Wavelet Packet. Os descritores MFCC (Mel-Frequency Cepstral Coefficient)
tamb?m s?o utilizados neste trabalho. Pode-se concluir que o m?todo proposto apresentou bons resultados nas etapas de reconhecimento de vogais, consoantes (s?labas) e palavras se comparado com outros m?todos existentes na literatura
|
29 |
MELHORAMENTO DO SINAL DE VOZ POR INIBIÇÃO LATERAL E MASCARAMENTO BINAURAL / IMPROVEMENT OF THE SIGNAL VOICE BY LATERAL INHIBITION AND BINAURAL MASKINGNascimento, Edil James de Jesus 02 April 2004 (has links)
Made available in DSpace on 2016-08-17T14:52:52Z (GMT). No. of bitstreams: 1
Edil James de Jesus Nascimento.PDF: 2709948 bytes, checksum: c8bf5634508e47328bd033c4d323f9c0 (MD5)
Previous issue date: 2004-04-02 / The human hearing system is capable to accomplish different tasks that would be
useful in engineering applications. One of them is the ability to separate sound sources,
allowing the listener to "focus" a single sound source in a noisy environment. Great
investments have been made in the development of technologies applied to the voice
recognition by machines in real environment. For that, different techniques of processing
computational have been proposed, for reduction of the ambient noise and improvement of
the signal desired in complex acoustic environment (cocktail party). The model of the human
hearing system motivates those techniques in their different phases.
In this work, we developed an algorithm to improve the processing speech signal
based on the binaural hearing model. After receiving the mixed signals, for two microphones,
the algorithm increases the intelligibility of the signal of larger energy of one of the receivers.
Using two speakers and considering that each one is closer of one of the microphones, we
made use of the concepts of lateral inhibition and binaural masking, to recover the signal of
speech of larger energy of one of the receivers.
The algorithm was developed in platform matlab and it was compared with another
without use the lateral inhibition in the recovery of the desired signal. The results, appraised
through the calculation of the relative error and of the scale MOS, showed that the use of the
lateral inhibition in the recovery of the signal, improves the relative error between the desired
signal and the recovered signal and consequently the quality of the recovered signal. / O sistema auditivo humano é capaz de realizar diferentes tarefas que seriam úteis em
aplicações de engenharia. Uma delas é a habilidade de separar fontes sonoras, permitindo a
um ouvinte focar uma única fonte sonora em um ambiente ruidoso. Grandes investimentos
têm sido feitos no desenvolvimento de tecnologias aplicadas ao reconhecimento de voz, por
meio de máquinas, em ambientes reais. Para isso, diferentes técnicas de processamento
computacional têm sido propostas para a redução do ruído ambiente e melhoramento do sinal
desejado em ambiente acústico complexo (cocktail party). Essas técnicas são motivadas pelo
modelo do sistema auditivo humano em suas diferentes fases.
Neste trabalho, desenvolvemos um algoritmo para melhorar o processamento de um
sinal de fala baseado no modelo auditivo binaural. Após receber os sinais misturados, por dois
microfones, o algoritmo aumenta a inteligibilidade do sinal de maior energia de um dos
receptores. Utilizando dois oradores e considerando que cada um está mais próximo de um
dos receptores, fizemos uso dos conceitos de inibição lateral e mascaramento binaural, para
recuperar o sinal de fala de maior energia de um dos receptores.
O algoritmo foi desenvolvido sob a plataforma matlab e comparado com um outro
sem a utilização da inibição lateral na recuperação do sinal desejado. Os resultados, avaliados
através do cálculo do erro relativo e da escala MOS, mostraram que a utilização da inibição
lateral na recuperação do sinal, melhora o erro relativo entre o sinal desejado e o sinal
recuperado e conseqüentemente a qualidade do sinal recuperado.
|
30 |
[en] EFFICIENT FEATURES AND INTERPOLATION DOMAINS IN DISTRIBUTED SPEECH RECOGNITION / [pt] ATRIBUTOS E DOMÍNIOS DE INTERPOLAÇÃO EFICIENTES EM RECONHECIMENTO DE VOZ DISTRIBUÍDOVLADIMIR FABREGAS SURIGUE DE ALENCAR 01 April 2005 (has links)
[pt] Com o crescimento gigantesco da Internet e dos sistemas
de comunicações
móveis celulares, as aplicações de processamento de voz
nessas redes têm
despertado grande interesse . Um problema particularmente
importante nessa área
consiste no reconhecimento de voz em um sistema servidor,
baseado nos
parâmetros acústicos calculados e quantizados no terminal
do usuário
(Reconhecimento de Voz Distribuído). Como em geral estes
parâmetros não são
os mais indicados como atributos de voz para o sistema de
reconhecimento
remoto, é importante que sejam examinadas diferentes
transformações dos
parâmetros, que permitam um melhor desempenho do
reconhecedor. Esta
dissertação trata da extração de atributos de
reconhecimento eficientes a partir dos
parâmetros dos codificadores utilizados em redes móveis
celulares e em redes IP.
Além disso, como a taxa dos parâmetros fornecidos ao
reconhecedor de voz é
normalmente superior àquela com a qual os codificadores
geram os parâmetros, é
importante analisar o efeito da interpolação dos
parâmetros sobre o desempenho
do sistema de reconhecimento, bem como o melhor domínio
sobre o qual esta
interpolação deve ser realizada. Estes são outros tópicos
apresentados nesta
dissertação. / [en] The huge growth of the Internet and cellular mobile
communication systems
has stimulated a great interest in the applications of
speech processing in these
networks. An important problem in this field consists in
speech recognition in a
server system, based on the acoustic parameters calculated
and quantized in the
user terminal (Distributed Speech Recognition). Since these
parameters are not the
most indicated ones for the remote recognition system, it
is important to examine
different transformations of these parameters, in order to
allow a better
performance of the recogniser. This dissertation is
concerned with the extraction
of efficient recognition features from the coder parameters
used in cellular mobile
networks and IP networks. In addition, as the rate that
parameters supplied for the
speech recogniser must be usually higher than that
generated by the codec, it is
important to analyze the effect of the interpolation of the
parameters over the
performance of the recognition system. Moreover, it is
paramount to establish the
best domain over which this interpolation must be carried
out. These are other
topics presented in this dissertation.
|
Page generated in 0.3593 seconds