• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 44
  • 1
  • Tagged with
  • 45
  • 45
  • 26
  • 22
  • 17
  • 17
  • 15
  • 14
  • 13
  • 12
  • 9
  • 9
  • 9
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

[en] INTELLIGENT CONTROL OF ROBOTS / [pt] CONTROLE INTELIGENTE DE ROBOS (C.I.R)

JACK ALBERTO SILBERMAN 02 July 2012 (has links)
[pt] Esta dissertação propõe um exemplo prático de desenvolvimento e integração de um sistema robotizado que dispensa um operador com conhecimentos mais profundos em robótica. A interface com o usuário é amigável, tanto quanto possível. O objetivo ao final do trabalho é ter um sistema que seja capaz de manipular peças mecânicas com um simples comando dado, pela voz do operador do sistema. Para tanto, realiza-se uma integração de diversos sistemas independentes que, colocados para trabalhar em conjunto, irão proporcionar um certo grau de Inteligência ao sistema como um todo. O trabalho utiliza: um sistema de reconhecimento de voz, para permitir que a voz do operador interaja com o controle central; um sistema de reconhecimento de imagens, para possibilitar a identificação de objetos; e um robô, para manipular pequenas peças. / [en] This dissertation discusses a practical example development and integration of a robotics system that does not require an expert operator. The interface is as much as possible user friendly. For that purpose, it will be shown how the integration of diverse independent systems, working together, make possible to the whole system to acquire some degree of intelligence. Techniques of voice recognition were used to give the system the ability of recognize voice commands. The system was completed using a computer vision system and a servo robot.
22

Acionamento a distância de circuitos eletropneumáticos por reconhecimento de voz / Remote triggering of electro-pneumatic circuits by voice recognition

Vaslei Gil Balmant 19 March 2011 (has links)
Este trabalho tem como objetivo apresentar os passos iniciais para adequação entre a tecnologia de reconhecimento de voz e uma tecnologia de automatização de processos, mais especificamente, a eletropneumática, de forma que o comando do sistema possa ser realizado através de uma comunicação (voz) à distância. A implementação do sistema de reconhecimento de voz foi feita em um circuito elétrico de controle, para que válvulas eletropneumáticas possam ser acionadas à distância, visando oferecer uma nova opção de comando aos sistemas de automatização no setor industrial. Basicamente, os sinais dos comandos treinados pelo módulo de reconhecimento de voz são enviados a um visualizador digital, onde são interceptados por um circuito eletrônico, denominado, transmissor. O sinal interceptado em paralelo é convertido em serial, onde é enviado por rádio freqüência a outro circuito eletrônico, denominado, receptor. O sinal serial recebido pelo receptor é novamente convertido em paralelo. Esses sinais (comandos) digitais irão substituir os comandos musculares convencionais do circuito eletropneumático. Como o circuito elétrico de controle e o módulo de reconhecimento de voz possuem características funcionais específicas, há necessidade de realizar adequações no circuito eletropneumático tradicional, afim de garantir que a sequência de operações dos elementos de trabalhos sejam realizadas corretamente. Tais adequações consistem basicamente em garantir que apenas os comandos pré-determinados executem ações específicas, e que palavras não reconhecidas pelo módulo, ou códigos de erros, não interfiram no projeto. Para a avaliação do sistema foram realizados testes numa bancada de simulação para circuitos eletropneumáticos, utilizando-se um módulo de reconhecimento de voz para a emissão dos comandos. Os resultados obtidos após a validação do projeto foram plenamente satisfatórios. / This work aims to present the initial steps to adequacy between voice recognition technology and process automation technology, more specifically, the electro-pneumatic, so that the control of the system can be achieved through a remote kind of communication (voice). The implementation of the recognition of voice system was made in a control electrical circuit, so that the electro-pneumatic valves can be moved at a distance, aiming to provide a new option to the automation systems in the industrial sector. Basically, the signs of controls trained by voice recognition module are sent to a digital display, in which an electronic circuit called transmitter intercepts them. The signal intercepted in parallel is converted into serial, where it is sent by radio frequency to another circuit mail, called receiver. The serial signal received by the receiver is again converted into parallel. These signals (controls) will replace the conventional muscle controls circuit of the electro-pneumatic circuit. As the electrical control circuit and the voice recognition module have specific functional characteristics, there is a need to carry out adaptations in the electro-pneumatic traditional circuit, in order to ensure that the operation sequence of the elements of work be carried out correctly. Such adaptations consist basically in ensuring that only the pre-determined controls implement specific actions, but also words not recognized by module, or codes of errors, so that they do not interfere in the project. Tests were performed in a simulative workbench for electro-pneumatic circuits, using a voice recognition module for the control emission as the assessment of the system. The results obtained after validation of the project were fully satisfactory.
23

[en] CONTINUOUS SPEECH RECOGNITION FOR THE PORTUGUESE USING HIDDEN MARKOV MODELS / [pt] RECONHECIMENTO DE VOZ CONTÍNUA PARA O PORTUGUÊS UTILIZANDO MODELOS DE MARKOV ESCONDIDOS

SIDNEY CERQUEIRA BISPO DOS SANTOS 24 May 2006 (has links)
[pt] Esta tese apresenta contribuições par a melhoria de sistemas de reconhecimento de voz contínua, utilizando Modelos de Markov Escondidos. A maioria dessas contribuições são específicas para aplicações que envolvem a língua portuguesa. Inicialmente, são propostos dois inventários reduzidos de unidades fonéticas a partir de características do português brasileiro. São analisadas algumas formas de inicialização e propõe-se um método rápido e eficaz de inicialização dos modelos dessas unidades. Escolhe-se um método de segmentação, a forma de concatenação dos modelos para a formação de modelos de palavras e sentenças e propõe-se um algoritmo eficiente para o treinamento. Resultado de simulações mostram que o desempenho dos dois inventários são comparáveis, qundo utilizados com gramática bigrama. O número de unidades desses inventários é bastante reduzido quando comparado ao inventário das unidades dependentes do contexto mais utilizadas tais como dofones e trifones, entre outras. Como o desempenho de recinhecimento de voz contínua dependem fortemente dos atributos de voz utilizados. examina-se diversos conjuntos de atributos e seu comportamento relativo em reconhecedores baseados na língua portuguesa, no modo independente do locutor. O conjunto de coeficiente PLP com suas primeiras e segundas derivadas apresentam o melhor desempenho. Em seguida é proposto um sistema de reconhecimento de pedidos de ligações telefônicas automáticas que utiliza conhecimentos sintáticos da língua portuguesa e conhecimento dependentes da tarefa. Esse sistema permite a decodificação nõa só de dígitos mas também de números naturais o que o torna bastante amigável ao usuário, permitindo ampla liberdade aos locutores na forma de pedir uma ligação telefônica.Com base em máquinas de estados finitos propostas para a implementação do reconhecimento, ão analisados dois algoritmos de decodificação, o Level Building e o One Pass, e propõe-se um novo algoritm, a partir de modificações no One Pass, mais eficiente na utilização das fontes de conhecimento sitática e dependente da tarefa. O sitems de RVC, em português, também é analisado utilizando- se as sílabas como unidade fonéticas. Testes são realizados no modo dependente e independente do locutor. Conclui-se sobre a viabilidade do seu emprego em reconhecimento de voz contínua baseados na língua portuguesa, em contraste com seu desempenho insatisfatório para a língua inglesa. Finalmente, é analisada a influência das palavras-função (word-functions), no desempenho de reconhecedores para o português. Embora para a língua inglesa, as palavras-unção tenham um papel de fundamental importância no desempenho do sistema de reconhecimento, conclui-se que isso não é verdade para a língua portuguesa. / [en] This work presents several contributions for the improvement of CDHMM-based Continuous Speech Recognition (CSR) Systems. Most of these contributions are specific for Portuguese language. Two reduced sets of phonetic units, based on the characteristics of the Portuguese language, are proposed. Several initialization procedures are analized and an efficient and fast method of model initialization is proposed. Methods are described for segmentation of sentences and for concatenation of unit to form word and sentence models. An efficient training algorithm for the reduced sets of units is then proposed. Simulation results show that the performance of the two sets are comparable when bigrams are used. The number of units of these sets are significantly reduced when compared to diphones and triphones, which are widely used sets of context-dependent units. The performance of Continuous Speech Recognizers is strongly dependent on the speech features. For this reason, a comparative performance of several sets of features for the Portuguese language is carried out. The PLP coefficients with their first and second derivatives yielded the best results. A Continuous Speech Recognition System that uses syntactic knowledge of the Portuguese language is proposed. This system makes use of task dependent knowledges for automatic dial-up telephone calls. The recognition system can allows parsing of digits as well as natural numbers. This is a user friendly feature feature that permits, for the caller, a large degree of freedom in placing a call. Based on the finite state machine proposed for the implementation of the speech recognizer described in this thesis, two parsing algorithms are analized - the Level Building and the One pass. Then, a new algorithm is proposed, which is more efficient than the other two techniques. The proposed scheme is more suitable for the use of synthatic and task-dependent knowledge sources. The contribution of this thesis is concerned with the use of the syllables as phonetic units in Portuguese-based CSR systems. Dependent and Independent speaker tasks are examined. It is shown that syllables provide good results when used as phonetic units in Portuguese-based CSR systemsm, in contrast with their poor performance in English-based recognition schemes. Finally, the influence of word-functions is analized in Portuguese-based speech recognition systems. Although word- functions play a critical role in the English-basec CSR, it was found that this is not true for the Portuguese language.
24

[en] DISTRIBUTED RECOGNITION FOR CONTINUOUS SPEECH IN LARGE VOCABULARY BRAZILIAN PORTUGUESE / [pt] RECONHECIMENTO DISTRIBUÍDO DE VOZ CONTÍNUA COM AMPLO VOCABULÁRIO PARA O PORTUGUÊS BRASILEIRO

VLADIMIR FABREGAS SURIGUE DE ALENCAR 05 October 2009 (has links)
[pt] Esta Tese visa explorar as oportunidades de melhoria do desempenho dos Sistemas Automáticos de Reconhecimento de voz com amplo vocabulário para o Português Brasileiro quando aplicados em um cenário distribuído (Reconhecimento de Voz Distribuído). Com esta finalidade, foi construída uma base de vozes para reconhecimento de voz contínua para o Português Brasileiro com 100 locutores, cada um falando 1000 frases foneticamente balanceadas. A gravação foi realizada em estúdio, ambiente sem ruído, com uma especificação de gravação que pudesse abranger a entrada dos diversos codificadores de voz utilizados em Telefonia Móvel Celular e IP, em particular os codecs ITU-T G.723.1, AMR-NB e AMR-WB. Para um bom funcionamento dos Sistemas Automáticos de Reconhecimento de voz é necessário que os atributos de reconhecimento sejam obtidos a uma taxa elevada, porém os codificadores de Voz para Telefonia IP e Móvel Celular normalmente geram seus parâmetros a taxas mais baixas, o que degrada o desempenho do reconhecedor. Usualmente é utilizada a interpolação linear no domínio das LSFs (Line Spectral Frequencies) para resolver este problema. Nesta Tese foi proposta a realização da interpolação com a utilização de um Filtro Digital Interpolador que demonstrou ter um desempenho de reconhecimento muito superior ao da interpolação linear. Foi avaliado também o uso das ISFs (Immittance Spectral Frequencies) interpoladas como atributo de reconhecimento, as quais se mostraram inadequadas para esta finalidade, assim como as LSFs. Outro aspecto de fundamental importância para os reconhecedores de voz distribuídos é a recuperação de perda de pacotes, que tem impacto direto no desempenho de reconhecimento. Normalmente os codificadores inserem zeros nos pacotes perdidos ou interpolam linearmente os pacotes recebidos visando restaurar estes pacotes. Foi proposta nesta tese uma nova técnica baseada em Redes Neurais que se mostrou mais eficiente na restauração destes pacotes com a finalidade da realização do reconhecimento. / [en] This Thesis aims at exploring several approaches for performance improvement of the Automatic Speech Recognition System with large vocabulary for the Brazilian Portuguese when applied in a distributed scenario (Distributed Speech Recognition). With this purpose, a speech database for continuous speech recognition for the Brazilian Portuguese with 100 speakers was constructed, each one uttering 1000 phonetic balanced sentences. The recording was carried out in a studio (environment without noise) with a specification of recording that would be able to allow the input of several speech codecs in Cellular Mobile Telephony and IP Networks, in particular the ITU-T G.723.1, AMR-NB and AMR-WB. In order to work properly, Automatic Speech Recognition Systems require that the recognition features be extracted at a high rate. However, the Speech codecs for Cellular Mobile Telephony and IP Networks normally generate its parameters at lower rates, which degrades the performance of the recognition system. Usually the linear interpolation in the LSF (Line Spectral Frequencies) domain is used to solve this problem. In this Thesis the accomplishment of the interpolation with the use of a Digital Filter Interpolator was proposed and demonstrated to have a higher performance than the linear interpolation in recognition systems. The use of the interpolated ISFs (Immittance Spectral Frequencies) was also evaluated as recognition feature, which had shown to be inadequate for this purpose, as well as the LSFs. Another very important aspect for the distributed speech recognizers is the recovery of lost packets, that has direct impact in the recognition performance. Normally the coders insert zeros in the lost packets or interpolate linearly the received packets aiming to restore them. A new technique based on Neural Networks was proposed in this thesis that showed to be more efficient in the restoration of these lost packets with the purpose of speech recognition.
25

Um framework para desenvolvimento de interfaces multimodais em aplicações de computação ubíqua / A framework for multimodal interfaces development in ubiquitous computing applications

Inacio Junior, Valter dos Reis 26 April 2007 (has links)
Interfaces multimodais processam vários tipos de entrada do usuário, tais como voz, gestos e interação com caneta, de uma maneira combinada e coordenada com a saída multimídia do sistema. Aplicações que suportam a multimodalidade provêem um modo mais natural e flexível para a execução de tarefas em computadores, uma vez que permitem que usuários com diferentes níveis de habilidades escolham o modo de interação que melhor se adequa às suas necessidades. O uso de interfaces que fogem do estilo convencional de interação baseado em teclado e mouse vai de encontro ao conceito de computação ubíqua, que tem se estabelecido como uma área de pesquisa que estuda os aspectos tecnológicos e sociais decorrentes da integração de sistemas e dispositivos computacionais à ambientes. Nesse contexto, o trabalho aqui reportado visou investigar a implementação de interfaces multimodais em aplicações de computação ubíqua, por meio da construção de um framework de software para integração de modalidades de escrita e voz / Multimodal interfaces process several types of user inputs, such as voice, gestures and pen interaction, in a combined and coordinated manner with the system?s multimedia output. Applications which support multimodality provide a more natural and flexible way for executing tasks with computers, since they allow users with different levels of abilities to choose the mode of interaction that best fits their needs. The use of interfaces that run away from the conventional style of interaction, based in keyboard and mouse, comes together with the concept of ubiquitous computing, which has been established as a research area that studies the social and technological aspects decurrent from the integration os systems and devices into the environments. In this context, the work reported here aimed to investigate the implementation of multimodal interfaces in ubiquitous computing applications, by means of the building of a software framework used for integrating handwriting and speech modalities
26

M?quinas de tradu??o aplicada ? comunica??o em tempo real para desenvolvimento distribu?do de software

Duarte, Tiago da Silveira 18 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:17Z (GMT). No. of bitstreams: 1 463519.pdf: 1845086 bytes, checksum: dea8d1ebf4d1c816a35b958ede396328 (MD5) Previous issue date: 2014-03-18 / The globalization allows companies to seek partnership for global project development in other countries. The domain of spoken English is considered one of the main reasons for the success of countries such as Ireland and India in global software development. However, A.T Kearney consultancy estimates that Brazil has only 5,4% of population fluent in English, and this is an important challenge that makes difficult the growth of geographically distributed software development in the country. In order to reduce the barriers posed by language differences, studies have been conducted to assess how machine translation can be used in the context of global software development in order to minimize or overcome such barriers. The goal of this research was in this context and aimed to study how speech translation can be used in global software development projects. In this research we first executed studies related to speech recognition and machine translation areas and identified available technologies for translation and speech recognition. After having identified these technologies, a simulation study was planned and executed in order to evaluate one of the identified technologies. The purpose of this study was to understand the feasibility of the available technology for speech recognition and translation for Brazilian Portuguese. The findings of the simulation indicate that Google technologies for speech recognition and translation for Brazilian Portuguese have adequate accuracy and could be used to create a complete machine translation in this language. / O aumento da globaliza??o possibilita que mais empresas busquem parcerias para execu??o de projetos em outros pa?ses. O dom?nio do idioma ingl?s, por exemplo, ? considerado um dos principais fatores para o sucesso de alguns pa?ses como Irlanda e ?ndia em desenvolvimento global de software. Entretanto, a consultoria A.T Kearney estima que o Brasil tem apenas 5,4% da popula??o fluente em ingl?s, e isto acaba se tornando um desafio para o desenvolvimento de software com equipes distribu?das geograficamente com integrantes que n?o dominam o mesmo idioma. Com o objetivo de reduzir as barreiras impostas pela diferen?a de idioma, estudos t?m sido conduzidos para avaliar de que forma m?quinas de tradu??o podem ser utilizadas em um contexto de Desenvolvimento Distribu?do de Software, a fim de minimizar ou transpor tais barreiras. O tema desta pesquisa est? inserido neste contexto e teve como objetivo estudar como m?quinas de tradu??o podem ser utilizadas em projetos de desenvolvimento distribu?do de software. Inicialmente foram realizados estudos na ?rea de reconhecimento de voz e m?quina de tradu??o, visando identificar tecnologias de tradu??o e reconhecimento de voz dispon?veis. As tecnologias foram estudadas e foi ent?o proposto um estudo de simula??o com uma destas tecnologias, para avaliar se ela poderia ser utilizada para compor um tradutor de voz para o idioma portugu?s brasileiro. Por fim, os resultados da simula??o levantaram ind?cios de que as tecnologias do Google para reconhecimento de voz no idioma portugu?s e para tradu??o do portugu?s para o ingl?s possuem n?veis adequados de precis?o e poderiam ser utilizadas no desenvolvimento de uma m?quina de tradu??o de voz para o idioma portugu?s.
27

Um framework para desenvolvimento de interfaces multimodais em aplicações de computação ubíqua / A framework for multimodal interfaces development in ubiquitous computing applications

Valter dos Reis Inacio Junior 26 April 2007 (has links)
Interfaces multimodais processam vários tipos de entrada do usuário, tais como voz, gestos e interação com caneta, de uma maneira combinada e coordenada com a saída multimídia do sistema. Aplicações que suportam a multimodalidade provêem um modo mais natural e flexível para a execução de tarefas em computadores, uma vez que permitem que usuários com diferentes níveis de habilidades escolham o modo de interação que melhor se adequa às suas necessidades. O uso de interfaces que fogem do estilo convencional de interação baseado em teclado e mouse vai de encontro ao conceito de computação ubíqua, que tem se estabelecido como uma área de pesquisa que estuda os aspectos tecnológicos e sociais decorrentes da integração de sistemas e dispositivos computacionais à ambientes. Nesse contexto, o trabalho aqui reportado visou investigar a implementação de interfaces multimodais em aplicações de computação ubíqua, por meio da construção de um framework de software para integração de modalidades de escrita e voz / Multimodal interfaces process several types of user inputs, such as voice, gestures and pen interaction, in a combined and coordinated manner with the system?s multimedia output. Applications which support multimodality provide a more natural and flexible way for executing tasks with computers, since they allow users with different levels of abilities to choose the mode of interaction that best fits their needs. The use of interfaces that run away from the conventional style of interaction, based in keyboard and mouse, comes together with the concept of ubiquitous computing, which has been established as a research area that studies the social and technological aspects decurrent from the integration os systems and devices into the environments. In this context, the work reported here aimed to investigate the implementation of multimodal interfaces in ubiquitous computing applications, by means of the building of a software framework used for integrating handwriting and speech modalities
28

Reconhecimento de voz atrav?s de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hier?rquica de decis?o

Bresolin, Adriano de Andrade 02 December 2008 (has links)
Made available in DSpace on 2014-12-17T14:54:51Z (GMT). No. of bitstreams: 1 AdrianoAB.pdf: 2240966 bytes, checksum: d9e93de6b9ef6f0023ed591b4d760ff9 (MD5) Previous issue date: 2008-12-02 / The automatic speech recognition by machine has been the target of researchers in the past five decades. In this period have been numerous advances, such as in the field of recognition of isolated words (commands), which has very high rates of recognition, currently. However, we are still far from developing a system that could have a performance similar to the human being (automatic continuous speech recognition). One of the great challenges of searches for continuous speech recognition is the large amount of pattern. The modern languages such as English, French, Spanish and Portuguese have approximately 500,000 words or patterns to be identified. The purpose of this study is to use smaller units than the word such as phonemes, syllables and difones units as the basis for the speech recognition, aiming to recognize any words without necessarily using them. The main goal is to reduce the restriction imposed by the excessive amount of patterns. In order to validate this proposal, the system was tested in the isolated word recognition in dependent-case. The phonemes characteristics of the Brazil s Portuguese language were used to developed the hierarchy decision system. These decisions are made through the use of neural networks SVM (Support Vector Machines). The main speech features used were obtained from the Wavelet Packet Transform. The descriptors MFCC (Mel-Frequency Cepstral Coefficient) are also used in this work. It was concluded that the method proposed in this work, showed good results in the steps of recognition of vowels, consonants (syllables) and words when compared with other existing methods in literature / O reconhecimento autom?tico da voz por m?quinas inteligentes tem sido a meta de muitos pesquisadores nas ?ltimas cinco d?cadas. Neste per?odo, in?meros avan?os foram alcan?ados, como por exemplo no campo de reconhecimento de palavras isoladas (comandos), o qual atualmente apresenta taxas de reconhecimento muito altas. No entanto, ainda se est? longe de desenvolver um sistema que possa ter um desempenho parecido com o ser humano, ou seja, reconhecimento autom?tico de voz em modo cont?nuo. Um dos grandes desafios das pesquisas de reconhecimento de voz cont?nuo ? a grande quantidade de padr?es existentes, pois as linguagens modernas tais como: Ingl?s, Franc?s, Espanhol e Portugu?s possuem aproximadamente 500.000 palavras ou padr?es a serem identificados. A proposta deste trabalho ? utilizar unidades menores do que a palavra tais como: fonemas, difones e s?labas como unidades base para o reconhecimento da voz, visando o reconhecimento quaisquer palavras sem necessariamente utiliz?-las. O objetivo principal deste trabalho ? reduzir a restri??o imposta pela quantidade excessiva de padr?es existentes, ou seja, a quantidade excessiva de palavras. Com o objetivo de validar esta proposta, o sistema foi desenvolvido e testado para o reconhecimento de palavras isoladas no modo dependente do locutor. O sistema apresentado neste trabalho foi desenvolvido com uma l?gica de reconhecimento hier?rquica baseada nas caracter?sticas de produ??o dos fonemas da l?ngua Portuguesa do Brasil. Estas decis?es s?o feitas atrav?s da utiliza??o de redes neurais do tipo M?quinas de Vetor de Suporte agrupadas na forma de M?quinas de C?mite. Os principais descritores do sinal de voz utilizados, foram obtidos atrav?s da Transformada Wavelet Packet. Os descritores MFCC (Mel-Frequency Cepstral Coefficient) tamb?m s?o utilizados neste trabalho. Pode-se concluir que o m?todo proposto apresentou bons resultados nas etapas de reconhecimento de vogais, consoantes (s?labas) e palavras se comparado com outros m?todos existentes na literatura
29

MELHORAMENTO DO SINAL DE VOZ POR INIBIÇÃO LATERAL E MASCARAMENTO BINAURAL / IMPROVEMENT OF THE SIGNAL VOICE BY LATERAL INHIBITION AND BINAURAL MASKING

Nascimento, Edil James de Jesus 02 April 2004 (has links)
Made available in DSpace on 2016-08-17T14:52:52Z (GMT). No. of bitstreams: 1 Edil James de Jesus Nascimento.PDF: 2709948 bytes, checksum: c8bf5634508e47328bd033c4d323f9c0 (MD5) Previous issue date: 2004-04-02 / The human hearing system is capable to accomplish different tasks that would be useful in engineering applications. One of them is the ability to separate sound sources, allowing the listener to "focus" a single sound source in a noisy environment. Great investments have been made in the development of technologies applied to the voice recognition by machines in real environment. For that, different techniques of processing computational have been proposed, for reduction of the ambient noise and improvement of the signal desired in complex acoustic environment (cocktail party). The model of the human hearing system motivates those techniques in their different phases. In this work, we developed an algorithm to improve the processing speech signal based on the binaural hearing model. After receiving the mixed signals, for two microphones, the algorithm increases the intelligibility of the signal of larger energy of one of the receivers. Using two speakers and considering that each one is closer of one of the microphones, we made use of the concepts of lateral inhibition and binaural masking, to recover the signal of speech of larger energy of one of the receivers. The algorithm was developed in platform matlab and it was compared with another without use the lateral inhibition in the recovery of the desired signal. The results, appraised through the calculation of the relative error and of the scale MOS, showed that the use of the lateral inhibition in the recovery of the signal, improves the relative error between the desired signal and the recovered signal and consequently the quality of the recovered signal. / O sistema auditivo humano é capaz de realizar diferentes tarefas que seriam úteis em aplicações de engenharia. Uma delas é a habilidade de separar fontes sonoras, permitindo a um ouvinte focar uma única fonte sonora em um ambiente ruidoso. Grandes investimentos têm sido feitos no desenvolvimento de tecnologias aplicadas ao reconhecimento de voz, por meio de máquinas, em ambientes reais. Para isso, diferentes técnicas de processamento computacional têm sido propostas para a redução do ruído ambiente e melhoramento do sinal desejado em ambiente acústico complexo (cocktail party). Essas técnicas são motivadas pelo modelo do sistema auditivo humano em suas diferentes fases. Neste trabalho, desenvolvemos um algoritmo para melhorar o processamento de um sinal de fala baseado no modelo auditivo binaural. Após receber os sinais misturados, por dois microfones, o algoritmo aumenta a inteligibilidade do sinal de maior energia de um dos receptores. Utilizando dois oradores e considerando que cada um está mais próximo de um dos receptores, fizemos uso dos conceitos de inibição lateral e mascaramento binaural, para recuperar o sinal de fala de maior energia de um dos receptores. O algoritmo foi desenvolvido sob a plataforma matlab e comparado com um outro sem a utilização da inibição lateral na recuperação do sinal desejado. Os resultados, avaliados através do cálculo do erro relativo e da escala MOS, mostraram que a utilização da inibição lateral na recuperação do sinal, melhora o erro relativo entre o sinal desejado e o sinal recuperado e conseqüentemente a qualidade do sinal recuperado.
30

[en] EFFICIENT FEATURES AND INTERPOLATION DOMAINS IN DISTRIBUTED SPEECH RECOGNITION / [pt] ATRIBUTOS E DOMÍNIOS DE INTERPOLAÇÃO EFICIENTES EM RECONHECIMENTO DE VOZ DISTRIBUÍDO

VLADIMIR FABREGAS SURIGUE DE ALENCAR 01 April 2005 (has links)
[pt] Com o crescimento gigantesco da Internet e dos sistemas de comunicações móveis celulares, as aplicações de processamento de voz nessas redes têm despertado grande interesse . Um problema particularmente importante nessa área consiste no reconhecimento de voz em um sistema servidor, baseado nos parâmetros acústicos calculados e quantizados no terminal do usuário (Reconhecimento de Voz Distribuído). Como em geral estes parâmetros não são os mais indicados como atributos de voz para o sistema de reconhecimento remoto, é importante que sejam examinadas diferentes transformações dos parâmetros, que permitam um melhor desempenho do reconhecedor. Esta dissertação trata da extração de atributos de reconhecimento eficientes a partir dos parâmetros dos codificadores utilizados em redes móveis celulares e em redes IP. Além disso, como a taxa dos parâmetros fornecidos ao reconhecedor de voz é normalmente superior àquela com a qual os codificadores geram os parâmetros, é importante analisar o efeito da interpolação dos parâmetros sobre o desempenho do sistema de reconhecimento, bem como o melhor domínio sobre o qual esta interpolação deve ser realizada. Estes são outros tópicos apresentados nesta dissertação. / [en] The huge growth of the Internet and cellular mobile communication systems has stimulated a great interest in the applications of speech processing in these networks. An important problem in this field consists in speech recognition in a server system, based on the acoustic parameters calculated and quantized in the user terminal (Distributed Speech Recognition). Since these parameters are not the most indicated ones for the remote recognition system, it is important to examine different transformations of these parameters, in order to allow a better performance of the recogniser. This dissertation is concerned with the extraction of efficient recognition features from the coder parameters used in cellular mobile networks and IP networks. In addition, as the rate that parameters supplied for the speech recogniser must be usually higher than that generated by the codec, it is important to analyze the effect of the interpolation of the parameters over the performance of the recognition system. Moreover, it is paramount to establish the best domain over which this interpolation must be carried out. These are other topics presented in this dissertation.

Page generated in 0.0662 seconds