• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 4
  • 4
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] DISTRIBUTED RECOGNITION FOR CONTINUOUS SPEECH IN LARGE VOCABULARY BRAZILIAN PORTUGUESE / [pt] RECONHECIMENTO DISTRIBUÍDO DE VOZ CONTÍNUA COM AMPLO VOCABULÁRIO PARA O PORTUGUÊS BRASILEIRO

VLADIMIR FABREGAS SURIGUE DE ALENCAR 05 October 2009 (has links)
[pt] Esta Tese visa explorar as oportunidades de melhoria do desempenho dos Sistemas Automáticos de Reconhecimento de voz com amplo vocabulário para o Português Brasileiro quando aplicados em um cenário distribuído (Reconhecimento de Voz Distribuído). Com esta finalidade, foi construída uma base de vozes para reconhecimento de voz contínua para o Português Brasileiro com 100 locutores, cada um falando 1000 frases foneticamente balanceadas. A gravação foi realizada em estúdio, ambiente sem ruído, com uma especificação de gravação que pudesse abranger a entrada dos diversos codificadores de voz utilizados em Telefonia Móvel Celular e IP, em particular os codecs ITU-T G.723.1, AMR-NB e AMR-WB. Para um bom funcionamento dos Sistemas Automáticos de Reconhecimento de voz é necessário que os atributos de reconhecimento sejam obtidos a uma taxa elevada, porém os codificadores de Voz para Telefonia IP e Móvel Celular normalmente geram seus parâmetros a taxas mais baixas, o que degrada o desempenho do reconhecedor. Usualmente é utilizada a interpolação linear no domínio das LSFs (Line Spectral Frequencies) para resolver este problema. Nesta Tese foi proposta a realização da interpolação com a utilização de um Filtro Digital Interpolador que demonstrou ter um desempenho de reconhecimento muito superior ao da interpolação linear. Foi avaliado também o uso das ISFs (Immittance Spectral Frequencies) interpoladas como atributo de reconhecimento, as quais se mostraram inadequadas para esta finalidade, assim como as LSFs. Outro aspecto de fundamental importância para os reconhecedores de voz distribuídos é a recuperação de perda de pacotes, que tem impacto direto no desempenho de reconhecimento. Normalmente os codificadores inserem zeros nos pacotes perdidos ou interpolam linearmente os pacotes recebidos visando restaurar estes pacotes. Foi proposta nesta tese uma nova técnica baseada em Redes Neurais que se mostrou mais eficiente na restauração destes pacotes com a finalidade da realização do reconhecimento. / [en] This Thesis aims at exploring several approaches for performance improvement of the Automatic Speech Recognition System with large vocabulary for the Brazilian Portuguese when applied in a distributed scenario (Distributed Speech Recognition). With this purpose, a speech database for continuous speech recognition for the Brazilian Portuguese with 100 speakers was constructed, each one uttering 1000 phonetic balanced sentences. The recording was carried out in a studio (environment without noise) with a specification of recording that would be able to allow the input of several speech codecs in Cellular Mobile Telephony and IP Networks, in particular the ITU-T G.723.1, AMR-NB and AMR-WB. In order to work properly, Automatic Speech Recognition Systems require that the recognition features be extracted at a high rate. However, the Speech codecs for Cellular Mobile Telephony and IP Networks normally generate its parameters at lower rates, which degrades the performance of the recognition system. Usually the linear interpolation in the LSF (Line Spectral Frequencies) domain is used to solve this problem. In this Thesis the accomplishment of the interpolation with the use of a Digital Filter Interpolator was proposed and demonstrated to have a higher performance than the linear interpolation in recognition systems. The use of the interpolated ISFs (Immittance Spectral Frequencies) was also evaluated as recognition feature, which had shown to be inadequate for this purpose, as well as the LSFs. Another very important aspect for the distributed speech recognizers is the recovery of lost packets, that has direct impact in the recognition performance. Normally the coders insert zeros in the lost packets or interpolate linearly the received packets aiming to restore them. A new technique based on Neural Networks was proposed in this thesis that showed to be more efficient in the restoration of these lost packets with the purpose of speech recognition.
2

[en] EFFICIENT FEATURES AND INTERPOLATION DOMAINS IN DISTRIBUTED SPEECH RECOGNITION / [pt] ATRIBUTOS E DOMÍNIOS DE INTERPOLAÇÃO EFICIENTES EM RECONHECIMENTO DE VOZ DISTRIBUÍDO

VLADIMIR FABREGAS SURIGUE DE ALENCAR 01 April 2005 (has links)
[pt] Com o crescimento gigantesco da Internet e dos sistemas de comunicações móveis celulares, as aplicações de processamento de voz nessas redes têm despertado grande interesse . Um problema particularmente importante nessa área consiste no reconhecimento de voz em um sistema servidor, baseado nos parâmetros acústicos calculados e quantizados no terminal do usuário (Reconhecimento de Voz Distribuído). Como em geral estes parâmetros não são os mais indicados como atributos de voz para o sistema de reconhecimento remoto, é importante que sejam examinadas diferentes transformações dos parâmetros, que permitam um melhor desempenho do reconhecedor. Esta dissertação trata da extração de atributos de reconhecimento eficientes a partir dos parâmetros dos codificadores utilizados em redes móveis celulares e em redes IP. Além disso, como a taxa dos parâmetros fornecidos ao reconhecedor de voz é normalmente superior àquela com a qual os codificadores geram os parâmetros, é importante analisar o efeito da interpolação dos parâmetros sobre o desempenho do sistema de reconhecimento, bem como o melhor domínio sobre o qual esta interpolação deve ser realizada. Estes são outros tópicos apresentados nesta dissertação. / [en] The huge growth of the Internet and cellular mobile communication systems has stimulated a great interest in the applications of speech processing in these networks. An important problem in this field consists in speech recognition in a server system, based on the acoustic parameters calculated and quantized in the user terminal (Distributed Speech Recognition). Since these parameters are not the most indicated ones for the remote recognition system, it is important to examine different transformations of these parameters, in order to allow a better performance of the recogniser. This dissertation is concerned with the extraction of efficient recognition features from the coder parameters used in cellular mobile networks and IP networks. In addition, as the rate that parameters supplied for the speech recogniser must be usually higher than that generated by the codec, it is important to analyze the effect of the interpolation of the parameters over the performance of the recognition system. Moreover, it is paramount to establish the best domain over which this interpolation must be carried out. These are other topics presented in this dissertation.
3

[en] LOW RATE CODECS OPERATING IN NOISY ENVIRONMENT AND IP NETWORKS / [pt] CODIFICADORES DE VOZ A BAIXAS TAXAS OPERANDO EM AMBIENTES RUIDOSOS E REDES IP

FRED BERKOWICZ BORGES 19 April 2005 (has links)
[pt] Este trabalho examina o impacto da quantização vetorial das LSFs sobre a qualidade de voz em codecs a baixas taxas operando em redes IP e em diversos ambientes ruidosos. São considerados diferentes esquemas de quantização vetorial (QV) multiestágio com busca em árvore envolvendo QV sem memória e QV preditiva chaveada com 2 e 4 classes. A distribuição de perda de quadros em redes IP foi modelada de acordo com o Modelo de Gilbert e a avaliação de desempenho foi realizada tanto em termos das distorções espectrais como da qualidade de voz resultante de codecs a baixas taxas. Ainda neste trabalho, foi avaliada a qualidade da voz codificada após a utilização de uma técnica de supressão de ruído baseada em transformadas wavelets (Wavelet Denoising). / [en] This work investigates the impact of LSF vector quantisation over the voice quality in low rate codecs operating in IP networks. Tree-structured multistage vector quantisation (VQ) schemes involving memoryless VQ and switched-predictive VQ with 2 and 4 classes are considered. The packet loss frame distribution in IP networks was modelled according to the Gilbert Model and the performance was carried out both in terms of spectral distortions and the speech quality at the out put of low rate codecs. In this work, we also evaluated the quality of the coded speech after employing Wavelet Denoising.
4

[en] PERFORMANCE EVALUATION OF THE TRAFFIC CONTROL MECHANISM IN DIFFERENTIATED SERVICE NETWORK / [pt] AVALIAÇÃO DE DESEMPENHO DE MECANISMOS DE CONTROLE DE TRÁFEGO EM REDES COM SERVIÇOS DIFERENCIADOS

FELIPE RODRIGUES MATHIAS 31 July 2002 (has links)
[pt] Este trabalho faz um estudo da arquitetura Diffserv para oferecimento de QoS na internet.São revistos conceitos básicos e descritos os principais mecanismos de controle de tráfego.Utilizando o software NS2, avalia-se o desempenho desses algoritmos de controles de tráfego.Para um cenário específico foram estudados: disciplinas de serviço, mecanismos de gerenciamento de buffers, para diferentes fontes de tráfego, procurando-se obter medidas de desempenho que possam ser úteis em projetos de rede com qualidade de serviço. / [en] This work presents a Diffserv architecture study to provide QoS in the Internet. A review of some basic concepts of the main traffic control algorithm and a performance evaluation, through the NS simulation program, is done. In order to get important performance measurement of the QoS network, it was done, for a specific scenario, a study of the queue discipline, queue activity management, with different traffic source.

Page generated in 0.1885 seconds