• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Um software de reconhecimento de voz para português brasileiro

SILVA, Carlos Patrick Alves da 17 June 2010 (has links)
Submitted by Irvana Coutinho (irvana@ufpa.br) on 2011-03-30T16:52:26Z No. of bitstreams: 2 SILVA, Carlos Patrick PPGEngenharia Física.pdf: 982046 bytes, checksum: 68542ba7f1da016c6efc9c8d70c80030 (MD5) license_rdf: 22876 bytes, checksum: 0a4e855daae7a181424315bc63e71991 (MD5) / Made available in DSpace on 2011-03-30T16:52:26Z (GMT). No. of bitstreams: 2 SILVA, Carlos Patrick PPGEngenharia Física.pdf: 982046 bytes, checksum: 68542ba7f1da016c6efc9c8d70c80030 (MD5) license_rdf: 22876 bytes, checksum: 0a4e855daae7a181424315bc63e71991 (MD5) Previous issue date: 2010 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This work describes a speech recognition software for Brazilian Portuguese. The main objective is to build a system for large vocabulary continuous speech recognition, able to be used in real-time applications. The concepts, characteristics and all steps needed for the construction of such systems are presented. Several resources were produced and made available: acoustic and language models, new voice and text corpora. The text corpus has been built through the extraction and automatic formatting of text from newspapers on the Internet. In addition, two voice corpora were produced, one based on audiobooks and another specifically developed to simulate real-time tests. This work also proposes the use of speaker adaptation techniques for solving the acoustic mismatch problem between speech corpora. Finally, an application programming interface is presented in order to facilitate using the open-source Julius speech decoder. Performance tests are also presented, comparing the developed system with a commercial software. / Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
2

Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiro

COUTO, Igor Costa do 23 December 2010 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications. Some modules of a TTS depend on the language and, while there are many public resources for English, the resources for some underrepresented languages are still limited. This work describes the development of a complete TTS system for Brazilian Portuguese (BP) which expands the already available resources. The system uses the MARY framework and is based on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions of this work consist in implementing syllabification, determination of stressed syllable and grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing the developed resources and implementing a BP voice within the MARY. These resources are made available and facilitate the research in text normalization and HMM-based synthesis for BP.
3

Redução de ruído para sistemas de reconhecimento de voz utilizando subespaços vetoriais. / Noise reduction for speech recognition systems using vector subspaces.

SANTOS JÚNIOR, Gutemberg Gonçalves dos. 20 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-20T20:10:09Z No. of bitstreams: 1 GUTEMBERG GONÇALVES DOS SANTOS JÚNIOR - DISSERTAÇÃO PPGEE 2009..pdf: 2756190 bytes, checksum: 5812d37f7ad4c18eb26e9672d4890812 (MD5) / Made available in DSpace on 2018-08-20T20:10:09Z (GMT). No. of bitstreams: 1 GUTEMBERG GONÇALVES DOS SANTOS JÚNIOR - DISSERTAÇÃO PPGEE 2009..pdf: 2756190 bytes, checksum: 5812d37f7ad4c18eb26e9672d4890812 (MD5) Previous issue date: 2009-05-08 / O estabelecimento de uma interface de comunicação através da voz entre seres humanos e computadores vem sendo perseguido desde o início da era da computação. Nesta direção, diversos avanços foram realizados nas últimas seis décadas, permitindo o uso comercial de aplicações com reconhecimento de voz nos dias atuais. Entretanto, fatores como ruídos, reverberações, distorções entre outros, comprometem o desempenho desses sistemas ao reduzir a taxa de acerto quando submetidos a ambientes adversos. Assim, o estudo de técnicas que diminuam os efeitos desses problemas é de grande valia e vem ganhando destaque nas últimas décadas. O trabalho apresentado nesta dissertação tem como objetivo a redução dos problemas referentes aos ruídos característicos de ambientes automotivos, tornando os sistemas de reconhecimento de voz utilizados nesses ambientes mais robustos. Dessa forma, o controle de funcionalidades não-críticas de um automóvel, ou seja, funcionalidades que não coloquem em risco a vida do usuário como tocadores de música e ar condicionado, pode ser realizado através de comandos de voz. O sistema proposto é baseado numa etapa de pré-processamento do sinal de voz através do método de subespaços vetoriais. O desempenho deste método está diretamente relacionado com as dimensões (linhas× colunas) das matrizes representativas do sinal de entrada. Levando isso em consideração, a decomposição ULLV, apesar de se tratar de uma aproximação do método de subespaços vetoriais, foi utilizada por oferecer uma menor complexidade computacional quando comparada a métodos tradicionais baseados na decomposição SVD. O sistema de reconhecimento de voz Julius foi o escolhido para o estudo de caso por se tratar de um sistema desenvolvido em código livre que oferece um alto desempenho. Um banco de dados de voz com 44800 amostras foi gerado com o modelo de um ambiente automotivo. Por fim, a robustez do sistema foi avaliada e comparada com um método tradicional de redução de ruído chamado subtração espectral. / The establishment of a speech-based communication interface between humans and computers has been pursued since the beginning of the computer era. Several studies have been made over the last six decades in order to accomplish this interface, making possible commercial use of speech recognition applications. However, factors such as noise, reverberation, distortion among others degrades the performance of these systems. Thus, reducing their success rate when operating in adverse environments. With this in mind, the study of techniques to reduce the impact of these problems is of a great value and has gained prominence in recent decades. The work presented in this dissertation aims to reduce problems related to noise encountered in an automotive environment, improving the speech recognition system robustness. Thus,controlofnon-critical features of a car, such as CD player and air conditioning, can be performed through voice commands. The proposed system is based on a speech signal preprocessing step using the signal subspace method. Its performance is related to the size (lines× columns) of the matrices that represents the input signal. Therefore, the ULLV decomposition was used because it offers a lower computational complexity compared to traditional methods based on SVD decomposition. The speech recognizer Julius is an open source software that offers high performance and was the chosen one for the case study. A noisy speech database with 44800 samples was generated to model the automotive environment. Finally, the robustness of the system was evaluated and compared with a traditional method of noise reduction called spectral subtraction.

Page generated in 0.2409 seconds