Spelling suggestions: "subject:"cistema dde processamento dda fall"" "subject:"cistema dde processamento daa fall""
1 |
Classificação fonética utilizando Boosting e SVMTEIXEIRA JÚNIOR, Talisman Cláudio de Queiroz 17 February 2006 (has links)
Submitted by Irvana Coutinho (irvana@ufpa.br) on 2012-03-07T12:35:04Z
No. of bitstreams: 2
Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Irvana Coutinho(irvana@ufpa.br) on 2012-03-07T12:40:11Z (GMT) No. of bitstreams: 2
Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-03-07T12:40:11Z (GMT). No. of bitstreams: 2
Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2006 / Para compor um sistema de Reconhecimento Automático de Voz, pode ser utilizada uma tarefa chamada Classificação Fonética, onde a partir de uma amostra de voz decide-se qual fonema foi emitido por um interlocutor. Para facilitar a classificação e realçar as características mais marcantes dos fonemas, normalmente, as amostras de voz são pré- processadas através de um fronl-en'L Um fron:-end, geralmente, extrai um conjunto de parâmetros para cada amostra de voz. Após este processamento, estes parâmetros são insendos em um algoritmo classificador que (já devidamente treinado) procurará decidir qual o fonema emitido. Existe uma tendência de que quanto maior a quantidade de parâmetros utilizados no sistema, melhor será a taxa de acertos na classificação. A contrapartida para esta tendência é o maior custo computacional envolvido. A técnica de Seleção de Parâmetros tem como função mostrar quais os parâmetros mais relevantes (ou mais utilizados) em uma tarefa de classificação, possibilitando, assim, descobrir quais os parâmetros redundantes, que trazem pouca (ou nenhuma) contribuição à tarefa de classificação. A proposta deste trabalho é aplicar o classificador SVM à classificação fonética, utilizando a base de dados TIMIT, e descobrir os parâmetros mais relevantes na classificação, aplicando a técnica Boosting de Seleção de Parâmetros. / With the aim of setting up a Automatic Speech Recognition (ASR) system, a task named Phonetic Classification can be used. That task consists in, from a speech sample, deciding which phoneme was pronounced by a speaker. To ease the classification task and to enhance the most marked characteristics of the phonemes, the speech samples are usually pre-processed by a front-end. A front-end, as a general rule, extracts a set of features to each speech sample. After that, these features are inserted in a classification algorithm, that (already properly trained) will try to decide which phoneme was pronounced. There is a rule of thumb which says that the more features the system uses, the smaller the classification error rate will be. The disadvantage to that is the larger computational cost. Feature Selection task aims to show which are the most relevant (or more used) features in a classification task. Therefore, it is possible to discover which are the redundant features, that make little (or no) contribution to the classification task. The aim of this work is to apply SVM classificator in Phonetic Classification task, using TIMIT database, and discover the most relevant features in this classification using Boosting approach to implement Feature Selection. Read more
|
2 |
Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiroCOUTO, Igor Costa do 23 December 2010 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z
No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications.
Some modules of a TTS depend on the language and, while there are many public resources
for English, the resources for some underrepresented languages are still limited. This work
describes the development of a complete TTS system for Brazilian Portuguese (BP) which
expands the already available resources. The system uses the MARY framework and is based
on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions
of this work consist in implementing syllabification, determination of stressed syllable and
grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing
the developed resources and implementing a BP voice within the MARY. These resources are
made available and facilitate the research in text normalization and HMM-based synthesis for
BP. Read more
|
3 |
[en] MODIFIED INTERPOLATION OF LSFNULLS / [pt] INTERPOLAÇÃO MODIFICADA DE LSFNULLSCARLOS ROBERTO DA COSTA FERREIRA 25 October 2006 (has links)
[pt] Os novos serviços de telecomunicações têm impulsionado o
desenvolvimento de melhorias nos algoritmos de codificação
de voz, devido à
necessidade de se melhorar a qualidade da voz codificada,
utilizando a menor taxa
de transmissão possível. Esta dissertação analisa e
propõem melhorias em um
método para o ajuste de parâmetros LSFs de modo a torná-
los mais precisos,
minimizando as perdas no processo de interpolação de LSFs
codificadas. Com
isso, a percepção de qualidade da voz sintetizada na saída
do decodificador é
aumentada, sem que seja necessário aumento da taxa de
transmissão. É
apresentada de modo detalhado toda a dedução matemática do
método citado.
Para a avaliação de desempenho das melhorias propostas, o
processo de ajuste é
implementado em um codificador a taxas médias inferiores a
2 kb/s. Os resultados
confirmam que é possível obter redução significativa nas
medidas de distorção
com a utilização do ajuste de LSFs. / [en] The new telecommunications services have been pushing
forward the
development of improvements in speech coding, because of
the need to improve
coded speech quality, using the smallest transmission rate
possible. This
thesis analyzes and proposes improvements in a method to
adjust LSF parameters
so they get more accurate, minimizing the losses in the
coded LSFs interpolation
process. With this, the synthesized speech perceptual
quality
in the decoder exit is increased, without having to
increase the transmission rate.
The mathematical deduction of the method is presented in a
detailed way. To
evaluate the performance of the proposed improvements, the
adjust process is
implemented in a speech coder with mean rates less than 2
kb/s. The results
confirmed that is possible to obtain significant reduction
in distortion measures using the adjustment of LSFs. Read more
|
Page generated in 0.1346 seconds