• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 44
  • 1
  • Tagged with
  • 45
  • 45
  • 26
  • 22
  • 17
  • 17
  • 15
  • 14
  • 13
  • 12
  • 9
  • 9
  • 9
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Extensões multimodal e multiusuário de interface gráfica e interface de voz baseadas em tecnologias de fala e modelos de interação.

Elizabete Munzlinger 31 March 2009 (has links)
A extensão de uma interface Monomodal para Multimodal de um sistema deve ocorrer de modo que o mesmo continue apresentando um funcionamento satisfatório no processo de interação. Esta migração pode ser impulsionada quando um sistema necessita oferecer um canal alternativo de interação, como nas situações em que o usuário não pode usufruir dos movimentos dos membros superiores ou da visão, ou ainda quando não se dispõe de espaço para uma interface gráfica. Oferecer interface com uso da fala como meio de interação nesses casos, pode permitir o acesso a informações e serviços que afetam significativamente o cotidiano das pessoas. O propósito da pesquisa é identificar um modo reutilizável de estender sistemas novos ou pré-existentes com Interface Monomodal tornando-as Multimodais e Multiusuário, visando melhorar ou manter sua capacidade de interação e oferecendo maior usabilidade aos sistemas. Para tal, essa dissertação propõe um modelo de arquitetura de componentes baseado em Tecnologias de Fala e Modelos de Interação e de projeto de uma estrutura de gramática. Esses modelos foram aplicados na extensão de dois protótipos de sistema para testar sua reusabilidade. O modelo de arquitetura de componentes foi identificado e a estrutura de gramática foi concebida através do re-projeto do protótipo de sistema DomoVox: aplicativo pré-existente de automação residencial para controle dos dispositivos de um ambiente doméstico. Neste processo, sistema DomoVox teve sua Interface de Voz estendida para Interface Gráfica de modo a tornar-se Multimodal e somar capacidade Multiusuário baseada na tecnologia de voz de Reconhecimento Automático de Fala e nos modelos de interação 'Linguagens de Comandos' e 'Menus'. O modelo e a estrutura de gramática, foram então reutilizados na implementação do protótipo de sistema BrowserVox: navegador para visitação de sites na Internet. O sistema BrowserVox teve sua Interface Gráfica estendida para Interface de Voz de modo a tornar-se Multimodal e Multiusuário, baseada nas tecnologias de fala de Reconhecimento Automático de Fala e Síntese de Texto e nos modelos de interação 'Linguagens de Comandos' e 'Hipertexto'. Ao final, foram realizados testes de acurácia para o sistema DomoVox com reconhecimento de alguns conjuntos de comandos, e avaliação de usabilidade para o sistema BrowserVox. O modelo de extensão gerado durante o trabalho mostrou-se aplicável e reutilizável, inicialmente projetado para atender um sistema de conteúdo de interação estático, e atendendo ainda assim, um sistema de conteúdo dinâmico.
12

Aplicação da transformada de wavelet na análise acústica de vozes alteradas.

Davi Carnieto 13 August 2010 (has links)
A análise acústica da voz tem sido estudada em diversas áreas e com uma diversidade muito grande de técnicas. Cada um dos métodos possui pontos fortes e fracos na análise do sinal da voz, conseguindo assim extrair as características do sinal vocal. Na análise acústica convencional, baseada na transformada de Fourier, os softwares disponíveis apresentam de forma robusta a frequência fundamental, porém outras medidas importantes como o jitter e o shimmer são apresentadas apenas como um valor total de perturbação do sinal global. Este trabalho tem como objetivo a utilização da Transformada de Wavelet Discreta como ferramenta para análise do sinal e então extração de características da voz, considerando sinais com diferentes graus de periodicidade. Este trabalho apresentará além da busca da frequência fundamental, as perturbações do jitter e shimmer ao longo do sinal da mesma. Isto é importante para que a avaliação da voz possa ser feita observando o exato instante em que as perturbações ocorrem de modo que auxilie no entendimento da dinâmica de uma possível disfonia.
13

Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.

Francisco José Fraga Silva 00 December 1998 (has links)
Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%.
14

Sistemas de adaptação ao locutor utilizando autovozes. / Speaker adaptation system using eigenvoices.

Borges, Liselene de Abreu 20 December 2001 (has links)
O presente trabalho descreve duas técnicas de adaptação ao locutor para sistemas de reconhecimento de voz utilizando um volume de dados de adaptação reduzido. Regressão Linear de Máxima Verossimilhança (MLLR) e Autovozes são as técnicas trabalhadas. Ambas atualizam as médias das Gaussianas dos modelos ocultos de Markov (HMM). A técnica MLLR estima um grupo de transformações lineares para os parâmetros das medias das Gaussianas do sistema. A técnica de Autovozes baseia-se no conhecimento prévio das variações entre locutores. Para obtermos o conhecimento prévio, que está contido nas autovozes, utiliza-se a análise em componentes principais (PCA). Fizemos os testes de adaptação das médias em um sistema de reconhecimento de voz de palavras isoladas e de vocabulário restrito. Contando com um volume grande de dados de adaptação (mais de 70% das palavras do vocabulário) a técnica de autovozes não apresentou resultados expressivos com relação aos que a técnica MLLR apresentou. Agora, quando o volume de dados reduzido (menos de 15% das palavras do vocabulário) a técnica de Autovozes apresentou-se superior à MLLR. / This present work describe two speaker adaptation technique, using a small amount of adaptation data, for a speech recognition system. These techniques are Maximum Likelihood Linear Regression (MLLR) and Eigenvoices. Both re-estimates the mean of a continuous density Hidden Markov Model system. MLLR technique estimates a set of linear transformations for mean parameters of a Gaussian system. The eigenvoice technique is based on a previous knowledge about speaker variation. For obtaining this previous knowledge, that are retained in eigenvoices, it necessary to apply principal component analysis (PCA). We make adaptation tests over an isolated word recognition system, restrict vocabulary. If a large amount of adaptation data is available (up to 70% of all vocabulary) Eigenvoices technique does not appear to be a good implementation if compared with the MLLR technique. Now, when just a small amount of adaptation data is available (less than 15 % of all vocabulary), Eigenvoices technique get better results than MLLR technique.
15

Sistemas de adaptação ao locutor utilizando autovozes. / Speaker adaptation system using eigenvoices.

Liselene de Abreu Borges 20 December 2001 (has links)
O presente trabalho descreve duas técnicas de adaptação ao locutor para sistemas de reconhecimento de voz utilizando um volume de dados de adaptação reduzido. Regressão Linear de Máxima Verossimilhança (MLLR) e Autovozes são as técnicas trabalhadas. Ambas atualizam as médias das Gaussianas dos modelos ocultos de Markov (HMM). A técnica MLLR estima um grupo de transformações lineares para os parâmetros das medias das Gaussianas do sistema. A técnica de Autovozes baseia-se no conhecimento prévio das variações entre locutores. Para obtermos o conhecimento prévio, que está contido nas autovozes, utiliza-se a análise em componentes principais (PCA). Fizemos os testes de adaptação das médias em um sistema de reconhecimento de voz de palavras isoladas e de vocabulário restrito. Contando com um volume grande de dados de adaptação (mais de 70% das palavras do vocabulário) a técnica de autovozes não apresentou resultados expressivos com relação aos que a técnica MLLR apresentou. Agora, quando o volume de dados reduzido (menos de 15% das palavras do vocabulário) a técnica de Autovozes apresentou-se superior à MLLR. / This present work describe two speaker adaptation technique, using a small amount of adaptation data, for a speech recognition system. These techniques are Maximum Likelihood Linear Regression (MLLR) and Eigenvoices. Both re-estimates the mean of a continuous density Hidden Markov Model system. MLLR technique estimates a set of linear transformations for mean parameters of a Gaussian system. The eigenvoice technique is based on a previous knowledge about speaker variation. For obtaining this previous knowledge, that are retained in eigenvoices, it necessary to apply principal component analysis (PCA). We make adaptation tests over an isolated word recognition system, restrict vocabulary. If a large amount of adaptation data is available (up to 70% of all vocabulary) Eigenvoices technique does not appear to be a good implementation if compared with the MLLR technique. Now, when just a small amount of adaptation data is available (less than 15 % of all vocabulary), Eigenvoices technique get better results than MLLR technique.
16

Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models.

Denis Pirttiaho Cardoso 03 April 2009 (has links)
A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results.
17

Reconhecimento automático do locutor com redes neurais pulsadas. / Automatic speaker recognition using pulse coupled neural networks.

Antonio Pedro Timoszczuk 22 March 2004 (has links)
As Redes Neurais Pulsadas são objeto de intensa pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação deste paradigma neural, na tarefa de reconhecimento automático do locutor. Após uma revisão dos tópicos considerados importantes para o entendimento do reconhecimento automático do locutor e das redes neurais artificiais, é realizada a implementação e testes do modelo de neurônio com resposta por impulsos. A partir deste modelo é proposta uma nova arquitetura de rede com neurônios pulsados para a implementação de um sistema de reconhecimento automático do locutor. Para a realização dos testes foi utilizada a base de dados Speaker Recognition v1.0, do CSLU – Center for Spoken Language Understanding do Oregon Graduate Institute - E.U.A., contendo frases gravadas a partir de linhas telefônicas digitais. Para a etapa de classificação foi utilizada uma rede neural do tipo perceptron multicamada e os testes foram realizados no modo dependente e independente do texto. A viabilidade das Redes Neurais Pulsadas para o reconhecimento automático do locutor foi constatada, demonstrando que este paradigma neural é promissor para tratar as informações temporais do sinal de voz. / Pulsed Neural Networks have received a lot of attention from researchers. This work aims to verify the capability of this neural paradigm when applied to a speaker recognition task. After a description of the automatic speaker recognition and artificial neural networks fundamentals, a spike response model of neurons is tested. A novel neural network architecture based on this neuron model is proposed and used in a speaker recognition system. Text dependent and independent tests were performed using the Speaker Recognition v1.0 database from CSLU – Center for Spoken Language Understanding of Oregon Graduate Institute - U.S.A. A multilayer perceptron is used as a classifier. The Pulsed Neural Networks demonstrated its capability to deal with temporal information and the use of this neural paradigm in a speaker recognition task is promising.
18

Um estudo emp?rico sobre m?quinas de tradu??o em tempo real para equipes distribu?das de desenvolvimento de software / An empirical study of real-time spech translation tools for multilingual distributed software development teams

Pinto, Jo?o Henrique Stocker 29 February 2016 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-11-10T16:24:19Z No. of bitstreams: 1 DIS_JOAO_HENRIQUE_STOCKER_PINTO_COMPLETO.pdf: 1899268 bytes, checksum: 45904a9a9a328472ee0fb55849090e8d (MD5) / Made available in DSpace on 2016-11-10T16:24:19Z (GMT). No. of bitstreams: 1 DIS_JOAO_HENRIQUE_STOCKER_PINTO_COMPLETO.pdf: 1899268 bytes, checksum: 45904a9a9a328472ee0fb55849090e8d (MD5) Previous issue date: 2016-02-29 / Distributed Software Development is increasingly present into the culture of information technology companies. The number of companies that spread its teams trying to reduce costs, improve products quality and improve productivity increases every year. This scenario, however, demands a huge cooperation between people that, in many cases, do not master the same language. A Speech Translation System is an alternative to this scenario, simultaneously translating from a language to another. This master thesis presents an empirical study, which consists of the historical review of the rise of recognition tools, translation and speech synthesis to its current state, as well as addressing technical characteristics of the same. The empirical research base has two experiments conducted in partnership with the University Aldo Moro of Bari, in Italy, using part of the tools available in the market and in development of two prototypes that make the integration of speech recognition, machine translation and speech synthesis to facilitate communication between distributed teams of software projects. The research contributes in order to show that the currently available technologies for communication between distributed teams that don't dominate the same language are close to be really effective and if they can be used in daily activities in software development teams. In addition to compatibility between tools, this research tries to point which the way forward to integrate voice Recognizers, Machine Translation and Speech Synthesis. / O desenvolvimento distribu?do de software est? cada vez mais presente na cultura das empresas de T.I. O n?mero de empresas que distribui os integrantes das suas equipes buscando reduzir custos de m?o de obra, aumentar a qualidade dos produtos e tamb?m aumentar a produtividade cresce anualmente. Este cen?rio, por?m, demanda uma grande coopera??o entre pessoas que, em muitos casos, n?o dominam o mesmo idioma. M?quinas de tradu??o em tempo real s?o uma alternativa a este cen?rio, realizando a tradu??o simult?nea de um idioma para outro. Nesta disserta??o de mestrado investiga-se, atrav?s de estudos emp?ricos, a tradu??o em tempo real em equipes de desenvolvimento distribu?do de software utilizando-se a voz. Para isso, apresenta-se uma revis?o hist?rica do surgimento das ferramentas de reconhecimento, tradu??o e s?ntese de voz at? o seu estado atual, al?m de abordar caracter?sticas t?cnicas das mesmas. A base emp?rica da pesquisa conta ainda com dois experimentos realizados em parceria com a Universidade Aldo Moro, de Bari, na It?lia, utilizando as tecnologias dispon?veis no mercado, al?m do desenvolvimento de dois prot?tipos que fazem a integra??o entre reconhecedores de voz, m?quinas de tradu??o e sintetizadores de voz. A pesquisa contribui no sentido de mostrar quais tecnologias atualmente dispon?veis para a comunica??o entre equipes distribu?das que n?o dominam o mesmo idioma est?o pr?ximas de serem efetivas e se elas podem ser usadas nas atividades di?rias em equipes de desenvolvimento de software. Al?m disso a pesquisa aponta compatibilidades entre ferramentas e um poss?vel caminho a seguir para integrar reconhecedores de voz, m?quinas de tradu??o e sintetizadores de voz.
19

Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models.

Cardoso, Denis Pirttiaho 03 April 2009 (has links)
A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results.
20

[en] CONTINUOUS SPEECH RECOGNITION WITH MFCC, SSCH AND PNCC FEATURES, WAVELET DENOISING AND NEURAL NETWORKS / [pt] RECONHECIMENTO DE VOZ CONTÍNUA COM ATRIBUTOS MFCC, SSCH E PNCC, WAVELET DENOISING E REDES NEURAIS

JAN KRUEGER SIQUEIRA 09 February 2012 (has links)
[pt] Um dos maiores desafios na área de reconhecimento de voz contínua é desenvolver sistemas robustos ao ruído aditivo. Para isso, este trabalho analisa e testa três técnicas. A primeira delas é a extração de atributos do sinal de voz usando os métodos MFCC, SSCH e PNCC. A segunda é a remoção de ruído do sinal de voz via wavelet denoising. A terceira e última é uma proposta original batizada de feature denoising, que busca melhorar os atributos extraídos usando um conjunto de redes neurais. Embora algumas dessas técnicas já sejam conhecidas na literatura, a combinação entre elas trouxe vários resultados interessantes e inéditos. Inclusive, nota-se que o melhor desempenho vem da união de PNCC com feature denoising. / [en] One of the biggest challenges on the continuous speech recognition field is to develop systems that are robust to additive noise. To do so, this work analyses and tests three techniques. The first one extracts features from the voice signal using the MFCC, SSCH and PNCC methods. The second one removes noise from the voice signal through wavelet denoising. The third one is an original one, called feature denoising, that seeks to improve the extracted features using a set of neural networks. Although some of these techniques are already known in the literature, the combination of them brings many interesting and new results. In fact, it is noticed that the best performance comes from the union of PNCC and feature denoising.

Page generated in 0.0851 seconds