• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • 3
  • Tagged with
  • 15
  • 15
  • 12
  • 12
  • 9
  • 9
  • 6
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares

Petry, Adriano January 2002 (has links)
As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais.
2

Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares

Petry, Adriano January 2002 (has links)
As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais.
3

Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares

Petry, Adriano January 2002 (has links)
As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais.
4

COMFALA : modelo computacional do processo de compreensão da fala

Muller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
5

COMFALA : modelo computacional do processo de compreensão da fala

Muller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
6

COMFALA : modelo computacional do processo de compreensão da fala

Muller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
7

Desenvolvimento de arquitetura para sistemas de reconhecimento automático de voz baseados em modelos ocultos de Markov

Gomez Cipriano, Jose Luis January 2001 (has links)
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
8

Desenvolvimento de arquitetura para sistemas de reconhecimento automático de voz baseados em modelos ocultos de Markov

Gomez Cipriano, Jose Luis January 2001 (has links)
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
9

Desenvolvimento de arquitetura para sistemas de reconhecimento automático de voz baseados em modelos ocultos de Markov

Gomez Cipriano, Jose Luis January 2001 (has links)
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
10

Sistema de reconhecimento de locutor utilizando redes neurais artificiais / Artificial neural networks speaker recognition system

Adami, Andre Gustavo January 1997 (has links)
Este trabalho envolve o emprego de recentes tecnologias ligadas a promissora área de Inteligência Computacional e a tradicional área de Processamento de Sinais Digitais. Tem por objetivo o desenvolvimento de uma aplicação especifica na área de Processamento de Voz: o reconhecimento de locutor. Inúmeras aplicações, ligadas principalmente a segurança e controle, são possíveis a partir do domínio da tecnologia de reconhecimento de locutor, tanto no que diz respeito a identificação quanto a verificação de diferentes locutores. O processo de reconhecimento de locutor pode ser dividido em duas grandes fases: extração das características básicas do sinal de voz e classificação. Na fase de extração, procurou-se aplicar os mais recentes avanços na área de Processamento Digital de Sinais ao problema proposto. Neste contexto, foram utilizadas a frequência fundamental e as frequências formantes como parâmetros que identificam o locutor. O primeiro foi obtido através do use da autocorrelação e o segundo foi obtido através da transformada de Fourier. Estes parâmetros foram extraídos na porção da fala onde o trato vocal apresenta uma coarticulação entre dois sons vocálicos. Esta abordagem visa extrair as características desta mudança do aparato vocal. Existem dois tipos de reconhecimento de locutor: identificação (busca-se reconhecer o locutor em uma população) e verificação (busca-se verificar se a identidade alegada é verdadeira). O processo de reconhecimento de locutor é dividido em duas grandes fases: extração das características (envolve aquisição, pré-processamento e extração dos parâmetros característicos do sinal) e classificação (envolve a classificação do sinal amostrado na identificação/verificação do locutor ou não). São apresentadas diversas técnicas para representação do sinal, como analise espectral, medidas de energia, autocorrelação, LPC (Linear Predictive Coding), entre outras. Também são abordadas técnicas para extração de características do sinal, como a frequência fundamental e as frequências formantes. Na fase de classificação, pode-se utilizar diversos métodos convencionais: Cadeias de Markov, Distância Euclidiana, entre outros. Além destes, existem as Redes Neurais Artificiais (RNAs) que são consideradas poderosos classificadores. As RNAs já vêm sendo utilizadas em problemas que envolvem classificações de sinais de voz. Neste trabalho serão estudados os modelos mais utilizados para o problema de reconhecimento de locutor. Assim, o tema principal da Dissertação de Mestrado deste autor é a implementação de um sistema de reconhecimento de locutor utilizando Redes Neurais Artificiais para classificação do locutor. Neste trabalho tamb6m é apresentada uma abordagem para a implementação de um sistema de reconhecimento de locutor utilizando as técnicas convencionais para o processo de classificação do locutor. As técnicas utilizadas são Dynamic Time Warping (DTW) e Vector Quantization (VQ). / This work deals with the application of recent technologies related to the promising research domain of Intelligent Computing (IC) and to the traditional Digital Signal Processing area. This work aims to apply both technologies in a Voice Processing specific application which is the speaker recognition task. Many security control applications can be supported by speaker recognition technology, both in identification and verification of different speakers. The speaker recognition process can be divided into two main phases: basic characteristics extraction from the voice signal and classification. In the extraction phase, one proposed goal was the application of recent advances in DSP theory to the problem approached in this work. In this context, the fundamental frequency and the formant frequencies were employed as parameters to identify the speaker. The first one was obtained through the use of autocorrelation and the second ones were obtained through Fourier transform. These parameters were extracted from the portion of speech where the vocal tract presents a coarticulation between two voiced sounds. This approach is used to extract the characteristics of this apparatus vocal changing. In this work, the Multi-Layer Perceptron (MLP) ANN architecture was investigated in conjunction with the backpropagation learning algorithm. In this sense, some main characteristics extracted from the signal (voice) were used as input parameters to the ANN used. The output of MLP, trained previously with the speakers features, returns the authenticity of that signal. Tests were performed with 10 different male speakers, whose age were in the range from 18 to 24 years. The results are very promising. In this work it is also presented an approach to implement a speaker recognition system by applying conventional methods to the speaker classification process. The methods used are Dynamic Time Warping (DTW) and Vector Quantization (VQ).

Page generated in 0.0963 seconds