• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 3
  • 1
  • Tagged with
  • 21
  • 10
  • 10
  • 9
  • 7
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Robustez a Efectos de Canal en Verificación de Locutor

Torres Risso, Matías José January 2009 (has links)
Se denomina verificación de locutor a la tarea de aceptar o rechazar la identidad que un determinado usuario declara tener mediante la información extraída de su voz. Este tipo de aplicación toma especial interés cuando es operado sobre la red telefónica pues otorga una interfaz hombre-máquina de gran naturalidad para las personas. Sin embargo, para que un sistema de este tipo sea comercialmente atractivo, debe exhibir un rendimiento acorde a las exigencias de seguridad de la aplicación a ser implementada. Finalmente, la plataforma debe ser robusta a efectos indeseados como son el ruido y en especial el mismatch de canal. El mismatch de canal es la condición a la cual es sometido un motor verificador de locutor donde las etapas de entrenamiento y de verificación son realizadas mediante canales de transmisión distintos, considerando el canal transmisor como la suma del aparato telefónico más el medio de comunicación. Dicha condición es uno de los factores que más degradan el desempeño de un sistema verificador de locutor, más aun si este es operado sobre la red telefónica. Para otorgar robustez al motor verificador frente a la distorsión de canal, se realizaron experimentos con tres técnicas implementadas durante este proyecto. El primer método propuesto es una transformación de parámetros que actúa en el dominio del espectro de log-energía del banco de filtros Mel, capaz de reducir la tasa de error del sistema hasta en un 9% al ser aplicado solo y en un 41,5% al ser combinada con un procedimiento clásico tal como CMN (Cepstral Mean Normalization). La segunda propuesta consiste en un filtro pasa bandas aplicado en el espacio del espectro de las trayectorias temporales de log-energía del banco de filtros Mel, con el cual se logran reducciones en la tasa de error de 10,4% y 5,5% considerando y sin considerar mismatch de canal, respectivamente. Finalmente se plantea un método de normalización y compensación de scores basado en la selección automática del canal, procedimiento con el cual se logran mejoras del orden del 40% en el error del motor verificador.
2

Compensación no Supervisada de Variabilidad Intra-Locutor y Ruido en Reconocimiento de Patrones de Voz

Garretón Vender, Claudio January 2007 (has links)
En un sistema de verificación de locutor, la cantidad y calidad de los datos utilizados en el proceso de enrolamiento son fundamentales para lograr un desempeño mínimo acorde a los requerimientos de la mayoría de los servicios. Sin embargo, en una aplicación que funciona sobre una plataforma telefónica, es escencial realizar los diálogos de entrenamiento y verificación de forma rápida y eficiente. Estas restricciones obligan a operar con una cantidad limitada de datos de enrolamiento. Situación que trae como consecuencia, en muchos casos, modelos con un bajo nivel de robustez lo que implica una degradación en el rendimiento del sistema. El problema de datos limitados de enrolamiento en verificación de locutor es un tema poco abordado en la literatura. Los métodos propuestos se han basado principalmente en adaptación de modelos HMM (Hidden Markov Models). Estas técnicas adaptan los parámetros de los modelos de cliente usando datos de voz generados por los usuarios en eventos de verificación. El objetivo principal de esta tesis es lograr un sistema de verificación de locutor telefónico robusto al efecto negativo causado por los datos limitados de entrenamiento y el ruido. Para esto, este trabajo de investigación se centra en el análisis y modelación de la variabilidad intra-locutor. Basándose en el criterio de MAP (Maximum a posteriori) se propone un modelo de compensación no supervisado para las señales de verificación, ISVC (Intraspeaker variability compensation). Esta técnica no modifica los modelos de usuario, evitando de esta forma los errores provocados por la clasificación errónea de datos de adaptación. Es posible estimar los parámetros del modelo propuesto con un conjunto reducido de usuarios. Además, el método descrito es independiente del usuario y de la clase fonética en que es aplicado. ISVC entrega reducciones entre 20% y 40% en la tasa de error del sistema. Cuando existen cambios de canal entre condiciones de entrenamiento y verificación, el método genera mejoras entre 5% y 10% en la probabilidad de error. El método propuesto se compara y combina con una técnica de adaptación no supervisada de modelos. Se analizan ventajas y desventajas de ambos métodos simulando distintos escenarios de operación. Los resultados obtenidos sugieren que ISVC es compatible con esquemas de adaptación no supervisados. Más aun, la combinación de ambas técnicas puede llevar a una reducción entre 30% y 40% en la tasa de error de verificación
3

Localização do locutor em ambiente de videoconferência utilizando sinal de áudio e vídeo

Blauth, Dante Augusto 25 March 2010 (has links)
Made available in DSpace on 2015-03-05T14:01:49Z (GMT). No. of bitstreams: 0 Previous issue date: 25 / Hewlett-Packard Brasil Ltda / A localização do locutor ativo em ambientes de videoconferência traz benefícios importantes, como transmitir apenas o sinal relativo a este locutor, reduzindo a quantidade de informações trafegadas na rede, eliminar ruídos indesejados e ainda possibilitar focar a câmera no locutor. Embora essa tarefa não seja inovadora, ainda está sendo aperfeiçoada, visto que ambientes reais de videoconferência possuem ruído, problemas de iluminação, etc., o que torna o objetivo mais difícil de ser alcançado de maneira satisfatória. O presente trabalho apresenta uma metodologia para localização do locutor ativo em videoconferência, utilizando o sinal de áudio capturado por um arranjo de microfones e o sinal de vídeo capturado por uma web-câmera. No tratamento do sinal de vídeo, utiliza-se um algoritmo para detecção de faces, que é modificado para para diminuir seu custo computacional. O sinal de áudio é processado no domínio de frequência, utilizando-se o algoritmo SRP-PHAT para localizar a fonte sonora. A fusão dos dois
4

Aplicação do valor de base da frequência fundamental via estatística MVKD em comparação forense de locutor / Applying base value of fundamental frequency via MVKD in forensic speaker comparison

Silva, Ronaldo Rodrigues da 13 December 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Camila Duarte (camiladias@bce.unb.br) on 2017-01-20T15:21:13Z No. of bitstreams: 1 2016_RonaldoRodriguesdaSilva.pdf: 1507927 bytes, checksum: 9db7accbea588ec2c50174217c542007 (MD5) / Approved for entry into archive by Ruthléa Nascimento(ruthleanascimento@bce.unb.br) on 2017-03-22T16:52:27Z (GMT) No. of bitstreams: 1 2016_RonaldoRodriguesdaSilva.pdf: 1507927 bytes, checksum: 9db7accbea588ec2c50174217c542007 (MD5) / Made available in DSpace on 2017-03-22T16:52:27Z (GMT). No. of bitstreams: 1 2016_RonaldoRodriguesdaSilva.pdf: 1507927 bytes, checksum: 9db7accbea588ec2c50174217c542007 (MD5) / Comparação forense de locutor (CFL) é utilizada como uma abordagem complementar na confirmação da autoria de um crime. A metodologia mais difundida mundialmente neste tipo de exame se baseia em análises perceptuais e acústicas. Uma das medidas acústicas mais utilizadas em CFL é a frequência fundamental (F0). O parâmetro acústico F0 é robusto em áudios de baixa qualidade e é independente do conteúdo das falas, o que o torna um parâmetro interessante de ser utilizado nas análises forenses. Além disso, o algoritmo de extração de F0 apresenta baixa complexidade computacional. Neste trabalho, propõe-se analisar o poder discriminante da medida de longo termo da frequência fundamental nomeada valor de base de F0, que em trabalhos recentes tem se mostrado menos sujeita a variações associadas ao conteúdo, ao estilo da fala, ao canal utilizado na gravação, além de exigir uma menor quantidade de material para obter uma medida estável em comparação a outras medidas de longo termo, como a média aritmética e o desvio padrão. Foi avaliado o ganho de poder discriminante ao combinar a medida do valor de base de F0 a outras medidas de longo termo de F0 usualmente utilizadas na área forense por meio de uma abordagem que aplica a estatística de densidade do núcleo de multivariáveis, do inglês Multivariate Kernel-Density (MVKD). Os testes foram realizados utilizando um corpus composto de gravações de áudios de falantes masculinos do português brasileiro contendo 60 segundos de produções vozeadas e obteve-se uma Taxa de Erro Igual, do inglês Equal Error Rate (EER)de 13 %, superando pesquisas recentes. / Forensic Speaker Comparisons (FSC) are applied as a complementary approach to con rm the authorship of a crime. The methodology most used in FSC is based on perceptual and acoustic analysis. One of the most frequent measures in FSC is the fundamental frequency F0. The acoustic parameter F0 is robust in low audio quality regardless of the speech content, which is very important to the forensic area. Moreover, its algorithm has a low computational complexity. In this work, we propose to analyze the discriminatory power of the long-term fundamental frequency parameter named baseline of the F0. This parameter is more stable considering the speech content and style, the recording channel and needs less audio quantity to extract a reliable measure compared to other F0 parameters, as arithmetic mean and the standard deviation which are the most used parameters in the forensic area. The discriminant gain improvement obtained combining the baseline of the F0 and other long-term fundamental frequency measures was addressed using the statistics of the Multivariate Kernel-Density (MVKD). The experiments were done using a brasilian portuguese male recording corpus containing 60 seconds of voiced speech each sample. We show that our proposed approach achieves an Equal Error Rate (EER) of 13 % outperforming recent researches.
5

Novas abordagens para codificação de voz e reconhecimento automático de locutor projetadas via mascaramento pleno em frequência por oitava

SOTERO FILHO, Roberto Fernando Batista 30 October 2009 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-27T22:00:17Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-05T19:02:50Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) / Made available in DSpace on 2018-09-05T19:02:50Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) Previous issue date: 2009-10-30 / CAPES / A área de processamento digital de sinais de voz (PDSV) é uma das mais importantes do processamento digital de sinais. Como sub-áreas relevantes do PDSV estão a Codificação da Voz e o Reconhecimento Automático de Locutor (RAL). Esta dissertação propõe uma nova abordagem para um vocoder baseado no Mascaramento Pleno em Frequência por Oitavas (MPFO) em adição a uma técnica de preenchimento espectral via distribuição beta de probabilidade. O método do MPFO consiste em simplificar a magnitude do espectro em frequência do sinal, considerando apenas uma amostra por oitava. Tal abordagem, que oferece um compromisso entre taxa de bits (e.g. 2,7 kbits/s), complexidade, inteligibilidade e qualidade dos sinais de voz, permitiu a criação de um novo formato binário de representação digital da voz: o formato voz. Apresenta-se, também, um novo método de baixa complexidade computacional para RAL, baseando-se em uma das propriedades-chave da percepção auditiva humana: o mascaramento acústico em frequência. O vetor característico dos quadros do sinal de voz é representado pela fração média das amplitudes dos tons de mascaramento em cada oitava. Ambos os tipos de reconhecimento de locutor (de texto dependente e de texto independente) são estudados. Os resultados confirmam que o algoritmo proposto oferece um compromisso entre a complexidade e a taxa de identificações corretas (típico 85%), sendo atrativo para aplicações em sistemas embarcados. / Digital processing of speech signals (DPSS) is one of the most important areas of digital signal processing. Voice coding and automatic speaker recognition (ASR) are relevant DPSS sub-fields. This dissertation introduces a new vocoder scheme, which is based on full frequency masking per octave (FFMO), jointly with a new spectral stuffing technique through the beta probability distribution. The FFMO method consists of simplifying the magnitude of the voice spectrum. It retains just one spectral sample per octave. This approach offers a tradeoff between the bit rate (e.g., 2.7 kbits/s), complexity, intelligibility and voice quality. A new file format, termed voz, was proposed. A novel and low-complexity ASR technique, based one of the key-properties of the human hearing perception - the auditory frequency masking - is also presented. The feature vectors of voice frames are represented by the average amplitude of the largest spectral samples within each octave. Both text-dependent and text-independent speaker recognition is investigated. Results support a tradeoff between recognition efficiency (typically 85%) and complexity of this kind of vocoder-based systems, being thereby attractive for embedded systems.
6

Avaliação de uso do coeficientes mel-cepstrais na representação das características vocais de um locutor.

MELO, Fabrício Gutemberg Lélis de. 30 August 2017 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2017-08-30T18:56:35Z No. of bitstreams: 1 Avaliacao do uso de coeficientes Mel-cepstrais. MELO, Fabrício Gutemberg L. de..pdf: 4400198 bytes, checksum: b66f2ce2f2e815e517d66cddf8d6be28 (MD5) / Made available in DSpace on 2017-08-30T18:56:35Z (GMT). No. of bitstreams: 1 Avaliacao do uso de coeficientes Mel-cepstrais. MELO, Fabrício Gutemberg L. de..pdf: 4400198 bytes, checksum: b66f2ce2f2e815e517d66cddf8d6be28 (MD5) Previous issue date: 2014-12 / CNPq / A identificação de indivíduos por meio de biometria vem sendo bastante usada como mecanismo de segurança para o acesso a sistemas computacionais ou ambientes restritos. Os sistemas biométricos têm sido desenvolvidos para realizar a identificação por impressão digital, iridia ou vocal, por exemplo. Usar a voz como meio para a autenticação individual tem sido cada vez mais possível, devido ao avanço significativo na área de Processamento Digital de Sinais de voz. Esta pesquisa tem como finalidade avaliar a eficiência dos coeficientes mel-cesptrais na representação das características de um locutor em um sistema automático de verificação de locutor. As técnicas utilizadas para a construção do sistema automático de verificação de locutor, visando a uma implementação em hardware, incluem o uso de: (i) coeficientes mel-cepstrais, na composição do vetor de características; (ii) quantização vetorial, na obtenção de padrões; e (iii) uma regra de decisão, baseada na distância Euclidiana. O sistema utilizado para a avaliação da representação das características vocais de um locutor é uma modificação de outro sistema automático de verificação de locutor que utiliza coeficientes LPC para a representação das características vocais de um locutor. Para tanto, fez-se uso das linguagens C++ (fase de treinamento) e SystemVerilog (fase de verificação). Os resultados utilizando coeficientes mel-cepstrais foram de 99,34% na taxa de acerto, 0,17% para taxa de erros e 0,49% na taxa de respostas desconhecidas, comparados, respectivamente, a 96,52% na taxa de acerto, 0,90% para taxa de erros e 2,58% na taxa de desconhecidos para coeficientes LPC. / Biometric identification of individuals has been widely used as a security mechanism for accessing computer systems or restricted environments. Biometric systems have been developed to perform identification through fingerprint, iris, or voice, for example. Using the voice as a biometric identifier has been increasingly possible due to significant advances in digital processing of speech signals area. This research aims to evaluate the efficiency of mel-frequency cepstral coefficients in the representation of the characteristics of a speaker in an automatic speaker verification. The techniques used to construct the automatic speaker verification system aiming at a hardware implementation included the use of: (i) melfrequency cepstral coefficients, like feature vector; (ii) vector quantization, in patterning modelling; and (iii) a decision rule, based on Euclidean distance. The system used for evaluation in the representation of the characteristics of a speaker is a modification of another automatic speaker verification system using linear predictive coding coefficients for the representation of the vocal characteristics of a speaker. It was implemented using C++ for the training phase, and SystemVerilog for the verification phase. The results using mel-frequency cepstral coefficients were 99.34% in the hit rate, 0.17% to error rate and 0.49% to unknown response rate, compared respectively to 96.52% in success rate, 0.90% to error rate and 2.58% to unknown rate using the linear predictive coding coefficients.
7

Fusión de Múltiples Clasificadores en Verificación de Locutor

Huenupán Quinán, Fernando January 2010 (has links)
No description available.
8

[en] COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION / [pt] ESTUDO COMPARATIVO DE TÉCNICAS DE DIARIZAÇÃO DE LOCUTOR

MARCELO DE CAMPOS NIERO 25 July 2014 (has links)
[pt] A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. / [en] The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation.
9

Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso / Analysis of energy cocentrations in the threshold between voiced and unvoiced phonemes and their implications for text-dependent speaker recognition

Ishizawa, William Habaro 19 February 2015 (has links)
Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos. / Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data.
10

Sistemas de adaptação ao locutor utilizando autovozes. / Speaker adaptation system using eigenvoices.

Borges, Liselene de Abreu 20 December 2001 (has links)
O presente trabalho descreve duas técnicas de adaptação ao locutor para sistemas de reconhecimento de voz utilizando um volume de dados de adaptação reduzido. Regressão Linear de Máxima Verossimilhança (MLLR) e Autovozes são as técnicas trabalhadas. Ambas atualizam as médias das Gaussianas dos modelos ocultos de Markov (HMM). A técnica MLLR estima um grupo de transformações lineares para os parâmetros das medias das Gaussianas do sistema. A técnica de Autovozes baseia-se no conhecimento prévio das variações entre locutores. Para obtermos o conhecimento prévio, que está contido nas autovozes, utiliza-se a análise em componentes principais (PCA). Fizemos os testes de adaptação das médias em um sistema de reconhecimento de voz de palavras isoladas e de vocabulário restrito. Contando com um volume grande de dados de adaptação (mais de 70% das palavras do vocabulário) a técnica de autovozes não apresentou resultados expressivos com relação aos que a técnica MLLR apresentou. Agora, quando o volume de dados reduzido (menos de 15% das palavras do vocabulário) a técnica de Autovozes apresentou-se superior à MLLR. / This present work describe two speaker adaptation technique, using a small amount of adaptation data, for a speech recognition system. These techniques are Maximum Likelihood Linear Regression (MLLR) and Eigenvoices. Both re-estimates the mean of a continuous density Hidden Markov Model system. MLLR technique estimates a set of linear transformations for mean parameters of a Gaussian system. The eigenvoice technique is based on a previous knowledge about speaker variation. For obtaining this previous knowledge, that are retained in eigenvoices, it necessary to apply principal component analysis (PCA). We make adaptation tests over an isolated word recognition system, restrict vocabulary. If a large amount of adaptation data is available (up to 70% of all vocabulary) Eigenvoices technique does not appear to be a good implementation if compared with the MLLR technique. Now, when just a small amount of adaptation data is available (less than 15 % of all vocabulary), Eigenvoices technique get better results than MLLR technique.

Page generated in 0.0348 seconds