• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 19
  • 15
  • 14
  • 9
  • 3
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 72
  • 25
  • 25
  • 17
  • 17
  • 17
  • 16
  • 16
  • 14
  • 13
  • 13
  • 13
  • 12
  • 11
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Jednoduchý textově nezávislý hlasový zámek - Softwarový systém pro verifikaci mluvčích / Simple text-independent voice lock - speaker verification software system

Kotulek, Milan January 2015 (has links)
A brief introduction into biometrics is described in this thesis leading to description and to design a solution of verification system using speech analysis. The designed system provides firstly basic signal processing, then vowel recognition in fluent Czech speech. For each found vowel, observed speech features are calculated. The created GUI application was tested on created speaker database and its efficiency is approximately 54 % for short testing utterances, and approx. 88 % for long testing utterances respectively.
32

Nocturnal Bird Call Recognition System for Wind Farm Applications

Bastas, Selin A. 10 July 2012 (has links)
No description available.
33

Continous Speech Recognition Using Long Term Memory Cells

Abraham, Aby January 2013 (has links)
No description available.
34

Um estudo da relevância da dinâmica espectral na classificação de sons doméstic

Duarte, Dami Doria Narayana 19 February 2016 (has links)
Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / This work presents a study of the spectral dynamics characteristics of audio signals. More specifically, we aim at detecting regularities that can be modeled in typical domestic sounds, in order to classify them. Our starting point is the work of Sehili et al. [2], in which a household sounds classification system based on GMM is proposed. The Sehili system is reproduced in this work as a baseline system. Following the same protocol of experiments, a 73 % recognition rate is achieved. Afterwards, three sets of experiments are performed, arranged so that each new approach incorporates a new technique to highlight a different aspect of the spectral dynamics. The first technique is the insertion of the discrete gradient information of feature vectors, a strategy aimed at a local spectral dynamic analysis, and resultes in a perceptible increase in recognition rate. The next experiment is conducted with a HMM based classifier, in which the spectral dynamic should be encoded in state transition probability matrices. The tests with the HMM do not result in improved recognition rates. The last experiment is based on a features extraction method, proposed by the author, called Patterns of Energy Envelope per Band (PEEB). The PEEB is an extractor that highlight the signal spectral dynamics inside narrow bands. In domestic sounds recognition tests, the classification system based on a combination of PEEB, MFCC and GMM strategies resulted in a significant improvement over all other systems tested. We conclude, based on our results, that the spectral dynamics of the studied dataset plays an important role in the classification task. However, the approaches for spectral dynamic information extraction, studied in this work, are not definitive, for it is clear that they can be further developed. For example, in the case of PEEB, the recognition rate is strongly dependent on the sound class, suggesting more elaborate forms of fusion of PEEB and MFCC features for each class. / Este trabalho é um estudo da característica da dinâmica espectral em sinais sonoros, com vistas a encontrar as regularidades que podem ser modeladas em sons tipicamente domésticos, com o objetivo de classificá-los. O ponto de partida é o trabalho de Sehili et al. [1], no qual é proposto um sistema de classificação de sons domésticos baseado em GMM. O sistema de Sehili é reproduzido neste trabalho como marco zero na análise da dinâmica espectral, seguindo o mesmo roteiro dos experimentos. A partir daí, três conjuntos de experimentos são realizados, organizados de forma que, a cada novo experimento, uma técnica – que destaca um aspecto diferente da dinâmica espectral – seja incorporada. A primeira técnica analisada é a inserção da informação de gradiente discreto dos vetores de características, estratégia que representa uma análise de dinâmica espectral local e que resulta num aumento perceptível na taxa de classificação. O próximo experimento é realizado com um classificador baseado em HMM, no qual a informação de dinâmica espectral deve ser codificada na matriz de probabilidades de transição de estados do modelo. Os testes com o HMM não resultam em melhora na taxa de reconhecimento das classes de sons. O último experimento é baseado num extrator de características proposto pelo autor, chamado de Padrões de Envelopes de Energia por Banda (PEEB). O PEEB é um extrator que destaca os padrões de evolução espectro-temporais do sinais. Nos testes de reconhecimento de sons domésticos, o sistema de classificação baseado numa combinação das estratégias PEEB, MFCC e GMM resultam numa melhora significativa em relação a todos os outros sistemas testados. Conclui-se, com base nos resultados, que a dinâmica espectral dos sinais da base estudada é relevante à tarefa de classificação. No entanto, as maneiras de extração da informação de dinâmica espectral estudadas neste trabalho não são definitivas, pois ainda há muito espaço para desenvolvê-las. Por exemplo, no caso do PEEB, nota-se que a taxa de classificação fortemente é dependente da classe sonora, sugerindo formas mais elaboradas de fusão das características PEEB e MFCC para cada classe.
35

Um estudo da relevância da dinâmica espectral na classificação de sons domésticos

Duarte, Dami Doria Narayana 19 February 2016 (has links)
Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / This work presents a study of the spectral dynamics characteristics of audio signals. More specifically, we aim at detecting regularities that can be modeled in typical domestic sounds, in order to classify them. Our starting point is the work of Sehili et al. [2], in which a household sounds classification system based on GMM is proposed. The Sehili system is reproduced in this work as a baseline system. Following the same protocol of experiments, a 73 % recognition rate is achieved. Afterwards, three sets of experiments are performed, arranged so that each new approach incorporates a new technique to highlight a different aspect of the spectral dynamics. The first technique is the insertion of the discrete gradient information of feature vectors, a strategy aimed at a local spectral dynamic analysis, and resultes in a perceptible increase in recognition rate. The next experiment is conducted with a HMM based classifier, in which the spectral dynamic should be encoded in state transition probability matrices. The tests with the HMM do not result in improved recognition rates. The last experiment is based on a features extraction method, proposed by the author, called Patterns of Energy Envelope per Band (PEEB). The PEEB is an extractor that highlight the signal spectral dynamics inside narrow bands. In domestic sounds recognition tests, the classification system based on a combination of PEEB, MFCC and GMM strategies resulted in a significant improvement over all other systems tested. We conclude, based on our results, that the spectral dynamics of the studied dataset plays an important role in the classification task. However, the approaches for spectral dynamic information extraction, studied in this work, are not definitive, for it is clear that they can be further developed. For example, in the case of PEEB, the recognition rate is strongly dependent on the sound class, suggesting more elaborate forms of fusion of PEEB and MFCC features for each class. / Este trabalho é um estudo da característica da dinâmica espectral em sinais sonoros, com vistas a encontrar as regularidades que podem ser modeladas em sons tipicamente domésticos, com o objetivo de classificá-los. O ponto de partida é o trabalho de Sehili et al. [1], no qual é proposto um sistema de classificação de sons domésticos baseado em GMM. O sistema de Sehili é reproduzido neste trabalho como marco zero na análise da dinâmica espectral, seguindo o mesmo roteiro dos experimentos. A partir daí, três conjuntos de experimentos são realizados, organizados de forma que, a cada novo experimento, uma técnica – que destaca um aspecto diferente da dinâmica espectral – seja incorporada. A primeira técnica analisada é a inserção da informação de gradiente discreto dos vetores de características, estratégia que representa uma análise de dinâmica espectral local e que resulta num aumento perceptível na taxa de classificação. O próximo experimento é realizado com um classificador baseado em HMM, no qual a informação de dinâmica espectral deve ser codificada na matriz de probabilidades de transição de estados do modelo. Os testes com o HMM não resultam em melhora na taxa de reconhecimento das classes de sons. O último experimento é baseado num extrator de características proposto pelo autor, chamado de Padrões de Envelopes de Energia por Banda (PEEB). O PEEB é um extrator que destaca os padrões de evolução espectro-temporais do sinais. Nos testes de reconhecimento de sons domésticos, o sistema de classificação baseado numa combinação das estratégias PEEB, MFCC e GMM resultam numa melhora significativa em relação a todos os outros sistemas testados. Conclui-se, com base nos resultados, que a dinâmica espectral dos sinais da base estudada é relevante à tarefa de classificação. No entanto, as maneiras de extração da informação de dinâmica espectral estudadas neste trabalho não são definitivas, pois ainda há muito espaço para desenvolvê-las. Por exemplo, no caso do PEEB, nota-se que a taxa de classificação fortemente é dependente da classe sonora, sugerindo formas mais elaboradas de fusão das características PEEB e MFCC para cada classe.
36

Detekce Akustického Prostředí z Řeči / Acoustic Scene Classification from Speech

Dobrotka, Matúš January 2018 (has links)
The topic of this thesis is an audio recording classification with 15 different acoustic scene classes that represent common scenes and places where people are situated on a regular basis. The thesis describes 2 approaches based on GMM and i-vectors and a fusion of the both approaches. The score of the best GMM system which was evaluated on the evaluation dataset of the DCASE Challenge is 60.4%. The best i-vector system's score is 68.4%. The fusion of the GMM system and the best i-vector system achieves score of 69.3%, which would lead to the 20th place in the all systems ranking of the DCASE 2017 Challenge (among 98 submitted systems from all over the world).
37

Rozpoznávání emočních stavů na základě analýzy řečového signálu / Emotional State Recognition Based on Speech Signal Analysis

Čermák, Jan January 2009 (has links)
The thesis is focused on the emotional states classification in the Matlab program, using neural networks and the classifier which is based on a combination of Gaussian density functions. It deals with the speech signal processing; the prosodic and spectral signs and the MFCC coefficients were extracted from the signal. The work also deals with the quality evaluation of individual signs of which the most suitable were chosen in order to provide the correct classification of emotional states. In order to identify the emotional states, two different methods were used. The first method of classification was the use of neural networks with differently selected parameters, and the second method was the use of the Gaussian mixture model (GMM). In both methods, a database of emotional utterances was divided into the training group and the test group. The testing was based on a method independent of the speaker. The work also includes the comparison of individual analyzed methods as well as the representation and comparison of the results. The conclusion comprises a proposition for the best parameters and the best classifier for the recognition of the speaker’s emotional state.
38

Speaker Diarization System for Call-center data

Li, Yi January 2020 (has links)
To answer the question who spoke when, speaker diarization (SD) is a critical step for many speech applications in practice. The task of our project is building a MFCC-vector based speaker diarization system on top of a speaker verification system (SV), which is an existing Call-centers application to check the customer’s identity from a phone call. Our speaker diarization system uses 13-Dimensional MFCCs as Features, performs Voice Active Detection (VAD), segmentation, Linear Clustering and the Hierarchical Clustering based on GMM and the BIC score. By applying it, we decrease the Equal Error Rate (EER) of the SV from 18.1% in the baseline experiment to 3.26% on the general call-center conversations. To better analyze and evaluate the system, we also simulated a set of call-center data based on the public audio databases ICSI corpus. / För att svara på frågan vem som talade när är högtalardarisering (SD) ett kritiskt steg för många talapplikationer i praktiken. Uppdraget med vårt projekt är att bygga ett MFCC-vektorbaserat högtalar-diariseringssystem ovanpå ett högtalarverifieringssystem (SV), som är ett befintligt Call-center-program för att kontrollera kundens identitet från ett telefonsamtal. Vårt högtalarsystem använder 13-dimensionella MFCC: er som funktioner, utför Voice Active Detection (VAD), segmentering, linjär gruppering och hierarkisk gruppering baserat på GMM och BIC-poäng. Genom att tillämpa den minskar vi EER (Equal Error Rate) från 18,1 % i baslinjeexperimentet till 3,26 % för de allmänna samtalscentret. För att bättre analysera och utvärdera systemet simulerade vi också en uppsättning callcenter-data baserat på de offentliga ljuddatabaserna ICSI corpus.
39

Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado / Speaker recognition framework based on unsupervised learning

Campos, Victor de Abreu [UNESP] 31 August 2017 (has links)
Submitted by Victor de Abreu Campos null (victorde.ac@gmail.com) on 2017-09-27T02:41:28Z No. of bitstreams: 1 dissertacao.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) / Approved for entry into archive by Monique Sasaki (sayumi_sasaki@hotmail.com) on 2017-09-28T13:43:21Z (GMT) No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) / Made available in DSpace on 2017-09-28T13:43:21Z (GMT). No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) Previous issue date: 2017-08-31 / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes. / The huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains. / FAPESP: 2015/07934-4
40

Extratores de características acústicas inspirados no sistema periférico auditivo / Acoustic features extractors inspired in the peripheral auditory system

Almeida, Christiane Raulino 08 October 2014 (has links)
Extracting information from acoustic signals is a common task in signal processing and pattern recognition. Broadly speaking, the processing system has, as initial task, to obtain a low-dimensional representation of the acoustic signal, extracted trough computational methods called feature extractors. This representation aims to present the sound of speech in a more convenient form to extract the information contained in the signal. Considering the initial task of processing systems, this work presents a detailed study of three classic methods for features extracting, namely: the Mel - Frequency Cepstrum Coefficients (MFCC), the Ensemble Interval Histogram (EIH), and the Zero Crossing with Peak amplitudes (ZCPA). Still in the literature review step, a study of the human peripheral auditory system was accomplished, since the EIH and ZCPA methods are based on models of human hearing. Moreover, a new extraction method based on detection of level crossings was developed, called here as Elementary Acoustic Events (EAE). In order to compare the methods, both reviewed and developed, two different experiments were applied in this work. At first, experiments with additive noise and channel effects for robustness analysis methods were performed. Finally, experiments related to the task of isolated word recognition were applied using alignment Dynamic Time Warping (DTW). The results suggest that the proposed method is more robust than the classical methods implemented, for the proposed experiments. / Extrair informações de sinais acústicos é uma tarefa bastante comum dentro das áreas de processamento de sinais e reconhecimento de padrões. De uma maneira geral, os sistemas de processamento têm como tarefa inicial obter uma representação de baixa dimensão do sinal acústico, obtida a partir de métodos computacionais denominados extratores de características. Tal representação propõe apresentar o som da fala de uma forma mais conveniente à tarefa de extração e utilização da informação contida no sinal. Dentro deste contexto, nesta dissertação foi realizado um estudo detalhado de três métodos clássicos para extração de características de sinais acústicos existentes na literatura, a saber: os Mel-Frequency Cepstrum Coefficients (MFCC); o modelo Ensemble Interval Histogram (EIH); e o modelo Zero-Crossing with Peak Amplitudes (ZCPA). Sendo que, ainda para revisão bibliográfica, um estudo do sistema auditivo periférico humano foi realizado, visto que os métodos EIH e ZCPA são baseados em modelos do ouvido humano. Em seguida, um novo método de extração baseado em detecção de cruzamentos de nível foi desenvolvido ao longo do trabalho, denominado Eventos Acústicos Elementares (EAE). Diversos experimentos foram realizados a fim de comparar os métodos clássicos e o método desenvolvido nessa dissertação. Na primeira etapa, foram realizados experimentos com ruídos aditivos e com efeitos convolutivos de canal, para análise de robustez dos métodos. Por fim, referente à segunda etapa da análise comparativa dos métodos, foram realizados experimentos relativos à tarefa de reconhecimento de palavras isoladas, utilizando o método de alinhamento temporal Dynamic Time Warping (DTW). Os resultados obtidos indicam que o método proposto possui maior robustez quando comparado aos métodos clássicos implementados.

Page generated in 0.1303 seconds