Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T19:16:26Z
No. of bitstreams: 2
DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T19:16:26Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-02-21 / Neste trabalho é apresentada uma abordagem de combinação de características para a
etapa de segmentação de locutores em um sistema de transcrição de locutores. Esta abordagem utiliza diferentes características acústicas extraídas da fonte de áudio com o objetivo de combinar as suas capacidades de discriminação para diferentes tipos de sons, aumentando assim, a precisão da segmentação. O Critério de Informação Bayesiana (BIC - Bayesian Information Criterion) é usado como uma medida de distância para verificar a propensão de junção de dois segmentos do áudio. Uma Rede Neural Artificial (RNA) combina as respostas obtidas por cada característica após a aplicação de um algoritmo que detecta se há mudança em um trecho do áudio. Os índices de tempo obtidos são usados como entrada da rede neural que estima o ponto de mudança do locutor no trecho de áudio. Um sistema de transcrição de locutores que inclui a abordagem proposta é desenvolvido para avaliar e comparar os resultados com os do sistema de transcrição que utiliza a abordagem clássica de segmentação de locutores Window-Growing de Chen e Gopalakrishnan, aplicada às diferentes características acústicas adotadas neste trabalho. Nos experimentos com o sistema de transcrição de locutores, uma base artificial contendo amostras com vários locutores é usada. A avaliação dos resultados da etapa de segmentação do sistema mostra um aprimoramento em ambas as taxas de perda de detecção (MDR - Miss Detection Rate)
e de falsos alarmes (FAR - False Alarm Rate) se comparadas à abordagem Window-Growing. A avaliação dos resultados na etapa de agrupamento dos locutores mostra uma melhora significativa na pureza dos grupos de locutores formados, calculada como o percentual de amostras de um mesmo locutor no grupo, demostrando que os mesmos são mais homogêneos.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/11560 |
Date | 21 February 2014 |
Creators | Neri, Leonardo Valeriano |
Contributors | Ren, Tsang Ing |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | Breton |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds