Spelling suggestions: "subject:"segmentação dde locutor"" "subject:"segmentação dde executores""
1 |
Combinação de Características Para Segmentação em Transcrição de LocutoresNeri, Leonardo Valeriano 21 February 2014 (has links)
Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T19:16:26Z
No. of bitstreams: 2
DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T19:16:26Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-02-21 / Neste trabalho é apresentada uma abordagem de combinação de características para a
etapa de segmentação de locutores em um sistema de transcrição de locutores. Esta abordagem utiliza diferentes características acústicas extraídas da fonte de áudio com o objetivo de combinar as suas capacidades de discriminação para diferentes tipos de sons, aumentando assim, a precisão da segmentação. O Critério de Informação Bayesiana (BIC - Bayesian Information Criterion) é usado como uma medida de distância para verificar a propensão de junção de dois segmentos do áudio. Uma Rede Neural Artificial (RNA) combina as respostas obtidas por cada característica após a aplicação de um algoritmo que detecta se há mudança em um trecho do áudio. Os índices de tempo obtidos são usados como entrada da rede neural que estima o ponto de mudança do locutor no trecho de áudio. Um sistema de transcrição de locutores que inclui a abordagem proposta é desenvolvido para avaliar e comparar os resultados com os do sistema de transcrição que utiliza a abordagem clássica de segmentação de locutores Window-Growing de Chen e Gopalakrishnan, aplicada às diferentes características acústicas adotadas neste trabalho. Nos experimentos com o sistema de transcrição de locutores, uma base artificial contendo amostras com vários locutores é usada. A avaliação dos resultados da etapa de segmentação do sistema mostra um aprimoramento em ambas as taxas de perda de detecção (MDR - Miss Detection Rate)
e de falsos alarmes (FAR - False Alarm Rate) se comparadas à abordagem Window-Growing. A avaliação dos resultados na etapa de agrupamento dos locutores mostra uma melhora significativa na pureza dos grupos de locutores formados, calculada como o percentual de amostras de um mesmo locutor no grupo, demostrando que os mesmos são mais homogêneos.
|
Page generated in 0.1161 seconds