• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1045
  • 113
  • 23
  • 10
  • 5
  • 5
  • 5
  • 5
  • 4
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 1211
  • 631
  • 225
  • 189
  • 173
  • 163
  • 159
  • 145
  • 129
  • 122
  • 121
  • 105
  • 102
  • 101
  • 101
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Classificação de sinais de voz utilizando a transformada Wavelet Packet e redes neurais artificiais

Crovato, César David Paredes January 2004 (has links)
Este trabalho apresenta um sistema de classificação de voz disfônica utilizando a Transformada Wavelet Packet (WPT) e o algoritmo Best Basis (BBA) como redutor de dimensionalidade e seis Redes Neurais Artificiais (ANN) atuando como um conjunto de sistemas denominados “especialistas”. O banco de vozes utilizado está separado em seis grupos de acordo com as similaridades patológicas (onde o 6o grupo é o dos pacientes com voz normal). O conjunto de seis ANN foi treinado, com cada rede especializando-se em um determinado grupo. A base de decomposição utilizada na WPT foi a Symlet 5 e a função custo utilizada na Best Basis Tree (BBT) gerada com o BBA, foi a entropia de Shannon. Cada ANN é alimentada pelos valores de entropia dos nós da BBT. O sistema apresentou uma taxa de sucesso de 87,5%, 95,31%, 87,5%, 100%, 96,87% e 89,06% para os grupos 1 ao 6 respectivamente, utilizando o método de Validação Cruzada Múltipla (MCV). O poder de generalização foi medido utilizando o método de MCV com a variação Leave-One-Out (LOO), obtendo erros em média de 38.52%, apontando a necessidade de aumentar o banco de vozes disponível.
62

Descritor de voz invariante ao ruído

Viana, Hesdras Oliveira 26 February 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB, 5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant to Noise and Environment and Robust for Speech), apresentou melhores resultados entre todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o classificador SVM.
63

Estudo e avaliação de redes convergentes de voz

CABRAL, Fabrício Barros 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:57:25Z (GMT). No. of bitstreams: 2 arquivo3193_1.pdf: 2779973 bytes, checksum: add7674b97eb43cf1eaeb79f6f399617 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / A telefonia convencional é uma tecnologia que permite que pessoas possam, através da fala, se comunicar à distância. Esta tecnologia é basicamente composta pela rede de telefonia pública (PSTN) e por diversos equipamentos, dentre eles o telefone. Com a popularização da Internet, vislumbrou-se a capacidade de utilizar esta rede para efetuar chamadas telefônicas, de maneira semelhante ao sistema de telefonia convencional. A partir de então foi desenvolvida a tecnologia de voz sobre IP (VoIP), que adota um conjunto de técnicas e protocolos permitindo que a voz humana possa se propagar através de uma rede de comutação de dados, como a Internet. Esta tecnologia apresenta diversas vantagens, como a redução dos custos, flexibilidade e o desenvolvimento e agregação de novos serviços. Dentre estes novos serviços, este trabalho foca os serviços de conferência e de convergência entre redes. O serviço de conferência é a capacidade de estabelecer uma chamada entre três ou mais pessoas simultaneamente. O serviço de convergência entre redes é a capacidade de se efetuar uma chamada entre um computador conectado à Internet e um telefone que se encontre na PSTN ou vice-versa. No entanto, por dependerem da Internet, estes serviços estão sujeitos a uma baixa qualidade da voz, devido à variabilidade das condições de rede. Sob este contexto, este trabalho propõe uma metodologia para analisar o comportamento e o desempenho destes serviços, quando submetidas a condições variadas da rede. A partir de um ambiente controlado de rede, foram simulados diversos cenários de utilização destes serviços e configurados diferentes valores para os parâmetros críticos, como o número de participantes, capacidade do enlace, atraso, perda de pacotes e variação do atraso (jitter). Este estudo adotou a qualidade do áudio recebido como principal métrica de desempenho cujo cômputo foi efetuado pelo algoritmo PESQ MOS
64

Parâmetros acústicos e perceptivo-auditivos da voz de adultos e idosos / Acoustic and perceptual parameters of adults and elderly´s voice

Aline Oliveira Santos 24 February 2012 (has links)
Estudos revelam que homens e mulheres apresentam modificações vocais em decorrência do envelhecimento, entretanto, a maioria compara indivíduos jovens e idosos, agrupando-os em grandes intervalos etários. Estudar indivíduos da faixa etária próximas à terceira idade e compará-los em menores intervalos etários pode ser mais sensível para evidenciar características importantes. Objetivou-se verificar: quais as diferenças dos parâmetros acústicos e perceptivo-auditivos da voz de homens e mulheres de diversas décadas etárias; quais características vocais modificam com o avanço da idade, e determinar a relação entre as características perceptivo-auditivas e acústicas nessa população. Participaram do estudo 125 homens e 140 mulheres, com idades entre 30 e 79 anos, agrupados por décadas etárias. Por meio de uma escala analógica visual, foram avaliados, por três juízes, o grau geral do desvio vocal (G), rugosidade (R) e soprosidade (S) de fala encadeada e vogal sustentada. Foram analisados por meio do programa Mult Dimension Voice Program (KayPentax) os parâmetros frequência fundamental (F0), desvio-padrão da F0 (dp F0), jitter (%), shimmer (%), proporção ruído-harmonico (NHR), índice de turbulência vocal (VTI) e índice de fonação suave (SPI). A comparação entre os grupos foi realizada por meio de ANOVA e Tukey, as correlações, por meio do teste de Pearson, (significância de 5%). Na fala, homens e mulheres de 30-49 anos apresentaram menor G e R que os de idade superior a 50 anos (p<0,000) e mulheres com idade entre 50-59 anos apresentaram maior S que as de 60-79 (p=0,026). Em ambos os gêneros, à medida que a idade aumentou, maiores foram G e R durante a fala, enquanto que S reduziu durante a vogal de mulheres (p=0,005). A análise acústica mostrou que VTI foi maior em sujeitos de 70-79 anos em relação aos de 40-49 (p<0,040). O SPI dos sujeitos de 40-49 anos foi o maior (p<0,000). Houve correlação positiva entre o avanço da idade e dp F0 e NHR nos homens (p<0,000 e 0,023), e negativa para SPI nas mulheres (p=0,025). Quanto mais elevada a F0 da voz masculina, maior S (p=0,043); quanto mais reduzida a F0 da voz feminina, maior R (p=0,006). Conclui-se que é importante estudar sujeitos da faixa de transição entre a fase adulta e idosa, visto as diferenças de qualidade vocal em sujeitos maiores de 50 anos em relação aos mais jovens. Agrupar os sujeitos entre décadas etárias colabora para a compreensão do envelhecimento vocal, haja vista os sujeitos da sétima década que apresentaram maior VTI que os da quarta, enquanto estes últimos apresentam maior SPI que os das demais faixas etárias, além de ter evidenciado as diferenças relacionadas à soprosidade, que foi maior nas mulheres de meia idade que em idosas. Para homens e mulheres, quanto maior o grau geral e a rugosidade, maiores são os valores relacionados à instabilidade de frequência, perturbação de frequência e intensidade e medidas de ruído. Já para a soprosidade, a correlação se deu apenas para a instabilidade de frequência, perturbação de frequência e intensidade e SPI. A F0 correlacionou-se com a qualidade vocal de forma distinta entre homens e mulheres da faixa etária estudada. / A number of studies have found that men and women can present vocal changes as a result of aging; meanwhile, most of the studies compare young and elderly people, grouping them in large age ranges. Reducing the subjects to adult and seniors age groups and comparing them in smaller age ranges can be more sensible to evidence significant characteristics. The purpose of this study was to verify differences on acoustic measures and perceptual analysis of the voice of adults and seniors, which of them are modified by aging and set the relation between perceptual analysis and acoustic measures on this population. Two hundred and sixty-five, men (n=125) and women (n=140) from 30 to 79 years-old, grouped into decade age ranges had their voice evaluated by 3 judges. Speech samples and sustained vowels were submitted to perceptive analysis consisted of the assessment of grade of overall deviation (G), roughness (R) and breathiness (B), using a visual-analog scale. Acoustic measures of speaking fundamental frequency (F0) and its standard deviation (sdF0), jitter (%),shimmer (%), noise-harmonic ratio (NHR), voice turbulence index (VTI) and soft phonation index (SPI) were assessed by Multi-Dimensional Voice Program (Kay Pentax). The comparison among the groups was held by ANOVA and Tukey and the correlations by Pearson\'s test (5% significance). During speech, men and women from 30-49 years-old have presented less G and R than the subjects 50-older (p<0,000) and women aged 50-59 had a greater B than women of 60-79 years-old (p=0,026). The parameters G and R increased with aging for men and women at the speech task, and B reduced in women at the sustained vowel task (p=0,005). About the acoustic measures, VTI was greater in subjects of 70-79 year-old than 40-49 ones (p<0,040). SPI of subjects from 40-49 years-old was the greatest. Positive correlation was found between aging, sdF0 and NHR in men (p<0,000 e 0,023), and negative for SPI in women (p=0,025). The higher F0 of mens voice, the greater is B (p=0,043); the more reduced F0 on women voice, the greater is R (p=0,006). Its relevant to study subjects on transition from adult to senior ages, since the differences on voice quality in subjects 50 or older are greater than in young people. Grouping the subjects by decade contributed to better understand of vocal aging. For instance, the 70 or older group have shown a greater VTI than people in their 40s, while this last group have shown a bigger SPI than others age ranges, in addition to evidenced differences related to breathiness that washigher in middle age women than in elderly. For both genders the bigger the general voice deviation, and the roughness, the bigger are parameters related to instability of frequency, its disturbance, intensity and noise ratios. With regard to breathiness, the correlation happens only to frequency instability, its disturbance, intensity and SPI. The correlation between F0 and vocal quality was different to men and women of the studied age ranges.
65

Influência da hidratação sistêmica na voz de coristas sem e com o aquecimento vocal / Influence of systemic hydration on choristers voices whilst warmed and unwarmed

Carla Marques de Sousa Xavier 12 December 2013 (has links)
Introdução: a água é componente vital para o desempenho das funções corporais e fundamental para a produção vocal. Sabe-se ainda que exercícios de aquecimento vocal preparam a voz para o canto. O propósito deste estudo foi investigar a influência da hidratação sistêmica na voz de coristas sem e com aquecimento vocal. Material e métodos: esta pesquisa teve a aprovação do CEP-FOB/USP, protocolo: 085/2011. Participaram 16 coristas, com média de idade de 49,38 anos, DP 14,74, sendo 12 do sexo feminino (75%) e quatro do sexo masculino (25%). Todos os coristas eram integrantes de coros há no mínimo um ano, saudáveis, sem queixas vocais e auditivas nos dias das avaliações e sem histórico de cirurgias laríngeas. Procedimentos: os participantes tiveram suas vozes avaliadas em dois dias não consecutivos, o primeiro na condição desidratado (D) e o segundo na condição hidratado (H). Em ambos os dias tiveram suas vozes gravadas antes (D1 e H1) e após a realização do aquecimento vocal (D2 e H2). Para a condição desidratado os coristas ficaram sem ingerir água durante as 12 horas que antecederam a primeira avaliação. Para a condição de hidratado houve a ingestão fracionada de três litros de água para os homens e dois litros para as mulheres no dia anterior ao dia da segunda avaliação. As condições hidratado e desidratado foram avaliadas por meio da coloração e gravidade específica da urina. Foi realizada a avaliação acústica dos parâmetros F0, jitter, shimmer e NHR, por meio do Multi Dimensional Voice Program (MDVP). A análise perceptivo-auditiva considerou o grau geral, a rugosidade, a soprosidade, a tensão, o pitch e o loudness da vogal /a/ sustentada por meio da escala visual analógica (EVA). As vozes foram analisadas pela fonoaudióloga que apresentou melhor análise intra-juiz (p=0,000 e r=0,77). Resultados: houve forte correlação entre os métodos da coloração e a gravidade específica da urina (r=0,807 e p<0,05). Na avaliação acústica houve redução da F0 e melhora do shimmer e na avaliação perceptivo-auditiva foi identificada melhora dos parâmetros da rugosidade, soprosidade, tensão e redução do pitch, nas vozes hidratadas sem aquecimento vocal. Nas vozes com aquecimento vocal a avaliação acústica revelou estabilidade da F0 e melhora do shimmer e na perceptivo-auditiva redução da rugosidade e do pitch. Conclusão: a hidratação sistêmica agiu positivamente na voz sem aquecimento vocal revelando na avaliação acústica redução da F0 e melhora do shimmer e na avaliação perceptivo-auditiva melhora dos parâmetros da rugosidade, soprosidade, tensão e redução do pitch. A hidratação sistêmica agiu positivamente na voz com aquecimento vocal revelando na avaliação acústica estabilidade da F0 e melhora do shimmer e na perceptivo-auditiva redução da rugosidade e do pitch. / Introduction: Water is a vital component for bodily functions and is fundamental for voice production. It is known that vocal warming exercises prepare the voice for singing. The purpose of this study was to investigate the influence of systemic hydration on choristers voices whilst warmed and unwarmed. Material and Methods: This research had the approval from CEP-FOB/USP protocol 085 2011. 16 choristers took part on the research, whose average age is 49.38 years (standard deviation 14,74), being 12 female (75%) and 4 male (25%). All choristers are healthy, do not present complaint on vocal or hearing issues during test days and do not possess history of laryngeal surgery. Procedure: the participants had their voices evaluated in two non-consecutive days, with hydrated voice (H) on the first day and with dehydrated voice (D) on the second. In both days, their voices were recorded before vocal warming (D1 and H1) and after vocal warming (D2 and H2.) For the dehydration condition, the choristers drank no water during the 12 preceding hours relative to the first test. For the hydration condition, fractioned water intake(3 liters for men and 2 liters for women) was held on the day before the second test. Hydrated and dehydrated conditions were determined by means of urine coloration and specific gravity. The acoustic evaluation was performed focusing in parameters F0, jitter, shimmer and NHR using the multidimensional voice program. The perceptual-auditory analysis considered the overall degree, rugosity, breathiness, tension, pitch and loudness of the sustained vowel a by visual analog scale. The voices were analyzed by the speech therapist who presented best intra-judge analysis (P = 0.000, R = 0.77). Results: The urine coloration and specific gravity have held strong correlation, with R = 0.807 and P < 0.05. On the acoustic evaluation, there has been reduction of F0 and shimmer improvement; and in the perceptive-auditory evaluation it was identified improvement on rugosity, breathiness, tension and reduction of pitch on hydrated unwarmed voices. On warmed voices, the acoustic evaluation revealed stability on F0 and improvement on shimmer; on the perceptive-auditory evaluation, rugosity and pitch have reduced. Conclusion: The systemic hydration acted positively on unwarmed voice revealing F0 reduction and shimmer improvement on the acoustic evaluation; and improvement on rugosity, breathiness, tension and pitch on the perceptive-auditory evaluation. Also, systemic hydration acted positively on the warmed voice, revealing F0 stability and shimmer improvement on the acoustic evaluation; and rugosity and pitch reduction on the perceptive-auditory evaluation.
66

Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN

Catalán Ludwig, Ignacio January 2011 (has links)
No description available.
67

Evaluación Automática de Pronunciación de Frases para Hablantes No Nativos

Benavides Berrios, Leopoldo Felipe Andrés January 2011 (has links)
No description available.
68

Efeito terapêutico do uso exclusivo do tubo de ressonância flexível na região glótica e no trato vocal supraglótico / Therapeutic effects of the exclusive use of the flexible resonance tube in glottal and supraglottal vocal tract

Nalesso, Karine Sandalo, 1978- 27 August 2018 (has links)
Orientadores: Lúcia Figueiredo Mourão, Helenice Yemi Nakamura / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas / Made available in DSpace on 2018-08-27T08:32:37Z (GMT). No. of bitstreams: 1 Nalesso_KarineSandalo_M.pdf: 1565659 bytes, checksum: f4ab75ad116aa663c627129c14198ae9 (MD5) Previous issue date: 2015 / Resumo: Disfonias funcionais são alterações de voz decorrentes do comportamento vocal e o uso impróprio da voz torna-se o principal desencadeador das disfonias. O tubo de ressonância flexível, considerado integrante dos Exercícios de Trato Vocal Semiocluído, é um dos possíveis tratamentos para alterações vocais, dentre elas as disfonias funcionais, por permite uma fonação de menor impacto, com economia vocal. O objetivo do presente estudo foi analisar o efeito do uso contínuo e exclusivo do tubo de ressonância flexível nos parâmetros acústicos da região glótica e nas medidas do trato vocal supraglótico em sujeitos com disfonia funcional, pré e pós-intervenção. Participaram adultos entre 20 e 50 anos, 10 mulheres e 2 homens, em oito sessões de terapia com frequência semanal. Os seguintes parâmetros acústicos foram analisados: média da frequência fundamental, jitter, shimmer, proporção harmônico-ruído, H1-H2 e ênfase espectral. Para análise dos frames de imagem do trato vocal, obtidos por videofluoroscopia, oito medidas foram analisadas: a medida de abertura de lábio absoluta, abertura de mandíbula, ápice do dorso de língua ao palato duro, raíz da língua á faringe, comprimento horizontal e vertical do trato vocal, nível glótico, medida entre epiglote e a terceira vértebra, pré e pós-terapia. A tarefa utilizada para as gravações da análise acústica e na videofluoroscopia foi a vogal /a/. Para análise acústica, cada parâmetro foi medido em três pontos distintos da vogal e para a análise dos dados de imagem cada parâmetro foi extraído cinco vezes de cada frame para garantir a confiabilidade dos dados obtidos. A análise comparativa dos parâmetros acústicos mostrou aumento na F0 para o grupo masculino (p<0,01) e diminuição de jitter após terapia exclusiva com tubo (p=0.04). Os demais parâmetros mostraram pequenas mudanças e estão próximos aos valores padrão para sujeitos sem alteração vocal. As medidas do trato vocal mostraram aumento após a terapia, porém, sem significância estatística. As vozes dos sujeitos estudados apresentam pouca alteração nos parâmetros mesmo durante a pré-avaliação. O método estatístico LDA apontou para um alto índice de previsão dos resultados nos dois momentos estudados, considerando o conjunto de dados analisados. O efeito do uso exclusivo e contínuo do tubo flexível de látex em sujeitos com disfonia funcional parece se relacionar, neste experimento, com a melhora da estabilidade da frequência dos ciclos glóticos e com o aumento do número de ciclos glóticos por segundo. Os resultados demonstram que o efeito é mais expressivo nos homens do que nas mulheres disfônicas, porém estudos com maior número de homens são recomendados. Observou-se que os efeitos acústicos e de imagem do uso prolongado e exclusivo do tubo de ressonância flexível podem ser diferentes dos resultados em estudos imediatos. Em relação aos parâmetros acústicos analisados o jitter e a F0 mostraram melhoras dos valores obtidos no momento pós-terapia. Quanto ao trato vocal o uso do Lax Vox, sugere expansão principalmente da cavidade oral. Assim, pode-se sugerir que a intervenção terapêutica exclusiva do tubo de látex melhora globalmente a atividade glótica e a supraglótica de pacientes com disfonia funcional / Abstract: Functional dysphonia is a voice disorder generated by an inappropriate vocal use. One of the semioccluded vocal tract exercises, the flexible resonance tube, is one of the exercises that can be used in the management of functional dysphonia. Using the flexible resonance tube in water generates a low impact between the vocal folds during phonation and it is known to induce the concept of vocal economy. The goal of this study was to analyze acoustical parameters and vocal tract images pre and post prolonged and exclusive use of flexible resonance tube therapy in adults with functional dysphonia. Method: Participated 8 women and 2 men with functional dysphonia who received eight voice therapy sessions using exclusively flexible resonance tube. The following acoustic parameters were analyzed: fundamental frequency mean, jitter, shimmer, harmonic-to-noise ratio, H1-H2 and spectral emphasis. The vocal tract images were analyzed with eight distance measurements: the absolute lip opening measures, opening jaw, tongue back from the apex to the hard palate, the tongue will pharynx root, horizontal and vertical length of the vocal tract, glottal level measured between the epiglottis and the third vertebra, were taken from the images recorded before and after voice therapy. The task used for the analysis was a sustained /a/ vowel and measurements were taken from three distinct points of the vowel. Voice recordings were taken for pre (at the first session) and post-test (at the end of the eighth session) purpose. Paired t-test (p <0.05) was used to compare the means of the parameters pre and post-treatment. A comparative analysis of the acoustic parameters showed increase in F0 for the male group (p <0.001). Jitter decreased after the vocal therapy process (p = 0.04). The other parameters presented results close to the typical range for subjects without voice disorders. The statistics method Linear Discriminant Analysis (LDA) showed a high level of prediction in characterizing the two studied moments. The effect of exclusive and prolonged use of the flexible resonance tube in subjects with functional dysphonia seems to be related, with improved stability of the frequency of glottal cycles and increased number of glottic cycle per second (higher F0). The results demonstrated a more significant effect on the men than women, but further studies with a larger number of men in the subject group are recommended. The effect of prolonged and exclusive use of flexible tube in patients with functional dysphonia seems to be related to the stabilization of glottal cycles of vocal fold vibration and the LDA results revealed that the use of Lax Vox can provide a global improvement, considering the acoustic and image parameters / Mestrado / Interdisciplinaridade e Reabilitação / Mestra em Saúde, Interdisciplinaridade e Reabilitação
69

Estudio comparativo de técnicas para robustez de sistemas de verificación de locutor texto independiente

Fredes Sandoval, Josué Abraham January 2015 (has links)
Ingeniero Civil Electricista / Las técnicas de biometría son métodos automáticos de verificación o reconocimiento de la identidad de una persona basándose en una característica fisiológica o de comportamiento. En este marco se encuentra la tarea de verificación de locutor, que es el proceso de verificar la identidad de una persona basada en su señal de voz. Un sistema de verificación de locutor usualmente es entrenado bajo ciertas condiciones de grabación o de canal de comunicación, y utilizar el sistema bajo otras condiciones de canal puede ser problemático. Debido a esto se han desarrollado diversas técnicas para cancelar o compensar el efecto del ruido y del canal, y así hacer la tecnología más robusta. En los últimos años se han propuesto nuevas técnicas basadas en análisis factorial que intentan modelar el efecto del canal de comunicación sobre la señal de voz. En este trabajo se analizan en detalle dos sistemas de análisis factorial: Joint Factor Analysis o JFA, y Total Variability Front-End Factor Analysis más conocido como i-Vectors. Se implementaron ambos sistemas para ser integrados al conjunto de softwares para ve- rificación de locutor del Laboratorio de Procesamiento y Transmisión de Voz, LPTV, de la Universidad de Chile. Los sistemas implementados se validaron usando un software de referencia que tiene rendimiento state-of-the-art. Al utilizar las mismas condiciones iniciales de entrenamiento, los sistemas JFA e i-Vectors desarrollados para el LPTV igualaron el rendimiento del software de referencia, validando así su implementación.
70

Características acústicas da voz de falantes do português brasileiro nos diferentes ciclos da vida /

Spazzapan, Evelyn Alves. January 2018 (has links)
Orientadora: Viviane Cristina de Castro Marino / Banca: Célia Maria Giacheti / Banca: Alcione Ghedini Brasolotto / Resumo: Introdução: Mudanças vocais ocorrem nos diferentes ciclos da vida podendo ser refletidas em medidas acústicas. Objetivo: investigar características da produção vocal de falantes do português brasileiro (PB) nos diferentes ciclos da vida a partir de um conjunto de medidas acústicas. Método: Foram incluídas 526 gravações de falantes do PB com idades entre 5 e 93 anos. As vozes desses falantes foram julgadas com qualidade vocal adequada para a idade por meio do parâmetro G da escala GRBAS. As gravações foram divididas em 12 grupos etários (5 a 7 anos; 8 a 9; 10 a 11; 12; 13 a 15; 16 a 18; 19 a 29; 30 a 39; 40 a 49; 50 a 59; 60 a 69 e 70 a 93 anos). Foi realizada análise acústica, extraindo os parâmetros: Frequência Fundamental (F0), jitter, shimmer e Noise-to-Harmonic Ratio (NHR) por meio do software Multi Dimensional Voice Program. O teste Two-Way ANOVA foi utilizado para investigar possíveis diferenças entre os grupos etários seguido do teste post-hoc Sidak para cada sexo separadamente. Para comparação entre os sexos dentro de cada faixa etária foi realizado o teste t student para amostras independentes. Resultados: Houve diminuição gradativa da F0 da infância à terceira idade para as mulheres. Idosas (60-93 anos) apresentaram F0 mais baixa do que os grupos etários com idades até 19 a 29 anos (p<0,00). Nos homens houve diminuição de F0 até a idade de 13 a 15 anos (p<0,00) e, depois, a mesma manteve-se estável. Diferenças entre os sexos ocorreram a partir da idade de 12 anos, c... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Introduction: Vocal changes occur in life span and can be reflected in acoustic measurements. Objective: To investigate changes in acoustics measurements across life span in Brazilian Portuguese speakers. Methods: Voice samples of 526 Brazilian Portuguese speakers with age ranging from five to 93 years were analyzed. They had their voice judged with absence of dysphonia by three Speech-Language-Pathologists using the G parameter of the GRBAS scale. The recordings were distributed into 12 age groups (5-7 years, 8- 9; 10-11; 12; 13-15; 16-18; 19-29; 30-39; 40-49; 50-59; 60-69 and 70-93 years) for acoustic analysis. Fundamental frequency (F0), jitter, shimmer and Noise-to-Harmonic Ratio (NHR) were extracted using the computerized Multi Dimensional Voice Program (MDVP). The Two-Way ANOVA test was used to investigate differences for all age groups followed by Post hoc Sidak to evaluate measures in each gender separately. F0, jitter, shimmer and NHR for both genders in each age group was compared using t test. Results: F0 decreased from childhood to the elderly for females. Elderly female voices showed lower F0 than age groups up to 19-29 years (p<0.00). In males, F0 decreased until group aged from 13 to 15 years (p <0.00) and then it remained stable. Significant F0 differences between boys and girls began at the age of 12 years (p<0,00), with higher F0 for girls than boys. Jitter was higher in childhood than elderly for females (p≤0.02). A decrease in jitter was observed for 70 to... (Complete abstract click electronic access below) / Mestre

Page generated in 0.0396 seconds