• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 1
  • Tagged with
  • 8
  • 8
  • 7
  • 7
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Caracterização prosódica de sujeitos de diferentes variedades de fala do português brasileiro em diferentes relações sinal-ruído / Prosodic characterization of subjects from different Brazilian Portuguese varieties in different signal-to-noise ratio

Constantini, Ana Carolina, 1985- 05 August 2014 (has links)
Orientador: Plínio Almeida Barbosa / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-25T03:48:52Z (GMT). No. of bitstreams: 1 Constantini_AnaCarolina_D.pdf: 2193643 bytes, checksum: c28fc92dc576ce19800b7b9ebea2f365 (MD5) Previous issue date: 2014 / Resumo: A prosódia é uma informação fônica que está além do nível do segmento, e é usualmente estudada a partir da análise de três parâmetros fonético-acústicos clássicos: frequência fundamental, intensidade e duração. Embora estudada para muitas finalidades, a prosódia geralmente não é a primeira opção de investigação quando se busca conhecer mais sobre diferenças entre variedades de uma mesma língua, por exemplo. Desta forma, o presente trabalho pretende preencher essa lacuna no que diz respeito aos estudos prosódicos para caracterizar e diferenciar variedades faladas no Brasil. O objetivo desta tese de Doutorado foi estudar parâmetros prosódicos que pudessem caracterizar e posteriormente diferenciar sujeitos de diferentes variedades faladas do português brasileiro. Em um segundo momento, ruído aditivo foi incluído nas mesmas amostras de fala utilizadas para caracterizar a prosódia de diferentes variedades do português brasileiro, com o objetivo de entender melhor como os parâmetros prosódicos se comportam quando há inclusão de ruído nas amostras de fala, situação muito comum na área da Fonética Forense. O objetivo secundário da pesquisa foi aplicar testes perceptivos a ouvintes do português brasileiro com a finalidade de saber se eles seriam capazes de reconhecer e categorizar a origem dos falantes de acordo com suas falas. Analisamos amostras de fala espontânea de 35 sujeitos, do sexo masculino, de sete regiões brasileiras: São Paulo, Minas Gerais, Rio de Janeiro, Paraná, Distrito Federal, Região Nordeste e Região Norte. Todas as amostras de fala foram segmentadas em unidades Vogal-Vogal (unidade VV), unidades do tamanho da sílaba que compreendem um segmento que vai do início de uma vogal até o início da vogal imediatamente seguinte, incluindo as consoantes entre elas. O script BeatExtractor foi utilizado para este fim. Posteriormente, outro script (ProsodicDescriptorExtractor) foi executado para extrair oito medidas prosódico-acústicas das amostras de fala: taxa de elocução (unidades VV/s), média de z-score suavizado de duração de unidade VV, desvio-padrão de z-score suavizado de duração de unidade VV, assimetria de z-score suavizado de duração de unidade VV, taxa de proeminência (picos de z-score/s), mediana de frequência fundamental, ênfase espectral e taxa de unidades VV não proeminentes por segundo. Após a análise estatística, os resultados mostraram que cinco dos oito parâmetros conseguiram identificar ao menos uma variedade estudada e assim, diferenciá-la de outras. A mediana de F0 e a ênfase espectral foram capazes de criar dois grandes grupos que separaram DF e Região Norte de todas as outras variedades (exceto pela não diferenciação de DF e Paraná), mostrando que DF e Norte possuem valores maiores de ênfase espectral, bem como têm valores de F0 maiores que os falantes de outras variedades. Assimetria de z-score suavizado e taxa de unidades VV não proeminentes/s foram os parâmetros que colocaram DF e Norte em grupos diferentes. O desvio-padrão de z-score apontou para uma diferença entre dialetos falados na região Norte do Brasil e da Região Sul: a região Norte se diferenciou de SP, DF e Nordeste e SP, que, por sua vez, se diferenciou do PR. Concluímos, portanto, que os parâmetros prosódicos podem revelar características próprias de variedades faladas no Brasil. A análise das amostras de fala em diferentes relações sinal-ruído mostrou que mediana de F0 e ênfase espectral são os parâmetros que sofrem maior perturbação quando a relação sinal-ruído é baixa, sendo que os valores de ênfase espectral chegaram a sofrer mudanças de 154% em relação a seus valores originais. O resultado mostrou que a análise da estrutura rítmica é a mais robusta quando há presença de ruído nas amostras de fala. Por fim, os testes perceptivos foram aplicados em 20 falantes do português brasileiro e a variedade mais reconhecida foi a variedade falada no Rio de Janeiro, que chegou a apresentar 90% de acerto, seguida pela variedade falada no Nordeste do Brasil. Constatamos que a proximidade da região de origem dos ouvintes com a região da variedade presente no teste facilita a identificação correta da variedade / Abstract: Prosody is usually studied by means of three classic parameters: fundamental frequency, intensity and duration. As for as dialectology is concerned, prosody has not been the main focus of the research on different dialects. Our goal is to characterize and differentiate Brazilian Portuguese varieties using prosodic parameters. In order to do that, we analyzed the recordings of spontaneous speech from 35 male subjects from seven different Brazilian regions: São Paulo (SP), Minas Gerais (MG), Rio de Janeiro (RJ), Paraná (PR), Distrito Federal (DF), Northeast (NE) and North (N). The speech samples were segmented in Vowel-to-Vowel units (VV units) using the BeatExtractor script. Later, the ProsodicDescriptorExtractor script was used to extract eight prosodic measures which are: speech rate (VV units/s), mean, standard deviation and skewness of the normalized z-score, prominence rate (peaks of z-score/s), median of fundamental frequency, spectral emphasis and rate of non prominent VV units/s. The statistical analysis revealed that five prosodic parameters were able to identify at least one variety and then differentiate it from the others. Fundamental frequency median and spectral emphasis created two groups which separated N and DF (DF is located at West-Central region, near North region) from all the other varieties, considering that N and DF were characterized by high values of these two parameters. On the other hand, skewness of z-score and rate of non prominent VV units/s set DF and N in different groups. Standard deviation of z-score pointed to differences between North varieties and South varieties. We concluded that prosodic parameters can be useful to differentiate Brazilian Portuguese varieties. Another goal of the current study was to analyze the spontaneous speech 'recordings in distinct signal-to-noise ratios. The analysis has shown that Gaussian, additive noise modifies the values for median of F0 and spectral emphasis (the least has changed 154% related to the original values). The results revealed that the rhythmic organization of the speech chain is more indicated to the analysis of acoustic parameters in the presence of noise. Finally, 20 listeners were recruited to answer a perceptual test (free classification test) about the different varieties spoken in Brazil (we used the same spontaneous speech recordings to run the perceptual test). Rio de Janeiro was the most recognized variety, which presented 90% of correct answers, followed by the NE variety. The closeness of the listeners¿ own origin to the regions of the spoken varieties contributed to correct identifications / Doutorado / Linguistica / Doutora em Linguística
2

Uso de técnicas acústicas para verificação de locutor em simulação experimental / Using techniques of acoustic analysis in an experimental simulation of speaker verification

Machado, Aline, 1989- 26 August 2018 (has links)
Orientador: Plínio Almeida Barbosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-26T13:16:38Z (GMT). No. of bitstreams: 1 Machado_Aline_M.pdf: 1068208 bytes, checksum: 5fde2bb97b66beab86daeec0c2e28087 (MD5) Previous issue date: 2014 / Resumo: Esta pesquisa investiga a eficácia de um conjunto de medidas acústicas para o reconhecimento da fala de um indivíduo em um grupo de dez falantes do português brasileiro. Um sujeito desse grupo foi sorteado e nomeado o "criminoso". Entre as medidas usadas na pesquisa estão, as frequências dos dois primeiros formantes das vogais, a frequência fundamental média, a duração de unidades do tamanho da sílaba e da vogal, a dinamicidade dos formantes e o desvio padrão de durações de intervalos consonânticos ('delta'C). Todos os trechos escolhidos são de entrevistados divididos em dois grupos, (i) entrevistas ao ar livre e (ii) gravações telefônicas (de celular para celular). Os indivíduos consistem em falantes do português brasileiro das regiões do estado de São Paulo, Rio Grande do Sul, Pará e Bahia. Nesta pesquisa fazemos um apanhado histórico da Fonética Forense, os métodos de análise utilizados ao longo história e também quais parâmetros acústicos mais usados para diferentes contextos de gravação, direta e por celular e quais deles foram mais significantes na pesquisa. Em nossos resultados, os parâmetros que menos sofreram variação com a mudança de canal de transmissão foram parâmetros de ritmo e tempo, como duração, taxa de elocução, 'delta'C; e um parâmetro que mede a dinamicidade do formante, que foi a taxa de movimento do segundo formante. As medidas temporais da pesquisa, por serem as mais variáveis inter-sujeito, tiveram grande poder discriminador. Os testes estatísticos apontaram que três dos indivíduos estudados, apresentavam semelhanças com o "criminoso" / Abstract: The aim of this research is to use some acoustic techniques for recognizing a subject in a group of ten speakers of the Brazilian Portuguese variety and pointing out what are the most relevant acoustic parameters for speaker recognition in that group. The analysis of the first two formants for the oral vowels, fundamental frequency, speech length, formant movement rate, syllable-sized duration, intensity and 'delta'C (standard deviation of consonantal interval durations of the collected samples) will help identifying an individual from within the group. All the samples are from interviews made in a poorly treated acoustic environment and into a mobile phone. Moreover, the samples of one the speakers (the "criminal"), which were collected in an acoustically-treated room, will simulate the questioned pattern of the forensic situation / Mestrado / Linguistica / Mestra em Linguística
3

Identificación de locutor en el marco de la fonética forense en el Perú

Torres Castillo, Fernando Aarón 30 October 2023 (has links)
Esta tesis describe y compara las características fonéticas de muestras indubitadas (muestras en las que no hay dudas acerca de la identidad del locutor pues se obtienen a partir de audiencias, declaraciones y tomas de muestra de voz) y muestras dubitadas (muestras de las que se tiene dudas acerca de la identidad del locutor pues se obtienen de audios de llamadas telefónicas o grabaciones donde el locutor no se identifique). Los audios analizados pertenecen a un caso de corrupción de funcionarios en una región del sur del Perú, y se optó por mantener a los implicados en el anonimato, son siete (07) los efectivos policiales implicados, pero solo se consideraron tres (03). Las muestras de voz dubitadas han sido proporcionadas por el Ministerio Público – Fiscalía de la Nación. Dos de las muestras indubitadas se recogieron a través de diligencias de toma de muestra de voz; y la tercera corresponde al archivo informático de una audiencia solicitada al Poder Judicial que corresponde a otro imputado. En esta investigación, las muestras se organizan e interpretan en el software SplitsTree4 con el objetivo de verificar si las voces de los locutores de las muestras indubitadas se encuentran también en los audios de las muestras dubitadas. Asimismo, se utiliza el programa SIS II (del paquete IKAR LAB del Speech Technology Center) para corroborar la correspondencia de voces a partir del análisis biométrico de voz. En primer lugar, todos los audios fueron segmentados y anotados con rasgos fonéticos particulares, cuya presencia y/o ausencia fue codificada de manera binaria y sistemática para cada voz participante. Luego, esta información fue procesada por el programa SplitsTree4 con la finalidad de reordenar los rasgos conforme a la cantidad de voces participantes y dilucidar la coincidencia entre las voces de las muestras intervinientes. La presente tesis obtuvo resultados positivos con respecto del método implementado; en relación al uso de rasgos fonéticos para la identificación forense de voz. Esto establece un aporte significativo concerniente a la aplicación de tecnología forense a la justicia en el Perú y establece un precedente metodológico que puede ser replicado por otros países. / This thesis describes and compare the phonetic characteristics of unquestionablespeaker samples (samples in which there is no doubt about the identity of the speaker as they are obtained from hearings, statements and sampled voices) and questionable-speaker samples (samples in which there is doubt about the identity of the speaker as they are obtained from audios of telephone calls or recordings where the speaker does not identify him/herself). The audios analyzed belong to a case of corruption of officials in a region of southern Peru, and it was decided to keep those involved anonymous, and the decision was made to keep those involved anonymous, there are seven (07) police officers implicated, but only three (03) were considered. The questionable-speaker samples have been provided by the Public Prosecutor's Office (Ministerio Público - Fiscalía de la Nación). Two of the unquestionable-speaker samples were collected through voice sampling diligences, and the third sample was obtained from the digital files of a hearing requested to the Judiciary that corresponds to another defendant. In this research, the samples are organized and interpreted in the SplitsTree4 software in order to verify if the voices of the speakers of the unquestionable-speaker samples are also found in the audios of the questionable-speaker samples. In addition, the SIS II software (from the IKAR LAB package of the Speech Technology Center) is used to corroborate the voice correspondence from the biometric voice analysis. First, all the audios were segmented and annotated with particular phonetic features, whose presence and/or absence was coded in a binary and systematic form for each participating voice. Then, this information was processed by the SplitsTree4 software in order to reorder the features according to the number of participating voices and to elucidate the coincidence between the voices of the intervening samples. The present thesis obtained positive results with respect to the implemented method; in relation to the use of phonetic features for forensic voice identification. This establishes a significant contribution concerning the application of forensic technology to justice in Peru and establishes a precedent method that can be replicated by other countries.
4

Medidas de duração de consoantes oclusivas como vestígios de fala em análise acústico-instrumental forense de amostras com e sem uso de disfarce / Stop consonants term measures as remains in forensic acoustic instrumental analysis of disguised and normal speech

Carneiro, Denise de Oliveira 24 August 2016 (has links)
A atribuição de autoria a falas provenientes de gravações ambientais e interceptações telefônicas de falas que provêm de crimes como tráfico de drogas, estelionato, sequestro, abuso sexual, pedofilia, e corrupção pode apresentar à perícia vários dificultadores para a obtenção de medidas acústicas. Um desses dificultadores pode ser o disfarce de voz. Com a possibilidade de ter suas vozes gravadas, o disfarce tem se tornado comum entre os perpetradores de crimes. Quando a voz é gravada, poderá servir como prova a partir do exame de comparação de locutor (ECL), que reúne metodologias para determinar se duas amostras de fala provêm do mesmo falante. O ECL é realizado por meio de análise perceptivo-auditiva, acústico-instrumental e de reconhecimento automático. Embora já tenham sido desenvolvidas tecnologias de verificação automática, as análises sem interferência humana não apresentam respaldo suficiente, seja pela má qualidade do sinal ou pela escassez de amostras de fala em banco de dados e, por isso, as pesquisas que ancorem as outras modalidades de análise são essenciais. A análise acústico-instrumental emprega ferramentas computacionais para avaliação quantitativa e qualitativa da fala e a engenharia biomédica possibilita o desenvolvimento de tecnologias para instrumentação da análise do sinal de fala. Em busca de um parâmetro acústico que seja robusto em análises de disfarce de voz, este trabalho utilizou medidas de duração de fases de segmentos, que têm sido pouco exploradas em ECL. As consoantes oclusivas não vozeadas do português brasileiro [p, t, k] são produzidas em três fases distintas: fase de oclusão, fase de soltura e transição formântica. As duas primeiras fases apresentam correlatos acústicos que se destacam na visualização do oscilograma: silêncio relativo e produção de ondas aperiódicas. Nesta pesquisa, foram analisadas instrumentalmente as falas de 20 sujeitos, 10 do sexo masculino e 10 do sexo feminino, com idades entre 25 e 55 anos, durante a leitura, com e sem o uso de disfarce, de um texto que simulava uma situação criminosa. Foram obtidas medidas dos tempos de oclusão e soltura das consoantes não vozeadas e constatou-se que o contexto fonológico posterior influencia o tempo de produção. Verificaram-se medidas diferentes entre a primeira e a segunda leitura com uso do disfarce, indicando que o falante apresentou dificuldade na manutenção do ajuste fonatório e que, embora tenham sido encontradas diferenças entre as medidas obtidas em fala com e sem disfarce, a correlação é forte entre as mesmas. O tempo de oclusão aparentou comportamento menos influenciável pelo uso do disfarce para as sílabas [pi, pu, te, tɛ], enquanto o tempo de soltura demonstrou maior suscetibilidade, exceto em [pi, te]. Os resultados permitem que alguns dos segmentos analisados sejam considerados vestígios de autoria dentro de um conjunto probatório. / Authorship attribution of speech, from environmental recordings and telephone interceptions, which can be evidence of crimes related to drug dealing, racketeering, kidnapping, sexual abuse, pedophilia, and corruption, may present difficulties to experts in obtaining acoustic measures. One of these difficulties may be the use of disguise. With the possibility of being recorded, voice disguise has become common among crime perpetrators. When a voice is recorded, it can be an evidence after speaker comparison examination (SCE), which adopts methodologies to determine whether two speech samples have been produced by the same speaker. SCE can be perceptual, acoustic-instrumental and through automatic recognition. Although automatic recognition technologies have already been developed, analyses without human interference do not have enough support, both for poor signal quality or for lack of speech samples. Therefore, research that is anchored in other analysis methods are essential. Acoustic-instrumental analyses use computational tools for quantitative and qualitative evaluation of speech, and biomedical engineering enables the development of technologies and instrumentation for speech signal analyses. In search of an acoustic parameter that is robust in disguise analyses, this research used segment phase measurements, which have been little explored in SCE. Brazilian Portuguese voiceless stops [p, t, k] are produced in three distinct phases: occlusion phase, release phase and formant transition. The first two phases have acoustic correlates that are visually distinct in the oscillogram: relative silence and aperiodic wave production. In this research, the speech of 20 subjects were instrumentally analyzed, 10 males and 10 females, aged between 25 and 55 years, while reading, with and without the use of disguise, a text that simulated a criminal situation. Occlusion and release duration of the voiceless stop consonants were measured and it was found that the phonological context influences the production time. Different measures were found between the first and the second reading with disguised voice, indicating that the speaker had difficulty in maintaining the phonation setting, and that, although there were differences between the measures in speech with and without disguise, the correlation between them was strong. Occlusion time appeared to be less influenced by the use of disguise for the syllables [pi, pu, te, tɛ], while the release time showed greater susceptibility, except for [pi, te]. The results allow that some of the segments analyzed be considered vestiges of authorship within a body of evidence.
5

Medidas de duração de consoantes oclusivas como vestígios de fala em análise acústico-instrumental forense de amostras com e sem uso de disfarce / Stop consonants term measures as remains in forensic acoustic instrumental analysis of disguised and normal speech

Carneiro, Denise de Oliveira 24 August 2016 (has links)
A atribuição de autoria a falas provenientes de gravações ambientais e interceptações telefônicas de falas que provêm de crimes como tráfico de drogas, estelionato, sequestro, abuso sexual, pedofilia, e corrupção pode apresentar à perícia vários dificultadores para a obtenção de medidas acústicas. Um desses dificultadores pode ser o disfarce de voz. Com a possibilidade de ter suas vozes gravadas, o disfarce tem se tornado comum entre os perpetradores de crimes. Quando a voz é gravada, poderá servir como prova a partir do exame de comparação de locutor (ECL), que reúne metodologias para determinar se duas amostras de fala provêm do mesmo falante. O ECL é realizado por meio de análise perceptivo-auditiva, acústico-instrumental e de reconhecimento automático. Embora já tenham sido desenvolvidas tecnologias de verificação automática, as análises sem interferência humana não apresentam respaldo suficiente, seja pela má qualidade do sinal ou pela escassez de amostras de fala em banco de dados e, por isso, as pesquisas que ancorem as outras modalidades de análise são essenciais. A análise acústico-instrumental emprega ferramentas computacionais para avaliação quantitativa e qualitativa da fala e a engenharia biomédica possibilita o desenvolvimento de tecnologias para instrumentação da análise do sinal de fala. Em busca de um parâmetro acústico que seja robusto em análises de disfarce de voz, este trabalho utilizou medidas de duração de fases de segmentos, que têm sido pouco exploradas em ECL. As consoantes oclusivas não vozeadas do português brasileiro [p, t, k] são produzidas em três fases distintas: fase de oclusão, fase de soltura e transição formântica. As duas primeiras fases apresentam correlatos acústicos que se destacam na visualização do oscilograma: silêncio relativo e produção de ondas aperiódicas. Nesta pesquisa, foram analisadas instrumentalmente as falas de 20 sujeitos, 10 do sexo masculino e 10 do sexo feminino, com idades entre 25 e 55 anos, durante a leitura, com e sem o uso de disfarce, de um texto que simulava uma situação criminosa. Foram obtidas medidas dos tempos de oclusão e soltura das consoantes não vozeadas e constatou-se que o contexto fonológico posterior influencia o tempo de produção. Verificaram-se medidas diferentes entre a primeira e a segunda leitura com uso do disfarce, indicando que o falante apresentou dificuldade na manutenção do ajuste fonatório e que, embora tenham sido encontradas diferenças entre as medidas obtidas em fala com e sem disfarce, a correlação é forte entre as mesmas. O tempo de oclusão aparentou comportamento menos influenciável pelo uso do disfarce para as sílabas [pi, pu, te, tɛ], enquanto o tempo de soltura demonstrou maior suscetibilidade, exceto em [pi, te]. Os resultados permitem que alguns dos segmentos analisados sejam considerados vestígios de autoria dentro de um conjunto probatório. / Authorship attribution of speech, from environmental recordings and telephone interceptions, which can be evidence of crimes related to drug dealing, racketeering, kidnapping, sexual abuse, pedophilia, and corruption, may present difficulties to experts in obtaining acoustic measures. One of these difficulties may be the use of disguise. With the possibility of being recorded, voice disguise has become common among crime perpetrators. When a voice is recorded, it can be an evidence after speaker comparison examination (SCE), which adopts methodologies to determine whether two speech samples have been produced by the same speaker. SCE can be perceptual, acoustic-instrumental and through automatic recognition. Although automatic recognition technologies have already been developed, analyses without human interference do not have enough support, both for poor signal quality or for lack of speech samples. Therefore, research that is anchored in other analysis methods are essential. Acoustic-instrumental analyses use computational tools for quantitative and qualitative evaluation of speech, and biomedical engineering enables the development of technologies and instrumentation for speech signal analyses. In search of an acoustic parameter that is robust in disguise analyses, this research used segment phase measurements, which have been little explored in SCE. Brazilian Portuguese voiceless stops [p, t, k] are produced in three distinct phases: occlusion phase, release phase and formant transition. The first two phases have acoustic correlates that are visually distinct in the oscillogram: relative silence and aperiodic wave production. In this research, the speech of 20 subjects were instrumentally analyzed, 10 males and 10 females, aged between 25 and 55 years, while reading, with and without the use of disguise, a text that simulated a criminal situation. Occlusion and release duration of the voiceless stop consonants were measured and it was found that the phonological context influences the production time. Different measures were found between the first and the second reading with disguised voice, indicating that the speaker had difficulty in maintaining the phonation setting, and that, although there were differences between the measures in speech with and without disguise, the correlation between them was strong. Occlusion time appeared to be less influenced by the use of disguise for the syllables [pi, pu, te, tɛ], while the release time showed greater susceptibility, except for [pi, te]. The results allow that some of the segments analyzed be considered vestiges of authorship within a body of evidence.
6

O efeito do telefone celular no sinal da fala : uma análise fonético-acústica com implicações para a verificação de locutor em português brasileiro / The mobile phone effect over the speech signal : an acoustic-phonetic analysis with implications for speaker verification in Brazilian Portuguese

Passetti, Renata Regina, 1981- 27 August 2018 (has links)
Orientador: Plínio Almeida Barbosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-27T03:40:06Z (GMT). No. of bitstreams: 1 Passetti_RenataRegina_M.pdf: 2198292 bytes, checksum: 75f3471d8eeffbfb0346d7705e4ea136 (MD5) Previous issue date: 2015 / Resumo: Esta dissertação avalia os efeitos causados ao sinal da fala pela transmissão telefônica de linhas móveis e, com isso, busca determinar o grau de modificação fonético-acústica intralocutor causado pelo filtro de banda do canal telefônico à voz habitual e os efeitos que a transmissão telefônica exerce sobre as vogais orais do português brasileiro, pelo estudo de parâmetros acústicos que são afetados por esse tipo de transmissão. As análises investigaram quais características acústicas eram modificadas e quais permaneciam inalteradas na fala de indivíduos diante da utilização de telefones celulares quando comparadas a gravações diretas. O corpus constitui-se de gravações de 10 locutores do sexo masculino, realizadas de forma simultânea nas condições via celular e direta, pelo posicionamento de um microfone em frente aos sujeitos enquanto falavam ao celular. As vogais orais do português brasileiro foram transcritas e segmentadas e, posteriormente, foi utilizado o script ForensicDataTrecking para extração automática das seguintes classes de parâmetros: frequência dos três primeiros formantes (F1, F2 e F3), frequência fundamental (F0), ênfase espectral, frequência de base da fundamental (baseline) e duração interpicos de F0 presentes no discurso. Foram conduzidas análises acústicas com o objetivo investigar os efeitos da transmissão telefônica sobre as vogais orais do português brasileiro, sobre os locutores e no espaço vocálico dos locutores. As análises foram validadas estatisticamente. Para a análise do efeito da transmissão telefônica sobre as vogais orais do português brasileiro, os resultados revelam alterações nas frequências do primeiro e o terceiro formante de, aproximadamente, 14%, na condição telefônica. Em relação às frequências do segundo formante, os resultados da análise de dispersão mostraram que a transmissão telefônica agiu de forma a aumentar artificialmente as frequências de vogais com baixos valores de F2 e a diminuir as frequências de vogais com altos valores de F2. Dos parâmetros acústicos investigados na análise dos efeitos da transmissão telefônica sobre os locutores, apenas a baseline e a duração interpicos de F0 não apresentaram diferenças estatisticamente significativas entre as duas condições de gravação, indicando robustez aos efeitos da transmissão telefônica e podendo ser considerados como parâmetros eficazes na análise forense. Esta análise revelou, também, que a transmissão telefônica agia de maneira distinta nos sujeitos, o que permitiu que fossem agrupados a depender do parâmetro investigado. A análise do efeito telefônico no espaço vocálico dos sujeitos complementou os resultados das análises anteriores. De modo geral, observou-se um abaixamento global do espaço vocálico na gravação telefônica, influenciado pelo aumento nas frequências de F1. A diminuição dos valores de F2 para as vogais anteriores e o aumento nos valores deste formante para vogais posteriores comprimiu o espaço vocálico da maioria dos sujeitos. As modificações nas disposições das vogais têm implicações perceptuais, uma vez que o abaixamento e redução do espaço vocálico fizeram com que as vogais se situassem proximamente a regiões centrais, podendo soar como mais abertas no telefone celular / Abstract: This dissertation evaluates the effects to speech signal due to telephone transmission of mobile phones and seeks to determine the degree of intra-speaker acoustic-phonetic modification caused by the mobile phone band-pass filter to the speech signal and the telephone transmission effects over the Brazilian Portuguese oral vowels by the study of the acoustic parameters affected by this kind of transmission. The analysis investigated which are the acoustic cues which are modified and which cues remain undifferentiated in the speaker's speech by the use of a mobile phone in comparison to direct recordings. The corpus used consists of simultaneous recordings of 10 male speakers in two conditions: via mobile phone and face-to-face, by placing a microphone directly in front of the subjects. The Brazilian Portuguese oral vowels were segmented and transcribed and the ForensicDataEvaluator script was used to automatically extract the following acoustic parameters: three first formants frequencies (F1, F2 and F3), median of fundamental frequency (F0), spectral emphasis, fundamental frequency baseline and F0 inter-peaks duration. The acoustic analyses aimed at investigating the telephone transmission effects over the Brazilian Portuguese oral vowels, over the speakers and at the speakers¿ vowel space. The analyses were supported statistically. The analysis of the telephone transmission effect over the Brazilian Portuguese oral vowels showed variations of 14% in the frequencies of the first and the third formants. The analysis of the scatter plot of F2 values showed that the mobile phone band-pass filtering has an effect of shifting upwards vowels with low values of F2 and shifting downwards vowels with high values of F2. For the analysis of the telephone transmission effects over the speaker only the acoustic parameters "fundamental frequency baseline" and "F0 inter-peaks duration" did not show any difference statistically significant between the two recording conditions, demonstrating robustness to the telephone transmission effects, which make them able to be considered as powerful parameters for forensic analysis. This analysis also revealed that the telephone transmission affects the speakers in different ways, which set them into different groups of speakers depending on the parameter analyzed. The analysis of the telephone effect in the speakers¿ vowel space shed some light on the previous analyses. In general, the increase of the F1 values in the mobile phone situation caused a global downward displacement of the vowel space. The decrease of the F2 values for the front vowels and the increase of the values of this formant for back vowels reduced the area of the vowel space for the most of the subjects. The vowels rearrangement at the vowel space in the telephone situation has some perceptual implications, since the lowering and reduction of the vowel space made the vowels be placed at its center, which could result in hearing these vowels as more open over the mobile phone / Mestrado / Linguistica / Mestra em Linguística
7

Método para reconhecimento de vogais e extração de parâmetros acústicos para analises forenses / Method for recognition of vowels and extraction of acoustic parameters for forensic analysis

Dresch, Andrea Alves Guimarães 14 December 2015 (has links)
Exames de Comparação Forense de Locutores apresentam características complexas, demandando análises demoradas quando realizadas manualmente. Propõe-se um método para reconhecimento automático de vogais com extração de características para análises acústicas, objetivando-se contribuir com uma ferramenta de apoio nesses exames. A proposta baseia-se na medição dos formantes através de LPC (Linear Predictive Coding), seletivamente por detecção da frequência fundamental, taxa de passagem por zero, largura de banda e continuidade, sendo o agrupamento das amostras realizado por meio do método k-means. Experimentos realizados com amostras de três diferentes bases de dados trouxeram resultados promissores, com localização das regiões correspondentes a cinco das vogais do Português Brasileiro, propiciando a visualização do comportamento do trato vocal de um falante, assim como detecção de trechos correspondentes as vogais-alvo. / Forensic speaker comparison exams have complex characteristics, demanding a long time for manual analysis. A method for automatic recognition of vowels, providing feature extraction for acoustic analysis is proposed, aiming to contribute as a support tool in these exams. The proposal is based in formant measurements by LPC (Linear Predictive Coding), selectively by fundamental frequency detection, zero crossing rate, bandwidth and continuity, with the clustering being done by the k-means method. Experiments using samples from three different databases have shown promising results, in which the regions corresponding to five of the Brasilian Portuguese vowels were successfully located, providing visualization of a speaker’s vocal tract behavior, as well as the detection of segments corresponding to target vowels.
8

Método para reconhecimento de vogais e extração de parâmetros acústicos para analises forenses / Method for recognition of vowels and extraction of acoustic parameters for forensic analysis

Dresch, Andrea Alves Guimarães 14 December 2015 (has links)
Exames de Comparação Forense de Locutores apresentam características complexas, demandando análises demoradas quando realizadas manualmente. Propõe-se um método para reconhecimento automático de vogais com extração de características para análises acústicas, objetivando-se contribuir com uma ferramenta de apoio nesses exames. A proposta baseia-se na medição dos formantes através de LPC (Linear Predictive Coding), seletivamente por detecção da frequência fundamental, taxa de passagem por zero, largura de banda e continuidade, sendo o agrupamento das amostras realizado por meio do método k-means. Experimentos realizados com amostras de três diferentes bases de dados trouxeram resultados promissores, com localização das regiões correspondentes a cinco das vogais do Português Brasileiro, propiciando a visualização do comportamento do trato vocal de um falante, assim como detecção de trechos correspondentes as vogais-alvo. / Forensic speaker comparison exams have complex characteristics, demanding a long time for manual analysis. A method for automatic recognition of vowels, providing feature extraction for acoustic analysis is proposed, aiming to contribute as a support tool in these exams. The proposal is based in formant measurements by LPC (Linear Predictive Coding), selectively by fundamental frequency detection, zero crossing rate, bandwidth and continuity, with the clustering being done by the k-means method. Experiments using samples from three different databases have shown promising results, in which the regions corresponding to five of the Brasilian Portuguese vowels were successfully located, providing visualization of a speaker’s vocal tract behavior, as well as the detection of segments corresponding to target vowels.

Page generated in 0.6589 seconds