Global ETD Search

1	[en] COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION / [pt] ESTUDO COMPARATIVO DE TÉCNICAS DE DIARIZAÇÃO DE LOCUTOR MARCELO DE CAMPOS NIERO 25 July 2014 (has links) [pt] A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. / [en] The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation. [pt] AGRUPAMENTO DE LOCUTORES [pt] DIARIZACAO DE LOCUTOR
2	Verificação de locutores independente de texto: uma análise de robustez a ruído PINHEIRO, Hector Natan Batista 25 February 2015 (has links) Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2016-11-08T19:13:18Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Final.pdf: 15901621 bytes, checksum: e3bd1c1be70941932d970f61be02e4c1 (MD5) / Made available in DSpace on 2016-11-08T19:13:18Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Final.pdf: 15901621 bytes, checksum: e3bd1c1be70941932d970f61be02e4c1 (MD5) Previous issue date: 2015-02-25 / O processo de identificação de um determinado indivíduo é realizado milhões de vezes, todos os dias, por organizações dos mais diversos setores. Perguntas como "Quem é esse indivíduo?" ou "É essa pessoa quem ela diz ser?" são realizadas frequentemente por organizações financeiras, sistemas de saúde, sistemas de comércio eletrônico, sistemas de telecomunicações e por instituições governamentais. Identificação biométrica diz respeito ao processo de realizar essa identificação a partir de características físicas ou comportamentais. Tais características são comumente referenciadas como características biométricas e alguns exemplos delas são: face, impressão digital, íris, assinatura e voz. Reconhecimento de locutores é uma modalidade biométrica que se propõe a realizar o processo de identificação pessoal a partir das informações presentes unicamente na voz do indivíduo. Este trabalho foca no desenvolvimento de sistemas de verificação de locutores independente de texto. O principal desafio no desenvolvimento desses sistemas provém das chamadas incompatibilidades que podem ocorrer na aquisição dos sinais de voz. As técnicas propostas para suavizá-las são chamadas de técnicas de compensação e três são os domínios onde elas podem operar: no processo de extração de características do sinal, na construção dos modelos dos locutores e no cálculo do score final do sistema. Além de apresentar uma vasta revisão da literatura do desenvolvimento de sistemas de verificação de locutores independentes de texto, esse trabalho também apresenta as principais técnicas de compensação de características, modelos e scores. Na fase de experimentação, uma análise comparativa das principais técnicas propostas na literatura é apresentada. Além disso, duas técnicas de compensação são propostas, uma do domínio de modelagem e outra do domínio dos scores. A técnica de compensação de score proposta é baseada na Distribuição Normal Acumulada e apresentou, em alguns contextos, resultados superiores aos apresentados pelas principais técnicas da literatura. Já a técnica de compensação de modelo é baseada em uma técnica da literatura que combina dois conceitos: treinamento multi-condicional e Teoria dos Dados Ausentes (Missing Data Theory). A formulação apresentada pelos autores é baseada nos chamados Modelos de União a Posteriori (Posterior Union Models), mas não é completamente adequada para verificação de locutores independente de texto. Este trabalho apresenta uma formulação apropriada para esse contexto que combina os dois conceitos utilizados pelos autores com um tipo de modelagem utilizando UBMs (Universal Background Models). A técnica proposta apresentou ganhos de desempenhos quando comparada à técnica-padrão GMM-UBM, baseada em Modelos de Misturas Gaussianas (GMMs). / The personal identification of individuals is a task executed millions of times every day by organizations from diverse fields. Questions such as "Who is this individual?" or "Is this person who he or she claims to be?" are constantly made by organizations in financial services, health care, e-commerce, telecommunication systems and governments. Biometric identification is the process of identifying people using their physiological or behavioral characteristics. These characteristics are generally known as biometrics and examples of these include face, fingerprint, iris, handwriting and speech. Speaker recognition is a biometric modality which makes the personal identification by using speaker-specific information from the speech. This work focuses on the development of text-independent speaker verification systems. In these systems, speech from an individual is used to verify the claimed identity of that individual. Furthermore, the verification must occur independently of the pronounced word or phrase. The main challenge in the development of speaker recognition systems comes from the mismatches which may occur in the acquisition of the speech signals. The techniques proposed to mitigate the mismatch effects are referred as compensation methods. They may operate in three domains: in the feature extraction process, in the estimation of the speaker models and in the computation of the decision score. Besides presenting a wide description of the main techniques used in the development of text-independent speaker verification systems, this work presents the description of the main feature-, model- and score-based compensation methods. In the experiments, this work shows comprehensive comparisons between the conventional techniques and the alternatively compensations methods. Furthermore, two compensation methods are proposed: one operates in the model domain and the other in the score-domain. The scoredomain proposed compensation method is based on the Normal cumulative distribution function and, in some contexts, outperformed the performance of the main score-domain compensation techniques. On the other hand, the model-domain compensation technique proposed in this work is based on a method presented in the literature which combines two concepts: the multi-condition training and the Missing Data Theory. The formulation proposed by the authors is based on the Posterior Union models and is not completely appropriate for the text-independent speaker verification task. This work proposes a more appropriate formulation for this context which combines the concepts used by the authors with a type of modeling using Universal Background Models (UBMs). The proposed method outperformed the usual GMM-UBM modeling technique, based on Gaussian Mixture Models (GMMs).
3	Combinação de Características Para Segmentação em Transcrição de Locutores Neri, Leonardo Valeriano 21 February 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T19:16:26Z No. of bitstreams: 2 DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T19:16:26Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Leonardo Valeriano Neri.pdf: 1395784 bytes, checksum: f38db7dc7191951459624c0348b93e63 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-02-21 / Neste trabalho é apresentada uma abordagem de combinação de características para a etapa de segmentação de locutores em um sistema de transcrição de locutores. Esta abordagem utiliza diferentes características acústicas extraídas da fonte de áudio com o objetivo de combinar as suas capacidades de discriminação para diferentes tipos de sons, aumentando assim, a precisão da segmentação. O Critério de Informação Bayesiana (BIC - Bayesian Information Criterion) é usado como uma medida de distância para verificar a propensão de junção de dois segmentos do áudio. Uma Rede Neural Artificial (RNA) combina as respostas obtidas por cada característica após a aplicação de um algoritmo que detecta se há mudança em um trecho do áudio. Os índices de tempo obtidos são usados como entrada da rede neural que estima o ponto de mudança do locutor no trecho de áudio. Um sistema de transcrição de locutores que inclui a abordagem proposta é desenvolvido para avaliar e comparar os resultados com os do sistema de transcrição que utiliza a abordagem clássica de segmentação de locutores Window-Growing de Chen e Gopalakrishnan, aplicada às diferentes características acústicas adotadas neste trabalho. Nos experimentos com o sistema de transcrição de locutores, uma base artificial contendo amostras com vários locutores é usada. A avaliação dos resultados da etapa de segmentação do sistema mostra um aprimoramento em ambas as taxas de perda de detecção (MDR - Miss Detection Rate) e de falsos alarmes (FAR - False Alarm Rate) se comparadas à abordagem Window-Growing. A avaliação dos resultados na etapa de agrupamento dos locutores mostra uma melhora significativa na pureza dos grupos de locutores formados, calculada como o percentual de amostras de um mesmo locutor no grupo, demostrando que os mesmos são mais homogêneos. Bayesian information criterion Segmentação de locutores Combinação de características Redes neurais artificiais
4	?ndice de variabilidade : um crit?rio de avalia??o de par?metros ac?sticos de vogais orais e consoantes nasais como elemento para a per?cia de compara??o de locutores Pinto, M?rcio Oppliger 16 October 2017 (has links) Submitted by PPG Letras (letraspg@pucrs.br) on 2018-01-03T17:00:31Z No. of bitstreams: 1 Tese com capa Marcio.pdf: 15597602 bytes, checksum: ee2807dd0f16d970b2c29da908ad2a99 (MD5) / Approved for entry into archive by Tatiana Lopes (tatiana.lopes@pucrs.br) on 2018-01-04T16:52:25Z (GMT) No. of bitstreams: 1 Tese com capa Marcio.pdf: 15597602 bytes, checksum: ee2807dd0f16d970b2c29da908ad2a99 (MD5) / Made available in DSpace on 2018-01-04T17:03:15Z (GMT). No. of bitstreams: 1 Tese com capa Marcio.pdf: 15597602 bytes, checksum: ee2807dd0f16d970b2c29da908ad2a99 (MD5) Previous issue date: 2017-10-16 / The present research aimed to establish an indicator of variability of acoustic parameters used as elements of confrontation in the expert examination of Voice Comparison. The Variability Index proposed here considers the relationship between intraindividual and interindividual variability and is intended to serve as a reference to determine the advantage of one acoustic parameter over another among those used in Voice Comparison. Besides being obtained from the values of the vowel formants, traditional parameters in the Voice Comparison, the Variability Index was obtained from the nasal consonant formants and from the measurements of vocalic acoustic space and Euclidean Distances between vowels, with the aim to verify the applicability of these parameters in Voice Comparison examination. The stimulus that served as the basis for the study were tonic syllables pronounced in a carrier sentence and the data collection, performed repeatedly in different days and shifts, and aimed at the control of variability, favoring a minimum variability of the acoustic parameters. As for the method, twenty subjects participated in the data collection and the individual average coefficients of variation of the set and general average coefficients of variation of the set served as referents of intraindividual and interindividual variability respectively. As the results of variability, although were not achieved with nasal consonants, suggest that the Variability Index allows us to establish the best parameters to be used in the Voice Comparison. The Index allowed to order the vowels and also supported the proposal that the measurements of vocal acoustic space and Euclidean Distances are possible parameters to be used in Voice Comparison. Unlike Acoustic Phonetics and Articulatory, underlying the research, Articulatory Phonology composes the work as an accessory theoretical contribution in relation to the interpretation of the data of the present doctoral dissertation, but it is understood that it is a valuable theory to explain the linguistic data usually found in forensic practice. The Euclidean Distances between the vertices of the vocalic triangle - [a], [i] and [u] - served to propose an analysis of how the computational implementation of the Task Dynamics model, TADA, treats vowels in a continuously way and consonants as a categorical form. / A presente pesquisa buscou estabelecer um indicador de variabilidade de par?metros ac?sticos utilizados como elementos de confronto no exame pericial de Compara??o de Locutores. O ?ndice de Variabilidade proposto por este estudo considera a rela??o entre variabilidade intraindividual e interindividual e pretende-se que sirva como refer?ncia para determinar a vantagem de um par?metro ac?stico sobre outro dentre aqueles utilizados na Compara??o de Locutores. Al?m de ser obtido a partir dos valores dos formantes voc?licos, par?metros tradicionais na Compara??o de Locutores, o ?ndice de Variabilidade foi obtido com base nos formantes das consoantes nasais e a partir das medidas de espa?o ac?stico voc?lico e dist?ncias euclidianas entre vogais, com o intuito de verificar a aplicabilidade desses par?metros na Per?cia de Compara??o de Locutores. Os est?mulos que serviram de base para o estudo foram s?labas t?nicas pronunciadas em frase ve?culo e a coleta, realizada repetidamente em dias e turnos diferentes, e visou o controle da variabilidade, favorecendo uma variabilidade m?nima dos par?metros ac?sticos. Quanto ? metodologia, vinte indiv?duos participaram da coleta e os coeficientes de varia??o individual m?dio do conjunto e geral do conjunto serviram como referentes de variabilidade intraindividual e interindividual respectivamente. Os resultados de variabilidade, apesar de n?o terem sido bem-sucedidos no que diz respeito ?s consoantes nasais, sugerem que o ?ndice de Variabilidade permite estabelecer quais os melhores par?metros para serem utilizados na Compara??o de Locutores. O ?ndice permitiu ordenar as vogais e tamb?m embasou a proposta de que as medidas de espa?o ac?stico e de Dist?ncias Euclidianas s?o poss?veis par?metros a serem utilizados na Compara??o de Locutores. Diferentemente da Fon?tica Ac?stica e Articulat?ria, que fundamenta a pesquisa, a Fonologia Articulat?ria comp?e o trabalho como aporte te?rico acess?rio em rela??o a interpreta??o dos dados, por?m entende-se que seja teoria valiosa para explica??o dos dados lingu?sticos que usualmente encontram-se na pratica forense. As Dist?ncias Euclidianas entre os v?rtices do tri?ngulo voc?lico ? [a], [i] e [u] ? serviram para propor uma an?lise de como a implementa??o computacional do modelo da Din?mica de Tarefas, o TADA, trata vogais de forma cont?nua e consoantes de forma categ?rica. Fon?tica Ac?stica e Articulat?ria Fon?tica Forense Variabilidade Individual Compara??o de Locutores Fonologia Articulat?ria LINGUISTICA, LETRAS E ARTES::LETRAS
5	PROMOÇÃO DA CIDADANIA PELAS RÁDIOS COMUNITÁRIAS DO ABCD PAULISTA, SOB DESAFIOS E ENFRENTAMENTOS POLÍTICOS. / Promotion of citizenship trough community radios of Grande ABDC Paulista, under challenges and political confrontations VAZ FILHO, PEDRO SERICO 25 April 2016 (has links) Submitted by Noeme Timbo (noeme.timbo@metodista.br) on 2016-09-12T18:15:36Z No. of bitstreams: 1 Pedro Vaz2.pdf: 2854719 bytes, checksum: f8c9852f7246e0301c0955c8ec250003 (MD5) / Made available in DSpace on 2016-09-12T18:15:36Z (GMT). No. of bitstreams: 1 Pedro Vaz2.pdf: 2854719 bytes, checksum: f8c9852f7246e0301c0955c8ec250003 (MD5) Previous issue date: 2016-04-25 / This research, entitled "Promotion of citizenship through community radios of Grande ABCD Paulista, under challenges and political confrontations," studies eleven community radios authorized by the Ministry of Communications for the Grande ABCD Paulista. In the region, five cities, of the seven existing houses there community radios, as in Diadema (radios “Navegantes” and “Nova Diadema”); in Mauá (radios “Mauá” and “Z”); in Ribeirão Pires (radio “Pérola da Serra”); in Rio Grande da Serra (radio “Esplanada”) and in São Bernardo do Campo (the radios “Lírio dos Vales”, “Nova Riacho”, “Paraty”, “Princesa” and “Represa”). The other two cities of that region, Santo André and São Caetano do Sul, community stations are not authorized to register and there is none functioning. The aim of this study is to reveal the shape of the mentioned broadcasters; the contribution they provide to the promotion of citizenship and social inclusion; their structural operational issues for survival and actions to overcome these issues. The methodology used consists of bibliographic research, desk research, interviews, visits to the radios and programming study. It was studied the history of the region; the concepts of citizenship; participation; community broadcasting and the trajectory of the broadcasters. As a result, there was a query on official institutions for knowledge of community radios operating with permission in Grande ABCD Paulista. Later, followed the search several observation visits. The interviews had semi-structured features with the broadcasters and other subjects for this job, experts on this theme. It was concluded that there are numerous difficulties that the eleven community stations from Grande ABCD Paulista face to be able to keep operating radio stations. Maintenance of troubles occurs primarily by the force of legislation responsible for such community radio segment, which prevents you from getting commercial support and sponsorship. / Esta pesquisa, intitulada “Promoção da cidadania pelas rádios comunitárias do ABCD Paulista, sob desafios e enfrentamentos políticos”, estuda 11 rádios comunitárias autorizadas pelo Ministério das Comunicações para funcionamento no Grande ABCD Paulista. Na região, cinco cidades das sete ali existentes abrigam rádios comunitárias, como Diadema (rádios “Navegantes” e “Nova Diadema”); Mauá (rádios “Mauá” e “Z”); Ribeirão Pires (rádio “Pérola da Serra”); Rio Grande da Serra (rádio “Esplanada”) e São Bernardo do Campo (rádios “Lírio dos Vales”, “Nova Riacho”, “Paraty”, “Princesa” e “Represa”). As outras duas cidades daquele território, Santo André e São Caetano do Sul, não registram emissoras comunitárias autorizadas para funcionamento. O objetivo deste estudo é o de revelar o perfil das mencionadas emissoras; a contribuição que oferecem aos processos da promoção de cidadania e inclusão social; seus problemas operacionais estruturais para sobrevivência e reações para superação. A metodologia utilizada consiste em pesquisa bibliográfica, pesquisa documental, entrevistas, visitas às rádios e estudo de programação. Estudou-se o histórico da região; os conceitos de cidadania; participação; radiodifusão comunitária e a própria trajetória das emissoras. Na sequência, houve a consulta em instituições oficiais para o conhecimento das rádios comunitárias autorizadas para funcionamento no ABCD. Posteriormente, seguiu-se a pesquisa com várias visitas de observação. As entrevistas tiveram características semiestruturadas com os radialistas e demais depoentes para este trabalho, especialistas na presente temática. Concluiu-se que existem inúmeras dificuldades que as 11 emissoras comunitárias do ABCD Paulista enfrentam para conseguir manter as rádios funcionamento. A manutenção das dificuldades se dá principalmente pela força da legislação responsável por tal segmento radiofônico comunitário, que o impede de obter apoio comercial e patrocínios. CIENCIAS SOCIAIS APLICADAS::COMUNICACAO

1

Page generated in 0.049 seconds