Global ETD Search

421	Implementação de um sistema de conversão texto-fala para o portugues do Brasil Simões, Flavio Olmos 05 December 1999 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T08:07:11Z (GMT). No. of bitstreams: 1 Simoes_FlavioOlmos_M.pdf: 9956793 bytes, checksum: 8d654fa1bd86ed42fb407fa653d24f41 (MD5) Previous issue date: 1999 / Resumo: A síntese de fala a partir de texto é o principal objeto de estudo desse trabalho. As dificuldades principais do processo de conversão texto-fala são colocadas em questão e uma estratégia de implementação de um sistema de conversão texto-fala para o português do Brasil é apresentada. Esse sistema, baseado no método de síntese concatenativa, utiliza um inventário de 2.450 segmentos de fala pré-gravados e é capaz de empregar duas técnicas de síntese distintas: TD-PSOLA e síntese híbrida. A adoção de critérios lingüísticos cuidadosos, principalmente na etapa de transcrição fonética e na elaboração do inventário de unidades constitui o ponto chave deste trabalho. A notação fonética utilizada diferencia dois tipos de segmentos fonéticos (plenos e reduzidos), que se distinguem no grau pelo qual estão sujeitos a fenômenos de coarticulação. O inventário de unidades foi constituído de forma a preservar segmentos reduzidos e encontros vocálicos. No intuito de reduzir o tamanho do inventário, alguns cortes no interior de segmentos reduzidos foram efetuados. Mas uma vez, nesse caso, utilizaram-se critérios lingüísticos cuidadosos, a fim de minimizar descontinuidades espectrais após a concatenação / Abstract: Text-to-speech synthesis is the main subject treated in this work. Most of the difficulties related to this task are discussed, and an implementation of Brazilian Portuguese text-to-speech concatenative synthesis system is presented. The system uses an inventory of 2,450 pre-recorded speech segments, and is able to employ two distinct synthesis techniques: TD-PSOLA and hybrid synthesis. The use of carefully chosen linguistic criteria, mainly during phonetic transcription and also during the creation of the speech segments inventory, is the main contribution of this work. The phonetic notation employed here distinguishes two kinds of phonetic segments (full and reduced), on the basis of the extension of coarticulation phenomena. The main criterion underlying the building of the speech segments inventory was to preserve reduced segments and vowel clusters. Nevertheless, some of the reduced segments were split, aiming at reducing the size of the inventory. Once again, in this case, specific linguistic criteria were employed, in order to minimize spectral discontinuities after concatenation / Mestrado / Mestre em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Interação humano-máquina
422	O que nos dizem os vídeos da Rede Coque Vive? Oliveira, Vinícius Andrade de 28 March 2013 (has links) Submitted by Chaylane Marques (chaylane.marques@ufpe.br) on 2015-03-04T19:19:28Z No. of bitstreams: 2 Dissertação Vinícius Andrade.pdf: 1455282 bytes, checksum: 4c7190bd87f6f7cfd256067df1ce4d7b (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-04T19:19:28Z (GMT). No. of bitstreams: 2 Dissertação Vinícius Andrade.pdf: 1455282 bytes, checksum: 4c7190bd87f6f7cfd256067df1ce4d7b (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-03-28 / O presente trabalho apresenta uma investigação acerca da produção audiovisual da Rede Coque Vive, formada pelo Núcleo Educacional Irmãos Menores de Francisco de Assis (NEIMFA), o Movimento Arrebentando Barreiras Invisíveis (MABI) e estudantes da Universidade Federal de Pernambuco (UFPE). Uma das frentes de ação dessa rede, formada em 2006 com o intuito de problematizar os discursos midiáticos que davam conta de um Coque puramente violento, é a produção de vídeos que versam sobre a vida no bairro, o estigma sofrido por ele, os processos de transformação de seu espaço, entre outros temas. Nossa trajetória de pesquisa analisa como essas questões são abordadas nos vídeos realizados colaborativamente entre esses atores sociais, identificando, em primeiro lugar, as vozes presentes no interior dos filmes para, posteriormente, evidenciar como essas vozes dialogam com vozes culturais outras, sejam aquelas pertencentes aos gêneros audiovisuais, sejam aquelas veiculadas em jornais impressos, propagandas, ou materiais discursivos da própria Rede Coque Vive. O corpus é formado pelos vídeos “Desclassificados” (2008), “A linha, a maré e a terra” (2008), “Centenário do Sul”, (2009) e “.Zip” (2011) e, além do processo de investigação das vozes que compõem os vídeos, a pesquisa procura observar as principais recorrências e descontinuidades dessa produção no intuito de promover uma visão geral a respeito da maneira como o audiovisual tem sido usado pela Rede Coque Vive no debate e entendimento de questões políticas mais amplas. Rede Coque Vive Vídeo Coque Audiovisual Voz Representação
423	[en] ANALYSIS OF WAVEFORM CODERS FOR SPEECH AND DATA SIGNALS / [pt] ANÁLISE DE CODIFICADORES DE FORMA DE ONDA PARA SINAIS DE VOZ E DADOS ANTONIO MARCOS DE LIMA ARAUJO 07 November 2006 (has links) [pt] O trabalho examina o comportamento de Codificadores de forma de onda operando a 32,56 e 64kbit/s para transmissão digital de sinais de voz e de sinais de dados PSK-8 a 4800 bit/s e QAM-16 a 9600 bit/s. A partir de uma análise detalhada dos diversos sistemas, tanto em canal ideal como um canal ruidoso, é verificada a necessidade de se fazer uma identificação do tipo de sinal. De modo a permitir sua codificação de forma mais eficiente. É, então, proposta e avaliada a utilização de uma técnica de identificação estatística de sinais de voz e dados, em codificadores de forma de onda. A incorporação desta técnica ao sistema ADPCM a 32 kbit/s recomendado pelo CCITT permite uma melhoria do desempenho para sinais de dados, sem com isso alterar sua eficiência para sinais de voz. / [en] This thesis evaluates the performance of waveform coders at 32,56 and 64kbit/s for digital transmission of speech signal and 4800 bit/s PSK-8 and 9600 bit/s QAM-16 voiceband data signas. A detailed analysis of the systems is carried out both under ideal and noisy channel conditions. From this analysis it was found that a scheme which accurately distinguishes the two classes of signals, would allow a more efficient encoding procedure. A method of statistical identification of speech and data signals is proposed and its use in wakeform coders is, then, analysed. The incorporation of this method into the 32 kbit/s ADPCM system recommended by CCITT provides an improvement in performance for data signals, without sacrificing its efficiency for speech signal. [pt] CODIFICACAO DE VOZ [en] SPEECH CODING [pt] TRANSMISSAO DIGITAL [en] DIGITAL TRANSMISSION
424	[en] STUDY ON SPEECH CODING IN SUB-BANDS AT 16 KBITS/S / [pt] ESTUDO DE CODIFICAÇÃO DE VOZ EM SUB-BANDAS A 16 KBIT/S CARLOS FELIPE DE BRITO JACCOUD 09 November 2006 (has links) [pt] Neste trabalho são estudados sistemas de codificação digital de sinais de voz em sub-bandas, operando na taxa de 16 kbit/s. Os sistemas são analisados em função do número de sub-bandas, dos esquemas de codificação utilizados nas diversas sub-bandas, dos parâmetros e das técnicas empregados na adaptação dos quantizadores e do tipo de alocação dos recursos binários. A decomposição espectral do sinal é realizada a partir de bancos de filtros espelhados em quadratura (QMF), que tem a vantagem de evitar a sobreposição dos espectros nas diversas sub- bandas. Os sistemas são avaliados, através de simulação em computador, tanto em canal ideal como em um canal ruidoso, utilizando como figura de mérito a razão sinal-ruído frequencial. O desempenho obtido em termos das razões sinal-ruído global e segmentada também é apresentado em todos os casos analisados. A partir de um exame detalhado dos diversos sistemas e proposta uma estrutura de codificação em que a configuração do quantizador e sua técnica de adaptação dependem da sub-banda a ser codificada. Além disso, o sistema proposto utiliza um algoritmo para alocação dos recursos binários baseado em comparações de energias de blocos de amostras das diversas sub-bandas. / [en] In this thesis a study of 16 kbit/s sub-band coding of speech signals is presented. The encoding systems are examined in terms of the number of sub-bands, the schemes used to encode the sub-band signals, the parameters and techniques employed in the quantizers adaptation and the type of bit allocation. Spectral decomposition of the input signal is carried out by means of quadrature mirror filter (QMF) banks. The systems are evaluated through computer simulation, both in ideal and noisy channels, using the frequency - weighted signal-to-noise ratio as the performance criterion. The global and segmental signal- to-noise ratio performances are also given in all cases. After a detailed examination of the various systems, a coding structure is proposed , in which the configuration of the quantizer and its adaptation techniques depend on the sub-band to be coded. Furthermore, the proposed system uses an algorithm for bit allocation based on comparison of the energies fo blocks of samples in the several sub-bands. [pt] CODIFICACAO DE VOZ [en] SPEECH CODING [pt] TRANSMISSAO DIGITAL [en] DIGITAL TRANSMISSION
425	[en] MULTIMEDIA MESSAGE SYSTEM FOR LOCAL AREA NETWORK / [pt] PROPOSTA DE UM SISTEMA DE TRATAMENTO DE MENSAGENS MULTIMÍDIA PARA UM AMBIENTE DE REDE LOCAL DENISE DEL RE FILIPPO 31 August 2009 (has links) [pt] Este trabalho faz parte de projeto LAN Based Real Time Audio Systems (LANBRETAS) que tem como finalidade o desenvolvimento de um sistema de comunicação com integração de voz e dados. Realizado numa cooperação entre a Pontifícia Universidade Católica do Rio de Janeiro (PUC/RJ), o Instituto Militar de Engenharia (IME) e o centro Científico Rio da IBM Brasil, o LANBRETAS oferece, entre outros, um Serviço de Correio Eletrônico. O objetivo desta tese é o propor uma nova versão deste Serviço com base na padronização X.400 do CCITT: novas funcionalidades são oferecidas, assim como previsto o suporte para mensagens multimídia que incluam imagem fixa. / [en] This thesis is a part of the LAN Based Real Time Audio Systems (LANBRETAS) project, cosponsored by Pontifícia Universidade Católica of Rio de Janeiro (PUC/RJ), Instituto Militar de Engenharia (IME) and IBM Brasil. The LANBRETA aims the implementation of a communication system that integrates voice and data. The main objective of this thesis is to propose a new edition, based on the X.400/CCITT padronization, of the Eletronic Mail Service ofered by LANBRETAS to increase the features ofered and to suport multimedia messages that include fixed image informations. [pt] MULTIMIDIA [en] MULTIMEDIA [pt] SISTEMA DE MENSAGEM [pt] CORREIO DE VOZ ELETRONICA
426	Desarrollo de Aplicación Remota de Biometría por Voz para Telefonía Celular Herrada Bañados, Alvaro Francisco January 2011 (has links) No autorizada por el autor para de publicada a texto completo / El área de procesamiento de voz estudia diversos temas uno de los cuales es la verificación de identidad del locutor a través de la huella vocal. Un servidor de este tipo fue desarrollado en el Laboratorio de Procesamiento y Transmisión de Voz (LPTV) de la U. de Chile. El objetivo principal de la memoria es implementar y evaluar una aplicación de verificación de locutor ocupando una arquitectura cliente-servidor con un celular smartphone como terminal de usuario. El procesamiento de la señal grabada debe ser centralizado y el acceso a internet realizado por Wi-Fi. Para conseguir los objetivos propuestos se creó un programa cliente en un smartphone con sistema operativo Android que se comunica con el servidor de verificación de locutor del LPTV. El usuario tiene acceso a la aplicación mediante una interfaz touchscreen que también se diseñó e implementó en esta memoria. Inicialmente se explican los sistemas de verificación de huella vocal, las arquitecturas de reconocedores de voz ocupadas en telefonía, así como la plataforma de desarrollo Android. Posteriormente se realiza una descripción de las soluciones creadas para cumplir con los requisitos del servidor: creación de audio muestreado a una tasa de 8KHz con 16 bit por muestra y formación de un string codificado en formato UTF-8 (8-bit Unicode Transformation Format) base 64. Como resultado de este proyecto se obtiene una aplicación demo que permite verificar la identidad del usuario compatible con el sistema operativo Android 1.5 o posterior. Su evaluación se realizó con una base de datos de 40 personas (20 hombres y 20 mujeres). Se obtuvo un EER (Equal Error Rate) o porcentaje de error igual a 2.5% en modo de teléfono normal y 5.0% en modo altavoz. Como trabajo futuro se sugiere optimizar la aplicación con acceso a Internet vía 3G e implementar parte del procesamiento localmente con el fin de reducir el número de bytes a transmitir. Electricidad Sistemas de procesamiento de la voz Reconocimiento de modelos Biometría Telefonía celular
427	Shout! Oyarzún Roa, Christian January 2012 (has links) Tesis para optar al Grado de Magíster en Artes Mediales / La voz es por excelencia el medio expresivo y de comunicación humana, sin embargo, su uso como instrumento es restringido por preceptos sociales y culturales que operan silentes sobre los individuos de la misma manera como su uso político y divergente es reprimido explícitamente por una serie de relaciones de fuerza, represión, manipulación y control social. El objetivo de este proyecto ha sido diseñar un instrumento o dispositivo que promueva la exploración de las posibilidades musicales, sonoras, visuales y políticas de la voz humana, a través de la manipulación electrónica de ésta, permitiendo experiencias de uso, interpretación e improvisación tanto individuales como colectivas. Es así como ampliando, expandiendo y amplificando las posibilidades de la voz humana modificada electrónicamente como medio, SHOUT! se propone como un dispositivo de resemantización que busca explicitar la violencia presente en las relaciones de desigualdad e inequidad que ocurren a escalas tanto locales como globales como resultado del actual modelo económico. Sistemas de procesamiento de la voz Violencia--Aspectos sociales Posthumanismo Device art
428	Aplicación de Tecnologías de Robustez en Reconocimiento de Voz a la Enseñanza de Segundo Idioma Ravest Catalán, Pablo Andrés January 2009 (has links) El objetivo principal de esta memoria es mejorar el rendimiento de un sistema de evaluación de pronunciación automático basado en ASR (Automatic Speech Recognition) frente a cambios de locutor. Para lograr esto se propone la implementación de dos técnicas de robustez existentes en la literatura especializada: MLLR (Maximum Likelihood Linear Regression), que realiza una transformación lineal de los parámetros del modelo acústico para adaptarlo a un locutor específico; y VTLN (Vocal Tract Length Normalization), que normaliza el banco de filtros de Mel utilizado en la parametrización de las señales para compensar por diferencias en el tracto vocal de los locutores. Estos métodos se aplican de forma no supervisada y considerando una cantidad de información de adaptación limitada, debido a las exigencias que presentan los sistemas de CAPT (Computer Aided Pronunciation Training). Este documento presenta experimentos con estas técnicas en ASR y CAPT considerando señales de locutores con distinto manejo del inglés y bajo variadas condiciones de ruido. En ASR se obtienen disminuciones del WER (Word Error Rate) de hasta un 30,56 % con MLLR de 25 señales y 16,23 % con VTLN de 1 señal. Los métodos muestran ser eficaces incluso al considerar pocas señales de adaptación, obteniéndose mejoras promedio del WER de 19,4 % y 6,34 % en MLLR con 5 señales y VTLN con 1 señal respectivamente. En evaluación de pronunciación, VTLN produce mejoras promedio del coeficiente de correlación entre los resultados entregados por el sistema y la evaluación esperada de 3,1 % y 5,01 % para dos bases de datos probadas. MLLR fue incapaz de aumentar la correlación debido a problemas con el modelo competitivo del CAPT y al modo de aplicación no supervisado. Electricidad Reconocimiento automático de la voz Modelos acústicos Adquisición de otra lengua Enseñanza
429	Significados construidos por los estudiantes en torno a prácticas de respuesta a la diversidad. Análisis de los relatos de niños de una escuela municipal de la Región Metropolitana Carocca Ugarte, Ingrid Lisette 10 1900 (has links) Psicóloga / Este estudio se propone indagar en la perspectiva de los estudiantes en relación a la atención a la diversidad, a partir de la propuesta de inclusión educativa. El objetivo general de la investigación es conocer los significados que construyen los estudiantes en torno a prácticas de respuesta a la diversidad en su escuela. Se trata de un estudio exploratorio, basado en un enfoque cualitativo, en el que se utilizan distintas técnicas participativas de investigación social y cuya muestra está constituida por estudiantes de quinto básico de una escuela municipal de la Región Metropolitana. Los principales resultados apuntan a las tensiones que se generan entre las prácticas que despliega la escuela con el fin de responder a la diversidad del alumnado, y las propuestas que los mismos estudiantes construyen a modo de alternativas a esas prácticas, las cuales son mucho más cercanas a las de una escuela inclusiva. En base a lo anterior, el estudio destaca la relevancia de dar voz a los estudiantes, con el propósito de incluir su perspectiva en los cambios que se lleven a cabo en la escuela Inclusión educativa Prácticas de respuesta a la diversidad Voz de los estudiantes
430	Parâmetros acústicos da voz de militares em formação submetidos ao Programa de Treinamento Militar (PTM) : Vocal effects in military students submitted to an Intense Recruit Training: a pilot study / Vocal effects in military students submitted to an Intense Recruit Training : a pilot study Nascimento, Camila Lima, 1987- 26 August 2018 (has links) Orientador: Lúcia Figueiredo Mourão / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas / Made available in DSpace on 2018-08-26T12:55:06Z (GMT). No. of bitstreams: 1 Nascimento_CamilaLima_M.pdf: 1273438 bytes, checksum: 0b89e644865e6d7951705fdb4f26d3e5 (MD5) Previous issue date: 2014 / Resumo: Os militares constituem uma categoria profissional pouco estudada em relação à saúde vocal. A formação do Oficial do Exército Brasileiro envolve atividades específicas que podem levar a danos vocais. Um exemplo é o Programa de Treinamento Militar (PTM), que consiste em exercício de 48 horas de duração que envolve alta demanda vocal, para a produção de brados e canções, associada a intensa atividade física. Durante o exercício, a hidratação e o tempo de sono são controlados. Após abuso vocal é necessário um tempo para uma recuperação funcional e celular. O objetivo do estudo é avaliar o impacto vocal imediato após o PTM e a recuperação vocal de estudantes militares duas semanas após o PTM. Para tanto, amostras vocais de jovens adultos (entre 18 e 22 anos) foram coletadas em três momentos distintos: antes, imediatamente após e duas semanas após o PTM. Medidas fonatórias foram realizadas com produções da vogal /a/, das consoantes fricativas /s/ e /z/. Paralelamente, alguns parâmetros acústicos foram analisados com amostras de fala e da vogal /a/: frequência fundamental, jitter, shimmer, intensidade média, proporção harmônico-ruído, H1-H2, modulação de frequência, modulação de intensidade e ênfase espectral. Os parâmetros acústicos foram extraídos ou calculados a partir de dados obtidos pelo software de análise acústica Praat. Na análise estatística, o Teste T pareado foi utilizado para a comparação das diferenças entre dois momentos de coleta de dados (antes e imediatamente após PTM) e para a comparação das diferenças entre os três momentos de coleta de dados foi utilizado o teste One Way ANOVA. Para a comparação entre os dados encontrados no primeiro momento de coleta de dados e os valores normativos da literatura foi utilizado o Teste T para amostras independentes, todos com nível de significância de 0,05. Ao compararmos os dois primeiros momentos de coleta de dados, os resultados apresentaram diferenças estatisticamente significativas nas medidas fonatórias e nos valores de intensidade média e de ênfase espectral para as amostras da vogal isolada. Na comparação dos três momentos de coleta de dados, os resultados mostraram que não houve diferença significativa entre os dados do primeiro e do terceiro momento de coleta, com exceção da medida fonatória da vogal /a/, o que sugere a ocorrência de recuperação vocal após duas semanas. Há diferenças nos resultados no primeiro momento de coleta de dados (pré PTM) comparados com medidas normativas da literatura recente, sugerindo mais estudos sobre a presença de um padrão vocal característico para esse grupo / Abstract: The military are an understudied occupational category in relation to vocal health. The Brazilian Army Officer formation involves specific activities that could lead to vocal injury. One example is the Military Training Program which consists of a 48-hour exercise that involves high vocal demand to produce military command shouts with intense physical training. During the training, students are submitted to controlled hydration and sleep deprivation. After vocal abuse at least 18 hours of complete vocal rest are necessary for functional recovery. However, the cell recovery demands more time until inflammatory process ends (at least 14 days after the injury). The goal of this study is to evaluate the immediate vocal impact and the vocal recovery of military students two weeks after completion of the Military Training Program. Vocal samples from young adult males (18 to 22 years old) were collected in three moments: before, immediately after and two weeks after Military Training Program. Phonatory measures were collect using vocalization of vowel /a/ and fricative consonants /s/ and /z/. Besides, some acoustic parameters were analyzed using speech samples: fundamental frequency, jitter, shimmer, mean of intensity, harmonic-to-noise ratio, H1-H2, spectral emphasis, range of frequency and intensity. The acoustic parameters were extracted or calculated from software Praat. Paired samples t-test was used to statistical analysis to compare differences among the parameters between two moments (before and immediately after Military Training Program) and One way ANOVA was used to statistical analysis to compare differences among the parameters in the three moments. Independent samples t-test was used compare the data found in the first moment of data collection and normative values from the literature, all with significance level of 0.05.The results of comparison of two first moments showed significant differences in maximum phonation times, mean of intensity and spectral emphasis for sustained vowel samples. Results of comparison of three moments showed no significant differences between first and third moment, except for maximum phonation time of vowel /a/, what suggest a vocal recovery after two weeks. There were differences between first moment data (before MTP) and normative values that suggest more researches about a vocal pattern different for this group / Mestrado / Interdisciplinaridade e Reabilitação / Mestre em Saúde, Interdisciplinaridade e Reabilitação Voz Militares Saúde do trabalhador Voice Military personnel Occupational Health

Search results