Global ETD Search

321	Sistema de notificação e reconhecimento automático de entidades em conteúdos audiovisuais Oliveira, João Carlos Loureiro de Jesus January 2008 (has links) Estágio realizado na ClusterMedia Labs / Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2008 Aplicações informáticas Processamento digital Audiovisuais Reconhecimento automático da voz Reconhecimento de imagem
322	Reconhecimento de orador em dois segundos Mendes, Diana Rocha January 2011 (has links) Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2011 Sistemas biométricos Impressões digitais Reconhecimento automático da voz Identificação de oradores
323	Reconhecimento automático de fala com processamento simultâneo de características acústicas e visuais Moura, António Afonso de Abreu e January 2005 (has links) Tese de mestrado. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2005 Reconhecimento automático da voz Sistema multi-stream Sistema audio-visual
324	Análise acústica da voz na performance teatral : o "formante do ator" / Adami, Maria Helena Milanez, 1990- January 2019 (has links) Orientador(a): Suely Master / Banca: Fabio Miguel / Banca: Nadia Vilela / Resumo: Quando o ator está em cena é necessário que no mínimo sua voz seja bem projeta e audível a plateia em sua Performance. O espectro médio de longo termo (Long Term Average Spectrum - LTAS) é um método que possibilita estudar os fatores mais estáveis da voz, como a sua qualidade. O termo "formante do ator" foi empregado para o pico de aproximadamente 3.5 kHz em projeção vocal desse espectro. Muitos estudos que identificaram esse formante em atores, não o fizeram com o ator atuando de fato em uma real performance, e sim com o ator estático, muitas vezes apenas lendo o texto. Pouco se tem relatado, na analise acústica, sobre a qualidade da voz quando o ator trabalha o corpo e voz juntos como no caso da maioria das performances teatrais. Sendo assim, esse estudo teve como objetivo analisar a voz acusticamente na performance teatral e entender se a mesma foi considerada uma variável significante para voz. Foi utilizado o LTAS como instrumento de quantificação para a análise acústica e a análise perceptivo-auditiva foi feita como forma de complementar os resultados. Os atores apresentaram o "formante do ator" em ambas as performances, sendo ele um pouco mais forte na performance em movimento / Abstract: Actors supposed to have a voice that, at least, can be well projected and audible when they are performing. The Long Term Average Spectrum (LTAS) has been used as a method to study the stabiles voices factors, as its quality. The term "actor's formant" was used to an approximately 3.5 kHz peak in voice projection for this spectrum. Researchers that had found this formant didn't use actors on action as in real theater Performance, but in a static position just reading the text. Nothing has been reported about the voice quality of actors when they are using movement body and voice at the same time, as they usually do in a real performance. Therefore, this study had as the mean objective the acoustic analyze of actor's voice in theater performance and proves if it could be a considerable variability to the voice. LTAS was used as a quantification instrument. The perceptive-auditive analyses was used to support the results as well. The "actor's formant" had showed increased in actors on action performance / Mestre Performance (Arte) Voz - Educação. Atores. Fonética acústica. Performance art
325	Modelos Entonativos para la Segmentación Automática de los Programas Informativos en Unidades-Noticias Mas Manchón, Lluís 18 March 2011 (has links) Esta tesis pretende descubrir las formas sonoras prosódicas típicas de la noticia en sus límites de principio y de final. En el marco de una investigación aplicada, consistente en el desarrollo de una aplicación automática para la segmentación de noticias, se ha trabajado con las variables tono, ritmo e intensidad de la locución de noticias en informativos televisivos de tres idiomas, como indicadores de los cambios de noticia. Para ello, hemos utilizado una metodología instrumental que, por una parte, considera la praxis de la noticia, y, por otra, las formas de análisis y representación prosódicas. Por lo tanto, en primer lugar, hemos localizado los niveles discursivos de la noticia –fonología, léxico, sintaxis, semántica y pragmática-, y a continuación hemos considerado el uso que de ellos se hace en los “modos de producción de la noticia”, desde su nacimiento como hecho noticioso y hasta su enunciación oral ante las cámaras. En segundo lugar, apoyándonos en teorías y análisis de procesamiento del discurso oral, hemos estudiado el tipo de procesamiento que los telespectadores hacen de la noticia como discurso de información nueva, temática y discursiva. Este Marco Teórico general ha dado como resultados las claves estructurales y discursivas (pragmáticas) de la noticia, lo cual ha quedado reflejado en un Modelo Estructural de la noticia. Dicho modelo representa las bases acústicas de la noticia (oral) en televisión como resultado de todo un proceso de configuración del mensaje, participado por tres actores (gatekeeper, redactor y presentador), que a su vez da lugar a una estructura en tres niveles (información, texto o estructura y superestructura). A continuación, se han operacionalizado las variables de estudio, ya que su análisis y representación están totalmente ligados al objeto de estudio. Para el estudio del nivel pragmático del discurso, hemos necesitado revisar la aproximación de la lingüística al análisis de la macroentonación de enunciados, los trabajos sobre ritmo de psicólogos y comunicólogos, y el complejo tratamiento de la intensidad, parámetro acústico escasamente estudiado en procesos de comunicación, y del que hemos generado curvas de intensidad experimentales según las funciones del lenguaje y las fases de la noticia, comparando estilos locutivos y asignando funciones estructurales de intensidad -afectiva, semántica y pragmática. Los resultados de este apartado han sido unas formas prosódicas que aglutinan patrones de variación de los tres parámetros. Esos patrones de variación son las variables que deben marcar el cambio de noticia en función de su variación de inicio o de final de noticia. Ahora bien, antes de implementarlas automáticamente y probar así su efectividad en un continuum de noticias, se ha hecho un estudio cualitativo y manual de 90 casos en que analizamos los tres parámetros y se miden las diferentes formas prosódicas. Se ha demostrado su correlación con el cambio o no de noticia y se ha definido una Hoja de Ruta del Algoritmo. Por fin, ese algoritmo ha sido implementado ad-hoc en el entorno virtual Labview, mediante la localización de pausas por bajadas de intensidad y la localización de datos de tono y parábolas de entonación mediante la transformada de la transformada (cepstrum) de los segmentos anteriores y posteriores de la pausa localizada. Esta plataforma virtual se ha probado para una muestra de 29 informativos reales, en tres lenguas (español, portugués, y catalán), y en informativos de dos canales por idioma. Los resultados demuestran un funcionamiento global deficiente, pues se demuestra muy dependiente del código lingüístico y del formato global del programa informativo. Las formas prosódicas parecen típicas del discurso noticia, pero vagas en su capacidad de aglutinar formatos y lenguas. No en vano, el algoritmo de segmentación de noticias funciona para los informativos en catalán, muestra del Estudio Cualitativo y la Hoja de Ruta. Futuros estudios deberán definir formas prosódicas teniendo en cuenta códigos lingüísticos y formatos o géneros televisivos, y la implementación automática deberá también analizar las formas prosódicas a lo largo de toda la noticia (no sólo en los cortes). / This thesis tries to find out the typical prosodic forms of every piece of news at its beginning and end. In the framework of an applied research that aims at developing voice recognition software for news segmentation one has reviewed the variables pitch, rhythm and intensity, and how they are articulated in the announcing of TV news programs in three languages, as indicators of the change of piece of news. For that, an instrumental methodology has been applied which, on one hand, considers the praxis of the piece of news itself, and, on the other, the prosodic forms of analysis and representation. Therefore, in first place, we have identified the discourse levels of the piece of news – phonology, lexical, syntactical, semantics and pragmatics-, and then we have reviewed the use of them in the “Modes of News Production”, from the moment that newsworthy events happen to their announcing in front of cameras. Secondly, with the support of theories and analysis for the linguistic processing of the oral discourse, we have reviewed the type of processing that TV spectators do of the news as made of new, thematic and discursive information. This general state of the art has resulted in a Superstructural Model of the News. This model represents the acoustic basis of the TV spoken news as a result of a whole process of message configuration, participated by three actors (gatekeeper, writer and “presenter-anchorman”), who bring together a three level structure (information, text or structure and superstructure). Next, the variables of study were operationalized according to the type of acoustic analysis the object of study required. For that, it has been required a linguistic approach to macro intonation analysis of statements, works on rhythm from psychologists and communication scholars, and the complex treatment of intensity (acoustic parameter with little research so far, and of which we have experimented with curves of the different functions of language and the phases of the pieces of news, by comparing locution styles and assigning structural function to the intensity – affective, semantics and pragmatics). Results show that all these three prosodic forms get together patterns of variation of the three original variables. These patterns of variation are the “complex variables” that should determine the change of pieces of news because they are specific of the beginnings and ends of the news. Nevertheless, before its automatic implementation in software, se have carried out a qualitative study of 90 fragments of locution, in which the three parameters are analyzed and the prosodic forms measured. Many correlations of the concurrence of prosodic forms have been defined in a Roadmap of the Algorithm to indicate the change of the piece of news. At last, this algorithm has been implemented ad-hoc in the virtual platform Labview, by spotting pauses (drops of intensity) and the analysis of intonation slopes (parabolas) through the transformed of the transformed (cepstrum) of the previous and posterior segments of those pauses. This virtual platform is proved for a sample of 29 TV news programs, in three languages (Spanish, Portuguese and Catalan), and in news programs of two channels per language. Results show a deficient functioning of the algorithm applied to the general corpus, as it has been proved very dependent on linguistic codes and global format of the news programs. The prosodic forms seem specific of the news discourse, but are week to characterize different formats and languages. In fact, the algorithm of segmentation does work for every format of news programs in Catalan (corpus used in the Qualitative Study, from which the Roadmap of the Algorithm was defined). Future studies should define prosodic forms considering linguistic codes and formats of television genres, and the automatic implementation should also analyze prosodic forms for the whole piece of news (not only the “cut moments”). Prosadi Acústica de la voz Noticia Ciències Socials 531/534
326	HiperAudio Lumbreras, Mauricio Fabián January 1995 (has links) No description available. Ciencias Informáticas Tecnología Hardware/Software Interfaces Aplicación informática Voz
327	Análise acústica para classificação de patologias da voz empregando análise de Componentes Principais, Redes Neurais Artificiais e Máquina de vetores de Suporte. ESPINOLA, Sérgio de Brito. 19 September 2017 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2017-09-19T15:36:01Z No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) / Made available in DSpace on 2017-09-19T15:36:01Z (GMT). No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) Previous issue date: 2014-03-12 / Estima-se que um terço da força de trabalho humana dependa da voz para realização de seus ofícios. Procedimentos médicos avaliam a qualidade vocal do indivíduo sendo os mais usados aqueles baseados na escuta da voz (subjetivo) ou na inspeção das dobras (ou pregas) vocais por exames sofisticados (objetivos, porém invasivos e caros). A análise acústica da voz busca extrair medidas robustas para descrever vários fenômenos associados à produção da fala ou características intrínsecas do ser humano como frequência fundamental, timbre, etc. O presente estudo consiste na caracterização de um modelo de processamento digital de Voz para apoio ao diagnóstico no contexto da construção de sistemas de identificação automatizados de patologias da fala. Para análise da técnica proposta foi utilizada uma base de dados (base KAY) que foi estruturada por especialistas num arranjo de seis grupos de Patologias. A esse, acrescentado também um de vozes “Normal”. Assim, 182 vozes foram escolhidas, as quais dispunham de um catálogo indexado de cerca de 33 descritores, para cada voz, calculados da elocução da vogal \a\ sustentada. Ao selecionar combinações desses descritores – como perturbações em frequência (jitter), em amplitude (shimmer) etc, este estudo encontrou evidências estatísticas e mostrou ser possível: a) Separar vozes normais das patológicas – esperado, b) Separar patologias específicas (Paralisia, Edema de Reinke, Nódulos) com acurácia de 100% (para a grande maioria dessas combinações) e cerca de 92% (para Nódulos contra Reinke); c) Discriminá-las por meio de classificadores (redes neurais artificiais e máquina de vetores de suporte) e reduzir a dimensionalidade e complexidade (quantidade de dados) via técnica de análise de componentes principais (ACP) sobre esses descritores para a separação intra patologias; e d) Testes estatísticos com os grupos locais confirmaram também limiares de indícios de Anormalidade presentes na literatura. A utilização de menor quantidade de descritores – obtida pós ACP (compressão) – mostrou-se também eficiente (mesmas taxas de acurácia). / It is estimated one-third of the work force relies on the use the voice in their jobs. The clinical diagnostic may be performed on voice listening by a specialist (subjective perspective) or through invasive and often not cheaper exams to check vocal structures. The area of Voice Acoustic analyses aims to extract robust measurements to describe several phenomena associated with voice production, or human being particular characteristics like fundamental frequency, timbre, etc. This study consisted of a model characterizing the digital voice processing for support in building automatic systems for the identification of disorders of speech (to aid diagnosis of pathologies). To support this investigation and proposed model, a commercial voice database (KAY base) was used with the endorsement from medical specialists. Derived acoustic analyses of those speech samples data records were presented to professionals for classification and six “severities groups” case-studied were built. After these analyses, one Normal group was added and, at the end, 182 voices have been selected. Their refined audio database contain, among other things, an indexed list of vocal descriptors calculated on the presence of the utterance of the vowel \a\ sustained speech. Statistical evidences were found: a) Difference between pathological groups vocal descriptors to normal (expected); b) It was achieved 100% from true positive, most cases, among Paralysis, Reinke's Edema and Nodules separations; c) from few cases, there were detected minor distinctions: Paralysis, Reinke's Edema, Nodules and Edema (pair comparison) with disordered groups; c) Among Machine Learning Algorithms (artificial neural networks "RN" and support vector machine "SVM"), the technique of Principal Components Analyses (PCA) and main statistics performed, it was found facts to help to structure some automated recognition systems. These Supervised learning methods showed that it could be possible to generate classification predictions (disordered presence) for the response to new data; and d) Inner tests also confirmed literature established reference thresholds. Hence considering suitable combinations of descriptors with two machine learning classifiers, as showed, is sufficient suitable and worthy. Ciência da computação. Fonoaudiologia. Inteligência artificial. Processamento digital de voz. Discriminação de patologias da voz. Vozes patológicas. Aprendizagem de máquina. Análise acústica da voz. Doenças da voz e fala. Voice Acoustic analyses. Digital voice processing. Healthy and Pathological voices. Digital Voice Signal Processing.
328	Análise perceptivo-auditiva e acústica em mulheres com nódulos vocais Zitta, Simone Maganhotto 2010 October 1914 (has links) A proposta deste trabalho foi estudar a avaliação perceptivo-auditiva e acústica de 25 indivíduos do gênero feminino, sendo 20 com nódulos vocais e 5 com laringe e vozes normais. O software VoxMetria. foi instrumento de análise para os dados acústicos. O estudo foi aprovado pela Comissão de Ética em Pesquisa (CEP) do Hospital Erasto Gaertner, em Curitiba/ Paraná e os indivíduos selecionadas foram submetidos a três avaliações: laringológica, perceptivo-auditiva e acústica. Para o exame de laringe, utilizou-se a videolaringoestroboscopia. Para a avaliação perceptivo-auditiva da qualidade vocal, utilizouse a escala RASAT. E e os parâmetros de freqüência fundamental (f0), a medida de ruído GNE (glottal to noise excitation ratio) e a espectrografia vocal para a análise acústica; sendo utilizado a vogal sustentada [é]. Os resultados revelaram que os valores da freqüência fundamental foram mais graves no grupo com nódulos vocais e o parâmetro GNE não mostrou-se sensível na avaliação dos dois grupos, apresentando os resultados dentro dos padrões de normalidade. A avaliação perceptivo-auditiva e a espectrografia vocal revelaram diferenças significativas entre as vozes normais e com nódulos vocais. A espectrografia vocal mostrou-se extremamente confiável quando comparada à avaliação perceptivo-auditiva da qualidade vocal. / This work ayms to study the perceptual evaluation and the acoustic analysis in 25 women. In this population, 20 women had vocal nodule and 5 had normal voices and larynx. It was defined the vocal node as the interest pathology, which is a reaction to the excessive use of the voice, that induces to the constant vocal folds movement. It was used VoxMetria software to analise the acoustic data. This research was approved by Hospital Erasto Gaertner Research and Ethics Commission, in Curitiba/ Paraná. The selected women were submitted to 3 evaluations: laryngological, perceptual and acoustic. In the larynx exam it was used the “videolaringoestroboscopia”. In the perceptual evaluation it was used the RASAT scale. The basic frequency parameters (f0), the noise measure GNE (glottal to noise excitation ratio) and the vocal spectrogram, to the acoustic analysis, where it was used the supported vowel [é]. The results showed that the basic frequency values were more thick in the group with vocal nodule and the noise measure GNE wasn’t sensitive in both group analysis and showed normal results. The perceptual evaluation and the vocal spectrogram revealed significant differences between the two groups. The vocal spectrogram were really sensitive when compared to the perceptual evaluation Distúrbio da voz Análise espectral Voice disorders Spectrum analysis
329	Uma abordagem para análise de desempenho de fluxos VoIP em redes de serviços diferenciados Zuchowski Filho, Edmundo 2010 October 1914 (has links) O presente trabalho apresenta uma análise de viabilidade do emprego de um fluxo de controle sintético VoIP para inferir sobre a performance de fluxos individuais de um fluxo agregado pertencente a um EF PHB em uma rede de serviços diferenciados. A abordagem proposta visa estabelecer através de simples verificação de performance quanto ao atendimento do SLA relacionado a alguns requisitos do fluxo VoIP. Os resultados poderão ser utilizados para alimentar especificações e requisitos para o projeto de ferramentas, por exemplo, para capacitar atividades de planejamento e ações de gerência de rede. O tráfego VoIP foi classificado como homogêneo (todos os pacotes do fluxo são criados pelo mesmo tipo de codec) e como heterogêneo (pacotes originados por mais de um tipo de codec) durante a realização dos experimentos. Os experimentos verificaram a hipótese de que a performance do fluxo de controle possa ser relacionada de alguma forma com a performance dos fluxos individuais de um fluxo agregado sob as suposições e métricas definidas. As métricas retardo, jitter e perda de pacotes foram estimadas por simulação tanto para o tráfego homogêneo quanto para o tráfego heterogêneo, em diversas condições de carga controlada. Os resultados permitem concluir quanto a viabilidade da abordagem para estimar o retardo e com limitações de confiança, quanto ao jitter, dependendo do tipo de tráfego (heterogêneo) e tipo de codec. / This work presents a viability analysis of the use of a synthetic VoIP control flow to infer about the performance of individual flows of a flow aggregate belonging to an EF PHB in a DiffServ network. The proposed approach aims to establish a simple performance verification of SLA accomplishment related to the some of the VoIP flow requirements. The results should be used to feed requirements specifications for tool design, for example, to capacity planning activities and management actions. We classify the VoIP traffic as homogeneous (all flow packets created by a same codec type) and heterogeneous (packets originated from more than one codec type) to carry out the experiments. The experiments checked the hypothesis that the control flow performance can be somehow related to the performance of individual flows of a flow aggregate under the agreed assumptions and metrics. The metrics one-way delay, jitter and packet loss were evaluated by simulation for both homogeneous and heterogeneous traffic at several network-controlled load. The results let us conclude about the viability of the approach to evaluate one-way delay and with confidence limitations, also the jitter, depending on the traffic type (heterogeneous) and codec type. Codificador de voz Redes de computadores Voice coder Computer networks
330	Contribuições ao reconhecimento automático de fala robusto Silva, David Daniel e 25 October 2012 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010 / Made available in DSpace on 2012-10-25T00:59:03Z (GMT). No. of bitstreams: 1 282663.pdf: 3425788 bytes, checksum: 11c0696aaa6269d3305bc94da6724197 (MD5) / Reconhecimento Automático de Fala (RAF) é uma área fascinante e complexa. Durante décadas a demanda de pesquisas baseava-se em RAF para vocabulário não muito extenso, com técnicas que precisavam de alto desempenho computacional para processar dados produzidos em ambientes silenciosos de laboratórios. Dos meados da década de 80 para a frente, a tecnologia de processamento de voz avançou, com a utilização dos modelos ocultos de Markov (HMMs) e com o alto avanço de técnicas de programação e de processamento computacionais, conseguindo taxas de acerto, em ambientes silenciosos, próximas de 100%. Com a finalidade de colocar sistemas de RAF para funcionar na vida real, há alguns anos pesquisas intensas foram e continuam sendo feitas sobre reconhecimento de fala robusto. Por isso, aplicações como DSR (Distributed Speech Recognition), entre outras, surgiram no mercado. Para obter uma performance similar ao do ouvido humano em ambientes ruidosos, no entanto, sistemas desse tipo ainda são o foco de muitas pesquisas. Assim, este trabalho faz um estudo sobre sistemas de reconhecimento automático de fala robusto, objetivando a análise e comportamento de quatro tipos de ruídos (corte de metal, automóveis em frente a um túnel, automóveis dentro do túnel e multidão de crianças), gravados em ambientes diferentes, para a avaliação e construção de bases de dados ruidosas. Desta forma, são desenvolvidas duas bases de dados, deixando como contribuição principal a metodologia para sua construção e o processo de análise e avaliação dos dados envolvidos na sua construção. Além disso, é apresentado um desenvolvimento matemático de um algoritmo que é a solução numérica para uma função logística de três parâmetros de difícil solução, empregada para modelar o comportamento dos sistemas WI007 e WI008 usados aqui. Um método de ajuste inicial logístico (Mail) das curvas Pesq vs. TA para a avaliação do comportamento do sistema de RAF adotado, também é uma das contribuições deste trabalho. Como um dos resultados da aplicação da metodologia proposta, obteve-se uma melhora significativa na taxa de acerto do WI007 para o ruído corte de metal que, em média, foi igual a 3,69%. / Automatic Speech Recognition (ASR) is a fascinating and complex area. For decades the demand for research was based at ASR for not very extensive vocabulary, using techniques that need high performance computing to process the data produced in quiet laboratory environments. From the mid-80 forward, the speech processing technology has advanced, with the use of Hidden Markov Models (HMM) and the high advancement of programming techniques and computer processing, achieving recognition rates in quiet environments close to 100%. In order to put ASR systems to work in real life, several years of intensive research have been and are being made on robust speech recognition. Therefore, applications such as DSR (Distributed Speech Recognition), among others, appeared on the market. In order to achieve a performance similar to the human ear in noisy environments, however, such systems are still the focus of much research. This work makes a study on robust automatic speech recognition systems, aiming at the analysis and behavior of four types of noises (metal cutting, cars in front of a tunnel, cars inside the tunnel and a crowd of children), recorded in different environments for the evaluation and construction of noisy databases. Thus, two databases were developed, having as major contributions the methodology for their construction and the process of analysis and evaluation of data involved in its construction. Furthermore, we present a mathematical development of an algorithm which is the numerical solution to a logistic function of three parameters of difficult solution, used to model the behavior of WI007 and WI008 systems employed here. A method for initial logistic adjustment (Mail) for Pesq vs. TA curves to evaluate the behavior of the adopted ASR system is also one of the contributions of this work. As one result of the proposed methodology, we obtained a significant improvement in the recognition rate for WI007 for the metal cutting noise which, on average, was equal to 3.69%. Engenharia de sistemas Automação Reconhecimento automatico da voz Banco de dados

Search results