Spelling suggestions: "subject:"reconhecimento automatic dda voz."" "subject:"reconhecimento automatic daa voz.""
1 |
Reconhecimento da voz : uma abordagem utilizando lógica difusa /Peil, Norberto de Castro January 1998 (has links)
Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-17T08:00:26Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-09T00:25:17Z : No. of bitstreams: 1
138912.pdf: 1653409 bytes, checksum: 3f8f65b439156930b7de364b8edfee58 (MD5)
|
2 |
Desenvolvimento e implantação de uma ferramenta para uso de laudos ditados em um sistema de telemedicinaRuby, Cristina 05 December 2013 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013 / Made available in DSpace on 2013-12-06T00:02:56Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-24T20:25:53Z : No. of bitstreams: 1
319597.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / O desenvolvimento de tecnologias computacionais e de telecomunicações oferece alternativas às formas tradicionais de diagnóstico médico e geração de laudos. A geração de laudos em clínicas e hospitais é diferente entre as instituições dependendo dos métodos aplicados. Um dos métodos utilizados trabalha com o ditado em fitas microcassetes, nesse método o laudo é ditado, armazenado em fitas e passa por uma equipe de digitadores para a transcrição. Outro procedimento usa um gravador de áudio digital que faz a gravação de áudio para um computador através de um software para ditados, os arquivos de voz são então disponibilizados para a equipe de transcrição. Este trabalho apresenta o desenvolvimento e avaliação empírica de um módulo de ditados para a Rede Catarinense de Telemedicina e discussão sobre o emprego do reconhecimento de fala para ditados médicos. A gravação do laudo em áudio digital na Rede Catarinense de Telemedicina disponibiliza um áudio de boa qualidade para a transcrição e garante o armazenamento dos ditados e transcrições para os exames corretos. Essa documentação possibilita um fácil acesso à um áudio de qualidade e armazenado de forma segura disponibilizado para consultas futuras. O desenvolvimento desta interface, permitiu avaliar que o processo de trabalho dos médicos e digitadores é afetado, e o impacto que a transcrição automática dos ditados pode causar às práticas de trabalho cotidianas. Para a implementação do módulo de ditados foram utilizadas ferramentas open source e a implementação foi feita em PHP com Zend Framework, para a gravação dos arquivos de voz é utilizado o applet NanoGong com o formato de arquivo Speex, que é específico para voz. Para o Português Brasileiro não existem muitos corpus de voz disponíveis para treinamento dos sistemas de reconhecimento de voz. Sendo a linguagem médica um domínio muito específico, bases de dados livres para o domínio médico ou para o domínio de radiologia não são encontradas. Com a utilização do módulo de ditados um grande volume de dados estará disponível para que seja feita a extração de palavras e frases para compor um corpus de treinameno para o domínio médico. Trabalhos futuros incluem a implementação do reconhecimeno de voz aplicado a uma rede de telemedicina e podem aproveitar essa interface para a entrada de ditados, como obtenção direta dos laudos de voz <br> / Abstract: The development of computer technologies and telecommunications offers alternatives to traditional forms of medical diagnosis and generation of reports. The generation of reports in clinics and hospitals is different between institutions depending on the methods applied. One of the methods used for work is the dictation in Microcassette tapes, this method is the report dictation, stored on tapes and passes by a team of typists for transcription. Another procedure uses a digital audio recorder that makes a recording audio to a computer through a software for dictation, the voice files are then available for the transcription team. This work presents the development and empirical evaluation of a dictation module to Catarinense Telemedicine Network and discussion about the use of speech recognition for doctor dictation. The recording of the report on digital audio in Santa Catarina Telemedicine Network provides a good quality audio for transcription and ensures the storage of dictations and transcriptions for the right exams. This documentation provides easy access to a quality audio stored securely and available for future reference. The development of this interface has enabled to evaluate how the working process of physicians and transcriptionists is affected, and the impact that the automatic transcription of dictations can cause every day in working practices. To the implement the dictations module were used open source tools and the implementation was done in PHP with Zend Framework, for the recording of voice files is used applet NanoGong with the Speex file format, which is specific to the voice. For the Brazilian Portuguese there are no many corpus available for training the speech recognition systems. Medical language is a very specific field, free medical databases are not found. By using the dictations module a large volume of data is available for extraction of words and phrases to form a corpus medical. Future works include the implementation of voice recognition applied to a telemedicine network that can be used the interface to input a dictation, as obtaining direct reports voice.
|
3 |
Contribuições ao reconhecimento automático de fala robustoSilva, David Daniel e 25 October 2012 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2010 / Made available in DSpace on 2012-10-25T00:59:03Z (GMT). No. of bitstreams: 1
282663.pdf: 3425788 bytes, checksum: 11c0696aaa6269d3305bc94da6724197 (MD5) / Reconhecimento Automático de Fala (RAF) é uma área fascinante e complexa. Durante décadas a demanda de pesquisas baseava-se em RAF para vocabulário não muito extenso, com técnicas que precisavam de alto desempenho computacional para processar dados produzidos em ambientes silenciosos de laboratórios. Dos meados da década de 80 para a frente, a tecnologia de processamento de voz avançou, com a utilização dos modelos ocultos de Markov (HMMs) e com o alto avanço de técnicas de programação e de processamento computacionais, conseguindo taxas de acerto, em ambientes silenciosos, próximas de 100%. Com a finalidade de colocar sistemas de RAF para funcionar na vida real, há alguns anos pesquisas intensas foram e continuam sendo feitas sobre reconhecimento de fala robusto. Por isso, aplicações como DSR (Distributed Speech Recognition), entre outras, surgiram no mercado. Para obter uma performance similar ao do ouvido humano em ambientes ruidosos, no entanto, sistemas desse tipo ainda são o foco de muitas pesquisas. Assim, este trabalho faz um estudo sobre sistemas de reconhecimento automático de fala robusto, objetivando a análise e comportamento de quatro tipos de ruídos (corte de metal, automóveis em frente a um túnel, automóveis dentro do túnel e multidão de crianças), gravados em ambientes diferentes, para a avaliação e construção de bases de dados ruidosas. Desta forma, são desenvolvidas duas bases de dados, deixando como contribuição principal a metodologia para sua construção e o processo de análise e avaliação dos dados envolvidos na sua construção. Além disso, é apresentado um desenvolvimento matemático de um algoritmo que é a solução numérica para uma função logística de três parâmetros de difícil solução, empregada para modelar o comportamento dos sistemas WI007 e WI008 usados aqui. Um método de ajuste inicial logístico (Mail) das curvas Pesq vs. TA para a avaliação do comportamento do sistema de RAF adotado, também é uma das contribuições deste trabalho. Como um dos resultados da aplicação da metodologia proposta, obteve-se uma melhora significativa na taxa de acerto do WI007 para o ruído corte de metal que, em média, foi igual a 3,69%. / Automatic Speech Recognition (ASR) is a fascinating and complex area. For decades the demand for research was based at ASR for not very extensive vocabulary, using techniques that need high performance computing to process the data produced in quiet laboratory environments. From the mid-80 forward, the speech processing technology has advanced, with the use of Hidden Markov Models (HMM) and the high advancement of programming techniques and computer processing, achieving recognition rates in quiet environments close to 100%. In order to put ASR systems to work in real life, several years of intensive research have been and are being made on robust speech recognition. Therefore, applications such as DSR (Distributed Speech Recognition), among others, appeared on the market. In order to achieve a performance similar to the human ear in noisy environments, however, such systems are still the focus of much research. This work makes a study on robust automatic speech recognition systems, aiming at the analysis and behavior of four types of noises (metal cutting, cars in front of a tunnel, cars inside the tunnel and a crowd of children), recorded in different environments for the evaluation and construction of noisy databases. Thus, two databases were developed, having as major contributions the methodology for their construction and the process of analysis and evaluation of data involved in its construction. Furthermore, we present a mathematical development of an algorithm which is the numerical solution to a logistic function of three parameters of difficult solution, used to model the behavior of WI007 and WI008 systems employed here. A method for initial logistic adjustment (Mail) for Pesq vs. TA curves to evaluate the behavior of the adopted ASR system is also one of the contributions of this work. As one result of the proposed methodology, we obtained a significant improvement in the recognition rate for WI007 for the metal cutting noise which, on average, was equal to 3.69%.
|
4 |
Efeito do MEI (multiple exemplar instruction) na integração entre repertórios de ouvinte e falante em crianças com desordem do espectro da neuropatia auditiva e implante coclear /Merlin, Adriana Maura Barboza. January 2017 (has links)
Orientador: Ana Cláudia Moreira Almeida-Verdu / Banca: Adriane Lima Mortari Moret / Banca: Alessandra Turini Bolsoni Silva / Resumo: Estudos da parceria entre a Fonoaudiologia e Análise do Comportamento têm investigado sob quais condições de ensino implantados cocleares pré-linguais aprendem habilidades auditivas e as relações que estabelecem com a produção oral. Uma rota que permite a extensão do controle entre repertórios verbais é o Ensino por Múltiplos Exemplares (do inglês Multiple Exemplar Instruction, MEI), que tem sido pouco explorada em estudos com usuários de implante coclear. Este estudo objetivou investigar o efeito do ensino por MEI sobre a integração entre repertórios de ouvinte e falante em crianças com Desordem do Espectro da Neuropatia Auditiva (DENA) e usuárias de implante coclear (IC). Participaram três crianças com 6 anos de idade, uma do sexo feminino e duas do sexo masculino, com o diagnóstico de DENA e um quadro de perda auditiva severa-profunda, bilateral e pré-lingual. Todos os participantes usavam implante coclear uni ou bilateral, frequentavam o ensino regular e recebiam atendimento multidisciplinar no follow-up do serviço de implante coclear. Os participantes apresentavam maturidade intelectual típica e reconhecimento auditivo inferior à idade cronológica, aferidos pela Escala Colúmbia de Maturidade Intelectual e o Peabody Picture Vocabulary Test (PPVT-4R). Foram adotados estímulos auditivos e figuras que corresponderam às palavras (substantivos) e sentenças de dois termos (substantivos+adjetivos), que foram convencionais (para GABI e SOZA) e não convencionais (para DOZA). O est... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Studies of the partnership between Speech-Language Pathology and Behavioral Analysis have investigated under which teaching conditions that pre-lingual implanted cochlear learn listening skills and the relations that establish with oral production. A route that can be to promote the extension of control between verbal repertoires is designated Multiple Exemplary Instruction (MEI), which has been little explored in studies with cochlear implants users. This study aimed to investigate the effect of MEI' teaching on the integration between listening and speaking repertoires in children with Auditory Neuropathy Spectrum Disorder (DENA) and cochlear implants users (CI). Participants were three 6-year-old children, one female and two males, with the diagnosis of DENA and a severe-profund, bilateral and pre-lingual hearing loss. All participants used a uni or bilateral cochlear implant, attended regular education and received multidisciplinary care in the follow-up of the cochlear implant service. Participants had typical intellectual maturity and auditory recognition lower the chronological age, measured by Columbia and PPVT-4R tests. Auditory stimuli and figures that corresponded to words (nouns) and sentences of two terms (nouns + adjectives) were used, which were conventional (GABI and SOZA) and nonconventional (DOZA). The study employed a multiple probe design and was composed of probes and teaching. The probes were intercalated with the teaching and evaluated the conditional a... (Complete abstract click electronic access below) / Mestre
|
5 |
Reconhecimento de fala utilizando modelos matemáticos e redes neuraisOliveira, Neilza Andréa de January 2002 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-19T22:35:39Z (GMT). No. of bitstreams: 1
186485.pdf: 500433 bytes, checksum: a50adf14051c6cfce1b92de8a215ebc2 (MD5) / O reconhecimento de fala tem várias áreas de aplicação: tradução de textos, ditados, interfaces de computadores, serviços automáticos por telefone e aplicações industriais de propósito gerais. A principal razão para o sucesso dos sistemas de reconhecimento tem sido demonstrada pelo aumento na produtividade propiciada por estes, que assistem ou substituem operadores humanos. Esta dissertação tem como objetivo o desenvolvimento de um sistema de reconhecimento de fala. As redes neurais artificiais surgem como o principal paradigma para o desenvolvimento destes sistemas, já que estas têm como principais características seu paralelismo, capacidade de treinamento, generalização, não linearidade e robustez.Essas vantagens são confirmadas através dos experimentos realizados neste trabalho, no qual comprova-se a importância das redes neurais artificiais para tais aplicações.
|
6 |
Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado /Campos, Victor de Abreu. January 2017 (has links)
Orientador: Daniel Carlos Guimarães Pedronette / Resumo: A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de... / Abstract: The huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains / Mestre
|
7 |
Segmentação consciente da cadeia da fala : uma questão polemicaRodrigues, Heloisa Blasi January 1994 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão / Made available in DSpace on 2012-10-16T08:01:35Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-08T19:14:50Z : No. of bitstreams: 1
98046.pdf: 11688791 bytes, checksum: 7bfe93658c42b0562099042776140b10 (MD5) / Partindo do princípio inquestionável de que a cadeia da fala é um contínuo, procura-se explicar como o ser humano percebe e segmenta conscientemente as palavras no contínuo da fala. Testa-se a teoria de Câmara Jr. sobre a demarcação de palavras segundo a pauta acentual em português, com diferentes grupos de pessoas, que executam a tarefa diferentemente, de acordo com o seu nível de letramento.
|
8 |
Desenvolvimento de um sistema de reconhecimento de comandos verbais para robôs baseado na técnica de redes neurais artificiais /Raposo, Emerson Pereira January 1997 (has links)
Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-16T23:56:22Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-08T22:19:52Z : No. of bitstreams: 1
138758.pdf: 2535550 bytes, checksum: f1d3ad3ad8233c7050ab3025681b2f06 (MD5)
|
9 |
Conversão do contorno de pitch por divisão de componentes para aplicação em sistemas de conversão de vozOdebrecht Júnior, Marcos 24 October 2012 (has links)
Dissertação [mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009 / Made available in DSpace on 2012-10-24T08:27:22Z (GMT). No. of bitstreams: 1
275252.pdf: 868813 bytes, checksum: 20c260851cf8918c21ee9565cea6d946 (MD5) / Esta dissertação propõe uma nova técnica de conversão do contorno de pitch para aplicação em sistemas de conversão de voz. O principal objetivo deste trabalho é possibilitar a aplicação do método proposto aos mais diferentes tipos de sistemas de conversão de voz sem que para tanto seja necessário adaptar ou criar um novo banco de sinais de fala. A abordagem proposta considera o algoritmo MOMEL (modelling melody) para dividir o contorno de pitch levando em conta os componentes macroprosódico e microprosódico, sendo que cada um deles é convertido separadamente. A contribuição do componente macroprosódico, obtida pela interpolação dos dados usando a codificação INTSINT (international transcription system for intonation), é então convertida utilizando um modelo de misturas gaussianas (GMM); enquanto, a contribuição do componente microprosódico é convertida por seleção de segmentos de contorno de pitch. Os problemas inerentes à avaliação de desempenho dos sistemas de conversão de voz são discutidos e um parâmetro denominado índice de desempenho é modificado para permitir uma avaliação objetiva da conversão do contorno de pitch. O desempenho do método proposto é confrontado com dois dos métodos mais utilizados na literatura: conversão utilizando normalização gaussiana (GN) e GMM. O desempenho dos diferentes métodos considerados são avaliados através de dois testes subjetivos: de preferência e de similaridade. Os resultados obtidos ratificam a medida adotada, indicando uma preferência pelo método proposto através da melhoria significativa de desempenho frente aos demais métodos avaliados. A flexibilidade da nova abordagem possibilita ampla gama de aplicações nos mais variados tipos de sistemas de conversão de voz.
|
10 |
Compressão de bancos de fala para sistemas de síntese concatenativa de alta qualidadeHentz, Augusto Henrique 24 October 2012 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009. / Made available in DSpace on 2012-10-24T09:05:52Z (GMT). No. of bitstreams: 1
275012.pdf: 1391752 bytes, checksum: f17a2be92485300a2e0eeaa58f4703bf (MD5) / Sistemas de conversão texto-fala baseados na técnica de síntese concatenativa com seleção de unidades são capazes de produzir fala sintética de muito boa qualidade, com inteligibilidade e naturalidade próximas às da fala humana. Para conseguir tal feito, é necessário o uso de bancos de fala contendo exemplos de diversos contextos fonéticos e prosódicos. Freqüentemente, os bancos utilizados em sintetizadores de muito boa quali- dade têm duração de dezenas de horas, tornando sua ocupação de memória muito elevada. Além dos bancos de gravações, sistemas de síntese concatenativa utilizam um conjunto de informações para o cálculo de custos no processo de seleção de unidades, contribuindo para a ocupação de memória. O presente trabalho apresenta técnicas para reduzir a ocupa- ção de memória de sistemas de síntese concatenativa de fala, considerando o sintetizador desenvolvido no LINSE (Laboratório de Circuitos e Processamento de Sinais do Departa- mento de Engenharia Elétrica da UFSC). O banco de gravações do sistema considerado é compactado utilizando o codec iLBC, que proporciona a capacidade de acesso aleatório aos dados codificados, fundamental para a aplicações em síntese de fala concatenativa. O banco de parâmetros, por sua vez, é compactado usando quantização vetorial dos co- eficientes espectrais no processo de seleção de unidades. As técnicas propostas permitem reduzir a ocupação de memória do sistema considerado em até 79 %, sem grandes perdas na qualidade da fala sintética.
|
Page generated in 0.0981 seconds