• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 50
  • 1
  • Tagged with
  • 51
  • 51
  • 41
  • 22
  • 20
  • 19
  • 19
  • 17
  • 14
  • 14
  • 13
  • 12
  • 12
  • 12
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Etiquetagem automática de sinais de fala

Coelho, Luís Filipe Martins Pinto January 2005 (has links)
Tese de mestr.. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2005
2

Automatic behavior recognition in laboratory animals using kinect

Monteiro, João Pedro da Silva January 2012 (has links)
Tese de Mestrado Integrado. Bioengenharia. Faculdade de Engenharia. Universidade do Porto. 2012
3

Modulo frontal para um sistema de reconhecimento automatico de voz

Vieira, Maurilio Nunes 19 January 1990 (has links)
Orientador : Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-14T03:56:40Z (GMT). No. of bitstreams: 1 Vieira_MaurilioNunes_M.pdf: 7214227 bytes, checksum: 5d821ba794641f130f8a003d9d242b40 (MD5) Previous issue date: 1989 / Resumo: Este trabalho descreve o desenvolvimento do software para o Módulo Frontal de um Sistema de Reconhecimento Automático de Voz para operação na faixa de 0-4 kHz. O Módulo FrontaI , ou Processador Acústico, é responsável pela extração de traços a caracterização dos diversos sons da fala. O sinal de voz sofre uma filtragem passa-baixas com corte em 3,4 kHz, é amostrado a 8,0 kHz e quantizado em 12 bits. As análises são feitas em quadros de 25 ms, deslocados a um passo de 5 ms, obtendo-se uma série de parâmetros, como o número de cruzamentos por zero, o período de pitch para os intervalos sonoros, a energia em diversas faixas de freqüência do espectro LPC (Linear Predictive Coding) e a freqüência, amplitude e largura de faixa dos três primeiros formantes. O quadro é classificado em uma dentre sete categorias: silêncio, fricativo surdo, fricativo sonoro, oclusão sonora, vocálico, coarticulação eu indefinido. Esta última categoria inclui segmentos que não podem ser confiavelmente classificados em nenhuma das outras categorias. A classificação é independente do locutor / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica
4

Rede neural para reconhecimento adaptativo de fonemas ruidosos

Graciarena, Martin 22 July 1998 (has links)
Orientador: Marcio Luiz de Andrade Netto / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T05:39:47Z (GMT). No. of bitstreams: 1 Graciarena_Martin_M.pdf: 12012337 bytes, checksum: f8b1660fd6fbf146c9c94eb63f38e664 (MD5) Previous issue date: 1998 / Resumo: No presente trabalho é proposta a incorporação de um mecanismo adaptativo, o fIltro de Kalman, ao modelo tradicional de neurônio dando por resultado um modelo que chamamos Neurônio de Reconhecimento Adaptativo, especificamente destinado ao reconhecimento ruidoso de padrões. O objetivo do modelo é a classificação da estimação do padrão limpo realizado pelo filtro de Kalman, a partir de suas observações ruidosas. Se estende naturalmente o modelo proposto a uma rede de neurônios que chamamos Rede Neural de Reconhecimento Adaptativo. Estudaremos também desde o ponto de vista teórico suas propriedades e o aplicaremos à classificação de padrões ruidosos e de séries temporais no problema XOR. As experiências foram feitas com o objetivo de estudar a robustez do mecanismo proposto frente ao problema de desemparelhamento de condição. Este pode resumir-se como os problemas que surgem com os sistemas de reconhecimento quando têm que reconhecer padrões em condições diferentes às presentes nos padrões de treinamento. Em todos os problemas de reconhecimento estudados, o treinamento das redes neurais é feito com exemplos não ruidosos. A proposta que se apresentará está incluída dentro dos classificadores robustos. Isto é, propõe mecanismos para que o classificador seja robusto à distorção ruidosa dos padrões. Isto em contraposição à estratégia clássica de filtrar o ruído na etapa das características (chamadas características invariantes) e evitar que passem ao classificador. Mas o grande problema desta aproximação é que o classificador não é robusto ao ruído, portanto, em níveis de distorção onde as características não possam filtrar todo o ruído, existirá um erro no classificador. Aplicaremos o modelo proposto para a classificação de fonemas ruidosos. Para tal fim a proposta é utilizar três diferentes arquiteturas. Estas diferem entre si na forma de extração do padrão de características do sinal de voz. A primeira implica em análise através de um banco de fIltros digitais onde os fIltros de Kalman estimam os valores médios da energia de saída de cada filtro.A segunda implica no uso de um modelo de predição linear extraído pelo filtro de Kalman diretamente do sinal de voz, onde os padrões a serem reconhecidos são os coeficientes de predição linear. A terceira é uma melhora sobre a anterior, onde se classifica o ângulo dos coeficientes de predição linear. Para esta última arquitetura apresentamos o fundamento teórico de onde foi extraída. Junto com a proposta de dois índices de reconhecimento especificamente destinados a aplicações de voz, as arquiteturas propostas são primeiro comparadas no reconhecimento ruidoso de vogais espanholas afetadas por ruído branco gaussiano em diversas relações sinal - ruído e também no reconhecimento ruidoso de palavras, junto com os modelos Hidden Markov Models (HMM). A partir dos resultados encontrados no reconhecimento de palavras com a melhor arquitetura, foi proposta uma Rede Invariante. Esta tem a propriedade de ser robusta à compressão e dilatação dos padrões, que é a alteração sofrida pelos coeficientes de predição linear na presença do ruído. Esta é a rede que, juntamente com os coeficientes de predição linear foi a que melhor desempenho teve no reconhecimento ruidoso de palavras / Mestrado / Mestre em Engenharia Elétrica
5

Detector de voz para sistemas de interpolação digital

Yamamoto, Jose Sindi 19 July 2018 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia de Campinas / Made available in DSpace on 2018-07-19T03:53:37Z (GMT). No. of bitstreams: 1 Yamamoto_JoseSindi_M.pdf: 3092955 bytes, checksum: 42950eba7a21a08b996582c0962226c6 (MD5) Previous issue date: 1982 / Resumo: Neste trabalho são apresentadas algumas estratégias para a discriminação do sinal de voz do ruído, aplicáveis aos detectores de voz para sistemas de interpolação digital. Para a definição destas estratégias, são feitos estudos comparativos entre as características dos sinais de voz e do ruído presente nas linhas telefônicas, tais como número médio de cruzamentos de zero, variação de envoltória, etc. Adicionalmente, é apresentada a implementação de um detectar digital de voz para o sistema de interpolação de voz por ora denominado "MCP-60" , que está sendo desenvolvido nos laboratórios de Eletrônica & Comunicações da Faculdade de Engenharia da Universidade Estadual de Campinas, bem como os resultados dos testes de desempenho realizados / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica
6

Reconhecimento automatico de palavras isoladas : estudo e aplicação dos metodos deterministico e estocastico

Becerra Yoma, Nestor Jorge 22 November 1993 (has links)
Orientador: João Marcos Travassos Romano / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-19T03:38:55Z (GMT). No. of bitstreams: 1 BecerraYoma_NestorJorge_M.pdf: 4281211 bytes, checksum: 50437f9963c4004d71fc5db8cda87c30 (MD5) Previous issue date: 1993 / Resumo: Esta dissertação objetiva o estudo e implementação das técnicas mais comumente utilizadas em reconhecimento de palavras isoladas, numa abordagem analítica e crítica. Neste sentido, os dois primeiros capítulos foram dedicados à apresentação dos métodos de parametrização e de reconhecimento de padrões acústicos, utilizando um certo rigor matemático, tendo sempre em vista as aplicações. A seguir, foram comparadas três técnicas de parametrização (coeficientes LPC, LPC-cepstral e Mel-cepstral) no que diz respeito à capacidade de assimilar características intra-locutor e inter-locutor, e quanto à robustez em relação ao ruído interferente. Para implementar estes testes comparativos foi sugerido o algoritmo DTW (método determinístico) que compara diretamente duas elocuções eliminando as diferenças temporais entre elas. Por último, foi descrita a implementação de um reconhecedor automático de dígitos independente do locutor empregando a técnica HMM (método estocástico) com modelamento por palavra e parametrização Mel-cepstral / Abstract: In this work, the most commonly used techniques employed in speech recognition for isolated words were studied and implemented. Initially the parametrization and acoustic pattern recognition methods were discussed. In the discussion, we not only maintained the mathematical formalism as suggested in the literature but also sought the easy way for the practical implementation of these techniques. Three parametrization techniques, namely LPC,LPC-cepstral and Mel cepstral coefficients, were compared with respect to the assimilation capability of speaker-dependent and independent features, and noise robustness. Particularly, the DTW technique (deterministic analysis) was used for these comparative tests, which is capable of eliminating the time difference between two elocutions. A speaker independent digit recognizer was implemented employing the HMM techniques (stochastic analysis) with word modelling and Mel-cepstral coefficients / Mestrado / Mestre em Engenharia Elétrica
7

Sistema de notificação e reconhecimento automático de entidades em conteúdos audiovisuais

Oliveira, João Carlos Loureiro de Jesus January 2008 (has links)
Estágio realizado na ClusterMedia Labs / Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2008
8

Reconhecimento de orador em dois segundos

Mendes, Diana Rocha January 2011 (has links)
Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2011
9

Reconhecimento automático de fala com processamento simultâneo de características acústicas e visuais

Moura, António Afonso de Abreu e January 2005 (has links)
Tese de mestrado. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2005
10

Novas abordagens para codificação de voz e reconhecimento automático de locutor projetadas via mascaramento pleno em frequência por oitava

SOTERO FILHO, Roberto Fernando Batista 30 October 2009 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-27T22:00:17Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-05T19:02:50Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) / Made available in DSpace on 2018-09-05T19:02:50Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Roberto Fernando Batista Sotero Filho.pdf: 4760318 bytes, checksum: c985fe678efa727fd6aeae0a5fb97627 (MD5) Previous issue date: 2009-10-30 / CAPES / A área de processamento digital de sinais de voz (PDSV) é uma das mais importantes do processamento digital de sinais. Como sub-áreas relevantes do PDSV estão a Codificação da Voz e o Reconhecimento Automático de Locutor (RAL). Esta dissertação propõe uma nova abordagem para um vocoder baseado no Mascaramento Pleno em Frequência por Oitavas (MPFO) em adição a uma técnica de preenchimento espectral via distribuição beta de probabilidade. O método do MPFO consiste em simplificar a magnitude do espectro em frequência do sinal, considerando apenas uma amostra por oitava. Tal abordagem, que oferece um compromisso entre taxa de bits (e.g. 2,7 kbits/s), complexidade, inteligibilidade e qualidade dos sinais de voz, permitiu a criação de um novo formato binário de representação digital da voz: o formato voz. Apresenta-se, também, um novo método de baixa complexidade computacional para RAL, baseando-se em uma das propriedades-chave da percepção auditiva humana: o mascaramento acústico em frequência. O vetor característico dos quadros do sinal de voz é representado pela fração média das amplitudes dos tons de mascaramento em cada oitava. Ambos os tipos de reconhecimento de locutor (de texto dependente e de texto independente) são estudados. Os resultados confirmam que o algoritmo proposto oferece um compromisso entre a complexidade e a taxa de identificações corretas (típico 85%), sendo atrativo para aplicações em sistemas embarcados. / Digital processing of speech signals (DPSS) is one of the most important areas of digital signal processing. Voice coding and automatic speaker recognition (ASR) are relevant DPSS sub-fields. This dissertation introduces a new vocoder scheme, which is based on full frequency masking per octave (FFMO), jointly with a new spectral stuffing technique through the beta probability distribution. The FFMO method consists of simplifying the magnitude of the voice spectrum. It retains just one spectral sample per octave. This approach offers a tradeoff between the bit rate (e.g., 2.7 kbits/s), complexity, intelligibility and voice quality. A new file format, termed voz, was proposed. A novel and low-complexity ASR technique, based one of the key-properties of the human hearing perception - the auditory frequency masking - is also presented. The feature vectors of voice frames are represented by the average amplitude of the largest spectral samples within each octave. Both text-dependent and text-independent speaker recognition is investigated. Results support a tradeoff between recognition efficiency (typically 85%) and complexity of this kind of vocoder-based systems, being thereby attractive for embedded systems.

Page generated in 0.0927 seconds