211 |
Desenvolvimento de arquitetura para sistemas de reconhecimento automático de voz baseados em modelos ocultos de MarkovGomez Cipriano, Jose Luis January 2001 (has links)
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
|
212 |
Conversão do contorno de pitch por divisão de componentes para aplicação em sistemas de conversão de vozOdebrecht Júnior, Marcos 24 October 2012 (has links)
Dissertação [mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009 / Made available in DSpace on 2012-10-24T08:27:22Z (GMT). No. of bitstreams: 1
275252.pdf: 868813 bytes, checksum: 20c260851cf8918c21ee9565cea6d946 (MD5) / Esta dissertação propõe uma nova técnica de conversão do contorno de pitch para aplicação em sistemas de conversão de voz. O principal objetivo deste trabalho é possibilitar a aplicação do método proposto aos mais diferentes tipos de sistemas de conversão de voz sem que para tanto seja necessário adaptar ou criar um novo banco de sinais de fala. A abordagem proposta considera o algoritmo MOMEL (modelling melody) para dividir o contorno de pitch levando em conta os componentes macroprosódico e microprosódico, sendo que cada um deles é convertido separadamente. A contribuição do componente macroprosódico, obtida pela interpolação dos dados usando a codificação INTSINT (international transcription system for intonation), é então convertida utilizando um modelo de misturas gaussianas (GMM); enquanto, a contribuição do componente microprosódico é convertida por seleção de segmentos de contorno de pitch. Os problemas inerentes à avaliação de desempenho dos sistemas de conversão de voz são discutidos e um parâmetro denominado índice de desempenho é modificado para permitir uma avaliação objetiva da conversão do contorno de pitch. O desempenho do método proposto é confrontado com dois dos métodos mais utilizados na literatura: conversão utilizando normalização gaussiana (GN) e GMM. O desempenho dos diferentes métodos considerados são avaliados através de dois testes subjetivos: de preferência e de similaridade. Os resultados obtidos ratificam a medida adotada, indicando uma preferência pelo método proposto através da melhoria significativa de desempenho frente aos demais métodos avaliados. A flexibilidade da nova abordagem possibilita ampla gama de aplicações nos mais variados tipos de sistemas de conversão de voz.
|
213 |
Classificação de pontos de segmentação de dígitos manuscritos / Eduardo Vellasques ; orientador, Luiz Eduardo Soares de Oliveira ; co-orientadores, Alceu de Souza Britto Jr., Robert SabourinVellasques, Eduardo January 2006 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2006 / Inclui bibliografia / Este trabalho apresenta um método de classificação de pontos de segmentação de dígitos manuscritos. O método proposto funciona como um filtro, a ser aplicado em sistemas baseados na estratégia segmentação-reconhecimento. Esse tipo de estratégia de segment / This work presents a method to classify segmentation cuts for handwritten digits. The proposed method works as a filter, which is applied on segmentation-based recognition systems. In this strategy, the number of segmentation hypothesis created is usually
|
214 |
Reconhecimento facial tolerante à variação de pose utilizando uma câmera RGB-D de baixo custo / Face recognition using an low cost RGB-D camera to deal with the problem of pose variationZeni, Luis Felipe de Araujo January 2014 (has links)
Reconhecer a identidade de seres humanos a partir de imagens digitais gravadas de suas faces é uma etapa importante para uma variedade de aplicações que incluem segurança de acesso, iteração humano computador, entretenimento digital, entre outras. Neste trabalho é proposto um novo método automático para reconhecimento facial que utiliza simultaneamente a informação 2D e 3D de uma câmera RGB-D(Kinect). O método proposto utiliza a informação de cor da imagem 2D para localizar faces na cena, uma vez que uma face é localizada ela é devidamente recortada e normalizada para um padrão de tamanho e cor. Posteriormente com a informação de profundidade o método estima a pose da cabeça em relação com à câmera. Com faces recortadas e suas respectivas informações de pose, o método proposto treina um modelo de faces robusto à variação de poses e expressões propondo uma nova técnica automática que separa diferentes poses em diferentes modelos de faces. Com o modelo treinado o método é capaz de identificar se as pessoas utilizadas para aprender o modelo estão ou não presentes em novas imagens adquiridas, as quais o modelo não teve acesso na etapa de treinamento. Os experimentos realizados demonstram que o método proposto melhora consideravelmente o resultado de classificação em imagens reais com variação de pose e expressão. / Recognizing the identity of human beings from recorded digital images of their faces is important for a variety of applications, namely, security access, human computer interation, digital entertainment, etc. This dissertation proposes a new method for automatic face recognition that uses both 2D and 3D information of an RGB-D(Kinect) camera. The method uses the color information of the 2D image to locate faces in the scene, once a face is properly located it is cut and normalized to a standard size and color. Afterwards, using depth information the method estimates the pose of the head relative to the camera. With the normalized faces and their respective pose information, the proposed method trains a model of faces that is robust to pose and expressions using a new automatic technique that separates different poses in different models of faces. With the trained model, the method is able to identify whether people used to train the model are present or not in new acquired images, which the model had no access during the training phase. The experiments demonstrate that the proposed method considerably improves the result of classification in real images with varying pose and expression.
|
215 |
A utilização do Microsoft Speech SDK para o reconhecimento de vozBernardi, Yuri Ademir January 2003 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnologico. Programa de Pós-Graduação em Engenharia de Produção / Made available in DSpace on 2012-10-20T11:20:04Z (GMT). No. of bitstreams: 1
227346.pdf: 1266542 bytes, checksum: 024bef5b204e7abba3e5328642db3926 (MD5) / A necessidade do ser humano por novos meios de comunicação, tanto entre seus semelhantes, quanto na relação do homem com a máquina, nos traz novos desafios. Este trabalho avalia o "kit" da Microsoft de reconhecimento de fala. Esta ferramenta propõe facilidades para projetos que necessitam utilizar o reconhecimento de voz.
Neste estudo são abordados vários conceitos, podendo assim o leitor ter uma boa conceituação sobre os tópicos descritos. Os principais assuntos relacionados na revisão bibliográfica são o reconhecimento de padrões, inteligência artificial e a voz.
Finalmente apresenta-se o Microsoft Speech SDK e suas características. Após são apresentadas as avaliações e conclusões obtidas sobre o uso da ferramenta utilizada.
The human being need for new communication means so much among its fellow creatures as in the relationship man machine this brings us new challenges. This work evaluates the kit of Microsoft of speech recognition. This tool proposes means for projects that need to use the voice recognition.
In this study several concepts are approached, being able to not like this the reader to have a good concept on the described topics. The main subjects related in the bibliographical revision are the recognition of patterns, artificial intelligence and the voice.
Finally it introduces it Microsoft Speech SDK and its characteristics. After healthy presented the evaluations and conclusions obtained on the use of the used tool.
|
216 |
Técnicas de processamento de sinais para alteração de parâmetros prosódicos aplicadas a um sistema de conversão texto-fala para a lingua portuguesa falada no BrasilPacheco, Fernando Santana January 2001 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica. / Made available in DSpace on 2012-10-18T14:32:01Z (GMT). No. of bitstreams: 0 / Sistemas de conversão texto-fala têm como objetivo a transformação de um texto com vocabulário irrestrito em uma mensagem falada. Esse processo consiste de duas etapas básicas. Na primeira, técnicas de processamento lingüístico realizam a extração de uma representação simbólica dos parâmetros acústicos a partir do texto de entrada. A representação simbólica é transformada em sinal de fala através de técnicas de processamento de sinais. Um dos métodos de síntese de fala é o de concatenação de segmentos de fala previamente gravados. No entanto, para conferir maior naturalidade à fala sintetizada, faz-se necessário alterar de forma dinâmica os parâmetros prosódicos (pitch, duração e energia) dos segmentos durante a operação de síntese. O presente trabalho apresenta o desenvolvimento de uma técnica baseada em análise/ressíntese LPC com excitação residual para alteração de parâmetros prosódicos. O objetivo é aplicá-la a um sistema de conversão texto-fala baseado em síntese concatenativa para a língua portuguesa falada no Brasil. Nesta técnica, simples operações de cópia e corte são realizadas no sinal de resíduo, permitindo a alteração do pitch. A alteração da duração é efetuada eliminando ou copiando quadros inteiros de análise. Essa técnica apresenta uma carga computacional reduzida, possibilitando a implementação em tempo real. Análises objetivas e testes perceptuais preliminares mostraram um bom desempenho da técnica.
|
217 |
Desenvolvimento de arquitetura para sistemas de reconhecimento automático de voz baseados em modelos ocultos de MarkovGomez Cipriano, Jose Luis January 2001 (has links)
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
|
218 |
Caracterização de impressões faciais termais utilizando a transformada imagem florestaOsaku, Daniel [UNESP] 09 August 2011 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0
Previous issue date: 2011-08-09Bitstream added on 2014-06-13T18:07:45Z : No. of bitstreams: 1
osaku_d_me_sjrp.pdf: 788731 bytes, checksum: 0ce6d79e0f3d97cc3095ca9bf4cfa3aa (MD5) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Muito embora a impressã digital seja a técnica de reconhecimento biométrico mais utilizada, esta abordagem é muito sensível a imperfeições nos dedos, sejam elas congênitas ou adquiridas com o passar do tempo. O reconhecimento através da íris é uma alternativa, embora sistemas deste porte ainda possuam um elevado custo, sendo também bastante desconfortáveis para o usuário. Outras abordagens têm utilizado o reconhecimento facial como uma alternativa, pois é uma técnica pouco invasiva. Entretanto, tais sistemas são muito sensíveis a variações de luminosidade e oclusões na face. Assim sendo, imagens faciais termais têm sido empregadas, pois a temperatura nas diversas partes do rosto humano permitem caracterizar uma determinada pessoa. Entretando, problemas de saúde que acarretam algum tipo de alteração da temperatura corpórea provocam alterações na imagem termal capturada. Estudos recentes têm proposto obter a assiatura de uma pessoa determinando as regiões isotérmicas de sua face, com o intuito de definir uma impresão facila termal. Apresente pesquisa objetiva a melhoria de tais técnicas, que vão desde a segmentação da face até a obtenção das regiões isotérmicas e classificação das imagens utilizando, para tal, abordagens de processamento de imagens e reconhecimento de padrões baseadas em grafos, denominada Transformada Imagem Floresta e Floresta de Caminhos Ótimos, respectivamente, as quais têm sido amplamente utilizadas com sucesso em todas as etapas necessárias para a implementação de um sistema nesse contexto, mas ainda não empregada para este fim. Os melhores resultados para a obtenção da impressão facial termal foram obtidos utilizando threshold na etapa de binarização das imagens e estabelecendo restrições de busca quanto ao melhor posicionamento dos marcadores utilizados pela Transformada Imagem Floresta... / Not available
|
219 |
Reconhecimento de face utilizando transformada discreta do cosseno bidimensional, análise de componentes principais bidimensional e mapas auto-organizáveis concorrentesGuimarães, Thayso Silva 14 May 2010 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The identification of a person by their face is one of the most effective non-intrusive
methods in biometrics, however, is also one of the greatest challenges for researchers in the
area, consisting of research in psychophysics, neuroscience, engineering, pattern recognition,
analysis and image processing, computer vision and applied in face recognition by humans
and by machines. The algorithm proposed in this dissertation for face recognition was
developed in three stages. In the first stage feature matrices are derived of faces using the
Two-Dimensional Discrete Cosine Transform (2D-DCT) and Two-Dimensional Principal
Component Analysis (2D-PCA). The training of the Concurrent Self-Organizing Map
(Csoma) is performed in the second stage using the characteristic matrices of the faces. And
finally, the third stage we obtain the feature matrix of the image consulting classifying it using
the CSOM network of the second step. To check the performance of face recognition
algorithm proposed in this paper were tested using three well-known image databases in the
area of image processing: ORL, YaleA and Face94. / A identificação de uma pessoa pela sua face é um dos métodos não-intrusivo mais
efetivo em biometria, no entanto, também é um dos maiores desafios para os pesquisadores na
área; consistindo em pesquisas em psicofísica, neurociência, engenharia, reconhecimento de
padrões, análise e processamento de imagens, e visão computacional aplicada no
reconhecimento de faces pelos seres humanos e pelas máquinas. O algoritmo proposto nesta
dissertação para reconhecimento de faces foi desenvolvido em três etapas. Na primeira etapa
são obtidas as matrizes características das faces utilizando a Two-Dimensional Discrete
Cosine Transform (2D-DCT) e a Two-Dimensional Principal Component Analysis (2D-PCA).
O treinamento da Concurrent Self-Organizing Map (CSOM) é realizado na segunda etapa
usando as matrizes características das faces. E finalmente, na terceira etapa obtém-se a matriz
característica da imagem consulta classificando-a utilizando a rede CSOM da segunda etapa.
Para verificar o desempenho do algoritmo de reconhecimento de faces proposto neste trabalho
foram realizados testes utilizando três bancos de imagens bem conhecidos na área de
processamento de imagens: ORL, YaleA e Face94. / Mestre em Ciências
|
220 |
Reconhecimento facial tolerante à variação de pose utilizando uma câmera RGB-D de baixo custo / Face recognition using an low cost RGB-D camera to deal with the problem of pose variationZeni, Luis Felipe de Araujo January 2014 (has links)
Reconhecer a identidade de seres humanos a partir de imagens digitais gravadas de suas faces é uma etapa importante para uma variedade de aplicações que incluem segurança de acesso, iteração humano computador, entretenimento digital, entre outras. Neste trabalho é proposto um novo método automático para reconhecimento facial que utiliza simultaneamente a informação 2D e 3D de uma câmera RGB-D(Kinect). O método proposto utiliza a informação de cor da imagem 2D para localizar faces na cena, uma vez que uma face é localizada ela é devidamente recortada e normalizada para um padrão de tamanho e cor. Posteriormente com a informação de profundidade o método estima a pose da cabeça em relação com à câmera. Com faces recortadas e suas respectivas informações de pose, o método proposto treina um modelo de faces robusto à variação de poses e expressões propondo uma nova técnica automática que separa diferentes poses em diferentes modelos de faces. Com o modelo treinado o método é capaz de identificar se as pessoas utilizadas para aprender o modelo estão ou não presentes em novas imagens adquiridas, as quais o modelo não teve acesso na etapa de treinamento. Os experimentos realizados demonstram que o método proposto melhora consideravelmente o resultado de classificação em imagens reais com variação de pose e expressão. / Recognizing the identity of human beings from recorded digital images of their faces is important for a variety of applications, namely, security access, human computer interation, digital entertainment, etc. This dissertation proposes a new method for automatic face recognition that uses both 2D and 3D information of an RGB-D(Kinect) camera. The method uses the color information of the 2D image to locate faces in the scene, once a face is properly located it is cut and normalized to a standard size and color. Afterwards, using depth information the method estimates the pose of the head relative to the camera. With the normalized faces and their respective pose information, the proposed method trains a model of faces that is robust to pose and expressions using a new automatic technique that separates different poses in different models of faces. With the trained model, the method is able to identify whether people used to train the model are present or not in new acquired images, which the model had no access during the training phase. The experiments demonstrate that the proposed method considerably improves the result of classification in real images with varying pose and expression.
|
Page generated in 0.0337 seconds