Global ETD Search

581	Comparação de técnicas de reconhecimento facial para identificação de presença em um ambiente real e semicontrolado / Detecting presence through face recognition under low resolution and low luminosity conditions Kelvin Salton do Prado 14 November 2017 (has links) O reconhecimento facial é uma tarefa que os seres humanos realizam naturalmente todos os dias e praticamente sem esforço nenhum. Porém para uma máquina este processo não é tão simples. Com o aumento do poder computacional das máquinas atuais criou-se um grande interesse no processamento de imagens e vídeos digitais, com aplicações nas mais diversas áreas de conhecimento. Este trabalho objetiva a comparação de técnicas de reconhecimento facial, já conhecidas na literatura, com o intuito de identificar qual técnica possui melhor desempenho em um ambiente real e semicontrolado. Secundariamente avalia-se a possibilidade da utilização de uma ou mais técnicas de reconhecimento facial para identificar automaticamente a presença de alunos em uma sala de aula de artes marciais, utilizando imagens das câmeras de vigilância instaladas no recinto, levando em consideração aspectos importantes, tais como: imagens com pouca nitidez, luminosidade não ideal, movimentação constante dos alunos e o fato das câmeras estarem em um ângulo fixo. Este trabalho está relacionado às áreas de Processamento de Imagens e Reconhecimento de Padrões, e integra a linha de pesquisa de \"Monitoramento de Presença\" do projeto \"Ensino e Monitoramento de Atividades Físicas via Técnicas de Inteligência Artificial\" (Processo 2014.1.923.86.4, publicado no DOE 125(45), em 10/03/2015), projeto este executado em conjunto da Universidade de São Paulo, Faculdade Campo Limpo Paulista e Academia Central Kungfu-Wushu. Com os experimentos realizados e apresentados neste trabalho foi possível concluir que, dentre os métodos de reconhecimento facial utilizados, o método Local Binary Patterns teve o melhor desempenho no ambiente proposto. Por outro lado, o método Eigenfaces teve o pior desempenho de acordo com os experimentos realizados. Além disso, foi possível concluir também que não é viável a realização da detecção de presença automática de forma confiável no ambiente proposto, pois a taxa de reconhecimento facial foi relativamente baixa, se comparada a outros trabalhos do estado da arte, trabalhos estes que usam de ambientes de testes mais amigáveis, mas ao mesmo tempo menos comumente encontrados em nosso dia-a-dia. Acredita-se que foi possível alcançar os objetivos propostos pelo trabalho e que o mesmo possa contribuir para o estado da arte atual na área de visão computacional, mais precisamente no âmbito do reconhecimento facial. Ao final são sugeridos alguns trabalhos futuros que podem ser utilizados como ponto de partida para a continuação desta pesquisa ou até mesmo de novas pesquisas relacionadas a este tema / Face recognition is a task that human beings perform naturally in their everyday lives, usually with no effort at all. To machines, however, this process is not so simple. With the increasing computational power of current machines, a great interest was created in the field of digital videos and images processing, with applications in most diverse areas of knowledge. This work aims to compare face recognition techniques already know in the literature, in order to identify which technique has the best performance in a real and semicontrolled environment. As a secondary objective, we evaluate the possibility of using one or more face recognition techniques to automatically identify the presence of students in a martial arts classroom using images from the surveillance cameras installed in the room, taking into account important aspects such as images with low sharpness, illumination variation, constant movement of students and the fact that the cameras are at a fixed angle. This work is related to the Image Processing and Pattern Recognition areas, and integrates the research line \"Presence Monitoring\" of the project entitled \"Education and Monitoring of Physical Activities using Artificial Intelligence Techniques\" (Process 2014.1.923.86.4, published in DOE 125 (45) on 03/10/2015), developed as a partnership between the University of São Paulo, Campo Limpo Paulista Faculty, and Kungfu-Wushu Central Academy. With the experiments performed and presented in this work it was possible to conclude that, amongst all face recognition methods that were tested, Local Binary Patterns had the best performance in the proposed environment. On the other hand, Eigenfaces had the worse performance according to the experiments. Moreover, it was also possible to conclude that it is not feasible to perform the automatic presence detection reliably in the proposed environment, since the face recognition rate was relatively low, compared to the state of the art which uses, in general, more friendly test environments but at the same time less likely found in our daily lives. We believe that it was possible to achieve the objectives proposed by this work and that can contribute to the current state of the art in the computer vision field and, more precisely, in the face recognition area. Finally, some future work is suggested that can be used as a starting point for the continuation of this work or even for new researches related to this topic Baixa resolução Detecção facial Reconhecimento facial Variação de iluminação Face detection Face recognition Illumination variation Low resolution
582	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente. / Automatic text classification using word similarities: a more efficient algorithm. Fabricio Shigueru Catae 08 January 2013 (has links) A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões. / The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions. Algoritmos Classificação automática de texto Reconhecimento de padrões Algorithms Automatic text classification Pattern recognition
583	Aplicação da Lógica Fuzzy kNN e análises estatísticas para seleção de características e classificação de abelhas. / Application of Fuzzy kNN and statistical analysis for features selection and classification of bees. Bruna Elisa Zanchetta Buani 07 October 2010 (has links) Este trabalho propõe uma alternativa para o problema de classificação de espécies de abelhas a partir da implementação de um algoritmo com base na Morfométria Geométrica e estudo das Formas dos marcos anatômicos das imagens obtidas pelas asas das abelhas. O algoritmo implementado para este propósito se baseia no algoritmo dos k-Vizinho mais Próximos (do inglês, kNN) e na Lógica Fuzzy kNN (Fuzzy k-Nearest Neighbor) aplicados a dados analisados e selecionados de pontos bidimensionais referentes as características geradas por marcos anatômicos. O estudo apresentado envolve métodos de seleção e ordenação de marcos anatômicos para a utilização no algoritmo por meio da implementação de um método matemático que utiliza o calculo dos marcos anatômicos mais significativos (que são representados por marcos matemáticos) e a formulação da Ordem de Significância onde cada elemento representa variáveis de entrada para a Fuzzy kNN. O conhecimento envolvido neste trabalho inclui uma perspectiva sobre a seleção de características não supervisionada como agrupamentos e mineração de dados, analise de pré-processamento dos dados, abordagens estatísticas para estimação e predição, estudo da Forma, Analise de Procrustes e Morfométria Geométrica sobre os dados e o tópico principal que envolve uma modificação do algoritmo dos k- Vizinhos mais Próximos e a aplicação da Fuzzy kNN para o problema. Os resultados mostram que a classificação entre amostras de abelhas no seu próprio grupo apresentam acuracia de 90%, dependendo da espécie. As classificações realizadas entre as espécies de abelhas alcançaram acuracia de 97%. / This work presents a proposal to solve the bees classification problem by implementing an algorithm based on Geometrics Morphometrics and the Shape analysis of landmarks generated from bees wings images. The algorithm is based on the K-Nearest Neighbor (K-Nearest Neighbor) algorithm and Fuzzy Logic KNN applied to the analysis and selection of two-dimensional data points relating to landmarks. This work is part of the Architecture Reference Model for Automatic identification and Taxonomic Classification System of Stingless Bee using the Wing Morphometry. The study includes selection and ordering methods for landmarks used in the algorithm by developing a mathematical model to represent the significance order, generating the most significant mathematical landmarks as input variables for Fuzzy Logic kNN. The main objective of this work is to develop a classification system for bee species. The knowledge involved in the development of this work include an overview of feature selection, unsupervised clustering and data mining, analysis of data pre-processing, statistical approaches for estimation and prediction, study of Shape, Procrustes Analysis on data that comes from Geometric Morphometry and the modification of the k-Nearest Neighbors algorithm and the Fuzzy Logic kNN. The results show that the classification in bee samples of the same species presents a accuracy above 90%, depending on the specie in analysis. The classification done between the bees species reach accuracies of 97%. Abelhas Classificação Lógica Fuzzy Reconhecimento de padrões Bees Classification Fuzzy Logic Pattern recognition
584	Avaliação de um método baseado em máquinas de suporte vetorial de múltiplos núcleos e retificação de imagens para classificação de objetos em imagens onidirecionais. / Assessment of a method based on multiple kernel support vector machines and images unwrapping for the classification of objects in omnidirectional images. Fábio Rodrigo Amaral 18 October 2010 (has links) Apesar da popularidade das câmeras onidirecionais aplicadas à robótica móvel e da importância do reconhecimento de objetos no universo mais amplo da robótica e da visão computacional, é difícil encontrar trabalhos que relacionem ambos na literatura especializada. Este trabalho visa avaliar um método para classificação de objetos em imagens onidirecionais, analisando sua eficácia e eficiência para ser aplicado em tarefas de auto-localização e mapeamento de ambientes feitas por robôs moveis. Tal método é construído a partir de um classificador de objetos, implementado através de máquinas de suporte vetorial, estendidas para a utilização de Aprendizagem de Múltiplos Núcleos. Também na construção deste método, uma etapa de retificação é aplicada às imagens onidirecionais, de modo a aproximá-las das imagens convencionais, às quais o classificador utilizado já demonstrou bons resultados. A abordagem de Múltiplos Núcleos se faz necessária para possibilitar a aplicação de três tipos distintos de detectores de características em imagens, ponderando, para cada classe, a importância de cada uma das características em sua descrição. Resultados experimentais atestam a viabilidade de tal proposta. / Despite the popularity of omnidirectional cameras used in mobile robotics, and the importance of object recognition in the broader universe of robotics and computer vision, it is difficult to find works that relate both in the literature. This work aims at performing the evaluation of a method for object classification in omnidirectional images, evaluating its effectiveness and efficience considering its application to tasks of self-localization and environment mapping made by mobile robots. The method is based on a multiple kernel learning extended support vector machine object classifier. Furthermore, an unwrapping step is applied to omnidirectional images, to make them similar to perspective images, to which the classifier used has already shown good results. The Multiple Kernels approach is necessary to allow the use of three distinct types of feature detectors in omnidirectional images by considering, for each class, the importance of each feature in the description. Experimental results demonstrate the feasibility of such a proposal. Reconhecimento de padrões Robótica móvel Visão computacional Computer vision Mobile robotics Object recognition
585	Sistema automatizado de classificação de abelhas baseado em reconhecimento de padrões. / Automated bee classification system based on pattern recognition. Jésus Franco Bueno 08 October 2010 (has links) A crescente perda mundial de biodiversidade tem sido uma das preocupações da comunidade científica internacional que motivaram a criação em 1992 da Convenção sobre a Diversidade Biológica, tornando-se um tratado de compromisso aceito pelos governantes de 187 países e pela Comunidade Européia. A redução da biodiversidade, devido a vários fatores, como a ação antrópica e o aquecimento global, compromete a capacidade do planeta de sustentação da vida humana em face do esgotamento dos recursos e serviços por ela prestados. A conservação e uso sustentável da biodiversidade passa necessariamente pela aquilatação e conhecimento das espécies. Entre essas espécies as abelhas polinizadoras têm merecido especial atenção, pois a polinização das plantas é um serviço de ecossistema muito importante. Cerca de três quartos das mais de 240 mil espécies de plantas do mundo dependem de polinizadores e estima-se que as abelhas sejam responsáveis por mais de 70% do serviço global de polinização. Existem quase 20.000 espécies de abelhas descritas no mundo. No Brasil são conhecidas quase 400 espécies de abelhas (cerca de 300 são abelhas sem ferrão) e o número estimado é de mais de 3.000 espécies. No entanto, este enorme esforço taxonômico a ser realizado pode estar comprometido pelo impedimento taxonômico reconhecido na Declaração de Darwin de 1988 pela ONU. Uma contribuição para minimizar o impedimento taxonômico pode ser dada pelo desenvolvimento de sistemas automatizados de apoio à decisão de identificação. Os sistemas de identificação existentes são proprietários, ou foram desenvolvidos para grupo específicos de espécies e muitas vezes não são integrados. Este trabalho com foco na identificação de abelhas, notadamente nas abelhas sem ferrão, que apresentam redução da venação das asas, apresenta um modelo de sistema baseado em computador para automatizar o processo de identificação de abelhas com uma abordagem de reconhecimento de padrões. Um modelo de sistema denominado ABeeS (Automated Bee Identification System) incorpora o conhecimento especializado para o reconhecimento automatizado de abelhas usando a imagem das asas. O modeloproposto apresenta as funcionalidades de um sistema de identificação de abelhas com o modelo de Caso de Uso e o fluxo de dados entre as atividades do processo de identificação com o modelo do Fluxo de Dados. Um modelo de banco de dados denominado Banco Entomológico de Espécies de Abelhas (BEE) foi proposto para armazenamento de resultados, treinamento e otimização do sistema ABeeS. Para levantar requisitos e avaliar a proposta foram desenvolvidos protótipos de partes do modelo no Labview, um ambiente de programação gráfica, que disponibiliza uma plataforma de visão computacional para aplicações de reconhecimento de padrões usando o método de correspondência de padrões (pattern matching). Um protótipo envolveu uma ferramenta para a definição dos marcos anatômicos nas imagens-padrão. Outro envolveu os resultados da extração automática dos marcos anatômicos e evidenciou que mostram que a capacidade do ABeeS em localizar automaticamente os gabaritos (template) dos marcos anatômicos na imagem da asa em análise depende do conhecimento especializado transferido para o sistema. Este conhecimento contribui para a seleção de uma região do entorno do marco anatômico para formação da imagem-gabarito. A definição precisa da área é muito importante para a acurácia do reconhecimento automatizado do marco anatômico. O ajuste dos parâmetros de treinamento e a qualidade da imagem da asa de abelha são determinantes para extração das características corretas. Parte integrante do modelo são algoritmos de classificação supervisionados, como o FNN4Bees desenvolvido no Laboratório de Automação Agrícola da POLI-USP, e que apresentou resultados satisfatórios. Este trabalho contribui com uma sistematização do processo de identificação de abelhas, servindo de guia para usuários dessa técnica, e o modelo obtido poderá ser utilizado para a implementação de um sistema real, na continuidade dos trabalhos. / The growing worldwide loss of biodiversity has been a concern to the international scientific community that motivated the creation of the Convention on Biological Diversity in 1992, which turned into a commitment treaty accepted by governments of 187 countries and the European Community. The reduction of biodiversity due to several factors, such as anthropic action and global warming, compromises the ability of the planet to sustain human life in face of the exhaustion of the resources and services it provides. Conservation and the sustainable use of biodiversity necessarily involve species knowledge and assessment. Among these species, pollinating bees have deserved special attention because plant pollination is an important ecosystem service. Nearly three quarters of more than 240,000 plant species depend on pollinators around the world and bees are estimated to account for more than 70% of the overall pollination service. There are nearly 20,000 bee species described in the world. Brazil is known to have nearly 400 bee species (about 300 are stingless bees) and the estimated number is over 3,000 species. However, this huge taxonomic effort to be performed may be compromised by the taxonomic impediment recognized by the UN in the Darwin Declaration in 1988. A contribution to minimize the taxonomic impediment may be given by the development of automated systems to support classification decision. Existing identification systems are proprietary, or were developed for specific groups of species and are often non-integrated. This study focused on bee classification, especially stingless bees that have reduced wing venation; a model for a computer-based system to automate the bee identification process using a pattern recognition approach is presented. A model of the system called ABeeS (Automated Bee Identification System) incorporates the expertise for the automated recognition of bees using wing images. The model presents the functionalities of the bee identification system with the Use Case model and data flow between the activities of the identification process with the Data Flow model. A database model called Bee Entomological Database (BEE) has been proposed for storage of results, training and for ABeeS system optimization. For requirements elicitation and evaluation, the proposal prototypes of parts of the model were developed in Labview, a graphical programming environment that provides a platform for computer vision applications of pattern recognition using the pattern matching method. One prototype uses a tool for defining the landmarks in the template-images. Another uses the results of the automatic extraction of landmarks that show the ability of ABeeS to automatically locate the templates of landmarks in the wing image under analysis, which depends on the expertise transferred to the system. This knowledge contributes to the selection of a region surrounding the anatomical landmark for the formation of the template. The precise definition of the area is very important for the accuracy of automated recognition of anatomical landmark. The adjustment of training parameters and image quality of the bee wing are crucial for extracting the right features. Part of the model is supervised classification algorithms, such as FNN4Bees developed in the Agricultural Automation Laboratory of POLI-USP, and presents satisfactory results. This work contributes to the systematization of the bee identification process, serving as a guide for users of this technique, and the model obtained can be used to implement a real system, in further work. Identificação automatizada de abelhas Modelagem Reconhecimento de padrões Sistema automatizado Automated bee identification Automated system Modeling Pattern recognition
586	Um modelo para reconhecimento de padrões em imagens de satélites climáticos com base em linguagens formais. / A model for pattern recognition in climate satelites images based on formal languages. Luís Emílio Cavechiolli Dalla Valle 23 July 2012 (has links) Uma sequência de imagens de satélite climático é processada aplicando-se um conjunto de operações de filtros, no intuito de extrair padrões de comportamento das nuvens. Caracteres são criados a partir deste tratamento e suas transições são investigadas, explorando a possibilidade de justificar suas ocorrências através de linguagens formais e linguagens bidimensionais, definindo suas gramáticas. Com esta contagem de transições, uma análise de sua forma fractal é iniciada e um paralelo com outras contagens estabelecida, como uma forma de estruturar um modelo computacionalmente menos complexo de prever o tempo, ou o comportamento de qualquer entidade dinâmica que possa ser discretizada. Com estas investigações e experiências, foi possível diminuir a quantidade de símbolos utilizados para justificar as formas das nuvens, bem como criar classes de equivalências para representar conjuntos de símbolos que compartilham as mesmas propriedades, diminuindo ainda mais a complexidade da gramática que se espera encontrar. / A sequence of weather satellite images are processed by applying a set of filtering operations in order to extract the behavior patterns of clouds. Characters are created from this treatment and their transitions are investigated by exploring the possibility of justifying their occurrence across formal languages and two-dimensional languages, defining their grammar. With these count transitions an analysis of their fractals starts and counts a parallel with others established as a way to structure a model less computationally complex to predict the weather, or the behavior of any dynamic entity that could be discretized. With these investigations and experiments, it was possible to reduce the number of symbols used to explain the shapes of clouds and create equivalent classes to represent the symbol sets that share the same properties, further reducing the complexity of the grammar expected to be found. Imageamento de satélite Linguagens formais Reconhecimento de padrões Adaptativity Finite automata Formal languages Satelite imaging
587	Pesquisa de similaridades em imagens mamográficas com base na extração de características. / Search for similarities in mammographic images based feature extraction. Jamilson Bispo dos Santos 25 April 2013 (has links) Este trabalho apresenta uma estratégia computacional para a consolidação do treinamento dos radiologistas residentes por meio da classificação de imagens mamográficas pela similaridade, analisando informações dos laudos realizados por médicos experientes, obtendo os atributos extraídos das imagens médicas. Para a descoberta de padrões que caracterizam a similaridade aplicam-se técnicas de processamento digital de imagens e de mineração de dados nas imagens mamográficas. O reconhecimento de padrões tem como objetivo realizar a classificação de determinados conjuntos de imagens em classes. A classificação dos achados mamográficos é realizada utilizando Redes Neurais Artificiais, por meio do classificador Self-Organizing Map (SOM). O presente trabalho utiliza a recuperação de imagens por conteúdo (CBIR- Content-Based Image Retrieval), considerando a similaridade em relação a uma imagem previamente selecionada para o treinamento. As imagens são classificadas de acordo com a similaridade, analisando-se informações dos atributos extraídos das imagens e dos laudos. A identificação da similaridade é obtida pela extração de características, com a utilização da transformada de wavelets. / This work presents a computational strategy to consolidate the training of residents radiologists through the classification of mammographic images by similarity, analyzing information from reports made by experienced physicians, obtaining the attributes extracted from medical images. For the discovery of patterns that characterize the similarity apply techniques of digital image processing and data mining in mammographic images. Pattern recognition aims to achieve the classification of certain sets of images in classes. The classification of mammographic is performed using Artificial Neural Networks, through the classifier Self-Organizing Map (SOM). This work uses the image retrieval (CBIR-Content- Based Image Retrieval), considering the similarity in relation to an image already selected for training. The images are classified according to similarity, analyzing attribute information extracted from the images and reports. The identification of similarity was obtained by feature extraction, using the technique of wavelet transform. CBIR Data mining Processamento digital de imagens Reconhecimento de padrões CBIR Data mining Digital image processing Pattern recognition
588	Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models. Denis Pirttiaho Cardoso 03 April 2009 (has links) A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results. Processamento de sinais acústicos Processamento digital de voz Reconhecimento de voz Acustic signal processing Digital speech processing Speech recognition
589	Análise de sinais de voz para reconhecimento de emoções. / Analysis of speech signals for emotion recognition. Rafael Iriya 07 July 2014 (has links) Esta pesquisa é motivada pela crescente importância do reconhecimento automático de emoções, em especial através de sinais de voz, e suas aplicações em sistemas para interação homem-máquina. Neste contexto, são estudadas as emoções Felicidade, Medo, Nojo, Raiva, Tédio e Tristeza, além do estado Neutro, que são emoções geralmente consideradas como essenciais para um conjunto básico de emoções. São investigadas diversas questões relacionadas à análise de voz para reconhecimento de emoções, explorando vários parâmetros do sinal de voz, como por exemplo frequência fundamental (pitch), energia de curto prazo, formantes, coeficientes cepstrais e são testadas diferentes técnicas para a classificação, envolvendo reconhecimento de padrões e métodos estatísticos, como K-vizinhos mais próximos (KNN), Máquinas de Vetores de Suporte (SVM), Modelos de Misturas de Gaussianas (GMM) e Modelos Ocultos de Markov (HMM), destacando-se o uso de GMM como principal técnica utilizada por seu custo computacional e desempenho. Neste trabaho é desenvolvido um sistema de identificação em estágio único obtendo-se resultados superiores a diversos sistemas na literatura, com uma taxa de reconhecimento de até 74,86%. Além disso, recorre-se à psicologia e à teoria de emoções para incorporar-se a noção do espaço de emoções e suas dimensões a fim de desenvolver-se um sistema de classificação sequencial em três estágios, que passa por classificações nas dimensões Ativação, Avaliação e Domínio. Este sistema apresenta uma taxa de reconhecimento superior ao do sistema de único estágio, com até 82,41%, ao mesmo tempo em que é identificado um ponto de atenção no sistema de três estágios, que pode apresentar dificuldades na identificação de emoções que possuem baixo índice de reconhecimento em um dos estágios. Uma vez que existem poucos sistemas estado da arte que tratam o problema de verificação de emoções, um sistema também é desenvolvido para esta tarefa, obtendo-se um reconhecimento perfeito para as emoções Raiva, Neutro, Tédio e Tristeza. Por fim, é desenvolvido um sistema híbrido para tratar os problemas de verificação e de identificação em sequência, que tenta resolver o problema do classificador de três estágios e obtém uma taxa de reconhecimento de até 83%. / This work is motivated by the increase on the importance of automatic emotion recognition, especially through speech signals, and its applications in human-machine interaction systems. In this context, the emotions Happiness, Fear, Neutral, Disgust, Anger, Boredom and Sadness are selected for this study, which are usually considered essential for a basic set of emotions. Several topics related to emotion recognition through speech are investigated, including speech features, like pitch, energy, formants and MFCC as well as different classification algorithms that involve pattern recognition and stochastic modelling like K-Nearest Neighbours (KNN), Support Vector Machines (SVM), Gaussian Mixture Models (GMM) and Hidden Markov Models (HMM), where GMM is selected as the main technique for its computational cost and performance. In this work, a single-stage identification system is developed, which outperforms several systems in the literature, with a recognition rate of up to 74.86%. Besides, the idea of emotional space dimensions from Psychology and Emotion Theory is reviewed for the development of a sequential classification system with 3 stages, that passes through classifications on the Activation, Evaluation and Dominance dimensions. This system outperforms the single-stage classifier with a recognition rate of up to 82.41%, at the same time as a point of attention is identified, as this kind of system may show difficulties on the identification of emotions that show low recognition rates in a specific stage. Since there are few state of the art systems that handle emotion verification, a system for this task is also developed in this work, showing itself to be a perfect recognizer for the Anger, Neutral, Boredom and Sadness emotions. Finally, a hybrid system is proposed to handle both the verification and the identification tasks sequentially, which tries to solve the 3-stage classifier problem and shows a recognition rate of up to 83%. Espaço de emoções GMM Reconhecimento de emoções Verificação de emoções Voz Emotion recognition Emotion verification Emotional space GMM Speech
590	Reconhecimento automático do locutor com redes neurais pulsadas. / Automatic speaker recognition using pulse coupled neural networks. Antonio Pedro Timoszczuk 22 March 2004 (has links) As Redes Neurais Pulsadas são objeto de intensa pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação deste paradigma neural, na tarefa de reconhecimento automático do locutor. Após uma revisão dos tópicos considerados importantes para o entendimento do reconhecimento automático do locutor e das redes neurais artificiais, é realizada a implementação e testes do modelo de neurônio com resposta por impulsos. A partir deste modelo é proposta uma nova arquitetura de rede com neurônios pulsados para a implementação de um sistema de reconhecimento automático do locutor. Para a realização dos testes foi utilizada a base de dados Speaker Recognition v1.0, do CSLU Center for Spoken Language Understanding do Oregon Graduate Institute - E.U.A., contendo frases gravadas a partir de linhas telefônicas digitais. Para a etapa de classificação foi utilizada uma rede neural do tipo perceptron multicamada e os testes foram realizados no modo dependente e independente do texto. A viabilidade das Redes Neurais Pulsadas para o reconhecimento automático do locutor foi constatada, demonstrando que este paradigma neural é promissor para tratar as informações temporais do sinal de voz. / Pulsed Neural Networks have received a lot of attention from researchers. This work aims to verify the capability of this neural paradigm when applied to a speaker recognition task. After a description of the automatic speaker recognition and artificial neural networks fundamentals, a spike response model of neurons is tested. A novel neural network architecture based on this neuron model is proposed and used in a speaker recognition system. Text dependent and independent tests were performed using the Speaker Recognition v1.0 database from CSLU Center for Spoken Language Understanding of Oregon Graduate Institute - U.S.A. A multilayer perceptron is used as a classifier. The Pulsed Neural Networks demonstrated its capability to deal with temporal information and the use of this neural paradigm in a speaker recognition task is promising. reconhecimento de voz redes neurais redes neurais pulsadas neural networks pulse coupled neural networks speaker recognition

Search results