Global ETD Search

411	Método para execução de redes neurais convolucionais em FPGA. / A method for execution of convolutional neural networks in FPGA. Sousa, Mark Cappello Ferreira de 26 April 2019 (has links) Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa. / Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks. AlexNet AlexNet Convolutional neural networks Embedded pattern recognition FPGA FPGA Image recognition Reconhecimento de imagem Reconhecimento embarcado de padrões Redes neurais Sistema-em-um-chip System-on-chip
412	Dynamic Time Warping baseado na transformada wavelet / Dynamic Time Warping based-on wavelet transform Barbon Júnior, Sylvio 31 August 2007 (has links) Dynamic Time Warping (DTW) é uma técnica do tipo pattern matching para reconhecimento de padrões de voz, sendo baseada no alinhamento temporal de um sinal com os diversos modelos de referência. Uma desvantagem da DTW é o seu alto custo computacional. Este trabalho apresenta uma versão da DTW que, utilizando a Transformada Wavelet Discreta (DWT), reduz a sua complexidade. O desempenho obtido com a proposta foi muito promissor, ganhando em termos de velocidade de reconhecimento e recursos de memória consumidos, enquanto a precisão da DTW não é afetada. Os testes foram realizados com alguns fonemas extraídos da base de dados TIMIT do Linguistic Data Consortium (LDC) / Dynamic TimeWarping (DTW) is a pattern matching technique for speech recognition, that is based on a temporal alignment of the input signal with the template models. One drawback of this technique is its high computational cost. This work presents a modified version of the DTW, based on the DiscreteWavelet Transform (DWT), that reduces the complexity of the original algorithm. The performance obtained with the proposed algorithm is very promising, improving the recognition in terms of time and memory allocation, while the precision is not affected. Tests were performed with speech data collected from TIMIT corpus provided by Linguistic Data Consortium (LDC). Automatic speech recognition Digital signal processing Dynamic Time Warping Dynamic Time Warping Processamento digital de sinais Reconhecimento automático de fala Reconhecimento de voz Speech processing Transformada wavelet Transformada wavelet
413	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Mafra, Alexandre Teixeira 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. neural networks quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps Self-Organizing Maps SOM SOM speaker recognition speech recognition vector quantization
414	Comparação dos efeitos neuroprotetores do enriquecimento ambiental, do exercício físico e da socialização em um modelo animal de doença de Alzheimer / Comparison of neuroprotetic effects of environmental enrichment, physical exercise and socialization in an Alzheimer's disease animal model Lima, Mariza Garcia Prado January 2017 (has links) Submitted by Marcos Anselmo (marcos.anselmo@unipampa.edu.br) on 2018-09-27T15:14:42Z No. of bitstreams: 1 MARIZA LIMA.pdf: 1903438 bytes, checksum: 3dd92f0052ecc6a9e39c2d2a9519ff7d (MD5) / Approved for entry into archive by Marcos Anselmo (marcos.anselmo@unipampa.edu.br) on 2018-09-27T15:15:30Z (GMT) No. of bitstreams: 1 MARIZA LIMA.pdf: 1903438 bytes, checksum: 3dd92f0052ecc6a9e39c2d2a9519ff7d (MD5) / Made available in DSpace on 2018-09-27T15:15:30Z (GMT). No. of bitstreams: 1 MARIZA LIMA.pdf: 1903438 bytes, checksum: 3dd92f0052ecc6a9e39c2d2a9519ff7d (MD5) Previous issue date: 2017 / A Doença de Alzheimer (DA) é uma enfermidade incurável que causa perda das funções cognitivas (memória, orientação, atenção e linguagem). As lesões cerebrais são características dessa doença, sendo as principais alterações: as placas senis decorrentes do depósito de proteína beta-amiloide (βa) anormalmente produzida, e os emaranhados neurofibrilares. Atualmente, muitas abordagens são propostas para tratar ou prevenir a DA, mas os estudos geralmente usam protocolos que dificilmente permitem o estabelecimento da relação causa-efeito, pois envolvem mais de uma variável que poderia ter benefícios no cérebro com DA. O objetivo deste trabalho foi avaliar e isolar os efeitos neuroprotetores do enriquecimento ambiental, do exercício físico anaeróbio, e do enriquecimento social, em déficits de memória relacionados à neurotoxicidade induzida pela beta-amiloide (βa) em um modelo animal. Para isto, foram utilizados ratos Wistar submetidos às intervenções propostas por 8 semanas, e, logo após, à cirurgia estereotáxica para a injeção de βa no hipocampo. A memória foi avaliada pelos testes de reconhecimento de objetos e reconhecimento social, considerando memória de curta e de longa duração. O estado de oxidativo do hipocampo (níveis de espécies reativas de oxigênio, peroxidação lipídica e capacidade antioxidante total - ROS, TBARS e FRAP) e a atividade da enzima acetilcolinesterase (AChE) também foram verificados. Os dados mostram que a injeção de βa resultou em déficits de memória e danos oxidativos no hipocampo. O enriquecimento ambiental e o exercício físico 8 evitaram todos os déficits de memória e a peroxidação lipídica (TBARS) hipocampal induzida por βa. O enriquecimento social evitou apenas o déficit de memória de reconhecimento social induzido pela beta-amiloide e aumentou a capacidade antioxidante total (FRAP). / Alzheimer's Disease (AD) is an incurable disease that causes loss of cognitive functions (memory, orientation, attention, and language). Brain lesions are characteristic of this disease, in which main alterations being: senile plaques arisvel from the deposition of abnormally produced beta-amyloid protein (βa) and neurofibrillary tangles. Many approaches have been proposed to treat or prevent AD, but studies generally use protocols that becouse difficult to attribute a cause-effect relationship because they involve more than one variable that could be benefical in observed changes. The objective of this work was to evaluate and isolate the neuroprotective effects of environmental enrichment, anaerobic physical exercise, and social enrichment on memory deficits related to beta-amyloid neurotoxicity in an animal model. For this, Wistar rats were submitted to 8 weeks of intervention, and soon thereafter underwent stereotactic surgery for the injection of βa into the hippocampus. The memory was evaluated by object recognition and social recognition memory tests, considering short and long term memory. The oxidative state of the hippocampus (ROS, TBARS and FRAP) and acetylcholinesterase (AChE) activity are also verified. The data show that the injection of βa resulted in memory deficits and oxidative damage in the hippocampus. Environmental enrichment and exercise avoided all memory deficits and hippocampal lipid peroxidation (TBARS) induced by βa. Social enrichment avoided only the social 10 recognition memory deficit and avoided the total antioxidant capacity (FRAP) decrease induced by βa. CNPQ::CIENCIAS BIOLOGICAS Alzheimer Treinamento físico Enriquecimento ambiental Reconhecimento de objetos Reconhecimento social Estresse Oxidativo Physical training Environmental enrichment Object Recognition Social Recognition Oxidative stress
415	Um ambiente de avaliação da usabilidade de software apoiado por técnicas de processamento de imagens e reconhecimento de fala / An environment to support usability evaluation using image processing and speech recognition Coleti, Thiago Adriano 17 December 2013 (has links) A filmagem e a verbalização são métodos de teste de usabilidade considerados fundamentais para apoiar a avaliação da usabilidade de software, pois permitem ao avaliador coletar dados reais da capacidade de interação de um sistema e sua influência sobre o usuário. Os testes são, geralmente, realizados com usuário reais do software para que os mesmos possam submeter a interface as mais diversas situações. Embora eficazes, a filmagem e a verbalização são pouco eficientes, pois necessitam de muito trabalho para análise dos dados coletados e identificação de problemas de usabilidade. Pesquisas já realizadas na área apontam para um tempo de análise de duas a dez vezes o tempo do teste. Este trabalho teve como objetivo desenvolver um ambiente computacional que utilizava eventos de pronuncia de palavras chave e reações faciais para apoiar o processo de coleta, análise e identificação de interfaces com possíveis problemas de usabilidade de forma rápida e segura. O ambiente foi composto por um aplicativo que monitorava (em segundo plano) a utilização de um determinado aplicativo registrando palavras chave pronunciadas pelo participante e imagens faciais em determinados intervalos de tempo. Além destes dados, imagens das telas do sistema (snapshots) também eram registrados a fim de indicar quais interfaces eram utilizadas no momento de um determinado evento. Após a coleta, estes dados eram organizados e disponibilizados para avaliador com destaques para eventos que poderiam indicar insatisfação do participante ou possíveis problemas na utilização. Foi possível concluir que os eventos relacionados à verbalização com palavras chave foram eficazes para apoiar a tarefa de análise e identificação de interfaces problemáticas, pois as palavras estavam relacionadas com classificadores que indicavam satisfação ou insatisfação por parte do usuário. A atividade de verbalização se mostrou mais eficiente quando a análise de seus dados foi aplicada em conjunto com as imagens faciais, pois permitiram uma análise mais confiável e abrangente. Nesta análise, o avaliador teve condições de identificar quais interfaces do sistema foram mal classificadas pelo usuário e qual era o foco de visão/utilização do usuário no momento do evento. Para análises efetuadas com utilização de palavras chave com/sem utilização de imagens, o tempo gasto para identificar as interfaces e possíveis problemas foi reduzido para menos de duas vezes o tempo de teste. / Filming and verbalization are considered fundamental usability test methods to support software usability evaluation, due to the reason that allows the evaluator to collect real data about the software interaction capacity and how it influences the user. The tests are, usually, performed by real software users because they can submit the system to several situations that were not presupposed by evaluator in the labs. Although effective, the filming and the verbalization are not efficient due to the reason that require a long time to analyzing the data and identify usability problems. Researches performed in the area present that the time to data analysis is two to ten times the test time. This research aimed to develop an environment that used events as words pronounced and face reactions to support the collect, analysis and identification of interfaces with usability problems easily and safe. The environment is composed by a software to monitoring (background) of the user activities. The software collects key words pronounced by the participant and face images in specific time intervals. Besides these data, snapshots of the interfaces were registered in order to present which interfaces were in used in the event moment. After the collect stage, these data were processed and available to the evaluator with highlights to events that could indicate unsatisfactory events or potential utilization problems. In this research, was possible to conclude that the verbalization events using key words were effective to support the analysis and identification of problematic interfaces because the words were related to specific context that indicated the user opinion. The verbalization activities were more effective in the moments that the data analysis was performed using the face images to support it, allowing more reliable and comprehensive data analysis. In this analysis, the evaluator was able to identify which interfaces were classified negatively by the participant and which was the user focus of view/use in the event moment. In analysis performed using key words and/or not using the face images, the time to identifying the interfaces and potentials usability problems was reduced to less than twice the time of test. Data Analysis Image Processing Interface homem-computador Reconhecimento de imagem Reconhecimento de voz Speech Processing Teste e avaliação de software Usabilidade de software Usability Evaluation Usability Test
416	No calidoscópio da diplomacia: formação da monarquia constitucional e reconhecimento da Independência e do Império do Brasil, 1822-1827 / Through the kaleidoscope of diplomacy: formation of constitutional monarchy and recognition of both the independence and the Empire of Brazil, 1822-1827 Santos, Guilherme de Paula Costa 25 February 2015 (has links) Este estudo analisa as negociações diplomáticas para o reconhecimento da Independência e do Império do Brasil, entre 1822 e 1827. Parte-se da hipótese de que, antes de expressarem uma política coesa e consensual, emitida pelo ministério do Rio de Janeiro, as tratativas diplomáticas sobre o reconhecimento tiveram enorme relevância na definição da arquitetura da monarquia constitucional, sugerindo práticas políticas e indicando contornos institucionais para a organização do Império do Brasil. A partir do cotejamento de fontes diplomáticas, produzidas pelos governos das Cortes de Lisboa, de Londres e do Rio de Janeiro, muitas das quais pouco conhecidas ou mesmo inéditas, foi possível reavaliar o papel desempenhado pelos ministros de Negócios Estrangeiros e agentes diplomáticos dispostos nos três vértices do Atlântico; identificar avaliações políticas distintas no interior do governo de Pedro I; e problematizar a premissa de que, após a declaração de Independência e de separação de Portugal, havia na antiga América portuguesa um Estado estruturado e organizado, herdeiro direto das ações promovidas pelo governo de D. João VI, entre 1808 e 1821. / This study analyzes the diplomatic negotiations for the recognition of both the independence and the Empire of Brazil in the period 1822-1827. It starts with the hypothesis that the diplomatic negotiations did not express a coherent and consensual policy issued by the ministry of Rio de Janeiro; instead, those negotiations had great importance in defining the constitutional monarchy architecture, for it suggested political practices and institutional boundaries to the organization of the Empire of Brazil. After comparing diplomatic sources produced by the governments of the Cortes of Lisbon, London, and Rio de Janeiro many of them little known or even unpublished it was possible: 1) reevaluate the role of Foreign Affairs ministers and diplomatic agents in these three corners of Atlantic; 2) identify distinct political evaluations within the government of Pedro I; 3) and question the premise that, after the Independence from Portugal, there was a structured and organized State in the Portuguese America which was the direct heir of the government of D. João VI (1808-1821). Brazilian constitucional monarchy Diplomacia Diplomacy Government of D. Pedro I Monarquia constitucional Primeiro reinado Recognition of the empire of Brazil Reconhecimento da independência Reconhecimento do ompério
417	Estudo da transição de fase em uma rede de Hopfield Soares, Pierre Amorim 04 July 2017 (has links) Submitted by Biblioteca do Instituto de Física (bif@ndc.uff.br) on 2017-07-04T18:39:14Z No. of bitstreams: 1 Dissertaçao_PierreSoares (1).pdf: 729793 bytes, checksum: 12e5898e33b9602f7b327e003b58716b (MD5) / Made available in DSpace on 2017-07-04T18:39:14Z (GMT). No. of bitstreams: 1 Dissertaçao_PierreSoares (1).pdf: 729793 bytes, checksum: 12e5898e33b9602f7b327e003b58716b (MD5) / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro / O uso de redes neurais na solução de problemas é bastante atrativa pois suas características possibilitam desempenho superior ao de métodos convencionais [1]. Dentre os diferentes modelos de redes neurais, o modelo de Hopfield apresenta uma grande importância histórica nesse campo. Neste trabalho estudaremos o problema da capacidade de reconhecimento em uma rede de Hopfield utilizando técnicas de análise de tamanho finito. Vamos comparar os resultados obtidos por diferentes métodos com o intuito de obter o valor de [alfa c], o ponto onde a rede passa por uma transição de fase. Para isso utilizaremos simulações computacionais de redes de Hopfield. / The use of neural networks in problem solution is quite attractive because its characteristics enable superior performance than the conventional methods [1]. Among the different models of neural networks, the Hopfield model has a great historic importance in this field. In this work we will study the capacity problem of a Hopfield network by using finite-size analysis. We will compare the results obtained by different methods to find the value of [alpha c], the point where the network undergoes a phase transition. For this we will use computational simulations of Hopfield networks. Modelo de Hopfield Análise de tamanho finito Capacidade de Reconhecimento Modelo de Hopfield Análise de tamanho finito Capacidade de reconhecimento Hopfield model Finite-size analysis storage capacity
418	Estudo da transição de fase em uma rede de Hopfield Soares, Pierre Amorim 14 July 2017 (has links) Submitted by Biblioteca do Instituto de Física (bif@ndc.uff.br) on 2017-07-14T18:59:48Z No. of bitstreams: 1 Dissertaçao_PierreSoares (1).pdf: 729793 bytes, checksum: 12e5898e33b9602f7b327e003b58716b (MD5) / Made available in DSpace on 2017-07-14T18:59:48Z (GMT). No. of bitstreams: 1 Dissertaçao_PierreSoares (1).pdf: 729793 bytes, checksum: 12e5898e33b9602f7b327e003b58716b (MD5) / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro / O uso de redes neurais na solução de problemas é bastante atrativa pois suas características possibilitam desempenho superior ao de métodos convencionais [1]. Dentre os diferentes modelos de redes neurais, o modelo de Hopfield apresenta uma grande importância histórica nesse campo. Neste trabalho estudaremos o problema da capacidade de reconhecimento em uma rede de Hopfield utilizando técnicas de análise de tamanho finito. Vamos comparar os resultados obtidos por diferentes métodos com o intuito de obter o valor de , o ponto onde a rede passa por uma transição de fase. Para isso utilizaremos simulações computacionais de redes de Hopfield. / The use of neural networks in problem solution is quite attractive because its characteristics enable superior performance than the conventional methods [1]. Among the different models of neural networks, the Hopfield model has a great historic importance in this field. In this work we will study the capacity problem of a Hopfield network by using finite-size analysis. We will compare the results obtained by different methods to find the value of , the point where the network undergoes a phase transition. For this we will use computational simulations of Hopfield networks. Modelo de Hopfield Análise de tamanho finito Capacidade de reconhecimento Modelo de Hopfield Análise de tamanho finito Capacidade de reconhecimento Hopfield model Finite-size analysis storage capacity
419	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Alexandre Teixeira Mafra 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps SOM neural networks Self-Organizing Maps SOM speaker recognition speech recognition vector quantization
420	Um ambiente de avaliação da usabilidade de software apoiado por técnicas de processamento de imagens e reconhecimento de fala / An environment to support usability evaluation using image processing and speech recognition Thiago Adriano Coleti 17 December 2013 (has links) A filmagem e a verbalização são métodos de teste de usabilidade considerados fundamentais para apoiar a avaliação da usabilidade de software, pois permitem ao avaliador coletar dados reais da capacidade de interação de um sistema e sua influência sobre o usuário. Os testes são, geralmente, realizados com usuário reais do software para que os mesmos possam submeter a interface as mais diversas situações. Embora eficazes, a filmagem e a verbalização são pouco eficientes, pois necessitam de muito trabalho para análise dos dados coletados e identificação de problemas de usabilidade. Pesquisas já realizadas na área apontam para um tempo de análise de duas a dez vezes o tempo do teste. Este trabalho teve como objetivo desenvolver um ambiente computacional que utilizava eventos de pronuncia de palavras chave e reações faciais para apoiar o processo de coleta, análise e identificação de interfaces com possíveis problemas de usabilidade de forma rápida e segura. O ambiente foi composto por um aplicativo que monitorava (em segundo plano) a utilização de um determinado aplicativo registrando palavras chave pronunciadas pelo participante e imagens faciais em determinados intervalos de tempo. Além destes dados, imagens das telas do sistema (snapshots) também eram registrados a fim de indicar quais interfaces eram utilizadas no momento de um determinado evento. Após a coleta, estes dados eram organizados e disponibilizados para avaliador com destaques para eventos que poderiam indicar insatisfação do participante ou possíveis problemas na utilização. Foi possível concluir que os eventos relacionados à verbalização com palavras chave foram eficazes para apoiar a tarefa de análise e identificação de interfaces problemáticas, pois as palavras estavam relacionadas com classificadores que indicavam satisfação ou insatisfação por parte do usuário. A atividade de verbalização se mostrou mais eficiente quando a análise de seus dados foi aplicada em conjunto com as imagens faciais, pois permitiram uma análise mais confiável e abrangente. Nesta análise, o avaliador teve condições de identificar quais interfaces do sistema foram mal classificadas pelo usuário e qual era o foco de visão/utilização do usuário no momento do evento. Para análises efetuadas com utilização de palavras chave com/sem utilização de imagens, o tempo gasto para identificar as interfaces e possíveis problemas foi reduzido para menos de duas vezes o tempo de teste. / Filming and verbalization are considered fundamental usability test methods to support software usability evaluation, due to the reason that allows the evaluator to collect real data about the software interaction capacity and how it influences the user. The tests are, usually, performed by real software users because they can submit the system to several situations that were not presupposed by evaluator in the labs. Although effective, the filming and the verbalization are not efficient due to the reason that require a long time to analyzing the data and identify usability problems. Researches performed in the area present that the time to data analysis is two to ten times the test time. This research aimed to develop an environment that used events as words pronounced and face reactions to support the collect, analysis and identification of interfaces with usability problems easily and safe. The environment is composed by a software to monitoring (background) of the user activities. The software collects key words pronounced by the participant and face images in specific time intervals. Besides these data, snapshots of the interfaces were registered in order to present which interfaces were in used in the event moment. After the collect stage, these data were processed and available to the evaluator with highlights to events that could indicate unsatisfactory events or potential utilization problems. In this research, was possible to conclude that the verbalization events using key words were effective to support the analysis and identification of problematic interfaces because the words were related to specific context that indicated the user opinion. The verbalization activities were more effective in the moments that the data analysis was performed using the face images to support it, allowing more reliable and comprehensive data analysis. In this analysis, the evaluator was able to identify which interfaces were classified negatively by the participant and which was the user focus of view/use in the event moment. In analysis performed using key words and/or not using the face images, the time to identifying the interfaces and potentials usability problems was reduced to less than twice the time of test. Interface homem-computador Reconhecimento de imagem Reconhecimento de voz Teste e avaliação de software Usabilidade de software Data Analysis Image Processing Speech Processing Usability Evaluation Usability Test

Search results