Global ETD Search

1	Avaliação de redes neurais competitivas em tarefas de quantização vetorial: um estudo comparativo / Evaluation of competitive neural networks in tasks of vector quantization (VQ): a comparative study Cruz, Magnus Alencar da 06 September 2007 (has links) CRUZ, M. A. Avaliação de redes neurais competitivas em tarefas de quantização vetorial: um estudo comparativo. 2007. 119 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2007. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2016-04-04T19:17:47Z No. of bitstreams: 1 2007_dis_macruz.pdf: 2517117 bytes, checksum: adcb9ff5b0dbd38bb2c584d29fbb70df (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2016-04-06T19:13:24Z (GMT) No. of bitstreams: 1 2007_dis_macruz.pdf: 2517117 bytes, checksum: adcb9ff5b0dbd38bb2c584d29fbb70df (MD5) / Made available in DSpace on 2016-04-06T19:13:24Z (GMT). No. of bitstreams: 1 2007_dis_macruz.pdf: 2517117 bytes, checksum: adcb9ff5b0dbd38bb2c584d29fbb70df (MD5) Previous issue date: 2007-09-06 / The main goal of this master thesis was to carry out a comparative study of the performance of algorithms of unsupervised competitive neural networks in problems of vector quantization (VQ) tasks and related applications, such as cluster analysis and image compression. This study is mainly motivated by the relative scarcity of systematic comparisons between neural and nonneural algorithms for VQ in specialized literature. A total of seven algorithms are evaluated, namely: K-means, WTA, FSCL, SOM, Neural-Gas, FuzzyCL and RPCL. Of particular interest is the problem of selecting an adequate number of neurons given a particular vector quantization problem. Since there is no widespread method that works satisfactorily for all applications, the remaining alternative is to evaluate the influence that each type of evaluation metric has on a specific algorithm. For example, the aforementioned vector quantization algorithms are widely used in clustering-related tasks. For this type of application, cluster validation is based on indexes that quantify the degrees of compactness and separability among clusters, such as the Dunn Index and the Davies- Bouldin (DB) Index. In image compression tasks, however, a given vector quantization algorithm is evaluated in terms of the quality of the reconstructed information, so that the most used evaluation metrics are the mean squared quantization error (MSQE) and the peak signal-to-noise ratio (PSNR). This work verifies empirically that, while the indices Dunn and DB or favors architectures with many prototypes (Dunn) or with few prototypes (DB), metrics MSE and PSNR always favor architectures with well bigger amounts. None of the evaluation metrics cited previously takes into account the number of parameters of the model. Thus, this thesis evaluates the feasibility of the use of the Akaike’s information criterion (AIC) and Rissanen’s minimum description length (MDL) criterion to select the optimal number of prototypes. This type of evaluation metric indeed reveals itself useful in the search of the number of prototypes that simultaneously satisfies conflicting criteria, i.e. those favoring more compact and cohesive clusters (Dunn and DB indices) versus those searching for very low reconstruction errors (MSE and PSNR). Thus, the number of prototypes suggested by AIC and MDL is generally an intermediate value, i.e nor so low as much suggested for the indexes Dunn and DB, nor so high as much suggested one for metric MSE and PSNR. Another important conclusion is that sophisticated models, such as the SOM and Neural- Gas networks, not necessarily have the best performances in clustering and VQ tasks. For example, the algorithms FSCL and FuzzyCL present better results in terms of the the of the reconstructed information, with the FSCL presenting better cost-benefit ratio due to its lower computational cost. As a final remark, it is worth emphasizing that if a given algorithm has its parameters suitably tuned and its performance fairly evaluated, the differences in performance compared to others prototype-based algorithms is minimum, with the coputational cost being used to break ties. / Esta dissertação tem como principal meta realizar um estudo comparativo do desempenho de algoritmos de redes neurais competitivas não-supervisionadas em problemas de quantização vetorial (QV) e aplicações correlatas, tais como análise de agrupamentos (clustering) e compressão de imagens. A motivação para tanto parte da percepção de que há uma relativa escassez de estudos comparativos sistemáticos entre algoritmos neurais e não-neurais de análise de agrupamentos na literatura especializada. Um total de sete algoritmos são avaliados, a saber: algoritmo K -médias e as redes WTA, FSCL, SOM, Neural-Gas, FuzzyCL e RPCL. De particular interesse é a seleção do número ótimo de neurônios. Não há um método que funcione para todas as situações, restando portanto avaliar a influência que cada tipo de métrica exerce sobre algoritmo em estudo. Por exemplo, os algoritmos de QV supracitados são bastante usados em tarefas de clustering. Neste tipo de aplicação, a validação dos agrupamentos é feita com base em índices que quantificam os graus de compacidade e separabilidade dos agrupamentos encontrados, tais como Índice Dunn e Índice Davies-Bouldin (DB). Já em tarefas de compressão de imagens, determinado algoritmo de QV é avaliado em função da qualidade da informação reconstruída, daí as métricas mais usadas serem o erro quadrático médio de quantização (EQMQ) ou a relação sinal-ruído de pico (PSNR). Empiricamente verificou-se que, enquanto o índice DB favorece arquiteturas com poucos protótipos e o Dunn com muitos, as métricas EQMQ e PSNR sempre favorecem números ainda maiores. Nenhuma das métricas supracitadas leva em consideração o número de parâmetros do modelo. Em função disso, esta dissertação propõe o uso do critério de informação de Akaike (AIC) e o critério do comprimento descritivo mínimo (MDL) de Rissanen para selecionar o número ótimo de protótipos. Este tipo de métrica mostra-se útil na busca do número de protótipos que satisfaça simultaneamente critérios opostos, ou seja, critérios que buscam o menor erro de reconstrução a todo custo (MSE e PSNR) e critérios que buscam clusters mais compactos e coesos (Índices Dunn e DB). Como conseqüência, o número de protótipos obtidos pelas métricas AIC e MDL é geralmente um valor intermediário, i.e. nem tão baixo quanto o sugerido pelos índices Dunn e DB, nem tão altos quanto o sugerido pelas métricas MSE e PSNR. Outra conclusão importante é que não necessariamente os algoritmos mais sofisticados do ponto de vista da modelagem, tais como as redes SOM e Neural-Gas, são os que apresentam melhores desempenhos em tarefas de clustering e quantização vetorial. Os algoritmos FSCL e FuzzyCL são os que apresentam melhores resultados em tarefas de quantização vetorial, com a rede FSCL apresentando melhor relação custo-benefício, em função do seu menor custo computacional. Para finalizar, vale ressaltar que qualquer que seja o algoritmo escolhido, se o mesmo tiver seus parâmetros devidamente ajustados e seus desempenhos devidamente avaliados, as diferenças de performance entre os mesmos são desprezíveis, ficando como critério de desempate o custo computacional. Teleinformática Redes neurais Quantização vetorial Robustez ao ruído
2	Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas de Santana Pereira, Cristiano 31 January 2008 (has links) Made available in DSpace on 2014-06-12T15:51:05Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Seleção de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produção de instâncias de dados que consigam a melhor representação para os dados do problema realçando as fronteiras de decisão e mantendo a separação entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classificação. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplicações reais nos mais diversos domínios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de seleção de protótipos baseadas em auto-geração e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo híbrido combinando estas duas estratégias foi proposto. Este modelo híbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-geração com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-geração e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplicação da nova estratégia híbrida ao problema específico de segmentação de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo híbrido se mostrou superior Aprendizagem de máquina seleção de protótipos auto-geração de protótipos quantização vetorial mistura de gaussianas
3	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Mafra, Alexandre Teixeira 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. neural networks quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps Self-Organizing Maps SOM SOM speaker recognition speech recognition vector quantization
4	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Alexandre Teixeira Mafra 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps SOM neural networks Self-Organizing Maps SOM speaker recognition speech recognition vector quantization
5	Estudo de técnicas para classificação de vozes afetadas por patologias. / Study of techniques to classify voices affected by pathologies. MARINUS, João Vilian de Moraes Lima. 17 August 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-17T14:06:04Z No. of bitstreams: 1 JOÃO VIVLIAN DE MORAES LIMA MARINUS - DISSERTAÇÃO PPGCC 2010..pdf: 2343869 bytes, checksum: 46e0a7984b1b956fbea2bfcba9e1f631 (MD5) / Made available in DSpace on 2018-08-17T14:06:04Z (GMT). No. of bitstreams: 1 JOÃO VIVLIAN DE MORAES LIMA MARINUS - DISSERTAÇÃO PPGCC 2010..pdf: 2343869 bytes, checksum: 46e0a7984b1b956fbea2bfcba9e1f631 (MD5) Previous issue date: 2010-11-29 / Nos últimos anos, várias pesquisas na área de processamento digital de voz estão sendo feitas, no sentido de criar técnicas que auxiliem o diagnóstico preciso por um especialista de patologias do trato vocal de maneira não invasiva, fazendo com que o paciente se sinta confortável na hora do exame. Este trabalho trata da investigação de técnicas para a classiﬁcação de vozes afetadas por patologias da laringe, em especial edema de Reinke, visando a construção de um sistema de apoio ao especialista. O sistema de auxílio ao diagnóstico de patologias da laringe, proposto nesta dissertação, é constituido de 3 etapas principais: pré-processamento do sinal de voz, extração de características e classiﬁcação. A etapa de pré-processamento consiste na aquisição do sinal de voz, na aplicação de um ﬁltro de pré ênfase para a minimização dos efeitos da radiação dos lábios e da variação da área da glote, seguido da segmentação e janelamento do sinal. Também foi investigada a não utilização da pré-ênfase nessa etapa. Na fase de extração de características, são utilizados coeﬁcientes obtidos a partir da análise por predição linear (coeﬁcientes LPC), coeﬁcientes cepstrais, coeﬁcientes delta-cepstrais e um vetor de características combinando coeﬁcientes LPC e coeﬁcientes cepstrais. A etapa de classiﬁcação é dividida em duas partes: classiﬁcação entre voz normal e voz afetada por patologia, sem especiﬁcar qual patologia, e caso o sinal seja classiﬁcado como voz afetada por patologia, tem-se uma segunda parte, a qual é realizada a classiﬁcação entre voz afetada por edema de Reinke e voz afetada por outra patologia. Para as duas partes, foram testados 3 diferentes classiﬁcadores: Redes Neurais Multilayer Perceptron - MLP, Modelos de Misturas de Gaussianas e Quantização Vetorial. Para diferenciar entre voz normal e voz afetada por patologia, os melhores resultados foram obtidos utilizando Redes Neurais. Para diferenciar entre voz afetada por edema e voz afetada por outra patologia, os melhores resultados foram obtidos utilizando Quantização Vetorial. Em ambos os casos, os melhores resultados foram obtidos ao se utilizar coeﬁcientes cepstrais e sem utilização da pré-ênfase. / In recent years, several studies in digital voice processing are being made in order to create techniques to support a noninvasive accurate diagnosis of vocal tract diseases by aspecialist, making the patient feel comfortable during examination. This work deals with the investigation of techniques for classiﬁcation of voices affected by laryngeal pathologies, especially Reinke’s edema, aiming to build a support system to the specialist. The system for the diagnosis of laryngeal pathologies, proposed here, consists of three main steps: preprocessing the speech signal, feature extraction and classiﬁcation. Preprocessing corresponds the acquisition of voice signal, the application of a pre-emphasis ﬁlter for minimizing the radiation effects from the lips and from variation in glottal area, and the signal segmentation and windowing. The non-use of pre-emphasis was also investigated at this point. In the feature extraction step, we use coefﬁcients obtained from the linear prediction analysis (LPC coefﬁcients), cepstral coefﬁcients, delta-cepstral coefﬁcients, and afeature vectorc ombining LPC and cepstral coefﬁcients. The classiﬁcation is divided into two parts: classiﬁcation of normal voice versus voice affected by pathology, without specifying which pathology, and if the signal is classiﬁed as voice affected by pathology, second part happens, which is performed by the classiﬁcation between voice affected by Reinke’s edema and voice affected by other pathology. For both parties, 3 different classiﬁers were tested: Neural Networks Multilayer Perceptron - MLP, Gaussian Mixture Models and Vector Quantization. To differentiate between normal voice and voice affected by pathology, the best results were obtained using Neural Networks. To differentiate between voice affected by edema and voice affected by pathology, the best results were obtained using vector quantization. In both cases, the best results were obtained when usingcepstral coefﬁcients and withoutuse of pre-emphasis. Ciência da Computação. Patologias da fala - detecção Doenças da voz e fala Classificação de vozes Diagnóstico patologias vocais Diagnóstico de doenças da voz Voz e tecnologia Vozes patológicas Processamento de sinais de voz Processamento digital de sinais de voz Redes Neurais MLP Quantização vetorial Modelo de misturas de Gausianas Speech and speech disorders Diagnosis of vocal pathologies Digital processing of voice signals Saúde vocal Fisiologia da voz

1

Page generated in 0.0539 seconds