Spelling suggestions: "subject:"reconhecimento automática"" "subject:"deconhecimento automática""
41 |
Sistema baseado em regras para o refinamento da segmentação automatica de fala / Rule based system for refining the automatic speech segmentationSelmini, Antonio Marcos 22 August 2008 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-11T22:49:44Z (GMT). No. of bitstreams: 1
Selmini_AntonioMarcos_D.pdf: 2404244 bytes, checksum: d7fcd0828f3157c595a0e3426b4a7eb0 (MD5)
Previous issue date: 2008 / Resumo: A demanda por uma segmentação automática de fala confiável vem crescendo e exigindo pesquisas para suportar o desenvolvimento de sistemas que usam fala para uma interação homem-máquina. Neste contexto, este trabalho relata o desenvolvimento e avaliação de um sistema para segmentação automática de fala usando o algoritmo de Viterbi e refinamento das fronteiras de segmentação baseado nas características fonético-acústicas das classes fonéticas. As subunidades fonéticas (dependentes de contexto) são representadas com Modelos Ocultos de Markov (HMM - Hidden Markov Models). Cada fronteira estimada pelo algoritmo de Viterbi é refinada usando características acústicas dependentes de classes de fones, uma vez que a identidade dos fones do lado direito e esquerdo da fronteira considerada é conhecida. O sistema proposto foi avaliado usando duas bases dependentes de locutor do Português do Brasil (uma masculina e outra feminina) e também uma base independente de locutor (TIMIT). A avaliação foi realizada comparando a segmentação automática com a segmentação manual. Depois do processo de refinamento, um ganho de 29% nas fronteiras com erro de segmentação abaixo de 20 ms foi obtido para a base de fala dependente de locutor masculino do Português Brasileiro. / Abstract: The demand for reliable automatic speech segmentation is increasing and requiring additional research to support the development of systems that use speech for man-machine interface. In this context, this work reports the development and evaluation of a system for automatic speech segmentation using Viterbi's algorithm and a refinement of segmentation boundaries based on acoustic-phonetic features. Phonetic sub-units (context-dependent phones) are modeled with HMM (Hidden Markov Models). Each boundary estimated by Viterbi's algorithm is refined using class-dependent acoustic features, as the identity of the phones on the left and right side of the considered boundary is known. The proposed system was evaluated using two speaker dependent Brazilian Portuguese speech databases (one male and one female speaker), and a speaker independent English database (TIMIT). The evaluation was carried out comparing automatic against manual segmentation. After the refinement process, an improvement of 29% in the percentage of segmentation errors below 20 ms was achieved for the male speaker dependent Brazilian Portuguese speech database. / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica
|
42 |
Sistema de inferência genético-nebuloso para reconhecimento de voz: Uma abordagem em modelos preditivos de baixa ordem utilizando a transformada cosseno discreta / System of genetic hazy inference for speech recognition: one approach to predictive models of low-order using the discrete cosine transformSilva, Washington Luis Santos 20 March 2015 (has links)
Made available in DSpace on 2016-08-17T16:54:32Z (GMT). No. of bitstreams: 1
TESE_WASHINGTON LUIS SANTOS SILVA.pdf: 2994073 bytes, checksum: 86620806fbcc7af4fcf423defd5776bc (MD5)
Previous issue date: 2015-03-20 / This thesis proposes a methodology that uses an intelligent system for voice recognition. It uses the definition of intelligent system, as the system has the ability to adapt their behavior to achieve their goals in a variety of environments. It is used also, the definition of Computational Intelligence, as the simulation of intelligent behavior in terms of computational process. In addition the speech signal pre-processing with mel-cepstral coefficients, the discrete cosine transform (DCT) is used to generate a two-dimensional array to model each pattern to be recognized. A Mamdani fuzzy inference system for speech recognition is optimized by genetic algorithm to maximize the amount of correct classification of standards with a reduced number of parameters. The experimental results achieved in speech recognition with the proposed methodology were compared with the Hidden Markov Models-HMM and the classifiers Gaussians Mixtures Models-GMM and Support Vector Machine-SVM. The recognition system used in this thesis was called Intelligent Methodology for Speech Recognition-IMSR / Neste trabalho propõe-se uma metodologia que utiliza um sistema inteligente para reconhecimento de voz. Utiliza-se a definição de sistema inteligente, como o sistema que possui a capacidade de adaptar seu comportamento para atingir seus objetivos em uma variedade de ambientes. Utiliza-se, também, a definição de Inteligência Computacional, como sendo a simulação de comportamentos inteligentes em termos de processo computacional. Além do pré-processamento do sinal de voz com coeficientes mel-cepstrais, a transformada discreta cosseno (TCD) é utilizada para gerar uma matriz bidimensional para modelar cada padrão a ser reconhecido. Um sistema de inferências nebuloso Mamdani para reconhecimento de voz é otimizado por algoritmo genético para maximizar a quantidade de acertos na classificação dos padrões com um número reduzido de parâmetros. Os resultados experimentais alcançados no reconhecimento de voz com a metodologia proposta foram comparados com o Hidden Markov Models-HMM e com os classificadores Gaussian Mixture Models-GMM e máquina de vetor de suporte (Support Vector Machine-SVM) com intuito de avaliação de desempenho. O sistema de reconhecimento usado neste trabalho foi denominado Intelligent Methodology for Speech Recognition-IMSR.
|
43 |
Sintese e reconhecimento da fala humana / Synthesis and recognition of human speechStolfi, Rumiko Oishi 31 October 2006 (has links)
Orientadores: Fabio Violaro, Anamaria Gomide / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T21:57:26Z (GMT). No. of bitstreams: 1
Stolfi_RumikoOishi_M.pdf: 1514197 bytes, checksum: e93f45916d359641c73b31b00952a914 (MD5)
Previous issue date: 2006 / Resumo: O objetivo deste trabalho é apresentar uma revisão dos principais conceitos e métodos envolvidos na síntese, processamento e reconhecimento da fala humana por computador.Estas tecnologias têm inúmeras aplicações, que têm aumentado substancialmente nos últimos anos com a popularização de equipamentos de comunicação portáteis (celulares, laptops, palmtops) e a universalização da Internet. A primeira parte deste trabalho é uma revisão dos conceitos básicos de processamento de sinais, incluindo transformada de Fourier, espectro de potência e espectrograma, filtros, digitalização de sinais e o teorema de Nyquist. A segunda parte descreve as principais características da fala humana, os mecanismos envolvidos em sua produção e percepção, e o conceito de fone (unidade lingüística de som). Nessa parte também descrevemos brevemente as principais técnicas para a conversão ortográfica-fonética, para a síntese de fala a partir da descrição fonética, e para o reconhecimento da fala natural. A terceira parte descreve um projeto prático que desenvolvemos para consolidar os conhecimentos adquiridos neste mestrado: um programa que gera canções populares japonesas a partir de uma descrição textual da letra de música, usando método de síntese concatenativa. No final do trabalho listamos também alguns softwares disponíveis (livres e comerciais) para síntese e reconhecimento da fala / Abstract: The goal of this dissertation is to review the main concepts relating to the synthesis, processing, and recognition of human speech by computer. These technologies have many applications, which have increased substantially in recent years after the spread of portable communication equipment (mobile phones, laptops, palmtops) and the universal access to the Internet. The first part of this work is a revision of fundamental concepts of signal processing, including the Fourier transform, power spectrum and spectrogram, filters, signal digitalization, and Nyquist's theorem. The second part describes the main characteristics of human speech, the mechanisms involved in its production and perception, and the concept of phone (linguistic unit of sound). In this part we also briefly describe the main techniques used for orthographic-phonetic transcription, for speech synthesis from a phonetic description, and for the recognition of natural speech. The third part describes a practical project we developed to consolidate the knowledge acquired in our Masters studies: a program that generates Japanese popular songs from a textual description of the lyrics and music, using the concatenative synthesis method. At the end of this dissertation, we list some available software products (free and commercial) for speech synthesis and speech recognition / Mestrado / Engenharia de Computação / Mestre em Ciência da Computação
|
44 |
Sistema de reconhecimento de padrões visuais invariante a transformações geométricas utilizando redes neurais artificiais de múltiplas camadas / not availableCosta, José Alfredo Ferreira 15 January 1996 (has links)
As áreas de visão computacional e redes neurais artificiais (RNAs) e suas aplicações, tiveram um enorme progresso em pesquisa e aplicações práticas nos últimos anos. Sistemas de inspeção visual automática têm despertado muita atenção na indústria pois provêem meios econômicos, eficientes e precisos de obtenção de controle de qualidade. Porém, apesar do grande avanço tecnológico, a maioria dos sistemas existentes, com exceção de alguns poucos experimentais, são especializados e foram projetados para inspecionar um único objeto ou peça, de tipo previamente conhecido, e em posição, orientação e distância em relação à câmara altamente restritas. Este trabalho descreve um sistema de reconhecimento de imagens contendo múltiplos objetos de classes aleatórias e tolerante a ruído. Um estágio de pré-processamento filtra parte do ruído e segmenta regiões conectadas da imagem (RCI). A classificação dos padrões é feita com redes neurais de múltiplas camadas a partir de atributos invariantes calculados sobre as RCis. No final do processo temos uma listagem dos objetos contidos na cena, suas posições e orientações, os quais podem servir de entrada a um sistema de entendimento da cena, de mais alto nível, ou para outras máquinas, como um manipulador automático. Outros parâmetros podem ser utilizados para normalizar, em escala, orientação e posição, os padrões contidos na imagem, para efeito de comparações com imagens e parâmetros dos objetos previamente armazenados em bancos de dados. Dois métodos de treinamento de RNAs foram testados, o gradiente conjugado e o Levenberg-Marquardt, em conjunção com simulated annealing, para diferentes condições de erro e conjuntos de atributos. Imagens reais e sintéticas foram utilizadas para efeitos de testes de classificação correta e rejeição de padrões espúrios. Resultados são apresentados e comentados, destacando a capacidade de generalização do sistema mesmo com elevada degradação da imagem pelo ruído. Uma das vantagens do tipo de RNA empregado é a velocidade de execução, que permite ao sistema ser integrado a uma linha de montagem industrial. O sistema foi projetado com a utilização de recursos acessíveis e de baixo custo, sendo executado em computadores pessoais, e podendo ser facilmente adaptado para o uso em pequenas e médias empresas. / Computer vision (CV) and artificial neural networks (ANN) are important research fields of artificial intelligence. Visual pattern recognition (VPR) and object recognition (2 or 3-D) are central tasks in a high level computer vision system. Despite the great development in the recent years, most of the current automatic visual inspection systems work with only one kind of pattern at time which has pose highly restricted. This dissertation describes a system designed to recognize patterns and objects in a digital image which have unknown number object types and poses. Such image, which is also degraded by noise, serve as input for the system. After gray level change and filtering, the pixel connected regions (CR) are codified, and the remained noise is eliminated. lnvariant features, i.e., moment invariants, serve as inputs for artificial neural networks that perform pattern classification. An interpretation module decode the net\'s outputs and increases the correct assignment by testing the net\'s higher outputs values. After all identified patterns were classified, we have an object listing of the scene, their positions and other information, which can be the input for a higher level scene understanding system, that may check for objects relations and could send information for humans or for other machines. Two ANN learning methods were adopted for training the networks, the conjugate gradient and the Levenberg-Marquardt Algoritms, both in conjuction with siumlated annealing, for different error conditions and feature sets. Sinthetic and real images were utilized for testing the net\'s correct class assignments and rejections. Results are presented as well as comments focusing the system\'s generalization capability despite noise, geometrical transformations, object shadows and other degradations over the images. One of the advantages of the ANN employed is the low execution time allowing the system to be integrated to an assembly industry line. The system runs on low cost personal computers, therefore it can be easily adapted for the Brazilian reality and can even be used by little companies and industries.
|
45 |
Aceitação de tecnologia por estudantes surdos na perspectiva da educação inclusiva / Technology Acceptance for deaf students in the perspective of inclusive educationPrietch, Soraia Silva 04 September 2014 (has links)
Com a Política Nacional de Educação Especial na perspectiva da Educação Inclusiva (2008), as escolas regulares vêm recebendo um número maior de estudantes surdos ou com deficiência auditiva (S/DA), que antes frequentavam escolas especializadas. No entanto, dados apontam a diminuição do número de estudantes S/DA matriculados no ensino fundamental para o ensino médio, e do ensino médio para o ensino superior; ou seja, existem razões para se acreditar que barreiras educacionais se impõem no caminho desses estudantes para que conquistem uma formação educacional completa. Neste contexto, o objetivo deste trabalho é propor um modelo de aceitação de tecnologias levando em consideração fatores que envolvam aspectos do contexto da educação inclusiva, bem como efetuar experimento da interação de usuários S/DA com uma tecnologia para avaliar o modelo. Dentre os fatores mencionados um deles se refere às potenciais barreiras educacionais vivenciadas pelos estudantes S/DA em salas de aula inclusivas. Com relação à metodologia de pesquisa, o estudo desenvolveu-se em ciclos. Na medida em que as investigações avançavam, um novo estudo iniciava, se desenvolvia e se fechava. Isso permitiu que a proposta inicial tivesse sucessivos refinamentos ao longo do tempo até o ponto em que os questionamentos iniciais foram respondidos e o objetivo foi atingido. O modelo proposto mostrou resultados positivos, no sentido de conseguir capturar os fatores que podem influenciar a aceitação de tecnologias considerando o contexto de aplicação específico, uma vez que estes incorporam os aspectos da qualidade pragmática e os aspectos da qualidade hedônica, questões relacionadas à utilidade percebida da minimização de potenciais barreiras educacionais, expectativas futuras, e condições facilitadoras. Conclui-se que o modelo engloba tanto a investigação sobre questões motivacionais pessoais dos usuários quanto a investigação de aspectos do contexto de uso, e que o modelo pode ser utilizado para a finalidade a qual foi proposto, a avaliação de aceitação de tecnologias em ambientes de educação incluvisa. / With the foundation of the National Policy on Special Education on the Perspective of Inclusive Education (2008), mainstream schools are receiving a greater number of deaf or hard of hearing (D/HH) students, that once before were attending specialized schools. However, data point to the declining number of D/HH students enrolled from primary school to high school, and from high school students to higher education; ie, there are reasons to believe that educational barriers are imposed on the way of these students to conquer a complete education. In this context, the goal of this work is to propose a technology acceptance model that takes into account factors that ivolve aspects of the inclusive education context, as well as performing experiment on the interaction of D/HH users with a technology to evaluate the model. Among the factors, one of them refers to the potential educational barriers experienced by D/HH students in inclusive classrooms. With regard to research methodology, the study was developed in cycles. To the extent that the investigations progressed, a new study began, was unfolded and closed. This allowed successive refinements over time to the point where the initial questions were answered and the goal was reached. The proposed model has shown positive results in capturing factors that influence technology acceptance given the domain specific context, since they incorporate aspects of pragmatic quality and hedonic quality, also issues related to perceived usefulness in minimizing potential educational barriers, future expectations, and facilitating conditions. We conclude that the model encompasses both users personal motivation and context of use aspects, and the model can be used for the purpose for which it was proposed, technology acceptance evaluation considering inclusive education contexts.
|
46 |
Aceitação de tecnologia por estudantes surdos na perspectiva da educação inclusiva / Technology Acceptance for deaf students in the perspective of inclusive educationSoraia Silva Prietch 04 September 2014 (has links)
Com a Política Nacional de Educação Especial na perspectiva da Educação Inclusiva (2008), as escolas regulares vêm recebendo um número maior de estudantes surdos ou com deficiência auditiva (S/DA), que antes frequentavam escolas especializadas. No entanto, dados apontam a diminuição do número de estudantes S/DA matriculados no ensino fundamental para o ensino médio, e do ensino médio para o ensino superior; ou seja, existem razões para se acreditar que barreiras educacionais se impõem no caminho desses estudantes para que conquistem uma formação educacional completa. Neste contexto, o objetivo deste trabalho é propor um modelo de aceitação de tecnologias levando em consideração fatores que envolvam aspectos do contexto da educação inclusiva, bem como efetuar experimento da interação de usuários S/DA com uma tecnologia para avaliar o modelo. Dentre os fatores mencionados um deles se refere às potenciais barreiras educacionais vivenciadas pelos estudantes S/DA em salas de aula inclusivas. Com relação à metodologia de pesquisa, o estudo desenvolveu-se em ciclos. Na medida em que as investigações avançavam, um novo estudo iniciava, se desenvolvia e se fechava. Isso permitiu que a proposta inicial tivesse sucessivos refinamentos ao longo do tempo até o ponto em que os questionamentos iniciais foram respondidos e o objetivo foi atingido. O modelo proposto mostrou resultados positivos, no sentido de conseguir capturar os fatores que podem influenciar a aceitação de tecnologias considerando o contexto de aplicação específico, uma vez que estes incorporam os aspectos da qualidade pragmática e os aspectos da qualidade hedônica, questões relacionadas à utilidade percebida da minimização de potenciais barreiras educacionais, expectativas futuras, e condições facilitadoras. Conclui-se que o modelo engloba tanto a investigação sobre questões motivacionais pessoais dos usuários quanto a investigação de aspectos do contexto de uso, e que o modelo pode ser utilizado para a finalidade a qual foi proposto, a avaliação de aceitação de tecnologias em ambientes de educação incluvisa. / With the foundation of the National Policy on Special Education on the Perspective of Inclusive Education (2008), mainstream schools are receiving a greater number of deaf or hard of hearing (D/HH) students, that once before were attending specialized schools. However, data point to the declining number of D/HH students enrolled from primary school to high school, and from high school students to higher education; ie, there are reasons to believe that educational barriers are imposed on the way of these students to conquer a complete education. In this context, the goal of this work is to propose a technology acceptance model that takes into account factors that ivolve aspects of the inclusive education context, as well as performing experiment on the interaction of D/HH users with a technology to evaluate the model. Among the factors, one of them refers to the potential educational barriers experienced by D/HH students in inclusive classrooms. With regard to research methodology, the study was developed in cycles. To the extent that the investigations progressed, a new study began, was unfolded and closed. This allowed successive refinements over time to the point where the initial questions were answered and the goal was reached. The proposed model has shown positive results in capturing factors that influence technology acceptance given the domain specific context, since they incorporate aspects of pragmatic quality and hedonic quality, also issues related to perceived usefulness in minimizing potential educational barriers, future expectations, and facilitating conditions. We conclude that the model encompasses both users personal motivation and context of use aspects, and the model can be used for the purpose for which it was proposed, technology acceptance evaluation considering inclusive education contexts.
|
47 |
Aprendizado sem-fim de paráfrasesPolastri, Paulo César 04 March 2016 (has links)
Submitted by Luciana Sebin (lusebin@ufscar.br) on 2016-10-05T18:38:23Z
No. of bitstreams: 1
DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-14T14:13:08Z (GMT) No. of bitstreams: 1
DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-14T14:13:18Z (GMT) No. of bitstreams: 1
DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5) / Made available in DSpace on 2016-10-14T14:13:28Z (GMT). No. of bitstreams: 1
DissPCP.pdf: 1921482 bytes, checksum: 5298cc1a066e0cfe217b2b9c61076e65 (MD5)
Previous issue date: 2016-03-04 / Não recebi financiamento / Use different words to express/convey the same message is a necessity in any natural language and, as such, should be investigated in research in Natural Language Processing (NLP). When it is just a simple word, we say that the interchangeable words are synonyms; while the term paraphrase is used to express a more general idea and that also may involve more than one word. For example, the sentences "the light is red" and "the light is closed" are examples of paraphrases as "sign" and "traffic light" represent synonymous in this context. Proper treatment of paraphrasing is important in several NLP applications, such as Machine Translation, which paraphrases can be used to increase the coverage of Statistical Machine Translation systems; on Multidocument Summarization, where paraphrases identification allows the recognition of repeated information; and Natural Language Generation, where the generation of paraphrases allows creating more varied and fluent texts. The project described in this document is intended to verify that is possible to learn, in an incremental and automatic way, paraphrases in words level from a bilingual parallel corpus, using Never-Ending Machine Learning (NEML) strategy and the Internet as a source of knowledge. The NEML is a machine learning strategy, based on how humans learn: what is learned previously can be used to learn new information and perhaps more complex in the future. Thus, the NEML has been applied together with the strategy for paraphrases extraction proposed by Bannard and Callison-Burch (2005) where, from bilingual parallel corpus, paraphrases are extracted using a pivot language. In this context, it was developed NEPaL (Never-Ending Paraphrase Learner) AMSF system responsible for: (1) extract the internet texts, (2) align the text using a pivot language, (3) rank the candidates according to a classification model and (4) use the knowledge to produce a new classifier model and therefore gain more knowledge restarting the never-ending learning cycle. / Usar palavras diferentes para expressar/transmitir a mesma mensagem é uma necessidade em qualquer língua natural e, como tal, deve ser investigada nas pesquisas em Processamento de Língua Natural (PLN). Quando se trata apenas de uma palavra simples, dizemos que as palavras intercambiáveis são sinônimos; enquanto o termo paráfrase é utilizado para expressar uma ideia mais geral e que pode envolver também mais de uma palavra. Por exemplo, as sentenças “o sinal está vermelho” e “o semáforo está fechado” são exemplo de paráfrases enquanto “sinal” e “semáforo” representam sinônimos, nesse contexto. O tratamento adequado de paráfrases é importante em diversas aplicações de PLN, como na Tradução Automática, onde paráfrases podem ser utilizadas para aumentar a cobertura de sistemas de Tradução Automática Estatística; na Sumarização Multidocumento, onde a identificação de paráfrases permite o reconhecimento de informações repetidas; e na Geração de Língua Natural, onde a geração de paráfrases permite criar textos mais variados e fluentes. O projeto descrito neste documento visa verificar se é possível aprender, de modo incremental e automático, paráfrases em nível de palavras a partir de corpus paralelo bilíngue, utilizando a estratégia de Aprendizado de Máquina Sem-fim (AMSF) e a Internet como fonte de conhecimento. O AMSF é uma estratégia de Aprendizado de Máquina, baseada na forma como os humanos aprendem: o que é aprendido previamente pode ser utilizado para aprender informações novas e talvez mais complexas, futuramente. Para tanto, o AMSF foi aplicado juntamente com a estratégia para a extração de paráfrases proposta por Bannard e Callison-Burch (2005) onde, a partir de corpus paralelo bilíngue, paráfrases são extraídas utilizando um idioma pivô. Nesse contexto, foi desenvolvido o NEPaL (Never-Ending Paraphrase Learner), sistema de AMSF responsável por: (1) extrair textos da internet, (2) alinhar os textos utilizando um idioma pivô, (3) classificar as candidatas de acordo com um modelo de classificação e (4) utilizar o conhecimento para produzir um novo modelo classificador e, consequentemente, adquirir mais conhecimento reiniciando o ciclo de aprendizado sem-fim.
|
48 |
Estudo da aplicação do algoritmo Viola-Jones à detecção de pneus com vistas ao reconhecimento de automóveis. / Study of the application of the Viola-Jones algorithm to the detection of tires with a view to car recognition.RODRIGUES, Matheus Bezerra Estrela. 01 October 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-10-01T15:06:04Z
No. of bitstreams: 1
MATHEUS BEZERRA ESTRELA RODRIGUES - DISSERTAÇÃO PPGCC 2012..pdf: 7068761 bytes, checksum: 4b1283a1da5ca466fcf0357c33091a30 (MD5) / Made available in DSpace on 2018-10-01T15:06:04Z (GMT). No. of bitstreams: 1
MATHEUS BEZERRA ESTRELA RODRIGUES - DISSERTAÇÃO PPGCC 2012..pdf: 7068761 bytes, checksum: 4b1283a1da5ca466fcf0357c33091a30 (MD5)
Previous issue date: 2012-02-29 / Impulsionado pelo crescimento no uso de vigilância eletrônica, essa pesquisa introduz o
uso de uma técnica que demonstra eficiência no reconhecimento de faces em imagens,
alterando o objeto de busca para pneus de veículos, visando o reconhecimento da
presença do veículo na cena. A técnica aplicada para o reconhecimento é o algoritmo
Viola-Jones. Essa técnica é dividida em dois momentos: o treinamento e a detecção. Na
primeira etapa, vários treinamentos são executados, usando aproximadamente 7000
imagens diferentes. Para a etapa final, um detector de faces foi adaptado para reconhecer
pneus, utilizando o treinamento da etapa anterior, e sua eficiência em reconhecer os
pneus foi comparável à eficiência do detector de faces que usa treinamento de referência
da biblioteca em software que é referência nesta área, OpenCV. O detector desenvolvido
apresentou taxa de reconhecimento de 77%, quando o reconhecimento de faces obteve
80%. A taxa de falsos negativos também foi próxima, apresentando o detector de pneus
2% e o de faces 1%. / Motivated by the growing use of electronic surveillance, this research introduces the use of
the Viola-Jones algorithm, which is known to be efficient in recognition of human faces in
images, changing the object to be recognized to vehicle tires, aiming to detect vehicles in
a scene. This approach divides the process in two steps: training and detection. Training
was done using around 7000 different images of vehicles. For the detection step, work
was done to adapt a face detector to detect vehicles tires. The tire detector was compared
to a face detector that used a reference training for faces from OpenCV library. The tire
detector showed 77% efficiency, whereas the face detector showed 80%. False negative
numbers also showed similar closeness, as 2% for the tire detector and 1% for the
reference face detector.
|
49 |
Arcabouço para análise de eventos em vídeos. / Framework for analyzing events in videos.SILVA, Adson Diego Dionisio da. 07 May 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-05-07T15:29:04Z
No. of bitstreams: 1
ADSON DIEGO DIONISIO DA SILVA - DISSERTAÇÃO PPGCC 2015..pdf: 2453030 bytes, checksum: 863c817f9714377b827d4d6fa0770c51 (MD5) / Made available in DSpace on 2018-05-07T15:29:04Z (GMT). No. of bitstreams: 1
ADSON DIEGO DIONISIO DA SILVA - DISSERTAÇÃO PPGCC 2015..pdf: 2453030 bytes, checksum: 863c817f9714377b827d4d6fa0770c51 (MD5)
Previous issue date: 2015-08-31 / O reconhecimento automático de eventos de interesse em vídeos envolvendo
conjuntos de ações ou de interações entre objetos. Pode agregar valor a sistemas
de vigilância,aplicações de cidades inteligentes, monitoramento de pessoas com
incapacidades físicas ou mentais, dentre outros. Entretanto, conceber um arcabouço que possa ser adaptado a diversas situações sem a necessidade de um especialista nas tecnologias envolvidas, continua sendo um desafio para a área. Neste contexto, a pesquisa realizada tem como base a criação de um arcabouço genérico para detecção de eventos em vídeo com base em regras. Para criação das regras, os usuários formam expressões lógicas utilizando Lógica de Primeira Ordem e relacionamos termos com a álgebra de intervalos de Allen, adicionando assim um contexto temporal às regras. Por ser um arcabouço, ele é extensível, podendo receber módulos adicionais para realização de novas detecções e inferências Foi realizada uma avaliação experimental utilizando vídeos de teste disponíveis no site Youtube envolvendo um cenário de trânsito, com eventos de ultrapassagem do sinal vermelho e vídeos obtidos de uma câmera ao vivo do site Camerite, contendo eventos de carros estacionando. O foco do trabalho não foi
criar detectores de objetos (e.g. carros ou pessoas) melhores do que aqueles existentes no estado da arte, mas propor e desenvolver uma estrutura genérica e reutilizável que integra diferentes técnicas de visão computacional. A acurácia na detecção dos eventos ficou no intervalo de 83,82% a 90,08% com 95% de confiança. Obteve acurácia máxima (100%) na detecção dos eventos, quando substituído os detectores de objetos por rótulos atribuídos manualmente, o que indicou a eficácia do motor de inferência desenvolvido para o arcabouço. / Automatic recognition of relevant events in videos involving sets of actions or interactions between objects can improve surveillance systems, smart cities applications, monitoring of people with physical or mental disabilities, among others. However, designing a framework that can be adapted to several situations without an expert in the involved technologies remains a challenge. In this context, this work is based on the creation of a rule-based generic framework for event detection in video. To create the rules, users form logical expressions using firstorder logic (FOL) and relate the terms with the Allen’s interval algebra, adding a temporal context to the rules. Once it is a framework, it is extensible, and may receive additional modules for performing new detections and inferences. Experimental evaluation was performed using test videos available on Youtube, involving a scenario of traffic with red light crossing events and videos from
Camerite website containing parking car events. The focus of the work was not to create object detectors (e.g. cars or people) better than those existing in the state-of-the-art, but, propose and develop a generic and reusable framework that integrates differents computer vision techniques. The accuracy in the detection of the events was within the range of 83.82% and 90.08% with 95% confidence. Obtained maximum accuracy (100 %) in the detection of the events, when replacing the objects detectors by labels manually assigned, what indicated the effectiveness of the inference engine developed for this framework.
|
50 |
Reconhecimento de padrões aplicados à identificação de patologias de laringe / Pattern recognition applied to the identification of pathologies laryngealSodré, Bruno Ribeiro 23 February 2016 (has links)
As patologias que afetam a laringe estão aumentando consideravelmente nos últimos anos devido à condição da sociedade atual onde há hábitos não saudáveis como fumo, álcool e tabaco e um abuso vocal cada vez maior, talvez por conta do aumento da poluição sonora, principalmente nos grandes centros urbanos. Atualmente o exame utilizado pela endoscopia per-oral, direcionado a identificar patologias de laringe, são a videolaringoscopia e videoestroboscopia, ambos invasivos e por muitas vezes desconfortável ao paciente. Buscando melhorar o bem estar e minimizar o desconforto dos pacientes que necessitam submeter-se a estes procedimentos, este estudo tem como objetivo reconhecer padrões que possam ser aplicados à identificação de patologias de laringe de modo a auxiliar na criação de um novo método não invasivo em substituição ao método atual. Este trabalho utilizará várias configurações diferentes de redes neurais. A primeira rede neural foi gerada a partir de 524.287 resultados obtidos através das configurações k-k das 19 medidas acústicas disponíveis neste trabalho. Esta configuração atingiu uma acurácia de 99,5% (média de 96,99±2,08%) ao utilizar uma configuração com 11 e com 12 medidas acústicas dentre as 19 disponíveis. Utilizando-se 3 medidas rotacionadas (obtidas através do método de componentes principais), foi obtido uma acurácia de 93,98±0,24%. Com 6 medidas rotacionadas, o resultado obtido foi de acurácia foi de 94,07±0,29%. Para 6 medidas rotacionadas com entrada normalizada, a acurácia encontrada foi de 97,88±1,53%. A rede neural que fez 23 diferentes classificações, voz normal mais 22 patologias, mostrou que as melhores classificações, de acordo com a acurácia, são a da patologia hiperfunção com 58,23±18,98% e a voz normal com 52,15±18,31%. Já para a pior patologia a ser classificada, encontrou-se a fadiga vocal com 0,57±1,99%. Excluindo-se a voz normal, ou seja, utilizando uma rede neural composta somente por vozes patológicas, a hiperfunção continua sendo a mais facilmente identificável com uma acurácia de 57,3±19,55%, a segunda patologia mais facilmente identificável é a constrição ântero-posterior com 18,14±11,45%. Nesta configuração, a patologia mais difícil de se classificar continua sendo a fadiga vocal com 0,7±2,14%. A rede com re-amostragem obteve uma acurácia de 25,88±10,15% enquanto que a rede com re-amostragem e alteração de neurônios na camada intermediária obteve uma acurácia de 21,47±7,58% para 30 neurônios e uma acurácia de 18,44±6,57% para 40 neurônios. Por fim foi feita uma máquina de vetores suporte que encontrou um resultado de 67±6,2%. Assim, mostrou-se que as medidas acústicas precisam ser aprimoradas para a obtenção de melhores resultados de classificação dentre as patologias de laringe estudadas. Ainda assim, verificou-se que é possível discriminar locutores normais daqueles pacientes disfônicos. / Diseases that affect the larynx have been considerably increased in recent years due to the condition of nowadays society where there have been unhealthy habits like smoking, alcohol and tobacco and an increased vocal abuse, perhaps due to the increase in noise pollution, especially in large urban cities. Currently the exam performed by per-oral endoscopy (aimed to identify laryngeal pathologies) have been videolaryngoscopy and videostroboscopy, both invasive and often uncomfortable to the patient. Seeking to improve the comfort of the patients who need to undergo through these procedures, this study aims to identify acoustic patterns that can be applied to the identification of laryngeal pathologies in order to creating a new non-invasive larynx assessment method. Here two different configurations of neural networks were used. The first one was generated from 524.287 combinations of 19 acoustic measurements to classify voices into normal or from a diseased larynx, and achieved an max accuracy of 99.5% (96.99±2.08%). Using 3 and 6 rotated measurements (obtained from the principal components analysis method), the accuracy was 93.98±0.24% and 94.07±0.29%, respectively. With 6 rotated measurements from a previouly standardization of the 19 acoustic measurements, the accuracy was 97.88±1.53%. The second one, to classify 23 different voice types (including normal voices), showed better accuracy in identifying hiperfunctioned larynxes and normal voices, with 58.23±18.98% and 52.15±18.31%, respectively. The worst accuracy was obtained from vocal fatigues, with 0.57±1.99%. Excluding normal voices of the analysis, hyperfunctioned voices remained the most easily identifiable (with an accuracy of 57.3±19.55%) followed by anterior-posterior constriction (with 18.14±11.45%), and the most difficult condition to be identified remained vocal fatigue (with 0.7±2.14%). Re-sampling the neural networks input vectors, it was obtained accuracies of 25.88±10.15%, 21.47±7.58%, and 18.44±6.57% from such networks with 20, 30, and 40 hidden layer neurons, respectively. For comparison, classification using support vector machine produced an accuracy of 67±6.2%. Thus, it was shown that the acoustic measurements need to be improved to achieve better results of classification among the studied laryngeal pathologies. Even so, it was found that is possible to discriminate normal from dysphonic speakers.
|
Page generated in 0.1132 seconds