• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 200
  • 70
  • 23
  • 22
  • 21
  • 8
  • 5
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 1
  • Tagged with
  • 442
  • 442
  • 442
  • 177
  • 145
  • 99
  • 86
  • 73
  • 72
  • 58
  • 55
  • 55
  • 54
  • 49
  • 48
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
411

Exploring variabilities through factor analysis in automatic acoustic language recognition

Verdet, Florian 05 September 2011 (has links) (PDF)
Language Recognition is the problem of discovering the language of a spoken definitionutterance. This thesis achieves this goal by using short term acoustic information within a GMM-UBM approach.The main problem of many pattern recognition applications is the variability of problemthe observed data. In the context of Language Recognition (LR), this troublesomevariability is due to the speaker characteristics, speech evolution, acquisition and transmission channels.In the context of Speaker Recognition, the variability problem is solved by solutionthe Joint Factor Analysis (JFA) technique. Here, we introduce this paradigm toLanguage Recognition. The success of JFA relies on several assumptions: The globalJFA assumption is that the observed information can be decomposed into a universalglobal part, a language-dependent part and the language-independent variabilitypart. The second, more technical assumption consists in the unwanted variability part to be thought to live in a low-dimensional, globally defined subspace. In this work, we analyze how JFA behaves in the context of a GMM-UBM LR framework. We also introduce and analyze its combination with Support Vector Machines(SVMs).The first JFA publications put all unwanted information (hence the variability) improvemen tinto one and the same component, which is thought to follow a Gaussian distribution.This handles diverse kinds of variability in a unique manner. But in practice,we observe that this hypothesis is not always verified. We have for example thecase, where the data can be divided into two clearly separate subsets, namely datafrom telephony and from broadcast sources. In this case, our detailed investigations show that there is some benefit of handling the two kinds of data with two separatesystems and then to elect the output score of the system, which corresponds to the source of the testing utterance.For selecting the score of one or the other system, we need a channel source related analyses detector. We propose here different novel designs for such automatic detectors.In this framework, we show that JFA's variability factors (of the subspace) can beused with success for detecting the source. This opens the interesting perspectiveof partitioning the data into automatically determined channel source categories,avoiding the need of source-labeled training data, which is not always available.The JFA approach results in up to 72% relative cost reduction, compared to the overall resultsGMM-UBM baseline system. Using source specific systems followed by a scoreselector, we achieve 81% relative improvement.
412

Reconnaissance des sons de l'environnement dans un contexte domotique

SEHILI, Mohamed El Amine 05 July 2013 (has links) (PDF)
Dans beaucoup de pays du monde, on observe une importante augmentation du nombre de personnes âgées vivant seules. Depuis quelques années, un nombre significatif de projets de recherche sur l'assistance aux personnes âgées ont vu le jour. La plupart de ces projets utilisent plusieurs modalités (vidéo, son, détection de chute, etc.) pour surveiller l'activité de la personne et lui permettre de communiquer naturellement avec sa maison "intelligente", et, en cas de danger, lui venir en aide au plus vite. Ce travail a été réalisé dans le cadre du projet ANR VERSO de recherche industrielle, Sweet-Home. Les objectifs du projet sont de proposer un système domotique permettant une interaction naturelle (par commande vocale et tactile) avec la maison, et procurant plus de sécurité à l'habitant par la détection des situations de détresse. Dans ce cadre, l'objectif de ce travail est de proposer des solutions pour la reconnaissance des sons de la vie courante dans un contexte réaliste. La reconnaissance du son fonctionnera en amont d'un système de Reconnaissance Automatique de la Parole. Les performances de celui-ci dépendent donc de la fiabilité de la séparation entre la parole et les autres sons. Par ailleurs, une bonne reconnaissance de certains sons, complétée par d'autres sources informations (détection de présence, détection de chute, etc.) permettrait de bien suivre les activités de la personne et de détecter ainsi les situations de danger. Dans un premier temps, nous nous sommes intéressés aux méthodes en provenance de la Reconnaissance et Vérification du Locuteur. Dans cet esprit, nous avons testé des méthodes basées sur GMM et SVM. Nous avons, en particulier, testé le noyau SVM-GSL (SVM GMM Supervector Linear Kernel) utilisé pour la classification de séquences. SVM-GSL est une combinaison de SVM et GMM et consiste à transformer une séquence de vecteurs de longueur arbitraire en un seul vecteur de très grande taille, appelé Super Vecteur, et utilisé en entrée d'un SVM. Les expérimentations ont été menées en utilisant une base de données créée localement (18 classes de sons, plus de 1000 enregistrements), puis le corpus du projet Sweet-Home, en intégrant notre système dans un système plus complet incluant la détection multi-canaux du son et la reconnaissance de la parole. Ces premières expérimentations ont toutes été réalisées en utilisant un seul type de coefficients acoustiques, les MFCC. Par la suite, nous nous sommes penchés sur l'étude d'autres familles de coefficients en vue d'en évaluer l'utilisabilité en reconnaissance des sons de l'environnement. Notre motivation fut de trouver des représentations plus simples et/ou plus efficaces que les MFCC. En utilisant 15 familles différentes de coefficients, nous avons également expérimenté deux approches pour transformer une séquence de vecteurs en un seul vecteur, à utiliser avec un SVM linéaire. Dans le première approche, on calcule un nombre fixe de coefficients statistiques qui remplaceront toute la séquence de vecteurs. La seconde approche (une des contributions de ce travail) utilise une méthode de discrétisation pour trouver, pour chaque caractéristique d'un vecteur acoustique, les meilleurs points de découpage permettant d'associer une classe donnée à un ou plusieurs intervalles de valeurs. La probabilité de la séquence est estimée par rapport à chaque intervalle. Les probabilités obtenues ainsi sont utilisées pour construire un seul vecteur qui remplacera la séquence de vecteurs acoustiques. Les résultats obtenus montrent que certaines familles de coefficients sont effectivement plus adaptées pour reconnaître certaines classes de sons. En effet, pour la plupart des classes, les meilleurs taux de reconnaissance ont été observés avec une ou plusieurs familles de coefficients différentes des MFCC. Certaines familles sont, de surcroît, moins complexes et comptent une seule caractéristique par fenêtre d'analyse contre 16 caractéristiques pour les MFCC
413

Sistema de visão computacional para detecção do uso de telefones celulares ao dirigir / A computer vision system tor detecting use of mobile phones while driving

Berri, Rafael Alceste 21 February 2014 (has links)
Made available in DSpace on 2016-12-12T20:22:52Z (GMT). No. of bitstreams: 1 RAFAEL ALCESTE BERRI.pdf: 28428368 bytes, checksum: 667b9facc9809bfd5e0847e15279b0e6 (MD5) Previous issue date: 2014-02-21 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / In this work, three proposals of systems have been developed using a frontal camera to monitor the driver and enabling to identificate if a cell phone is being used while driving the vehicle. It is estimated that 80% of crashes and 65% of near collisions involved drivers who were inattentive in traffic for three seconds before the event. Five videos in real environment were generated to test the systems. The pattern recognition system (RP) uses adaptive skin segmentation, feature extraction, and machine learning to detect cell phone usage on each frame. The cell phone detection happens when, in periods of 3 seconds, 60% (threshold) of frames or more are identified as a cell phone use, individually. The average accuracy on videos achieved was 87.25% with Multilayer Perceptron (MLP), Gaussian activation function, and two neurons of the intermediate layer. The movement detection system (DM) uses optical flow, filtering the most relevant movements of the scene, and three successive frames for detecting the movements to take the phone to the ear and take it off. The DM proposal was not demonstrated as being an effective solution for detecting cell phone use, reaching an accuracy of 52.86%. The third solution is a hybrid system. It uses the RP system for classification and the DM for choosing the RP parameters. The parameters chosen for RP are the threshold and the classification system. The definition of these two parameters occurs at the end of each period, based on movement detected by the DM. Experimentally it was established that, when the movement induces to use cell phone, it is proper to use the threshold of 60%, and the classifier as MLP/Gaussian with seven neurons of the intermediate layer; otherwise, it is used threshold 85%, and MLP/Gaussian with two neurons of the intermediate layer for classification. The hybrid solution is the most robust system with average accuracy of 91.68% in real environment. / Neste trabalho, são desenvolvidas três propostas de sistemas que permitem identificar o uso de celular, durante o ato de dirigir um veículo, utilizando imagens capturadas de uma câmera posicionada em frente ao motorista. Estima-se que 80% das colisões e 65% das quase colisões envolveram motoristas que não estavam prestando a devida atenção ao trânsito por três segundos antes do evento. Cinco vídeos em ambiente real foram gerados com o intuito de testar os sistemas. A proposta de reconhecimento de padrões (RP) emprega segmentação de pele adaptativa, extração de características e aprendizado de máquina (classificador) na detecção do celular em cada quadro processado. A detecção do uso do celular ocorre quando, em períodos de 3 segundos, ao menos em 60% dos quadros (corte) são identificados com celular. A acurácia média nos vídeos alcançou 87, 25% ao utilizar Perceptron Multi-camadas (MLP) com função de ativação gaussiana e dois neurônios na camada intermediária como classificador. A proposta de detecção de movimento (DM) utiliza o fluxo ótico, filtragem dos movimentos mais relevantes da cena e três quadros consecutivos para detectar os momentos de levar o celular ao ouvido e o retirá-lo. A aplicação do DM, como solução para detectar o uso do celular, não se demostrou eficaz atingindo uma acurácia de 52, 86%. A terceira proposta, uma solução híbrida, utiliza o sistema RP como classificador e o de DM como seu parametrizador. Os parâmetros escolhidos para o sistema de RP são o corte e o sistema classificador. A definição desses dois parâmetros ocorre ao final de cada período, baseada na movimentação detectada pela DM. Com experimentações definiu-se que, caso a movimentação induza ao uso do celular, é adequado o uso do corte de 60% e o classificador MLP/Gaussiana com sete neurônios na camada intermediária, caso contrário, utiliza-se o corte de 85% e classificador MLP/Gaussiana com dois neurônios na mesma camada. A versão híbrida é a solução desenvolvida mais robusta, atingindo a melhor acurácia média de 91, 68% em ambiente real.
414

Algoritmos de inteligência computacional em instrumentação: uso de fusão de dados na avaliação de amostras biológicas e químicas / Computational intelligence algorithms for instrumentation: biological and chemical samples evaluation by using data fusion

Negri, Lucas Hermann 24 February 2012 (has links)
Made available in DSpace on 2016-12-12T20:27:37Z (GMT). No. of bitstreams: 1 LUCAS HERMANN NEGRI.pdf: 2286573 bytes, checksum: 5c0e3c77c1d910bd47dd444753c142c4 (MD5) Previous issue date: 2012-02-24 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This work presents computational methods to process data from electrical impedance spectroscopy and fiber Bragg grating interrogation in order to characterize the evaluated samples. Estimation and classification systems were developed, by using the signals isolatedly or simultaneously. A new method to adjust the parameters of functions that describes the electrical impedance spectra by using particle swarm optimization is proposed. Such method were also extended to correct distorted spectra. A benchmark for peak detection algorithms in fiber Bragg grating interrogation was performed, including the currently used algorithms as obtained from literature, where the accuracy, precision, and computational performance were evaluated. This comparative study was performed with both simulated and experimental data. It was perceived that there is no optimal algorithm when all aspects are taken into account, but it is possible to choose a suitable algorithm when one has the application requirements. A novel peak detection algorithm based on an artificial neural network is proposed, being recommended when the analyzed spectra have distortions or is not symmetrical. Artificial neural networks and support vector machines were employed with the data processing algorithms to classify or estimate sample characteristics in experiments with bovine meat, milk, and automotive fuel. The results have shown that the proposed data processing methods are useful to extract the data main information and that the employed data fusion schemes were useful, in its initial classification and estimation objectives. / Neste trabalho são apresentados métodos computacionais para o processamento de dados produzidos em sistemas de espectroscopia de impedância elétrica e sensoriamento a redes de Bragg em fibra óptica com o objetivo de inferir características das amostras analisadas. Sistemas de estimação e classificação foram desenvolvidos, utilizando os sinais isoladamente ou de forma conjunta com o objetivo de melhorar as respostas dos sistemas. Propõe-se o ajuste dos parâmetros de funções que modelam espectros de impedância elétrica por meio de um novo algoritmo de otimização por enxame de partículas, incluindo a sua utilização na correção de espectros com determinadas distorções. Um estudo comparativo foi realizado entre os métodos correntes utilizados na detecção de pico de sinais resultantes de sensores em fibras ópticas, onde avaliou-se a exatidão, precisão e desempenho computacional. Esta comparação foi feita utilizando dados simulados e experimentais, onde percebeu-se que não há algoritmo simultaneamente superior em todos os aspectos avaliados, mas que é possível escolher o ideal quando se têm os requisitos da aplicação. Um método de detecção de pico por meio de uma rede neural artificial foi proposto, sendo recomendado em situações onde o espectro analisado possui distorções ou não é simétrico. Redes neurais artificiais e máquinas de vetor de suporte foram utilizadas em conjunto com os algoritmos de processamento com o objetivo de classificar ou estimar alguma característica de amostras em experimentos que envolveram carnes bovinas, leite bovino e misturas de combustível automotivo. Mostra-se neste trabalho que os métodos de processamento propostos são úteis para a extração das características importantes dos dados e que os esquemas utilizados para a fusão destes dados foram úteis dentro dos seus objetivos iniciais de classificação e estimação.
415

Aplicação de inteligência computacional na resolução de problemas de sistemas elétricos de potência /

Lopez Sepulveda, Gloria Patricia. January 2017 (has links)
Orientador: Marcos Julio Rider Flores / Resumo: Nesta tese são utilizados algoritmos de Inteligência Computacional para resolver quatro problemas da área de sistemas elétricos de potência, com o intuito de automatizar a tomada de decisões em processos que normalmente são realizados por especialistas humanos ajudados de métodos computacionais clássicos. Nesta tese são utilizados os algoritmos de aprendizado de máquina: árvores de decisão, redes neurais artificiais e máquinas de vetor de suporte, para realizar o processo de aprendizado dos sistemas inteligentes e para realizar a mineração de dados. Estes algoritmos podem ser treinados a partir das medições disponíveis e ações registradas nos centros de controle dos sistemas de potência. Sistemas Inteligentes foram utilizados para realizar: a) o controle centralizado Volt-VAr em modernos sistemas de distribuição de energia elétrica em tempo real usando medições elétricas; b) a detecção de fraudes nas redes de distribuição de energia elétrica realizando um processo de mineração de dados para estabelecer padrões de consumo que levem a possíveis clientes fraudadores; c) a localização de faltas nos sistemas de transmissão de energia elétrica automatizando o processo de localização e ajudando para que uma ação de controle da falta seja realizada de forma rápida e eficiente; e d) a coordenação de carga inteligente de veículos elétricos e dispositivos de armazenamento em tempo real utilizando a tecnologia V2G, nos sistemas de distribuição de energia elétrica a partir de medições elé... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In this thesis Computational Intelligence algorithms are used to solve four problems of the area of power electrical systems, in order to automate decision making in processes that are usually performed by human experts aided by classical computational methods. In this thesis the machine learning algorithms are used: decision trees, artificial neural networks and support vector machines to carry out the learning process of Intelligent Systems and to perform Data Mining. These algorithms are trained from the available measurements and actions recorded in the control centers of the systems. Intelligent Systems were used to perform: a) the centralized control Volt-VAr in modern systems of distribution of electrical energy in real time using electrical measurements; b) detection of fraud in electricity distribution networks by performing a data mining process to establish patterns of consumption that lead to possible fraudulent customers; c) fault location in electric power transmission systems by automating the localization process and helping to ensure that a fault control action is performed quickly and efficiently; and d) coordination of intelligent charging of electric vehicles and storage devices using V2G technology in real-time, in electric power distribution systems using electrical measurements. For the centralized control problem Volt-VAr was tested in 42-node distribution system, for the problem of loading electric vehicles and storage devices the tests were performed... (Complete abstract click electronic access below) / Doutor
416

The aCDOM spatial and temporal distribution analysis in Funil reservoir / Análise da distribuição espaço-temporal do aCDOM no reservatório de Funil

Martins, Sarah Cristina Araújo [UNESP] 03 August 2017 (has links)
Submitted by SARAH CRISTINA ARAUJO MARTINS null (sarahca.martins@gmail.com) on 2017-08-27T12:54:53Z No. of bitstreams: 1 Dissertacao_MartinsSarah.pdf: 3974138 bytes, checksum: 73a1c2c28d4a0cbbde72b9e8a49211ce (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-29T17:18:44Z (GMT) No. of bitstreams: 1 martins_sca_me_prud.pdf: 3974138 bytes, checksum: 73a1c2c28d4a0cbbde72b9e8a49211ce (MD5) / Made available in DSpace on 2017-08-29T17:18:44Z (GMT). No. of bitstreams: 1 martins_sca_me_prud.pdf: 3974138 bytes, checksum: 73a1c2c28d4a0cbbde72b9e8a49211ce (MD5) Previous issue date: 2017-08-03 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / A matéria orgânica dissolvida (DOM) é a componente da água que pode ser usada como indicativo de sua qualidade, pois possui duas fontes: uma alóctone, relacionada com descargas de material terrestre, estando vinculada aos ácidos húmicos, e outra autóctone, associada às descargas fluviais ou produção própria do corpo hídrico estudado, estando relacionada aos ácidos fúlvicos. A matéria orgânica dissolvida colorida (CDOM) é a fração colorida da DOM, que pode ser usada como proxy para a observação desta última em águas interiores. O reservatório hidrelétrico de Funil (FHR) foi o corpo hídrico escolhido como área de estudo deste trabalho. Neste contexto, o objetivo geral desta pesquisa foi identificar e avaliar as mudanças no coeficiente de absorção da CDOM (aCDOM) na superfície da água ao longo do tempo (1995 – 2010), bem como entender a sua relação com mudanças no uso e cobertura da terra (LULC) na bacia de contribuição do FHR. Para alcançar tal objetivo foram realizados: (i) o mapeamento histórico de LULC (1995 – 2010, com 5 anos de intervalo) para detecção de mudanças; (ii) o estudo de um conjunto de modelos bio-ópticos baseados na literatura, bem como de um novo modelo empírico desenvolvido para estimar aCDOM via reflectância simulada (Rrs_simulated) para o sensor Thematic Mapper (TM); (iii) a distribuição espaço-temporal do aCDOM por meio da aplicação de um modelo bio-óptico em imagens TM/Landsat-5 de 1995 a 2010, e (iv) a análise das fontes possíveis de CDOM/DOM , assim como do comportamento/distribuição do aCDOM no FHR ao longo do tempo. Assim, o primeiro estudo desenvolvido nesta pesquisa foi o da parametrização do algoritmo maquinas de vetores de suporte (SVM) de acordo com as características da área de estudo para classificação supervisionada de LULC na bacia de contribuição do FHR. A detecção de mudança da classificação obtida para LULC demonstrou que a parametrização proposta para o SVM tornou o algoritmo capaz de diferenciar classes grandes e contínuas, classes estreitas e alongadas, além de áreas não contínuas e pequenas localizadas dentro de outra classe maior. A classificação obtida para o SVM apresentou boa avaliação estatística, com acurácia geral entre 86% e 96% para toda a série temporal, acurácia do produtor de 90%, acurácia do usuário maior do que 86% e índice Kappa entre 86% e 91%. Ainda, foi observado que o LULC desenvolvido na área de estudo se manteve relativamente estável ao longo da série histórica analisada. O segundo estudo realizado proporcionou o desenvolvimento de um modelo empírico em um comprimento de onda (485 nm) e uma razão de bandas (B4/B1) alternativos para estimativa de aCDOM via Rra_simulated para o TM/Landsat-5 (RMSE = 7%, Nash = 0.91). Este modelo também pôde identificar mesmo pequenas variações nos valores de reflectância via dados orbitais, assim como pode diferenciar variações sutis no aCDOM. Ainda, foram identificados dois padrões de comportamento da CDOM para o FHR: um associado ao LULC e à ocorrência de chuva/lixiviação, bem como outro relacionado à Clorofila-a (Chl-a) em situações de floração de algas. Os referidos estudos que compõe esta pesquisa foram padronizados como artigos científicos para a confecção deste documento. O primeiro estudo, sobre a parametrização do SVM, foi publicado na revista Modelling Earth Systems Environment – Springer (DOI 10.1007/s40808-016-0190-y). O segundo estudo, sobre a distribuição histórica do aCDOM está na etapa de revisão para futura submissão. / The dissolved organic matter (DOM) is a water compound related to water quality, since it has two sources: one allochthonous, related to terrestrial discharges that can be linked to humic acids, and another autochthonous, associated with river input and itself production, so related to or fulvic acids. The colored dissolved organic carbon (CDOM) is the colored fraction of DOM that could be used as a proxy for its occurrence in inland waters. The Funil hydroelectric reservoir (FHR) was chosen as the study site for this work. In this context, the general aim of this research was to identify and to evaluate the changes in CDOM absorption coefficient (aCDOM) at the water surface over time (1995 – 2010), and to understand its relationship with land cover land use (LULC) changes in FHR watershed. For match this goal, (i) a LULC historical mapping (1995 – 2010, with 5 years of interval) was made to change detection, (ii) a bio-optical model set and a new model were studied in order to estimate aCDOM from simulated reflectance (Rrs_simulated) for Thematic Mapper (TM) sensor, (iii) a aCDOM spatial and temporal distribution was obtained by applying a bio-optical model in TM/Landsat-5 imagery from 1995 to 2010, and (iv) the possible CDOM/DOM sources in FHR were found, as well aCDOM historical behavior/distribution over time was analysed. Thus, the first study was the support vector machine algorithm (SVM) parameterization according to study area characteristics to LULC supervised classification in FHR watershed. The obtained LULC change detection analysis demonstrates that the proposed SVM parameterization made the algorithm able to differentiate large and continuous classes, lengthy and thin areas, and non-continuous small areas located inside wide classes. The obtained classification had great statistics with overall accuracy among 86% and 98% over the time series, the producer accuracy of 90%, the user accuracy higher than 86%, and the Kappa statistics ranged from 86% to 91%. In addition, no significant changes in LULC were identified in the study site over all time series. The second study provides a bio-optical model at alternatives wavelength (485 nm) and a band ratio (B4/B1) for aCDOM estimation using simulated Rrs for TM/Landsat-5 (RMSE = 7%, Nash = 0.91). This model could identify even small variations in reflectance values from orbital data, as well as differentiate even slight alterations in aCDOM. Two significantly different aCDOM behaviors were also identified for FHR: one associated with LULC and rainfall/runoff occurrence, and other correlated to Chlorophyll-a high concentrations (Chl-a) in algal blooms situations. The referred studies that compose this research ware standardized as academic articles in this document. The first study, about SVM parameterization, was published yet in Modeling Earth Systems Environment – Springer (DOI 10.1007/s40808-016-0190-y). The second study, about aCDOM historical distribution is in the revision step to future submission.
417

\"Processamento e análise de imagens para medição de vícios de refração ocular\" / Image Processing and Analysis for Measuring Ocular Refraction Errors

Antonio Valerio Netto 18 August 2003 (has links)
Este trabalho apresenta um sistema computacional que utiliza técnicas de Aprendizado de Máquina (AM) para auxiliar o diagnóstico oftalmológico. Trata-se de um sistema de medidas objetivas e automáticas dos principais vícios de refração ocular, astigmatismo, hipermetropia e miopia. O sistema funcional desenvolvido aplica técnicas convencionais de processamento a imagens do olho humano fornecidas por uma técnica de aquisição chamada Hartmann-Shack (HS), ou Shack-Hartmann (SH), com o objetivo de extrair e enquadrar a região de interesse e remover ruídos. Em seguida, vetores de características são extraídos dessas imagens pela técnica de transformada wavelet de Gabor e, posteriormente, analisados por técnicas de AM para diagnosticar os possíveis vícios refrativos presentes no globo ocular representado. Os resultados obtidos indicam a potencialidade dessa abordagem para a interpretação de imagens de HS de forma que, futuramente, outros problemas oculares possam ser detectados e medidos a partir dessas imagens. Além da implementação de uma nova abordagem para a medição dos vícios refrativos e da introdução de técnicas de AM na análise de imagens oftalmológicas, o trabalho contribui para a investigação da utilização de Máquinas de Vetores Suporte e Redes Neurais Artificiais em sistemas de Entendimento/Interpretação de Imagens (Image Understanding). O desenvolvimento deste sistema permite verificar criticamente a adequação e limitações dessas técnicas para a execução de tarefas no campo do Entendimento/Interpretação de Imagens em problemas reais. / This work presents a computational system that uses Machine Learning (ML) techniques to assist in ophthalmological diagnosis. The system developed produces objective and automatic measures of ocular refraction errors, namely astigmatism, hypermetropia and myopia from functional images of the human eye acquired with a technique known as Hartmann-Shack (HS), or Shack-Hartmann (SH). Image processing techniques are applied to these images in order to remove noise and extract the regions of interest. The Gabor wavelet transform technique is applied to extract feature vectors from the images, which are then input to ML techniques that output a diagnosis of the refractive errors in the imaged eye globe. Results indicate that the proposed approach creates interesting possibilities for the interpretation of HS images, so that in the future other types of ocular diseases may be detected and measured from the same images. In addition to implementing a novel approach for measuring ocular refraction errors and introducing ML techniques for analyzing ophthalmological images, this work investigates the use of Artificial Neural Networks and Support Vector Machines (SVMs) for tasks in Image Understanding. The description of the process adopted for developing this system can help in critically verifying the suitability and limitations of such techniques for solving Image Understanding tasks in \"real world\" problems.
418

RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês

Christopher Dane Shulby 08 August 2018 (has links)
The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados.
419

Intelligent Techniques for Monitoring of Integrated Power Systems

Agrawal, Rimjhim January 2013 (has links) (PDF)
Continued increase in system load leading to a reduction in operating margins, as well as the tendency to move towards a deregulated grid with renewable energy sources has increased the vulnerability of the grid to blackouts. Advanced intelligent techniques are therefore required to design new monitoring schemes that enable smart grid operation in a secure and robust manner. As the grid is highly interconnected, monitoring of transmission and distribution systems is increasingly relying on digital communication. Conventional security assessment techniques are slow, hampering real-time decision making. Hence, there is a need to develop fast and accurate security monitoring techniques. Intelligent techniques that are capable of processing large amounts of captured data are finding increasing scope as essential enablers for the smart grid. The research work presented in this thesis has evolved from the need for enhanced monitoring in transmission and distribution grids. The potential of intelligent techniques for enhanced system monitoring has been demonstrated for disturbed scenarios in an integrated power system. In transmission grids, one of the challenging problems is network partitioning, also known as network area-decomposition. In this thesis, an approach based on relative electrical distance (RED) has been devised to construct zonal dynamic equivalents such that the dynamic characteristics of the original system are retained in the equivalent system within the desired accuracy. Identification of coherent generators is another key aspect in power system dynamics. In this thesis, a support vector clustering-based coherency identification technique is proposed for large interconnected multi-machine power systems. The clustering technique is based on coherency measure which is formulated using the generator rotor measurements. These rotor measurements can be obtained with the help of Phasor Measurement Units (PMUs). In distribution grids, accurate and fast fault identification of faults is a key challenge. Hence, an automated fault diagnosis technique based on multi class support vector machines (SVMs) has been developed in this thesis. The proposed fault location scheme is capable of accurately identify the fault type, location of faulted line section and the fault impedance in the distributed generation (DG) systems. The proposed approach is based on the three phase voltage and current measurements available at all the sources i.e. substation and at the connection points of DGs. An approach for voltage instability monitoring in 3-phase distribution systems has also been proposed in this thesis. The conventional single phase L-index measure has been extended to a 3-phase system to incorporate information pertaining to unbalance in the distribution system. All the approaches proposed in this thesis have been validated using standard IEEE test systems and also on practical Indian systems.
420

Micro-Expression Extraction For Lie Detection Using Eulerian Video (Motion and Color) Magnication / Micro-Expression Extraction For Lie Detection Using Eulerian Video (Motion and Color) Magnication

Chavali, Gautam Krishna, Bhavaraju, Sai Kumar N V, Adusumilli, Tushal, Puripanda, VenuGopal January 2014 (has links)
Lie-detection has been an evergreen and evolving subject. Polygraph techniques have been the most popular and successful technique till date. The main drawback of the polygraph is that good results cannot be attained without maintaining a physical contact, of the subject under test. In general, this physical contact would induce extra consciousness in the subject. Also, any sort of arousal in the subject triggers false positives while performing the traditional polygraph based tests. With all these drawbacks in the polygraph, also, due to rapid developments in the fields of computer vision and artificial intelligence, with newer and faster algorithms, have compelled mankind to search and adapt to contemporary methods in lie-detection. Observing the facial expressions of emotions in a person without any physical contact and implementing these techniques using artificial intelligence is one such method. The concept of magnifying a micro expression and trying to decipher them is rather premature at this stage but would evolve in future. Magnification using EVM technique has been proposed recently and it is rather new to extract these micro expressions from magnified EVM based on HOG features. Till date, HOG features have been used in conjunction with SVM, and generally for person/pedestrian detection. A newer, simpler and contemporary method of applying EVM with HOG features and Back-propagation Neural Network jointly has been introduced and proposed to extract and decipher the micro-expressions on the face. Micro-expressions go unnoticed due to its involuntary nature, but EVM is used to magnify them and makes them noticeable. Emotions behind the micro-expressions are extracted and recognized using the HOG features \& Back-Propagation Neural Network. One of the important aspects that has to be dealt with human beings is a biased mind. Since, an investigator is also a human and, he too, has to deal with his own assumptions and emotions, a Neural Network is used to give the investigator an unbiased start in identifying the true emotions behind every micro-expression. On the whole, this proposed system is not a lie-detector, but helps in detecting the emotions of the subject under test. By further investigation, a lie can be detected. / This thesis uses a magnification technique to magnify the subtle, faint and spontaneous facial muscle movements or more precisely, micro-expressions. This magnification would help a system in classifying them and estimating the emotion behind them. This technique additionally magnifies the color changes, which could be used to extract the pulse without a physical contact with the subject. The results are presented in a GUI. / Gautam: +46(0)739528573, +91-9701534064 Tushal: +46(0)723219833, +91-9000242241 Venu: +46(0)734780266, +91-9298653191 Sai: +91-9989410111

Page generated in 0.0636 seconds