• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 39
  • 4
  • 3
  • 1
  • 1
  • Tagged with
  • 53
  • 53
  • 25
  • 15
  • 13
  • 12
  • 11
  • 10
  • 10
  • 10
  • 7
  • 7
  • 7
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

A bag of features approach for human attribute analysis on face images / Uma abordagem \"bag of features\" para análise de atributos humanos em imagens de faces

Araujo, Rafael Will Macêdo de 06 September 2019 (has links)
Computer Vision researchers are constantly challenged with questions that are motivated by real applications. One of these questions is whether a computer program could distinguish groups of people based on their geographical ancestry, using only frontal images of their faces. The advances in this research area in the last ten years show that the answer to that question is affirmative. Several papers address this problem by applying methods such as Local Binary Patterns (LBP), raw pixel values, Principal or Independent Component Analysis (PCA/ICA), Gabor filters, Biologically Inspired Features (BIF), and more recently, Convolution Neural Networks (CNN). In this work we propose to combine the Bag-of-Visual-Words model with new dictionary learning techniques and a new spatial structure approach for image features. An extensive set of experiments has been performed using two of the largest face image databases available (MORPH-II and FERET), reaching very competitive results for gender and ethnicity recognition, while using a considerable small set of images for training. / Pesquisadores de visão computacional são constantemente desafiados com perguntas motivadas por aplicações reais. Uma dessas questões é se um programa de computador poderia distinguir grupos de pessoas com base em sua ascendência geográfica, usando apenas imagens frontais de seus rostos. Os avanços nesta área de pesquisa nos últimos dez anos mostram que a resposta a essa pergunta é afirmativa. Vários artigos abordam esse problema aplicando métodos como Padrões Binários Locais (LBP), valores de pixels brutos, Análise de Componentes Principais ou Independentes (PCA/ICA), filtros de Gabor, Características Biologicamente Inspiradas (BIF) e, mais recentemente, Redes Neurais Convolucionais (CNN). Neste trabalho propomos combinar o modelo \"bag-of-words\" visual com novas técnicas de aprendizagem por dicionário e uma nova abordagem de estrutura espacial para características da imagem. Um extenso conjunto de experimentos foi realizado usando dois dos maiores bancos de dados de imagens faciais disponíveis (MORPH-II e FERET), alcançando resultados muito competitivos para reconhecimento de gênero e etnia, ao passo que utiliza um conjunto consideravelmente pequeno de imagens para treinamento.
42

Data-driven transform optimization for next generation multimedia applications

Sezer, Osman Gokhan 25 August 2011 (has links)
The objective of this thesis is to formulate a generic dictionary learning method with the guiding principle that states: Efficient representations lead to efficient estimations. The fundamental idea behind using transforms or dictionaries for signal representation is to exploit the regularity within data samples such that the redundancy of the representation is minimized subject to a level of fidelity. This observation translates to rate-distortion cost in compression literature, where a transform that has the lowest rate-distortion cost provides a more efficient representation than the others. In our work, rather than using as an analysis tool, the rate-distortion cost is utilized to improve the efficiency of transforms. For this, an iterative optimization method is proposed, which seeks an orthonormal transform that reduces the expected value of rate-distortion cost of an ensemble of data. Due to the generic nature of the new optimization method, one can design a set of orthonormal transforms either in the original signal domain or on the top of a transform-domain representation. To test this claim, several image codecs are designed, which use block-, lapped- and wavelet-transform structures. Significant increases in compression performances are observed compared to original methods. An extension of the proposed optimization method for video coding gave us state-of-the-art compression results with separable transforms. Also using the robust statistics, an explanation to the superiority of new design over other learning-based methods such as Karhunen-Loeve transform is provided. Finally, the new optimization method and the minimization of the "oracle" risk of diagonal estimators in signal estimation is shown to be equal. With the design of new diagonal estimators and the risk-minimization-based adaptation, a new image denoising algorithm is proposed. While these diagonal estimators denoise local image patches, by formulation the optimal fusion of overlapping local denoised estimates, the new denoising algorithm is scaled to operate on large images. In our experiments, the state-of-the-art results for transform-domain denoising are achieved.
43

Speech Enhancement Using Nonnegative MatrixFactorization and Hidden Markov Models

Mohammadiha, Nasser January 2013 (has links)
Reducing interference noise in a noisy speech recording has been a challenging task for many years yet has a variety of applications, for example, in handsfree mobile communications, in speech recognition, and in hearing aids. Traditional single-channel noise reduction schemes, such as Wiener filtering, do not work satisfactorily in the presence of non-stationary background noise. Alternatively, supervised approaches, where the noise type is known in advance, lead to higher-quality enhanced speech signals. This dissertation proposes supervised and unsupervised single-channel noise reduction algorithms. We consider two classes of methods for this purpose: approaches based on nonnegative matrix factorization (NMF) and methods based on hidden Markov models (HMM).  The contributions of this dissertation can be divided into three main (overlapping) parts. First, we propose NMF-based enhancement approaches that use temporal dependencies of the speech signals. In a standard NMF, the important temporal correlations between consecutive short-time frames are ignored. We propose both continuous and discrete state-space nonnegative dynamical models. These approaches are used to describe the dynamics of the NMF coefficients or activations. We derive optimal minimum mean squared error (MMSE) or linear MMSE estimates of the speech signal using the probabilistic formulations of NMF. Our experiments show that using temporal dynamics in the NMF-based denoising systems improves the performance greatly. Additionally, this dissertation proposes an approach to learn the noise basis matrix online from the noisy observations. This relaxes the assumption of an a-priori specified noise type and enables us to use the NMF-based denoising method in an unsupervised manner. Our experiments show that the proposed approach with online noise basis learning considerably outperforms state-of-the-art methods in different noise conditions.  Second, this thesis proposes two methods for NMF-based separation of sources with similar dictionaries. We suggest a nonnegative HMM (NHMM) for babble noise that is derived from a speech HMM. In this approach, speech and babble signals share the same basis vectors, whereas the activation of the basis vectors are different for the two signals over time. We derive an MMSE estimator for the clean speech signal using the proposed NHMM. The objective evaluations and performed subjective listening test show that the proposed babble model and the final noise reduction algorithm outperform the conventional methods noticeably. Moreover, the dissertation proposes another solution to separate a desired source from a mixture with arbitrarily low artifacts.  Third, an HMM-based algorithm to enhance the speech spectra using super-Gaussian priors is proposed. Our experiments show that speech discrete Fourier transform (DFT) coefficients have super-Gaussian rather than Gaussian distributions even if we limit the speech data to come from a specific phoneme. We derive a new MMSE estimator for the speech spectra that uses super-Gaussian priors. The results of our evaluations using the developed noise reduction algorithm support the super-Gaussianity hypothesis. / <p>QC 20130916</p>
44

Méthodes de detection robustes avec apprentissage de dictionnaires. Applications à des données hyperspectrales / Detection tests for worst-case scenarios with optimized dictionaries. Applications to hyperspectral data

Raja Suleiman, Raja Fazliza 16 December 2014 (has links)
Le travail dans cette thèse porte sur le problème de détection «one among many» où l’on doit distinguer entre un bruit sous H0 et une parmi L alternatives connues sous H1. Ce travail se concentre sur l’étude et la mise en œuvre de méthodes de détection robustes de dimension réduite utilisant des dictionnaires optimisés. Ces méthodes de détection sont associées au test de Rapport de Vraisemblance Généralisé. Les approches proposées sont principalement évaluées sur des données hyperspectrales. Dans la première partie, plusieurs sujets techniques associés à cette thèse sont présentés. La deuxième partie met en évidence les aspects théoriques et algorithmiques des méthodes proposées. Deux inconvénients liés à un grand nombre d’alternatives se posent. Dans ce cadre, nous proposons des techniques d’apprentissage de dictionnaire basées sur un critère robuste qui cherche à minimiser la perte de puissance dans le pire des cas (type minimax). Dans le cas où l’on cherche un dictionnaire à K = 1 atome, nous montrons que la solution exacte peut être obtenue. Ensuite, nous proposons dans le cas K > 1 trois algorithmes d’apprentissage minimax. Finalement, la troisième partie de ce manuscrit présente plusieurs applications. L’application principale concerne les données astrophysiques hyperspectrales de l’instrument Multi Unit Spectroscopic Explorer. Les résultats numériques montrent que les méthodes proposées sont robustes et que le cas K > 1 permet d’augmenter les performances de détection minimax par rapport au cas K = 1. D’autres applications possibles telles que l’apprentissage minimax de visages et la reconnaissance de chiffres manuscrits dans le pire cas sont présentées. / This Ph.D dissertation deals with a "one among many" detection problem, where one has to discriminate between pure noise under H0 and one among L known alternatives under H1. This work focuses on the study and implementation of robust reduced dimension detection tests using optimized dictionaries. These detection methods are associated with the Generalized Likelihood Ratio test. The proposed approaches are principally assessed on hyperspectral data. In the first part, several technical topics associated to the framework of this dissertation are presented. The second part highlights the theoretical and algorithmic aspects of the proposed methods. Two issues linked to the large number of alternatives arise in this framework. In this context, we propose dictionary learning techniques based on a robust criterion that seeks to minimize the maximum power loss (type minimax). In the case where the learned dictionary has K = 1 column, we show that the exact solution can be obtained. Then, we propose in the case K > 1 three minimax learning algorithms. Finally, the third part of this manuscript presents several applications. The principal application regards astrophysical hyperspectral data of the Multi Unit Spectroscopic Explorer instrument. Numerical results show that the proposed algorithms are robust and in the case K > 1 they allow to increase the minimax detection performances over the K = 1 case. Other possible applications such as worst-case recognition of faces and handwritten digits are presented.
45

Modélisation de la variabilité de l'activité électrique dans le cerveau / Modeling the variability of electrical activity in the brain

Hitziger, Sebastian 14 April 2015 (has links)
Cette thèse explore l'analyse de l'activité électrique du cerveau. Un défi important de ces signaux est leur grande variabilité à travers différents essais et/ou différents sujets. Nous proposons une nouvelle méthode appelée "adaptive waveform learning" (AWL). Cette méthode est suffisamment générale pour permettre la prise en compte de la variabilité empiriquement rencontrée dans les signaux neuroélectriques, mais peut être spécialisée afin de prévenir l'overfitting du bruit. La première partie de ce travail donne une introduction sur l'électrophysiologie du cerveau, présente les modalités d'enregistrement fréquemment utilisées et décrit l'état de l'art du traitement de signal neuroélectrique. La principale contribution de cette thèse consiste en 3 chapitres introduisant et évaluant la méthode AWL. Nous proposons d'abord un modèle de décomposition de signal général qui inclut explicitement différentes formes de variabilité entre les composantes de signal. Ce modèle est ensuite spécialisé pour deux applications concrètes: le traitement d'une série d'essais expérimentaux segmentés et l'apprentissage de structures répétées dans un seul signal. Deux algorithmes sont développés pour résoudre ces problèmes de décomposition. Leur implémentation efficace basée sur des techniques de minimisation alternée et de codage parcimonieux permet le traitement de grands jeux de données.Les algorithmes proposés sont évalués sur des données synthétiques et réelles contenant des pointes épileptiformes. Leurs performances sont comparées à celles de la PCA, l'ICA, et du template-matching pour la détection de pointe. / This thesis investigates the analysis of brain electrical activity. An important challenge is the presence of large variability in neuroelectrical recordings, both across different subjects and within a single subject, for example, across experimental trials. We propose a new method called adaptive waveform learning (AWL). It is general enough to include all types of relevant variability empirically found in neuroelectric recordings, but can be specialized for different concrete settings to prevent from overfitting irrelevant structures in the data. The first part of this work gives an introduction into the electrophysiology of the brain, presents frequently used recording modalities, and describes state-of-the-art methods for neuroelectrical signal processing. The main contribution of this thesis consists in three chapters introducing and evaluating the AWL method. We first provide a general signal decomposition model that explicitly includes different forms of variability across signal components. This model is then specialized for two concrete applications: processing a set of segmented experimental trials and learning repeating structures across a single recorded signal. Two algorithms are developed to solve these models. Their efficient implementation based on alternate minimization and sparse coding techniques allows the processing of large datasets. The proposed algorithms are evaluated on both synthetic data and real data containing epileptiform spikes. Their performances are compared to those of PCA, ICA, and template matching for spike detection.
46

Représentations pour la détection d’anomalies : Application aux données vibratoires des moteurs d’avions / Representations for anomaly detection : Application to aircraft engines’ vibration data

Abdel Sayed, Mina 03 July 2018 (has links)
Les mesures de vibrations sont l’une des données les plus pertinentes pour détecter des anomalies sur les moteurs. Les vibrations sont acquises sur banc d’essai en phase d’accélération et de décélération pour assurer la fiabilité du moteur à la sortie de la chaine de production. Ces données temporelles sont converties en spectrogrammes pour permettre aux experts d’effectuer une analyse visuelle de ces données et de détecter les différentes signatures atypiques. Les sources vibratoires correspondent à des raies sur les spectrogrammes. Dans cette thèse, nous avons mis en place un outil d’aide à la décision automatique pour analyser les spectrogrammes et détecter tout type de signatures atypiques, ces signatures ne proviennent pas nécessairement d’un endommagement du moteur. En premier lieu, nous avons construit une base de données numérique de spectrogrammes annotés. Il est important de noter que les signatures inusuelles sont variables en forme, intensité et position et se trouvent dans un faible nombre de données. Par conséquent, pour détecter ces signatures, nous caractérisons les comportements normaux des spectrogrammes, de manière analogue aux méthodes de détection de nouveautés, en représentant les patchs des spectrogrammes sur des dictionnaires comme les curvelets et la Non-negative matrix factorization (NMF), ainsi qu’en estimant la distribution de chaque point du spectrogramme à partir de données normales dépendamment ou non de leur voisinage. La détection des points atypiques est réalisée par comparaison des données tests au modèle de normalité estimé sur des données d’apprentissage normales. La détection des points atypiques permet la détection des signatures inusuelles composées par ces points. / Vibration measurements are one of the most relevant data for detecting anomalies in engines. Vibrations are recorded on a test bench during acceleration and deceleration phases to ensure the reliability of every flight engine at the end of the production line. These temporal signals are converted into spectrograms for experts to perform visual analysis of these data and detect any unusual signature. Vibratory signatures correspond to lines on the spectrograms. In this thesis, we have developed a decision support system to automatically analyze these spectrograms and detect any type of unusual signatures, these signatures are not necessarily originated from a damage in the engine. Firstly, we have built a numerical spectrograms database with annotated zones, it is important to note that data containing these unusual signatures are sparse and that these signatures are quite variable in shape, intensity and position. Consequently, to detect them, like in the novelty detection process, we characterize the normal behavior of the spectrograms by representing patches of the spectrograms in dictionaries such as the curvelets and the Non-negative matrix factorization (NMF) and by estimating the distribution of every points of the spectrograms with normal data depending or not of the neighborhood. The detection of the unusual points is performed by comparing test data to the model of normality estimated on learning normal data. The detection of the unusual points allows the detection of the unusual signatures composed by these points.
47

Représentations Convolutives Parcimonieuses -- application aux signaux physiologiques et interpétabilité de l'apprentissage profond / Convolutional Sparse Representations -- application to physiological signals and interpretability for Deep Learning

Moreau, Thomas 19 December 2017 (has links)
Les représentations convolutives extraient des motifs récurrents qui aident à comprendre la structure locale dans un jeu de signaux. Elles sont adaptées pour l’analyse des signaux physiologiques, qui nécessite des visualisations mettant en avant les informations pertinentes. Ces représentations sont aussi liées aux modèles d’apprentissage profond. Dans ce manuscrit, nous décrivons des avancées algorithmiques et théoriques autour de ces modèles. Nous montrons d’abord que l’Analyse du Spectre Singulier permet de calculer efficacement une représentation convolutive. Cette représentation est dense et nous décrivons une procédure automatisée pour la rendre plus interprétable. Nous proposons ensuite un algorithme asynchrone, pour accélérer le codage parcimonieux convolutif. Notre algorithme présente une accélération super-linéaire. Dans une seconde partie, nous analysons les liens entre représentations et réseaux de neurones. Nous proposons une étape d’apprentissage supplémentaire, appelée post-entraînement, qui permet d’améliorer les performances du réseau entraîné, en s’assurant que la dernière couche soit optimale. Puis nous étudions les mécanismes qui rendent possible l’accélération du codage parcimonieux avec des réseaux de neurones. Nous montrons que cela est lié à une factorisation de la matrice de Gram du dictionnaire. Finalement, nous illustrons l’intérêt de l’utilisation des représentations convolutives pour les signaux physiologiques. L’apprentissage de dictionnaire convolutif est utilisé pour résumer des signaux de marche et le mouvement du regard est soustrait de signaux oculométriques avec l’Analyse du Spectre Singulier. / Convolutional representations extract recurrent patterns which lead to the discovery of local structures in a set of signals. They are well suited to analyze physiological signals which requires interpretable representations in order to understand the relevant information. Moreover, these representations can be linked to deep learning models, as a way to bring interpretability intheir internal representations. In this disserta tion, we describe recent advances on both computational and theoretical aspects of these models.First, we show that the Singular Spectrum Analysis can be used to compute convolutional representations. This representation is dense and we describe an automatized procedure to improve its interpretability. Also, we propose an asynchronous algorithm, called DICOD, based on greedy coordinate descent, to solve convolutional sparse coding for long signals. Our algorithm has super-linear acceleration.In a second part, we focus on the link between representations and neural networks. An extra training step for deep learning, called post-training, is introduced to boost the performances of the trained network by making sure the last layer is optimal. Then, we study the mechanisms which allow to accelerate sparse coding algorithms with neural networks. We show that it is linked to afactorization of the Gram matrix of the dictionary.Finally, we illustrate the relevance of convolutional representations for physiological signals. Convolutional dictionary learning is used to summarize human walk signals and Singular Spectrum Analysis is used to remove the gaze movement in young infant’s oculometric recordings.
48

Approximate Message Passing Algorithms for Generalized Bilinear Inference

Parker, Jason Terry 14 October 2014 (has links)
No description available.
49

Acquisition compressée en IRM de diffusion / Compressive sensing in diffusion MRI

Merlet, Sylvain 11 September 2013 (has links)
Cette thèse est consacrée à l'élaboration de nouvelles méthodes d'acquisition et de traitement de données en IRM de diffusion (IRMd) afin de caractériser la diffusion des molécules d'eau dans les fibres de matière blanche à l'échelle d'un voxel. Plus particulièrement, nous travaillons sur un moyen de reconstruction précis de l'Ensemble Average Propagator (EAP), qui représente la fonction de probabilité de diffusion des molécules d'eau. Plusieurs modèles de diffusion tels que le tenseur de diffusion ou la fonction de distribution d'orientation sont très utilisés dans la communauté de l'IRMd afin de quantifier la diffusion des molécules d'eau dans le cerveau. Ces modèles sont des représentations partielles de l'EAP et ont été développés en raison du petit nombre de mesures nécessaires à leurs estimations. Cependant, il est important de pouvoir reconstruire précisément l'EAP afin d'acquérir une meilleure compréhension des mécanismes du cerveau et d'améliorer le diagnostique des troubles neurologiques. Une estimation correcte de l'EAP nécessite l'acquisition de nombreuses images de diffusion sensibilisées à des orientations différentes dans le q-space. Ceci rend son estimation trop longue pour être utilisée dans la plupart des scanners cliniques. Dans cette thèse, nous utilisons des techniques de reconstruction parcimonieuses et en particulier la technique connue sous le nom de Compressive Sensing (CS) afin d’accélérer le calcul de l'EAP. Les multiples aspects de la théorie du CS et de son application à l'IRMd sont présentés dans cette thèse. / This thesis is dedicated to the development of new acquisition and processing methods in diffusion MRI (dMRI) to characterize the diffusion of water molecules in white matter fiber bundles at the scale of a voxel. In particular, we focus our attention on the accurate recovery of the Ensemble Average Propagator (EAP), which represents the full 3D displacement of water molecule diffusion. Diffusion models such that the Diffusion Tensor or the Orientation Distribution Function (ODF) are largely used in the dMRI community in order to quantify water molecule diffusion. These models are partial EAP representations and have been developed due to the small number of measurement required for their estimations. It is thus of utmost importance to be able to accurately compute the EAP and order to acquire a better understanding of the brain mechanisms and to improve the diagnosis of neurological disorders. Estimating the full 3D EAP requires the acquisition of many diffusion images sensitized todifferent orientations in the q-space, which render the estimation of the EAP impossible in most of the clinical dMRI scanner. A surge of interest has been seen in order to decrease this time for acquisition. Some works focus on the development of new and efficient acquisition sequences. In this thesis, we use sparse coding techniques, and in particular Compressive Sensing (CS) to accelerate the computation of the EAP. Multiple aspects of the CS theory and its application to dMRI are presented in this thesis.
50

Approches bayésiennes non paramétriques et apprentissage de dictionnaire pour les problèmes inverses en traitement d'image / Bayesian nonparametrics approaches and dictionary learning for inverse problems in image processing

Dang, Hong-Phuong 01 December 2016 (has links)
L'apprentissage de dictionnaire pour la représentation parcimonieuse est bien connu dans le cadre de la résolution de problèmes inverses. Les méthodes d'optimisation et les approches paramétriques ont été particulièrement explorées. Ces méthodes rencontrent certaines limitations, notamment liées au choix de paramètres. En général, la taille de dictionnaire doit être fixée à l'avance et une connaissance des niveaux de bruit et éventuellement de parcimonie sont aussi nécessaires. Les contributions méthodologies de cette thèse concernent l'apprentissage conjoint du dictionnaire et de ces paramètres, notamment pour les problèmes inverses en traitement d'image. Nous étudions et proposons la méthode IBP-DL (Indien Buffet Process for Dictionary Learning) en utilisant une approche bayésienne non paramétrique. Une introduction sur les approches bayésiennes non paramétriques est présentée. Le processus de Dirichlet et son dérivé, le processus du restaurant chinois, ainsi que le processus Bêta et son dérivé, le processus du buffet indien, sont décrits. Le modèle proposé pour l'apprentissage de dictionnaire s'appuie sur un a priori de type Buffet Indien qui permet d'apprendre un dictionnaire de taille adaptative. Nous détaillons la méthode de Monte-Carlo proposée pour l'inférence. Le niveau de bruit et celui de la parcimonie sont aussi échantillonnés, de sorte qu'aucun réglage de paramètres n'est nécessaire en pratique. Des expériences numériques illustrent les performances de l'approche pour les problèmes du débruitage, de l'inpainting et de l'acquisition compressée. Les résultats sont comparés avec l'état de l'art.Le code source en Matlab et en C est mis à disposition. / Dictionary learning for sparse representation has been widely advocated for solving inverse problems. Optimization methods and parametric approaches towards dictionary learning have been particularly explored. These methods meet some limitations, particularly related to the choice of parameters. In general, the dictionary size is fixed in advance, and sparsity or noise level may also be needed. In this thesis, we show how to perform jointly dictionary and parameter learning, with an emphasis on image processing. We propose and study the Indian Buffet Process for Dictionary Learning (IBP-DL) method, using a bayesian nonparametric approach.A primer on bayesian nonparametrics is first presented. Dirichlet and Beta processes and their respective derivatives, the Chinese restaurant and Indian Buffet processes are described. The proposed model for dictionary learning relies on an Indian Buffet prior, which permits to learn an adaptive size dictionary. The Monte-Carlo method for inference is detailed. Noise and sparsity levels are also inferred, so that in practice no parameter tuning is required. Numerical experiments illustrate the performances of the approach in different settings: image denoising, inpainting and compressed sensing. Results are compared with state-of-the art methods is made. Matlab and C sources are available for sake of reproducibility.

Page generated in 0.1267 seconds