291 |
Dictionary learning methods for single-channel source separation / Méthodes d'apprentissage de dictionnaire pour la séparation de sources audio avec un seul capteurLefèvre, Augustin 03 October 2012 (has links)
Nous proposons dans cette thèse trois contributions principales aux méthodes d'apprentissage de dictionnaire. La première est un critère de parcimonie par groupes adapté à la NMF lorsque la mesure de distorsion choisie est la divergence d'Itakura-Saito. Dans la plupart des signaux de musique on peut trouver de longs intervalles où seulement une source est active (des soli). Le critère de parcimonie par groupe que nous proposons permet de trouver automatiquement de tels segments et d'apprendre un dictionnaire adapté à chaque source. Ces dictionnaires permettent ensuite d'effectuer la tâche de séparation dans les intervalles où les sources sont mélangés. Ces deux tâches d'identification et de séparation sont effectuées simultanément en une seule passe de l'algorithme que nous proposons. Notre deuxième contribution est un algorithme en ligne pour apprendre le dictionnaire à grande échelle, sur des signaux de plusieurs heures. L'espace mémoire requis par une NMF estimée en ligne est constant alors qu'il croit linéairement avec la taille des signaux fournis dans la version standard, ce qui est impraticable pour des signaux de plus d'une heure. Notre troisième contribution touche à l'interaction avec l'utilisateur. Pour des signaux courts, l'apprentissage aveugle est particulièrement dificile, et l'apport d'information spécifique au signal traité est indispensable. Notre contribution est similaire à l'inpainting et permet de prendre en compte des annotations temps-fréquences. Elle repose sur l'observation que la quasi-totalité du spectrogramme peut etre divisé en régions spécifiquement assignées à chaque source. Nous décrivons une extension de NMF pour prendre en compte cette information et discutons la possibilité d'inférer cette information automatiquement avec des outils d'apprentissage statistique simples. / In this thesis we provide three main contributions to blind source separation methods based on NMF. Our first contribution is a group-sparsity inducing penalty specifically tailored for Itakura-Saito NMF. In many music tracks, there are whole intervals where only one source is active at the same time. The group-sparsity penalty we propose allows to blindly indentify these intervals and learn source specific dictionaries. As a consequence, those learned dictionaries can be used to do source separation in other parts of the track were several sources are active. These two tasks of identification and separation are performed simultaneously in one run of group-sparsity Itakura-Saito NMF. Our second contribution is an online algorithm for Itakura-Saito NMF that allows to learn dictionaries on very large audio tracks. Indeed, the memory complexity of a batch implementation NMF grows linearly with the length of the recordings and becomes prohibitive for signals longer than an hour. In contrast, our online algorithm is able to learn NMF on arbitrarily long signals with limited memory usage. Our third contribution deals user informed NMF. In short mixed signals, blind learning becomes very hard and sparsity do not retrieve interpretable dictionaries. Our contribution is very similar in spirit to inpainting. It relies on the empirical fact that, when observing the spectrogram of a mixture signal, an overwhelming proportion of it consists in regions where only one source is active. We describe an extension of NMF to take into account time-frequency localized information on the absence/presence of each source. We also investigate inferring this information with tools from machine learning.
292 |
矩陣分解法與隨機效應模型法應用於電影評分資料分析比較 / Application of Matrix Factorization and Random Effect Model to analysis and comparison of movie rating data周鼎智, Chou, Ting Chih Unknown Date (has links)
推薦系統的運作仰賴使用者偏好訊息,而使用者對項目所組成的偏好空間往往十分巨大且不平衡,統計上需要相對複雜的隨機效應模型或混合效應模型來描繪這樣的變數結構,且通常需要計算效率相對低的反覆疊代過程來估計模型參數。因此Perry(2014)、Gao & Owen(2016)先後提出以動差法處理階層線性模型與兩因子隨機效應模型,是一種犧牲統計效率換取計算效率的做法。
根據試驗結果歸納出隨機效應模型法無論以什麼樣的參數估計方式,在預測準確度的表現上都不如矩陣分解法來得好;但以動差法估計參數在穩定度上與矩陣分解法的表現差不多,且在運算效率上好很多。 / The recommender system (RS) appeared to solve the problem of information overload. The demand of the RS has increased with the advancement of technology and the popularity of the Internet, and related techniques have become more diverse and mature. The statistical models widely used in various fields are also in the list of techniques.
The operation of the RS relies on user preference information, and the space of users’ preference to items is often large and unbalanced. Statistically, relatively complex random effects models or mixed effects models are needed to describe such variable structures, and often require a large number of iterations to estimate model parameters. Perry (2014), Gao & Owen (2016) proposed using the moment-based method to deal with hierarchical linear models and two-factor random effects models, respectively, expressing an idea of sacrificing statistical efficiency in exchange for computational efficiency.
In this study, we analyze and compare the random effects model, using the maximum likelihood method and the moment-based method to estimate the parameters with the matrix factorization. Through the prediction accuracy and computational efficiency to evaluate the performance of each algorithm on the MoiveLens data.
According to the experiment results, the random effects model is not as good as the matrix factorization in terms of the prediction accuracy no matter what kind of parameter estimation method is used; however, the performance of the moment-based parameter estimation is consistent with the matrix factorization in terms of the prediction stability, and much better in terms of the efficiency.
293 |
Robust low-rank and sparse decomposition for moving object detection : from matrices to tensors / Détection d’objets mobiles dans des vidéos par décomposition en rang faible et parcimonieuse : de matrices à tenseursCordolino Sobral, Andrews 11 May 2017 (has links)
Dans ce manuscrit de thèse, nous introduisons les avancées récentes sur la décomposition en matrices (et tenseurs) de rang faible et parcimonieuse ainsi que les contributions pour faire face aux principaux problèmes dans ce domaine. Nous présentons d’abord un aperçu des méthodes matricielles et tensorielles les plus récentes ainsi que ses applications sur la modélisation d’arrière-plan et la segmentation du premier plan. Ensuite, nous abordons le problème de l’initialisation du modèle de fond comme un processus de reconstruction à partir de données manquantes ou corrompues. Une nouvelle méthodologie est présentée montrant un potentiel intéressant pour l’initialisation de la modélisation du fond dans le cadre de VSI. Par la suite, nous proposons une version « double contrainte » de l’ACP robuste pour améliorer la détection de premier plan en milieu marin dans des applications de vidéo-surveillance automatisées. Nous avons aussi développé deux algorithmes incrémentaux basés sur tenseurs afin d’effectuer une séparation entre le fond et le premier plan à partir de données multidimensionnelles. Ces deux travaux abordent le problème de la décomposition de rang faible et parcimonieuse sur des tenseurs. A la fin, nous présentons un travail particulier réalisé en conjonction avec le Centre de Vision Informatique (CVC) de l’Université Autonome de Barcelone (UAB). / This thesis introduces the recent advances on decomposition into low-rank plus sparse matrices and tensors, as well as the main contributions to face the principal issues in moving object detection. First, we present an overview of the state-of-the-art methods for low-rank and sparse decomposition, as well as their application to background modeling and foreground segmentation tasks. Next, we address the problem of background model initialization as a reconstruction process from missing/corrupted data. A novel methodology is presented showing an attractive potential for background modeling initialization in video surveillance. Subsequently, we propose a double-constrained version of robust principal component analysis to improve the foreground detection in maritime environments for automated video-surveillance applications. The algorithm makes use of double constraints extracted from spatial saliency maps to enhance object foreground detection in dynamic scenes. We also developed two incremental tensor-based algorithms in order to perform background/foreground separation from multidimensional streaming data. These works address the problem of low-rank and sparse decomposition on tensors. Finally, we present a particular work realized in conjunction with the Computer Vision Center (CVC) at Autonomous University of Barcelona (UAB).
294 |
On two Random Models in Data AnalysisJames, David 12 January 2017 (has links)
No description available.
295 |
Séparation aveugle de source : de l'instantané au convolutif / Blind source separation : from instantaneous to convolutiveFeng, Fangchen 29 September 2017 (has links)
La séparation aveugle de source consiste à estimer les signaux de sources uniquement à partir des mélanges observés. Le problème peut être séparé en deux catégories en fonction du modèle de mélange: mélanges instantanés, où le retard et la réverbération (effet multi-chemin) ne sont pas pris en compte, et des mélanges convolutives qui sont plus généraux mais plus compliqués. De plus, le bruit additif au niveaux des capteurs et le réglage sous-déterminé, où il y a moins de capteurs que les sources, rendent le problème encore plus difficile.Dans cette thèse, tout d'abord, nous avons étudié le lien entre deux méthodes existantes pour les mélanges instantanés: analyse des composants indépendants (ICA) et analyse des composant parcimonieux (SCA). Nous avons ensuite proposé une nouveau formulation qui fonctionne dans les cas déterminés et sous-déterminés, avec et sans bruit. Les évaluations numériques montrent l'avantage des approches proposées.Deuxièmement, la formulation proposés est généralisés pour les mélanges convolutifs avec des signaux de parole. En intégrant un nouveau modèle d'approximation, les algorithmes proposés fonctionnent mieux que les méthodes existantes, en particulier dans des scénarios bruyant et / ou de forte réverbération.Ensuite, on prend en compte la technique de décomposition morphologique et l'utilisation de parcimonie structurée qui conduit à des algorithmes qui peuvent mieux exploiter les structures des signaux audio. De telles approches sont testées pour des mélanges convolutifs sous-déterminés dans un scénario non-aveugle.Enfin, en bénéficiant du modèle NMF (factorisation en matrice non-négative), nous avons combiné l'hypothèse de faible-rang et de parcimonie et proposé de nouvelles approches pour les mélanges convolutifs sous-déterminés. Les expériences illustrent la bonne performance des algorithmes proposés pour les signaux de musique, en particulier dans des scénarios de forte réverbération. / Blind source separation (BSS) consists of estimating the source signals only from the observed mixtures. The problem can be divided into two categories according to the mixing model: instantaneous mixtures, where delay and reverberation (multi-path effect) are not taken into account, and convolutive mixtures which are more general but more complicated. Moreover, the additive noise at the sensor level and the underdetermined setting, where there are fewer sensors than the sources, make the problem even more difficult.In this thesis, we first studied the link between two existing methods for instantaneous mixtures: independent component analysis (ICA) and sparse component analysis (SCA). We then proposed a new formulation that works in both determined and underdetermined cases, with and without noise. Numerical evaluations show the advantage of the proposed approaches.Secondly, the proposed formulation is generalized for convolutive mixtures with speech signals. By integrating a new approximation model, the proposed algorithms work better than existing methods, especially in noisy and/or high reverberation scenarios.Then, we take into account the technique of morphological decomposition and the use of structured sparsity which leads to algorithms that can better exploit the structures of audio signals. Such approaches are tested for underdetermined convolutive mixtures in a non-blind scenario.At last, being benefited from the NMF model, we combined the low-rank and sparsity assumption and proposed new approaches for under-determined convolutive mixtures. The experiments illustrate the good performance of the proposed algorithms for music signals, especially in strong reverberation scenarios.
296 |
Méthodes informées de factorisation matricielle non négative : Application à l'identification de sources de particules industrielles / Informed methods of Non-negative Matrix Factorization. A study of industrial source identificationLimem, Abdelhakim 21 November 2014 (has links)
Les méthodes de NMF permettent la factorisation aveugle d'une matrice non-négative X en le produit X = G . F de deux matrices non-négatives G et F. Bien que ces approches sont étudiées avec un grand intêret par la communauté scientifique, elles souffrent bien souvent d'un manque de robustesse vis à vis des données et des conditions initiales et peuvent présenter des solutions multiples. Dans cette optique et afin de réduire l'espace des solutions admissibles, les travaux de cette thèse ont pour objectif d'informer la NMF, positionnant ainsi nos travaux entre la régression et les factorisations aveugles classiques. Par ailleurs, des fonctions de coûts paramétriques appelées divergences αβ sont utilisées, permettant de tolérer la présence d'aberrations dans les données. Nous introduisons trois types de contraintes recherchées sur la matrice F à savoir (i) la connaissance exacte ou bornée de certains de ses éléments et (ii) la somme à 1 de chacune de ses lignes. Des règles de mise à jour permettant de faire cohabiter l'ensemble de ces contraintes par des méthodes multiplicatives mixées à des projections sont proposées. D'autre part, nous proposons de contraindre la structure de la matrice G par l'usage d'un modèle physique susceptible de distinguer les sources présentes au niveau du récepteur. Une application d'identification de sources de particules en suspension dans l'air, autour d'une région industrielle du littoral nord de la France, a permis de tester l'intérêt de l'approche. À travers une série de tests sur des données synthétiques et réelles, nous montrons l'apport des différentes informations pour rendre les résultats de la factorisation plus cohérents du point de vue de l'interprétation physique et moins dépendants de l'initialisation. / NMF methods aim to factorize a non negative observation matrix X as the product X = G.F between two non-negative matrices G and F. Although these approaches have been studied with great interest in the scientific community, they often suffer from a lack of robustness to data and to initial conditions, and provide multiple solutions. To this end and in order to reduce the space of admissible solutions, the work proposed in this thesis aims to inform NMF, thus placing our work in between regression and classic blind factorization. In addition, some cost functions called parametric αβ-divergences are used, so that the resulting NMF methods are robust to outliers in the data. Three types of constraints are introduced on the matrix F, i. e., (i) the "exact" or "bounded" knowledge on some components, and (ii) the sum to 1 of each line of F. Update rules are proposed so that all these constraints are taken into account by mixing multiplicative methods with projection. Moreover, we propose to constrain the structure of the matrix G by the use of a physical model, in order to discern sources which are influent at the receiver. The considered application - consisting of source identification of particulate matter in the air around an insdustrial area on the French northern coast - showed the interest of the proposed methods. Through a series of experiments on both synthetic and real data, we show the contribution of different informations to make the factorization results more consistent in terms of physical interpretation and less dependent of the initialization
297 |
A GPU Accelerated Tensor Spectral Method for Subspace ClusteringPai, Nithish January 2016 (has links) (PDF)
In this thesis we consider the problem of clustering the data lying in a union of subspaces using spectral methods. Though the data generated may have high dimensionality, in many of the applications, such as motion segmentation and illumination invariant face clustering, the data resides in a union of subspaces having small dimensions. Furthermore, for a number of classification and inference problems, it is often useful to identify these subspaces and work with data in this smaller dimensional manifold. If the observations in each cluster were to be distributed around a centric, applying spectral clustering on an a nifty matrix built using distance based similarity measures between the data points have been used successfully to solve the problem. But it has been observed that using such pair-wise distance based measure between the data points to construct a similarity matrix is not sufficient to solve the subspace clustering problem. Hence, a major challenge is to end a similarity measure that can capture the information of the subspace the data lies in.
This is the motivation to develop methods that use an affinity tensor by calculating similarity between multiple data points. One can then use spectral methods on these tensors to solve the subspace clustering problem. In order to keep the algorithm computationally feasible, one can employ column sampling strategies. However, the computational costs for performing the tensor factorization increases very quickly with increase in sampling rate. Fortunately, the advances in GPU computing has made it possible to perform many linear algebra operations several order of magnitudes faster than traditional CPU and multicourse computing.
In this work, we develop parallel algorithms for subspace clustering on a GPU com-putting environment. We show that this gives us a significant speedup over the implementations on the CPU, which allows us to sample a larger fraction of the tensor and thereby achieve better accuracies. We empirically analyze the performance of these algorithms on a number of synthetically generated subspaces con gyrations. We ally demonstrate the effectiveness of these algorithms on the motion segmentation, handwritten digit clustering and illumination invariant face clustering and show that the performance of these algorithms are comparable with the state of the art approaches.
298 |
Time series recovery and prediction with regression-enhanced nonnegative matrix factorization applied to electricity consumption / Reconstitution et prédiction de séries temporelles avec la factorisation de matrice nonnégative augmentée de régression appliquée à la consommation électriqueMei, Jiali 20 December 2017 (has links)
Nous sommes intéressé par la reconstitution et la prédiction des séries temporelles multivariées à partir des données partiellement observées et/ou agrégées.La motivation du problème vient des applications dans la gestion du réseau électrique.Nous envisageons des outils capables de résoudre le problème d'estimation de plusieurs domaines.Après investiguer le krigeage, qui est une méthode de la litérature de la statistique spatio-temporelle, et une méthode hybride basée sur le clustering des individus, nous proposons un cadre général de reconstitution et de prédiction basé sur la factorisation de matrice nonnégative.Ce cadre prend en compte de manière intrinsèque la corrélation entre les séries temporelles pour réduire drastiquement la dimension de l'espace de paramètres.Une fois que le problématique est formalisé dans ce cadre, nous proposons deux extensions par rapport à l'approche standard.La première extension prend en compte l'autocorrélation temporelle des individus.Cette information supplémentaire permet d'améliorer la précision de la reconstitution.La deuxième extension ajoute une composante de régression dans la factorisation de matrice nonnégative.Celle-ci nous permet d'utiliser dans l'estimation du modèle des variables exogènes liées avec la consommation électrique, ainsi de produire des facteurs plus interprétatbles, et aussi améliorer la reconstitution.De plus, cette méthod nous donne la possibilité d'utiliser la factorisation de matrice nonnégative pour produire des prédictions.Sur le côté théorique, nous nous intéressons à l'identifiabilité du modèle, ainsi qu'à la propriété de la convergence des algorithmes que nous proposons.La performance des méthodes proposées en reconstitution et en prédiction est testé sur plusieurs jeux de données de consommation électrique à niveaux d'agrégation différents. / We are interested in the recovery and prediction of multiple time series from partially observed and/or aggregate data.Motivated by applications in electricity network management, we investigate tools from multiple fields that are able to deal with such data issues.After examining kriging from spatio-temporal statistics and a hybrid method based on the clustering of individuals, we propose a general framework based on nonnegative matrix factorization.This frameworks takes advantage of the intrisic correlation between the multivariate time series to greatly reduce the dimension of the parameter space.Once the estimation problem is formalized in the nonnegative matrix factorization framework, two extensions are proposed to improve the standard approach.The first extension takes into account the individual temporal autocorrelation of each of the time series.This increases the precision of the time series recovery.The second extension adds a regression layer into nonnegative matrix factorization.This allows exogenous variables that are known to be linked with electricity consumption to be used in estimation, hence makes the factors obtained by the method to be more interpretable, and also increases the recovery precision.Moreover, this method makes the method applicable to prediction.We produce a theoretical analysis on the framework which concerns the identifiability of the model and the convergence of the algorithms that are proposed.The performance of proposed methods to recover and forecast time series is tested on several multivariate electricity consumption datasets at different aggregation level.
299 |
Méthodes et algorithmes avancés pour l'imagerie astronomique de haute précision / Advanced methods and algorithm for high precision astronomical imagingNgolè Mboula, Fred Maurice 18 October 2016 (has links)
L'un des challenges majeurs de la cosmologie moderne réside en la nature même de la matière et de l'énergie noire. La matière noire peut être directement tracée à travers son effet gravitationnel sur les formes des galaxies. La mission Euclid de l'Agence Spatiale Européenne fournira précisément des données à cette fin. L'exploitation de telles données requiert une modélisation précise de la Fonction d'Étalement du Point (FEP) de l'instrument d'observation, ce qui constitue l'objectif de cette thèse.Nous avons développé des méthodes non-paramétriques permettant d'estimer de manière fiable la FEP sur l'ensemble du champ de vue d'un instrument, à partir d'images non résolues d'étoiles, ceci en tenant compte du bruit, d'un possible sous-échantillonnage des observations et de la variabilité spatiale de la FEP. Ce travail tire avantage d'outils et concepts mathématiques modernes parmi lesquelles la parcimonie. Une extension importante de ce travail serait de prendre en compte la dépendance en longueur d'onde de la FEP. / One of the biggest challenges of modern cosmology is to gain a more precise knowledge of the dark energy and the dark matter nature. Fortunately, the dark matter can be traced directly through its gravitational effect on galaxies shapes. The European Spatial Agency Euclid mission will precisely provide data for such a purpose. A critical step is analyzing these data will be to accurately model the instrument Point Spread Function (PSF), which the focus of this thesis.We developed non parametric methods to reliably estimate the PSFs across an instrument field-of-view, based on unresolved stars images and accounting for noise, undersampling and PSFs spatial variability. At the core of these contributions, modern mathematical tools and concepts such as sparsity. An important extension of this work will be to account for the PSFs wavelength dependency.
300 |
Hardware / Algorithm Integration for Pharmaceutical AnalysisCasey J Smith (8755572) 29 April 2020 (has links)
New experimental strategies and algorithmic approaches were devised and tested to improve the analysis of pharmaceutically relevant materials. These new methods were developed to address key bottlenecks in the design of amorphous solid dispersions for the delivery of low-solubility active pharmaceutical ingredients in the final dosage forms exhibiting high bioavailability. <br>
Page generated in 0.1238 seconds