Global ETD Search

51	Dictionary learning methods for single-channel source separation / Méthodes d'apprentissage de dictionnaire pour la séparation de sources audio avec un seul capteur Lefèvre, Augustin 03 October 2012 (has links) Nous proposons dans cette thèse trois contributions principales aux méthodes d'apprentissage de dictionnaire. La première est un critère de parcimonie par groupes adapté à la NMF lorsque la mesure de distorsion choisie est la divergence d'Itakura-Saito. Dans la plupart des signaux de musique on peut trouver de longs intervalles où seulement une source est active (des soli). Le critère de parcimonie par groupe que nous proposons permet de trouver automatiquement de tels segments et d'apprendre un dictionnaire adapté à chaque source. Ces dictionnaires permettent ensuite d'effectuer la tâche de séparation dans les intervalles où les sources sont mélangés. Ces deux tâches d'identification et de séparation sont effectuées simultanément en une seule passe de l'algorithme que nous proposons. Notre deuxième contribution est un algorithme en ligne pour apprendre le dictionnaire à grande échelle, sur des signaux de plusieurs heures. L'espace mémoire requis par une NMF estimée en ligne est constant alors qu'il croit linéairement avec la taille des signaux fournis dans la version standard, ce qui est impraticable pour des signaux de plus d'une heure. Notre troisième contribution touche à l'interaction avec l'utilisateur. Pour des signaux courts, l'apprentissage aveugle est particulièrement dificile, et l'apport d'information spécifique au signal traité est indispensable. Notre contribution est similaire à l'inpainting et permet de prendre en compte des annotations temps-fréquences. Elle repose sur l'observation que la quasi-totalité du spectrogramme peut etre divisé en régions spécifiquement assignées à chaque source. Nous décrivons une extension de NMF pour prendre en compte cette information et discutons la possibilité d'inférer cette information automatiquement avec des outils d'apprentissage statistique simples. / In this thesis we provide three main contributions to blind source separation methods based on NMF. Our first contribution is a group-sparsity inducing penalty specifically tailored for Itakura-Saito NMF. In many music tracks, there are whole intervals where only one source is active at the same time. The group-sparsity penalty we propose allows to blindly indentify these intervals and learn source specific dictionaries. As a consequence, those learned dictionaries can be used to do source separation in other parts of the track were several sources are active. These two tasks of identification and separation are performed simultaneously in one run of group-sparsity Itakura-Saito NMF. Our second contribution is an online algorithm for Itakura-Saito NMF that allows to learn dictionaries on very large audio tracks. Indeed, the memory complexity of a batch implementation NMF grows linearly with the length of the recordings and becomes prohibitive for signals longer than an hour. In contrast, our online algorithm is able to learn NMF on arbitrarily long signals with limited memory usage. Our third contribution deals user informed NMF. In short mixed signals, blind learning becomes very hard and sparsity do not retrieve interpretable dictionaries. Our contribution is very similar in spirit to inpainting. It relies on the empirical fact that, when observing the spectrogram of a mixture signal, an overwhelming proportion of it consists in regions where only one source is active. We describe an extension of NMF to take into account time-frequency localized information on the absence/presence of each source. We also investigate inferring this information with tools from machine learning. Apprentissage statistique Factorisation en matrices positives Normes structurées Algorithme incrémental Séparation de sources informée Informed source separation Incremental algorithms Structured norms Nonnegative matrix factorization
52	Analyse de scène sonore multi-capteurs : un front-end temps-réel pour la manipulation de scène / Multi-sensor sound scene analysis : a real-time front-end for scene manipulation Baque, Mathieu 09 June 2017 (has links) La thèse s’inscrit dans un contexte d’essor de l’audio spatialisé (5.1, Dolby Atmos...). Parmi les formats audio 3D existants, l’ambisonie permet une représentation spatiale homogène du champ sonore et se prête naturellement à des manipulations : rotations, distorsion du champ sonore. L’objectif de cette thèse est de fournir un outil d’analyse et de manipulation de contenus audio (essentiellement vocaux) au format ambisonique. Un fonctionnement temps-réel et en conditions acoustiques réelles sont les principales contraintes à respecter. L’algorithme mis au point est basé sur une analyse en composantes indépendantes (ACI) appliquée trame à trame qui permet de décomposer le champ acoustique en un ensemble de contributions, correspondant à des sources (champ direct) ou à de la réverbération. Une étape de classification bayésienne, appliquée aux composantes extraites, permet alors l’identification et le dénombrement des sources sonores contenues dans le mélange. Les sources identifiées sont localisées grâce à la matrice de mélange obtenue par ACI, pour fournir une cartographie de la scène sonore. Une étude exhaustive des performances est menée sur des contenus réels en fonction de plusieurs paramètres : nombre de sources, environnement acoustique, longueur des trames, ou ordre ambisonique utilisé. Des résultats fiables en terme de localisation et de comptage de sources ont été obtenus pour des trames de quelques centaines de ms. L’algorithme, exploité comme prétraitement dans un prototype d’assistant vocal domestique, permet d’améliorer significativement les performances de reconnaissance, notamment en prise de son lointaine et en présence de sources interférentes. / The context of this thesis is the development of spatialized audio (5.1 contents, Dolby Atmos...) and particularly of 3D audio. Among the existing 3D audio formats, Ambisonics and Higher Order Ambisonics (HOA) allow a homogeneous spatial representation of a sound field and allows basics manipulations, like rotations or distorsions. The aim of the thesis is to provides efficient tools for ambisonics and HOA sound scene analyse and manipulations. A real-time implementation and robustness to reverberation are the main constraints to deal with. The implemented algorithm is based on a frame-by-frame Independent Component Analysis (ICA), wich decomposes the sound field into a set of acoustic contributions. Then a bayesian classification step is applied to the extracted components to identify the real sources and the residual reverberation. Direction of arrival of the sources are extracted from the mixing matrix estimated by ICA, according to the ambisonic formalism, and a real-time cartography of the sound scene is obtained. Performances have been evaluated in different acoustic environnements to assess the influence of several parameters such as the ambisonic order, the frame length or the number of sources. Accurate results in terms of source localization and source counting have been obtained for frame lengths of a few hundred milliseconds. The algorithm is exploited as a pre-processing step for a speech recognition prototype and allows a significant increasing of the recognition results, in far field conditions and in the presence of noise and interferent sources. Acoustique Audio 3D Séparation de sources Analyse de scène Ambisonie HOA Analyse en composantes indépendantes Déréverbération Acoustics Source separation Scene analysis Ambisonics Independent component analysis Dereverberation 620.21
53	Séparation aveugle de source : de l'instantané au convolutif / Blind source separation : from instantaneous to convolutive Feng, Fangchen 29 September 2017 (has links) La séparation aveugle de source consiste à estimer les signaux de sources uniquement à partir des mélanges observés. Le problème peut être séparé en deux catégories en fonction du modèle de mélange: mélanges instantanés, où le retard et la réverbération (effet multi-chemin) ne sont pas pris en compte, et des mélanges convolutives qui sont plus généraux mais plus compliqués. De plus, le bruit additif au niveaux des capteurs et le réglage sous-déterminé, où il y a moins de capteurs que les sources, rendent le problème encore plus difficile.Dans cette thèse, tout d'abord, nous avons étudié le lien entre deux méthodes existantes pour les mélanges instantanés: analyse des composants indépendants (ICA) et analyse des composant parcimonieux (SCA). Nous avons ensuite proposé une nouveau formulation qui fonctionne dans les cas déterminés et sous-déterminés, avec et sans bruit. Les évaluations numériques montrent l'avantage des approches proposées.Deuxièmement, la formulation proposés est généralisés pour les mélanges convolutifs avec des signaux de parole. En intégrant un nouveau modèle d'approximation, les algorithmes proposés fonctionnent mieux que les méthodes existantes, en particulier dans des scénarios bruyant et / ou de forte réverbération.Ensuite, on prend en compte la technique de décomposition morphologique et l'utilisation de parcimonie structurée qui conduit à des algorithmes qui peuvent mieux exploiter les structures des signaux audio. De telles approches sont testées pour des mélanges convolutifs sous-déterminés dans un scénario non-aveugle.Enfin, en bénéficiant du modèle NMF (factorisation en matrice non-négative), nous avons combiné l'hypothèse de faible-rang et de parcimonie et proposé de nouvelles approches pour les mélanges convolutifs sous-déterminés. Les expériences illustrent la bonne performance des algorithmes proposés pour les signaux de musique, en particulier dans des scénarios de forte réverbération. / Blind source separation (BSS) consists of estimating the source signals only from the observed mixtures. The problem can be divided into two categories according to the mixing model: instantaneous mixtures, where delay and reverberation (multi-path effect) are not taken into account, and convolutive mixtures which are more general but more complicated. Moreover, the additive noise at the sensor level and the underdetermined setting, where there are fewer sensors than the sources, make the problem even more difficult.In this thesis, we first studied the link between two existing methods for instantaneous mixtures: independent component analysis (ICA) and sparse component analysis (SCA). We then proposed a new formulation that works in both determined and underdetermined cases, with and without noise. Numerical evaluations show the advantage of the proposed approaches.Secondly, the proposed formulation is generalized for convolutive mixtures with speech signals. By integrating a new approximation model, the proposed algorithms work better than existing methods, especially in noisy and/or high reverberation scenarios.Then, we take into account the technique of morphological decomposition and the use of structured sparsity which leads to algorithms that can better exploit the structures of audio signals. Such approaches are tested for underdetermined convolutive mixtures in a non-blind scenario.At last, being benefited from the NMF model, we combined the low-rank and sparsity assumption and proposed new approaches for under-determined convolutive mixtures. The experiments illustrate the good performance of the proposed algorithms for music signals, especially in strong reverberation scenarios. Séparation de sources Représentation parcimonieuse Transformée de Gabor Factorisation en matrices non-négatives Problèmes inverses Optimisation Source separation Sparse representation Gabor transform Nonnegative matrix factorization Inverse problem Optimization
54	Nonnegative joint diagonalization by congruence for semi-nonnegative independent component analysis / Diagonalisation conjointe non négative par congruence pour l'analyse en composantes indépendantes semi-non négative Wang, Lu 10 November 2014 (has links) La Diagonalisation Conjointe par Congruence (DCC) d'un ensemble de matrices apparaît dans nombres de problèmes de traitement du signal, tels qu'en Analyse en Composantes Indépendantes (ACI). Les développements récents en ACI sous contrainte de non négativité de la matrice de mélange, nommée ACI semi-non négative, permettent de tirer profit d'une modélisation physique réaliste des phénomènes observés tels qu'en audio, en traitement d'image ou en ingénierie biomédicale. Par conséquent, durant cette thèse, l'objectif principal était non seulement de concevoir et développer des algorithmes d'ACI semi-non négative basés sur de nouvelles méthodes de DCC non négative où la matrice de passage recherchée est non négative, mais également d'illustrer leur intérêt dans le cadre d'applications pratiques de séparation de sources. Les algorithmes de DCC non négative proposés exploitent respectivement deux stratégies fondamentales d'optimisation. La première famille d'algorithmes comprend cinq méthodes semi-algébriques, reposant sur la méthode de Jacobi. Cette famille prend en compte la non négativité par un changement de variable carré, permettant ainsi de se ramener à un problème d'optimisation sans contrainte. L'idée générale de la méthode de Jacobi est de i) factoriser la matrice recherchée comme un produit de matrices élémentaires, chacune n'étant définie que par un seul paramètre, puis ii) d'estimer ces matrices élémentaires l'une après l'autre dans un ordre spécifique. La deuxième famille compte un seul algorithme, qui utilise la méthode des directions alternées. Un tel algorithme est obtenu en minimisant successivement le Lagrangien augmenté par rapport aux variables et aux multiplicateurs. Les résultats expérimentaux sur les matrices simulées montrent un gain en performance des algorithmes proposés par comparaison aux méthodes DCC classiques, qui n'exploitent pas la contrainte de non négativité. Il semble que nos méthodes peuvent fournir une meilleure précision d'estimation en particulier dans des contextes difficiles, par exemple, pour de faibles valeurs de rapport signal sur bruit, pour un petit nombre de matrices à diagonaliser et pour des niveaux élevés de cohérence de la matrice de passage. Nous avons ensuite montré l'intérêt de nos approches pour la résolution de problèmes pratiques de séparation aveugle de sources. Pour n'en citer que quelques-uns, nous sommes intéressés à i) l'analyse de composés chimiques en spectroscopie par résonance magnétique, ii) l'identification des profils spectraux des harmoniques (par exemple, de notes de piano) d'un morceau de musique mono-canal par décomposition du spectrogramme, iii) l'élimination partielle du texte se trouvant au verso d'une feuille de papier fin. Ces applications démontrent la validité et l'intérêt de nos algorithmes en comparaison des méthodes classique de séparation aveugle de source. / The Joint Diagonalization of a set of matrices by Congruence (JDC) appears in a number of signal processing problems, such as in Independent Component Analysis (ICA). Recent developments in ICA under the nonnegativity constraint of the mixing matrix, known as semi-nonnegative ICA, allow us to obtain a more realistic representation of some real-world phenomena, such as audios, images and biomedical signals. Consequently, during this thesis, the main objective was not only to design and develop semi-nonnegative ICA methods based on novel nonnegative JDC algorithms, but also to illustrate their interest in applications involving Blind Source Separation (BSS). The proposed nonnegative JDC algorithms belong to two fundamental strategies of optimization. The first family containing five algorithms is based on the Jacobi-like optimization. The nonnegativity constraint is imposed by means of a square change of variable, leading to an unconstrained problem. The general idea of the Jacobi-like optimization is to factorize the matrix variable as a product of a sequence of elementary matrices which is defined by only one parameter, then to estimate these elementary matrices one by one in a specific order. The second family containing one algorithm is based on the alternating direction method of multipliers. Such an algorithm is derived by successively minimizing the augmented Lagrangian function of the cost function with respect to the variables and the multipliers. Experimental results on simulated matrices show a better performance of the proposed algorithms in comparison with several classical JDC methods, which do not use the nonnegativity as constraint prior. It appears that our methods can achieve a better estimation accuracy particularly in difficult contexts, for example, for a low signal-to-noise ratio, a small number of input matrices and a high coherence level of matrix. Then we show the interest of our approaches in solving real-life problems. To name a few, we are interested in i) the analysis of the chemical compounds in the magnetic resonance spectroscopy, ii) the identification of the harmonically fixed spectral profiles (such as piano notes) of a piece of signal-channel music record by decomposing its spectrogram, iii) the partial removal of the show-through effect of digital images, where the show-through effect were caused by scanning a semi-transparent paper. These applications demonstrate the validity and improvement of our algorithms, comparing with several state-of-the-art BSS methods. Optimisation mathématique Algorithme de Jacobi Génie biomédical Mathematical optimization Jacobi algorithm Biomedical engineering Nuclear magnetic resonance spectroscopy
55	Méthodes variationnelles pour l’imagerie en résonance paramagnétique électronique / Variational methods for electron paramagnetic resonance imaging Kerebel, Maud 24 October 2017 (has links) La résonance paramagnétique électronique est une technologie permettant de localiser et de caractériser les radicaux libres, fondée sur la propriété de résonance des électrons libres lorsqu’ils sont placés dans un champ magnétique spécifique. Afin d’augmenter la qualité des reconstructions obtenues par des dispositifs d’imagerie de résonance paramagnétique électronique, ce travail propose l’utilisation de méthodes variationnelles pour inverser le modèle de formation des images, qui combine une convolution avec une transformée de Radon. La fonctionnelle proposée repose sur la norme L2 pour le terme d’attache aux données, et sur la variation totale et une seminorme de Besov pour le terme de régularisation. La seminorme de Besov est implémentée grâce à la transformée en curvelets et à la norme L1 qui permet d’appliquer un critère de parcimonie. Les propriétés de ces termes de régularisation permettent de reconstruire des images à la fois pertinentes dans les zones où l’acquisition des données est insuffisante, notamment sur les bords, et suffisamment détaillées dans les zones où l’échantillon est texturé. L’augmentation de la qualité des images reconstruites permet d’envisager des acquisitions sur des durées réduites, ouvrant la voie à des expériences in vivo ou cliniques actuellement limitées par des durées d’acquisition de l’ordre de plusieurs dizaines de minutes. Les algorithmes de minimisation primal-dual de Chambolle-Pock et FISTA sont utilisés pour résoudre les problèmes d’optimisation que pose l’utilisation de méthodes variationnelles. L’étude détaillée du modèle direct permet de mettre en évidence une structure de Toeplitz, dont les propriétés sont utilisées pour résoudre le problème inverse en évitant le recours à la rétroprojection filtrée ou aux transformées de Fourier non-uniformes. Des simulations numériques sont menées sur le fantôme de Shepp-Logan, et valident le modèle proposé qui surpasse à la fois visuellement et quantitativement les techniques de reconstruction couramment utilisées, combinant déconvolution et rétroprojection filtrée. Des reconstructions menées sur des acquisitions réelles, consistant en un échantillon papier d’une encre paramagnétique et en une phalange distale irradiée, valident par l’expérience le choix des fonctionnelles utilisées pour inverser le modèle direct. La grande souplesse de la méthode variationnelle proposée permet d’adapter la fonctionnelle au problème de la séparation de sources qui se pose lorsque deux molécules paramagnétiques différentes sont présentes au sein d’un même échantillon. La fonctionnelle proposée permet de séparer les deux molécules dans le cadre d’une acquisition classique d’imagerie de résonance paramagnétique électronique, ce qui n’était possible jusqu’alors que sur des acquisitions dites hyperspectrales beaucoup plus gourmandes en temps. / Spatial electron paramagnetic resonance imaging (EPRI) is a recent method to localize and characterize free radicals in vivo or in vitro, leading to applications in material and biomedical sciences. To improve the quality of the reconstruction obtained by EPRI, a variational method is proposed to inverse the image formation model. It is based on a least-square data-fidelity term and the total variation and Besov seminorm for the regularization term. To fully comprehend the Besov seminorm, an implementation using the curvelet transform and the L1 norm enforcing the sparsity is proposed. It allows our model to reconstruct both image where acquisition information are missing and image with details in textured areas, thus opening possibilities to reduce acquisition times. To implement the minimization problem using the algorithm developed by Chambolle and Pock, a thorough analysis of the direct model is undertaken and the latter is inverted while avoiding the use of filtered backprojection (FBP) and of non-uniform Fourier transform. Numerical experiments are carried out on simulated data, where the proposed model outperforms both visually and quantitatively the classical model using deconvolution and FBP. Improved reconstructions on real data, acquired on an irradiated distal phalanx, were successfully obtained. Due to its great versatility, the variational approach is easily extended to the source separation problem which happens when two different paramagnetic species are present in the sample. The objective function is consequently modified, and a classic EPRI acquisition yields two images, one for each species. Until now, source separation could only be applied to hyperspectral EPRI data, much more costly in acquisition time. Résonance paramagnétique électronique Méthodes variationnelles Transformée de Radon Variation totale Curvelets Imagerie Séparation de sources Electron paramagnetic resonance Variational method Radon transform Total variation Curvelets EPR imaging Source separation 538.364
56	Time series recovery and prediction with regression-enhanced nonnegative matrix factorization applied to electricity consumption / Reconstitution et prédiction de séries temporelles avec la factorisation de matrice nonnégative augmentée de régression appliquée à la consommation électrique Mei, Jiali 20 December 2017 (has links) Nous sommes intéressé par la reconstitution et la prédiction des séries temporelles multivariées à partir des données partiellement observées et/ou agrégées.La motivation du problème vient des applications dans la gestion du réseau électrique.Nous envisageons des outils capables de résoudre le problème d'estimation de plusieurs domaines.Après investiguer le krigeage, qui est une méthode de la litérature de la statistique spatio-temporelle, et une méthode hybride basée sur le clustering des individus, nous proposons un cadre général de reconstitution et de prédiction basé sur la factorisation de matrice nonnégative.Ce cadre prend en compte de manière intrinsèque la corrélation entre les séries temporelles pour réduire drastiquement la dimension de l'espace de paramètres.Une fois que le problématique est formalisé dans ce cadre, nous proposons deux extensions par rapport à l'approche standard.La première extension prend en compte l'autocorrélation temporelle des individus.Cette information supplémentaire permet d'améliorer la précision de la reconstitution.La deuxième extension ajoute une composante de régression dans la factorisation de matrice nonnégative.Celle-ci nous permet d'utiliser dans l'estimation du modèle des variables exogènes liées avec la consommation électrique, ainsi de produire des facteurs plus interprétatbles, et aussi améliorer la reconstitution.De plus, cette méthod nous donne la possibilité d'utiliser la factorisation de matrice nonnégative pour produire des prédictions.Sur le côté théorique, nous nous intéressons à l'identifiabilité du modèle, ainsi qu'à la propriété de la convergence des algorithmes que nous proposons.La performance des méthodes proposées en reconstitution et en prédiction est testé sur plusieurs jeux de données de consommation électrique à niveaux d'agrégation différents. / We are interested in the recovery and prediction of multiple time series from partially observed and/or aggregate data.Motivated by applications in electricity network management, we investigate tools from multiple fields that are able to deal with such data issues.After examining kriging from spatio-temporal statistics and a hybrid method based on the clustering of individuals, we propose a general framework based on nonnegative matrix factorization.This frameworks takes advantage of the intrisic correlation between the multivariate time series to greatly reduce the dimension of the parameter space.Once the estimation problem is formalized in the nonnegative matrix factorization framework, two extensions are proposed to improve the standard approach.The first extension takes into account the individual temporal autocorrelation of each of the time series.This increases the precision of the time series recovery.The second extension adds a regression layer into nonnegative matrix factorization.This allows exogenous variables that are known to be linked with electricity consumption to be used in estimation, hence makes the factors obtained by the method to be more interpretable, and also increases the recovery precision.Moreover, this method makes the method applicable to prediction.We produce a theoretical analysis on the framework which concerns the identifiability of the model and the convergence of the algorithms that are proposed.The performance of proposed methods to recover and forecast time series is tested on several multivariate electricity consumption datasets at different aggregation level. Analyse spatiale Séries chronologiques Consommation électrique Séparation de sources Factorisation de matrice nonnégative Spatial analysis Times series Electricity consumption Source separation Nonnegative matrix factorization
57	Learning representations for robust audio-visual scene analysis / Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles Parekh, Sanjeel 18 March 2019 (has links) L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles. / The goal of this thesis is to design algorithms that enable robust detection of objectsand events in videos through joint audio-visual analysis. This is motivated by humans’remarkable ability to meaningfully integrate auditory and visual characteristics forperception in noisy scenarios. To this end, we identify two kinds of natural associationsbetween the modalities in recordings made using a single microphone and camera,namely motion-audio correlation and appearance-audio co-occurrence.For the former, we use audio source separation as the primary application andpropose two novel methods within the popular non-negative matrix factorizationframework. The central idea is to utilize the temporal correlation between audio andmotion for objects/actions where the sound-producing motion is visible. The firstproposed method focuses on soft coupling between audio and motion representationscapturing temporal variations, while the second is based on cross-modal regression.We segregate several challenging audio mixtures of string instruments into theirconstituent sources using these approaches.To identify and extract many commonly encountered objects, we leverageappearance–audio co-occurrence in large datasets. This complementary associationmechanism is particularly useful for objects where motion-based correlations are notvisible or available. The problem is dealt with in a weakly-supervised setting whereinwe design a representation learning framework for robust AV event classification,visual object localization, audio event detection and source separation.We extensively test the proposed ideas on publicly available datasets. The experimentsdemonstrate several intuitive multimodal phenomena that humans utilize on aregular basis for robust scene understanding. Apprentissage statistique Traitement du signal audio Vision par ordinateur Analyse en variables latentes Séparation de sources Statistical learning Audio signal processing Computer vision Latent variable analysis Source separation
58	Contributions à la localisation et à la séparation de sources / Contributions to source localization and separation Boudjellal, Abdelouahab 17 September 2015 (has links) Les premières recherches en détection, localisation et séparation de signaux remontent au début du 20ème siècle. Ces recherches sont d’actualité encore aujourd’hui, notamment du fait de la croissance rapide des systèmes de communications constatée ces deux dernières décennies. Par ailleurs, la littérature du domaine consacre très peu d’études relatives à certains contextes jugés difficiles dont certains sont traités dans cette thèse. Ce travail porte sur la localisation de signaux par détection des temps d’arrivée ou estimation des directions d’arrivée et sur la séparation de sources dépendantes ou à module constant. L’idée principale est de tirer profit de certaines informations a priori disponibles sur les signaux sources telles que la parcimonie, la cyclostationarité, la non-circularité, le module constant, la structure autoregressive et les séquences pilote dans un contexte coopératif. Une première partie détaille trois contributions : (i) un nouveau détecteur pour l’estimation des temps d’arrivée basé sur la minimisation de la probabilité d’erreur ; (ii) une estimation améliorée de la puissance du bruit, basée sur les statistiques d’ordre ; (iii) une quantification de la précision et de la résolution de l’estimation des directions d’arrivée au regard de certains a priori considérés sur les sources. Une deuxième partie est consacrée à la séparation de sources exploitant différentes informations sur celles-ci : (i) la séparation de signaux de communication à module constant ; (ii) la séparation de sources dépendantes connaissant la nature de la dépendance et (iii) la séparation de sources autorégressives dépendantes connaissant la structure autorégressive. / Signal detection, localization, and separation problems date back to the beginning of the twentieth century. Nowadays, this subject is still a hot topic receiving more and more attention, notably with the rapid growth of wireless communication systems that arose in the last two decades and it turns out that many challenging aspects remain poorly addressed by the available literature relative to this subject. This thesis deals with signal detection, localization using temporal or directional measurements, and separation of dependent source signals. The main objective is to make use of some available priors about the source signals such as sparsity, cyclo-stationarity, non-circularity, constant modulus, autoregressive structure or training sequences in a cooperative framework. The first part is devoted to the analysis of (i) signal’s time-of-arrival estimation using a new minimum error rate based detector, (ii) noise power estimation using an improved order-statistics estimator and (iii) side information impact on direction-of-arrival estimation accuracy and resolution. In the second part, the source separation problem is investigated at the light of different priors about the original sources. Three kinds of prior have been considered : (i) separation of constant modulus communication signals, (ii) separation of dependent source signals knowing their dependency structure and (iii) separation of dependent autoregressive sources knowing their autoregressive structure. Localisation et séparation informées Estimation de directions d’arrivée Estimation de temps d’arrivée Détection adaptative Bornes de Cramér-Rao Seuil de résolution limite Direction-of-arrival estimation Time-of-arrival esti- mation Adaptive detection Cramér-Rao bound Statistical resolution limit Side information impact quantification Constant modulus source separation 621.382 2
59	Analyse de la dynamique neuronale pour les Interfaces Cerveau-Machines : un retour aux sources. Besserve, Michel 22 November 2007 (has links) (PDF) Les Interfaces Cerveau-Machine sont des dispositifs permettant d'instaurer un canal de communication entre le cerveau humain et le monde extérieur sans utiliser les voies usuelles nerveuses et musculaires. Le développement de tels systèmes se situe à l'interface entre le traitement du signal, l'apprentissage statistique et la neurophysiologie. Dans cette thèse, nous avons réalisé et étudié un dispositif d'Interface Cerveau-Machine non invasif asynchrone, c'est-à-dire capable d'identifier des actions mentales associées à des tâches motrices ou cognitives imaginées sans synchronisation sur un événement contrôlé par un système externe. Celui-ci est basé sur l'analyse en temps réel de signaux électro-encéphalographiques (EEG) issus d'électrodes disposées à la surface de la tête d'un sujet humain. Du point de vue méthodologique, nous avons implémenté plusieurs techniques de prétraitement de ces signaux et comparé leur influence sur les performances du système. Ces techniques comprennent : 1) l'utilisation directe du signal issu des capteurs EEG, 2) l'exploitation de méthodes de séparation de sources qui permettent de résumer les signaux EEG par un faible nombre de composantes spatiales et 3) la reconstruction de l'activité des sources de courant corticales par résolution du problème inverse en EEG. De plus, plusieurs mesures permettant de quantifier l'activité cérébrale sont exploitées et comparées : la puissance spectrale, la cohérence et la synchronie de phase. Nos résultats montrent que la reconstruction préalable de l'activité corticale par problème inverse, ainsi que l'utilisation de mesures d'interaction à distance permettent d'améliorer les performances du dispositif. [SDV:IB] Life Sciences/Bioengineering Interface cerveau-machine synchronie de phase cohérence classification électro-encéphalographie problème inverse séparation de sources séparateur à vaste marge
60	Holographie vibratoire : Identification et séparation de champs vibratoires / Structural holography : Vibratory fields identification and separations Chesnais, Corentin 24 November 2016 (has links) La reconstruction de champ source a pour but d’identifier le champ d’excitation en mesurant la réponse du système. Pour l’Holographie acoustique de champ proche (Near-field Acoustic Holography), la réponse du système (pression acoustique rayonnée) est mesurée sur un hologramme bidimensionnel utilisant un réseau de microphones et le champ source (le champ de vitesse acoustique) est reconstruit par une technique de rétropropagation effectuée dans le domaine des nombres d’ondes. L’objectif des travaux présentés est d’utiliser le même type de techniques pour reconstruire le champ de déplacement sur toute la surface d’une plaque en mesurant les vibrations sur des hologrammes à une dimension (lignes de mesures). Dans le domaine vibratoire, l’équation du mouvement de plaque implique la présence de 4 types d’ondes différents, deux étant purement évanescents. Ces derniers peuvent introduire des instabilités dans l’application de la méthode, notamment lorsque les hologrammes sont placés dans le champ lointain des efforts appliqués à la structure. La méthode présentée ici, appelée ”Holographie Vibratoire”, est particulièrement intéressante quand une mesure directe du champ de vitesse est impossible. L’holographie vibratoire permet également de séparer les sources dans le cas d’excitations multiples en les considérant comme des ondes allers ou retours. Il est alors possible d’isoler l’influence de chaque source et de quantifier notamment les champs d’intensités structurales que chacune d’elles génère. L’objectif de cette thèse est de présenter les principes de l’holographie Vibratoire, ses limites, ses applications et de les illustrer par des exemples sur plaque infinie, plaque appuyée et sur des résultats expérimentaux. / The source field reconstruction aims at identifying the excitation field measuring the response of the system. In Near-field Acoustic Holography, the response of the system (the radiated acoustic pressure) is measured on a hologram using a microphones array and the source field (the acoustic velocity field) is reconstructed with a back-propagation technique performed in the wave number domain. The objective of the present works is to use such a technique to reconstruct displacement field on the whole surface of a plate by measuring vibrations on a one-dimensional holograms. This task is much more difficult in the vibratory domain because of the complexity of the equation of motion of the structure. The method presented here and called "Structural Holography" is particularly interesting when a direct measurement of the velocity field is not possible. Moreover, Structural Holography decreases the number of measurements required to reconstruct the displacement field of the entire plate. This method permits to separate the sources in the case of multi-sources excitations by considering them as direct or back waves. It’s possible to compute the structural intensity of one particular source without the contributions of others sources. The aim of this PHD is to present the principles of Structural Holography, its limits, its applications and illustrate them with examples of infinite plate, supported plate and on experimental results. Vibration acoustique Holographie acoustique Holographie vibratoire Champ vibratoire Champ de sources Champ d'excitation Séparation de sources Ondes acoustiques Champ de vitesse Acoustic vibration Acoustic holography Vibratory holography Vibration field Source field Excitation field Separation of sources Acoustic emission 620.307 2

Search results