Global ETD Search

31	Séparation des signaux de deux extenseurs des doigts à partir d'électromyogrammes de surface haute densité et modélisation biomécanique du mécanisme extenseur / Separation of signals from two finger extensor muscles by high-density surface electromyography and biomechanical modeling of the finger extensor mechanism Dogadov, Anton 25 June 2018 (has links) Les signaux électromyographiques de surface (sEMG) correspondent aux signaux électriques composés par les potentiels d’action produits par les unités motrices d’un muscle actif et enregistrés par des électrodes de surface. Les signaux sEMG sont largement utilisés dans la médicine, le contrôle des prothèses et plus généralement dans les études biomécaniques portant sur l’analyse du mouvement humain. Les signaux sEMG sont très souvent utilisés comme un indicateur d’activation musculaire.Bien que présentant un intérêt évident, l’utilisation de ces signaux reste difficile compte tenu qu’ils sont souvent susceptibles d’interférence (diaphonie, ou plus communément « crosstalk ») entre les muscles contigus, parfois même éloignés. Cette contamination croisée est particulièrement présente pour des muscles présents dans un volume restreint, ce qui est le cas des muscles extenseur de l’index et du petit doigt, extensor indicis et extensor digiti minimi. L’interférence induit la réduction de la précision de l’estimation des activations musculaires et reste, à ce titre, un problème important et récurrent de la biomécanique. Afin que les signaux sEMG puissent être utilisés de manière plus robuste en biomécanique, il convient de réduire cette interférence avant de procéder à l’estimation des activations musculaires. Les activations individuelles des muscles participant au mouvement correctement estimées peuvent être utilisées comme données d’entrées d’un modèle biomécanique. Cette démarche, nommée dynamique directe, permet notamment d’estimer la force externe produite par le système et dans un second temps de comparer cette dernière avec la mesure réalisée grâce à un système dynamométrique. En ce sens cette démarche permet une validation indirecte des estimations réalisées à partir des signaux sEMG. Dans le cadre de cette thèse, nous avons modélisé le doigt et plus particulièrement le mécanisme extenseur qui est une structure qui transmet les forces des muscles-extenseurs aux articulations digitales. Cette structure est très mal connue du point de vue biomécanique et le plus souvent représentée par un ensemble des coefficients établis sur l’analyse de mains de cadavres dans des situations très particulières et standardisées (doigts en extension). Ainsi, l’objectif de ce travail de thèse était double : (1) améliorer l’estimation de la force au bout du doigt à partir des mélanges des sEMG sur la base d’extraction des activations des signaux sEMG des muscles extensor indicis et extensor digiti minimi, et (2) modélisation biomécanique du mécanisme extenseur du doigt. Pour cela, les signaux sEMG ont été enregistrés avec une matrice d’électrodes de surface haute densité à 64 capteurs. Ensuite, l’extraction des activations musculaires a été réalisée sur la base d’une procédure de classification des potentiels détectés en utilisant les invariants musculaires que sont la direction de propagation et la profondeur de l’unité motrice à l’origine du signal.Dans un deuxième temps, un modèle biomécanique précis du mécanisme extenseur du doigt a été créé, qui contient les tendons et les principaux ligaments représentés par des bandes et des surfaces élastiques. Un algorithme de paramétrage du modèle a été proposé. Ce type d ‘approche est nécessaire pour mieux décrire les déformations du système anatomique dans des situations de mouvement sain ou pathologique.Cette démarche a montré qu’elle était pertinente pour l’étude biomécanique du doigt. Elle présente des utilisations judicieuses pour les études biomécaniques portant sur l’évaluation clinique, la réhabilitation et le contrôle des prothèses myoélectriques. / The surface electromyographic signals (SEMG) are the electric signals, composed of electric potentials. These potentials are produced by the recruited motor units of an active muscle and captured by the surface electrodes. The SEMG signals are widely used in medicine, prosthesis control and biomechanical studies as an indicator of muscle activity.However, SEMG measurements are usually subjects of crosstalk or interference from nearby muscles. It appears when two or more muscles situated close to each other are active during a SEMG recording. An example of such muscles are the extensors of index and little finger, extensor indicis and extensor digiti minimi, situated close to each other and creating a significant amount of mutual crosstalk when simultaneously active. The crosstalk causes precision decrease of SEMG-based estimation of muscle activations. Hence, the crosstalk-reducing problem must be preliminary solved before muscle activation evaluation.Once the activations of individual muscles are estimated from the mixture, they may be used as an input of a finger biomechanical model to calculate a fingertip force. These models usually contain an extensor mechanism of the finger, which is a structure, transmitting the force from the extensor muscles to the finger joints. This structure is often taken into account as a set of coefficients. However, there is a lack of study about how these coefficients vary with posture, applied force, and subject variability.The purpose of this work is to improve the finger force estimation from the crosstalk-contaminated signals for isometric tasks by extracting the activations of individual muscles and improving the finger biomechanical model.Firstly, the SEMG signals were recorded with high-density surface electromyographic (HD-EMG) electrode matrix. The extraction was based on classifying the detected potentials according their propagation direction and depth of originating motor unit.Secondly, a precise biomechanical model of the finger extensor mechanism was created, containing the principal tendons and ligaments. The algorithm of the model parametrization was proposed as well.The proposed methods of muscle activation estimation along with the created extensor mechanism model may be used for calculating the fingertip force and internal tissues deformations for normal or pathological fingers. Electromyographie Modélisation Biomécanique Séparation de sources Mécanisme extenseur du doigt Electromyography Biomechanical modeling Sources separation Extensor mechanism of the finger 600
32	Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale / Localization and enhancement of speech from the Ambisonics format Perotin, Lauréline 31 October 2019 (has links) Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels. / This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments. Parole Séparation de sources Localisation de sources Réseaux de neurones Ambisonie Speech Source separation Source localization Neural networks Ambisonics 006.454 621.382
33	Adaptation de modèles statistiques pour la séparation de sources mono-capteur Texte imprimé : application à la séparation voix / musique dans les chansons Ozerov, Alexey 15 December 2006 (has links) (PDF) La séparation de sources avec un seul capteur est un problème très récent, qui attire de plus en plus d'attention dans le monde scientifique. Cependant, il est loin d'être résolu et, même plus, il ne peut pas être résolu en toute généralité. La difficulté principale est que, ce problème étant extrêmement sous déterminé, il faut disposer de fortes connaissances sur les sources pour pouvoir les séparer. Pour une grande partie des méthodes de séparation, ces connaissances sont représentées par des modèles statistiques des sources, notamment par des Modèles de Mélange de Gaussiennes (MMG), qui sont appris auparavant à partir d'exemples. L'objet de cette thèse est d'étudier les méthodes de séparation basées sur des modèles statistiques en général, puis de les appliquer à un problème concret, tel que la séparation de la voix par rapport à la musique dans des enregistrements monophoniques de chansons. Apporter des solutions à ce problème, qui est assez difficile et peu étudié pour l'instant, peut être très utile pour faciliter l'analyse du contenu des chansons, par exemple dans le contexte de l'indexation audio. Les méthodes de séparation existantes donnent de bonnes performances à condition que les caractéristiques des modèles statistiques utilisés soient proches de celles des sources à séparer. Malheureusement, il n'est pas toujours possible de construire et d'utiliser en pratique de tels modèles, à cause de l'insuffisance des exemples d'apprentissage représentatifs et des ressources calculatoires. Pour remédier à ce problème, il est proposé dans cette thèse d'adapter a posteriori les modèles aux sources à séparer. Ainsi, un formalisme général d'adaptation est développé. En s'inspirant de techniques similaires utilisées en reconnaissance de la parole, ce formalisme est introduit sous la forme d'un critère d'adaptation Maximum A Posteriori (MAP). De plus, il est montré comment optimiser ce critère à l'aide de l'algorithme EM à différents niveaux de généralité. Ce formalisme d'adaptation est ensuite appliqué dans certaines formes particulières pour la séparation voix / musique. Les résultats obtenus montrent que pour cette tâche, l'utilisation des modèles adaptés permet d'augmenter significativement (au moins de 5 dB) les performances de séparation par rapport aux modèles non adaptés. Par ailleurs, il est observé que la séparation de la voix chantée facilite l'estimation de sa fréquence fondamentale (pitch), et que l'adaptation des modèles ne fait qu'améliorer ce résultat. modèles statistiques adaptation bayésienne maximum a posteriori réseaux bayésiens expectation maximization modèles de mélange de gaussiennes fitrage de Wiener adaptatif
34	Séparation de sources audio informée par tatouage pour mélanges linéaires instantanés stationnaires Parvaix, Mathieu 23 September 2010 (has links) (PDF) Nous abordons dans cette thèse le problème de la séparation de sources selon un angle novateur à de nombreux niveaux. Ces travaux associent deux domaines du traitement du signal jusqu'alors traités de manière disjointe, la séparation de source et le tatouage numérique. Le procédé mis en place au cours de ces travaux a pour but de permettre à un utilisateur "client" de séparer les différents signaux numériques sources composant un mélange audio à partir de ce seul mélange tatoué. Pour ce faire un marquage du signal est effectué par un utilisateur "fournisseur" avant la fixation du mélange sur son support numérique. Ce marquage consiste en l'insertion sur le signal lui-même d'informations utiles à la séparation, et ceci de façon imperceptible. Le tatouage peut, en principe, être inséré soit sur le mélange, soit sur les signaux sources, qui sont disponibles à l'utilisateur fournisseur. Deux systèmes composent donc ce procédé, un encodeur qui permet à l'utilisateur fournisseur de réaliser la phase de mélange et de marquage, et un décodeur qui permet à l'utilisateur client de contrôler la séparation à partir du mélange. Au cours de cette thèse, il est choisi de tatouer le signal de mélange. Une application cible particulièrement visée est le cas d'un mélange polyphonique (signal de musique) fixé sur un support CD audio. La séparation doit permettre à l'utilisateur client d'effectuer un certain nombre de contrôles (par exemple le volume sonore) sur les différentes composantes de la scène sonore (les différents instruments et voix). [SPI] Engineering Sciences séparation de sources informée audio musique sous-déterminé codage source-canal parcimonie tatouage audio quantification vectorielle QIM remixage mélange linéaire instantané monophonique stéréophonique
35	Approche informée pour l’analyse du son et de la musique / Informed approach for sound and music analysis Fourer, Dominique 11 December 2013 (has links) En traitement du signal audio, l’analyse est une étape essentielle permettant de comprendre et d’inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s’avérer insufﬁsante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d’analyse usuels tels que l’analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite “informée”. Cette nouvelle approche exploite la conﬁguration des studios de musique actuels qui maitrisent la chaîne de traitement avant l’étape de création du mélange. Dans les solutions proposées, de l’information complémentaire minimale calculée est transmise en même temps que le signal de mélange aﬁn de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu’une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l’intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d’un estimateur avec de l’information complémentaire permet d’améliorer les performances des approches usuelles telles que l’estimation non informée ou le codage pur. / In the field of audio signal processing, analysis is an essential step which allows interactions with existing signals. In fact, the quality of transformed or synthesized audio signals depends on the accuracy over the estimated model parameters. However, theoretical limits exist and show that the best accuracy which can be reached by a classic estimator can be insufficient for the most demanding applications (e.g. active listening of music). The work which is developed in this thesis revisits well known audio analysis problems like spectral analysis, automatic transcription of music and audio sources separation using the novel ``informed'' approach. This approach takes advantage of a specific configuration where the parameters of the elementary signals which compose a mixture are known before the mixing process. Using the tools which are proposed in this thesis, the minimal side information is computed and transmitted with the mixture signal. This allows any kind of transformation of the mixture signal with a constraint over the resulting quality. When the compatibility with existing audio formats is required, the side information is embedded directly into the analyzed audio signal using a watermarking technique. This work describes several theoretical and practical aspects of audio signal processing. We show that a classic estimator combined with the sufficient side information can obtain better performances than classic approaches (classic estimation or pure coding). Audio Analyse spectrale Estimation Codage audio Séparation de sources Transcription automatique de la musique Audio Spectral analysis Estimation Audio Coding Sources separation Music automatic transcription
36	Contribution au modèle direct cérébral par stimulation électrique de profondeur et mesures SEEG : application à l'épilepsie / Contribution to the cerebral forward model by depth electric stimulation and SEEG measurements : Application in epilepsy Hofmanis, Janis 20 November 2013 (has links) La thérapie de l'épilepsie par résection partielle exige l'identification des structures cérébrales qui sont impliquées dans la genèse des crises d'épilepsie focales. Plusieurs modalités telles que l'IRM, le PET SCAN, la sémiologie de la crise et l'électrophysiologie sont exploitées par les experts pour contribuer à la localisation de la zone épileptogène. L'EEG du scalp est la modalité qui procure la résolution temporelle à l'échelle des processus électrophysiologiques étudiés. Cependant du fait du positionnement des capteurs sur le scalp, sa résolution spatiale et, plus précisément, de profondeur est très médiocre. Dans certain cas (épilepsies pharmaco-résistantes), et pour palier à cette déficience spatiale, il est possible d'avoir recours à la SEEG. La SEEG permet des mesures électrophysiologiques intracérébrales : la résolution spatiale et donc anatomique est excellente dans l'axe de la microélectrode. La définition de la zone épileptogène, comme celle proposée par Talairach et Bancaud, est une définition électro-clinique basée sur les résultats d'enregistrements de SEEG intracérébraux. Elle tient compte non seulement de la localisation anatomique de la décharge épileptique partielle, mais également de l'évolution dynamique de cette décharge, c'est à dire les réseaux neurologiques actifs durant la période intercritique-critique et des symptômes cliniques. Récemment, il a été proposé une technique de diagnostic complémentaire de localisation de la zone épileptogénique employant la stimulation électrique cérébrale de profondeur (Deep Brain Stimulation). Cette source exogène peut activer les réseaux épileptiques et produire une réaction électrophysiologique telle qu'une crise d'épilepsie. Elle permet également de mettre en exergue les zones fonctionnelles cognitives. Cette source exogène est parfaitement définie spatialement et temporellement. Ainsi, la stimulation, couplée aux mesures SEEG, contribue à la modélisation de la propagation électrique cérébrale et, par voie de conséquence, à la compréhension du processus épileptique. De plus, ce travail sur le modèle de propagation directe apporte une aide à la résolution du problème inverse et donc à la localisation de sources. Les différentes tâches accomplies au cours de cette thèse sont les suivantes : création d'une base de données réelles à partir de 3000 stimulations et mesures SEEG pour 42 patients explorés ; extraction par séparation des signaux de propagation de la stimulation électrique (DBS) des mesures multidimensionnelles SEEG : 5 méthodes ont été développées ou adaptées et ont été validées au cours d'une première phase en simulation puis sur des signaux réels SEEG dans une seconde phase ; localisation des électrodes de SEEG dans le repère anatomique de l'IRM et du CT Scanner en y ajoutant une étape de segmentation de la matière grise et blanche, du liquide céphalorachidien et de l'os ; discussion sur de nombreux modèles de propagation réalistes ou non réalistes proposés dans la littérature, à la fois sur le plan du raffinement du modèle mais également sur les implantations numériques possibles : modèles de milieu, sphériques et réalistes infinis basés sur MRI et CT du patient ; comparaison entre les résultats générés par les modèles de sources et de milieux et les données obtenues après séparation de la stimulation électrique in vivo chez l'homme ; validation des modèles de tête FEM en intégrant les conductivités des milieux (CSF), gris et blancs céphalo-rachidiens et perspectives envisagées / The study of epilepsy requires the identification of cerebral structures which are involved in generation of seizures and connexion processes. Several methods of clinical investigation contributed to these studies : imaging (PET, MRI), electrophysiology (EEG, SEEG, MEG). The EEG provides a temporal resolution enough to analyze these processes. However, the localization of deep sources and their dynamical properties are difficult to understand. SEEG is a modality of intracerebral electrophysiological and anatomical high temporal resolution reserved for some difficult cases of pre-surgical diagnosis : drug-resistant epilepsy. The definition of the epileptogenic zone, as proposed by Talairach and Bancaud is an electro-clinical definition based on the results of intracerebral SEEG recordings. It takes into account not only the anatomical localization of partial epileptic discharge, but also the dynamic evolution of this discharge (active neural networks at the time of seizure) and clinical symptoms. Recently, a novel diagnostic technique allows an accurate localization of the epileptogenic zone using Depth Brain Stimulation (DBS). This exogenous source can activate the epileptic networks and generate an electrophysiological reaction. Therefore, coupling DBS with SEEG measurements is very advantageous : firstly, to contribute to the modeling and understanding of the (epileptic) brain and to help the diagnosis, secondly, to access the estimation of head model as an electrical conductor (conductive properties of tissues). In addition, supplementary information about head model improves the solution to the inverse problem (source localization methods) used in many applications in EEG and SEEG. The inverse solution requires repeated computation of the forward problem, i.e. the simulation of EEG and SEEG fields for a given dipolar source in the brain using a volume-conduction model of the head. As for DBS, the location of source is well defined. Therefore, in this thesis, we search for the best head model for the forward problem from real synchronous measurements of EEG and SEEG with DBS in several patients. So, the work of the thesis breaks up into different parts for which we need to accomplish the following tasks : Creation of database 3000 DBS measurements for 42 patients ; Extraction of DBS signal from SEEG and EEG measurements using multidimensional analysis : 5 methods have been developed or adapted and validate first in a simulation study and, secondly, in a real SEEG application ; Localization of SEEG electrodes in MR and CT images, including segmentation of brain matter ; SEEG forward modeling using infinite medium, spherical and realistic models based on MRI and CT of the patient ; Comparison between different head models and validation with real in vivo DBS measurements ; Validation of realistic 5-compartment FEM head models by incorporating the conductivities of cerebrospinal fluid (CSF), gray and white matters Épilepsie Séparation des sources Localisation des électrodes Problème inverse SEEG DBS Source separation Electrode localization Forward problem 610.28 621.382 2
37	Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole / Deep neural networks for source separation and noise-robust speech recognition Aditya Arie Nugraha, . 05 December 2017 (has links) Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement / This thesis addresses the problem of multichannel audio source separation by exploiting deep neural networks (DNNs). We build upon the classical expectation-maximization (EM) based source separation framework employing a multichannel Gaussian model, in which the sources are characterized by their power spectral densities and their source spatial covariance matrices. We explore and optimize the use of DNNs for estimating these spectral and spatial parameters. Employing the estimated source parameters, we then derive a time-varying multichannel Wiener filter for the separation of each source. We extensively study the impact of various design choices for the spectral and spatial DNNs. We consider different cost functions, time-frequency representations, architectures, and training data sizes. Those cost functions notably include a newly proposed task-oriented signal-to-distortion ratio cost function for spectral DNNs. Furthermore, we present a weighted spatial parameter estimation formula, which generalizes the corresponding exact EM formulation. On a singing-voice separation task, our systems perform remarkably close to the current state-of-the-art method and provide up to 2 dB improvement of the source-to-interference ratio. On a speech enhancement task, our systems outperforms the state-of-the-art GEV-BAN beamformer by 14%, 7%, and 1% relative word error rate improvement on 6-channel, 4-channel, and 2-channel data, respectively Séparation de sources audio multicanale Modèle gaussien multicanal Réseaux de neurones profonds Multichannel audio source separation Multichannel Gaussian model Deep neural networks 621.382 2 006.32
38	Méthodes de traitement du signal pour l'analyse quantitative de gaz respiratoires à partir d’un unique capteur MOX / Signal processing for quantitative analysis of exhaled breath using a single MOX sensor Madrolle, Stéphanie 27 September 2018 (has links) Prélevés de manière non invasive, les gaz respiratoires sont constitués de nombreux composés organiques volatils (VOCs) dont la quantité dépend de l’état de santé du sujet. L’analyse quantitative de l’air expiré présente alors un fort intérêt médical, que ce soit pour le diagnostic ou le suivi de traitement. Dans le cadre de ma thèse, nous proposons d’étudier un dispositif d’analyse des gaz respiratoires, et notamment de ces VOCs. Cette thèse multidisciplinaire aborde différents aspects, tels que le choix des capteurs, du matériel et des modes d’acquisition, l’acquisition des données à l’aide d’un banc gaz, et ensuite le traitement des signaux obtenus de manière à quantifier un mélange de gaz. Nous étudions la réponse d’un capteur à oxyde métallique (MOX) à des mélanges de deux gaz (acétone et éthanol) dilués dans de l’air synthétique (oxygène et azote). Ensuite, nous utilisons des méthodes de séparation de sources de manière à distinguer les deux gaz, et déterminer leur concentration. Pour donner des résultats satisfaisants, ces méthodes nécessitent d’utiliser plusieurs capteurs dont on connait la forme mathématique du modèle décrivant l’interaction du mélange avec le capteur, et qui présentent une diversité suffisante dans les mesures d’étalonnage pour estimer les coefficients de ce modèle. Dans cette thèse, nous montrons que les capteurs MOX peuvent être décrits par un modèle de mélange linéaire quadratique, et qu’un mode d’acquisition fonctionnant en double température permet de générer deux capteurs virtuels à partir d’un unique capteur physique. Pour quantifier précisément les composants du mélange à partir des mesures sur ces capteurs (virtuels), nous avons conçu des méthodes de séparation de sources, supervisées et non supervisées appliquées à ce modèle non-linéaire : l’analyse en composantes indépendantes, des méthodes de moindres carrés (algorithme de Levenberg-Marquardt), et une méthode bayésienne ont été étudiées. Les résultats expérimentaux montrent que ces méthodes permettent d’estimer les concentrations de VOCs contenus dans un mélange de gaz, de façon précise, en ne nécessitant que très peu de points de calibration. / Non-invasively taken, exhaled breath contains many volatile organic compounds (VOCs) whose amount depends on the health of the subject. Quantitative analysis of exhaled air is of great medical interest, whether for diagnosis or for a treatment follow-up. As part of my thesis, we propose to study a device to analyze exhaled breath, including these VOCs. This multidisciplinary thesis addresses various aspects, such as the choice of sensors, materials and acquisition modes, the acquisition of data using a gas bench, and then the processing of the signals obtained to quantify a gas mixture. We study the response of a metal oxide sensor (MOX) to mixtures of two gases (acetone and ethanol) diluted in synthetic air (oxygen and nitrogen). Then, we use source separation methods in order to distinguish the two gases, and to determine their concentration. To give satisfactory results, these methods require first to use several sensors for which we know the mathematical model describing the interaction of the mixture with the sensor, and which present a sufficient diversity in the calibration measurements to estimate the model coefficients. In this thesis, we show that MOX sensors can be described by a linear-quadratic mixing model, and that a dual temperature acquisition mode can generate two virtual sensors from a single physical sensor. To quantify the components of the mixture from measurements on these (virtual) sensors, we have develop supervised and unsupervised source separation methods, applied to this nonlinear model: independent component analysis, least squares methods (Levenberg Marquardt algorithm), and a Bayesian method were studied. The experimental results show that these methods make it possible to estimate the VOC concentrations of a gas mixture, accurately, while requiring only a few calibration points. Traitement du signal Dispositifs médicaux Capteurs MOX Problème inverse Séparation de sources Estimation Bayésienne Signal processing Medical Devices MOX sensors Inverse problem Source separation methods Bayesian estimation 004
39	Application de la radio intelligente dans le contexte ferroviaire : identification aveugle du type de modulation pour les canaux à grandes vitesses Kharbech, Sofiane 30 March 2015 (has links) Un système de transport ferroviaire intelligent est essentiellement caractérisé par son niveau d'autonomie de prise de décision en fonction des conditions qui lui sont extérieurs. Afin de renforcer son intelligence et son autonomie, cette nouvelle génération de systèmes de transport intègre des multiples technologies et standards de communication et de traitement de l'information. L'intégration de ces technologies permet aux opérateurs du transport ferroviaire de réduire les coûts d'exploitation et de maintenance et d'attirer un plus grand nombre de passagers en leur facilitant l'accès ainsi que l'exploitation du transport ferroviaire tout en leur offrant des nouveaux services à bord. Cependant l'utilisation de plusieurs standards de communication ainsi que l'augmentation du trafic (le nombre de passagers et le nombre de véhicules mis en service) déclenchent un besoin sans précédent des ressources radio, notamment au niveau du spectre fréquentiel. En effet, avec la demande croissante des ressources radio, la Radio Intelligente (RI) se présente comme une technologie émergente qui améliore les performances des systèmes radio existants en intégrant l'intelligence artificielle avec la radio logicielle. / Any intelligent railway transport system is mainly characterized by its autonomy in making decisions in terms of its external conditions. In order to improve its cognition and autonomy, this new generation of transport systems integrates multiple technologies and standards of communication and information processing. The integration of these technologies allows rail operators to reduce operational and maintenance costs and attracts more passengers by making easier rail transport access and use while offering new services on board. However, using multiple communication standards and increasing traffic (number of passengers and vehicles in service) trigger an unprecedented need for radio resources, particularly frequency spectrum. Indeed, with the growing of radio resources demand, Cognitive Radio (CR) is an emerging technology that improves the performance of existing radio systems by the integration of artificial intelligence and software defined radio (SDR). Radio Intelligente Terminal mobile intelligent Séparation de sources Canaux à grandes vitesses. Cognitive Radio Intelligent mobile terminal Modulation scheme identication Source separation High-Speed channels.
40	Séparation de sources convolutives Akil, Moussa 22 April 2008 (has links) (PDF) La séparation de sources consiste à extraire des signaux appelés sources à partir seulement de mélanges observés de ces signaux appelés observations. De nombreuses approches ont été brièvement présentées dans ce manuscrit. La plupart de ces approches exploite l'hypothèse d'indépendance des sources.<br />Dans cette thèse, nous avons considéré le cas des mélanges linéaires convolutifs. Nous proposons de calculer les contributions des sources sur les capteurs afin d'optimiser la procédure de séparation.<br />L'estimation des contributions dans les observations est réalisée grâce à un critère quadratique optimisé par un filtre de Wiener. Ensuite, nous étudions deux approches de séparation de sources. <br />La première utilise l'information mutuelle comme critère d'indépendance et la seconde dite fonction de contraste est basée sur les statistiques d'ordre quatre. L'utilisation des contributions des sources sur les capteurs dans la phase de séparation nous permet de proposer deux algorithmes de séparation, qui constituent deux généralisations d'algorithmes classiques. Séparation de sources Mélange convolutif Filtre de Wiener Information mutuelle Fonction de contraste Statistiques d'ordre supérieur Diagonalisation conjointe

Search results