• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 22
  • 13
  • 7
  • Tagged with
  • 40
  • 40
  • 17
  • 14
  • 11
  • 9
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Outils de spatialisation sonore pour terminaux mobiles : microphone 3D pour une utilisation nomade / Tools of sound spatializing for mobile terminals : 3D microphone for a mobile usage

Palacino, Julian 04 November 2014 (has links)
Les technologies nomades (smartphones, tablettes, . . . ) étant actuellement très répandues,nous avons souhaité, dans le cadre de cette thèse, les utiliser comme vecteur pour proposer au grand public des outils de spatialisation sonore. La taille et le nombre de transducteurs utilisés pour la captation et la restitution sonore spatialisée sont à ce jour la limitation principale pour une utilisation nomade. Dans une première étape, la captation d’un opéra pour une restitution sur des tablettes tactiles nous a permis d’évaluer les technologies audio 3D disponibles aujourd’hui. Les résultats de cette évaluation ont révélé que l’utilisation des quatre capteurs du microphone Soundfield donne de bons résultats à condition d’effectuer un décodage binaural adapté pour une restitution sur casque. Selon une approche inspirée des méthodes de localisation de source et le concept de format « objet », un prototype de prise de son 3D léger et compact a été développé. Le dispositif microphonique proposé se compose de trois capsules microphoniques cardioïdes. A partir des signaux microphoniques, un algorithme de post-traitement spatial est capable, d’une part, de déterminer la direction des sources et, d’autre part, d’extraire un signal sonore représentatif de la scène spatiale. Ces deux informations permettent ainsi de caractérisercomplètement la scène sonore 3D en fournissant un encodage spatial offrant le double avantage d’une compression de l’information audio et d’une flexibilité pour le choix du système de reproduction. En effet, la scène sonore ainsi encodée peut être restituée en utilisant un décodage adapté sur n’importe quel type de dispositif.Plusieurs méthodes de localisation et différentes configurations microphoniques (géométrie et directivité) ont été étudiées.Dans une seconde étape, l’algorithme d’extraction de l’information spatiale a été modifié pour prendre en compte les caractéristiques réelles in situ des microphones.Des méthodes pour compléter la chaîne acoustique sont proposées permettant la restitution binaurale ainsi que sur tout autre dispositif de restitution. Elles proposent l’utilisation de capteurs de localisation présents sur les terminaux mobiles afin d’exploiter les capacités qu’ils offrent aujourd’hui. / Mobile technologies (such as smartphones and tablets) are now common devices of the consumer market. In this PhD we want to use those technologies as the way to introduce tools of sound spatialization into the mass market. Today the size and the number of traducers used to pick-up and to render a spatial sound scene are the main factors which limit the portability of those devices. As a first step, a listening test, based on a spatial audio recording of an opera, let us to evaluate the 3D audio technologies available today for headphone rendering. The results of this test show that, using the appropriate binaural decoding, it is possible to achieve a good binaural rendering using only the four sensors of the Soundfield microphone.Then, the steps of the development of a 3D sound pick-up system are described. Several configurations are evaluated and compared. The device, composed of 3 cardioid microphones, was developed following an approach inspired by the sound source localization and by the concept of the "object format encoding". Using the microphone signals and an adapted post-processing it is possible to determine the directions of the sources and to extract a sound signal which is representative of the sound scene. In this way, it is possible to completely describe the sound scene and to compress the audio information.This method offer the advantage of being cross platform compatible. In fact, the sound scene encoded with this method can be rendered over any reproduction system.A second method to extract the spatial information is proposed. It uses the real in situ characteristics of the microphone array to perform the sound scene analysis.Some propositions are made to complement the 3D audio chain allowing to render the result of the sound scene encoding over a binaural system or any king of speaker array using all capabilities of the mobile devices.
12

Quantification des anomalies neurologiques métaboliques et imagerie de sources électriques / Quantification of neurological metabolic abnormalities and electrical source imaging

Person, Christophe 19 June 2012 (has links)
Un traitement possible de l'épilepsie partielle pharmaco-résistante consiste en l'exérèse de la région cérébrale responsable des crises. La difficulté est de localiser cette zone et d'en définir l'étendue. L'objectif de cette thèse est d'apporter des données permettant de préciser la localisation et le volume des régions pathologiques, en exploitant deux modalités : l'imagerie TEP (Tomographie par Emission de Positons) et l'EEGHR (EEG Haute Résolution : signaux cérébraux recueillis sur le scalp avec un nombre important d'électrodes et une fréquence d'échantillonnage élevée). En imagerie TEP, il s'agit de segmenter les zones d'hypométabolisme qui sont liées aux régions responsables des crises. Des méthodes de comparaisons statistiques à l'aide d'outils de type SPM (Statistical Parametric Mapping) entre les images TEP de sujets pathologiques et de sujets sains ont été appliquées, en effectuant des tests d'hypothèse voxel à voxel entre les différentes images. Pour pouvoir être comparées à une population de référence, les différentes images ont subi des transformations non linéaires afin que chaque voxel corresponde à la même région anatomique chez tous les sujets. Deux algorithmes ont été appliqués : une méthode SPM classique et une méthode Block-Matching. Les résultats sont comparés par analyse subjective clinique et également sur des données simulées. En ce qui concerne l'EEG-HR, la localisation spatiale et temporelle de sources d'événements intercritiques (pointes et ondes lentes) a été réalisée par résolution du problème inverse. Ceci a permis de localiser les sources électriques intracérébrales d'intérêt qui sont à l'origine des signaux acquis sur le scalp. Enfin, une représentation des données multimodales (images TEP et signaux EEG-HR) dans un même référentiel a permis d'accroître les connaissances sur les relations existant entre les activités électriques et métaboliques et ainsi de mieux définir les régions épileptogènes / A possible treatment for drug-resistant partial epilepsy involves the resection of the brain region which generates crisis. The difficulty is to locate this area and to determine its extent. The objective of this thesis is to provide data to specify the location and the volume of pathological regions, using two modalities: PET (Positron Emission Tomography) imaging and HR-EEG (High-Resolution EEG: brain signals collected on the scalp with a large number of electrodes and a high sampling rate). In PET imaging, hypometabolic areas associated with regions generating seizures have to be segmented. Statistical comparisons methods using tools such as SPM (Statistical Parametric Mapping) between images of pathological and healthy subjects have been applied. Voxelwise statistical analyses between the different images were thus used to highlight the hypometabolic areas. For comparison with a reference population, nonlinear transformations were applied to the images so that each voxel corresponds to the same anatomical region in every subject. Two algorithms were applied: a conventional SPM method and a Block-Matching method. The results were compared by subjective clinical analysis and also on simulated data. Regarding the HR-EEG, the spatial and temporal source localizations of interictal events (spikes and slow waveforms) were done by solving the inverse problem. This allowed to localize intracerebral electrical sources generating the signals acquired on the scalp. Finally, a representation in the same space of multimodal data (PET images and HR-EEG) allowed to increase the knowledge on the relationship between electrical and metabolic activities and to better define the epileptogenic regions
13

Estimation de sources corticales : du montage laplacian aux solutions parcimonieuses / Cortical source imaging : from the laplacian montage to sparse inverse solutions

Korats, Gundars 26 February 2016 (has links)
L’imagerie de source corticale joue un rôle important pour la compréhension fonctionnelle ou pathologique du cerveau. Elle permet d'estimer l'activation de certaines zones corticales en réponse à un stimulus cognitif donné et elle est également utile pour identifier la localisation des activités pathologiques, qui sont les premières étapes de l'étude des activations de réseaux neuronaux sous-jacents. Diverses méthodes d'investigation clinique peuvent être utilisées, des modalités d'imagerie (TEP, IRM) et magnéto-électroencéphalographie (EEG, SEEG, MEG). Nous souhaitions résoudre le problème à partir de données non invasives : les mesures de l'EEG de scalp, elle procure une résolution temporelle à la hauteur des processus étudiés Cependant, la localisation des sources activées à partir d'enregistrements EEG reste une tâche extrêmement difficile en raison de la faible résolution spatiale. Pour ces raisons, nous avons restreint les objectifs de cette thèse à la reconstruction de cartes d’activation des sources corticales de surface. Différentes approches ont été explorées. Les méthodes les plus simples d'imagerie corticales sont basées uniquement sur les caractéristiques géométriques de la tête. La charge de calcul est considérablement réduite et les modèles utilisés sont faciles à mettre en œuvre. Toutefois, ces approches ne fournissent pas d'informations précises sur les générateurs neuronaux et sur leurs propriétés spatiotemporelles. Pour surmonter ces limitations, des techniques plus sophistiquées peuvent être utilisées pour construire un modèle de propagation réaliste, et donc d'atteindre une meilleure reconstruction de sources. Cependant, le problème inverse est sévèrement mal posé, et les contraintes doivent être imposées pour réduire l'espace des solutions. En l'absence de modèle bioanatomique, les méthodes développées sont fondées sur des considérations géométriques de la tête ainsi que la propagation physiologique des sources. Les opérateurs matriciels de rang plein sont appliqués sur les données, de manière similaire à celle effectuée par les méthodes de surface laplacien, et sont basés sur l'hypothèse que les données de surface peuvent être expliquées par un mélange de fonctions de bases radiales linéaires produites par les sources sous-jacentes. Dans la deuxième partie de ces travaux, nous détendons la contrainte-de rang plein en adoptant un modèle de dipôles distribués sur la surface corticale. L'inversion est alors contrainte par une hypothèse de parcimonie, basée sur l'hypothèse physiologique que seuls quelques sources corticales sont simultanément actives ce qui est particulièrement valable dans le contexte des sources d'épilepsie ou dans le cas de tâches cognitives. Pour appliquer cette régularisation, nous considérons simultanément les deux domaines spatiaux et temporels. Nous proposons deux dictionnaires combinés d’atomes spatio-temporels, le premier basé sur une analyse en composantes principales des données, la seconde à l'aide d'une décomposition en ondelettes, plus robuste vis-à-vis du bruit et bien adaptée à la nature non-stationnaire de ces données électrophysiologiques. Toutes les méthodes proposées ont été testées sur des données simulées et comparées aux approches classiques de la littérature. Les performances obtenues sont satisfaisantes et montrent une bonne robustesse vis-à-vis du bruit. Nous avons également validé notre approche sur des données réelles telles que des pointes intercritiques de patients épileptiques expertisées par les neurologues de l'hôpital universitaire de Nancy affiliées au projet. Les localisations estimées sont validées par l'identification de la zone épileptogène obtenue par l'exploration intracérébrale à partir de mesures stéréo EEG. / Cortical Source Imaging plays an important role for understanding the functional and pathological brain mechanisms. It links the activation of certain cortical areas in response to a given cognitive stimulus, and allows one to study the co-activation of the underlying functional networks. Among the available acquisition modality, electroencephalographic measurements (EEG) have the great advantage of providing a time resolution of the order of the millisecond, at the scale of the dynamic of the studied process, while being a non-invasive technique often used in clinical routine. However the identification of the activated sources from EEG recordings remains an extremely difficult task because of the low spatial resolution this modality provides, of the strong filtering effect of the cranial bones and errors inherent to the used propagation model. In this work different approaches for the estimation of cortical activity from surface EEG have been explored. The simplest cortical imaging methods are based only on the geometrical characteristics of the head. The computational load is greatly reduced and the used models are easy to implement. However, such approaches do not provide accurate information about the neural generators and on their spatiotemporal properties. To overcome such limitations, more sophisticated techniques can be used to build a realistic propagation model, and thus to reach better source reconstruction by its inversion. However, such inversion problem is severely ill-posed, and constraints have to be imposed to reduce the solution space. We began by reconsidering the cortical source imaging problem by relying mostly on the observations provided by the EEG measurements, when no anatomical modeling is available. The developed methods are based on simple but universal considerations about the head geometry as well as the physiological propagation of the sources. Full-rank matrix operators are applied on the data, similarly as done by Surface Laplacian methods, and are based on the assumption that the surface can be explained by a mixture of linear radial basis functions produced by the underlying sources. In the second part of the thesis, we relax the full-rank constraint by adopting a distributed dipole model constellating the cortical surface. The inversion is constrained by an hypothesis of sparsity, based on the physiological assumption that only a few cortical sources are active simultaneously Such hypothesis is particularly valid in the context of epileptic sources or in the case of cognitive tasks. To apply this regularization, we consider simultaneously both spatial and temporal domains. We propose two combined dictionaries of spatio-temporal atoms, the first based on a principal components analysis of the data, the second using a wavelet decomposition, more robust to noise and well suited to the non-stationary nature of these electrophysiological data. All of the proposed methods have been tested on simulated data and compared to conventional approaches of the literature. The obtained performances are satisfactory and show good robustness to the addition of noise. We have also validated our approach on real epileptic data provided by neurologists of the University Hospital of Nancy affiliated to the project. The estimated locations are consistent with the epileptogenic zone identification obtained by intracerebral exploration based on Stereo-EEG measurements.
14

Matrices aléatoires et applications au traitement statistique du signal

Vallet, Pascal 28 November 2011 (has links) (PDF)
La présente thèse porte sur l'application des matrices aléatoires au traitement statistique du signal, et plus particulièrement au traitement d'antennes et la localisation de sources dans les grands réseaux de capteurs. Dans ce contexte, on considère un réseau de M capteurs, et K sources émettant sur ce réseau. On suppose qu'on collecte N observations du signal reçu sur le réseau d'antennes. Dans ce travail, nous considérons le cas où M,N sont grands et du même ordre de grandeur, situation dans laquelle les estimateurs traditionnels des angles d'arrivées des sources sont peu performants. Dans ce contexte, nous proposons un estimateur consistant de ces angles d'arrivées, dans le régime asymptotique où M,N tendent vers l'infini au même rythme. Pour ce faire, un certain nombre de résultats théoriques concernant les valeurs singulières et vecteurs singuliers de grandes matrices aléatoires gaussiennes complexe non centrées sont développés.
15

Étude de son 3D pour une interaction audio-visuelle en environnement virtuel enrichi

Ortega González, Erik Vladimir 21 February 2011 (has links) (PDF)
La plupart des applications qui intègrent le son 3D en environnement virtuel sont limitées à la simulation acoustique. L'objectif de cette thèse est d'étudier l'apport du son 3D dans l'interaction en environnement virtuel. Nous avons développé une technique de stimulation sonore appelée: Sensation Artificielle Spatialisée Auditive (SASA), basée sur la création d'effets sonores. Cette technique restitue des sensations de spatialisation de son permettant la localisation précise (en azimut et en élévation) de sources sonores. Afin d'améliorer le temps de localisation de sources sonores, nous avons développé un modèle qui intègre la fonction HRTF (Head-Related Transfer Function) avec la technique SASA. Pour simuler la profondeur de sources sonores, nous avons développé une technique basée sur la combinaison entre l'indice d'intensité et les différences interaurales de temps. Les techniques développées dans le cadre de cette thèse ont été utilisées pour le guidage auditif afin de fournir des informations spatiales en azimut, en élévation et en profondeur. Nous avons appliqué cette technique dans la simulation chirurgicale pour assister l'opérateur dans la phase de triangulation. Nous avons validé cette approche en termes de performance de manipulation et du retour d'informations de l'utilisateur. Les résultats obtenus des travaux de cette thèse sont prometteurs pour l'utilisation de son 3D dans l'interaction en environnement virtuel.
16

Quantification des anomalies neurologiques métaboliques et imagerie de sources électriques

Person, Christophe 19 June 2012 (has links) (PDF)
Un traitement possible de l'épilepsie partielle pharmaco-résistante consiste en l'exérèse de la région cérébrale responsable des crises. La difficulté est de localiser cette zone et d'en définir l'étendue. L'objectif de cette thèse est d'apporter des données permettant de préciser la localisation et le volume des régions pathologiques, en exploitant deux modalités : l'imagerie TEP (Tomographie par Emission de Positons) et l'EEGHR (EEG Haute Résolution : signaux cérébraux recueillis sur le scalp avec un nombre important d'électrodes et une fréquence d'échantillonnage élevée). En imagerie TEP, il s'agit de segmenter les zones d'hypométabolisme qui sont liées aux régions responsables des crises. Des méthodes de comparaisons statistiques à l'aide d'outils de type SPM (Statistical ParametricMapping) entre les images TEP de sujets pathologiques et de sujets sains ont été appliquées, en effectuant des tests d'hypothèse voxel à voxel entre les différentes images. Pour pouvoir être comparées à une population de référence, les différentes images ont subi des transformations non linéaires afin que chaque voxel corresponde à la même région anatomique chez tous les sujets. Deux algorithmes ont été appliqués : une méthode SPM classique et une méthode Block-Matching. Les résultats sont comparés par analyse subjective clinique et également sur des données simulées. En ce qui concerne l'EEG-HR, la localisation spatiale et temporelle de sources d'événements intercritiques (pointes et ondes lentes) a été réalisée par résolution du problème inverse. Ceci a permis de localiser les sources électriques intracérébrales d'intérêt qui sont à l'origine des signaux acquis sur le scalp. Enfin, une représentation des données multimodales (images TEP et signaux EEG-HR) dans un même référentiel a permis d'accroître les connaissances sur les relations existant entre les activités électriques et métaboliques et ainsi de mieux définir les régions épileptogènes.
17

Apport de l'étude des sources sismo-volcaniques à la connaissance des processus éruptifs du volcan Yasur Vanuatu

Perrier, Laurence 15 December 2011 (has links) (PDF)
Le Yasur est un petit stratovolcan situé au coeur d'une grande caldeira, dans la partie sud-est de l'Ile de Tanna (Sud Vanuatu). Le cratère sommital est occupé par trois évents : les évents A et B dans le sous-cratère sud et l'évent C dans le sous-cratère nord. L'activité du Yasur est caractérisée par des explosions de bulles de gaz et l'émission de petits panaches de cendres. Afin de mieux comprendre les processus volcaniques qui se produisent au sein de l'édifice, un large réseau de capteurs, comprenant 12 antennes sismiques et 10 stations large-bande, a été déployé autour du Yasur en 2008, enregistrant le signal sismique en continu. Le modèle de vitesse de la structure superficielle du volcan ainsi que de la caldeira de Siwi a été estimé jusqu'à 200 m de profondeur en utilisant les méthodes SPAC et f-k - deux techniques d'analyse du bruit ambiant inclues dans le logiciel Geospy - sur les signaux enregistrés par sept antennes. Quatre zones principales ont été distinguées et interprétées en terme de couches géologiques et de répartition des fluides (aquifère, système hydrothermal) dans la structure volcanique. Le modèle de vitesse a ensuite été intégré dans un algorithme de tracé de rai et combiné à une méthode de triangulation sismique pour localiser la source des explosions et des événements longue période. Les localisations ont permis de suivre l'évolution de l'activité en 2008 dans les différents évents, et de proposer deux modèles de dynamique éruptive pour expliquer la périodicité des explosions stromboliennes et l'intense activité observée au Yasur. Les localisations ont également permis l'estimation de la vitesse d'ascension des poches de gaz ainsi qu'une estimation de la géométrie du conduit volcanique.
18

Audition active et intégration sensorimotrice pour un robot autonome bioinspiré

Bernard, Mathieu 15 May 2014 (has links) (PDF)
La grande majorité des systèmes perceptifs proposés en robotique héritent d'une conception passive de la perception dans laquelle la génération d'une commande motrice est l'étape ultime d'une succession de traitements purement passifs. Dans le cadre de la localisation de sources sonores, qui est une tâche fondamentale du système auditif, cette approche passive offre de bons résultats lorsque les conditions environnementales sont bien connues et facilement modélisables. Cependant des difficultés apparaissent lorsque l'environnement se complexifie, a fortiori s'il est inconnu ou changeant. Ces difficultés constituent un enjeu important dans le domaine de l'audition artificielle. Cette thèse considère une approche radicalement différente de l'approche passive, inspirée de la psychologie de la perception et de la théorie des contingences sensorimotrices. Cette approche place l'action au coeur du processus de perception, qui est alors vu comme une interaction qu'un agent biologique ou robotique entretient avec son environnement. Alors que l'approche passive nécessite des connaissances sur l'environnement, implicement intégrées dans les traitements par le roboticien, l'approche sensorimotrice suggère au contraire que ces connaissances sont acquises par l'agent de manière autonome, à travers son expérience sensorimotrice. Ainsi cette thèse applique la théorie des contingences sensorimotrices à la localisation de sources sonores pour la robotique autonome. Sur la base d'un modèle bioinspiré du système auditif adapté au contexte robotique, cette thèse propose une redéfinition du problème de la localisation en termes sensorimoteurs. Un modèle de localisation sensorimotrice est alors proposé. Celui-ci se base sur des capacités de perception active bas-niveau pour construire une représentation de l'espace auditif qui est ensuite utilisée pour une localisation passive. En exploitant les capacités d'action du robot, ce modèle permet de s'affranchir des dépendances à l'environnement qui mettent en difficulté l'approche passive, en proposant ainsi un degré d'autonomie supérieur à celui des modèles actuels
19

Apport de l'étude des sources sismo-volcaniques à la connaissance des processus éruptifs du volcan Yasur Vanuatu / Contribution of the study of seismo-volcanic sources in the knowledge of the eruptive processes of Yasur volcano, Vanuatu.

Perrier, Laurence 15 December 2011 (has links)
Le Yasur est un petit stratovolcan situé au coeur d'une grande caldeira, dans la partie sud-est de l'Ile de Tanna (Sud Vanuatu). Le cratère sommital est occupé par trois évents : les évents A et B dans le sous-cratère sud et l'évent C dans le sous-cratère nord. L'activité du Yasur est caractérisée par des explosions de bulles de gaz et l'émission de petits panaches de cendres. Afin de mieux comprendre les processus volcaniques qui se produisent au sein de l'édifice, un large réseau de capteurs, comprenant 12 antennes sismiques et 10 stations large-bande, a été déployé autour du Yasur en 2008, enregistrant le signal sismique en continu. Le modèle de vitesse de la structure superficielle du volcan ainsi que de la caldeira de Siwi a été estimé jusqu'à 200 m de profondeur en utilisant les méthodes SPAC et f-k - deux techniques d'analyse du bruit ambiant inclues dans le logiciel Geospy - sur les signaux enregistrés par sept antennes. Quatre zones principales ont été distinguées et interprétées en terme de couches géologiques et de répartition des fluides (aquifère, système hydrothermal) dans la structure volcanique. Le modèle de vitesse a ensuite été intégré dans un algorithme de tracé de rai et combiné à une méthode de triangulation sismique pour localiser la source des explosions et des événements longue période. Les localisations ont permis de suivre l'évolution de l'activité en 2008 dans les différents évents, et de proposer deux modèles de dynamique éruptive pour expliquer la périodicité des explosions stromboliennes et l'intense activité observée au Yasur. Les localisations ont également permis l'estimation de la vitesse d'ascension des poches de gaz ainsi qu'une estimation de la géométrie du conduit volcanique. / Yasur is a small stratovolcano located inside a large caldeira, in the south-eastern part of Tanna Island (South Vanuatu). The summit crater is occupied by three vents: the vents A and B in the southern subcrater and the vent C in the northern subcrater. Yasur's activity is characterized by explosions of gas bubbles and the emission of small ash plumes. In order to better understand the volcanic processes that occured inside the edifice, a large seismic network, consisting of 12 antennas and 10 broadband stations, was deployed around Yasur volcano in 2008, recording continuously the seismic signal. The superficial velocity structure of Yasur volcano and of the Siwi caldeira was estimated up to 200 meters using the Spatial Autocorrelation and the frequency-wavenumber techniques - two ambient noise methods included in the software Geopsy - on seismic signals recorded by seven antennas. Four main areas were distinguished and interpreted in terms of geological layers and fluid distribution (aquifer, hydrothermal system) inside the volcanic structure. The velocity structure was inserted in a ray tracing algorithm and combined to a seismic triangulation method to locate sources of explosion quakes and LP events. Locations allow to follow the evolution of the 2008 Yasur's activity in the different vents and to propose two eruptive dynamics models to explain the periodicity of the strombolian explosions and the intense activity observed at Yasur volcano. Locations also allow the estimation of the slug rise velocity and an estimate of the volcanic pipe geometry.
20

Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale / Localization and enhancement of speech from the Ambisonics format

Perotin, Lauréline 31 October 2019 (has links)
Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels. / This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments.

Page generated in 0.5235 seconds