Spelling suggestions: "subject:"cource localization."" "subject:"bource localization.""
51 |
CONSTANT FALSE ALARM RATE PERFORMANCE OF SOUND SOURCE DETECTION WITH TIME DELAY OF ARRIVAL ALGORITHMWang, Xipeng 01 January 2017 (has links)
Time Delay of Arrival (TDOA) based algorithms and Steered Response Power (SRP) based algorithms are two most commonly used methods for sound source detection and localization. SRP is more robust under high reverberation and multi-target conditions, while TDOA is less computationally intensive. This thesis introduces a modified TDOA algorithm, TDOA delay table search (TDOA-DTS), that has more stable performance than the original TDOA, and requires only 4% of the SRP computation load for a 3-dimensional space of a typical room. A 2-step adaptive thresholding procedure based on a Weibull noise peak distributions for the cross-correlations and a binomial distribution for combing potential peaks over all microphone pairs for the final detection. The first threshold limits the potential target peaks in the microphone pair cross-correlations with a user-defined false-alarm (FA) rates. The initial false-positive peak rate can be set to a higher level than desired for the final FA target rate so that high accuracy is not required of the probability distribution model (where model errors do not impact FA rates as they work for threshold set deep into the tail of the curve). The final FA rate can be lowered to the actual desired value using an M out of N (MON) rule on significant correlation peaks from different microphone pairs associated is a point in the space of interest. The algorithm is tested with simulated and real recorded data to verify resulting FA rates are consistent with the user-defined rates down to 10-6.
|
52 |
Assistance automatique au mixage de microphones d'appoint dans une prise de son HOA / Automatic assistance for mixing HOA and spot microphone signalsFedosov, Andrey 15 February 2017 (has links)
Dans ce travail nous étudions la problématique des ingénieurs du son face au mixage d’un microphone principal HOA avec des microphones d’appoint, et notamment l’estimation des paramètres tels que le retard, la position et le gain des sources acoustiques associées aux microphones d’appoint. Nous proposons un algorithme fournissant les paramètres estimés (retard, position, gain) basé sur des équations d’encodage spatial au format HOA qui peuvent alors être utilisées pour traiter les signaux des microphones d’appoint durant le mixage. Cette extraction automatique des paramètres peut être vue comme une assistance pour les ingénieurs du son, leur permettant d’éviter un travail à faible valeur ajoutée (mesure de la distance et des angles entre microphones) afin de pouvoir se concentrer sur des problèmes artistiques comme l’ajustement des paramètres de niveau, d’égalisation ou de compression, voire l’ajustement fin des paramètres de retard, position, gain. La robustesse de l’algorithme est bien présentée pour les scènes sonores de différents niveaux de complexité (plusieurs sources acoustiques, réverbération, encodage réel du microphone…). Nous proposons des tests de performances pour les scènes sonores simulées et réels afin de montrer l’efficacité de l’algorithme ainsi que ces limites. La conclusion et les perspectives pour des futurs travaux complètent cette thèse à la fin du document. / In this thesis we study the problematic of a sound engineer mixing HOA (Higher Order Ambisonics) and spot microphones, namely the estimation of parameters such as delay, position and gain of acoustic sources associated to spot microphones. We present a typical workflow in this context, and also propose an algorithm extracting parameters that could be applied to the spot microphone signals. This mixing assistance allows sound engineers to easily work with HOA 3D sound and to concentrate on artistic choices (fine adjustments of the parameters), by avoiding a low-added value work (coarse parameter estimation). The robustness of the estimators is evaluated on recorded and artificial sound scenes, with different degrees of complexity in terms of number of sources and acoustic conditions (reverberation, effect of real microphone encoding, …). We also provide performance evaluations, based on both sound scene simulations and real recordings, showing encouraging results along with actual limits, and conclude on perspectives.
|
53 |
Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale / Localization and enhancement of speech from the Ambisonics formatPerotin, Lauréline 31 October 2019 (has links)
Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels. / This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments.
|
54 |
Source Localization in Cross Modality Matching of Brightness and Loudness of Young AdultsCoates, Tawnya Nadine 01 April 2015 (has links) (PDF)
Cross modality matching is a magnitude matching procedure, developed to study the relationships between sensory modalities. Auditory and visual sensory integration can be examined through cross modality matching of brightness and loudness. Brightness and loudness are natural correlates of one another as they both represent the parameter of intensity for their respective sensory modalities. Past studies have demonstrated that typical individuals tend to match brighter lights with louder sounds and dimmer lights with softer sounds. The current study utilized a modified cross modality matching procedure, combined with electroencephalography (EEG) data, to examine the cortical response to sensory integration. It was hypothesized that the response latency and cortical distribution of the EEG data would show differences between matched and unmatched conditions of light and sound stimuli. Light and sound stimuli were presented to 10 participants (five males and five females between the ages of 18 and 28 years) in a forced choice paradigm. The behavioral responses, reaction times, and EEG data were recorded for each patient. Results demonstrated that there were significant differences in behavioral reaction time among the stimulus conditions. However, reaction times were only significantly faster for the loudest sound paired with the brightest light. No other pairs of matched stimuli resulted in faster reaction times. Event related potentials (ERPs) were identified for matched and unmatched stimulus conditions. No differences were identified in latency of the ERPs among conditions. Additionally, source localization revealed that dipole locations for each stimulus condition remained relatively constant in the prefrontal cortex. As the prefrontal cortex has been found to be associated with decision-making and sensory integration, it can be concluded that sensory integration did occur. However, the processing of sensory information did not change for matched or unmatched conditions of light and sound.
|
55 |
Direction of Arrival Estimation using Wideband Spectral Subspace ProjectionShaik, Majid January 2015 (has links)
No description available.
|
56 |
Multichannel audio processing for speaker localization, separation and enhancementMartí Guerola, Amparo 29 October 2013 (has links)
This thesis is related to the field of acoustic signal processing and its applications to emerging
communication environments. Acoustic signal processing is a very wide research area covering
the design of signal processing algorithms involving one or several acoustic signals to perform
a given task, such as locating the sound source that originated the acquired signals, improving
their signal to noise ratio, separating signals of interest from a set of interfering sources or recognizing
the type of source and the content of the message. Among the above tasks, Sound Source
localization (SSL) and Automatic Speech Recognition (ASR) have been specially addressed in
this thesis. In fact, the localization of sound sources in a room has received a lot of attention in
the last decades. Most real-word microphone array applications require the localization of one
or more active sound sources in adverse environments (low signal-to-noise ratio and high reverberation).
Some of these applications are teleconferencing systems, video-gaming, autonomous
robots, remote surveillance, hands-free speech acquisition, etc. Indeed, performing robust sound
source localization under high noise and reverberation is a very challenging task. One of the
most well-known algorithms for source localization in noisy and reverberant environments is
the Steered Response Power - Phase Transform (SRP-PHAT) algorithm, which constitutes the
baseline framework for the contributions proposed in this thesis. Another challenge in the design
of SSL algorithms is to achieve real-time performance and high localization accuracy with a reasonable
number of microphones and limited computational resources. Although the SRP-PHAT
algorithm has been shown to be an effective localization algorithm for real-world environments,
its practical implementation is usually based on a costly fine grid-search procedure, making the
computational cost of the method a real issue. In this context, several modifications and optimizations
have been proposed to improve its performance and applicability. An effective strategy
that extends the conventional SRP-PHAT functional is presented in this thesis. This approach
performs a full exploration of the sampled space rather than computing the SRP at discrete spatial
positions, increasing its robustness and allowing for a coarser spatial grid that reduces the
computational cost required in a practical implementation with a small hardware cost (reduced
number of microphones). This strategy allows to implement real-time applications based on
location information, such as automatic camera steering or the detection of speech/non-speech
fragments in advanced videoconferencing systems.
As stated before, besides the contributions related to SSL, this thesis is also related to the
field of ASR. This technology allows a computer or electronic device to identify the words spoken
by a person so that the message can be stored or processed in a useful way. ASR is used on
a day-to-day basis in a number of applications and services such as natural human-machine
interfaces, dictation systems, electronic translators and automatic information desks. However,
there are still some challenges to be solved. A major problem in ASR is to recognize people
speaking in a room by using distant microphones. In distant-speech recognition, the microphone
does not only receive the direct path signal, but also delayed replicas as a result of multi-path
propagation. Moreover, there are multiple situations in teleconferencing meetings when multiple
speakers talk simultaneously. In this context, when multiple speaker signals are present, Sound
Source Separation (SSS) methods can be successfully employed to improve ASR performance
in multi-source scenarios. This is the motivation behind the training method for multiple talk
situations proposed in this thesis. This training, which is based on a robust transformed model
constructed from separated speech in diverse acoustic environments, makes use of a SSS method
as a speech enhancement stage that suppresses the unwanted interferences. The combination
of source separation and this specific training has been explored and evaluated under different
acoustical conditions, leading to improvements of up to a 35% in ASR performance. / Martí Guerola, A. (2013). Multichannel audio processing for speaker localization, separation and enhancement [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/33101
|
57 |
Localisation de sources par méthodes à haute résolution et par analyse parcimonieuse / Source localization by high-resolution methods and parsimony analysisMa, Hua 24 June 2011 (has links)
Cette thèse a pour but d‘estimer la position et la puissance de sources sonores ponctuelles à l'aide d‘une antenne acoustique. Nous nous intéressons d‘abord à la directivité des antennes acoustiques pondérées. On montre qu‘une telle antenne, appelée antenne conventionnelle, même si elle est à directivité optimale, est inutilisable pour localiser plusieurs sources sonores. Des traitements adaptatifs d‘antenne sont donc exigés et les méthodes dites à haute résolution sont introduites. Elles sont basées sur l‘estimation de la matrice de covariance des signaux issus des capteurs et présentent l‘avantage de s‘affranchir des limitations naturelles du traitement d‘antenne conventionnel. Cependant, ces méthodes nécessitent l‘emploi d‘un modèle de propagation et sont donc par nature peu robustes aux erreurs de modèle, ce qui peut être parfois un handicap et dégrader leurs performances. Par la suite, nous présentons une nouvelle méthode de séparation des sources utilisant une représentation parcimonieuse des signaux. Nous montrons que ses performances sont meilleures que celles obtenues par les méthodes à haute résolution et notre algorithme parvient à une bonne résolution spatiale, même sous des conditions défavorables. Cette méthode est appliquée aux sources corrélées et décorrélées, à bande étroite et à large bande, en champ proche et en champ lointain. Pour finir, nous présentons des méthodes pour estimer la puissance des sources sonores. Des simulations numériques et des expérimentations en chambre anéchoïque sont effectuées afin de vérifier et de valider les analyses et les résultats théoriques / This thesis concerns the problem of sensor array source localization and power estimation by an acoustical array of sensors. In first the acoustical array directivity is treated. It is shown that such array is not useful for the localization of multiple sources. Adaptive arrays and high resolution methods are then introduced. They are based on the estimation of the sensor output covariance matrix and their performances overcome the natural limitations of the weighted beamforming processing. However, these methods require the use of a propagation model and are not robust to model errors. We present a new method which is an application of sparse regularization methodology to acoustical source localization using an acoustical array. Its performances are better than high-resolution methods and this method works very well in the case of correlated or uncorrelated signals, narrow band or wideband signals, near field or far field environments. Finally, a power estimation of sound sources by an acoustical array is presented. Numerical and experimental results in an anechoic room are presented showing the effectiveness of theoretical results
|
58 |
Manipulations spatiales de sons spectrauxMouba Ndjila, Joan 09 November 2009 (has links)
Dans les applications d'écoute active, il est primordial de pouvoir interagir avec les sources individuelles présentes dans le mix, par exemple en changeant leur position spatiale. Dans cette thèse, nous avons proposé des techniques binaurales pour la localisation et la spatialisation, basées sur les différences interaurales en amplitude et en temps d'arrivée. Les techniques sont développées dans le plan temps-fréquence. Elles permettent de localiser et de projeter toute source dans l'espace environnant un auditeur. aussi nous avons mis au point des techniques de séparation binaurale de source basées sur le Maximum de vraisemblance et de masques spatiaux probabilistes. Enfin nous avons étendu les techniques binaurales à des techniques multi-diffusion utilisant un ensemble de haut-parleurs. Les techniques proposées sont éprouvées et comparées à des techniques de référence de la littérature. Pour des performances similaires aux techniques existantes, nos propositions ont un avantage significatif en terme de complexité qui les rendent appropriées aux applications temps-réel. / In active listening applications, it is important to be able to interact with individual sources present in the mix, for example by changing their spatial position. In this thesis, we proposed techniques for binaural localization and spatialization, based on interaural differences in amplitude and in time of arrival. The techniques are developed in the time-frequency plane. They can locate and project sources in the space surrounding a listener. We also developed binaural source separation methods based on the Maximum Likelihood and on spatial probabilistic masks. Finally, we extended binaural spatialization techniques to multi-diffusion techniques which use a set of speakers for diffusion. The proposed techniques are tested and compared to referenced, well-known techniques. For similar performance with the existing ones, our proposed techniques highlight complexity advantages and are suitable for real-time applications.
|
59 |
Contribution des sources épileptiques inter-critiques et critiques à l’EEG de scalp / Contribution of interictal and ictal epileptic sources to scalp EEGRamantani, Georgia 29 March 2018 (has links)
Plusieurs études de simulation in vitro et in vivo ont été réalisées au cours des dernières décennies afin de clarifier les interrelations des sources corticales avec leurs corrélats électrophysiologiques enregistrés sur l’EEG invasif et l’EEG de scalp. L’amplitude des potentiels corticaux, l’étendue de l’aire corticale impliquée par la décharge, de même que la localisation et la géométrie de la source corticale sont des facteurs indépendants qui modulent l’observabilité et la contribution de ces sources sur l’EEG de surface. L’enregistrement simultané et multi-échelle de l’EEG de scalp et intra-crânien (avec des électrodes sous-durales ou profondes) durant l’exploration pré-chirurgicale des patients épileptiques offre une opportunité unique d’explorer cette question fondamentale. Alors que les études précédentes ont considéré essentiellement des sources néocorticales dans le contexte de l’épilepsie du lobe temporal, notre travail s’est intéressé à l’observabilité et la contribution de sources profondes temporales et frontales. Nous avons pu montrer : (1) que les sources épileptiques profondes enregistrées dans les régions temporales médianes et fronto-basales ne sont pas visibles par l’analyse visuelle de routine mais sont détectables après élimination du bruit de fond physiologique généré par les sources corticales de surface sus-jacentes ; (3) que l’amplitude des pointes enregistrées en surface est corrélée avec la surface d’activation corticale de la convexité et avec des ratios élevés d’amplitude pointes/activité de fond / Several in vitro, in vivo, and simulation studies have been performed in the past decades aiming to clarify the interrelations of cortical sources with their scalp and invasive EEG correlates. The amplitude ratio of cortical potentials to their scalp EEG correlates, the extent of the cortical area involved in the discharge, as well as the localization of the cortical source and its geometry, have been each independently linked to the recording of the cortical discharge with scalp electrodes. Simultaneous multiscale EEG recordings with scalp, subdural and depth electrodes, applied in presurgical epilepsy workup, offer an excellent opportunity to address this fundamental issue. Whereas past studies have considered predominantly neocortical sources in the context of temporal lobe epilepsy, the present work addresses deep sources, in mesial temporal and extra-temporal epilepsies. We showed that deep sources, such as those in mesial temporal or fronto-basal regions, are not visible, but are detectable in scalp EEG. Scalp EEG spikes correlate with extensive activation of the cortical convexity and high spike-to-background amplitude ratios
|
60 |
Cartographie d'un environnement sonore par un robot mobile / Mapping of a sound environment by a mobile robotNguyen, Van Quan 03 November 2017 (has links)
L’audition est une modalité utile pour aider un robot à explorer et comprendre son environnement sonore. Dans cette thèse, nous nous intéressons à la tâche de localiser une ou plusieurs sources sonores mobiles et intermittentes à l’aide d’un robot mobile équipé d’une antenne de microphones en exploitant la mobilité du robot pour améliorer la localisation. Nous proposons d’abord un modèle bayésien pour localiser une seule source mobile intermittente. Ce modèle estime conjointement la position et l’activité de la source au cours du temps et s’applique à tout type d’antenne. Grâce au mouvement du robot, il peut estimer la distance de la source et résoudre l’ambiguïté avant-arrière qui apparaît dans le cas des antennes linéaires. Nous proposons deux implémentations de ce modèle, l’une à l’aide d’un filtre de Kalman étendu basé sur des mélanges de gaussiennes et l’autre à l’aide d’un filtre à particules, que nous comparons en termes de performance et de temps de calcul. Nous étendons ensuite notre modèle à plusieurs sources intermittentes et mobiles. En combinant notre filtre avec un joint probability data association filter (JPDAF), nous pouvons estimer conjointement les positions et activités de deux sources sonores dans un environnement réverbérant. Enfin nous faisons une contribution à la planification de mouvement pour réduire l’incertitude sur la localisation d’une source sonore. Nous définissons une fonction de coût avec l’alternative entre deux critères: l’entropie de Shannon ou l’écart-type sur l’estimation de la position. Ces deux critères sont intégrés dans le temps avec un facteur d’actualisation. Nous adaptons alors l’algorithme de Monte-Carlo tree search (MCTS) pour trouver, efficacement, le mouvement du robot qui minimise notre fonction de coût. Nos expériences montrent que notre méthode surpasse, sur le long terme, d’autres méthodes de planification pour l’audition robotique / Robot audition provides hearing capability for robots and helps them explore and understand their sound environment. In this thesis, we focus on the task of sound source localization for a single or multiple, intermittent, possibly moving sources using a mobile robot and exploiting robot motion to improve the source localization. We propose a Bayesian filtering framework to localize the position of a single, intermittent, possibly moving sound source. This framework jointly estimates the source location and its activity over time and is applicable to any micro- phone array geometry. Thanks to the movement of the robot, it can estimate the distance to the source and solve the front-back ambiguity which appears in the case of a linear microphone array. We propose two implementations of this framework based on an extended mixture Kalman filter (MKF) and on a particle filter, that we compare in terms of performance and computation time. We then extend our model to the context of multiple, intermittent, possibly moving sources. By implementing an extended MKF with joint probabilistic data association filter (JPDAF), we can jointly estimate the locations of two sources and their activities over time. Lastly, we make a contribution on long-term robot motion planning to optimally reduce the uncertainty in the source location. We define a cost function with two alternative criteria: the Shannon entropy or the standard deviation of the estimated belief. These entropies or standard deviations are integrated over time with a discount factor. We adapt the Monte Carlo tree search (MCTS) method for efficiently finding the optimal robot motion that will minimize the above cost function. Experiments show that the proposed method outperforms other robot motion planning methods for robot audition in the long run
|
Page generated in 0.1154 seconds