Global ETD Search

1	Spatialisation de sources auditives étendues : applications musicales avec la bibliothèque HOA / Extended auditory sources spatialization : Musical applications within the HOA library Colafrancesco, Julien 28 October 2015 (has links) Les principales techniques de spatialisation sonores sont pour la plupart orientées vers la reproduction de sources ponctuelles, l’étendue reste un sujet peu exploré. Cette thèse défend l’idée que les sources étendues sont pourtant des objets expressifs pouvant significativement contribuer à la richesse des pratiques de spatialisation, notamment en musique. Nous décomposerons cette thèse en trois hypothèses. La première, auditive, postulera que les sources étendues sont pertinentes perceptivement. C’est-à-dire qu’elles offrent la possibilité de faire varier de nouveaux attributs sonores et que l’auditeur est sensible à ces variations. La seconde, analytique, proposera que la polarisation des techniques de spatialisation les plus courantes vers la source ponctuelle n’est qu’arbitraire et que d’autres modèles de sources peuvent être considérés. La troisième, opérationnelle, suggèrera qu’il est possible de créer des outils permettant aux compositeurs de manier et de s’approprier les sources étendues à des fins musicales.Pour valider ces hypothèses, nous formaliserons les propriétés auditives et musicales de ces sources puis nous proposerons des méthodes concrètes pour les analyser et les synthétiser. Ces travaux seront considérés dans le cadre de la bibliothèque HOA, un ensemble d’outils de spatialisation de bas niveau que nous avons spécialement fondé à des fins d’expérimentations. Nous décrirons les spécificités de cette bibliothèque. Nous verrons notamment comment son architecture et ses différents modules permettent d’ouvrir l’ambisonie à de nouvelles pratiques éloignées du concept de ponctualité. / Mainstream spatialization techniques are often oriented towards the reproduction of point sources; extension remains a relatively unexplored topic. This thesis advocates that extended sources are yet expressive objects that could contribute to the richness of spatialization practices, especially in the field of music. We’ll decompose this thesis in three hypotheses. A perceptive one, who postulates that extended sources are perceptually relevant, i.e., that they offer the possibility of varying new sound attributes and that the listener is sensitive to these variations. An analytical one, who proposes that the most common spatialization techniques focus to point sources is arbitrary and that other source’s models can be considered. And an operational one, who suggests that it’s possible to create tools for composers so they can handle and musicalize extended objects. To confirm these hypotheses, we’ll formalize the auditory and musical properties of extended sources and we’ll propose concrete methods for their analysis and synthesis. This work will be considered as part of the HOA library, a set of low-level spatialization tools we’ve founded for the purpose of experimentation. We’ll describe the specificities of this library and see how its architecture and its different modules allow the generalization of ambisonics to new practices away of punctuality. Ambisonie HOA Musique Étendue Spatialisation Source Audition Espace Ambisoncs HAO Spatialization Extended sources Spatial hearing
2	Popis a reprezentace dvourozměrných zvukových scén ve vícekanálových systémech reprodukce zvuku / 2D Audio Scene Analysis and Rendering in Multichannel Sound-Reproduction Systems Trzos, Michal January 2009 (has links) This thesis deals with cues used by the human auditory system to identify the location of sound and methods for sound localisation based these cues, namely, vector based amplitude panning and ambisonics, which are described in detail. These methods have been implemented as a VST plug-in module. This thesis also contains listening tests of second order ambisonics along with acquired data analysis.
3	Ambisonie d'ordre élevé en trois dimensions : captation, transformations et décodage adaptatif de champs sonores Lecomte, Pierre January 2016 (has links) Résumé : La synthèse de champs sonores est un domaine de recherche actif trouvant de nombreuses applications musicales, multimédias ou encore industrielles. Dans ce dernier cas, la re- construction précise du champ sonore est souhaitée, ce qui implique de répondre à un certains nombre de questionnements scientifiques. À l’aide de réseaux de microphones et de haut-parleurs, la captation, la synthèse et la reconstruction précise de champs sonores sont théoriquement possibles. Seulement, pour des applications pratiques, la disposition des haut-parleurs et l’influence acoustique du lieu de restitution sont des facteurs cruciaux à prendre en compte pour s’assurer de la bonne reconstruction du champ sonore. Dans ce contexte, cette thèse de doctorat propose des méthodes et des techniques pour la captation, la transformation et la reconstruction précise de champs sonores en trois dimen- sions en se basant sur la méthode ambisonique d’ordre élevé. Une configuration sphérique pour le réseau de microphones et de haut-parleurs est proposée. Elle suit un maillage de Lebedev à cinquante points qui permet la captation et la reconstruction du champ sonore jusqu’à l’ordre 5 avec le formalisme ambisonique. Les limitations de cette approche, tel le repliement spatial, sont étudiés en détails. De plus, une opération de transformation du champ sonore est présentée. Elle est établie dans le domaine des harmoniques sphériques et permet d’effectuer un filtrage directionnel avant le décodage pour privilégier certaines directions dans le champ sonore, suivant une fonction de directivité choisie. Pour la re- construction, une approche originale, également établie dans le domaine des harmoniques sphériques, permet de prendre en compte l’influence acoustique du lieu de restitution, ainsi que les défauts du système de restitution. Ce traitement permet alors d’adapter la synthèse de champs sonores au lieu de restitution, en conservant le formalisme théorique établi en champ libre. Finalement, une validation expérimentale des méthodes et des tech- niques développées au cours de la thèse est faite. Dans ce contexte, une suite logicielle de synthèse et traitement en temps-réel des champs sonore est développée. / Abstract : Sound field synthesis is an active research domain with various musical, multimedia or industrial applications. In the latter case, the accurate reconstruction of the sound field is targeted, which involves answering several scientific questions. Using arrays of microphones and loudspeakers, the capture, synthesis and accurate reconstruction of sound fields are theoretically possible. However, for practical applications, the arrangement of the loud- speakers and the acoustic influence of the restitution room are critical factors to consider in order to ensure the accurate reconstruction of the sound field. In this context, this thesis proposes methods and techniques for the capture, transforma- tions and accurate reconstruction of sound fields in three dimensions based on the Higher Order Ambisonics (HOA) method. A spherical configuration for the array of microphones and loudspeakers is proposed. It follows a fifty-node Lebedev grid that enables the capture and reconstruction of the sound field up to order 5 with HOA formalism. The limitations of this approach, such as the spatial aliasing, are studied in detail. A transformation op- eration of the sound field is also proposed. The formulation is established in the spherical harmonics domain and enables a directional filtering on the sound field prior to the decod- ing step. For the reconstruction of the sound field, an original approach, also established in the spherical harmonics domain, can take into account the acoustic influence of the restitution room and the defects of the playback system. This treatment then adapts the synthesis of sound fields to the restitution room, maintaining the theoretical formalism established in free field. Finally, an experimental validation of methods and techniques developed in the thesis is made. In this context, a digital signal processing toolkit is de- veloped. It process in real-time the microphones, ambisonics, and loudspeaker signals for the sound field capture, transformations, and decoding. Acoustique Audio spatialisée Ambisonie d'ordre élevé Traitement du signal multicanaux Acoustic Spatial audio Higher order ambisonics Multichannel signal processing
4	Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale / Localization and enhancement of speech from the Ambisonics format Perotin, Lauréline 31 October 2019 (has links) Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels. / This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments. Parole Séparation de sources Localisation de sources Réseaux de neurones Ambisonie Speech Source separation Source localization Neural networks Ambisonics 006.454 621.382
5	Méthodes de spatialisation sonore et intégration dans le processus de composition Néron Baribeau, Raphaël 07 1900 (has links) L’espace est un élément peu exploré en musique. Méconnu des compositeurs, il n’est généralement pas pensé comme paramètre musical « composable ». Pourtant si la musique peut être perçue comme une organisation et une succession d’éléments dans le temps, pourquoi ne pourrait-elle pas l’être aussi dans l’espace? Ce travail se veut en quelque sorte un pont entre la recherche et la pratique, qui se construit par la synthèse de l’information que j’ai pu trouver sur chacune des quatre méthodes de spatialisation abordées ici. Dans un premier temps, je traiterai de leur développement, leur fonctionnement et des possibilités d’intégration de ces méthodes dans le processus de composition musicale, notamment en discutant les outils disponibles. Dans un second temps, les pièces Minimale Sédation et Fondations, toutes deux composées en octophonie seront discutées. J’expliquerai leurs processus de composition à travers les intentions, les techniques d’écriture et les outils qui ont menés à leurs créations. / Space is a parameter of sound that is relatively unexplored in music. Misunderstood by composers, it is not generally thought of as "composable" musical parameter. Yet if music can be seen as an organization and a succession of elements in time, why could it not also be in space? This work is intended to somehow bridge the gap between research and practice, by synthesizing the information I could find on each of the four sound spatialization methods discussed here. As a first step, I will discuss their development, operation and integration capabilities in the process of musical composition, as well as the tools available. In a second step, the work Minimale Sédation and Foundations, both composed in eight channels will be discussed. I will explain their process of composition through intentions, writing techniques and tools that have led to their creations. Keywords composition multiphonie spatialisation électroacoustique acousmatique Vbap Hrtf ambisonie espace spatialization multi-channel electroacoustic acousmatic ambisonics music
6	Spatial Auditory Blurring and Applications to Multichannel Audio Coding Daniel, Adrien 23 June 2011 (has links) (PDF) Ce travail se place en contexte de télécommunications, et concerne plus particulièrement la transmission de signaux audio multicanaux. Quatre expériences psychoacoustiques ont été menées de façon à étudier la résolution spatiale du système auditif - également appelée flou de localisation - en présence de sons distracteurs. Il en résulte que le flou de localisation augmente quand ces distracteurs sont présents, mettant en évidence ce que nous appellerons le phénomène de "floutage spatial" auditif. Ces expériences estiment l'effet de plusieurs variables sur le floutage spatial : la fréquence de la source sonore considérée ainsi que celles des sources distractrices, leur niveau sonore, leur position spatiale, et le nombre de sources distractrices. Exceptée la position des sources distractrices, toutes ces variables ont montré un effet significatif sur le floutage spatial. Cette thèse aborde également la modélisation de ce phénomène, de sorte que la résolution spatiale auditive puisse être prédite en fonction des caractéristiques de la scène sonore (nombre de sources présentes, leur fréquence, et leur niveau). Enfin, deux schémas de codage audio multicanaux exploitant ce modèle à des fins de réduction de l'information à transmettre sont proposés : l'un basé sur une représentation paramétrique (downmix + paramètres spatiaux) du signal multicanal, et l'autre sur la représentation Higher-Order Ambisonics (HOA). Ces schémas sont tous deux basés sur l'idée originale d'ajuster dynamiquement la précision de la représentation spatiale du signal multicanal de façon à maintenir les distorsions spatiales résultantes dans le flou de localisation, afin que celles-ci restent indétectables. Psychoacoustique Écoute Spatialisée Codage Audio Spatialisé Son Multicanal Angle Minimum Audible Flou de Localisation Codage Paramétrique Ambisonie d'Ordres Supérieurs Analyse de Scène Auditive
7	Ambisonie d'ordre élevé en trois dimensions : captation, transformations et décodage adaptatifs de champs sonores / Three Dimensional Higher Order Ambisonics : Sound Field Capture, Transformations and Adaptive Decoding Lecomte, Pierre 07 December 2016 (has links) La synthèse de champs sonores est un domaine de recherche actif trouvant de nombreuses applications musicales, multimédias ou encore industrielles. Dans ce dernier cas, la reconstruction précise du champ sonore est souhaitée, ce qui implique de répondre à un certains nombre de questionnements scientifiques. À l'aide de réseaux de microphones et de haut-parleurs, la captation, la synthèse et la reconstruction précise de champs sonores sont théoriquement possibles. Seulement, pour des applications pratiques, la disposition des haut-parleurs et l'influence acoustique du lieu de restitution sont des facteurs cruciaux à prendre en compte pour s'assurer de la bonne reconstruction du champ sonore.Dans ce contexte, cette thèse de doctorat propose des méthodes et des techniques pour la captation, la transformation et la reconstruction précise de champs sonores en trois dimensions en se basant sur la méthode ambisonique d'ordre élevé. Une configuration sphérique pour le réseau de microphones et de haut-parleurs est proposée. Elle suit un maillage de Lebedev à cinquante points qui permet la captation et la reconstruction du champ sonore jusqu'à l'ordre 5 avec le formalisme ambisonique. Les limitations de cette approche, tel le repliement spatial, sont étudiés en détails.De plus, une opération de transformation du champ sonore est présentée. Elle est établie dans le domaine des harmoniques sphériques et permet d'effectuer un filtrage directionnel avant le décodage pour privilégier certaines directions dans le champ sonore, suivant une fonction de directivité choisie.Pour la reconstruction, une approche originale, également établie dans le domaine des harmoniques sphériques, permet de prendre en compte l'influence acoustique du lieu de restitution, ainsi que les défauts du système de restitution. Ce traitement permet alors d'adapter la synthèse de champs sonores au lieu de restitution, en conservant le formalisme théorique établi en champ libre.Finalement, une validation expérimentale des méthodes et des techniques développées au cours de la thèse est faite. Dans ce contexte, une suite logicielle de synthèse et traitement en temps-réel des champs sonore est développée. / Sound field synthesis is an active research domain with various musical, multimedia or industrial applications. In the latter case, the accurate reconstruction of the sound field is targeted, which involves answering several scientific questions. Using arrays of microphones and loudspeakers, the capture, synthesis and accurate reconstruction of sound fields are theoretically possible. However, for practical applications, the arrangement of the loudspeakers and the acoustic influence of the restitution room are critical factors to consider in order to ensure the accurate reconstruction of the sound field.In this context, this thesis proposes methods and techniques for the capture, transformations and accurate reconstruction of sound fields in three dimensions based on the Higher Order Ambisonics (HOA) method. A spherical configuration for the array of microphones and loudspeakers is proposed. It follows a fifty-node Lebedev grid that enables the capture and reconstruction of the sound field up to order 5 with HOA formalism. The limitations of this approach, such as the spatial aliasing, are studied in detail.A transformation operation of the sound field is also proposed. The formulation is established in the spherical harmonics domain and enables a directional filtering on the sound field prior to the decoding step.For the reconstruction of the sound field, and original approach, also established in the spherical harmonics domain, can take into account the acoustic influence of the restitution room and the defects of the playback system. This treatment then adapts the synthesis of sound fields to the restitution room, maintaining the theoretical formalism established in free field.Finally, an experimental validation of methods and techniques developed in the thesis is made. In this context, a digital signal processing toolkit is developed. It process in real-time the microphones, ambisonics, and loudspeaker signals for the sound field capture, transformations, and decoding. Acoustique Audio spatialisée Ambisonie d'ordre éleveé Traitement du signal multicanaux Acoustic Spatial sound Higher order ambisonics Multichannel signal processing 621.389 620.2 534
8	Analyse de scène sonore multi-capteurs : un front-end temps-réel pour la manipulation de scène / Multi-sensor sound scene analysis : a real-time front-end for scene manipulation Baque, Mathieu 09 June 2017 (has links) La thèse s’inscrit dans un contexte d’essor de l’audio spatialisé (5.1, Dolby Atmos...). Parmi les formats audio 3D existants, l’ambisonie permet une représentation spatiale homogène du champ sonore et se prête naturellement à des manipulations : rotations, distorsion du champ sonore. L’objectif de cette thèse est de fournir un outil d’analyse et de manipulation de contenus audio (essentiellement vocaux) au format ambisonique. Un fonctionnement temps-réel et en conditions acoustiques réelles sont les principales contraintes à respecter. L’algorithme mis au point est basé sur une analyse en composantes indépendantes (ACI) appliquée trame à trame qui permet de décomposer le champ acoustique en un ensemble de contributions, correspondant à des sources (champ direct) ou à de la réverbération. Une étape de classification bayésienne, appliquée aux composantes extraites, permet alors l’identification et le dénombrement des sources sonores contenues dans le mélange. Les sources identifiées sont localisées grâce à la matrice de mélange obtenue par ACI, pour fournir une cartographie de la scène sonore. Une étude exhaustive des performances est menée sur des contenus réels en fonction de plusieurs paramètres : nombre de sources, environnement acoustique, longueur des trames, ou ordre ambisonique utilisé. Des résultats fiables en terme de localisation et de comptage de sources ont été obtenus pour des trames de quelques centaines de ms. L’algorithme, exploité comme prétraitement dans un prototype d’assistant vocal domestique, permet d’améliorer significativement les performances de reconnaissance, notamment en prise de son lointaine et en présence de sources interférentes. / The context of this thesis is the development of spatialized audio (5.1 contents, Dolby Atmos...) and particularly of 3D audio. Among the existing 3D audio formats, Ambisonics and Higher Order Ambisonics (HOA) allow a homogeneous spatial representation of a sound field and allows basics manipulations, like rotations or distorsions. The aim of the thesis is to provides efficient tools for ambisonics and HOA sound scene analyse and manipulations. A real-time implementation and robustness to reverberation are the main constraints to deal with. The implemented algorithm is based on a frame-by-frame Independent Component Analysis (ICA), wich decomposes the sound field into a set of acoustic contributions. Then a bayesian classification step is applied to the extracted components to identify the real sources and the residual reverberation. Direction of arrival of the sources are extracted from the mixing matrix estimated by ICA, according to the ambisonic formalism, and a real-time cartography of the sound scene is obtained. Performances have been evaluated in different acoustic environnements to assess the influence of several parameters such as the ambisonic order, the frame length or the number of sources. Accurate results in terms of source localization and source counting have been obtained for frame lengths of a few hundred milliseconds. The algorithm is exploited as a pre-processing step for a speech recognition prototype and allows a significant increasing of the recognition results, in far field conditions and in the presence of noise and interferent sources. Acoustique Audio 3D Séparation de sources Analyse de scène Ambisonie HOA Analyse en composantes indépendantes Déréverbération Acoustics Source separation Scene analysis Ambisonics Independent component analysis Dereverberation 620.21

Search results