Spelling suggestions: "subject:"lasynthèse audio"" "subject:"desynthèse audio""
1 |
Controllable music performance synthesis via hierarchical modellingWu, Yusong 08 1900 (has links)
L’expression musicale requiert le contrôle sur quelles notes sont jouées ainsi que comment elles se jouent.
Les synthétiseurs audios conventionnels offrent des contrôles expressifs détaillés, cependant au détriment du réalisme.
La synthèse neuronale en boîte noire des audios et les échantillonneurs concaténatifs sont capables de produire un son réaliste, pourtant, nous avons peu de mécanismes de contrôle.
Dans ce travail, nous introduisons MIDI-DDSP, un modèle hiérarchique des instruments musicaux qui permet tant la synthèse neuronale réaliste des audios que le contrôle sophistiqué de la part des utilisateurs.
À partir des paramètres interprétables de synthèse provenant du traitement différentiable des signaux numériques (Differentiable Digital Signal Processing, DDSP), nous inférons les notes musicales et la propriété de haut niveau de leur performance expressive (telles que le timbre, le vibrato, l’intensité et l’articulation).
Ceci donne naissance à une hiérarchie de trois niveaux (notes, performance, synthèse) qui laisse aux individus la possibilité d’intervenir à chaque niveau, ou d’utiliser la distribution préalable entraînée (notes étant donné performance, synthèse étant donné performance) pour une assistance créative. À l’aide des expériences quantitatives et des tests d’écoute, nous démontrons que cette hiérarchie permet de reconstruire des audios de haute fidélité, de prédire avec précision les attributs de performance d’une séquence de notes, mais aussi de manipuler indépendamment les attributs étant donné la performance. Comme il s’agit d’un système complet, la hiérarchie peut aussi générer des audios réalistes à partir d’une nouvelle séquence de notes.
En utilisant une hiérarchie interprétable avec de multiples niveaux de granularité, MIDI-DDSP ouvre la porte aux outils auxiliaires qui renforce la capacité des individus à travers une grande variété d’expérience musicale. / Musical expression requires control of both what notes are played, and how they are performed.
Conventional audio synthesizers provide detailed expressive controls, but at the cost of realism.
Black-box neural audio synthesis and concatenative samplers can produce realistic audio, but have few mechanisms for control.
In this work, we introduce MIDI-DDSP a hierarchical model of musical instruments that enables both realistic neural audio synthesis and detailed user control.
Starting from interpretable Differentiable Digital Signal Processing (DDSP) synthesis parameters, we infer musical notes and high-level properties of their expressive performance (such as timbre, vibrato, dynamics, and articulation).
This creates a 3-level hierarchy (notes, performance, synthesis) that affords individuals the option to intervene at each level, or utilize trained priors (performance given notes, synthesis given performance) for creative assistance. Through quantitative experiments and listening tests, we demonstrate that this hierarchy can reconstruct high-fidelity audio, accurately predict performance attributes for a note sequence, independently manipulate the attributes of a given performance, and as a complete system, generate realistic audio from a novel note sequence.
By utilizing an interpretable hierarchy, with multiple levels of granularity, MIDI-DDSP opens the door to assistive tools to empower individuals across a diverse range of musical experience.
|
2 |
Contributions à la sonification d’image et à la classification de sonsToffa, Ohini Kafui 11 1900 (has links)
L’objectif de cette thèse est d’étudier d’une part le problème de sonification d’image
et de le solutionner à travers de nouveaux modèles de correspondance entre domaines
visuel et sonore. D’autre part d’étudier le problème de la classification de son et de le résoudre
avec des méthodes ayant fait leurs preuves dans le domaine de la reconnaissance
d’image.
La sonification d’image est la traduction de données d’image (forme, couleur, texture,
objet) en sons. Il est utilisé dans les domaines de l’assistance visuelle et de l’accessibilité
des images pour les personnes malvoyantes. En raison de sa complexité, un
système de sonification d’image qui traduit correctement les données d’image en son de
manière intuitive n’est pas facile à concevoir.
Notre première contribution est de proposer un nouveau système de sonification
d’image de bas-niveau qui utilise une approche hiérarchique basée sur les caractéristiques
visuelles. Il traduit, à l’aide de notes musicales, la plupart des propriétés d’une
image (couleur, gradient, contour, texture, région) vers le domaine audio, de manière
très prévisible et donc est facilement ensuite décodable par l’être humain.
Notre deuxième contribution est une application Android de sonification de haut
niveau qui est complémentaire à notre première contribution car elle implémente la traduction
des objets et du contenu sémantique de l’image. Il propose également une base
de données pour la sonification d’image.
Finalement dans le domaine de l’audio, notre dernière contribution généralise le motif
binaire local (LBP) à 1D et le combine avec des descripteurs audio pour faire de
la classification de sons environnementaux. La méthode proposée surpasse les résultats
des méthodes qui utilisent des algorithmes d’apprentissage automatique classiques et
est plus rapide que toutes les méthodes de réseau neuronal convolutif. Il représente un
meilleur choix lorsqu’il y a une rareté des données ou une puissance de calcul minimale. / The objective of this thesis is to study on the one hand the problem of image sonification
and to solve it through new models of mapping between visual and sound domains.
On the other hand, to study the problem of sound classification and to solve it with
methods which have proven track record in the field of image recognition.
Image sonification is the translation of image data (shape, color, texture, objects)
into sounds. It is used in vision assistance and image accessibility domains for visual
impaired people. Due to its complexity, an image sonification system that properly conveys
the image data to sound in an intuitive way is not easy to design.
Our first contribution is to propose a new low-level image sonification system which
uses an hierarchical visual feature-based approach to translate, usingmusical notes, most
of the properties of an image (color, gradient, edge, texture, region) to the audio domain,
in a very predictable way in which is then easily decodable by the human being.
Our second contribution is a high-level sonification Android application which is
complementary to our first contribution because it implements the translation to the audio
domain of the objects and the semantic content of an image. It also proposes a dataset
for an image sonification.
Finally, in the audio domain, our third contribution generalizes the Local Binary
Pattern (LBP) to 1D and combines it with audio features for an environmental sound
classification task. The proposed method outperforms the results of methods that uses
handcrafted features with classical machine learning algorithms and is faster than any
convolutional neural network methods. It represents a better choice when there is data
scarcity or minimal computing power.
|
Page generated in 0.0416 seconds