Résumé: Les systèmes de substitution sensorielle convertissent des stimuli d’une modalité sensorielle en des stimuli d’une autre modalité. Ils peuvent fournir les moyens pour les personnes handicapées de percevoir des stimuli d’une modalité défectueuse par une autre modalité. Le but de ce projet de recherche était d’étudier des systèmes de substitution de l’audition vers la vision. Ce type de substitution n’est pas bien étudié probablement en raison de la complexité du système auditif et des difficultés résultant de la désadaptation entre les sons audibles qui peuvent changer avec des fréquences allant jusqu’à 20000 Hz et des stimuli visuels qui changent très lentement avec le temps afin d’être perçus. Deux problèmes spécifiques des systèmes de substitution de l’audition vers la vision ont été ciblés par cette étude: la recherche de correspondances audiovisuelles et l’extraction de caractéristiques auditives. Une expérience audiovisuelle a été réalisée en ligne pour trouver les associations entre les caractéristiques auditives (la fréquence fondamentale et le timbre) et visuelles (la forme, la couleur, et la position verticale). Une forte corrélation entre le timbre des sons utilisés et des formes visuelles a été observée. Les sujets ont fortement associé des timbres “doux” avec des formes arrondies bleues, vertes ou gris clair, des timbres “durs” avec des formes angulaires pointues rouges, jaunes ou gris foncé et des timbres comportant simultanément des éléments de douceur et de dureté avec un mélange des deux formes visuelles arrondies et angulaires. La fréquence fondamentale n’a pas été associée à la position verticale, ni le niveau de gris ou la couleur. Étant donné la correspondance entre le timbre et une forme visuelle, dans l’étape sui- vante, un modèle hiérarchique flexible et polyvalent bio-inspiré pour analyser le timbre et extraire des caractéristiques importantes du timbre a été développé. Inspiré par les découvertes dans les domaines des neurosciences, neurosciences computationnelles et de la psychoacoustique, non seulement le modèle extrait-il des caractéristiques spectrales et temporelles d’un signal, mais il analyse également les modulations d’amplitude sur différentes échelles de temps. Il utilise un banc de filtres cochléaires pour résoudre les composantes spectrales d’un son, l’inhibition latérale pour améliorer la résolution spectrale, et un autre banc de filtres de modulation pour extraire l’enveloppe temporelle et la rugosité du son à partir des modulations d’amplitude. Afin de démontrer son potentiel pour la représentation du timbre, le modèle a été évalué avec succès pour trois applications : 1) la comparaison avec les valeurs subjectives de la rugosité 2) la classification d’instruments de musique 3) la sélection de caractéristiques pour les sons qui ont été regroupés en fonction de la forme visuelle qui leur avait été attribuée dans l’expérience audiovisuelle. La correspondance entre le timbre et la forme visuelle qui a été révélée par cette étude et le modèle proposé pour l’analyse de timbre peuvent être utilisés pour développer des systèmes de substitution de l’audition vers la vision intuitifs codant le timbre en formes visuelles. / Abstract: Sensory substitution systems encode a stimulus modality into another stimulus modality. They can provide the means for handicapped people to perceive stimuli of an impaired modality through another modality. The purpose of this study was to investigate auditory to visual substitution systems. This type of sensory substitution is not well-studied probably because of the complexities of the auditory system and the difficulties arising from the mismatch between audible sounds that can change with frequencies up to 20000 Hz and visual stimuli that should change very slowly with time to be perceived. Two specific problems of auditory to visual substitution systems were targeted in this research: the investigation of audiovisual correspondences and the extraction of auditory features. An audiovisual experiment was conducted online to find the associations between the auditory (pitch and timbre) and visual (shape, color, height) features. One hundred and nineteen subjects took part in the experiments. A strong association between timbre of envelope normalized sounds and visual shapes was observed. Subjects strongly associated soft timbres with blue, green or light gray rounded shapes, harsh timbres with red, yellow or dark gray sharp angular shapes and timbres having elements of softness and harshness together with a mixture of the previous two shapes. Fundamental frequency was not associated with height, grayscale or color. Given the correspondence between timbre and shapes, in the next step, a flexible and multipurpose bio-inspired hierarchical model for analyzing timbre and extracting the important timbral features was developed. Inspired by findings in the fields of neuroscience, computational neuroscience, and psychoacoustics, not only does the model extract spectral and temporal characteristics of a signal, but it also analyzes amplitude modulations on different timescales. It uses a cochlear filter bank to resolve the spectral components of a sound, lateral inhibition to enhance spectral resolution, and a modulation filter bank to extract the global temporal envelope and roughness of the sound from amplitude modulations. To demonstrate its potential for timbre representation, the model was successfully evaluated in three applications: 1) comparison with subjective values of roughness, 2) musical instrument classification, and 3) feature selection for labeled timbres. The correspondence between timbre and shapes revealed by this study and the proposed model for timbre analysis can be used to develop intuitive auditory to visual substitution systems that encode timbre into visual shapes.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/8194 |
Date | January 2016 |
Creators | Adeli, Mohammad |
Contributors | Rouat, Jean, Molotchnikoff, Stéphane |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | English |
Detected Language | French |
Type | Thèse |
Rights | © Mohammad Adeli, Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 2.5 Canada, http://creativecommons.org/licenses/by-nc-sa/2.5/ca/ |
Page generated in 0.0028 seconds