Global ETD Search

1	Structured Interactive Scores Mauricio, Toro 25 September 2012 (has links) (PDF) La plupart des sc\'narios multimédia interactifs sont bas\'{e}s sur des sp\'cifications informelles, il n'est donc pas possible de v\'{e}rifier formellement des propri\'t\'{e}s de ces syst\'mes. Nous pr\'{e}conisons la n\'cessit\'{e} d'un mod\'le g\'{e}n\'ral et formel. Partitions interactives est un formalisme pour d\'{e}crire des sc\'narios multim\'{e}dia interactifs. Nous proposons une nouvelle s\'mantique pour les partitions interactives bas\'{e}e sur les structures d'\'v\'{e}nements temporisés. Avec une telle s\'mantique, nous pouvons sp\'{e}cifier des propri\'t\'{e}s pour le syst\'me, en particulier, des propri\'{e}t\'s sur les traces, qui sont difficiles \'{a} pr\'ciser avec la programmation par contraintes. Nous pr\'{e}sentons \'galement une s\'{e}mantique op\'rationnelle des partitions interactives bas\'{e}e sur le calcul non-d\'terministe, temporis\'{e}, concurrent, par contraintes (ntcc) et nous rapportons la s\'mantique operationelle \'{a} la semantique en structures d'\'v\'{e}nements temporisés. Avec la s\'mantique op\'{e}rationnelle, nous pouvons d\'crire formellement le comportement d'un scenario dont les dur\'{e}es des objets temporels peuvent \^{e}tre des intervalles d'entiers arbitraires. La s\'mantique op\'{e}rationnelle est obtenue \' partir de la s\'{e}mantique en structures d'\'v\'{e}nements temporisés de la partition interactive. Pour fournir une telle traduction, nous avons d'abord d\'fini la forme normale d'une structure d'\'{e}v\'nements temporisés, dans laquel les \'{e}v\'nements li\'{e}s avec une dur\'e z\'{e}ro sont regroup\'s en un seul. Nous avons \'{e}galement d\'fini la notion de structures d'\'{e}v\'nements temporisés r\'{e}partissables, de telle sorte que son graphe de contraintes peut \^{e}tre exp\'di\'{e} en se fondant uniquement sur la propagation locale. Nous croyons que la s\'mantique op\'{e}rationnelle bas\'e sur ntcc offre certains avantages par rapport \'{a} la s\'mantique des partitions interactives bas\'{e}e sur des r\'seaux de Petri; par exemple, les dur\'{e}es des objets temporels peuvent \^{e}tre des intervalles d'entiers arbitraires, tandis que dans la plupart des mod\'les de partitions interactives, les intervalles ne peut \^tre utilis\'{e}s que pour repr\'senter les relations telles que l'\'{e}galit\' et les inégalités. Nos mod\'{e}les ntcc de partitions interactives sont ex\'cut\'{e}s en utilisant Ntccrt, un interpr\'te temps r\'{e}el pour ntcc. Nos mod\'les peuvent \'{e}galement \^{e}tre v\'rifi\'{e}s automatiquement en utilisant ntccMC, un verificateur pour ntcc, de temps born\', bas\'{e}e sur les automates finis, que nous introduisons dans cette th\'se. En utilisant ntccMC, nous pouvons v\'{e}rifier des propri\'t\'{e}s de logique de temps lin\'aire avec des contrantes (CLTL). Dans cette th\'{e}se, nous introduisons deux extensions du formalisme de partitions interactives: (1) l'une pour g\'rer le traitement audio en utilisant le langage de programmation fran\c cais Faust et (2) l'autre pour traiter des condition et des branchements, permettant de sp\'{e}cifier des choix et des boucles. Pour la premi\'re extension, nous pr\'{e}sentons une s\'mantique bas\'{e}e sur les structures d'\'v\'{e}nements temporisés et des id\'es sur la fa\c con de d\'{e}finir une s\'mantique op\'{e}rationnelle. Pour la deuxi\'me extension, nous pr\'{e}sentons une mise en \oe uvre et la comparaison des r\'sultats du jitter relative moyenne d'une impl\'{e}mentation d'un arp\'ge base sur l'algorithme de Karplus-Strong par rapport aux impl\'{e}mentations existants \'crits dans Pure Data. Nous d\'{e}finissons aussi un format de sauvegarde XML pour les partitions interactives et pour la extension avec branchement conditionnel. Un format de sauvegarde est crucial pour assurer la persistance des partitions. [INFO:INFO_SD] Computer Science/Sound interactive scores concurrent constraint programming ntcc temporal constraints
2	L'individualisation des indices spectraux pour la spatialisation acoustique : étude perceptive de la variabilité inter-individuelle dans les fonctions de transfert relatives à la tête Schönstein, David 12 September 2012 (has links) (PDF) Cet ensemble de travaux porte sur les effets acoustiques de filtrage de la tête et du corps, ou la fonction de transfert acoustique (HRTF), et son rôle dans la perception des sources sonores dans l'espace. Des méthodes pour créer une illusion auditive haute fidélité, ce qu'on appelle un espace acoustique virtuel, en utilisant l'HRTF sont explorées. Un facteur essentiel pour générer une illusion convaincante est l'utilisation des HRTFs propres à l'auditeur. À cet effet, et dans l'intérêt de produire une solution adaptée pour le marché des consommateurs, une technique permettant de sélectionner un HRTF personnalisé à partir d'une base de données à l'aide d'un ensemble de dimensions de la tête et du corps a été évaluée. La validation a utilisé des jugements perceptifs d'un test d'écoute, et la fiabilité de ces jugements a été analysée. Une étude sur l'impact du type de casque utilisé a également été effectuée. [INFO:INFO_SD] Computer Science/Sound HRTF test d'écoute personnalisation individualisation synthèse binaurale indices spectraux casque
3	Classification automatique de flux radiophoniques par Machines à Vecteurs de Support Ramona, Mathieu 21 June 2010 (has links) (PDF) Nous présentons ici un système de classification audio parole/musique tirant parti des excellentes propriétés statistiques des Machines à Vecteurs de Support. Ce problème pose les trois questions suivantes : comment exploiter efficacement les SVM, méthode d'essence discriminatoire, sur un problème à plus de deux classes, comment caractériser un signal audio de manière pertinente, et enfin comment traiter l'aspect temporel du problème ? Nous proposons un système hybride de classification multi-classes tirant parti des approches un-contre-un et par dendogramme, et permettant l'estimation de probabilités a posteriori. Ces dernières sont exploitées pour l'application de méthodes de post-traitement prenant en compte les interdépendances entre trames voisines. Nous proposons ainsi une méthode de classification par l'application de Modèles de Markov Cachés (HMM) sur les probabilités a posteriori, ainsi qu'une approche basée sur la détection de rupture entre segments au contenu acoustique "homogène". Par ailleurs, la caractérisation du signal audio étant opérée par une grande collection des descripteurs audio, nous proposons de nouveaux algorithmes de sélection de descripteurs basés sur le récent critère d'Alignement du noyau ; critère que nous avons également exploité pour la sélection de noyau dans le processus de classification. Les algorithmes proposés sont comparés aux méthodes les plus efficaces de l'état de l'art auxquelles elles constituent une alternative pertinente en termes de coût de calcul et de stockage. Le système construit sur ces contributions a fait l'objet d'une participation à la campagne d'évaluation ESTER 2, que nous présentons, accompagnée de nos résultats. [STAT:ML] Statistics/Machine Learning [INFO:INFO_SD] Computer Science/Sound Machines à Vecteurs de Support SVM alignement KTA noyaux classification audio segmentation audio parole/musique sélection de descripteurs
4	Traitement et programmation temps-réel des signaux musicaux Cont, Arshia 30 May 2013 (has links) (PDF) Mes activités de recherche et d'encadrement, depuis ma soutenance de thèse en octobre 2008, gravitent à la confluence de deux problématiques souvent considérées comme distinctes dont le couplage est plus qu'évident en informatique musicale : l'écoute artificielle et la programmation synchrone des signaux musicaux en temps réel. Le but est d'enrichir chaque domaine respectivement et de fournir des outils nécessaires aux artistes pour étendre leurs capacités de création musicale sur ordinateur (à celui de leurs homologues humains). Le premier aspect de tout système de musique interactive est l'acte de l'écoute ou formellement parlant, l'extraction d'informations musicaux en temps réel. J'ai concentré mes efforts sur les approches axées sur les applications telles que la détection de pitch polyphonique et les techniques d'alignement en temps réel d'une part. Puis, d'autre part, j'ai abordé des problèmes fondamentaux liés à la représentation des signaux. Pour le premier volet, nous avons proposé deux approches reconnues comme l'état de l'art et renommées par leur utilisation par la communauté artistique et leur reconnaissance au sein de la communauté MIR. Le deuxième volet théorique porte sur le problème fondamental de la quantification et la qualification du contenu de l'information arrivant progressivement dans un système en utilisant des méthodes de la géométrie de l'information. Le deuxième et plus récent aspect de mon travail se concentre sur la programmation synchrone réactive de la musique, couplée à des systèmes d'écoute (ou la formalisation de réactions dans les systèmes interactifs aux perceptions artificielles en temps réel). Notre approche est motivée par les pratiques actuelles en art numérique et les exigences d'évaluation en temps réel qu'elles demandent. L'incarnation majeure de cette approche est le système Antescofo doté d'une machine d'écoute et d'un langage dynamique et qui s'est imposé dans le monde entier dans le répertoire de la musique mixte, reconnu du public depuis 2009. L'écriture du temps, l'interaction et la tentative d'assurer leur exécution correcte en temps réel posent des problèmes difficiles pour l'informatique et les concepteurs de systèmes. Ce couplage fort fera l'objet de mon travail dans les années à venir sous la bannière des systèmes de musique Cyber-physique. Le couplage entre la machine d'écoute et des langages temps réel nécessite d'augmenter les approches actuelles avec des modèles formels de temps, dépassant les approches fonctionnelles qui dominent pour développer une formalisation des exigences de réaction et d'exécution. Il faudra en conséquence repenser nos méthodes usuelles de traitement audio multiforme et leurs modèles de calculs sous-jacents en ce qui concerne le temps. [INFO:INFO_SD] Computer Science/Sound Informatique musicale programmation réactif synchrone système temps-réel
5	Sonification binaurale pour l'aide à la navigation Parseihian, Gaëtan 23 October 2012 (has links) (PDF) Dans cette thèse, nous proposons la mise en place d'un système de réalité augmentée fondé sur le son 3D et la sonification, ayant pour objectif de fournir les informations nécessaires aux non- voyants pour un déplacement fiable et sûr. La conception de ce système a été abordée selon trois axes. L'utilisation de la synthèse binaurale pour générer des sons 3D est limitée par le problème de l'individualisation des HRTF. Une méthode a été mise en place pour adapter les individus aux HRTF en utilisant la plasticité du cerveau. Évaluée avec une expérience de localisation, cette méthode a permis de montrer les possibilités d'acquisition rapide d'une carte audio-spatiale virtuelle sans utiliser la vision. La sonification de données spatiales a été étudiée dans le cadre d'un système permettant la préhension d'objet dans l'espace péripersonnel. Les capacités de localisation de sources sonores réelles et virtuelles ont été étudiées avec un test de localisation. Une technique de sonification de la distance a été développée. Consistant à relier le paramètre à sonifier aux paramètres d'un effet audio, cette technique peut être appliquée à tout type de son sans nécessiter d'apprentissage supplémentaire. Une stratégie de sonification permettant de prendre en compte les préférences des utilisateurs a été mise en place. Les " morphocons " sont des icônes sonores définis par des motifs de paramètres acoustiques. Cette méthode permet la construction d'un vocabulaire sonore indépendant du son utilisé. Un test de catégorisation a montré que les sujets sont capables de reconnaître des icônes sonores sur la base d'une description morphologique indépendamment du type de son utilisé. [INFO:INFO_SD] Computer Science/Sound réalité augmentée son 3D sonification aide à la navigation perception spatiale plasticité auditive
6	Méthodes Computationnelles en Géométrie de l'Information et Applications Temps Réel au Traitement du Signal Audio Dessein, Arnaud 13 December 2012 (has links) (PDF) Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle. [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning méthodes computationnelles géométrie de l'information applications temps réel traitement du signal audio détection de ruptures familles exponentielles factorisation en matrices non négatives divergences convexes-concaves segmentation audio transcription de musique polyphonique
7	Reconnaissance des sons de l'environnement dans un contexte domotique SEHILI, Mohamed El Amine 05 July 2013 (has links) (PDF) Dans beaucoup de pays du monde, on observe une importante augmentation du nombre de personnes âgées vivant seules. Depuis quelques années, un nombre significatif de projets de recherche sur l'assistance aux personnes âgées ont vu le jour. La plupart de ces projets utilisent plusieurs modalités (vidéo, son, détection de chute, etc.) pour surveiller l'activité de la personne et lui permettre de communiquer naturellement avec sa maison "intelligente", et, en cas de danger, lui venir en aide au plus vite. Ce travail a été réalisé dans le cadre du projet ANR VERSO de recherche industrielle, Sweet-Home. Les objectifs du projet sont de proposer un système domotique permettant une interaction naturelle (par commande vocale et tactile) avec la maison, et procurant plus de sécurité à l'habitant par la détection des situations de détresse. Dans ce cadre, l'objectif de ce travail est de proposer des solutions pour la reconnaissance des sons de la vie courante dans un contexte réaliste. La reconnaissance du son fonctionnera en amont d'un système de Reconnaissance Automatique de la Parole. Les performances de celui-ci dépendent donc de la fiabilité de la séparation entre la parole et les autres sons. Par ailleurs, une bonne reconnaissance de certains sons, complétée par d'autres sources informations (détection de présence, détection de chute, etc.) permettrait de bien suivre les activités de la personne et de détecter ainsi les situations de danger. Dans un premier temps, nous nous sommes intéressés aux méthodes en provenance de la Reconnaissance et Vérification du Locuteur. Dans cet esprit, nous avons testé des méthodes basées sur GMM et SVM. Nous avons, en particulier, testé le noyau SVM-GSL (SVM GMM Supervector Linear Kernel) utilisé pour la classification de séquences. SVM-GSL est une combinaison de SVM et GMM et consiste à transformer une séquence de vecteurs de longueur arbitraire en un seul vecteur de très grande taille, appelé Super Vecteur, et utilisé en entrée d'un SVM. Les expérimentations ont été menées en utilisant une base de données créée localement (18 classes de sons, plus de 1000 enregistrements), puis le corpus du projet Sweet-Home, en intégrant notre système dans un système plus complet incluant la détection multi-canaux du son et la reconnaissance de la parole. Ces premières expérimentations ont toutes été réalisées en utilisant un seul type de coefficients acoustiques, les MFCC. Par la suite, nous nous sommes penchés sur l'étude d'autres familles de coefficients en vue d'en évaluer l'utilisabilité en reconnaissance des sons de l'environnement. Notre motivation fut de trouver des représentations plus simples et/ou plus efficaces que les MFCC. En utilisant 15 familles différentes de coefficients, nous avons également expérimenté deux approches pour transformer une séquence de vecteurs en un seul vecteur, à utiliser avec un SVM linéaire. Dans le première approche, on calcule un nombre fixe de coefficients statistiques qui remplaceront toute la séquence de vecteurs. La seconde approche (une des contributions de ce travail) utilise une méthode de discrétisation pour trouver, pour chaque caractéristique d'un vecteur acoustique, les meilleurs points de découpage permettant d'associer une classe donnée à un ou plusieurs intervalles de valeurs. La probabilité de la séquence est estimée par rapport à chaque intervalle. Les probabilités obtenues ainsi sont utilisées pour construire un seul vecteur qui remplacera la séquence de vecteurs acoustiques. Les résultats obtenus montrent que certaines familles de coefficients sont effectivement plus adaptées pour reconnaître certaines classes de sons. En effet, pour la plupart des classes, les meilleurs taux de reconnaissance ont été observés avec une ou plusieurs familles de coefficients différentes des MFCC. Certaines familles sont, de surcroît, moins complexes et comptent une seule caractéristique par fenêtre d'analyse contre 16 caractéristiques pour les MFCC [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son Reconnaissance du son Sons de l'environnement Domotique SVM (Support Vector Machines) GMM (Gaussian Mixture Models)
8	Synthèse par règles de la voix chantée contrôlée par le geste et applications musicales Feugère, Lionel 26 September 2013 (has links) (PDF) Le travail de cette thèse porte sur la modélisation de la production et du contrôle de voix chantée synthétique dans la perspective de la lutherie numérique. Nous présentons deux instruments : le Cantor Digitalis, se focalisant sur le contrôle de voyelles chantées et sur l'individualisation des voix ; et le Digitartic, destiné au contrôle de l'articulation de syllabes de type Voyelle-Consonne-Voyelle. Ils permettent, à l'aide de tablettes graphiques augmentées, des applications musicales interactives nécessitant un contrôle temporel fin des paramètres de la production vocale. La pertinence musicale de ces instruments a été établie avec notre ensemble Chorus Digitalis en participant à plusieurs concerts. Nous avons étudié en situation musicale la justesse inter-musiciens et les gestes utilisés pour réaliser les tâches musicales nécessaires à la reproduction d'un large répertoire, constitué de musiques actuelles et traditionnelles (chorale baroque, chant khayal d'Inde du Nord). Notamment, une expérience visant à analyser la faculté à contrôler la fréquence fondamentale du Cantor Digitalis a été entreprise. Les sujets devaient imiter des intervalles et quelques mélodies suivant trois modalités (avec leur propre voix, à la tablette sans et avec retour audio). Les résultats montrent une aptitude plus grande des sujets à jouer de manière précise avec la tablette plutôt qu'avec leur propre voix, tandis que l'apport de l'audio sur le jeu à la tablette est nulle dans ces conditions expérimentales. Les deux instruments sont regroupés dans une application écrite en Max/MSP fournissant également un outil pédagogique audio-visuel et interactif sur le fonctionnement de la voix. [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son synthèse vocale contrôle gestuel voix chantée gestes musicaux instruments numériques orchestre numérique

Search results