• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 3
  • 2
  • Tagged with
  • 8
  • 8
  • 8
  • 8
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Structured Interactive Scores

Mauricio, Toro 25 September 2012 (has links) (PDF)
La plupart des sc\'narios multimédia interactifs sont bas\'{e}s sur des sp\'cifications informelles, il n'est donc pas possible de v\'{e}rifier formellement des propri\'t\'{e}s de ces syst\'mes. Nous pr\'{e}conisons la n\'cessit\'{e} d'un mod\'le g\'{e}n\'ral et formel. Partitions interactives est un formalisme pour d\'{e}crire des sc\'narios multim\'{e}dia interactifs. Nous proposons une nouvelle s\'mantique pour les partitions interactives bas\'{e}e sur les structures d'\'v\'{e}nements temporisés. Avec une telle s\'mantique, nous pouvons sp\'{e}cifier des propri\'t\'{e}s pour le syst\'me, en particulier, des propri\'{e}t\'s sur les traces, qui sont difficiles \'{a} pr\'ciser avec la programmation par contraintes. Nous pr\'{e}sentons \'galement une s\'{e}mantique op\'rationnelle des partitions interactives bas\'{e}e sur le calcul non-d\'terministe, temporis\'{e}, concurrent, par contraintes (ntcc) et nous rapportons la s\'mantique operationelle \'{a} la semantique en structures d'\'v\'{e}nements temporisés. Avec la s\'mantique op\'{e}rationnelle, nous pouvons d\'crire formellement le comportement d'un scenario dont les dur\'{e}es des objets temporels peuvent \^{e}tre des intervalles d'entiers arbitraires. La s\'mantique op\'{e}rationnelle est obtenue \' partir de la s\'{e}mantique en structures d'\'v\'{e}nements temporisés de la partition interactive. Pour fournir une telle traduction, nous avons d'abord d\'fini la forme normale d'une structure d'\'{e}v\'nements temporisés, dans laquel les \'{e}v\'nements li\'{e}s avec une dur\'e z\'{e}ro sont regroup\'s en un seul. Nous avons \'{e}galement d\'fini la notion de structures d'\'{e}v\'nements temporisés r\'{e}partissables, de telle sorte que son graphe de contraintes peut \^{e}tre exp\'di\'{e} en se fondant uniquement sur la propagation locale. Nous croyons que la s\'mantique op\'{e}rationnelle bas\'e sur ntcc offre certains avantages par rapport \'{a} la s\'mantique des partitions interactives bas\'{e}e sur des r\'seaux de Petri; par exemple, les dur\'{e}es des objets temporels peuvent \^{e}tre des intervalles d'entiers arbitraires, tandis que dans la plupart des mod\'les de partitions interactives, les intervalles ne peut \^tre utilis\'{e}s que pour repr\'senter les relations telles que l'\'{e}galit\' et les inégalités. Nos mod\'{e}les ntcc de partitions interactives sont ex\'cut\'{e}s en utilisant Ntccrt, un interpr\'te temps r\'{e}el pour ntcc. Nos mod\'les peuvent \'{e}galement \^{e}tre v\'rifi\'{e}s automatiquement en utilisant ntccMC, un verificateur pour ntcc, de temps born\', bas\'{e}e sur les automates finis, que nous introduisons dans cette th\'se. En utilisant ntccMC, nous pouvons v\'{e}rifier des propri\'t\'{e}s de logique de temps lin\'aire avec des contrantes (CLTL). Dans cette th\'{e}se, nous introduisons deux extensions du formalisme de partitions interactives: (1) l'une pour g\'rer le traitement audio en utilisant le langage de programmation fran\c cais Faust et (2) l'autre pour traiter des condition et des branchements, permettant de sp\'{e}cifier des choix et des boucles. Pour la premi\'re extension, nous pr\'{e}sentons une s\'mantique bas\'{e}e sur les structures d'\'v\'{e}nements temporisés et des id\'es sur la fa\c con de d\'{e}finir une s\'mantique op\'{e}rationnelle. Pour la deuxi\'me extension, nous pr\'{e}sentons une mise en \oe uvre et la comparaison des r\'sultats du jitter relative moyenne d'une impl\'{e}mentation d'un arp\'ge base sur l'algorithme de Karplus-Strong par rapport aux impl\'{e}mentations existants \'crits dans Pure Data. Nous d\'{e}finissons aussi un format de sauvegarde XML pour les partitions interactives et pour la extension avec branchement conditionnel. Un format de sauvegarde est crucial pour assurer la persistance des partitions.
2

L'individualisation des indices spectraux pour la spatialisation acoustique : étude perceptive de la variabilité inter-individuelle dans les fonctions de transfert relatives à la tête

Schönstein, David 12 September 2012 (has links) (PDF)
Cet ensemble de travaux porte sur les effets acoustiques de filtrage de la tête et du corps, ou la fonction de transfert acoustique (HRTF), et son rôle dans la perception des sources sonores dans l'espace. Des méthodes pour créer une illusion auditive haute fidélité, ce qu'on appelle un espace acoustique virtuel, en utilisant l'HRTF sont explorées. Un facteur essentiel pour générer une illusion convaincante est l'utilisation des HRTFs propres à l'auditeur. À cet effet, et dans l'intérêt de produire une solution adaptée pour le marché des consommateurs, une technique permettant de sélectionner un HRTF personnalisé à partir d'une base de données à l'aide d'un ensemble de dimensions de la tête et du corps a été évaluée. La validation a utilisé des jugements perceptifs d'un test d'écoute, et la fiabilité de ces jugements a été analysée. Une étude sur l'impact du type de casque utilisé a également été effectuée.
3

Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

Ramona, Mathieu 21 June 2010 (has links) (PDF)
Nous présentons ici un système de classification audio parole/musique tirant parti des excellentes propriétés statistiques des Machines à Vecteurs de Support. Ce problème pose les trois questions suivantes : comment exploiter efficacement les SVM, méthode d'essence discriminatoire, sur un problème à plus de deux classes, comment caractériser un signal audio de manière pertinente, et enfin comment traiter l'aspect temporel du problème ? Nous proposons un système hybride de classification multi-classes tirant parti des approches un-contre-un et par dendogramme, et permettant l'estimation de probabilités a posteriori. Ces dernières sont exploitées pour l'application de méthodes de post-traitement prenant en compte les interdépendances entre trames voisines. Nous proposons ainsi une méthode de classification par l'application de Modèles de Markov Cachés (HMM) sur les probabilités a posteriori, ainsi qu'une approche basée sur la détection de rupture entre segments au contenu acoustique "homogène". Par ailleurs, la caractérisation du signal audio étant opérée par une grande collection des descripteurs audio, nous proposons de nouveaux algorithmes de sélection de descripteurs basés sur le récent critère d'Alignement du noyau ; critère que nous avons également exploité pour la sélection de noyau dans le processus de classification. Les algorithmes proposés sont comparés aux méthodes les plus efficaces de l'état de l'art auxquelles elles constituent une alternative pertinente en termes de coût de calcul et de stockage. Le système construit sur ces contributions a fait l'objet d'une participation à la campagne d'évaluation ESTER 2, que nous présentons, accompagnée de nos résultats.
4

Traitement et programmation temps-réel des signaux musicaux

Cont, Arshia 30 May 2013 (has links) (PDF)
Mes activités de recherche et d'encadrement, depuis ma soutenance de thèse en octobre 2008, gravitent à la confluence de deux problématiques souvent considérées comme distinctes dont le couplage est plus qu'évident en informatique musicale : l'écoute artificielle et la programmation synchrone des signaux musicaux en temps réel. Le but est d'enrichir chaque domaine respectivement et de fournir des outils nécessaires aux artistes pour étendre leurs capacités de création musicale sur ordinateur (à celui de leurs homologues humains). Le premier aspect de tout système de musique interactive est l'acte de l'écoute ou formellement parlant, l'extraction d'informations musicaux en temps réel. J'ai concentré mes efforts sur les approches axées sur les applications telles que la détection de pitch polyphonique et les techniques d'alignement en temps réel d'une part. Puis, d'autre part, j'ai abordé des problèmes fondamentaux liés à la représentation des signaux. Pour le premier volet, nous avons proposé deux approches reconnues comme l'état de l'art et renommées par leur utilisation par la communauté artistique et leur reconnaissance au sein de la communauté MIR. Le deuxième volet théorique porte sur le problème fondamental de la quantification et la qualification du contenu de l'information arrivant progressivement dans un système en utilisant des méthodes de la géométrie de l'information. Le deuxième et plus récent aspect de mon travail se concentre sur la programmation synchrone réactive de la musique, couplée à des systèmes d'écoute (ou la formalisation de réactions dans les systèmes interactifs aux perceptions artificielles en temps réel). Notre approche est motivée par les pratiques actuelles en art numérique et les exigences d'évaluation en temps réel qu'elles demandent. L'incarnation majeure de cette approche est le système Antescofo doté d'une machine d'écoute et d'un langage dynamique et qui s'est imposé dans le monde entier dans le répertoire de la musique mixte, reconnu du public depuis 2009. L'écriture du temps, l'interaction et la tentative d'assurer leur exécution correcte en temps réel posent des problèmes difficiles pour l'informatique et les concepteurs de systèmes. Ce couplage fort fera l'objet de mon travail dans les années à venir sous la bannière des systèmes de musique Cyber-physique. Le couplage entre la machine d'écoute et des langages temps réel nécessite d'augmenter les approches actuelles avec des modèles formels de temps, dépassant les approches fonctionnelles qui dominent pour développer une formalisation des exigences de réaction et d'exécution. Il faudra en conséquence repenser nos méthodes usuelles de traitement audio multiforme et leurs modèles de calculs sous-jacents en ce qui concerne le temps.
5

Sonification binaurale pour l'aide à la navigation

Parseihian, Gaëtan 23 October 2012 (has links) (PDF)
Dans cette thèse, nous proposons la mise en place d'un système de réalité augmentée fondé sur le son 3D et la sonification, ayant pour objectif de fournir les informations nécessaires aux non- voyants pour un déplacement fiable et sûr. La conception de ce système a été abordée selon trois axes. L'utilisation de la synthèse binaurale pour générer des sons 3D est limitée par le problème de l'individualisation des HRTF. Une méthode a été mise en place pour adapter les individus aux HRTF en utilisant la plasticité du cerveau. Évaluée avec une expérience de localisation, cette méthode a permis de montrer les possibilités d'acquisition rapide d'une carte audio-spatiale virtuelle sans utiliser la vision. La sonification de données spatiales a été étudiée dans le cadre d'un système permettant la préhension d'objet dans l'espace péripersonnel. Les capacités de localisation de sources sonores réelles et virtuelles ont été étudiées avec un test de localisation. Une technique de sonification de la distance a été développée. Consistant à relier le paramètre à sonifier aux paramètres d'un effet audio, cette technique peut être appliquée à tout type de son sans nécessiter d'apprentissage supplémentaire. Une stratégie de sonification permettant de prendre en compte les préférences des utilisateurs a été mise en place. Les " morphocons " sont des icônes sonores définis par des motifs de paramètres acoustiques. Cette méthode permet la construction d'un vocabulaire sonore indépendant du son utilisé. Un test de catégorisation a montré que les sujets sont capables de reconnaître des icônes sonores sur la base d'une description morphologique indépendamment du type de son utilisé.
6

Méthodes Computationnelles en Géométrie de l'Information et Applications Temps Réel au Traitement du Signal Audio

Dessein, Arnaud 13 December 2012 (has links) (PDF)
Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle.
7

Reconnaissance des sons de l'environnement dans un contexte domotique

SEHILI, Mohamed El Amine 05 July 2013 (has links) (PDF)
Dans beaucoup de pays du monde, on observe une importante augmentation du nombre de personnes âgées vivant seules. Depuis quelques années, un nombre significatif de projets de recherche sur l'assistance aux personnes âgées ont vu le jour. La plupart de ces projets utilisent plusieurs modalités (vidéo, son, détection de chute, etc.) pour surveiller l'activité de la personne et lui permettre de communiquer naturellement avec sa maison "intelligente", et, en cas de danger, lui venir en aide au plus vite. Ce travail a été réalisé dans le cadre du projet ANR VERSO de recherche industrielle, Sweet-Home. Les objectifs du projet sont de proposer un système domotique permettant une interaction naturelle (par commande vocale et tactile) avec la maison, et procurant plus de sécurité à l'habitant par la détection des situations de détresse. Dans ce cadre, l'objectif de ce travail est de proposer des solutions pour la reconnaissance des sons de la vie courante dans un contexte réaliste. La reconnaissance du son fonctionnera en amont d'un système de Reconnaissance Automatique de la Parole. Les performances de celui-ci dépendent donc de la fiabilité de la séparation entre la parole et les autres sons. Par ailleurs, une bonne reconnaissance de certains sons, complétée par d'autres sources informations (détection de présence, détection de chute, etc.) permettrait de bien suivre les activités de la personne et de détecter ainsi les situations de danger. Dans un premier temps, nous nous sommes intéressés aux méthodes en provenance de la Reconnaissance et Vérification du Locuteur. Dans cet esprit, nous avons testé des méthodes basées sur GMM et SVM. Nous avons, en particulier, testé le noyau SVM-GSL (SVM GMM Supervector Linear Kernel) utilisé pour la classification de séquences. SVM-GSL est une combinaison de SVM et GMM et consiste à transformer une séquence de vecteurs de longueur arbitraire en un seul vecteur de très grande taille, appelé Super Vecteur, et utilisé en entrée d'un SVM. Les expérimentations ont été menées en utilisant une base de données créée localement (18 classes de sons, plus de 1000 enregistrements), puis le corpus du projet Sweet-Home, en intégrant notre système dans un système plus complet incluant la détection multi-canaux du son et la reconnaissance de la parole. Ces premières expérimentations ont toutes été réalisées en utilisant un seul type de coefficients acoustiques, les MFCC. Par la suite, nous nous sommes penchés sur l'étude d'autres familles de coefficients en vue d'en évaluer l'utilisabilité en reconnaissance des sons de l'environnement. Notre motivation fut de trouver des représentations plus simples et/ou plus efficaces que les MFCC. En utilisant 15 familles différentes de coefficients, nous avons également expérimenté deux approches pour transformer une séquence de vecteurs en un seul vecteur, à utiliser avec un SVM linéaire. Dans le première approche, on calcule un nombre fixe de coefficients statistiques qui remplaceront toute la séquence de vecteurs. La seconde approche (une des contributions de ce travail) utilise une méthode de discrétisation pour trouver, pour chaque caractéristique d'un vecteur acoustique, les meilleurs points de découpage permettant d'associer une classe donnée à un ou plusieurs intervalles de valeurs. La probabilité de la séquence est estimée par rapport à chaque intervalle. Les probabilités obtenues ainsi sont utilisées pour construire un seul vecteur qui remplacera la séquence de vecteurs acoustiques. Les résultats obtenus montrent que certaines familles de coefficients sont effectivement plus adaptées pour reconnaître certaines classes de sons. En effet, pour la plupart des classes, les meilleurs taux de reconnaissance ont été observés avec une ou plusieurs familles de coefficients différentes des MFCC. Certaines familles sont, de surcroît, moins complexes et comptent une seule caractéristique par fenêtre d'analyse contre 16 caractéristiques pour les MFCC
8

Synthèse par règles de la voix chantée contrôlée par le geste et applications musicales

Feugère, Lionel 26 September 2013 (has links) (PDF)
Le travail de cette thèse porte sur la modélisation de la production et du contrôle de voix chantée synthétique dans la perspective de la lutherie numérique. Nous présentons deux instruments : le Cantor Digitalis, se focalisant sur le contrôle de voyelles chantées et sur l'individualisation des voix ; et le Digitartic, destiné au contrôle de l'articulation de syllabes de type Voyelle-Consonne-Voyelle. Ils permettent, à l'aide de tablettes graphiques augmentées, des applications musicales interactives nécessitant un contrôle temporel fin des paramètres de la production vocale. La pertinence musicale de ces instruments a été établie avec notre ensemble Chorus Digitalis en participant à plusieurs concerts. Nous avons étudié en situation musicale la justesse inter-musiciens et les gestes utilisés pour réaliser les tâches musicales nécessaires à la reproduction d'un large répertoire, constitué de musiques actuelles et traditionnelles (chorale baroque, chant khayal d'Inde du Nord). Notamment, une expérience visant à analyser la faculté à contrôler la fréquence fondamentale du Cantor Digitalis a été entreprise. Les sujets devaient imiter des intervalles et quelques mélodies suivant trois modalités (avec leur propre voix, à la tablette sans et avec retour audio). Les résultats montrent une aptitude plus grande des sujets à jouer de manière précise avec la tablette plutôt qu'avec leur propre voix, tandis que l'apport de l'audio sur le jeu à la tablette est nulle dans ces conditions expérimentales. Les deux instruments sont regroupés dans une application écrite en Max/MSP fournissant également un outil pédagogique audio-visuel et interactif sur le fonctionnement de la voix.

Page generated in 0.0771 seconds