• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 7
  • Tagged with
  • 15
  • 15
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Vers l'assistance à l'exploration pertinente et réaliste d'environnements 3D très denses / Towards assistive, relevant and realistic exploration of 3D dense environments

Habibi, Zaynab 08 December 2015 (has links)
Dans cette thèse, nous traitons le problème de la navigation dans un environnement virtuel 3D. En particulier, les environnements, sous forme d'un nuage de centaines de millions de points, sont difficiles à appréhender par un novice. La complexité et la richesse en détails du nuage de points 3D de la cathédrale d'Amiens peuvent ainsi entraîner une désorientation et une visualisation non pertinente avec les outils (logiciels et interfaces) existants. Les contributions de la thèse portent sur le contrôle de caméra virtuelle, automatique et assisté, en exploitant des informations visuelles 2D de l'image et d'autres informations 3D de l'environnement. Pour garantir la pertinence visuelle, nous proposons deux méthodes de guidage de caméra, l'une basée entropie photométrique et la seconde, représentant la contribution majeure de cette thèse, définit et exploite le mélange de gaussiennes basées saillance visuelle. Le formalisme d'asservissement visuel permet de relier la modélisation de l'image aux degrés de liberté de la caméra. L'évitement d'obstacles, la fluidité du mouvement et l'orientation appropriée de la caméra sont des contraintes supplémentaires, prises en compte pour deux types de navigations : le cadrage local et l'exploration globale. Le but du cadrage visuel est de déplacer la caméra en utilisant la nouvelle primitive photométrique du mélange de gaussiennes basées saillance, afin d'atteindre un point de vue pertinent pour la visualisation d'un objet. L'approche a été testée en simulation, sur un nuage de points dense et aussi dans un environnement réel avec un robot. En ce qui concerne l'exploration, deux méthodes ont été proposées. La première automatique en utilisant l'entropie photométrique et les contraintes de réalisme du mouvement. Le problème est résolu à l'aide d'un algorithme d'optimisation hybride et hiérarchique. Ensuite, une approche d'exploration assistée a été proposée, où, l'utilisateur définit un ensemble de zones à visiter. À ce dernier, s'ajoutent différentes contraintes pour assurer une navigation réaliste et pertinente. La résolution s'appuie sur une loi de contrôle hiérarchique qui utilise le formalisme de redondance. Ces deux méthodes d'exploration ont été testées sur des nuages de points très vastes et complexes, notamment celui de la cathédrale Notre Dame d'Amiens. / In this thesis, we address the issue of navigation in virtual 3D environment. In particular, environments made of hundreds of millions of points, which are difficult to bring under control by a novice. The complexity and the wealth of details of the 3D point cloud of the cathedral of Amiens can result in a disorientation and in an irrelevant visualization with existing tools (interfaces). The contributions of the thesis deal with automatic or assisted camera control exploiting 2D visual information from the image and other 3D information from the environment. To ensure the visual relevance, we propose two methods to pilot the camera, one based on the photometric entropy and the second representing the major contribution of this thesis, defines and exploits the saliency-based Gaussian mixture. The visual servoing formalism is used to link the image modelling to the camera degrees of freedom. The obstacle avoidance, the fluidity of motion and appropriate camera orientation are considered as additional constraints taken into account in two navigation modes: the local framing and the global exploration. The goal of visual framing is to move the camera by maximizing the saliency-based Gaussian mixture feature, in order to reach a relevant viewpoint to visualize an object. We test this approach in synthetic model, 3D points cloud model and in a real environment with a robot. Regarding exploration, we present first an automatic camera control exploiting the photometric entropy and some constraints to ensure realistic motion. The problem is solved using an hybrid and hierarchical optimization algorithm. Then, we present a navigation aid system helping the user to explore a part or the whole 3D environment. The system is built using the redundancy formalism taking into account several constraints. These approaches were tested on simple and complex dense 3D points cloud
2

Noise sources in robust uncompressed video watermarking

Dumitru, Corneliu Octavian 11 January 2010 (has links) (PDF)
Cette thèse traite de ce verrou théorique pour des vidéos naturelles. Les contributions scientifiques développées ont permis : 1. De réfuter mathématiquement le modèle gaussien en général adopté dans la littérature pour représenter le bruit de canal ; 2. D'établir pour la première fois, le caractère stationnaire des processus aléatoires représentant le bruit de canal, la méthode développée étant indépendante du type de données, de leur traitement et de la procédure d'estimation ; 3. De proposer une méthodologie de modélisation du bruit de canal à partir d'un mélange de gaussiennes pour une transformée aussi bien en cosinus discrète qu'en ondelette discrète et pour un large ensemble d'attaques (filtrage, rotation, compression, StirMark, ...). L'intérêt de cette approche est entre autres de permettre le calcul exact de la capacité du canal alors que la littérature ne fournissait que des bornes supérieure et inférieure. 4. Les contributions technologique concernent l'intégration et l'implémentions de ces modèles dans la méthode du tatouage IProtect brevetée Institut Télécom/ARTEMIS et SFR avec un gain en temps d'exécution d'un facteur 100 par rapport à l'état de l'art.
3

Unsupervised Gaussian mixture models for the classification of outdoor environments using 3D terrestrial lidar data / Modèles de mélange gaussien sans surveillance pour la classification des environnements extérieurs en utilisant des données 3D de lidar terrestre

Fernandes maligo, Artur otavio 28 January 2016 (has links)
Le traitement de nuages de points 3D de lidars permet aux robots mobiles autonomes terrestres de construire des modèles sémantiques de l'environnement extérieur dans lequel ils évoluent. Ces modèles sont intéressants car ils représentent des informations qualitatives, et ainsi donnent à un robot la capacité de raisonner à un niveau plus élevé d'abstraction. Le coeur d'un système de modélisation sémantique est la capacité de classifier les observations venant du capteur. Nous proposons un système de classification centré sur l'apprentissage non-supervisé. La prémière couche, la couche intermédiaire, consiste en un modèle de mélange gaussien. Ce modèle est déterminé de manière non-supervisée lors d'une étape de training. Il definit un ensemble de classes intermédiaires qui correspond à une partition fine des classes présentes dans l'environnement. La deuxième couche, la couche finale, consiste en un regroupement des classes intermédiaires dans un ensemble de classes finales qui, elles, sont interprétables dans le contexte de la tâche ciblée. Le regroupement est déterminé par un expert lors de l'étape de training, de manière supervisée, mais guidée par les classes intermédiaires. L'évaluation est basée sur deux jeux de données acquis avec de différents lidars et possédant différentes caractéristiques. L'évaluation est quantitative pour l'un des jeux de données, et qualitative pour l'autre. La concéption du système utilise la procédure standard de l'apprentissage, basée sur les étapes de training, validation et test. L'opération suit la pipeline standard de classification. Le système est simple, et ne requiert aucun pré-traitement ou post-traitement. / The processing of 3D lidar point clouds enable terrestrial autonomous mobile robots to build semantic models of the outdoor environments in which they operate. Such models are interesting because they encode qualitative information, and thus provide to a robot the ability to reason at a higher level of abstraction. At the core of a semantic modelling system, lies the capacity to classify the sensor observations. We propose a two-layer classi- fication model which strongly relies on unsupervised learning. The first, intermediary layer consists of a Gaussian mixture model. This model is determined in a training step in an unsupervised manner, and defines a set of intermediary classes which is a fine-partitioned representation of the environment. The second, final layer consists of a grouping of the intermediary classes into final classes that are interpretable in a considered target task. This grouping is determined by an expert during the training step, in a process which is supervised, yet guided by the intermediary classes. The evaluation is done for two datasets acquired with different lidars and possessing different characteristics. It is done quantitatively using one of the datasets, and qualitatively using another. The system is designed following the standard learning procedure, based on a training, a validation and a test steps. The operation follows a standard classification pipeline. The system is simple, with no requirement of pre-processing or post-processing stages.
4

Noise sources in robust uncompressed video watermarking / Les sources de bruit dans le tatouage robuste de vidéo non-compressée

Dumitru, Corneliu Octavian 11 January 2010 (has links)
Cette thèse traite de ce verrou théorique pour des vidéos naturelles. Les contributions scientifiques développées ont permis : 1. De réfuter mathématiquement le modèle gaussien en général adopté dans la littérature pour représenter le bruit de canal ; 2. D’établir pour la première fois, le caractère stationnaire des processus aléatoires représentant le bruit de canal, la méthode développée étant indépendante du type de données, de leur traitement et de la procédure d’estimation ; 3. De proposer une méthodologie de modélisation du bruit de canal à partir d’un mélange de gaussiennes pour une transformée aussi bien en cosinus discrète qu’en ondelette discrète et pour un large ensemble d’attaques (filtrage, rotation, compression, StirMark, …). L’intérêt de cette approche est entre autres de permettre le calcul exact de la capacité du canal alors que la littérature ne fournissait que des bornes supérieure et inférieure. 4. Les contributions technologique concernent l’intégration et l’implémentions de ces modèles dans la méthode du tatouage IProtect brevetée Institut Télécom/ARTEMIS et SFR avec un gain en temps d’exécution d’un facteur 100 par rapport à l’état de l’art. / The thesis is focus on natural video and attack modelling for uncompressed video watermarking purposes. By reconsidering a statistical investigation combining four types of statistical tests, the thesis starts by identifying with accuracy the drawbacks and limitations of the popular Gaussian model in watermarking applications. Further on, an advanced statistical approach is developed in order to establish with mathematical rigour: 1. That a mathematical model for the original video content and/or attacks exists; 2. The model parameters. From the theoretical point of view, this means to prove for the first time the stationarity of the random processes representing the natural video and/or the watermarking attacks. These general results have been already validated under applicative and theoretical frameworks. On the one hand, when integrating the attack models into the IProtect watermarking method patented by Institut Télécom/ARTEMIS and SFR, a speed-up by a factor of 100 of the insertion procedure has been obtained. On the other hand, accurate models for natural video and attacks allowed the increasing of the precision in the computation of some basic information theory entities (entropies and capacity).
5

Modélisation et utilisation des erreurs de pseudodistances GNSS en environnement transport pour l'amélioration des performances de localisation

Viandier, Nicolas 07 June 2011 (has links) (PDF)
Les GNSS sont désormais largement présents dans le domaine des transports. Actuellement, la communauté scientifique désire développer des applications nécessitant une grande précision, disponibilité et intégrité.Ces systèmes offrent un service de position continu. Les performances sont définies par les paramètres du système mais également par l'environnement de propagation dans lequel se propagent les signaux. Les caractéristiques de propagation dans l'atmosphère sont connues. En revanche, il est plus difficile de prévoir l'impact de l'environnement proche de l'antenne, composé d'obstacles urbains. L'axe poursuivit par le LEOST et le LAGIS consiste à appréhender l'environnement et à utiliser cette information en complément de l'information GNSS. Cette approche vise à réduire le nombre de capteurs et ainsi la complexité du système et son coût. Les travaux de recherche menés dans le cadre de cette thèse permettent principalement de proposer des modélisations d'erreur de pseudodistances et des modélisations de l'état de réception encore plus réalistes. Après une étape de caractérisation de l'erreur, plusieurs modèles d'erreur de pseudodistance sont proposés. Ces modèles sont le mélange fini de gaussiennes et le mélange de processus de Dirichlet. Les paramètres du modèle sont estimés conjointement au vecteur d'état contenant la position grâce à une solution de filtrage adaptée comme le filtre particulaire Rao-Blackwellisé. L'évolution du modèle de bruit permet de s'adapter à l'environnement et donc de fournir une localisation plus précise. Les différentes étapes des travaux réalisés dans cette thèse ont été testées et validées sur données de simulation et réelles.
6

Communication silencieuse: conversion de la parole chuchotée en parole claire

Tran, Viet-Anh 28 January 2010 (has links) (PDF)
La parole silencieuse ou murmurée est définie comme la production articulée de sons, avec très peu de vibration des cordes vocales dans le cas du chuchotement, et aucune vibration dans le cas du murmure, produite par les mouvements et les interactions des organes de la parole tels que la langue, le voile du palais, les lèvres, etc., dans le but d'éviter d'être entendue par plusieurs personnes. La parole silencieuse ou murmurée est utilisée généralement pour la communication privée et confidentielle ou peut être employée par les personnes présentant un handicap laryngé et qui ne peuvent pas parler normalement. Cependant, il est difficile d'employer directement la parole silencieuse (murmurée) pour la communication face à face ou avec un téléphone portable parce que le contenu linguistique et l'information paralinguistique dans le message prononcé sont dégradés fortement quand le locuteur murmure ou chuchote. Une piste récente de recherche est donc celle de la conversion de la parole silencieuse (ou murmurée) en voix claire afin d'avoir une voix plus intelligible et plus naturelle. Avec une telle conversion, des applications potentielles telles que la téléphonie silencieuse " ou des systèmes d'aides robustes pour les handicaps laryngés deviendraient envisageables. Notre travail dans cette thèse se concentre donc sur cette piste.
7

On unsupervised learning in high dimension / Sur l'apprentissage non supervisé en haute dimension

Sebbar, Mehdi 12 December 2017 (has links)
Dans ce mémoire de thèse, nous abordons deux thèmes, le clustering en haute dimension d'une part et l'estimation de densités de mélange d'autre part. Le premier chapitre est une introduction au clustering. Nous y présentons différentes méthodes répandues et nous nous concentrons sur un des principaux modèles de notre travail qui est le mélange de Gaussiennes. Nous abordons aussi les problèmes inhérents à l'estimation en haute dimension et la difficulté d'estimer le nombre de clusters. Nous exposons brièvement ici les notions abordées dans ce manuscrit. Considérons une loi mélange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les paramètres du mélange est d'utiliser l'estimateur du maximum de vraisemblance. Ce problème n'étant pas convexe, on ne peut garantir la convergence des méthodes classiques. Cependant, en exploitant la biconvexité de la log-vraisemblance négative, on peut utiliser la procédure itérative 'Expectation-Maximization' (EM). Malheureusement, cette méthode n'est pas bien adaptée pour relever les défis posés par la grande dimension. Par ailleurs, cette méthode requiert de connaître le nombre de clusters. Le Chapitre 2 présente trois méthodes que nous avons développées pour tenter de résoudre les problèmes décrits précédemment. Les travaux qui y sont exposés n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La première méthode, 'lasso graphique sur des mélanges de Gaussiennes', consiste à estimer les matrices inverses des matrices de covariance dans l'hypothèse où celles-ci sont parcimonieuses. Nous adaptons la méthode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un mélange et nous évaluons expérimentalement cette méthode. Les deux autres méthodes abordent le problème d'estimation du nombre de clusters dans le mélange. La première est une estimation pénalisée de la matrice des probabilités postérieures dont la composante (i,j) est la probabilité que la i-ème observation soit dans le j-ème cluster. Malheureusement, cette méthode s'est avérée trop coûteuse en complexité. Enfin, la deuxième méthode considérée consiste à pénaliser le vecteur de poids afin de le rendre parcimonieux. Cette méthode montre des résultats prometteurs. Dans le Chapitre 3, nous étudions l'estimateur du maximum de vraisemblance d'une densité de n observations i.i.d. sous l’hypothèse qu'elle est bien approximée par un mélange de plusieurs densités données. Nous nous intéressons aux performances de l'estimateur par rapport à la perte de Kullback-Leibler. Nous établissons des bornes de risque sous la forme d'inégalités d'oracle exactes, que ce soit en probabilité ou en espérance. Nous démontrons à travers ces bornes que, dans le cas du problème d’agrégation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale à un terme logarithmique près, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l’hypothèse supplémentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilité, les inégalités d'oracles obtenues donnent la vitesse optimale dans le scénario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En complément de ces inégalités d'oracle, nous introduisons la notion d’agrégation (presque)-D-parcimonieuse et établissons pour ce type d’agrégation les bornes inférieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui réalise l'agrégation en Kullback-Leibler de composantes d'un dictionnaire telle qu'étudiée dans le Chapitre 3. Nous comparons sa performance avec différentes méthodes. Nous proposons ensuite une méthode pour construire le dictionnaire de densités et l’étudions de manière numérique. Cette thèse a été effectué dans le cadre d’une convention CIFRE avec l’entreprise ARTEFACT. / In this thesis, we discuss two topics, high-dimensional clustering on the one hand and estimation of mixing densities on the other. The first chapter is an introduction to clustering. We present various popular methods and we focus on one of the main models of our work which is the mixture of Gaussians. We also discuss the problems with high-dimensional estimation (Section 1.3) and the difficulty of estimating the number of clusters (Section 1.1.4). In what follows, we present briefly the concepts discussed in this manuscript. Consider a mixture of $K$ Gaussians in $RR^p$. One of the common approaches to estimate the parameters is to use the maximum likelihood estimator. Since this problem is not convex, we can not guarantee the convergence of classical methods such as gradient descent or Newton's algorithm. However, by exploiting the biconvexity of the negative log-likelihood, the iterative 'Expectation-Maximization' (EM) procedure described in Section 1.2.1 can be used. Unfortunately, this method is not well suited to meet the challenges posed by the high dimension. In addition, it is necessary to know the number of clusters in order to use it. Chapter 2 presents three methods that we have developed to try to solve the problems described above. The works presented there have not been thoroughly researched for various reasons. The first method that could be called 'graphical lasso on Gaussian mixtures' consists in estimating the inverse matrices of covariance matrices $Sigma$ (Section 2.1) in the hypothesis that they are parsimonious. We adapt the graphic lasso method of [Friedman et al., 2007] to a component in the case of a mixture and experimentally evaluate this method. The other two methods address the problem of estimating the number of clusters in the mixture. The first is a penalized estimate of the matrix of posterior probabilities $ Tau in RR ^ {n times K} $ whose component $ (i, j) $ is the probability that the $i$-th observation is in the $j$-th cluster. Unfortunately, this method proved to be too expensive in complexity (Section 2.2.1). Finally, the second method considered is to penalize the weight vector $ pi $ in order to make it parsimonious. This method shows promising results (Section 2.2.2). In Chapter 3, we study the maximum likelihood estimator of density of $n$ i.i.d observations, under the assumption that it is well approximated by a mixture with a large number of components. The main focus is on statistical properties with respect to the Kullback-Leibler loss. We establish risk bounds taking the form of sharp oracle inequalities both in deviation and in expectation. A simple consequence of these bounds is that the maximum likelihood estimator attains the optimal rate $((log K)/n)^{1/2}$, up to a possible logarithmic correction, in the problem of convex aggregation when the number $K$ of components is larger than $n^{1/2}$. More importantly, under the additional assumption that the Gram matrix of the components satisfies the compatibility condition, the obtained oracle inequalities yield the optimal rate in the sparsity scenario. That is, if the weight vector is (nearly) $D$-sparse, we get the rate $(Dlog K)/n$. As a natural complement to our oracle inequalities, we introduce the notion of nearly-$D$-sparse aggregation and establish matching lower bounds for this type of aggregation. Finally, in Chapter 4, we propose an algorithm that performs the Kullback-Leibler aggregation of components of a dictionary as discussed in Chapter 3. We compare its performance with different methods: the kernel density estimator , the 'Adaptive Danzig' estimator, the SPADES and EM estimator with the BIC criterion. We then propose a method to build the dictionary of densities and study it numerically. This thesis was carried out within the framework of a CIFRE agreement with the company ARTEFACT.
8

Adaptation de modèles statistiques pour la séparation de sources mono-capteur Texte imprimé : application à la séparation voix / musique dans les chansons

Ozerov, Alexey 15 December 2006 (has links) (PDF)
La séparation de sources avec un seul capteur est un problème très récent, qui attire de plus en plus d'attention dans le monde scientifique. Cependant, il est loin d'être résolu et, même plus, il ne peut pas être résolu en toute généralité. La difficulté principale est que, ce problème étant extrêmement sous déterminé, il faut disposer de fortes connaissances sur les sources pour pouvoir les séparer. Pour une grande partie des méthodes de séparation, ces connaissances sont représentées par des modèles statistiques des sources, notamment par des Modèles de Mélange de Gaussiennes (MMG), qui sont appris auparavant à partir d'exemples. L'objet de cette thèse est d'étudier les méthodes de séparation basées sur des modèles statistiques en général, puis de les appliquer à un problème concret, tel que la séparation de la voix par rapport à la musique dans des enregistrements monophoniques de chansons. Apporter des solutions à ce problème, qui est assez difficile et peu étudié pour l'instant, peut être très utile pour faciliter l'analyse du contenu des chansons, par exemple dans le contexte de l'indexation audio. Les méthodes de séparation existantes donnent de bonnes performances à condition que les caractéristiques des modèles statistiques utilisés soient proches de celles des sources à séparer. Malheureusement, il n'est pas toujours possible de construire et d'utiliser en pratique de tels modèles, à cause de l'insuffisance des exemples d'apprentissage représentatifs et des ressources calculatoires. Pour remédier à ce problème, il est proposé dans cette thèse d'adapter a posteriori les modèles aux sources à séparer. Ainsi, un formalisme général d'adaptation est développé. En s'inspirant de techniques similaires utilisées en reconnaissance de la parole, ce formalisme est introduit sous la forme d'un critère d'adaptation Maximum A Posteriori (MAP). De plus, il est montré comment optimiser ce critère à l'aide de l'algorithme EM à différents niveaux de généralité. Ce formalisme d'adaptation est ensuite appliqué dans certaines formes particulières pour la séparation voix / musique. Les résultats obtenus montrent que pour cette tâche, l'utilisation des modèles adaptés permet d'augmenter significativement (au moins de 5 dB) les performances de séparation par rapport aux modèles non adaptés. Par ailleurs, il est observé que la séparation de la voix chantée facilite l'estimation de sa fréquence fondamentale (pitch), et que l'adaptation des modèles ne fait qu'améliorer ce résultat.
9

Traitement du signal pour la reconnaissance de la parole robuste dans des environnements bruités et réverbérants

Ota, Kenko 19 January 2008 (has links) (PDF)
Les technologies de la reconnaissance de la parole ont des performances acceptables si l'on utilise un micro dans des environnements calmes. Si des micros se situent à une position distante d'un locuteur, il faut développer des techniques de la soustraction de bruits et de réverbération. Une technique pour réduire des sons émis par les appareils environnants est proposée. Bien que l'annulation adaptative du bruit (ANC) soit une solution possible, l'excès de soustraction peut causer la distorsion de la parole estimée. Le système proposé utilise la structure harmonique des segments vocaliques que les ANCs conventionnels n'a pas prise en compte directement. La méthode de déréverbération conventionnelle provoque l'excès de soustraction car on suppose que la caractéristique de fréquence, est plate. Il faut donc estimer le temps réel de réverbération pour résoudre ce problème. On propose une méthode de déréverbération aveugle utilisant un micro avec des fonctions d'autocorrélation sur la séquence de composants à chaque fréquence. Une technique pour échapper au problème de permutation qui se provoque lorsqu'on utilise l'analyse en composantes indépendantes (ICA) dans le domaine de fréquence, est également proposée : le Multi-bin ICA. Enfin, ce travail propose une technique pour estimer les spectres de bruit et de parole sans développer de modèle de gaussienne à mélange (GMM). Le spectre de la parole est modélisé à l'aide mélange de processus de Dirichlet (Dirichlet Process Mixture : ‘DPM') au lieu du GMM.
10

Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Durrieu, Jean-Louis 07 May 2010 (has links) (PDF)
Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores.

Page generated in 0.4556 seconds