• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Réseaux de neurones profonds pour la séparation des sources et la reconnaissance robuste de la parole / Deep neural networks for source separation and noise-robust speech recognition

Aditya Arie Nugraha, . 05 December 2017 (has links)
Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement / This thesis addresses the problem of multichannel audio source separation by exploiting deep neural networks (DNNs). We build upon the classical expectation-maximization (EM) based source separation framework employing a multichannel Gaussian model, in which the sources are characterized by their power spectral densities and their source spatial covariance matrices. We explore and optimize the use of DNNs for estimating these spectral and spatial parameters. Employing the estimated source parameters, we then derive a time-varying multichannel Wiener filter for the separation of each source. We extensively study the impact of various design choices for the spectral and spatial DNNs. We consider different cost functions, time-frequency representations, architectures, and training data sizes. Those cost functions notably include a newly proposed task-oriented signal-to-distortion ratio cost function for spectral DNNs. Furthermore, we present a weighted spatial parameter estimation formula, which generalizes the corresponding exact EM formulation. On a singing-voice separation task, our systems perform remarkably close to the current state-of-the-art method and provide up to 2 dB improvement of the source-to-interference ratio. On a speech enhancement task, our systems outperforms the state-of-the-art GEV-BAN beamformer by 14%, 7%, and 1% relative word error rate improvement on 6-channel, 4-channel, and 2-channel data, respectively
2

Analyse et synthèse de champs sonores

Guillaume, Mathieu 11 1900 (has links) (PDF)
Cette thèse a pour objectif de reproduire au mieux un champ sonore enregistré par une antenne de microphones au moyen d'un réseau de sources secondaires. Pour y parvenir, nous avons dans un premier temps réalisé une étude approfondie des représentations harmoniques et intégrales des champs sonores. Dans un deuxième temps, nous avons mis au point des algorithmes qui utilisent la représentation du champ sonore en ondes planes pour effectuer l'analyse et la synthèse.L'algorithme d'analyse proposé est un algorithme de formation de voies donnant une solution analytique au problème de la minimisation du repliement. Le problème de l'optimisation de la géométrie de l'antenne est aussi abordé. L'algorithme utilisé pour la synthèse est un algorithme flexible pour l'égalisation dans un contexte multicanal, qui permet de réduire les artefacts des méthodes traditionnelles, tels que le pré-écho et le post-écho. Finalement, l'efficacité de ces algorithmes d'analyse et de synthèse est démontrée par des simulations et validée par des manipulations.
3

Luminance-Chrominance linear prediction models for color textures: An application to satellite image segmentation

Qazi, Imtnan-Ul-Haque 01 July 2010 (has links) (PDF)
Cette thèse détaille la conception, le développement et l'analyse d'un nouvel outil de caractérisation des textures exploitant les modèles de prédiction linéaire complexe sur les espaces couleur perceptuels séparant l'intensité lumineuse de la partie chromatique. Des modèles multicanaux 2-d causaux et non-causaux ont été utilisés pour l'estimation simultanée des densités spectrales de puissance d'une image " bi-canal ", le premier contenant les valeurs réelles de l'intensité et le deuxième les valeurs complexes de la partie chromatique. Les bonnes performances en terme de biais et de variance de ces estimations ainsi que l'usage d'une distance appropriée entre deux spectres assurent la robustesse et la pertinence de l'approche pour la classification de textures. Une mesure de l'interférence existante entre l'intensité et la partie chromatique à partir de l'analyse spectrale est introduite afin de comparer les transformations associées aux espaces couleur. Des résultats expérimentaux en classification de textures sur différents ensembles de tests, dans différents espaces couleur (RGB, IHLS et L*a*b*) sont présentés et discutés. Ces résultats montrent que la structure spatiale associée à la partie chromatique d'une texture couleur est mieux caractérisée à l'aide de l'espace L*a*b* et de ce fait, cet espace permet d'obtenir les meilleurs résultats pour classifier les textures à l'aide de leur structure spatiale et des modèles de prédiction linéaire. Une méthode bayésienne de segmentation d'images texturées couleur a aussi été développée à partir de l'erreur de prédiction linéaire multicanale. La contribution principale de la méthode réside dans la proposition d'approximations paramétriques robustes pour la distribution de l'erreur de prédiction linéaire multicanale : la distribution de Wishart et une approximation multimodale exploitant les lois de mélanges gaussiennes multivariées. Un autre aspect original de l'approche consiste en la fusion d'un terme d'énergie sur la taille des régions avec l'énergie du modèle de Potts afin de modéliser le champ des labels de classe à l'aide d'un modèle de champ aléatoire possédant une distribution de Gibbs. Ce modèle de champ aléatoire est ainsi utilisé pour régulariser spatialement un champ de labels initial obtenu à partir des différentes approximations de la distribution de l'erreur de prédiction. Des résultats expérimentaux en segmentation d'images texturées couleur synthétiques et d'images satellites hautes résolutions QuickBird et IKONOS ont permis de valider l'application de la méthode aux images fortement texturées. De plus les résultats montrent l'intérêt d'utiliser les approximations de la distribution de l'erreur de prédiction proposées ainsi que le modèle de champ de labels amélioré par le terme d'énergie qui pénalise les petites régions. Les segmentations réalisées dans l'espace L*a*b* sont meilleures que celles obtenues dans les autres espaces couleur (RGB et IHLS) montrant à nouveau la pertinence de caractériser les textures couleur par la prédiction linéaire multicanale complexe à l'aide de cet espace couleur.

Page generated in 0.0679 seconds