• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • 1
  • Tagged with
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Prise de son distante par système multimicrophone. Application à la communication parlée en environnement bruyant

Lepauloux, Ludovick 08 December 2010 (has links) (PDF)
Dans notre société de plus en plus mobile, nous constatons que les systèmes de communication mains libres sont devenus une norme, que ce soit pour les interactions homme-machine ou homme-homme. Cependant, il est difficile de garantir la qualité du signal de parole lors d'une prise de son distante car les microphones captent en plus du signal désiré le bruit de fond, la réverbération, le signal d'écho et les autres sources de parole concurrentes. Les antennes acoustiques associées aux techniques de formation de voies sont une solution efficace et aujourd'hui technologiquement réalisable. Grâce à leur directivité, elles améliorent le rapport signal sur bruit de même que, en exploitant la corrélation spatiale du champ sonore, elles permettent de réduire la réverbération, l'écho et le bruit. Les antennes acoustiques jouent un rôle croissant dans la téléphonie mains libres, la reconnaissance de locuteur, les systèmes à commande vocale, l'aide aux malentendants ou la surveillance audio. Dans cette thèse, pour s'adapter aux environnements variants dans le temps, aux non-stationnarités des signaux et aux éventuels mouvements du locuteur, nous considérons les antennes adaptatives de type GSC (Generalized Sidelobe Canceller) pour leur implémentation avantageuse. Cependant, l'un des défauts majeurs de cette antenne, couramment utilisée, réside dans la fuite du signal utile dans l'étage d'estimation du bruit provoquant de fortes dégradations voire l'auto-annulation de ce signal en sortie. Pour résoudre ce problème, nous proposons de mettre à profit la structure récursive spécifiquement dédiée à la gestion de la diaphonie dans la technique d'annulation adaptative de bruit bicapteur, nommée CTRANC (Crosstalk-Resistant Adaptive Noise Canceller). Ainsi, avant de proposer une extension de cette méthode au cas du GSC et donc de définir une nouvelle architecture récursive pour celui-ci, nous donnons dans un premier temps une analyse complète du CTRANC et proposons de nouveaux algorithmes adaptatifs dans le domaine fréquentiel. Par ailleurs, notre étude fournit également de nouveaux résultats sur les propriétés de convergence et l'existence d'un point d'équilibre pour le CTRANC. Enfin, des résultats expérimentaux confortent l'analyse et montrent l'efficacité des solutions proposées pour la suppression du signal de fuite et l'amélioration des performances.
2

Traitement du signal pour la reconnaissance de la parole robuste dans des environnements bruités et réverbérants

Ota, Kenko 19 January 2008 (has links) (PDF)
Les technologies de la reconnaissance de la parole ont des performances acceptables si l'on utilise un micro dans des environnements calmes. Si des micros se situent à une position distante d'un locuteur, il faut développer des techniques de la soustraction de bruits et de réverbération. Une technique pour réduire des sons émis par les appareils environnants est proposée. Bien que l'annulation adaptative du bruit (ANC) soit une solution possible, l'excès de soustraction peut causer la distorsion de la parole estimée. Le système proposé utilise la structure harmonique des segments vocaliques que les ANCs conventionnels n'a pas prise en compte directement. La méthode de déréverbération conventionnelle provoque l'excès de soustraction car on suppose que la caractéristique de fréquence, est plate. Il faut donc estimer le temps réel de réverbération pour résoudre ce problème. On propose une méthode de déréverbération aveugle utilisant un micro avec des fonctions d'autocorrélation sur la séquence de composants à chaque fréquence. Une technique pour échapper au problème de permutation qui se provoque lorsqu'on utilise l'analyse en composantes indépendantes (ICA) dans le domaine de fréquence, est également proposée : le Multi-bin ICA. Enfin, ce travail propose une technique pour estimer les spectres de bruit et de parole sans développer de modèle de gaussienne à mélange (GMM). Le spectre de la parole est modélisé à l'aide mélange de processus de Dirichlet (Dirichlet Process Mixture : ‘DPM') au lieu du GMM.
3

Analyse de scène sonore multi-capteurs : un front-end temps-réel pour la manipulation de scène / Multi-sensor sound scene analysis : a real-time front-end for scene manipulation

Baque, Mathieu 09 June 2017 (has links)
La thèse s’inscrit dans un contexte d’essor de l’audio spatialisé (5.1, Dolby Atmos...). Parmi les formats audio 3D existants, l’ambisonie permet une représentation spatiale homogène du champ sonore et se prête naturellement à des manipulations : rotations, distorsion du champ sonore. L’objectif de cette thèse est de fournir un outil d’analyse et de manipulation de contenus audio (essentiellement vocaux) au format ambisonique. Un fonctionnement temps-réel et en conditions acoustiques réelles sont les principales contraintes à respecter. L’algorithme mis au point est basé sur une analyse en composantes indépendantes (ACI) appliquée trame à trame qui permet de décomposer le champ acoustique en un ensemble de contributions, correspondant à des sources (champ direct) ou à de la réverbération. Une étape de classification bayésienne, appliquée aux composantes extraites, permet alors l’identification et le dénombrement des sources sonores contenues dans le mélange. Les sources identifiées sont localisées grâce à la matrice de mélange obtenue par ACI, pour fournir une cartographie de la scène sonore. Une étude exhaustive des performances est menée sur des contenus réels en fonction de plusieurs paramètres : nombre de sources, environnement acoustique, longueur des trames, ou ordre ambisonique utilisé. Des résultats fiables en terme de localisation et de comptage de sources ont été obtenus pour des trames de quelques centaines de ms. L’algorithme, exploité comme prétraitement dans un prototype d’assistant vocal domestique, permet d’améliorer significativement les performances de reconnaissance, notamment en prise de son lointaine et en présence de sources interférentes. / The context of this thesis is the development of spatialized audio (5.1 contents, Dolby Atmos...) and particularly of 3D audio. Among the existing 3D audio formats, Ambisonics and Higher Order Ambisonics (HOA) allow a homogeneous spatial representation of a sound field and allows basics manipulations, like rotations or distorsions. The aim of the thesis is to provides efficient tools for ambisonics and HOA sound scene analyse and manipulations. A real-time implementation and robustness to reverberation are the main constraints to deal with. The implemented algorithm is based on a frame-by-frame Independent Component Analysis (ICA), wich decomposes the sound field into a set of acoustic contributions. Then a bayesian classification step is applied to the extracted components to identify the real sources and the residual reverberation. Direction of arrival of the sources are extracted from the mixing matrix estimated by ICA, according to the ambisonic formalism, and a real-time cartography of the sound scene is obtained. Performances have been evaluated in different acoustic environnements to assess the influence of several parameters such as the ambisonic order, the frame length or the number of sources. Accurate results in terms of source localization and source counting have been obtained for frame lengths of a few hundred milliseconds. The algorithm is exploited as a pre-processing step for a speech recognition prototype and allows a significant increasing of the recognition results, in far field conditions and in the presence of noise and interferent sources.

Page generated in 0.1037 seconds