Global ETD Search

1	Encodage des signaux de parole par inversion des motifs d'excitation auditive Lakhdhar, Khaled January 2017 (has links) On propose dans cette thèse de compresser et de synthétiser un signal audio par inversion de ses motifs d'excitation auditive. On traite l'approche du codage dans le domaine perceptuel et on propose un codeur qui exploite la redondance présente dans ces motifs. On commence par proposer un nouveau filtre auditif à faible complexité qui peut non seulement modéliser les réponses mécaniques de la membrane basilaire, synthétiser les réponses impulsionnelles du nerf auditif mais aussi expliquer les expériences du masquage fréquentiel. Ensuite on détaille l'exploitation de ce même banc de filtres auditifs pour la discipline de la compression des signaux audio. Des modèles de masquage adaptés à ce banc de filtres sont appliqués aux motifs d'excitation auditives pour obtenir des représentations éparses. Des expériences montrent que ce codeur permet de réduire considérablement la redondance dans le domaine perceptuel tout en maintenant une bonne qualité subjective de synthèse. Filtres auditifs Distribution binomiale Masquage Parcimonie Psychoacoustique Compression Codage audio
2	Codage de parole par transformée pour le développement de codeurs parole-audio unifiés Vilaysouk, Vilayphone January 2015 (has links) La compression de tous les types de signaux audio (parole et audio) constitue un vaste domaine de recherche, car il tente de répondre à de nombreuses et différentes demandes provenant de l’industrie. Actuellement, l’industrie de la téléphonie mobile possède de nombreuses requêtes au niveau de la compression de signaux audio à faible débit (sous les 32 kbit/s). Dans cette plage de débit, deux modèles sont nécessaires pour compresser tous les types de signaux audio : les codecs temporels s’utilisent pour la compression des signaux de parole et les codecs fréquentiels (par transformée) plus généraux s’utilisent pour la compression des signaux audio tels que la musique. Les téléphones intelligents et les tablettes numériques représentent des exemples d’appareils qui doivent intégrer deux codecs différents. Idéalement, ces appareils devraient intégrer un codec unique qui compresse tous les types de signaux audio. Cependant, l’unique moyen actuel d’obtenir un «codec universel» consiste en un «codec hybride universel». Les codecs hybrides universels intègrent au moins deux modèles de codage et un classificateur, qui sélectionne le modèle à exécuter selon le signal à traiter. Ces codecs ne représentent donc pas véritablement des codecs unifiés. De plus, avec l’utilisation d’un classificateur, les codecs hybrides introduisent également la possibilité d’erreurs de classification durant l’analyse. Ces codecs hybrides ont également tendance à être plus complexes puisqu’ils doivent gérer les différents modèles de codage. Après plus de trente ans de recherche, il existe toujours une distinction entre les approches utilisées pour la compression des signaux de parole et celles utilisées pour les signaux audio. Les codecs temporels se basent sur un modèle de production de la parole tandis que les codecs fréquentiels utilisent un modèle de perception auditive pour les signaux audio. Cette thèse propose des contributions dans l’élaboration d’un modèle de codage audio universel et véritablement unifié. Ces contributions se présentent dans cette thèse par un modèle d’analyse-synthèse de type harmonique-plus-bruit pour les signaux de parole qui fonctionne entièrement dans le domaine fréquentiel. Cette thèse démontre qu’il est possible d’obtenir un signal de parole de qualité perceptuelle transparente sans nécessairement suivre l’évolution de la forme d’onde du signal original. De plus, cette thèse propose également une version quantifiée du modèle d’analyse-synthèse et démontre qu’il est possible d’obtenir un signal de synthèse de bonne qualité pour des débits autour de 24 kbit/s et de 30 kbit/s. Lors des tests subjectifs MOS, le modèle se situe dans la même catégorie de qualité que la norme G.722.2 (AMR-WB) de l’institut UIT pour un débit autour de 24 kbit/s. Le modèle possède l’avantage de fonctionner entièrement dans le domaine fréquentiel et démontre ainsi les possibilités d’un codec réellement universel puisque traditionnellement le domaine des fréquences était réservé aux signaux audio autres que les signaux de parole. Codage de parole Codage audio universel Codage fréquentiel Codage temporel Harmonique-plus-bruit
3	Etudes d'algorithmes d'extraction des informations de spatialisation sonore : application aux formats multicanaux Briand, Manuel 20 March 2007 (has links) (PDF) --<br />La première orientation de ce travail de thèse vise à améliorer les performances des méthodes de codage audio paramétrique basées sur les indices de la localisation auditive. Nous avons cherché à adapter l'extraction des paramètres au contenu fréquentiel des signaux. La seconde orientation des travaux établie une modélisation des signaux multicanaux pour proposer une alternative au schéma de codage paramétrique actuel. Nous présentons une interprétation et l'évaluation des performances de l'Analyse en Composante Principale, réalisée en temps et en sous-bandes de fréquences avec une approche paramétrique. Finalement, nous utilisons cette décomposition au sein d'une nouvelle méthode de codage paramétrique qui repose à la fois sur la concentration de l'information dominante et sur l'extraction de paramètres pertinents. Les performances de notre méthode de codage paramétrique sont évaluées pour le cas stéréophonique et une extension au codage de signaux au format 5.1 est proposée.<br />-- Codage audio paramétrique spatialisation sonore Analyse en Composante Principale matriçage adaptatif
4	Approche informée pour l'analyse du son et de la musique Fourer, Dominique 11 December 2013 (has links) (PDF) En traitement du signal audio, l'analyse est une étape essentielle permettant de comprendre et d'inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s'avérer insufﬁsante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d'analyse usuels tels que l'analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite "informée". Cette nouvelle approche exploite la conﬁguration des studios de musique actuels qui maitrisent la chaîne de traitement avant l'étape de création du mélange. Dans les solutions proposées, de l'information complémentaire minimale calculée est transmise en même temps que le signal de mélange aﬁn de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu'une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l'intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d'un estimateur avec de l'information complémentaire permet d'améliorer les performances des approches usuelles telles que l'estimation non informée ou le codage pur. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Audio Analyse spectrale Estimation Codage audio Séparation de sources Transcription automatique de la musique
5	Codage audio stéréo avancé / Advanced stereo audio coding Capobianco, Julien 03 June 2015 (has links) Depuis une dizaine d’années, des techniques de codage joint, exploitant les relations et les redondances entre canaux audios, ont été développées afin de réduire davantage la quantité d’information nécessaire à la représentation des signaux multicanaux. Dans cette thèse, nous étudions plus particulièrement le codage des signaux audio stéréo en l’absence d’informations à priori sur la nature des sources en présences, leur nombre et la manière dont elles sont spatialisées. Cette situation correspond à l’immense majorité des enregistrements commerciaux dans l’industrie de la musique et du multimédia de manière générale. Nous étudions des approches paramétrique et signal de la problématique de codage de ces sources, où les deux sont souvent mêlées. Dans ce contexte, trois types d’approches sont utilisés. L’approche paramétrique spatiale consiste à réduire le nombre de canaux audio de la source à coder et à recréer le nombre de canaux d’origine à partir des canaux réduits et de paramètres spatiaux, extraits des canaux d’origine. L’approche signal conserve le nombre de canaux d’origine, mais encode des canaux construits à partir de ces derniers et présentant moins de redondances. Enfin, l’approche mixte introduite dans MPEG USAC utilise un signal audio et un signal résiduel, issu d’une prédiction, et dont les paramètres sont codés conjointement. Dans cette thèse, nous analysons tout d’abord les caractéristiques d’un signal stéréo issu d’un enregistrement commercial et les techniques de production associées. Cette étude nous mène à une réflexion sur les rapports entre les modèles paramétriques d’émetteur, obtenus en analysant les techniques de production des enregistrements commerciaux, et les modèles de récepteur qui sont au coeur du codage spatial paramétrique. A partir de cette mise en perspective nous présentons et étudions les trois approches évoquées plus haut. Pour l’approche purement paramétrique, nous montrons l’impossibilité d’arriver à la transparence pour la majorité des sources audios, nous menons une réflexion sur les représentations paramétriques et proposons des techniques afin de réduire le débit de leurs paramètres et d’améliorer la qualité audio. Ces améliorations passent par une meilleur segmentation du signal audio, basée sur les transitoires, sur des caractéristiques perceptives de certains indices spatiaux et sur une meilleur estimation des indices spatiaux. L’approche mixte étant récemment standardisée dans MPEG USAC, nous l’étudions en détail, puis nous proposons une nouvelle technique de codage qui exploite au mieux l’allocation du résidu aux bandes fréquentielles, lorsque celui-ci n’est pas utilisé sur l’ensemble de la bande passante du signal. Enfin, nous concluons en évoquant l’avenir du codage audio spatial généraliste et mettons l’accent sur l’importance de développer des techniques de classification et de segmentation audio pour optimiser le rapport qualité/débit. / During the last ten years, technics for joint coding exploiting relations and redundancies between channels have been developped in order to further reduce the amount of information needed to represent multichannel audio signals.In this document, we focus on the coding of stereo audio signals where prior informations on the nature of sources in presence, their number or the manner they are spatialized is unknown. Such signals are actually the most representative in commercial records of music industry and in multimedia entertainment in general. To address the coding problematic of these signals, we study parametric and signal approaches, where both of them are often mixed.In this context, three types of approaches are used. The spatial parametric approach reduce the number of audio channels of the signal to encode and recreate the original number of channels from reduced channels and spatial parameters extracted from original channels. The signal approach keep the original number of channels, but encode mono signals, built from the combination of the original ones and containing less redundancies. Finally, the hybrid approach introduced in the MPEG USAC standard keep the two channels of a stereo signal, but one is a mono downmix and the other is a residual signal, resulting from a prediction on the downmix, where prediction parameters are encoded as side information.In this document, we first analyse the characteristics of a stereo audio signal coming from a commercial recording and the associated production techniques. This study lead us to consider the relations between the emitter parametric models, elaborated from our analysis of commercial recording production techniques, and the receiver models which are the basis of spatial parametric coding. In the light of these considerations, we present and study the three approaches mentioned earlier. For the parametric approach, we show that transparency cannot be achieved for most of the stereo audio signals, we have a reflection on parametric representations and we propose techniques to improve the audio quality and further reduce the bitrate of their parameters. These improvements are obtained by applying a better segmentation on the signal, based on the significant transient, by exploiting perceptive characteristics of some spatial cues and by adapting the estimation of spatial cues. As the hybrid approach has been recently standardized in MPEG USAC, we propose a full review of it, then we develop a new coding technique to optimize the allocation of the residual bands when the residual is not used on the whole bandwidth of the signal to encode. In the conclusion, we discuss about the future of the general spatial audio coding and we show the importance of developping new technics of segmentation and classification for audio signals to further adapt the coding to the content of the signal. Codage audio Stéréo Codage spatial paramétrique Indices spatiaux Mpeg usac MPEG Parametric Stereo Coding audio Stereo Spatial cues 621.382
6	Évaluation subjective de la qualité : proposition d'un système de référence pour les codecs en bande élargie / Subjective quality assessment : proposal of a reference system for Wideband codecs Zango, Tiraogo Abdoulaye Yves 06 February 2013 (has links) L'évolution des systèmes de télécommunications conduit à la conception de codecs de la parole et du son de plus en plus sophistiqués, accroissant ainsi la concurrence de l'industrie de l'audio et accordant une importance grandissante à la qualité de service. Si l'évaluation de la qualité des codecs peut s'opérer suivant des mesures objectives ou subjectives, les secondes restent les plus fiables dans la mesure où la qualité perçue par les utilisateurs est intrinsèquement subjective. Toutefois, les tests subjectifs requièrent des signaux d'ancrage, i.e. des signaux artificiels visant la reproduction des défauts perceptifs des codecs de sorte que les dégradations provoquées soient aisément contrôlables. Le système de référence actuellement normalisé par l'Union Internationale des Télécommunications est le MNRU (Modulated Noise Reference Unit) qui simule le bruit de quantification introduit par les premiers codecs en forme d'onde. L'évolution de la technologie rend aujourd'hui ce système obsolète, et il s'agit donc de concevoir un nouveau système d'ancrage plus adapté aux codecs actuels. En considérant la qualité audio comme un objet multidimensionnel, nous avons mis en évidence un espace perceptif à quatre dimensions, et ce à partir de deux approches de réduction de dimensionnalité, l'AFM (Analyse Factorielle Multiple) et la MDS 3–voies (MultiDimensional Scaling). A partir des quatre dimensions identifiées – « Réduction de la largeur de bande », « Bruit de fond », « Écho/Réverbération » et « Distorsion de la parole » –, nous avons modélisé puis validé les signaux d'ancrage des trois premières dimensions et proposé deux modèles de signaux d'ancrage pour la quatrième. / The evolution of technology led to the design of very sophisticated speech and audio codecs. Accordingly, the competition in audio devices manufacturing has increased and today the quality of service becomes crucial for telecommunications operators. Quality of codecs is assessed through objective and subjective measures, the second ones being the most reliable since the quality perceived by users is inherently subjective. Nevertheless, subjective tests require anchor signals corresponding to artificial signals, which reproduce the perceptual impairments of codecs in such a manner that the amount of degradation can be easily controlled. The reference system currently standardized by the International Telecommunication Union is the Modulated Noise Reference Unit (MNRU), which simulates the quantization noise of the first generation of waveform codecs. Due to the evolution of codecs, the MNRU system became obsolete and researchers aim at designing a new reference system of anchor signals more suited to current codecs. Assuming that speech and audio quality is multidimensional, we first identified four perceptual dimensions using two dimensionality reduction techniques – the MFA (Multiple Factor Analysis) and the 3–way MDS (MultiDimensional Scaling). From the identified dimensions, namely “Bandwidth limitation”, “Background noise”, “Echo/Reverberation” and “Speech distortion”, we succeeded in modeling and validating anchor signals for three of them and we suggested two models of anchor signals for the last one. Codage de la parole Codage audio Évaluation subjective Qualité de Service Perception sonore Speech coding Audio coding Subjective assessment Qos Multidimensional statistical analysis Sound perception
7	Approche informée pour l’analyse du son et de la musique / Informed approach for sound and music analysis Fourer, Dominique 11 December 2013 (has links) En traitement du signal audio, l’analyse est une étape essentielle permettant de comprendre et d’inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s’avérer insufﬁsante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d’analyse usuels tels que l’analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite “informée”. Cette nouvelle approche exploite la conﬁguration des studios de musique actuels qui maitrisent la chaîne de traitement avant l’étape de création du mélange. Dans les solutions proposées, de l’information complémentaire minimale calculée est transmise en même temps que le signal de mélange aﬁn de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu’une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l’intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d’un estimateur avec de l’information complémentaire permet d’améliorer les performances des approches usuelles telles que l’estimation non informée ou le codage pur. / In the field of audio signal processing, analysis is an essential step which allows interactions with existing signals. In fact, the quality of transformed or synthesized audio signals depends on the accuracy over the estimated model parameters. However, theoretical limits exist and show that the best accuracy which can be reached by a classic estimator can be insufficient for the most demanding applications (e.g. active listening of music). The work which is developed in this thesis revisits well known audio analysis problems like spectral analysis, automatic transcription of music and audio sources separation using the novel ``informed'' approach. This approach takes advantage of a specific configuration where the parameters of the elementary signals which compose a mixture are known before the mixing process. Using the tools which are proposed in this thesis, the minimal side information is computed and transmitted with the mixture signal. This allows any kind of transformation of the mixture signal with a constraint over the resulting quality. When the compatibility with existing audio formats is required, the side information is embedded directly into the analyzed audio signal using a watermarking technique. This work describes several theoretical and practical aspects of audio signal processing. We show that a classic estimator combined with the sufficient side information can obtain better performances than classic approaches (classic estimation or pure coding). Audio Analyse spectrale Estimation Codage audio Séparation de sources Transcription automatique de la musique Audio Spectral analysis Estimation Audio Coding Sources separation Music automatic transcription
8	Spatial Auditory Blurring and Applications to Multichannel Audio Coding Daniel, Adrien 23 June 2011 (has links) (PDF) Ce travail se place en contexte de télécommunications, et concerne plus particulièrement la transmission de signaux audio multicanaux. Quatre expériences psychoacoustiques ont été menées de façon à étudier la résolution spatiale du système auditif - également appelée flou de localisation - en présence de sons distracteurs. Il en résulte que le flou de localisation augmente quand ces distracteurs sont présents, mettant en évidence ce que nous appellerons le phénomène de "floutage spatial" auditif. Ces expériences estiment l'effet de plusieurs variables sur le floutage spatial : la fréquence de la source sonore considérée ainsi que celles des sources distractrices, leur niveau sonore, leur position spatiale, et le nombre de sources distractrices. Exceptée la position des sources distractrices, toutes ces variables ont montré un effet significatif sur le floutage spatial. Cette thèse aborde également la modélisation de ce phénomène, de sorte que la résolution spatiale auditive puisse être prédite en fonction des caractéristiques de la scène sonore (nombre de sources présentes, leur fréquence, et leur niveau). Enfin, deux schémas de codage audio multicanaux exploitant ce modèle à des fins de réduction de l'information à transmettre sont proposés : l'un basé sur une représentation paramétrique (downmix + paramètres spatiaux) du signal multicanal, et l'autre sur la représentation Higher-Order Ambisonics (HOA). Ces schémas sont tous deux basés sur l'idée originale d'ajuster dynamiquement la précision de la représentation spatiale du signal multicanal de façon à maintenir les distorsions spatiales résultantes dans le flou de localisation, afin que celles-ci restent indétectables. Psychoacoustique Écoute Spatialisée Codage Audio Spatialisé Son Multicanal Angle Minimum Audible Flou de Localisation Codage Paramétrique Ambisonie d'Ordres Supérieurs Analyse de Scène Auditive
9	Transformées redondantes pour la représentation de signaux audio : application au codage et à l'indexation Ravelli, Emmanuel 27 October 2008 (has links) (PDF) Cette thèse étudie de nouvelles techniques de représentation du signal pour le codage audio. Les codeurs audio existants sont basés soit sur une transformée (codage par transformée), soit sur un modèle paramétrique (codage paramétrique), soit sur une combinaison des deux (codage hybride). D'une part, le codage par transformée permet une qualité transparente à haut débit (ex. AAC à 64 kbps/canal), mais obtient de mauvaises performances à bas débit. D'autre part, le codage paramétrique et le codage hybride obtiennent de meilleures performances que le codage par transformée à haut débit mais ne permettent pas une qualité transparente à haut débit. La nouvelle approche de représentation du signal que nous proposons permet d'obtenir une qualité transparente à haut débit et de meilleures performances que le codage par transformée à bas débit. Cette représentation du signal est basée sur un ensemble redondant de fonctions temps-fréquence composée d'une union de plusieurs bases MDCT à différentes échelles. La première contribution majeure de cette thèse est un algorithme à la fois rapide et performant qui décompose un signal dans cette ensemble redondant de fonctions. La deuxième contribution majeure de cette thèse est un ensemble de techniques qui permettent un codage de ces représentations à la fois performant et progressif. Finalement, cette thèse étudie l'application à l'indexation audio. Nous montrons que l'utilisation d'une union de plusieurs MDCT permet de dépasser les limitations des représentations utilisées dans les codeurs par transformée (en particulier la résolution fréquentielle), ce qui rend ainsi possible une indexation dans le domaine transformée performant. traitement du signal représentation des signaux représentations parcimonieuses transformées temps-fréquence codage audio quantification indexation audio classification
10	Approches paramétriques pour le codage audio multicanal Lapierre, Jimmy January 2007 (has links) Résumé : Afin de répondre aux besoins de communication et de divertissement, il ne fait aucun doute que la parole et l’audio doivent être encodés sous forme numérique. En qualité CD, cela nécessite un débit numérique de 1411.2 kb/s pour un signal stéréo-phonique. Une telle quantité de données devient rapidement prohibitive pour le stockage de longues durées d’audio ou pour la transmission sur certains réseaux, particulièrement en temps réel (d’où l’adhésion universelle au format MP3). De plus, ces dernières années, la quantité de productions musicales et cinématographiques disponibles en cinq canaux et plus ne cesse d’augmenter. Afin de maintenir le débit numérique à un niveau acceptable pour une application donnée, il est donc naturel pour un codeur audio à bas débit d’exploiter la redondance entre les canaux et la psychoacoustique binaurale. Le codage perceptuel et plus particulièrement le codage paramétrique permet d’atteindre des débits manifestement inférieurs en exploitant les limites de l’audition humaine (étudiées en psychoacoustique). Cette recherche se concentre donc sur le codage paramétrique à bas débit de plus d’un canal audio. // Abstract : In order to fulfill our communications and entertainment needs, there is no doubt that speech and audio must be encoded in digital format. In"CD" quality, this requires a bit-rate of 1411.2 kb/s for a stereo signal. Such a large amount of data quickly becomes prohibitive for long-term storage of audio or for transmitting on some networks, especially in real-time (leading to a universal adhesion to the MP3 format). Moreover, throughout the course of these last years, the number of musical and cinematographic productions available in five channels or more continually increased.In order to maintain an acceptable bit-rate for any given application, it is obvious that a low bit-rate audio coder must exploit the redundancies between audio channels and binaural psychoacoustics. Perceptual audio coding, and more specifically parametric audio coding, offers the possibility of achieving much lower bit-rates by taking into account the limits of human hearing (psychoacoustics). Therefore, this research concentrates on parametric audio coding of more than one audio channel. Audio numérique Télécommunications Traitement de signal numérique Psychoacoustique Codage perceptuel Codage audio Codage stéréo Stéréo paramétrique Digital audio Telecommunications Digital signal processing Psychoacoustics Perceptual coding Audio coding Stereo coding Parametric Stereo

Search results