• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 4
  • 1
  • Tagged with
  • 9
  • 9
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

FLCAA : système de codage parcimonieux et d'analyse perceptuelle des signaux sonores en temps réel

Tremblay-Boucher, Vincent January 2013 (has links)
Ce mémoire débute par un survol de l'état de l’art des méthodes de compositions musicales assistées par ordinateur (MCMAO). À l’aide d'un ensembles critères permettant l’évaluation des méthodes de compositions musicales assistées par ordinateur, on identifie une technique particulièrement prometteuse. Il s’agit d ’un compositeur statistique, présenté par Hoffman et al. en 2008, utilisant les "mel-frquecy cepstral coefficients" (MFCC), un prétraitement inspiré des techniques en reconnaissance de parole. Toutefois, cette technique présente diverses limitations, comme la qualité de reconstruction des signaux, qui l’empêche d'être utilisée pour composer de la musique utilisable professionnellement. Ainsi, ce mémoire tente de bonifier la méthode de composition musicale assistée par ordinateur de Hoffman et al. en remplaçant la technique MFCC d'analyse/synthèse du signal par une technique novatrice d'analyse/synthèse des signaux sonores nommée "Fast Locally competitive algorithm for audio" (FLCAA). Celle-ci permet une analyse perceptuelle parcimonieuse, en temps réel, ayant une bonne résolution fréquencielle et une bonne résolution temporelle. De plus le FLCAA permet une reconstruction robuste de bonne qualité également en temps réel. L’analyse est constituée de deux parties distinctes. La première consiste à utiliser un prétraitement inspiré de l’audition pour transformer le signal sonore afin d'obtenir une représentation cochléaire. Concrètement, la transformation d'analyse est accomplie à l’aide d'un filtrage par banc de filtres cochléaires combiné à un mécanisme de fenêtre coulissante. Le banc de filtres utilisé est composé de filtres cochléaires passe-bande à réponse impulsionnelle finie, de type "rounded exponential" (RoExp). La deuxième étape consiste à coder la représentation cochléaire de manière parcimonieuse afin d'augmenter la résolution spatiale et temporelle pour mettre en évidence certaines caractéristiques du signal comme les fréquences fondamentales, l’information contenue dans les basses fréquences et les signaux transitoires. Cela est fait, en intégrant un réseau de neurones (nommé LCA) utilisant les mécanismes d'inhibition latérale et de seuillage. À partir des coefficients de la représentation perceptuelle, il est possible d'effectuer la transformation de synthèse en utilisant une technique de reconstruction novatrice qui est expliqué en détail dans ce mémoire.
2

Traitement et analyse des processus stochastiques par EMD et ses extensions / No

Komaty, Ali 28 November 2014 (has links)
L’objectif de cette thèse est d’analyser le comportement de la décomposition modale empirique (EMD) et sa version multivariée (MEMD) dans le cas de processus stochastiques : bruit Gaussien fractionnaire (fGn) et processus symétrique alpha stable (SαS). Le fGn est un bruit large bande généralisant le cas du bruit blanc Gaussien et qui trouve des applications dans de nombreux domaines tels que le trafic internet, l’économie ou le climat. Par ailleurs, la nature «impulsive» d’un certain nombre de signaux (craquement des glaces, bruit des crevettes claqueuses, potentiel de champ local en neurosciences,…) est indéniable et le modèle Gaussien ne convient pas pour leur modélisation. La distribution SαS est une solution pour modéliser cette classe de signaux non-Gaussiens. L’EMD est un outil bien adapté au traitement et à l’analyse de ces signaux réels qui sont, en général, de nature complexe (non stationnaire,non linéaire). En effet, cette technique, pilotée par les données, permet la décomposition d’un signal en une somme réduite de composantes oscillantes, extraites de manière itérative, appelées modes empiriques ou IMFs (Intrinsic Mode Functions). Ainsi, nous avons montré que le MEMD s’organise spontanément en une structure de banc de filtres presque dyadiques. L'auto-similarité en termes de représentation spectrale des modes a aussi été établie. En outre, un estimateur de l’exposant de Hurst, caractérisant le fGn, a été construit et ses performances ont été comparées, en particulier à celles de l’approche ondelettes. Cette propriété de banc de filtres du MEMD a été vérifiée sur des données d'hydrodynamique navale (écoulement turbulent) et leur auto-similarité a été mise en évidence. De plus, l’estimation du coefficient de Hurst a mis en avant l’aspect longue dépendance (corrélation positive) des données. Enfin, l’aspect banc de filtres de l’EMD a été exploité à des fins de filtrage dans le domaine temporel en utilisant une mesure de similarité entre les densités de probabilités des modes extraits et celle du signal d’entrée. Pour éviter le problème du mode mixing de l'EMD standard, une approche de débruitage dans le domaine fréquentiel par une reconstruction complète des IMFs préalablement seuillées a été menée. L’ensemble des résultats a été validé par des simulations intensives (Monte Carlo) et sur des signaux réels. / The main contribution of this thesis is aimed towards understanding the behaviour of the empirical modes decomposition (EMD) and its extended versions in stochastic situations.
3

Décompositions Modales Empiriques. Contributions à la théorie, l'algorithmie et l'analyse de performances

Rilling, Gabriel 14 December 2007 (has links) (PDF)
La Décomposition Modale Empirique (EMD pour « Empirical Mode Decomposition ») est un outil récent de traitement du signal dévolu à l'analyse de signaux non stationnaires et/ou non linéaires. L'EMD produit pour tout signal une décomposition multi-échelles pilotée par les données. Les composantes obtenues sont des formes d'onde oscillantes potentiellement non harmoniques dont les caractéristiques, forme, amplitude et fréquence peuvent varier au cours du temps. L'EMD étant une méthode encore jeune, elle n'est définie que par la sortie d'un algorithme inhabituel, comportant de multiples degrés de liberté et sans fondement théorique solide. Nous nous intéressons dans un premier temps à l'algorithme de l'EMD. Nous étudions d'une part les questions soulevées par les choix de ses degrés de liberté afin d'en établir une implantation. Nous proposons d'autre part des variantes modifiant légèrement ses propriétés et une extension permettant de traiter des signaux à deux composantes. Dans un deuxième temps, nous nous penchons sur les performances de l'EMD. L'algorithme étant initialement décrit dans un contexte de temps continu, mais systématiquement appliqué à des signaux échantillonnés, nous étudions la problématique des effets d'échantillonnage sur la décomposition. Ces effets sont modélisés dans le cas simple d'un signal sinusoïdal et une borne de leur influence est obtenue pour des signaux quelconques. Enfin nous étudions le mécanisme de la décomposition à travers deux situations complémentaires, la décomposition d'une somme de sinusoïdes et celle d'un bruit large bande. Le premier cas permet de mettre en évidence un modèle simple expliquant le comportement de l'EMD dans une très grande majorité des cas de sommes de sinusoïdes. Ce modèle reste valide pour des sinusoïdes faiblement modulées en amplitude et en fréquence ainsi que dans certains cas de sommes d'ondes non harmoniques périodiques. La décomposition de bruits large bande met quant à elle en évidence un comportement moyen de l'EMD proche de celui d'un banc de filtres auto-similaire, analogue à ceux correspondant aux transformées en ondelettes discrètes. Les propriétés du banc de filtres équivalent sont étudiées en détail en fonction des paramètres clés de l'algorithme de l'EMD. Le lien est également établi entre ce comportement en banc de filtres et le modèle développé dans le cas des sommes de sinusoïdes.
4

Filtrage spatiotemporel orienté de séquences d'images : application à l'estimation du mouvement des flux sanguins en imagerie ultrasonore

Marion, Adrien 28 September 2009 (has links) (PDF)
La connaissance du comportement des flux sanguins est une donnée clinique fondamentale. L'imagerie ultrasonore, couplée à des techniques Doppler, est souvent utilisée pour évaluer les vitesses de flux sanguins. Cependant, les techniques Doppler présentent quelques limitations notamment liées à la résolution spatiale des résultats et à la difficulté d'estimer des faibles vitesses. Dans cette thèse, nous avons proposé une approche basée sur des bancs de filtres spatiotemporels orientés pour l'estimation de champs denses de mouvement à partir de séquences d'images ultrasonores de flux. Le formalisme proposé a été présenté dans des contextes 2D puis 3D. Afin de valider notre méthode, nous avons utilisé des données simulées et expérimentales. A cet effet, nous avons proposé un cadre adapté à la simulation rapide de séquences d'images ultrasonores. Notre modèle de simulation a été validé en termes de statistiques du premier et deuxième ordre. La méthode d'estimation de mouvement proposée a été appliquée à des séquences de flux se déplaçant à faibles vitesses (~ 1mm/s) dans des vaisseaux de petites dimensions (~ 1mm). Les résultats obtenus ont montré un bon comportement global permettant de caractériser les flux étudiés. Une comparaison avec trois autres méthodes d'estimation de vitesses de flux a également permis de montrer que notre approche constituait un bon compromis en termes de précision et de complexité algorithmique.
5

Transmitter and receiver design for inherent interference cancellation in MIMO filter-bank based multicarrier systems / Conception d’émetteur et récepteur pour l’élimination des interférences intrinsèques dans les systèmes multiporteuses à base de bancs de filtres et à antennes multiples

Zakaria, Rostom 07 November 2012 (has links)
Grâce à leur capacité de faire face à la sélectivité fréquentielle des canaux de transmission, les modulations multi-porteuses (MC) attirent de plus en plus d’attention. De nos jours, la modulation OFDM avec le préfixe cyclique (CP) est la plus utilisée, et cela grâce à sa simplicité et à sa robustesse. Cependant, la technique CP-OFDM présente une perte dans l’efficacité spectrale à cause de l’introduction du CP puisqu’il contient des informations redondantes. De plus, la réponse rectangulaire du filtre de mise en forme utilisé en OFDM a une mauvaise localisation fréquentielle. Afin de surmonter ces inconvénients, la modulation multi-porteuse à base des bancs de filtres (FBMC) a été proposée en tant qu’une approche alternative à la modulation OFDM. En effet, on n’a pas besoin d’insérer un intervalle de garde, tel que le CP, dans la modulation FBMC. D’autre part, la bonne localisation fréquentielle de la réponse du filtre de mise en forme permet un meilleur contrôle de la radiation hors-bande du système. Dans la littérature, on trouve plusieurs types de la modulations FBMC basés sur différentes structures. Dans cette thèse, nous ne nous intéressons que sur le schéma de Saltzberg appelé OFDM/OQAM ou FBMC/OQAM. Dans ce schéma, les symboles envoyés sur chaque sous-porteuse sont tirés d’une constellation PAM réelle, et les symboles réels sont envoyés à une cadence de 2/T . La condition d’orthogonalité est réduite sur l’ensemble des réels uniquement. En conséquence, le symbole démodulé et égalisé est infecté par un terme d’interférence purement imaginaire. Ce terme d’interférence est une combinaison linaire des symboles transmis dans le voisinage du symbole concerné. La présence de cette interférence inhérente cause des difficultés de détection dans certains schéma multi-antennes (MIMO).L’objectif de cette thèse est d’étudier l’association de la modulation FBMC aux techniques MIMO, à savoir le multiplexage spatiale avec détection de maximum de vraisemblance (ML). Dans un premier temps, nous proposons d’analyser différentes techniques d’annulation d’interférence que nous adaptons au contexte de MIMO-FBMC. Nous montrons que, dans certains cas, nous pouvons bien retirer l’interférence et appliquer la détection ML. Ensuite, nous proposons d’apporter une légère modification dans la modulation FBMC en transmettant des symbole QAM complexes. Évidement, cela brise la condition d’orthogonalité mais nous montrons qu’ainsi la puissance d’interférence sera considérablement réduite. Enfin, nous introduisons un nouveau schéma basé sur la modulation FBMC. Ce schéma, que nous avons baptisé FFT-FBMC, transforme le modèle du système à un modèle équivalent à celui de l’OFDM. Ainsi, n’importe quelle technique multi-antennes pourra être appliquée sans aucune difficulté. D’abord, nous développons le système FFT-FBMC dans un contexte SISO, et puis nous évaluons ces performances dans le contexte MIMO. / Multicarrier (MC) Modulation attracts a lot of attention for high speed wireless transmissions because of its capability to cope with frequency selective fading channels turning the wideband transmission link into several narrowband subchannels whose equalization, in some situations, can be performed independently and in a simple manner. Nowadays, orthogonal frequency division multiplexing (OFDM) with the cyclic prefix (CP) insertion is the most widespread modulation among all MC modulations, and this thanks to its simplicity and its robustness against multipath fading using the cyclic prefix. Systems or standards such as ADSL or IEEE802.11a have already implemented the CP-OFDM modulation. Other standards like IEEE802.11n combine CP-OFDM and multiple-input multiple-output (MIMO) in order to increase the bit rate and to provide a better use of the channel spatial diversity. Nevertheless, CP-OFDM technique causes a loss of spectral efficiency due to the CP as it contains redundant information. Moreover, the rectangular prototype filter used in CP-OFDM has a poor frequency localization. This poor frequency localization makes it difficult for CP-OFDM systems to respect stringent specifications of spectrum masks.To overcome these drawbacks, filter-bank multicarrier (FBMC) was proposed as an alternative approach to CP-OFDM. Indeed, FBMC does not need any CP, and it furthermore offers the possibility to use different time-frequency well-localized prototype filters which allow much better control of the out-of-band emission. In the literature we find several FBMC systems based on different structures. In this thesis, we focus on the Saltzberg’s scheme called OFDM/OQAM (or FBMC/OQAM). The orthogonality constraint for FBMC/OQAM is relaxed being limited only to the real field while for OFDM it has to be satisfied in the complex field. Consequently, one of the characteristics of FBMC/OQAM is that the demodulated transmitted symbols are accompanied by interference terms caused by the neighboring transmitted data in time-frequency domain. The presence of this interference is an issue for some MIMO schemes and until today their combination with FBMC remains an open problem.The aim of this thesis is to study the combination between FBMC and MIMO techniques, namely spatial multiplexing with ML detection. In the first part, we propose to analyze different intersymbol interference (ISI) cancellation techniques that we adapt to the FBMC/OQAM with MIMO context. We show that, in some cases, we can cope with the presence of the inherent FBMC interference and overcome the difficulties of performing ML detection in spatial multiplexing with FBMC/OQAM. After that, we propose a modification in the conventional FBMC/OQAM modulation by transmitting complex QAM symbols instead of OQAM ones. This proposal allows to reduce considerably the inherent interference but at the expense of the orthogonality condition. Indeed, in the proposed FBMC/QAM,the data symbol and the inherent interference term are both complex. Finally, we introduce a novel FBMC scheme and a transmission strategy in order to avoid the inherent interference terms. This proposed scheme (that we call FFT-FBMC) transforms the FBMC system into an equivalent system formulated as OFDM regardless of some residual interference. Thus, any OFDM transmission technique can be performed straightforwardly to the proposed FBMC scheme with a corresponding complexity growth. We develop the FFT-FBMC in the case of single-input single-output (SISO) configuration. Then, we extend its application to SM-MIMO configuration with ML detection and Alamouti coding scheme.
6

OFDM Precoding for Filter-Bank based Waveforms / Techniques de précodage OFDM pour formes d'onde à base de bancs de filtres

Demmer, David 06 June 2019 (has links)
De nouveaux usages des systèmes de communications sans fils, tels que les réseaux de capteurs ou les voitures autonomes, ont émergé au cours des dernières années. Ces usages sont fondamentalement différents des applications haut-débit actuelles des réseaux cellulaires. La future technologie mobile, la 5G New Radio, introduit donc le concept de numérologie du signal afin de pouvoir satisfaire aux besoin hétérogènes des multiples applications supportées. En effet en supportant différentes numérologies de signaux, l'allocation temps/fréquence des signaux devient plus flexible et le signal transmis peut être adapté en conséquence. Cependant, supporte simultanément différentes numérologies génère de l'interférence et donc distord les signaux. Les filtrages spatiaux, comme la formation de faisceaux, est envisagée en 5G pour limiter l'interférence générée mais pour les communications au-dessus de 6 GHz. Il n'y a cependant pas de solutions proposées pour mes communications en-dessous de 6 GHz. Dans ce travail, des techniques d'atténuation des lobes secondaires sont étudiées pour faciliter le multiplexage des services pour les communications sous 6 GHz. L’interférence entre-utilisateurs est alors contrôlée mais la bande est également mieux utilisée. Une solution innovante, combinant bancs de filtres et orthogonalité complexe, est proposée. L'orthogonalité complexe est garanti grâce à un précodage OFDM qui remplace le précodage OQAM communément utilisé. De plus, le système développé, le Block-Filtered OFDM, utilise un récepteur 5G classique ce qui garantit la retro-compatibilité avec les techniques déjà déployée. Le modèle du BF-OFDM est entièrement décrit et adapté aux normes des réseaux mobiles. De plus, de multiples méthodes de conception des filtres prototypes sont proposées afin de mieux répondre aux besoins des systèmes. La forme d'onde étudiée est également comparée avec les autres solutions de l'état de l'art sur des scénarios d'étude classiques mais également adaptés aux nouveaux enjeux des technologies sans fils. / New use cases for wireless communications recently emerged ranging from massive sensor networks to connected cars. These applications highly differ from typical signals supported by already deployed mobile technologies, which are mainly high data rate pipes. The forthcoming generation of mobile technology, 5G New Radio, introduces the concept of signal numerology so as to properly serve the requirements of the diverse applications it will support. Indeed by considering different numerologies, the time/frequency signal allocation is made more flexible which allows to shape the transmitted signal according to its needs. However, multiplexing signals with different numerologies generates interference and therefore signal distortion. Spatial filtering, such as beamforming, is envisioned for 5G above 6-GHz communications to limit inter-user interference. However, this issue still holds for sub-6 GHz systems where spatial filtering is not considered in 5G.In this work, we consider side lobe rejection techniques to ease service multiplexing in sub-6 GHz bands. Not only it provides inter-user interference mitigation but it also improves the bandwidth use efficiency in bands where frequency is a scarce resource. A novel solution, mixing filter-bank for confined spectrum and complex orthogonality for a straightforward re-use of known-how 4G/5G techniques, is proposed. The complex orthogonality is restored thanks to an OFDM precoding substituting the commonly used Offset-QAM signaling which limits the orthogonality to the real field. Moreover, the proposed solution, named Block-Filtered Orthogonal Frequency Division Multiplexing (BFOFDM), relies on a simple 5G receiver scheme which makes it backward compatible with already deployed technologies.The BF-OFDM system model is fully described and adapted to cellular standards. Besides, different prototype filter designs methods are proposed to either improve the intrinsic interference attenuation or to better confined the spectrum of the transmitted signal. Last but not least, the proposed waveform will be compared with state-of-the-art solutions for both typical and 5G oriented evaluation scenarios such as multi-service coexistence.
7

Applications of perceptual sparse representation (Spikegram) for copyright protection of audio signals / Applications de la représentation parcimonieuse perceptuelle par graphe de décharges (Spikegramme) pour la protection du droit d’auteur des signaux sonores

Erfani, Yousof January 2016 (has links)
Chaque année, le piratage mondial de la musique coûte plusieurs milliards de dollars en pertes économiques, pertes d’emplois et pertes de gains des travailleurs ainsi que la perte de millions de dollars en recettes fiscales. La plupart du piratage de la musique est dû à la croissance rapide et à la facilité des technologies actuelles pour la copie, le partage, la manipulation et la distribution de données musicales [Domingo, 2015], [Siwek, 2007]. Le tatouage des signaux sonores a été proposé pour protéger les droit des auteurs et pour permettre la localisation des instants où le signal sonore a été falsifié. Dans cette thèse, nous proposons d’utiliser la représentation parcimonieuse bio-inspirée par graphe de décharges (spikegramme), pour concevoir une nouvelle méthode permettant la localisation de la falsification dans les signaux sonores. Aussi, une nouvelle méthode de protection du droit d’auteur. Finalement, une nouvelle attaque perceptuelle, en utilisant le spikegramme, pour attaquer des systèmes de tatouage sonore. Nous proposons tout d’abord une technique de localisation des falsifications (‘tampering’) des signaux sonores. Pour cela nous combinons une méthode à spectre étendu modifié (‘modified spread spectrum’, MSS) avec une représentation parcimonieuse. Nous utilisons une technique de poursuite perceptive adaptée (perceptual marching pursuit, PMP [Hossein Najaf-Zadeh, 2008]) pour générer une représentation parcimonieuse (spikegramme) du signal sonore d’entrée qui est invariante au décalage temporel [E. C. Smith, 2006] et qui prend en compte les phénomènes de masquage tels qu’ils sont observés en audition. Un code d’authentification est inséré à l’intérieur des coefficients de la représentation en spikegramme. Puis ceux-ci sont combinés aux seuils de masquage. Le signal tatoué est resynthétisé à partir des coefficients modifiés, et le signal ainsi obtenu est transmis au décodeur. Au décodeur, pour identifier un segment falsifié du signal sonore, les codes d’authentification de tous les segments intacts sont analysés. Si les codes ne peuvent être détectés correctement, on sait qu’alors le segment aura été falsifié. Nous proposons de tatouer selon le principe à spectre étendu (appelé MSS) afin d’obtenir une grande capacité en nombre de bits de tatouage introduits. Dans les situations où il y a désynchronisation entre le codeur et le décodeur, notre méthode permet quand même de détecter des pièces falsifiées. Par rapport à l’état de l’art, notre approche a le taux d’erreur le plus bas pour ce qui est de détecter les pièces falsifiées. Nous avons utilisé le test de l’opinion moyenne (‘MOS’) pour mesurer la qualité des systèmes tatoués. Nous évaluons la méthode de tatouage semi-fragile par le taux d’erreur (nombre de bits erronés divisé par tous les bits soumis) suite à plusieurs attaques. Les résultats confirment la supériorité de notre approche pour la localisation des pièces falsifiées dans les signaux sonores tout en préservant la qualité des signaux. Ensuite nous proposons une nouvelle technique pour la protection des signaux sonores. Cette technique est basée sur la représentation par spikegrammes des signaux sonores et utilise deux dictionnaires (TDA pour Two-Dictionary Approach). Le spikegramme est utilisé pour coder le signal hôte en utilisant un dictionnaire de filtres gammatones. Pour le tatouage, nous utilisons deux dictionnaires différents qui sont sélectionnés en fonction du bit d’entrée à tatouer et du contenu du signal. Notre approche trouve les gammatones appropriés (appelés noyaux de tatouage) sur la base de la valeur du bit à tatouer, et incorpore les bits de tatouage dans la phase des gammatones du tatouage. De plus, il est montré que la TDA est libre d’erreur dans le cas d’aucune situation d’attaque. Il est démontré que la décorrélation des noyaux de tatouage permet la conception d’une méthode de tatouage sonore très robuste. Les expériences ont montré la meilleure robustesse pour la méthode proposée lorsque le signal tatoué est corrompu par une compression MP3 à 32 kbits par seconde avec une charge utile de 56.5 bps par rapport à plusieurs techniques récentes. De plus nous avons étudié la robustesse du tatouage lorsque les nouveaux codec USAC (Unified Audion and Speech Coding) à 24kbps sont utilisés. La charge utile est alors comprise entre 5 et 15 bps. Finalement, nous utilisons les spikegrammes pour proposer trois nouvelles méthodes d’attaques. Nous les comparons aux méthodes récentes d’attaques telles que 32 kbps MP3 et 24 kbps USAC. Ces attaques comprennent l’attaque par PMP, l’attaque par bruit inaudible et l’attaque de remplacement parcimonieuse. Dans le cas de l’attaque par PMP, le signal de tatouage est représenté et resynthétisé avec un spikegramme. Dans le cas de l’attaque par bruit inaudible, celui-ci est généré et ajouté aux coefficients du spikegramme. Dans le cas de l’attaque de remplacement parcimonieuse, dans chaque segment du signal, les caractéristiques spectro-temporelles du signal (les décharges temporelles ;‘time spikes’) se trouvent en utilisant le spikegramme et les spikes temporelles et similaires sont remplacés par une autre. Pour comparer l’efficacité des attaques proposées, nous les comparons au décodeur du tatouage à spectre étendu. Il est démontré que l’attaque par remplacement parcimonieux réduit la corrélation normalisée du décodeur de spectre étendu avec un plus grand facteur par rapport à la situation où le décodeur de spectre étendu est attaqué par la transformation MP3 (32 kbps) et 24 kbps USAC. / Abstract : Every year global music piracy is making billion dollars of economic, job, workers’ earnings losses and also million dollars loss in tax revenues. Most of the music piracy is because of rapid growth and easiness of current technologies for copying, sharing, manipulating and distributing musical data [Domingo, 2015], [Siwek, 2007]. Audio watermarking has been proposed as one approach for copyright protection and tamper localization of audio signals to prevent music piracy. In this thesis, we use the spikegram- which is a bio-inspired sparse representation- to propose a novel approach to design an audio tamper localization method as well as an audio copyright protection method and also a new perceptual attack against any audio watermarking system. First, we propose a tampering localization method for audio signal, based on a Modified Spread Spectrum (MSS) approach. Perceptual Matching Pursuit (PMP) is used to compute the spikegram (which is a sparse and time-shift invariant representation of audio signals) as well as 2-D masking thresholds. Then, an authentication code (which includes an Identity Number, ID) is inserted inside the sparse coefficients. For high quality watermarking, the watermark data are multiplied with masking thresholds. The time domain watermarked signal is re-synthesized from the modified coefficients and the signal is sent to the decoder. To localize a tampered segment of the audio signal, at the decoder, the ID’s associated to intact segments are detected correctly, while the ID associated to a tampered segment is mis-detected or not detected. To achieve high capacity, we propose a modified version of the improved spread spectrum watermarking called MSS (Modified Spread Spectrum). We performed a mean opinion test to measure the quality of the proposed watermarking system. Also, the bit error rates for the presented tamper localization method are computed under several attacks. In comparison to conventional methods, the proposed tamper localization method has the smallest number of mis-detected tampered frames, when only one frame is tampered. In addition, the mean opinion test experiments confirms that the proposed method preserves the high quality of input audio signals. Moreover, we introduce a new audio watermarking technique based on a kernel-based representation of audio signals. A perceptive sparse representation (spikegram) is combined with a dictionary of gammatone kernels to construct a robust representation of sounds. Compared to traditional phase embedding methods where the phase of signal’s Fourier coefficients are modified, in this method, the watermark bit stream is inserted by modifying the phase of gammatone kernels. Moreover, the watermark is automatically embedded only into kernels with high amplitudes where all masked (non-meaningful) gammatones have been already removed. Two embedding methods are proposed, one based on the watermark embedding into the sign of gammatones (one dictionary method) and another one based on watermark embedding into both sign and phase of gammatone kernels (two-dictionary method). The robustness of the proposed method is shown against 32 kbps MP3 with an embedding rate of 56.5 bps while the state of the art payload for 32 kbps MP3 robust iii iv watermarking is lower than 50.3 bps. Also, we showed that the proposed method is robust against unified speech and audio codec (24 kbps USAC, Linear predictive and Fourier domain modes) with an average payload of 5 − 15 bps. Moreover, it is shown that the proposed method is robust against a variety of signal processing transforms while preserving quality. Finally, three perceptual attacks are proposed in the perceptual sparse domain using spikegram. These attacks are called PMP, inaudible noise adding and the sparse replacement attacks. In PMP attack, the host signals are represented and re-synthesized with spikegram. In inaudible noise attack, the inaudible noise is generated and added to the spikegram coefficients. In sparse replacement attack, each specific frame of the spikegram representation - when possible - is replaced with a combination of similar frames located in other parts of the spikegram. It is shown than the PMP and inaudible noise attacks have roughly the same efficiency as the 32 kbps MP3 attack, while the replacement attack reduces the normalized correlation of the spread spectrum decoder with a greater factor than when attacking with 32 kbps MP3 or 24 kbps unified speech and audio coding (USAC).
8

Décodage neuronal dans le système auditif central à l'aide d'un modèle bilinéaire généralisé et de représentations spectro-temporelles bio-inspirées / Neural decoding in the central auditory system using bio-inspired spectro-temporal representations and a generalized bilinear model

Siahpoush, Shadi January 2015 (has links)
Résumé : Dans ce projet, un décodage neuronal bayésien est effectué sur le colliculus inférieur du cochon d'Inde. Premièrement, On lit les potentiels évoqués grâce aux électrodes et ensuite on en déduit les potentiels d'actions à l'aide de technique de classification des décharges des neurones. Ensuite, un modèle linéaire généralisé (GLM) est entraîné en associant un stimulus acoustique en même temps que les mesures de potentiel qui sont effectuées. Enfin, nous faisons le décodage neuronal de l'activité des neurones en utilisant une méthode d'estimation statistique par maximum à posteriori afin de reconstituer la représentation spectro-temporelle du signal acoustique qui correspond au stimulus acoustique. Dans ce projet, nous étudions l'impact de différents modèles de codage neuronal ainsi que de différentes représentations spectro-temporelles (qu'elles sont supposé représenter le stimulus acoustique équivalent) sur la précision du décodage bayésien de l'activité neuronale enregistrée par le système auditif central. En fait, le modèle va associer une représentation spectro-temporelle équivalente au stimulus acoustique à partir des mesures faites dans le cerveau. Deux modèles de codage sont comparés: un GLM et un modèle bilinéaire généralisé (GBM), chacun avec trois différentes représentations spectro-temporelles des stimuli d'entrée soit un spectrogramme ainsi que deux représentations bio-inspirées: un banc de filtres gammatones et un spikegramme. Les paramètres des GLM et GBM, soit le champ récepteur spectro-temporel, le filtre post décharge et l'entrée non linéaire (seulement pour le GBM) sont adaptés en utilisant un algorithme d'optimisation par maximum de vraisemblance (ML). Le rapport signal sur bruit entre la représentation reconstruite et la représentation originale est utilisé pour évaluer le décodage, c'est-à-dire la précision de la reconstruction. Nous montrons expérimentalement que la précision de la reconstruction est meilleure avec une représentation par spikegramme qu'avec une représentation par spectrogramme et, en outre, que l'utilisation d'un GBM au lieu d'un GLM augmente la précision de la reconstruction. En fait, nos résultats montrent que le rapport signal à bruit de la reconstruction d'un spikegramme avec le modèle GBM est supérieur de 3.3 dB au rapport signal à bruit de la reconstruction d'un spectrogramme avec le modèle GLM. / Abstract : In this project, Bayesian neural decoding is performed on the neural activity recorded from the inferior colliculus of the guinea pig following the presentation of a vocalization. In particular, we study the impact of different encoding models on the accuracy of reconstruction of different spectro-temporal representations of the input stimulus. First voltages recorded from the inferior colliculus of the guinea pig are read and the spike trains are obtained. Then, we fit an encoding model to the stimulus and associated spike trains. Finally, we do neural decoding on the pairs of stimuli and neural activities using the maximum a posteriori optimization method to obtain the reconstructed spectro-temporal representation of the signal. Two encoding models, a generalized linear model (GLM) and a generalized bilinear model (GBM), are compared along with three different spectro-temporal representations of the input stimuli: a spectrogram and two bio-inspired representations, i.e. a gammatone filter bank (GFB) and a spikegram. The parameters of the GLM and GBM including spectro-temporal receptive field, post spike filter and input non linearity (only for the GBM) are fitted using the maximum likelihood optimization (ML) algorithm. Signal to noise ratios between the reconstructed and original representations are used to evaluate the decoding, or reconstruction accuracy. We experimentally show that the reconstruction accuracy is better with the spikegram representation than with the spectrogram and GFB representation. Furthermore, using a GBM instead of a GLM significantly increases the reconstruction accuracy. In fact, our results show that the spikegram reconstruction accuracy with a GBM fitting yields an SNR that is 3.3 dB better than when using the standard decoding approach of reconstructing a spectrogram with GLM fitting.
9

Décomposition Modale Empirique : Contribution à la Modélisation Mathématique et Application en Traitement du Signal et de l'Image

Niang, Oumar 20 September 2007 (has links) (PDF)
La Décomposition Modale Empirique (EMD), est une méthode de décomposition multi-résolution de signaux en fonctions Modes Intrinsèques (IMF) et cela, de manière auto-adaptative. En la couplant avec la transformée de Hilbert, elle devient une méthode d'analyse Temps-Fréquence , la transformée de Hilbert-Huang, permettant d'étudier bon nombre de classes de signaux. Malgré ces nombreuses applications, l'une des plus importantes limites de l'EMD est son manque de formalisme mathématique. A la place d'une interpolation par splines cubiques utilisée dans l'EMD classique, nous avons estimé l'enveloppe moyenne par une solution d'un système d'EDP. Par une méthode variationnelle, nous avons établi un cadre théorique pour prouver les résultats de convergence, d'existence de modes et la propriété de presque orthogonalité de l'EMD. La comparaison avec des bancs de filtres itératifs et les ondelettes, montre l'aspect multi-résolution de l'EMD. Deux nouvelles applications en traitement du signal et de l'image sont présentées : l'extraction des intermittences et mode mixing et la restauration par shrinkage par EMD. Enfin le modèle peut servir de base pour l'étude de l'unicité de la décomposition.

Page generated in 0.4631 seconds