Return to search

Applications of perceptual sparse representation (Spikegram) for copyright protection of audio signals / Applications de la représentation parcimonieuse perceptuelle par graphe de décharges (Spikegramme) pour la protection du droit d’auteur des signaux sonores

Chaque année, le piratage mondial de la musique coûte plusieurs milliards de dollars en
pertes économiques, pertes d’emplois et pertes de gains des travailleurs ainsi que la perte
de millions de dollars en recettes fiscales. La plupart du piratage de la musique est dû
à la croissance rapide et à la facilité des technologies actuelles pour la copie, le partage,
la manipulation et la distribution de données musicales [Domingo, 2015], [Siwek, 2007].
Le tatouage des signaux sonores a été proposé pour protéger les droit des auteurs et
pour permettre la localisation des instants où le signal sonore a été falsifié. Dans cette
thèse, nous proposons d’utiliser la représentation parcimonieuse bio-inspirée par graphe de
décharges (spikegramme), pour concevoir une nouvelle méthode permettant la localisation
de la falsification dans les signaux sonores. Aussi, une nouvelle méthode de protection du
droit d’auteur. Finalement, une nouvelle attaque perceptuelle, en utilisant le spikegramme,
pour attaquer des systèmes de tatouage sonore.
Nous proposons tout d’abord une technique de localisation des falsifications (‘tampering’)
des signaux sonores. Pour cela nous combinons une méthode à spectre étendu modifié
(‘modified spread spectrum’, MSS) avec une représentation parcimonieuse. Nous utilisons
une technique de poursuite perceptive adaptée (perceptual marching pursuit, PMP [Hossein
Najaf-Zadeh, 2008]) pour générer une représentation parcimonieuse (spikegramme) du
signal sonore d’entrée qui est invariante au décalage temporel [E. C. Smith, 2006] et qui
prend en compte les phénomènes de masquage tels qu’ils sont observés en audition. Un code
d’authentification est inséré à l’intérieur des coefficients de la représentation en spikegramme.
Puis ceux-ci sont combinés aux seuils de masquage. Le signal tatoué est resynthétisé à
partir des coefficients modifiés, et le signal ainsi obtenu est transmis au décodeur. Au
décodeur, pour identifier un segment falsifié du signal sonore, les codes d’authentification de
tous les segments intacts sont analysés. Si les codes ne peuvent être détectés correctement,
on sait qu’alors le segment aura été falsifié. Nous proposons de tatouer selon le principe
à spectre étendu (appelé MSS) afin d’obtenir une grande capacité en nombre de bits de
tatouage introduits. Dans les situations où il y a désynchronisation entre le codeur et le
décodeur, notre méthode permet quand même de détecter des pièces falsifiées. Par rapport
à l’état de l’art, notre approche a le taux d’erreur le plus bas pour ce qui est de détecter
les pièces falsifiées. Nous avons utilisé le test de l’opinion moyenne (‘MOS’) pour mesurer
la qualité des systèmes tatoués. Nous évaluons la méthode de tatouage semi-fragile par
le taux d’erreur (nombre de bits erronés divisé par tous les bits soumis) suite à plusieurs
attaques. Les résultats confirment la supériorité de notre approche pour la localisation des
pièces falsifiées dans les signaux sonores tout en préservant la qualité des signaux.
Ensuite nous proposons une nouvelle technique pour la protection des signaux sonores.
Cette technique est basée sur la représentation par spikegrammes des signaux sonores
et utilise deux dictionnaires (TDA pour Two-Dictionary Approach). Le spikegramme est
utilisé pour coder le signal hôte en utilisant un dictionnaire de filtres gammatones. Pour
le tatouage, nous utilisons deux dictionnaires différents qui sont sélectionnés en fonction
du bit d’entrée à tatouer et du contenu du signal. Notre approche trouve les gammatones appropriés (appelés noyaux de tatouage) sur la base de la valeur du bit à tatouer, et
incorpore les bits de tatouage dans la phase des gammatones du tatouage. De plus, il
est montré que la TDA est libre d’erreur dans le cas d’aucune situation d’attaque. Il est
démontré que la décorrélation des noyaux de tatouage permet la conception d’une méthode
de tatouage sonore très robuste.
Les expériences ont montré la meilleure robustesse pour la méthode proposée lorsque le
signal tatoué est corrompu par une compression MP3 à 32 kbits par seconde avec une
charge utile de 56.5 bps par rapport à plusieurs techniques récentes. De plus nous avons
étudié la robustesse du tatouage lorsque les nouveaux codec USAC (Unified Audion and
Speech Coding) à 24kbps sont utilisés. La charge utile est alors comprise entre 5 et 15 bps.
Finalement, nous utilisons les spikegrammes pour proposer trois nouvelles méthodes
d’attaques. Nous les comparons aux méthodes récentes d’attaques telles que 32 kbps MP3
et 24 kbps USAC. Ces attaques comprennent l’attaque par PMP, l’attaque par bruit
inaudible et l’attaque de remplacement parcimonieuse. Dans le cas de l’attaque par PMP,
le signal de tatouage est représenté et resynthétisé avec un spikegramme. Dans le cas de
l’attaque par bruit inaudible, celui-ci est généré et ajouté aux coefficients du spikegramme.
Dans le cas de l’attaque de remplacement parcimonieuse, dans chaque segment du signal,
les caractéristiques spectro-temporelles du signal (les décharges temporelles ;‘time spikes’)
se trouvent en utilisant le spikegramme et les spikes temporelles et similaires sont remplacés
par une autre.
Pour comparer l’efficacité des attaques proposées, nous les comparons au décodeur du
tatouage à spectre étendu. Il est démontré que l’attaque par remplacement parcimonieux
réduit la corrélation normalisée du décodeur de spectre étendu avec un plus grand facteur
par rapport à la situation où le décodeur de spectre étendu est attaqué par la transformation MP3 (32 kbps) et 24 kbps USAC. / Abstract : Every year global music piracy is making billion dollars of economic, job, workers’ earnings
losses and also million dollars loss in tax revenues. Most of the music piracy is because of
rapid growth and easiness of current technologies for copying, sharing, manipulating and
distributing musical data [Domingo, 2015], [Siwek, 2007]. Audio watermarking has been
proposed as one approach for copyright protection and tamper localization of audio signals
to prevent music piracy. In this thesis, we use the spikegram- which is a bio-inspired sparse
representation- to propose a novel approach to design an audio tamper localization method
as well as an audio copyright protection method and also a new perceptual attack against
any audio watermarking system.
First, we propose a tampering localization method for audio signal, based on a Modified
Spread Spectrum (MSS) approach. Perceptual Matching Pursuit (PMP) is used to compute
the spikegram (which is a sparse and time-shift invariant representation of audio signals) as
well as 2-D masking thresholds. Then, an authentication code (which includes an Identity
Number, ID) is inserted inside the sparse coefficients. For high quality watermarking, the
watermark data are multiplied with masking thresholds. The time domain watermarked
signal is re-synthesized from the modified coefficients and the signal is sent to the decoder.
To localize a tampered segment of the audio signal, at the decoder, the ID’s associated to
intact segments are detected correctly, while the ID associated to a tampered segment is
mis-detected or not detected. To achieve high capacity, we propose a modified version of
the improved spread spectrum watermarking called MSS (Modified Spread Spectrum). We
performed a mean opinion test to measure the quality of the proposed watermarking system.
Also, the bit error rates for the presented tamper localization method are computed under
several attacks. In comparison to conventional methods, the proposed tamper localization
method has the smallest number of mis-detected tampered frames, when only one frame
is tampered. In addition, the mean opinion test experiments confirms that the proposed
method preserves the high quality of input audio signals.
Moreover, we introduce a new audio watermarking technique based on a kernel-based
representation of audio signals. A perceptive sparse representation (spikegram) is combined
with a dictionary of gammatone kernels to construct a robust representation of sounds.
Compared to traditional phase embedding methods where the phase of signal’s Fourier
coefficients are modified, in this method, the watermark bit stream is inserted by modifying
the phase of gammatone kernels. Moreover, the watermark is automatically embedded only
into kernels with high amplitudes where all masked (non-meaningful) gammatones have
been already removed. Two embedding methods are proposed, one based on the watermark
embedding into the sign of gammatones (one dictionary method) and another one based
on watermark embedding into both sign and phase of gammatone kernels (two-dictionary
method). The robustness of the proposed method is shown against 32 kbps MP3 with
an embedding rate of 56.5 bps while the state of the art payload for 32 kbps MP3 robust
iii
iv
watermarking is lower than 50.3 bps. Also, we showed that the proposed method is robust
against unified speech and audio codec (24 kbps USAC, Linear predictive and Fourier
domain modes) with an average payload of 5 − 15 bps. Moreover, it is shown that the
proposed method is robust against a variety of signal processing transforms while preserving
quality.
Finally, three perceptual attacks are proposed in the perceptual sparse domain using
spikegram. These attacks are called PMP, inaudible noise adding and the sparse replacement
attacks. In PMP attack, the host signals are represented and re-synthesized with
spikegram. In inaudible noise attack, the inaudible noise is generated and added to the
spikegram coefficients. In sparse replacement attack, each specific frame of the spikegram
representation - when possible - is replaced with a combination of similar frames located
in other parts of the spikegram. It is shown than the PMP and inaudible noise attacks
have roughly the same efficiency as the 32 kbps MP3 attack, while the replacement attack
reduces the normalized correlation of the spread spectrum decoder with a greater factor
than when attacking with 32 kbps MP3 or 24 kbps unified speech and audio coding (USAC).

Identiferoai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/9859
Date January 2016
CreatorsErfani, Yousof
ContributorsRouat, Jean, Pichevar, Ramin
PublisherUniversité de Sherbrooke
Source SetsUniversité de Sherbrooke
LanguageEnglish
Detected LanguageFrench
TypeThèse
Rights© Yousof Erfani, Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.5 Canada, http://creativecommons.org/licenses/by-nc-nd/2.5/ca/

Page generated in 0.0038 seconds