Spelling suggestions: "subject:"représentation parcimonie"" "subject:"représentation parcimônia""
11 |
Analyse d'images pour une recherche d'images basée contenu dans le domaine transformé.Bai, Cong 21 February 2013 (has links) (PDF)
Cette thèse s'inscrit dans la recherche d'images basée sur leur contenu. La recherche opère sur des images eprésentéesdans un domaine transformé et où sont construits directement les vecteurs de caractéristiques ou indices. Deux types detransformations sont explorés : la transformée en cosinus discrète ou Discrete Cosine Transform (DCT) et la transforméen ondelettes discrète ou Discrete Wavelet Transform (DWT), utilisés dans les normes de compression JPEG et JPEG2000. Basés sur les propriétés des coefficients de la transformation, différents vecteurs de caractéristiquessont proposés. Ces vecteurs sont mis en oeuvre dans la reconnaissance de visages et de textures couleur.Dans le domaine DCT, sont proposés quatre types de vecteurs de caractéristiques dénommés "patterns" : Zigzag-Pattern,Sum-Pattern, Texture-Pattern et Color-Pattern. Le premier type est l'amélioration d'une approche existante. Les trois derniers intègrent la capacité de compactage des coefficients DCT, sachant que certains coefficients représentent une information de directionnalité. L'histogramme de ces vecteurs est retenu comme descripteur de l'image. Pour une réduction de la dimension du descripteur lors de la construction de l'histogramme il est défini, soit une adjacence sur des patterns proches puis leur fusion, soit une sélection des patterns les plus fréquents. Ces approches sont évaluées sur des bases de données d'images de visages ou de textures couramment utilisées. Dans le domaine DWT, deux types d'approches sont proposés. Dans le premier, un vecteur-couleur et un vecteur-texture multirésolution sont élaborés. Cette approche se classe dans le cadre d'une caractérisation séparée de la couleur et de la texture. La seconde approche se situe dans le contexte d'une caractérisation conjointe de la couleur et de la texture. Comme précédemment, l'histogramme des vecteurs est choisi comme descripteur en utilisant l'algorithme K-means pour construire l'histogramme à partir de deux méthodes. La première est le procédé classique de regroupement des vecteurs par partition. La seconde est un histogramme basé sur une représentation parcimonieuse dans laquelle la valeur des bins représente le poids total des vecteurs de base de la représentation.
|
12 |
Closed and Open World Multi-shot Person Re-identification / Ré-identification de personnes à partir de multiples images dans le cadre de bases d'identités fermées et ouvertesChan-Lang, Solène 06 December 2017 (has links)
Dans cette thèse, nous nous sommes intéressés au problème de la ré-identification de personnes dans le cadre de bases d'identités ouvertes. Ré-identifier une personne suppose qu'elle a déjà été identifiée auparavant. La galerie fait référence aux identités connues. Dans le cas de bases d'identités ouvertes, la galerie ne contient pas toutes les identités possibles. Ainsi une personne requête peut être une des personnes de la galerie, mais peut aussi ne pas être présente dans la galerie. Ré-identifier en base ouverte consiste donc non seulement à ranger par ordre de similarité les identités galeries les plus semblables à la personne requête mais également à rejeter les personnes requêtes si elles ne correspondent à aucune personne de la galerie. Une de nos contributions, COPReV, s'appuie exclusivement sur des contraintes de vérification afin d'apprendre une projection des descripteurs telle que la distance entre les descripteurs d'une même personne soit inférieure à un seuil et que la distance entre les descripteurs de deux personnes distinctes soit supérieure au même seuil. Nos autres contributions se basent sur des méthodes parcimonieuses collaboratives qui sont performantes pour résoudre des tâches de classement. Nous proposons d'améliorer ces méthodes en introduisant un aspect vérification grâce à une collaboration élargie. De plus, une variante bidirectionnelle de cette approche la rend encore plus robuste et donne des résultats meilleurs que les autres approches actuelles de l'état de l'art dans le cadre de la ré-identification de personne en base d'identités ouverte. / In this thesis we tackle the open world person re-identification task in which the people we want to re-identify (probe) might not appear in the database of known identities (gallery). For a given probe person, the goal is to find out whether he is present in the gallery or not and if so, who he is. Our first contribution is based on a verification formulation of the problem. A linear transformation of the features is learnt so that the distance between features of the same person are below a threshold and that of distinct people are above that same threshold so that it is easy to determine whether two sets of images represent the same person or not. Our other contributions are based on collaborative sparse representations. A usual way to use collaborative sparse representation for re-identification is to approximate the feature of a probe image by a sparse linear combination of gallery elements, where all the known identities collaborate but only the most similar elements are selected. Gallery identities are then ranked according to how much they contributed to the approximation. We propose to enhance the collaborative aspect so that collaborative sparse representations can be used not only as a ranking tool but also as a detection tool which rejects wrong matches. A bidirectional variant gives even more robust results by taking into account the fact that a good match is a match where there is a reciprocal relation in which both the probe and the gallery identities consider the other one as a good match. COPReV shows average performances but bidirectional collaboration enhanced sparse representation method outperforms state-of-the-art methods for open world scenarios.
|
13 |
One-class classification for cyber intrusion detection in industrial systems / Classification mono-classe pour la détection des cyber-intrusions dans les systèmes industrielsNader, Patric 24 September 2015 (has links)
La sécurité des infrastructures critiques a suscité l'attention des chercheurs récemment avec l'augmentation du risque des cyber-attaques et des menaces terroristes contre ces systèmes. La majorité des infrastructures est contrôlée par des systèmes SCADA (Supervisory Control And Data Acquisition) permettant le contrôle à distance des processus industriels, comme les réseaux électriques, le transport de gaz, la distribution d'eau potable, les centrales nucléaires, etc. Les systèmes traditionnels de détection d'intrusions sont incapables de détecter les nouvelles attaques ne figurant pas dans leurs bases de données. L'objectif de cette thèse est d'apporter une aide supplémentaire à ces systèmes pour assurer une meilleure protection contre les cyber-attaques.La complexité et la diversité des attaques rendent leur modélisation difficile. Pour surmonter cet obstacle, nous utilisons des méthodes d'apprentissage statistique mono-classes. Ces méthodes élaborent une fonction de décision à partir de données d'apprentissage, pour classer les nouveaux échantillons en données aberrantes ou données normales. La fonction de décision définie l’enveloppe d’une région de l’espace de données contenant la majeure partie des données d’apprentissage. Cette thèse propose des méthodes de classification mono-classe, des formulations parcimonieuses de ces méthodes, et une méthode en ligne pour la détection temps réel. Les performances de ces méthodes sont montrées sur des données benchmark de différents types d’infrastructures critiques / The security of critical infrastructures has been an interesting topic recently with the increasing risk of cyber-attacks and terrorist threats against these systems. The majority of these infrastructures is controlled via SCADA (Supervisory Control And Data Acquisition) systems, which allow remote monitoring of industrial processes such as electrical power grids, gas pipelines, water distribution systems, wastewater collection systems, nuclear power plants, etc. Traditional intrusion detection systems (IDS) cannot detect new types of attacks not listed in their databases, so they cannot ensure maximum protection for these infrastructures.The objective of this thesis is to provide additional help to IDS to ensure better protection for industrial systems against cyber-attacks and intrusions. The complexity of studied systems and the diversity of attacks make modeling these attacks very difficult. To overcome this difficulty, we use machine learning, especially one-class classification. Based on training samples, these methods develop decision rules to classify new samples as outliers or normal ones. This dissertation proposes specific one-class classification approaches, sparse formulations of these approaches, and an online approach to improve the real-time detection. The relevance of these approaches is illustrated on benchmark data from three different types of critical infrastructures
|
14 |
Représentations parcimonieuses et apprentissage de dictionnaires pour la compression et la classification d'images satellites / Sparse representations and dictionary learning for the compression and the classification of satellite imagesAghaei Mazaheri, Jérémy 20 July 2015 (has links)
Cette thèse propose d'explorer des méthodes de représentations parcimonieuses et d'apprentissage de dictionnaires pour compresser et classifier des images satellites. Les représentations parcimonieuses consistent à approximer un signal par une combinaison linéaire de quelques colonnes, dites atomes, d'un dictionnaire, et ainsi à le représenter par seulement quelques coefficients non nuls contenus dans un vecteur parcimonieux. Afin d'améliorer la qualité des représentations et d'en augmenter la parcimonie, il est intéressant d'apprendre le dictionnaire. La première partie de la thèse présente un état de l'art consacré aux représentations parcimonieuses et aux méthodes d'apprentissage de dictionnaires. Diverses applications de ces méthodes y sont détaillées. Des standards de compression d'images sont également présentés. La deuxième partie traite de l'apprentissage de dictionnaires structurés sur plusieurs niveaux, d'une structure en arbre à une structure adaptative, et de leur application au cas de la compression d'images satellites en les intégrant dans un schéma de codage adapté. Enfin, la troisième partie est consacrée à l'utilisation des dictionnaires structurés appris pour la classification d'images satellites. Une méthode pour estimer la Fonction de Transfert de Modulation (FTM) de l'instrument dont provient une image est étudiée. Puis un algorithme de classification supervisée, utilisant des dictionnaires structurés rendus discriminants entre les classes à l'apprentissage, est présenté dans le cadre de la reconnaissance de scènes au sein d'une image. / This thesis explores sparse representation and dictionary learning methods to compress and classify satellite images. Sparse representations consist in approximating a signal by a linear combination of a few columns, known as atoms, from a dictionary, and thus representing it by only a few non-zero coefficients contained in a sparse vector. In order to improve the quality of the representations and to increase their sparsity, it is interesting to learn the dictionary. The first part of the thesis presents a state of the art about sparse representations and dictionary learning methods. Several applications of these methods are explored. Some image compression standards are also presented. The second part deals with the learning of dictionaries structured in several levels, from a tree structure to an adaptive structure, and their application to the compression of satellite images, by integrating them in an adapted coding scheme. Finally, the third part is about the use of learned structured dictionaries for the classification of satellite images. A method to estimate the Modulation Transfer Function (MTF) of the instrument used to capture an image is studied. A supervised classification algorithm, using structured dictionaries made discriminant between classes during the learning, is then presented in the scope of scene recognition in a picture.
|
15 |
Séparation aveugle de source : de l'instantané au convolutif / Blind source separation : from instantaneous to convolutiveFeng, Fangchen 29 September 2017 (has links)
La séparation aveugle de source consiste à estimer les signaux de sources uniquement à partir des mélanges observés. Le problème peut être séparé en deux catégories en fonction du modèle de mélange: mélanges instantanés, où le retard et la réverbération (effet multi-chemin) ne sont pas pris en compte, et des mélanges convolutives qui sont plus généraux mais plus compliqués. De plus, le bruit additif au niveaux des capteurs et le réglage sous-déterminé, où il y a moins de capteurs que les sources, rendent le problème encore plus difficile.Dans cette thèse, tout d'abord, nous avons étudié le lien entre deux méthodes existantes pour les mélanges instantanés: analyse des composants indépendants (ICA) et analyse des composant parcimonieux (SCA). Nous avons ensuite proposé une nouveau formulation qui fonctionne dans les cas déterminés et sous-déterminés, avec et sans bruit. Les évaluations numériques montrent l'avantage des approches proposées.Deuxièmement, la formulation proposés est généralisés pour les mélanges convolutifs avec des signaux de parole. En intégrant un nouveau modèle d'approximation, les algorithmes proposés fonctionnent mieux que les méthodes existantes, en particulier dans des scénarios bruyant et / ou de forte réverbération.Ensuite, on prend en compte la technique de décomposition morphologique et l'utilisation de parcimonie structurée qui conduit à des algorithmes qui peuvent mieux exploiter les structures des signaux audio. De telles approches sont testées pour des mélanges convolutifs sous-déterminés dans un scénario non-aveugle.Enfin, en bénéficiant du modèle NMF (factorisation en matrice non-négative), nous avons combiné l'hypothèse de faible-rang et de parcimonie et proposé de nouvelles approches pour les mélanges convolutifs sous-déterminés. Les expériences illustrent la bonne performance des algorithmes proposés pour les signaux de musique, en particulier dans des scénarios de forte réverbération. / Blind source separation (BSS) consists of estimating the source signals only from the observed mixtures. The problem can be divided into two categories according to the mixing model: instantaneous mixtures, where delay and reverberation (multi-path effect) are not taken into account, and convolutive mixtures which are more general but more complicated. Moreover, the additive noise at the sensor level and the underdetermined setting, where there are fewer sensors than the sources, make the problem even more difficult.In this thesis, we first studied the link between two existing methods for instantaneous mixtures: independent component analysis (ICA) and sparse component analysis (SCA). We then proposed a new formulation that works in both determined and underdetermined cases, with and without noise. Numerical evaluations show the advantage of the proposed approaches.Secondly, the proposed formulation is generalized for convolutive mixtures with speech signals. By integrating a new approximation model, the proposed algorithms work better than existing methods, especially in noisy and/or high reverberation scenarios.Then, we take into account the technique of morphological decomposition and the use of structured sparsity which leads to algorithms that can better exploit the structures of audio signals. Such approaches are tested for underdetermined convolutive mixtures in a non-blind scenario.At last, being benefited from the NMF model, we combined the low-rank and sparsity assumption and proposed new approaches for under-determined convolutive mixtures. The experiments illustrate the good performance of the proposed algorithms for music signals, especially in strong reverberation scenarios.
|
16 |
Nouvelles méthodes de synthèse de texture ; application à la prédiction et à l'inpainting d'imagesTurkan, Mehmet 19 December 2011 (has links) (PDF)
Cette thèse présente de nouvelles méthodes de synthèse de texture basées sur l'exemple pour les problèmes de prédiction d'images (c'est à dire, codage prédictif) et d'inpainting d'images. Les principales contributions de cette étude peuvent aussi être vues comme des extensions du template matching. Cependant, le problème de synthèse de texture tel que nous le définissons ici se situe plutôt dans un contexte d'optimisation formalisée sous différentes contraintes. Le problème de prédiction d'images est d'abord situé dans un contexte de représentations parcimonieuses par l'approximation du template sous contraintes de parcimonie. La méthode de prédiction proposée avec les dictionnaires adaptés localement montrent de meilleures performances par rapport aux dictionnaires classiques (tels que la transformée en cosinus discrète (TCD)), et à la méthode du template matching. Le problème de prédiction d'images est ensuite placé dans un cadre d'apprentissage de dictionnaires en adaptant les méthodes traditionnelles d'apprentissage pour la prédiction de l'image. Les observations expérimentales montrent une meilleure performance comparativement à des méthodes de prédiction parcimonieuse et des prédictions intra de type H.264/AVC. Enfin un cadre neighbor embedding est proposé pour la prédiction de l'image en utilisant deux méthodes de réduction de dimensionnalité: la factorisation de matrice non négative (FMN) et le locally linear embedding (LLE). Ce cadre est ensuite étendu au problème d'inpainting d'images. Les évaluations expérimentales démontrent l'efficacité des idées sous-jacentes pour la compression via la prédiction d'images et l'inpainting d'images.
|
17 |
Méthodes avancées de traitement de la parole et de réduction de bruit pour les terminaux mobiles / Advanced methods of speech processing and noise reduction for mobile devicesMai, Van Khanh 09 March 2017 (has links)
Cette thèse traite d'un des problèmes les plus stimulants dans le traitement de la parole concernant la prothèse auditive, où seulement un capteur est disponible avec de faibles coûts de calcul, de faible utilisation d'énergie et l'absence de bases de données. Basée sur les récents résultats dans les deux estimations statistiques paramétriques et non-paramétriques, ainsi que la représentation parcimonieuse. Cette étude propose quelques techniques non seulement pour améliorer la qualité et l'intelligibilité de la parole, mais aussi pour s'attaquer au débruitage du signal audio en général.La thèse est divisée en deux parties ; Dans la première partie, on aborde le problème d'estimation de la densité spectrale de puissance du bruit, particulièrement pour le bruit non-stationnaire. Ce problème est une des parties principales du traitement de la parole du mono-capteur. La méthode proposée prend en compte le modèle parcimonieux de la parole dans le domaine transféré. Lorsque la densité spectrale de puissance du bruit est estimée, une approche sémantique est exploitée pour tenir compte de la présence ou de l'absence de la parole dans la deuxième partie. En combinant l'estimation Bayésienne et la détection Neyman-Pearson, quelques estimateurs paramétriques sont développés et testés dans le domaine Fourier. Pour approfondir la performance et la robustesse de débruitage du signal audio, une approche semi-paramétrique est considérée. La conjointe détection et estimation peut être interprétée par Smoothed Sigmoid-Based Shrinkage (SSBS). Ainsi, la méthode Bloc-SSBS est proposée afin de prendre en compte les atomes voisinages dans le domaine temporel-fréquentiel. De plus, pour améliorer fructueusement la qualité de la parole et du signal audio, un estimateur Bayésien est aussi dérivé et combiné avec la méthode Bloc-SSBS. L'efficacité et la pertinence de la stratégie dans le domaine transformée cosinus pour les débruitages de la parole et de l'audio sont confirmées par les résultats expérimentaux. / This PhD thesis deals with one of the most challenging problem in speech enhancement for assisted listening where only one micro is available with the low computational cost, the low power usage and the lack out of the database. Based on the novel and recent results both in non-parametric and parametric statistical estimation and sparse representation, this thesis work proposes several techniques for not only improving speech quality and intelligibility and but also tackling the denoising problem of the other audio signal. In the first major part, our work addresses the problem of the noise power spectrum estimation, especially for non-stationary noise, that is the key part in the single channel speech enhancement. The proposed approach takes into account the weak-sparseness model of speech in the transformed model. Once the noise power spectrum has been estimated, a semantic road is exploited to take into consideration the presence or absence of speech in the second major part. By applying the joint of the Bayesian estimator and the Neyman-Pearson detection, some parametric estimators were developed and tested in the discrete Fourier transform domain. For further improve performance and robustness in audio denoising, a semi-parametric approach is considered. The joint detection and estimation can be interpreted by Smoothed Sigmoid-Based Shrinkage (SSBS). Thus, Block-SSBS is proposed to take into additionally account the neighborhood bins in the time-frequency domain. Moreover, in order to enhance fruitfully speech and audio, a Bayesian estimator is also derived and combined with Block-SSBS. The effectiveness and relevance of this strategy in the discrete Cosine transform for both speech and audio denoising are confirmed by experimental results.
|
18 |
Applications of perceptual sparse representation (Spikegram) for copyright protection of audio signals / Applications de la représentation parcimonieuse perceptuelle par graphe de décharges (Spikegramme) pour la protection du droit d’auteur des signaux sonoresErfani, Yousof January 2016 (has links)
Chaque année, le piratage mondial de la musique coûte plusieurs milliards de dollars en
pertes économiques, pertes d’emplois et pertes de gains des travailleurs ainsi que la perte
de millions de dollars en recettes fiscales. La plupart du piratage de la musique est dû
à la croissance rapide et à la facilité des technologies actuelles pour la copie, le partage,
la manipulation et la distribution de données musicales [Domingo, 2015], [Siwek, 2007].
Le tatouage des signaux sonores a été proposé pour protéger les droit des auteurs et
pour permettre la localisation des instants où le signal sonore a été falsifié. Dans cette
thèse, nous proposons d’utiliser la représentation parcimonieuse bio-inspirée par graphe de
décharges (spikegramme), pour concevoir une nouvelle méthode permettant la localisation
de la falsification dans les signaux sonores. Aussi, une nouvelle méthode de protection du
droit d’auteur. Finalement, une nouvelle attaque perceptuelle, en utilisant le spikegramme,
pour attaquer des systèmes de tatouage sonore.
Nous proposons tout d’abord une technique de localisation des falsifications (‘tampering’)
des signaux sonores. Pour cela nous combinons une méthode à spectre étendu modifié
(‘modified spread spectrum’, MSS) avec une représentation parcimonieuse. Nous utilisons
une technique de poursuite perceptive adaptée (perceptual marching pursuit, PMP [Hossein
Najaf-Zadeh, 2008]) pour générer une représentation parcimonieuse (spikegramme) du
signal sonore d’entrée qui est invariante au décalage temporel [E. C. Smith, 2006] et qui
prend en compte les phénomènes de masquage tels qu’ils sont observés en audition. Un code
d’authentification est inséré à l’intérieur des coefficients de la représentation en spikegramme.
Puis ceux-ci sont combinés aux seuils de masquage. Le signal tatoué est resynthétisé à
partir des coefficients modifiés, et le signal ainsi obtenu est transmis au décodeur. Au
décodeur, pour identifier un segment falsifié du signal sonore, les codes d’authentification de
tous les segments intacts sont analysés. Si les codes ne peuvent être détectés correctement,
on sait qu’alors le segment aura été falsifié. Nous proposons de tatouer selon le principe
à spectre étendu (appelé MSS) afin d’obtenir une grande capacité en nombre de bits de
tatouage introduits. Dans les situations où il y a désynchronisation entre le codeur et le
décodeur, notre méthode permet quand même de détecter des pièces falsifiées. Par rapport
à l’état de l’art, notre approche a le taux d’erreur le plus bas pour ce qui est de détecter
les pièces falsifiées. Nous avons utilisé le test de l’opinion moyenne (‘MOS’) pour mesurer
la qualité des systèmes tatoués. Nous évaluons la méthode de tatouage semi-fragile par
le taux d’erreur (nombre de bits erronés divisé par tous les bits soumis) suite à plusieurs
attaques. Les résultats confirment la supériorité de notre approche pour la localisation des
pièces falsifiées dans les signaux sonores tout en préservant la qualité des signaux.
Ensuite nous proposons une nouvelle technique pour la protection des signaux sonores.
Cette technique est basée sur la représentation par spikegrammes des signaux sonores
et utilise deux dictionnaires (TDA pour Two-Dictionary Approach). Le spikegramme est
utilisé pour coder le signal hôte en utilisant un dictionnaire de filtres gammatones. Pour
le tatouage, nous utilisons deux dictionnaires différents qui sont sélectionnés en fonction
du bit d’entrée à tatouer et du contenu du signal. Notre approche trouve les gammatones appropriés (appelés noyaux de tatouage) sur la base de la valeur du bit à tatouer, et
incorpore les bits de tatouage dans la phase des gammatones du tatouage. De plus, il
est montré que la TDA est libre d’erreur dans le cas d’aucune situation d’attaque. Il est
démontré que la décorrélation des noyaux de tatouage permet la conception d’une méthode
de tatouage sonore très robuste.
Les expériences ont montré la meilleure robustesse pour la méthode proposée lorsque le
signal tatoué est corrompu par une compression MP3 à 32 kbits par seconde avec une
charge utile de 56.5 bps par rapport à plusieurs techniques récentes. De plus nous avons
étudié la robustesse du tatouage lorsque les nouveaux codec USAC (Unified Audion and
Speech Coding) à 24kbps sont utilisés. La charge utile est alors comprise entre 5 et 15 bps.
Finalement, nous utilisons les spikegrammes pour proposer trois nouvelles méthodes
d’attaques. Nous les comparons aux méthodes récentes d’attaques telles que 32 kbps MP3
et 24 kbps USAC. Ces attaques comprennent l’attaque par PMP, l’attaque par bruit
inaudible et l’attaque de remplacement parcimonieuse. Dans le cas de l’attaque par PMP,
le signal de tatouage est représenté et resynthétisé avec un spikegramme. Dans le cas de
l’attaque par bruit inaudible, celui-ci est généré et ajouté aux coefficients du spikegramme.
Dans le cas de l’attaque de remplacement parcimonieuse, dans chaque segment du signal,
les caractéristiques spectro-temporelles du signal (les décharges temporelles ;‘time spikes’)
se trouvent en utilisant le spikegramme et les spikes temporelles et similaires sont remplacés
par une autre.
Pour comparer l’efficacité des attaques proposées, nous les comparons au décodeur du
tatouage à spectre étendu. Il est démontré que l’attaque par remplacement parcimonieux
réduit la corrélation normalisée du décodeur de spectre étendu avec un plus grand facteur
par rapport à la situation où le décodeur de spectre étendu est attaqué par la transformation MP3 (32 kbps) et 24 kbps USAC. / Abstract : Every year global music piracy is making billion dollars of economic, job, workers’ earnings
losses and also million dollars loss in tax revenues. Most of the music piracy is because of
rapid growth and easiness of current technologies for copying, sharing, manipulating and
distributing musical data [Domingo, 2015], [Siwek, 2007]. Audio watermarking has been
proposed as one approach for copyright protection and tamper localization of audio signals
to prevent music piracy. In this thesis, we use the spikegram- which is a bio-inspired sparse
representation- to propose a novel approach to design an audio tamper localization method
as well as an audio copyright protection method and also a new perceptual attack against
any audio watermarking system.
First, we propose a tampering localization method for audio signal, based on a Modified
Spread Spectrum (MSS) approach. Perceptual Matching Pursuit (PMP) is used to compute
the spikegram (which is a sparse and time-shift invariant representation of audio signals) as
well as 2-D masking thresholds. Then, an authentication code (which includes an Identity
Number, ID) is inserted inside the sparse coefficients. For high quality watermarking, the
watermark data are multiplied with masking thresholds. The time domain watermarked
signal is re-synthesized from the modified coefficients and the signal is sent to the decoder.
To localize a tampered segment of the audio signal, at the decoder, the ID’s associated to
intact segments are detected correctly, while the ID associated to a tampered segment is
mis-detected or not detected. To achieve high capacity, we propose a modified version of
the improved spread spectrum watermarking called MSS (Modified Spread Spectrum). We
performed a mean opinion test to measure the quality of the proposed watermarking system.
Also, the bit error rates for the presented tamper localization method are computed under
several attacks. In comparison to conventional methods, the proposed tamper localization
method has the smallest number of mis-detected tampered frames, when only one frame
is tampered. In addition, the mean opinion test experiments confirms that the proposed
method preserves the high quality of input audio signals.
Moreover, we introduce a new audio watermarking technique based on a kernel-based
representation of audio signals. A perceptive sparse representation (spikegram) is combined
with a dictionary of gammatone kernels to construct a robust representation of sounds.
Compared to traditional phase embedding methods where the phase of signal’s Fourier
coefficients are modified, in this method, the watermark bit stream is inserted by modifying
the phase of gammatone kernels. Moreover, the watermark is automatically embedded only
into kernels with high amplitudes where all masked (non-meaningful) gammatones have
been already removed. Two embedding methods are proposed, one based on the watermark
embedding into the sign of gammatones (one dictionary method) and another one based
on watermark embedding into both sign and phase of gammatone kernels (two-dictionary
method). The robustness of the proposed method is shown against 32 kbps MP3 with
an embedding rate of 56.5 bps while the state of the art payload for 32 kbps MP3 robust
iii
iv
watermarking is lower than 50.3 bps. Also, we showed that the proposed method is robust
against unified speech and audio codec (24 kbps USAC, Linear predictive and Fourier
domain modes) with an average payload of 5 − 15 bps. Moreover, it is shown that the
proposed method is robust against a variety of signal processing transforms while preserving
quality.
Finally, three perceptual attacks are proposed in the perceptual sparse domain using
spikegram. These attacks are called PMP, inaudible noise adding and the sparse replacement
attacks. In PMP attack, the host signals are represented and re-synthesized with
spikegram. In inaudible noise attack, the inaudible noise is generated and added to the
spikegram coefficients. In sparse replacement attack, each specific frame of the spikegram
representation - when possible - is replaced with a combination of similar frames located
in other parts of the spikegram. It is shown than the PMP and inaudible noise attacks
have roughly the same efficiency as the 32 kbps MP3 attack, while the replacement attack
reduces the normalized correlation of the spread spectrum decoder with a greater factor
than when attacking with 32 kbps MP3 or 24 kbps unified speech and audio coding (USAC).
|
19 |
Caractérisation de pathologies cardiaques en Imagerie par Résonance Magnétique par approches parcimonieuses / Heart diseases characterization in Magnetic Resonance Imaging by sparse representation and dictionary learning approachesMantilla Jauregui, Juan José 24 November 2015 (has links)
Dans cette étude, nous abordons l'utilisation de la représentation parcimonieuse et l'apprentissage de dictionnaires pour l'aide au diagnostic dans le contexte de Maladies Cardiovasculaires. Spécifiquement, notre travail se concentre : 1) sur l'évaluation du mouvement des parois du Ventricule Gauche (VG) chez des patients souffrant d'Insuffisance Cardiaque (IC) ; 2) la détection de fibrose chez des patients présentant une Cardiomyopathie Hypertrophique (CMH). Ces types de pathologies sont étudiées par ailleurs en Imagerie par Résonance Magnétique Cardiaque (IRMC).Dans le contexte de l'IC notre contribution porte sur l'évaluation de mouvement du VG dans des séquences cine-IRMC. Nous proposons dans un premier temps, une méthode d'extraction de caractéristiques qui exploite les informations partielles obtenues à partir de toutes les phases cardiaques temporelles et des segments anatomiques, dans une représentation spatio-temporelle en cine-IRM petit axe (SAX). Les représentations proposées exploitent les informations du mouvement des parois du VG sans avoir recours à la segmentation et disposent des informations discriminatoires qui pourraient contribuer à la détection et à la caractérisation de l'asynchronisme cardiaque. L'extraction d'images spatio-temporelles a été proposée permettant la construction de trois nouveaux types de représentations : 1) profils spatio-temporels diamétraux qui montrent l'évolution temporelle de l’épicarde et de l'endocarde en même temps dans deux segments anatomiques opposés du VG, 2) profils spatio-temporels radiaux où le mouvement pariétal est observé pour chaque segment de la cavité du VG et 3) courbes de signal temps-intensité directement des profils spatio-temporels radiaux dans chaque segment anatomique. Des paramètres différents sont alors définis de ces courbes qui reflètent les informations dynamiques de la contraction du VG. Deuxièmement, nous proposons l'utilisation de ces caractéristiques comme des atomes d'entrée dans l'apprentissage de dictionnaires discriminatoires pour classifier le mouvement régional du VG dans les cas normaux ou anormaux. Nous avons proposé une évaluation globale en utilisant le statut global du sujet : Normal/Pathologique, comme l'étiquette de référence des profils spatio-temporels et une évaluation locale en utilisant les informations de déformation locales fournies par l'analyse des images échographiques de référence en clinique (2D-STE). Dans le contexte de la CMH, nous abordons le problème de détection de la fibrose en LGE-IRM-SAX en utilisant une approche de partitionnement de donnés et d'apprentissage de dictionnaires. Dans ce cadre, les caractéristiques extraites d'images de LGE-SAX sont prises comme des atomes d'entrée pour former un classifieur basé sur les codes parcimonieux obtenus avec une approche d'apprentissage de dictionnaires. Une étape de post-traitement permet la délimitation du myocarde et la localisation spatiale de la fibrose par segment anatomique. / This work concerns the use of sparse representation and Dictionary Learning (DL) in order to get insights about the diseased heart in the context of Cardiovascular Diseases (CVDs). Specifically, this work focuses on 1) assessment of Left Ventricle (LV) wall motion in patients with heart failure and 2) fibrosis detection in patients with hypertrophic cardiomyopathy (HCM). In the context of heart failure (HF) patients, the work focuses on LV wall motion analysis in cardiac cine-MRI. The first contribution in this topic is a feature extraction method that exploits the partial information obtained from all temporal cardiac phases and anatomical segments in a spatio-temporal representation from sequences cine-MRI in short-axis view. These features correspond to spatio-temporal profiles in different anatomical segments of the LV. The proposed representations exploit information of the LV wall motion without segmentation needs. Three representations are proposed : 1) diametrical spatio-temporal profiles where radial motions of LV’s walls are observed at the same time in opposite anatomical segments 2) radial spatiotemporal profiles where motion of LV’s walls is observed for each segment of the LV cavity and 3) quantitative parameters extracted from the radial spatio-temporal profiles. A second contribution involves the use of these features as input atoms in the training of discriminative dictionaries to classify normal or abnormal regional LV motion. We propose two levels of evaluation, a first one where the global status of the subject (normal/pathologic) is used as ground truth to label the proposed spatio-temporal representations, and a second one where local strain information obtained from 2D Speckle Tracking Echocardiography (STE), is taken as ground truth to label the proposed features, where a profile is classified as normal or abnormal (akinetic or hypokinetic cases). In the context of Hypertrophic cardiomyopathy (HCM), we address the problem of fibrosis detection in Late Gadolinium Enhanced LGE-Short axis (SAX) images by using a sparse-based clustering approach and DL. In this framework, random image patches are taken as input atoms in order to train a classifier based on the sparse coefficients obtained with a DL approach based on kernels. For a new test LG-SAX image, the label of each pixel is predicted by using the trained classifier allowing the detection of fibrosis. A subsequent postprocessing step allows the spatial localization of fibrosis that is represented according to the American Heart Association (AHA) 17-segment model and a quantification of fibrosis in the LV myocardium.
|
20 |
Restauration d’images avec critères orientés qualité / Images restoration based on quality criteriaBoudjenouia, Fouad 26 October 2017 (has links)
Cette thèse concerne la restauration aveugle d’images (formulée comme un problème inverse mal-posé et mal-conditionné), en considérant particulièrement les systèmes SIMO. Dans un premier temps une technique d’identification aveugle de ce système où l’ordre du canal est inconnu (surestimé) est introduite. Nous introduisons d’abord une version simplifiée à coût réduit SCR de la méthode des relations croisées (CR). Ensuite, une version robuste R-SCR basée sur la recherche d’une solution parcimonieuse minimisant la fonction de coût CR est proposée. La restauration d’image est ensuite assurée par une nouvelle approche inspirée des techniques de décodage des signaux 1D et étendue ici aux cas de la restauration d’images en se basant sur une recherche arborescente efficace (algorithme ‘Stack’). Plusieurs améliorations de la méthode ‘Stack’ ont été introduites afin de réduire sa complexité et d’améliorer la qualité de restauration lorsque les images sont fortement bruitées. Ceci en utilisant une technique de régularisation et une approche d’optimisation all-at-once basée sur la descente du gradient qui permet de raffiner l’image estimée et mieux converger vers la solution optimale. Ensuite, les mesures de la qualité d’images sont utilisées comme fonctions de coûts (intégrées dans le critère global) et ce afin d’étudier leur potentiel pour améliorer les performances de restauration. Dans le contexte où l’image d’intérêt est corrompue par d’autres images interférentes, sa restauration nécessite le recours aux techniques de séparation aveugle de sources. Pour cela, une étude comparative de certaines techniques de séparation basées sur la propriété de décorrélation au second ordre et la parcimonie est réalisée. / This thesis concerns the blind restoration of images (formulated as an ill-posed and illconditioned inverse problem), considering a SIMO system. Thus, a blind system identification technique in which the order of the channel is unknown (overestimated) is introduced. Firstly, a simplified version at reduced cost SCR of the cross relation (CR) method is introduced. Secondly, a robust version R-SCR based on the search for a sparse solution minimizing the CR cost function is proposed. Image restoration is then achieved by a new approach (inspired from 1D signal decoding techniques and extended here to the case of 2D images) based on an efficient tree search (Stack algorithm). Several improvements to the ‘Stack’ method have been introduced in order to reduce its complexity and to improve the restoration quality when the images are noisy. This is done using a regularization technique and an all-at-once optimization approach based on the gradient descent which refines the estimated image and improves the algorithm’s convergence towards the optimal solution. Then, image quality measurements are used as cost functions (integrated in the global criterion), in order to study their potential for improving restoration performance. In the context where the image of interest is corrupted by other interfering images, its restoration requires the use of blind sources separation techniques. In this sense, a comparative study of some separation techniques based on the property of second-order decorrelation and sparsity is performed.
|
Page generated in 0.1618 seconds