Global ETD Search

1	Représentation tridimensionnelle de la phase dans un plan temps-fréquence-Contribution à l'analyse des signaux quasi-stationnaires. Navarro, Laurent 14 December 2007 (has links) (PDF) Cette thèse de doctorat porte sur la représentation tridimensionnelle de la phase dans un plan temps-fréquence. L'application aux signaux quasi-stationnaires est effectuée dans ce manuscrit.<br />La transformée de Fourier à court terme d'un signal est réalisée par convolution de ce dernier avec une fenêtre glissante par rapport au temps. Il en résulte une distribution complexe dans un plan temps-fréquence, où un module et une phase peuvent être calculés.<br />Le module de la transformée de Fourier à court terme d'un signal contient des informations fréquentielles, dont la précision est limitée par le principe d'inégalité temps-fréquence d'Heisenberg-Gabor. La phase quant à elle contient des informations de localisation temporelle des fréquences beaucoup plus précises que le module, cependant ces informations sont très difficiles à interpréter de manière directe. Les spectrogrammes de fréquence et de phase constituent une solution intéressante pour pallier cette difficulté mais des limitations existent, notamment en ce qui concerne le choix d'un seuil énergétique d'observation.<br />La formulation continue des spectrogrammes de fréquence et de phase est introduite et étudiée dans ce manuscrit. Celle-ci permet un développement mathématique, pour des signaux dont l'expression analytique est connue, de la phase instantanée. L'analyse de processus quasi stationnaires permet une interprétation du comportement de ces nouvelles représentations et permet ainsi de mettre en évidence certaines de leurs propriétés.<br />En conséquence, un nouveau concept de représentations tridimensionnelles temps-fréquence-phase et temps-fréquence-faibles variations de fréquence est créé. Ces représentations tridimensionnelles sont réalisées par une opération de "mapping" des spectrogrammes de fréquence et de phase sur le module carré de la transformée de Fourier à court terme.<br />Les spectrogrammes de fréquence et de phase tridimensionnels ainsi créés permettent l'observation directe des variations de phase et des faibles variations de fréquence en tenant compte des amplitudes (énergie répartie dans le plan temps-fréquence). L'opération de seuillage n'est donc plus nécessaire ou devient seulement une aide à l'interprétation et non pas une limitation de la représentation.<br />Ces nouvelles représentations se révèlent être des outils performants dans le cadre de l'étude de signaux quasi-stationnaires, comme les signaux musicaux ou les signaux biomédicaux. Elles ouvrent de nouvelles perspectives car elles présentent de manière simple des informations qui nécessitaient auparavant de nombreuses manipulations pour être accessibles. Analyse temps-fréquence Spectrogramme de phase tridimensionnel
2	Support temps-fréquence d'un signal inconnu en présence de bruit additif gaussien Huillery, Julien 09 July 2008 (has links) (PDF) Le travail présenté dans ce mémoire est dédié à la localisation d'un signal dans le plan temps-fréquence. Plus précisément, nous proposons de déterminer le support temps-fréquence d'un signal d'intérêt, non stationnaire, déterministe et inconnu, noyé dans un bruit gaussien additif, centré et de fonction d'autocorrélation inconnue. Le support temps-fréquence accessible d'un signal est défini comme l'ensemble des points temps-fréquence pour lesquels le signal d'intérêt admet une énergie au moins supérieure à celle du bruit. De cette définition naîssent deux éléments qu'il est nécessaire de préciser : quel est l'énergie du bruit d'une part et que signifie "au moins supérieure" d'autre part? Dans tout ce travail, le spectrogramme est choisi pour représenter les signaux dans le plan temps-fréquence.<br /><br />Nous choisissons de résoudre ce problème de localisation au moyen d'un test binaire d'hypothèses, formulé en chaque point du plan temps-fréquence. Le seuil de détection correspondant à ce test doit alors être déterminé : d'après les lois de probabilité des coefficients du spectrogramme d'une part, en lien avec la puissance du bruit d'autre part et, enfin, selon un critère de détection approprié.<br /><br />La première étude concerne le comportement statistique des coefficients du spectrogramme. Dans le contexte d'un bruit non blanc et non stationnaire, la densité de probabilité des observations est ainsi formulée.<br /><br />La densité specrale de puissance du bruit apparaît naturellement comme l'un des paramètres de cette densité de probabilité. Dans une seconde étude, une méthode d'estimation de ce bruit est proposée. Elle se base sur le comportement statistique des plus petits coefficients du spectrogramme.<br /><br />Cet ensemble de connaissances nous permet finalement de résoudre le test d'hypothèses dont la solution naturelle au sens du maximum de vraisemblance fait apparaître le rapport d'énergie entre le signal et le bruit en chaque point du plan temps-fréquence. Ce rapport signal sur bruit local permet dès lors de préciser la condition "au moins supérieure" relative au support temps-fréquence accessible du signal.<br /><br />L'algorithme de localisation temps-fréquence qui résulte de ce travail permet finalement de retenir le support temps-fréquence du signal d'intérêt sur l'ensemble duquel le rapport signal sur bruit est supérieur à une valeur choisie a priori. representations temps-fréquence spectrogramme loi du chi2 signaux aléatoires gaussiens détection et estimation support temps-fréquence
3	Deux approches de segmentation temps-fréquence : détection par modèle statistique et extraction de contour par le champ de vecteurs de réallocation Millioz, Fabien 16 September 2009 (has links) (PDF) Les représentation temps-fréquence montrent l'évolution spectral d'un signal dans le temps. L'objectif de ces travaux de recherche est de proposer deux principes de segmentation du plan temps-fréquence, cherchant à déterminer quelles sont les zones temps-fréquence présentant un intérêt relatif au signal analysé.<br /><br />La première méthode s'appuie sur une méthode statistique, modélisant le signal analysé par un signal d'intérêt à segmenter perturbé par un bruit blanc gaussien additif de variance inconnue. Le but est de déterminer le support temps-fréquence, ensemble des points sur lesquels l'énergie du signal à segmenter est répartie. Une détection de type Neyman-Pearson à probabilité de fausse alarme fixée permet de détecter les points temps-fréquence contenant du signal, à niveau de bruit connu. L'algorithme proposé est itératif, estimant le niveau de bruit à partir des points non segmentés, ce niveau de bruit servant à détecter de nouveaux points contenant du signal. Un critère basé sur le kurtosis spectral des points non segmentés permet de définir l'arrêt des itérations.<br /><br />La seconde méthode est basée sur le principe de la réallocation du spectrogramme, en tant que source d'information sur le spectrogramme. La réallocation déplace l'énergie du spectrogramme sur le centre de gravité local de l'énergie. Aux frontière d'un motif temps-fréquence, l'énergie sera déplacée vers l'intérieur du motif. Ainsi, les vecteur<br />s de réallocation, décrivant le déplacement de l'énergie du pectrogramme par la réallocation, sont localement parallèles sur la frontière d'un motif. Nous définissons alors un « degré de parallélisme » pour chaque vecteur, égal au nombre de ses vecteurs voisins qui lui sont parallèles. Un algorithme de type suivi de crête, parcourant le plan temps-fréquence en suivant les maximums de ce degré de parallélisme, construit alors un contour entourant le motif temps-fréquence. représentation temps-fréquence segmentation statistique kurtosis spectral support temps-fréquence réallocation spectrogramme frontière d'un motif temps-fréquence contour
4	Suivi de formants par analyse en multirésolution / Formant tracking by Multiresolution Analysis Jemâa, Imen 19 February 2013 (has links) Nos travaux de recherches présentés dans ce manuscrit ont pour objectif, l'optimisation des performances des algorithmes de suivi des formants. Pour ce faire, nous avons commencé par l'analyse des différentes techniques existantes utilisées dans le suivi automatique des formants. Cette analyse nous a permis de constater que l'estimation automatique des formants reste délicate malgré l'emploi de diverses techniques complexes. Vue la non disponibilité des bases de données de référence en langue arabe, nous avons élaboré un corpus phonétiquement équilibré en langue arabe tout en élaborant un étiquetage manuel phonétique et formantique. Ensuite, nous avons présenté nos deux nouvelles approches de suivi de formants dont la première est basée sur l'estimation des crêtes de Fourier (maxima de spectrogramme) ou des crêtes d'ondelettes (maxima de scalogramme) en utilisant comme contrainte de suivi le calcul de centre de gravité de la combinaison des fréquences candidates pour chaque formant, tandis que la deuxième approche de suivi est basée sur la programmation dynamique combinée avec le filtrage de Kalman. Finalement, nous avons fait une étude exploratrice en utilisant notre corpus étiqueté manuellement comme référence pour évaluer quantitativement nos deux nouvelles approches par rapport à d'autres méthodes automatiques de suivi de formants. Nous avons testé la première approche par détection des crêtes ondelette, utilisant le calcul de centre de gravité, sur des signaux synthétiques ensuite sur des signaux réels de notre corpus étiqueté en testant trois types d'ondelettes complexes (CMOR, SHAN et FBSP). Suite à ces différents tests, il apparaît que le suivi de formants et la résolution des scalogrammes donnés par les ondelettes CMOR et FBSP sont meilleurs qu'avec l'ondelette SHAN. Afin d'évaluer quantitativement nos deux approches, nous avons calculé la différence moyenne absolue et l'écart type normalisée. Nous avons fait plusieurs tests avec différents locuteurs (masculins et féminins) sur les différentes voyelles longues et courtes et la parole continue en prenant les signaux étiquetés issus de la base élaborée comme référence. Les résultats de suivi ont été ensuite comparés à ceux de la méthode par crêtes de Fourier en utilisant le calcul de centre de gravité, de l'analyse LPC combinée à des bancs de filtres de Mustafa Kamran et de l'analyse LPC dans le logiciel Praat. D'après les résultats obtenus sur les voyelles /a/ et /A/, nous avons constaté que le suivi fait par la méthode ondelette avec CMOR est globalement meilleur que celui des autres méthodes Praat et Fourier. Cette méthode donne donc un suivi de formants (F1, F2 et F3) pertinent et plus proche de suivi référence. Les résultats des méthodes Fourier et ondelette sont très proches dans certains cas puisque toutes les deux présentent moins d'erreurs que la méthode Praat pour les cinq locuteurs masculins ce qui n'est pas le cas pour les autres voyelles où il y a des erreurs qui se présentent parfois sur F2 et parfois sur F3. D'après les résultats obtenus sur la parole continue, nous avons constaté que dans le cas des locuteurs masculins, les résultats des deux nouvelles approches sont notamment meilleurs que ceux de la méthode LPC de Mustafa Kamran et ceux de Praat même si elles présentent souvent quelques erreurs sur F3. Elles sont aussi très proches de la méthode par détection de crêtes de Fourier utilisant le calcul de centre de gravité. Les résultats obtenus dans le cas des locutrices féminins confirment la tendance observée sur les locuteurs / Our research work presented in this thesis aims the optimization of the performance of formant tracking algorithms. We began by analyzing different existing techniques used in the automatic formant tracking. This analysis showed that the automatic formant estimation remains difficult despite the use of complex techniques. For the non-availability of database as reference in Arabic, we have developed a phonetically balanced corpus in Arabic while developing a manual phonetic and formant tracking labeling. Then we presented our two new automatic formant tracking approaches which are based on the estimation of Fourier ridges (local maxima of spectrogram) or wavelet ridges (local maxima of scalogram) using as a tracking constraint the calculation of center of gravity of a set of candidate frequencies for each formant, while the second tracking approach is based on dynamic programming combined with Kalman filtering. Finally, we made an exploratory study using manually labeled corpus as a reference to quantify our two new approaches compared to other automatic formant tracking methods. We tested the first approach based on wavelet ridges detection, using the calculation of the center of gravity on synthetic signals and then on real signals issued from our database by testing three types of complex wavelets (CMOR, SHAN and FBSP). Following these tests, it appears that formant tracking and scalogram resolution given by CMOR and FBSP wavelets are better than the SHAN wavelet. To quantitatively evaluate our two approaches, we calculated the absolute difference average and standard deviation. We made several tests with different speakers (male and female) on various long and short vowels and continuous speech signals issued from our database using it as a reference. The formant tracking results are compared to those of Fourier ridges method calculating the center of gravity, LPC analysis combined with filter banks method of Kamran.M and LPC analysis integrated in Praat software. According to the results of the vowels / a / and / A /, we found that formant tracking by the method with wavelet CMOR is generally better than other methods. Therefore, this method provides a correct formant tracking (F1, F2 and F3) and closer to the reference. The results of Fourier and wavelet methods are very similar in some cases since both have fewer errors than the method Praat. These results are proven for the five male speakers which is not the case for the other vowels where there are some errors which are present sometimes in F2 and sometimes in F3. According to the results obtained on continuous speech, we found that in the case of male speakers, the result of both approaches are particularly better than those of Kamran.M method and those of Praat even if they are often few errors in F3. They are also very close to the Fourier ridges method using the calculation of center of gravity. The results obtained in the case of female speakers confirm the trend observed over the male speakers Parole Acoustique Représentation temps-fréquence Crêtes de Fourier Spectrogramme Crêtes d'ondelettes Scalogramme Suivi de formant Centre de gravité Programmation dynamique Filtrage de Kalman Speech Acoustic Time-frequency representation Fourier ridges Wavelet ridges Spectrogram Sclogram Formant tracking Centre of gravity Dynamic programming Kalman filtering 006.454 414
5	Contributions à la sonification d’image et à la classification de sons Toffa, Ohini Kafui 11 1900 (has links) L’objectif de cette thèse est d’étudier d’une part le problème de sonification d’image et de le solutionner à travers de nouveaux modèles de correspondance entre domaines visuel et sonore. D’autre part d’étudier le problème de la classification de son et de le résoudre avec des méthodes ayant fait leurs preuves dans le domaine de la reconnaissance d’image. La sonification d’image est la traduction de données d’image (forme, couleur, texture, objet) en sons. Il est utilisé dans les domaines de l’assistance visuelle et de l’accessibilité des images pour les personnes malvoyantes. En raison de sa complexité, un système de sonification d’image qui traduit correctement les données d’image en son de manière intuitive n’est pas facile à concevoir. Notre première contribution est de proposer un nouveau système de sonification d’image de bas-niveau qui utilise une approche hiérarchique basée sur les caractéristiques visuelles. Il traduit, à l’aide de notes musicales, la plupart des propriétés d’une image (couleur, gradient, contour, texture, région) vers le domaine audio, de manière très prévisible et donc est facilement ensuite décodable par l’être humain. Notre deuxième contribution est une application Android de sonification de haut niveau qui est complémentaire à notre première contribution car elle implémente la traduction des objets et du contenu sémantique de l’image. Il propose également une base de données pour la sonification d’image. Finalement dans le domaine de l’audio, notre dernière contribution généralise le motif binaire local (LBP) à 1D et le combine avec des descripteurs audio pour faire de la classification de sons environnementaux. La méthode proposée surpasse les résultats des méthodes qui utilisent des algorithmes d’apprentissage automatique classiques et est plus rapide que toutes les méthodes de réseau neuronal convolutif. Il représente un meilleur choix lorsqu’il y a une rareté des données ou une puissance de calcul minimale. / The objective of this thesis is to study on the one hand the problem of image sonification and to solve it through new models of mapping between visual and sound domains. On the other hand, to study the problem of sound classification and to solve it with methods which have proven track record in the field of image recognition. Image sonification is the translation of image data (shape, color, texture, objects) into sounds. It is used in vision assistance and image accessibility domains for visual impaired people. Due to its complexity, an image sonification system that properly conveys the image data to sound in an intuitive way is not easy to design. Our first contribution is to propose a new low-level image sonification system which uses an hierarchical visual feature-based approach to translate, usingmusical notes, most of the properties of an image (color, gradient, edge, texture, region) to the audio domain, in a very predictable way in which is then easily decodable by the human being. Our second contribution is a high-level sonification Android application which is complementary to our first contribution because it implements the translation to the audio domain of the objects and the semantic content of an image. It also proposes a dataset for an image sonification. Finally, in the audio domain, our third contribution generalizes the Local Binary Pattern (LBP) to 1D and combines it with audio features for an environmental sound classification task. The proposed method outperforms the results of methods that uses handcrafted features with classical machine learning algorithms and is faster than any convolutional neural network methods. It represents a better choice when there is data scarcity or minimal computing power. Personnes malvoyantes synthèse audio retour auditif écran tactile accessibilité image classification de sons environnementaux modèle binaire local apprentissage automatique spectrogramme de signal audio Visually impaired sound synthesis auditory feedback touch screen image accessibility ESC Local Binary Pattern Local Phase Quantization Machine Learning Audio Signal Spectrogram

1

Page generated in 0.0535 seconds