• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • 1
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Parole de locuteur : performance et confiance en identification biométrique vocale / Speaker in speech : performance and confidence in voice biometric identification

Kahn, Juliette 19 December 2011 (has links)
Ce travail de thèse explore l’usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d’autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :– Tous les extraits de parole d’un même locuteur sont-ils équivalents pour le reconnaître ?– Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d’un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu’ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l’auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l’influence du choix d’un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l’aide d’un taux de variation autour de l’EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d’apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu’il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d’expliquer l’importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l’effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu’est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu’il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l’influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu’en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d’information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu’il en est pour d’autres langues / This thesis explores the use of biometric speech. Speech is subjected to many constraints based on origins of the speaker (geographical , social and cultural ), but also according to his performative goals. The speaker may be regarded as a factor of variation in the speech , among others. In this work, we present some answers to the following two questions:- Are all speech samples equivalent to recognize a speaker?- How are structured the different acoustic cues carrying information about the speaker ?In a first step, a protocol to assess the human ability to discriminate a speaker from a speech sample using NIST-HASR 2010 data is presented. This task is difficult for our listeners who are naive or experienced. In this context, neither the (quasi) unanimity or the self-assessment do not assure the confidence in the veracity of the submitted answer .In a second step, the influence of the choice of a sample speech on the performance of automatic systems is quantified using two databases, NIST and BREF and two systems RAL , Alize / SpkDet (LIA, UBM-GMM system) and Idento (SRI, i-vector system).The two RAL systems show significant differences in performance measured using a measure of relative variation around the average EER, Vr (for NIST Idento Vr = 1.41 and Vr Alize / SpkDet = 1.47 and BREF, Vr = 3.11) depending on the choice of the training file used for each speaker. These very large variations in performance show the sensitivity of automatic systems to the speech sample. This sensitivity must be measured to make the systems more reliable .To explain the importance of the choice of the speech sample and find the relevant cues, the effect of the speaker on the variance of various acoustics features is measured (η 2) . F0 is strongly dependent of the speaker, independently of the vowel. Some phonemes are more discriminative : nasal consonants, fricatives , nasal vowels, oral half closed to open vowels .This work is a first step towards to understand where is the speaker in speech using as well the human perception as automatic systems . If we have shown that there was a cepstral difference between the more and less efficient models, it remains to understand how to bind the speaker to the speech production. Finally, following this work, we wish to explore more in detail the influence of language on speaker recognition. Even if our results indicate that for American English and French , the same categories of phonemes are the carriers of information about the speaker , it remains to confirm this on other languages ​​.
2

Εγκληματολογική αναγνώριση ομιλητή / Forensic speaker recognition

Κουφογιάννης, Βασίλειος 18 May 2010 (has links)
Σήμερα οι διωκτικές αρχές χρησιμοποιούν αυτόματα βιομετρικά συστήματα αναγνώρισης τα οποία αξιοποιούν βιομετρικά χαρακτηριστικά ατόμων προκειμένου να αναγνωριστούν δράστες εγκλημάτων. Στην παρούσα εργασία έγινε προσπάθεια συσχέτισης αυτής με το αντικείμενο των εγκληματολογικών εργαστηρίων των διωκτικών αρχών. Έτσι δημιουργήθηκε βάση φωνητικών δειγμάτων και κατασκευάστηκε σύστημα αναγνώρισης ομιλητή σε περιβάλλον Matlab με στόχο την μελλοντική αύξηση της βάσης δεδομένων αλλά και την μελλοντική δυνατότητα συνδυασμού: α) εξαγομένων χαρακτηριστικών, β) μεθόδων σύγκρισης των κατανομών φωνητικών δειγμάτων και γ) μεθόδων ταξινόμησης έτσι ώστε να αυξηθεί η απόδοση και να γίνει περισσότερο αξιόπιστο το σύστημα. Το σύστημα που σχεδιάσαμε έχει τα εξής χαρακτηριστικά: α) full automatic, β) open set και γ) text dependent & text in dependent. Από κάθε φωνητικό δείγμα εξάχθηκαν οι mel frequency coefficients με την εργαλειοθήκη Auditory Toolbox, Malcolm Slaney. Η σύγκριση των χαρακτηριστικών των δειγμάτων ομιλίας υλοποιήθηκε με δυο μεθόδους σύγκρισης : Α) Μια διαδικασία που την ονομάσαμε 3Μ (minimum-mean-maximum) η οποία χρησιμοποιεί την Ευκλείδεια απόσταση για την εύρεση αποστάσεων μεταξύ σημείων των κατανομών. Β) Το Wald – Wolfowitz Test (WW-Test ), που στηρίζεται στην θεωρία των γράφων. Τέλος για την ταξινόμηση χρησιμοποιήθηκε ο K-NN ταξινομητής (K – Nearest Neighbor Classifier). Από τα εξαγόμενα αποτελέσματα των μετρήσεων καταλήξαμε στα ακόλουθα συμπεράσματα. Τα όποια σφάλματα προέκυψαν οφείλονται κυρίως στον τρόπο εξαγωγής των mfcc χαρακτηριστικών και λιγότερο στην μέθοδο ταξινόμησης και στον συγκριτή που χρησιμοποιήθηκε. Με την χρήση συνδυαστικά επιπλέον χαρακτηριστικών και ταξινομητών το σύστημα θα γίνει περισσότερο αξιόπιστο. Το σύστημα με μελλοντική αύξηση της βάσης θα μας δώσει ακόμη καλύτερα αποτελέσματα. / Today the law enforcement agencies use automatic biometric identification systems, which utilize human biometric features in order to identify criminals. This thesis was correlated with the objective of forensic laboratories. Hence, a data base of human speech samples and a speaker identification system were developed using the Matlab software. The scope was to increase, in future, the number of the data base samples and to combine features, comparison and classification methods. The system is full automatic, open set, text depended and text independent. From every speech sample, the mel frequency coefficients using the Malcolm Slaney Auditory Toolbox was extracted. The comparison of the speech samples was implemented with two methods: 3M and WW-Test which are based on the graph theory. Finally, the K-NN classifier was used for the classification of the speech samples. From the system evaluation, we conclude that the feature extraction method has the main effect on the system performance. The combination of several features, comparison and classification methods improves the reliability of the system.
3

Identifikace osob podle obličeje / Person Identification

Ťapuška, Tomáš January 2010 (has links)
This master's thesis is about the most known methods for face recognition. There are described their advantages and disadvantages. This work is specialized at holistic methods for face recognition, which are working with 2D pictures of people. I implemented the automatic system for face recognition according to digital picture of face. There was, in this system, implemented these methods: KNN (K nearest neighbour), PCA (Principal component analysis) and LDP (Linear doscriminant projection). There was done some tests to compare implemented methods. The tests was done on the pictures from dataset FERET. In the conclusion of this text are considered implemented approaches and is marked the best method for face recognition from implemented.

Page generated in 0.0632 seconds