Natural scene classification, annotation and retrieval : developing different approaches for semantic scene modelling based on Bag of Visual Words

Alqasrawi, Yousef T. N. January 2012 (has links)
With the availability of inexpensive hardware and software, digital imaging has become an important medium of communication in our daily lives. A huge amount of digital images are being collected and become available through the internet and stored in various fields such as personal image collections, medical imaging, digital arts etc. Therefore, it is important to make sure that images are stored, searched and accessed in an efficient manner. The use of bag of visual words (BOW) model for modelling images based on local invariant features computed at interest point locations has become a standard choice for many computer vision tasks. Based on this promising model, this thesis investigates three main problems: natural scene classification, annotation and retrieval. Given an image, the task is to design a system that can determine to which class that image belongs to (classification), what semantic concepts it contain (annotation) and what images are most similar to (retrieval). This thesis contributes to scene classification by proposing a weighting approach, named keypoints density-based weighting method (KDW), to control the fusion of colour information and bag of visual words on spatial pyramid layout in a unified framework. Different configurations of BOW, integrated visual vocabularies and multiple image descriptors are investigated and analyzed. The proposed approaches are extensively evaluated over three well-known scene classification datasets with 6, 8 and 15 scene categories using 10-fold cross validation. The second contribution in this thesis, the scene annotation task, is to explore whether the integrated visual vocabularies generated for scene classification can be used to model the local semantic information of natural scenes. In this direction, image annotation is considered as a classification problem where images are partitioned into 10x10 fixed grid and each block, represented by BOW and different image descriptors, is classified into one of predefined semantic classes. An image is then represented by counting the percentage of every semantic concept detected in the image. Experimental results on 6 scene categories demonstrate the effectiveness of the proposed approach. Finally, this thesis further explores, with an extensive experimental work, the use of different configurations of the BOW for natural scene retrieval.

Μέθοδοι υπολογιστικής νοημοσύνης για αυτοματοποιημένη μουσική ανάλυση και σύνθεση

Καλιακάτσος-Παπακώστας, Μάξιμος 10 June 2014 (has links)
Η παρούσα διδακτορική διατριβή ασχολείται με την εφαρμογή της υπολογιστικής νοημοσύνης στη μουσική, επιχειρώντας ταπεινά να συνεισφέρει, έστω και κατ' ελάχιστο, στην μακραίωνη πορεία της σύζευξης των μουσικών εννοιών με τα μαθηματικά. Οι τρεις πυλώνες πάνω στους οποίους στηρίζεται αυτή η διατριβή αφορούν τη χρήση μεθόδων υπολογιστικής νοημοσύνης για α) την εξέταση των μαθηματικών μουσικών χαρακτηριστικών με στόχο την επιτυχή κατηγοριοποίηση, αναγνώριση και χαρακτηρισμό περιεχομένου σε μουσικά κομμάτια, β) την ευφυή αυτόματη σύνθεση μουσικής βάσει μαθηματικών μουσικών χαρακτηριστικών και γ) τη διαδραστική ευφυή σύνθεση μουσικής και τις επεκτάσεις της. Ενώ οι τρεις αυτοί πυλώνες φαίνονται επιφανειακά ασύνδετοι, το κοινό τους θεμέλιο είναι τα μαθηματικά μουσικά χαρακτηριστικά και ο ρόλος που αυτά διαδραματίζουν έτσι ώστε να αναπτυχθούν μοντέλα υπολογιστικής νοημοσύνης που τελικά προσομοιάζουν τον τρόπο που οι άνθρωποι ``αντιλαμβάνονται'' τη μουσική. Το γεγονός ότι όλοι οι δίαυλοι έρευνας που παρουσιάζονται σε αυτή τη διατριβή διοχετεύονται στο ίδιο κανάλι, γίνεται φανερό στο τελευταίο κεφάλαιο (Κεφάλαιο 9) όπου τα μαθηματικά μουσικά χαρακτηριστικά, η ευφυής σύνθεση μουσικής και η διαδραστική ευφυής σύνθεση μουσικής, ενσωματώνονται σε ένα καινοτόμο σύστημα που περιγράφεται λεπτομερώς στο εν λόγω κεφάλαιο. Επίσης, βασική μέριμνα των μελετών που παρουσιάζονται στης έρευνες που αποτελούν την παρούσα διατριβή ήταν η απόδοση αντικειμενικών, λεπτομερών και αμερόληπτων αποτελεσμάτων, μέσα από εξαντλητικές πειραματικές διαδικασίες, πολλές από τις οποίες περιείχαν και καθεαυτές νεοτερισμούς. Η επισήμανση της παραπάνω πρότασης θέλει να καταδείξει τη διαφοροποίηση της παρούσας διατριβής από την εν πολλοίς καθεστηκυία αντίληψη για τον τρόπο παρουσίασης των αποτελεσμάτων για τις μεθόδους αυτόματης σύνθεσης μουσικής, μέσα από την εμφάνιση τμημάτων από συνθέσεις (σε μορφή παρτιτούρας ή ήχου). Το πρώτο μέρος της διατριβής περιλαμβάνει τα Κεφάλαια 2 και 3, όπου μελετάται η κατηγοριοποίηση μουσικών κομματιών σε συμβολική μορφή, καθώς και η αναγνώριση και ο χαρακτηρισμός περιεχομένου από ηχογραφήσεις. Στόχος του μέρους αυτού είναι η παρουσίαση της καθοριστικότητας αφενός του χώρου του προφίλ τονικής τάξης για την ανάπτυξη μαθηματικών μουσικών χαρακτηριστικών που ενσωματώνουν την ανθρώπινη μουσική αντίληψη μέχρι ενός βαθμού, και αφετέρου η ανάδειξη της αποτελεσματικότητας των μεθόδων υπολογιστικής νοημοσύνης ως εργαλεία αποτελεσματικού εντοπισμού αυτής της ιδιότητας των προαναφερθέντων χαρακτηριστικών. Η συνεισφορά του πρώτου μέρους αφορά κυρίως την πρόταση νέων μεθοδολογιών που επιτελούν αποτελεσματικά προσομοιώσεις κατηγοριοποίησης κομματιών ανά συνθέτη ή είδος, αναγνώρισης περιεχομένου ηχογράφησης τυμπάνων και χαρακτηρισμού μουσικού ηχητικού υλικού με τμηματοποίηση σε περιοχές με διαφορετικό κλειδί σύνθεσης. Επίσης, στη συνεισφορά του μέρους αυτού μπορεί να ενταχθεί και η εισαγωγή και ανάλυση του πρωτεύοντος χρωματικού ιδιοχώρου. Το δεύτερο μέρος περιλαμβάνει τα Κεφάλαια 4, 5, 6 και 7, στα οποία αναλύεται η συνεισφορά της διατριβής στον τομέα της ευφυούς αυτόματης σύνθεσης μουσικής. Συγκεκριμένα, η συνεισφορά του Κεφαλαίου 4 είναι η πρόταση μιας κατηγοριοποίησης των ευφυών μεθόδων σύνθεσης σύμφωνα με το αποτέλεσμα που επιδιώκουν, προτείνοντας δηλαδή τις κατηγορίες των μη επιβλεπόμενων, των επιβλεπόμενων και των διαδραστικών συστημάτων ευφυούς σύνθεσης. Με αυτή την κατηγοριοποίηση ο αναγνώστης εισάγεται στα επόμενα κεφάλαια όπου περιγράφονται τα καινοτόμα συστήματα που προτάθηκαν, κυρίως για επιβλεπόμενη σύνθεση βάσει χαρακτηριστικών, για την ευφυή παραγωγή ρυθμών (Κεφάλαιο 5), τόνων (Κεφάλαιο 6), καθώς και για την ολοκλήρωση των συνθέσεων μέσω της έννοιας της οριζόντιας αντιγραφής ενορχήστρωσης και την ευφυή συνοδεία αυτοσχεδιαστή (Κεφάλαιο 7). Τα αποτελέσματα που παρέχονται για όλα τα συστήματα αυτού του μέρους εξετάζουν ενδελεχώς πολλές πτυχές των συνθετικών τους ιδιοτήτων, αποκαλύπτοντας τα σημεία υπεροχής τους αλλά και τις αδυναμίες τους. Στο τρίτο μέρος γίνεται η περιγραφή των διαδραστικών συστημάτων που μελετήθηκαν στη διατριβή, αναλύοντας όχι μόνο την ανάπτυξη των αλγόριθμων πίσω από τα συστήματα αυτά, αλλά εστιάζοντας κυρίως στα ουσιώδη ζητήματα που άπτονται της αντίληψης της ανθρώπινης μουσικής και της σύνδεσής της με την ευφυή-αυτόματη σύνθεση. Συγκεκριμένα, στο Κεφάλαιο 8 γίνεται αρχικά η παρουσίαση ενός καινοτόμου υπολογιστικού συστήματος που εξελίσσει διαδραστικά (με βαθμολογίες παρεχόμενες από τον χρήστη) συναρτήσεις με τη μέθοδο του γενετικού προγραμματισμού. Σκοπός του συστήματος αυτού είναι η παραγωγή κυματομορφών που ακούγονται γενιά με τη γενιά όλο και πιο ευχάριστες για την προσωπική του αισθητική του χρήστη. Μέσω αυτού του συστήματος προτάθηκε το ενδεχόμενο της άντλησης πληροφοριών για τα ηχητικά χαρακτηριστικά των μελωδιών σε διαφορετικά εξελικτικά στάδια - από τις μη εξελιγμένες και χαμηλά βαθμολογημένες στις εξελιγμένες και υψηλά βαθμολογημένες μελωδίες - έτσι ώστε να μελετηθεί το κατά πόσο τα ηχητικά χαρακτηριστικά αυτά μπορεί να παρέχουν ενδείξεις για την αισθητική αρτιότητα μιας μελωδίας. Αυτό το σύστημα επίσης αξιοποιήθηκε για την ανάπτυξη των γενετικών τελεστών προσαρμοσμένου βάθους, οι οποίοι, συνδυαζόμενοι με την παράμετρο ``παράγοντα ρίσκου'', δίνουν στον χρήστη έναν επιπλέον έλεγχο στην εξελικτική διαδικασία, απαλλάσσοντάς τον από ένα μέρος του φαινομένου της κόπωσης του χρήστη. Το τρίτο μέρος, και η ερευνητική διαδρομή αυτής της διατριβής, κλείνει με το Κεφάλαιο 9, όπου παρουσιάζεται ένα διαδραστικό σύστημα εξελικτικής σύνθεσης μουσικής σε δύο επίπεδα, το οποίο πέρα από το ότι συνδυάζει την έρευνα που έγινε σχεδόν σε ολόκληρη τη διατριβή, περιέχει επίσης νεοτερισμούς σε πολλά επίπεδα: από την κεντρική σύλληψη, την υλοποίηση, ως και τη διαδικασία εξαγωγής αποτελεσμάτων. Η κεντρική σύλληψη αφορά την εξέλιξη των μαθηματικών μουσικών χαρακτηριστικών που περιγράφουν μια μελωδία αντί για τη μελωδία καθεαυτή (ή το μοντέλο που την παράγει). Η υλοποίηση έγινε σε δύο επίπεδα, τον πάνω επίπεδο εξέλιξης χαρακτηριστικών και το κάτω επίπεδο ευφυούς επιβλεπόμενης σύνθεσης μουσικής με καινοτόμους αλγόριθμους και στα δύο επίπεδα. Τέλος, η πειραματική διαδικασία που ακολουθήθηκε, στην οποία προτάθηκε και υλοποιήθηκε η χρήση αυτόματων βαθμολογητών που προσομοιάζουν τη βαθμολογική συμπεριφορά των ανθρώπων, επέτρεψε την πλήρως αντικειμενική εξέταση των δυνατοτήτων του συστήματος να συγκλίνει στις βέλτιστες μελωδίες του χρήστη. / The PhD thesis at hand discusses the employment of computational intelligence in music, attempting to humbly commit a minimal contribution to the deep history of studies that relate music to mathematics. The three cornerstones upon which the thesis at hand is founded, discuss the employment of computational intelligence methods for a) the examination of musical-mathematical features towards classifying, identifying and characterising music content, b) intelligent music composition based on musical-mathematical features and c) interactive intelligent music composition and further developments. While at a first glance these three parts seem unrelated, their common keystone is the music-mathematical features and the role that these features play towards developing computational intelligence models which at some extent simulate the human ``perception’’ of music. The fact that all the research channels that are presented in this thesis, are finally led to a single stream, becomes evident in the final chapter of the thesis (Chapter 9) where the music-mathematical features, the intelligent music composition and the interactive music composition are embodied in an innovative system that is thoroughly described. Additionally, a main concern of the studies that comprise this thesis was the presentation of objective, detailed and unbiased results, achieved through exhaustive experimental processes, many of which were by themselves innovative. The latter comment intents to highlight the different approach that the research in this thesis follows, in comparison to the most common approaches concerning the presentation of experimental results for automatic music composition methods - which simply include small score or audio parts of automatically composed music. The first part of the thesis includes the Chapters 2 and 3, where the categorisation of music pieces in symbolic form is examined, as well as the identification and characterisation of music recordings. Aim of this part is on the hand to present the rich quality of information that can be extracted by several pitch class space-related features regarding human perception of music, while on the other hand to pinpoint the effectiveness of computational intelligence methods as tools to extract the aforementioned rich information. The first part’s contribution is primarily the presentation of novel methodologies that achieve effective categorisation of music pieces per composer or style, identify the content of drums recordings and characterise the content of recorded pieces by recognising locations of composition key changes. An additionally contribution of this part is the presentation and study of the principal chroma eigenspace. The second part encompasses Chapters 4, 5, 6 and 7, which discuss the contribution of this thesis in intelligent music composition. Specifically, the contribution of Chapter 4 includes a proposed categorisation of intelligent music composition methods based on their intended result, proposing their segregation to unsupervised, supervised and interactive intelligent music composition methodologies. Through this categorisation, an introduction to the subsequent chapters is achieved, which mainly discuss supervised intelligent music composition based on music-mathematical features for the generation of rhythmic sequences (Chapter 5), tonal sequences (Chapter 6), as well as integrated synthesis through the concept of horizontal orchestration replication and intelligent improviser accompaniment (Chapter 7). The results of the presented studies in this part constitute of exhausted research processes that examine different compositional aspects of the proposed methodologies, revealing their strengths and weaknesses over other methodologies presented in the literature. In the third part the interactive systems that were studied in the thesis are presented, not only by analysing the algorithmic development of the underlying methodologies, but mostly focussing on matters that pertain to the human perception and intelligent music composition. Specifically, in the beginning of Chapter 8 an innovative system is presented that evolves mathematical functions interactively (through user ratings), through genetic programming. Aim of this system is the generation and evolution of waveforms that sound more pleasant to the user, according to hers/his subjective criteria. This system allowed the proposition to obtain information about several audio features of the melodies in different evolutionary stages - from non evolved and low rated melodies to evolved and highly rated ones - in order to study whether these features incorporate indications about the aesthetic integrity of a melody. This system was also utilised towards the development of fitness-adaptive genetic operators, which, combined with the ``risk factor’’ parameter, gave the user additional control over the evolutionary process, alleviating user fatigue at a considerable extent. The third part, along with the research conducted in the context of this thesis, concludes with Chapter 9, where an interactive evolutionary intelligent music composition system is presented, that combines almost all research presented in the thesis up to that point. This chapter includes also several innovative research propositions in many levels: the core concept, the implementation and the experimental process. The core concept discusses the evolution of music-mathematical features that describe a melody, rather than evolving the melody per se (or the model that generates it). The implementation incorporated two levels of serial evolution: the upper level of feature evolution and the lower level of supervised intelligent music composition, with novel algorithms in both levels. Finally, the experimental process that was developed - in the context of which the utilisation of automatic raters that simulate human behaviour was proposed - allowed a completely subjective evaluation of the systems capabilities, regarding its convergence to the optimal melodies of the user’s subjective preference.

Ανάλυση χαρακτηριστικών περιεμμηνοπαυσιακού και μετεμμηνοπαυσιακού ενδομητρίου στην δισδιάστατη υπερηχοτομογραφία με χρήση τεχνικών ανάλυσης εικόνας

Μιχαήλ, Γεώργιος Δ. 18 December 2008 (has links)
Για τις Ευρωπαίες γυναίκες ο καρκίνος του σώματος της μήτρας αποτελεί το τέταρτο συχνότερο νεόπλασμα και την δέκατη σε σειρά αιτία θανάτου από καρκίνο. Ανεξάρτητα από το εάν η διακολπική υπερηχογραφία (TVS) αποτελεί δόκιμο μέσο διαλογής (screening) για την ανίχνευση ενδομητρικού καρκίνου σε ασυμπτωματικές μετεμμηνοπαυσιακές γυναίκες, εντούτοις κυριαρχεί στους διαγνωστικούς αλγόριθμους διερεύνησης κάθε μητρορραγίας προς αποκλεισμό του καρκίνου αυτού. Παράλληλα με τα πιθανά οφέλη από την ενσωμάτωση τεχνικών Υπερηχοϋστερογραφίας (SIS) και Doppler στην ενδομητρική απεικόνιση, η δισδιά- στατη “gray scale” διακολπική υπερηχογραφία οφείλει μεγάλο μέρος της προόδου της στην ώθηση από τις εξελίξεις της τεχνολογίας. Μετά την εισαγωγή των διακολπικών ηχοβολέων πολλαπλών συχνοτήτων (multifrequency) και της “αρμονικής” (harmonic) απεικόνισης, τα σύγχρονα υπερηχογραφικά μηχανήματα διαθέτουν επιλογές λογισμι- κού για ενίσχυση της ανάλυσης της αντίθεσης δομών, λεπτών ρυθμίσεων για εξέταση διαφορετικών τύπων ιστών, πολλαπλού εύρους εστίασης, μετάδοσης της δέσμης σε πλάγια διεύθυνση ως προς το ακουστικό παράθυρο, κ.α. Τα παραπάνω, καθώς και φίλτρα μείωσης του θορύβου βελτιστοποιούν την απεικόνιση του ενδομητρίου διευκολύνοντας την αποτίμησή του, ακόμη και στα χέρια άπειρων εξεταστών. Το πάχος της διπλής ενδομητρικής στιβάδας αποτελεί ιστορικά τον πλέον αδιαμφισβήτητο ποσοτικό δείκτη ενδομητρικού καρκίνου, ειδικά στην παρουσία μετεμμηνοπαυσιακής μητρορραγίας. Η συνδυασμένη μελέτη της ενδομητρικής μορφο- λογίας και πάχους παρέχει περισσότερες πληροφορίες, ειδικά στην αποτίμηση της “γκρίζας ζώνης” των 4-10 χιλιοστών ενδομητρικού πάχους, αν και τα ευρήματα των “μορφολογικών” αυτών μελετών δεν υπήρξαν πάντα σταθερά. Με δεδομένη τη σημασία της μορφολογίας στην αποτίμηση του ενδομητρικού ιστού, και αποσκοπώντας στην υπέρβαση του υποκειμενικού χαρακτήρα της ποιοτικής εκτίμησης της υπερηχογραφικής εικόνας, θα ήταν χρήσιμη η εφαρμογή αυτοματοποιημένων τεχνικών που αξιολογούν αντικειμενικά μορφολογικά χαρακτη- ριστικά, όπως η υποβοηθούμενη από υπολογιστή ανάλυση υφής, (“computerized texture analysis”). Στις ψηφιακές εικόνες, η υφή αντικατοπτρίζει τονικές (ένταση των εικονο- στοιχείων) και δομικές (χωρική κατανομή της έντασης των εικονοστοιχείων) ιδιότητες. Η “ανάλυση υφής” αναφέρεται σε αλγόριθμους που ποσοτικοποιούν περιεχόμενο και στοιχεία υφής που πιθανόν, ή όχι, να γίνονται αντιληπτά με το γυμνό μάτι. Δεδομένου ότι στην ιατρική απεικόνιση οι εικόνες περιλαμβάνουν πολλαπλές ιδιότητες των βιολογικών δομών, η ανάλυση υφής των εικόνων αυτών παρέχει ποσοτικές πληροφο- ρίες σχετικές με τα χαρακτηριστικά, τη μορφολογία και τις ιδιότητες των δομών αυτών. Σχήματα ταξινόμησης στηριζόμενα στην υφή έχουν χρησιμοποιηθεί με επιτυχία σε ποικιλία υπερηχογραφικών εφαρμογών. Η βασισμένη σε υπολογιστή αποτίμηση εικόνων του ενδομητρίου έχει βρει κυρίως εφαρμογή στη Υποβοηθούμενη Αναπαραγωγή, αλλά δεν έχει χρησιμοποιηθεί για τη διάγνωση ενδομητρικών κακοηθειών στην δισδιάστατη υπερηχογραφία. Σκοπός της διδακτορικής αυτής διατριβής είναι η αξιολόγηση του εφικτού της υποβοηθούμενης από υπολογιστή ανάλυσης υφής του ενδομητρικού ιστού όπως απεικονίζεται σε δισδιάστατες “gray scale” υπερηχογραφικές εικόνες. Περαιτέρω, διερευνήθηκε το αποτέλεσμα μιας τεχνικής επεξεργασίας βασισμένης σε μετασχη- ματισμό κυματίου (wavelet) στη διαδικασία τμηματοποίησης και χαρακτηρισμού του ενδομητρικού ιστού. / Cancer of the corpus uteri represents the fourth commonest neoplasm among European women and the tenth most common cause of death attributed to cancer. Irrespective whether the use of transvaginal ultrasonography (TVS) as a screening tool for detecting endometrial cancer in asymptomatic postmenopausal women is warranted, TVS dominates most diagnostic algorithms in assessing metrorrhagias to exclude this cancer. Alongside the potential benefits stemming from the integration of Saline Infusion Sonography) and Doppler modalities in endometrial imaging, gray scale TVS showed remarkable advances in the previous decades, largely attributed to the evolution in computer sciences. Following the introduction of multifrequency transvaginal probes and harmonic imaging, modern scanners are equipped with software options that enhance the resolution or the contrast between different structures, fine tune while assessing different types of tissue, implement different depth of focusing, transmit the ultrasonic beam in oblique directions to the acoustic window; all these features, in addition to de-speckle filters optimize the endometrial depiction, facilitating its assessment, even in the hands of moderately skilled operators. Double stripe endometrial thickness has illustrated a remarkable robustness over time as a quantitative indicator of endometrial cancer, especially in the presence of postmenopausal bleeding. The combined consideration of endometrial morphology and thickness has proven particularly beneficial, especially in the assessment of the 4-10 mm endometrial thickness “grey zone”, although the findings of the “morphologic” studies haven’t always been consistent. Given the importance of morphology in assessing endometrial tissue, and aiming to overcome the inherent subjectivity of the qualitative consideration of ultrasonic images, implementation of automated techniques assessing objective morphologic features such as “computerized texture analysis” would be beneficial. In digital images, texture reflects tonal (intensities of image pixels) and structural (spatial distribution of pixel intensities) properties. Texture analysis refers to algorithms that quantify texture content that may, or may not, be visually perceived. Since medical images capture various properties of biological structures, texture analysis of medical images can provide quantitative metrics relevant to structure, morphology and status of biological tissues. Texture based classification schemes have been successfully implemented in a variety of ultrasound applications. Computerized TVS assessment of endometrial morphology, has been applied mainly in assisted reproduction techniques; however, computerized texture analysis has not been implemented for diagnosing endometrial malignancies in grey scale TVS. The aim of this study is to investigate the feasibility of computerized texture analysis in characterizing endometrial tissue as depicted in 2D grey scale TVS images. Furthermore, we assess the effect of a wavelet-based image processing technique in the segmentation and subsequent characterization tasks of endometrial tissue.

Αναγνώριση ομιλητή / Speaker recognition

Ganchev, Todor 25 June 2007 (has links)
Η παρούσα διατριβή πραγματεύεται την αναγνώριση ομιλητή σε πραγματικές συνθήκες. Τα κύρια σημεία της εργασίας είναι: (1) αξιολόγηση διαφόρων προσεγγίσεων εξαγωγής χαρακτηριστικών παραμέτρων ομιλίας, (2) μείωση της ισχύος της περιβαλλοντικής επίδρασης στην απόδοση της αναγνώρισης ομιλητή, και (3) μελέτη τεχνικών κατηγοριοποίησης, εναλλακτικών προς τις υπάρχουσες. Συγκεκριμένα, στο (1), προτείνεται μια νέα δομή εξαγωγής παραμέτρων ομιλίας βασισμένη σε πακέτα κυματομορφών, κατάλληλα σχεδιασμένη για αναγνώριση ομιλητή. Εξάγεται με ένα αντικειμενικό τρόπο σε σχέση με την απόδοση αναγνώρισης ομιλητή, σε αντίθεση με την MFCC προσέγγιση, που βασίζεται στην προσέγγιση της αντίληψης της ανθρώπινης ακοής. Έπειτα, στο (2), δίνεται μια δομή για την εξαγωγή παραμέτρων βασισμένη στα MFCC, ανεκτική στο θόρυβο, για την βελτίωση της απόδοσης της αναγνώρισης ομιλητή σε πραγματικό περιβάλλον. Συνοπτικά, μια τεχνική μείωσης του θορύβου βασισμένη σε μοντέλο προσαρμοσμένη στο πρόβλημα της επιβεβαίωσης ομιλητή ενσωματώνεται απευθείας στη δομή υπολογισμού των MFCC. Αυτή η προσέγγιση επέδειξε σημαντικό πλεονέκτημα σε πραγματικό και ταχέως μεταβαλλόμενο περιβάλλον. Τέλος, στο (3), εισάγονται δύο νέοι κατηγοριοποιητές που αναφέρονται ως Locally Recurrent Probabilistic Neural Network (LR PNN), και Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN). Είναι υβρίδια μεταξύ των Recurrent Neural Network (RNN) και Probabilistic Neural Network (PNN) και συνδυάζουν τα πλεονεκτήματα των γεννετικών και διαφορικών προσσεγγίσεων κατηγοριοποίησης. Επιπλέον, τα νέα αυτά νευρωνικά δίκτυα είναι ευαίσθητα σε παροδικές και ειδικές συσχετίσεις μεταξύ διαδοχικών εισόδων, και έτσι, είναι κατάλληλα για να αξιοποιήσουν την συσχέτιση παραμέτρων ομιλίας μεταξύ πλαισίων ομιλίας. Κατά την εξαγωγή των πειραμάτων, διαφάνηκε ότι οι αρχιτεκτονικές LR PNN και GLR PNN παρέχουν καλύτερη απόδοση, σε σχέση με τα αυθεντικά PNN. / This dissertation dials with speaker recognition in real-world conditions. The main accent falls on: (1) evaluation of various speech feature extraction approaches, (2) reduction of the impact of environmental interferences on the speaker recognition performance, and (3) studying alternative to the present state-of-the-art classification techniques. Specifically, within (1), a novel wavelet packet-based speech features extraction scheme fine-tuned for speaker recognition is proposed. It is derived in an objective manner with respect to the speaker recognition performance, in contrast to the state-of-the-art MFCC scheme, which is based on approximation of human auditory perception. Next, within (2), an advanced noise-robust feature extraction scheme based on MFCC is offered for improving the speaker recognition performance in real-world environments. In brief, a model-based noise reduction technique adapted for the specifics of the speaker verification task is incorporated directly into the MFCC computation scheme. This approach demonstrated significant advantage in real-world fast-varying environments. Finally, within (3), two novel classifiers referred to as Locally Recurrent Probabilistic Neural Network (LR PNN), and Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN) are introduced. They are hybrids between Recurrent Neural Network (RNN) and Probabilistic Neural Network (PNN) and combine the virtues of the generative and discriminative classification approaches. Moreover, these novel neural networks are sensitive to temporal and special correlations among consecutive inputs, and therefore, are capable to exploit the inter-frame correlations among speech features derived for successive speech frames. In the experimentations, it was demonstrated that the LR PNN and GLR PNN architectures provide benefit in terms of performance, when compared to the original PNN.

Risikofaktoren postoperativer Infektionen nach neurochirurgischen Eingriffen und die Rolle der perioperativen Antibiotikaprophylaxe / Risk factors for surgical site infections in neurosurgery and the role of perioperative antibiotics

Pauly, Franziska 21 May 2012 (has links)
No description available.

Hierarchically linked extended features for fingerprint processing / Hierarchisch verbundene Merkmale für die Verarbeitung von Fingerabdrücken

Mieloch, Krzysztof 08 May 2008 (has links)
No description available.

Identification et localisation des préoccupations fonctionnelles dans un code légataire Java

El Kharraz, Amal 06 1900 (has links)
Traditionnellement, les applications orientées objets légataires intègrent différents aspects fonctionnels. Ces aspects peuvent être dispersés partout dans le code. Il existe différents types d’aspects : • des aspects qui représentent des fonctionnalités métiers ; • des aspects qui répondent à des exigences non fonctionnelles ou à d’autres considérations de conception comme la robustesse, la distribution, la sécurité, etc. Généralement, le code qui représente ces aspects chevauche plusieurs hiérarchies de classes. Plusieurs chercheurs se sont intéressés à la problématique de la modularisation de ces aspects dans le code : programmation orientée sujets, programmation orientée aspects et programmation orientée vues. Toutes ces méthodes proposent des techniques et des outils pour concevoir des applications orientées objets sous forme de composition de fragments de code qui répondent à différents aspects. La séparation des aspects dans le code a des avantages au niveau de la réutilisation et de la maintenance. Ainsi, il est important d’identifier et de localiser ces aspects dans du code légataire orienté objets. Nous nous intéressons particulièrement aux aspects fonctionnels. En supposant que le code qui répond à un aspect fonctionnel ou fonctionnalité exhibe une certaine cohésion fonctionnelle (dépendances entre les éléments), nous proposons d’identifier de telles fonctionnalités à partir du code. L’idée est d’identifier, en l’absence des paradigmes de la programmation par aspects, les techniques qui permettent l’implémentation des différents aspects fonctionnels dans un code objet. Notre approche consiste à : • identifier les techniques utilisées par les développeurs pour intégrer une fonctionnalité en l’absence des techniques orientées aspects • caractériser l’empreinte de ces techniques sur le code • et développer des outils pour identifier ces empreintes. Ainsi, nous présentons deux approches pour l’identification des fonctionnalités existantes dans du code orienté objets. La première identifie différents patrons de conception qui permettent l’intégration de ces fonctionnalités dans le code. La deuxième utilise l’analyse formelle de concepts pour identifier les fonctionnalités récurrentes dans le code. Nous expérimentons nos deux approches sur des systèmes libres orientés objets pour identifier les différentes fonctionnalités dans le code. Les résultats obtenus montrent l’efficacité de nos approches pour identifier les différentes fonctionnalités dans du code légataire orienté objets et permettent de suggérer des cas de refactorisation. / Object oriented applications integrate various functional aspects. These aspects can be scattered everywhere in the code. There are various types of aspects : • aspects which represent business functionalities ; • aspects related to non functional requirements or to design concerns such as robustness, distribution, and security. The code representing such aspects can be located in different class hierarchies. Researchers have been interested in the problem of the modularisation of these aspects and many approaches were proposed : oriented programming subjects, oriented programming Aspects and oriented programming view. These approaches offer techniques and tools for designing object oriented applications based on the composition of slices of various aspects. The main benefit of the separation of aspects is supporting reuse and maintenance. Consequently, it is well worth identifying and extracting aspects of legacy object oriented applications. Our work mainly focuses on functional aspects. Assuming that the code of a functional aspect or a feature has a functional cohesion (dependencies between elements), we suggest methods for identifying such features from the code. The idea is to identify, in the absence of any aspect oriented paradigm, the techniques used for implementing a feature in the code. Our approach consists of : • identifying techniques used by developers to integrate a feature in the absence of aspect oriented techniques • characterizing the patterns of these techniques • and developing tools to identify these patterns. We present two approaches for the identification of the existing features in the object oriented code. The first one identifies various design patterns which integrates these features in the code. The second approach uses the formal concept analysis to identify the recurring features in the code. We experiment our approaches to identify functional features in different open source object oriented applications. The results show the efficiency of our approaches in identifying various functional features in the legacy object oriented, and can some times suggest refactoring.

Contributions à l'étude de détection des bandes libres dans le contexte de la radio intelligente.

Khalaf, Ziad 08 February 2013 (has links) (PDF)
Les systèmes de communications sans fil ne cessent de se multiplier pour devenir incontournables de nos jours. Cette croissance cause une augmentation de la demande des ressources spectrales, qui sont devenues de plus en plus rares. Afin de résoudre ce problème de pénurie de fréquences, Joseph Mitola III, en 2000, a introduit l'idée de l'allocation dynamique du spectre. Il définit ainsi le terme " Cognitive Radio " (Radio Intelligente), qui est largement pressenti pour être le prochain Big Bang dans les futures communications sans fil [1]. Dans le cadre de ce travail on s'intéresse à la problématique du spectrum sensing qui est la détection de présence des Utilisateurs Primaires dans un spectre sous licence, dans le contexte de la radio intelligente. L'objectif de ce travail est de proposer des méthodes de détection efficaces à faible complexité et/ou à faible temps d'observation et ceci en utilisant le minimum d'information a priori sur le signal à détecter. Dans la première partie on traite le problème de détection d'un signal aléatoire dans le bruit. Deux grandes méthodes de détection sont utilisées : la détection d'énergie ou radiomètre et la détection cyclostationnaire. Dans notre contexte, ces méthodes sont plus complémentaires que concurrentes. Nous proposons une architecture hybride de détection des bandes libres, qui combine la simplicité du radiomètre et la robustesse des détecteurs cyclostationnaires. Deux méthodes de détection sont proposées qui se basent sur cette même architecture. Grâce au caractère adaptatif de l'architecture, la détection évolue au cours du temps pour tendre vers la complexité du détecteur d'énergie avec des performances proches du détecteur cyclostationnaire ou du radiomètre selon la méthode utilisée et l'environnement de travail. Dans un second temps on exploite la propriété parcimonieuse de la Fonction d'Autocorrelation Cyclique (FAC) pour proposer un nouvel estimateur aveugle qui se base sur le compressed sensing afin d'estimer le Vecteur d'Autocorrelation Cyclique (VAC), qui est un vecteur particulier de la Fonction d'Autocorrelation Cyclique pour un délai fixe. On montre par simulation que ce nouvel estimateur donne de meilleures performances que celles obtenues avec l'estimateur classique, qui est non aveugle et ceci dans les mêmes conditions et en utilisant le même nombre d'échantillons. On utilise l'estimateur proposé, pour proposer deux détecteurs aveugles utilisant moins d'échantillons que nécessite le détecteur temporel de second ordre de [2] qui se base sur l'estimateur classique de la FAC. Le premier détecteur exploite uniquement la propriété de parcimonie du VAC tandis que le second détecteur exploite en plus de la parcimonie la propriété de symétrie du VAC, lui permettant ainsi d'obtenir de meilleures performances. Ces deux détecteurs outre qu'ils sont aveugles sont plus performants que le détecteur non aveugle de [2] dans le cas d'un faible nombre d'échantillons.

Stereo vision and LIDAR based Dynamic Occupancy Grid mapping : Application to scenes analysis for Intelligent Vehicles

Li, You 03 December 2013 (has links) (PDF)
Intelligent vehicles require perception systems with high performances. Usually, perception system consists of multiple sensors, such as cameras, 2D/3D lidars or radars. The works presented in this Ph.D thesis concern several topics on cameras and lidar based perception for understanding dynamic scenes in urban environments. The works are composed of four parts.In the first part, a stereo vision based visual odometry is proposed by comparing several different approaches of image feature detection and feature points association. After a comprehensive comparison, a suitable feature detector and a feature points association approach is selected to achieve better performance of stereo visual odometry. In the second part, independent moving objects are detected and segmented by the results of visual odometry and U-disparity image. Then, spatial features are extracted by a kernel-PCA method and classifiers are trained based on these spatial features to recognize different types of common moving objects e.g. pedestrians, vehicles and cyclists. In the third part, an extrinsic calibration method between a 2D lidar and a stereoscopic system is proposed. This method solves the problem of extrinsic calibration by placing a common calibration chessboard in front of the stereoscopic system and 2D lidar, and by considering the geometric relationship between the cameras of the stereoscopic system. This calibration method integrates also sensor noise models and Mahalanobis distance optimization for more robustness. At last, dynamic occupancy grid mapping is proposed by 3D reconstruction of the environment, obtained from stereovision and Lidar data separately and then conjointly. An improved occupancy grid map is obtained by estimating the pitch angle between ground plane and the stereoscopic system. The moving object detection and recognition results (from the first and second parts) are incorporated into the occupancy grid map to augment the semantic meanings. All the proposed and developed methods are tested and evaluated with simulation and real data acquired by the experimental platform "intelligent vehicle SetCar" of IRTES-SET laboratory.

客家動物諺語的隱喻表現 / Metaphor in Hakka Animal Proverbs

徐韶君, Hsu, Shao Chun Unknown Date (has links)
人類如何傳達訊息?如何感知世界?人類認知概念從語言形式上看到概念隱喻,看到的不只是語言現象,是概念之間的互動,諺語即為隱喻現象豐富的語言形式之一。人類面對隱喻表現時,透過隱喻機制運作,以及文化背景影響,產生概念隱喻,利於人們理解,因而有諺語的形成。 Lakoff & Turner (1989) 提及人類與動物在物種階層上是密切的。本論文將以動物為取材,透過觀察客家動物諺語之隱喻表現,探究其中動物來源域和人類目標域間的互動。然而客家諺語中的動物隱喻是如何展現與客家文化的關係,藉由多源一義、一源多義的隱喻展現,以隱喻概念為基礎之分析,同時了解文化約制。進一步,以概念隱喻機制概述客家動物諺語在人類認知中如何運作,給予人類如何理解隱喻表現更完整的解釋。 / How do people communicate? In what way do we sense the world? Conceptual metaphor embedded in many language expressions are understood through conceptual correlations. Among the many language expressions, proverbs manifest a common kind of metaphor used in our daily life. Through uncovering the cognitive mechanisms operated in the metaphor of proverbs, we understand not only the language but also cultural thoughts. This thesis investigates metaphor in Hakka animal proverbs. According to Lakoff &Turner (1989), humans and animals are highly related in species, both showing certain attributes and behaviors. Animal proverbs, often exhibiting animal attributes and behaviors, are used to carry certain social-pragmatic function of educating human beings. This study explores the conceptual metaphor of animal proverbs, generalizing the semantic features of animal source domains and the main themes of target domains. With the analysis of general patterns of the many‐sources‐to‐a‐target and a‐source‐to‐many-targets relationships of these proverbs, the study has not only shown how people understand animal metaphor in mind but also demonstrated Hakka cultural specifics in animal metaphor.

