Αυτόματη αναγνώριση σκηνών βίας σε σήμα βιντεοσκόπησης
Κριτσιώνη, Αγγελική
01 July 2015
Τα τελευταία χρόνια, η δημοτικότητα του διαδικτύου αυξάνεται ολοένα και περισσότερο και σε συνδυασμό με την κινηματογραφική βιομηχανία που ανθίζει με γρήγορους ρυθμούς , έχει σαν αποτέλεσμα έναν τεράστιο αριθμό βίντεο κοινής χρήσης στο διαδίκτυο και μια πληθώρα κινηματογραφικών ταινιών, στα οποία έχει άμεση πρόσβαση μεγάλη μερίδα του πληθυσμού, συμπεριλαμβανομένων και διάφορων ευαίσθητων κοινωνικών ομάδων, παραδείγματος χάρη παιδιά και εφήβους.
Η προστασία τέτοιων ατόμων αλλά και η επιθυμία γνώσης του περιεχομένου ενός βίντεο δημιούργησε την αναγκαιότητα ανάπτυξης αποτελεσματικών, αυτόματων ανιχνευτών βίας.Στην παρούσα διπλωματική παρουσιάζονται οι μέθοδοι που έχουν προταθεί στο συγκεκριμένο πεδίο. Στην συνέχεια, υιοθετείται μια εκ των μεθόδων και αναπτύσσεται αλγόριθμος, με σκοπό τη μελέτη της απόδοσης του. / In recent years, the popularity of the internet growing more and more.This results a huge number of video sharing on the internet and a plethora of films. A large portion of population has direct access in such videos,including sensitive and different social groups , for example children and adolescents .
The protection of such persons and the desire knowing the content of a video, created the necessity to develop efficient , automated violence detectors.In this dissertation we present methods that have been proposed in this field . Then , we have adopted one of the methods and we have developed an algorithm in order to study its accuracy.
Αυτόματη αναγνώριση CAPTCHAs με χρήση τεχνικών ΨΕΕ
Γκολώνη, Σταυρούλα
06 March 2015
Γνωρίζουμε πως στην εποχή που διανύουμε το Διαδίκτυο προσφέρει μια παγκόσμια επικοινωνία δημιουργώντας ταυτόχρονα και μια παγκόσμια οικονομία. Η παροχή δωρεάν υπηρεσιών από αρκετές ιστοσελίδες οδήγησε στη συστηματική κατάχρησή τους με ευνόητο σκοπό το κέρδος. Ως αντίσταση σε αυτή την κακόβουλη νέα πηγή εσόδων για κάποιους, προβάλλονται τα CAPTCHAs. Στόχος τους είναι να εξακριβώσουν αν μία αίτηση σε μία υπηρεσία γίνεται από έναν χρήστη ή από ένα αυτοματοποιημένο πρόγραμμα. Κάθε ιστοσελίδα που δίνει την δυνατότητα στον χρήστη να δημιουργήσει δικό του περιεχόμενο ή να χρησιμοποιήσει τις υπηρεσίες της οφείλει πλέον να εμπεριέχει CAPTCHAs.
Η παρούσα ειδική επιστημονική εργασία έχει ως στόχο τη μελέτη και την ερμηνεία όλων των διαφορετικών ειδών CAPTCHAs που έχουν δημιουργηθεί ώστε να είναι ανθεκτικά στις κακόβουλες προσπάθειες λύσης και εξετάζεται το κατά πόσο αυτό είναι εφικτό. Γίνεται μια προσπάθεια αρχικά να κατανοήσουμε ακριβώς τι είναι τα CAPTCHAs και γιατί η χρήση τους καθίσταται αναγκαία. Αυτό που επίσης θα διερευνηθεί, μέσα από συγκεκριμένες δημοσιεύσεις που έχουν πραγματοποιηθεί, είναι ποιες αρχές πρέπει να διέπουν το σχεδιασμό ενός CAPTCHA. Προκειμένου να συμβεί αυτό θα ανατρέξουμε σε διαφορετικές προσεγγίσεις και αφού τις παρουσιάσουμε γίνεται μια κριτική ανάλυση των μεθόδων της κάθε ερευνητικής ομάδας. / It is fact that in the modern world the Internet offers a global communication while creating a global economy. The provision of free services from several websites has led to this systematic abuse solely for the purpose of making a profit. In order to stem the tide of this malicious new source of income for some, “CAPTCHAs” are employed. Their goal is to determine whether a request to a service is made by a user or by an automated program. Every website that enables the user to create their own content or use its services must now deploy CAPTCHAs.
This current special scientific work aims at the study and interpretation of all different kinds of CAPTCHAs created so that they are resistant to malicious efforts of solutions and examines whether this is possible. An attempt is made initially to understand exactly what the “CAPTCHAs” are and why their use is necessary. What will also be explored through specific publications made, is what principles should govern the design of a CAPTCHA. In order to do this we will go back to different approaches and after presenting them, a critical analysis of the methods of each research group will be conducted.
Αναγνώριση αριθμού κινούμενων αντικειμένων και παρακολούθηση της τροχιάς των με μεθόδους μηχανικής όρασης
Κουζούπης, Δημήτριος
05 January 2011
Η παρούσα διπλωματική εργασία αφορά την ανίχνευση και παρακολούθηση ανθρώπινων μορφών σε ακολουθίες βίντεο με μεθόδους μηχανικής όρασης. Οι ακολουθίες αυτές θεωρούμε πως έχουν ληφθεί από στατική κάμερα σε εσωτερικό ή εξωτερικό χώρο. Πιο συγκεκριμένα, το εν λόγω πρόβλημα υποδιαιρείται σε τρία κυρίως μέρη τα οποία μελετώνται, αναλύονται και υλοποιούνται σε ξεχωριστά κεφάλαια. Ξεκινάμε με το κομμάτι κατάτμησης κίνησης, συνεχίζουμε με την ταξινόμηση αντικειμένων ώστε να αναγνωριστούν οι άνθρωποι ανάμεσα στις κινούμενες οντότητες και τελειώνουμε με την παρακολούθηση των ανθρώπινων σιλουετών για καταγραφή της πορείας τους όση ώρα βρίσκονται στο πλάνο. Οι αλγόριθμοι που αναπτύχθηκαν λειτούργησαν ικανοποιητικά κάτω από διάφορες συνθήκες και τα αποτελέσματά τους μπορούν να περάσουν ως είσοδοι σε μια πληθώρα εφαρμογών υψηλότερου επιπέδου με σκοπό την αναγνώριση ανθρώπινης δραστηριότητας και την κατανόηση συμπεριφοράς. / The purpose of this thesis is to deal with the problem of human tracking in video sequences. We have divided the problem in three parts: motion segmentation, human tracking and object classification. Finally we have dedicate a whole chapter to optical flow techniques and the relevant methods that can be employed to solve the same problem.
Ανάκτηση εικόνας βάσει υφής με χρήση Eye tracker
Καραδήμας, Ηλίας
11 January 2011
Η ραγδαία αύξηση των εικόνων, σε συνδυασμό με την αδυναμία των συστημάτων ανάκτησης εικόνας βάσει περιεχομένου να εξάγουν σημασιολογικά χαρακτηριστικά, οδήγησαν στην εισαγωγή του ανθρώπινου παράγοντα στην πειραματική διαδικασία. Ένας πολύ συνηθισμένος και επιτυχημένος τρόπος χρησιμοποίησης του ανθρώπινου συστήματος όρασης είναι μέσω της καταγραφής των οφθαλμικών κινήσεων. Στο σύστημα ανάκτησης το οποίο προτείνεται στην παρούσα εργασία γίνεται καταγραφή των σημείων εστίασης που προέκυψαν κατά την παρατήρηση των εικόνων βάσεως. Από τα σημεία αυτά, γίνεται εξαγωγή χαρακτηριστικών υφής με δύο μεθόδους, τα φίλτρα Gabor και το διακριτό μετασχηματισμό συνημιτόνου (DCT), παράγοντας πολυδιάστατα διανύσματα. Τα διανύσματα αυτά συγκρίνονται ανά δύο μέσω του μη παραμετρικού WW test, δημιουργώντας έναν πίνακα αποστάσεων. Με την εισαγωγή μιας ζητούμενης εικόνας στο σύστημα, τα χαρακτηριστικά υφής της συγκρίνονται με αυτά της βάσης προσθέτοντας μια επιπλέον διάσταση στον πίνακα απόστασης.
Η απεικόνιση της σχέσης μεταξύ όλων των εικόνων (συμπεριλαμβανομένης και της αιτούμενης) γίνεται σε ένα χάρτη τριών διαστάσεων μέσω πολυδιάστατης κλιμάκωσης (MDS αλγόριθμος). Τα αποτελέσματα τα οποία προέρχονται από τα φίλτρα Gabor παρουσιάζουν μεγαλύτερη αξιοπιστία, κάνοντας εφικτή την επέκταση του συστήματος με χρήση μίας μεγαλύτερης βάσης εικόνων. / The rapid increase of images, combined with the weakness of the Content Based Image Retrieval (CBIR) systems to extract semantic features, led to the introduction of the human factor into the experimental procedure. A very common and successful way of using the human vision system is through the record of eye movements. In the retrieval system which is proposed in the present thesis, the fixation points that arose from viewing the database images are recorded. From these points, the texture features are extracted using two methods, Gabor filters and Discrete Cosine Transform (DCT), producing multidimensional vectors. These vectors are compared through the non parametric WW test, creating a distance matrix. By producing a query image in the system, its’ texture features are compared to those of the database, adding an extra dimension to the distance matrix.
The visual representation of the relation among all the images (query image included), is depicted in a three dimensional map using multidimensional scaling (MDS algorithm). The results obtained from Gabor filters are characterized by higher robustness, making the expansion of the system possible, by using a bigger image database.
Σχεδίαση ψηφιακού συστήματος λήψης, επεξεργασίας, αποθήκευσης και απεικόνισης εικόνων ελεγχόμενο από μια LCD οθόνη αφής
Πετούρης, Μιλτιάδης
11 August 2011
Η παρούσα ειδική ερευνητική εργασία υλοποιήθηκε στα πλαίσια του Μεταπτυχιακού Προγράμματος “Ηλεκτρονική και Η/Υ” του τμήματος Φυσικής του Πανεπιστημίου Πατρών. Σκοπός της εργασίας αυτής είναι η ανάπτυξη ενός συστήματος βασισμένου σε τεχνολογία FPGA [1-2]. Το σύστημα αυτό έχει τη δυνατότητα να λαμβάνει εικόνες, και αφού τις επεξεργαστεί κατάλληλα, τις αποθηκεύει στη μνήμη του και στη συνέχεια τις απεικονίζει σε μία LCD οθόνη αφής [3-4,8]. Τέλος, η διαχείριση των λειτουργιών που ενσωματώνει το σύστημα γίνεται μέσω της οθόνης αυτής [5].
Στο πρώτο κεφάλαιο πραγματοποιείται σύντομη περιγραφή του συστήματος, της βασικής αναπτυξιακής πλατφόρμας, DE2 της Altera [6], καθώς και του περιβάλλοντος ανάπτυξης Quartus II [12]. Tο δεύτερο κεφάλαιο χωρίζεται σε δύο μέρη. Στο πρώτο μέρος γίνεται παρουσίαση της TRDB-D5M CMOS Camera της Altera [9], των γενικών χαρακτηριστικών της και των απαραίτητων καταχωρητών για τη σωστή ρύθμισή της. Στο δεύτερο μέρος παρουσιάζεται η οθόνη TRDB_LTM LCD Touch Panel της Altera [7], η οποία επιλέχθηκε τόσο για την απεικόνιση των εικόνων όσο και για τον έλεγχο του συστήματος μέσω αυτής. Στο τρίτο κεφάλαιο πραγματοποιείται η πλήρης περιγραφή του συστήματος, που υλοποιήθηκε μέσω της γλώσσας ανάπτυξης υλικού Verilog HDL και ενσωματώθηκε στο FPGA [10-11], με σκοπό τη διαχείριση των δεδομένων που λαμβάνονται από την Camera. Στο τέταρτο κεφάλαιο παρουσιάζονται τα αποτελέσματα της εργασίας αυτής, τα συμπεράσματα που προέκυψαν, καθώς επίσης και προτάσεις για μελλοντική ανάπτυξη του συστήματος. Τέλος, στο παράρτημα Α παρουσιάζεται ο συνολικός κώδικας που υλοποιήθηκε και ενσωματώθηκε στο FPGA. / The present inquiring master thesis was realized as part of the postgraduate program “Electronics and Computer Science” of the department of Physics of University of Patras. The aim of this master thesis is the development of an FPGA technology based system [1-2] that has the ability to receive images, save them on its memory after appropriate processing and finally project them on an LCD touch panel [3-4,8]. The management of the system operations is realized through this touch panel [5].
Within the first chapter, we briefly describe the system, the basic development board of Altera [6], used to develop it, and finally the environment Quartus II [12]. We separated the second chapter in two parts. The first part presents the TRDB-D5M CMOS Camera of Altera [9], with its basic characteristics and the necessary registers for its appropriate regulation. The second part presents the TRDB-LTM LCD touch panel of Altera [7], which was chosen to portray images and allow the system control. The third chapter describes the system itself, realized in Verilog HDL, and incorporated in the FPGA [10-11], in order to manage the data received by the camera. The fourth chapter presents the results of this master thesis along with important conclusions and suggestions to further research. Finally, in appendix A we present the total code that was realized and incorporated in the FPGA.
Apprentissage actif en-ligne d'un classifieur évolutif, application à la reconnaissance de commandes gestuelles
Bouillon, Manuel
18 March 2016
L'utilisation de commandes gestuelles est une nouvelle méthode d'interaction sur interface tactile. Une bonne méthode pour faciliter la mémorisation de ces commandes gestuelles est de laisser l'utilisateur les personnaliser. Ce contexte applicatif induit une situation d'apprentissage croisé, où l'utilisateur doit mémoriser le jeu de symboles elle système doit apprendre à reconnaître les différents symboles. Cela implique un certain nombre de contraintes, à la fois sur le système de reconnaissance de symboles ct sur le système de supervision de son apprentissage. Il faut par exemple que le classifieur puisse apprendre à partir de peu de données, continuer à apprendre pendant son utilisation et suivre toute évolution des données indéfiniment. Le superviseur doit quant à lui optimiser la coopération entre l'utilisateur et le système de reconnaissance pour minimiser les interactions tout en maximisant l'apprentissage. Cette thèse présente d'une part, le système d'apprentissage évolutif Evolve oo, capable d'apprendre rapidement il partir de peu de données et de suivre les changements de concepts. D'autre part, elle introduit le superviseur actif en-ligne lntuiSup qui permet d'optimiser la coopération entre le système et l'utilisateur, lors de l'utilisation de commandes gestuelles personnalisées notamment Evolve oo est un système d'inférence floue, capable d'apprendre rapidement grâce aux capacités génératrices des prémisses des règles, tout en permettant d'obtenir une précision élevée grâce aux capacités discriminantes des conclusions d'ordre un. L'intégration d'oubli dans le processus d'apprentissage permet de maintenir le gain de l'apprentissage indéfiniment, permettant ainsi l'ajout de classes à n'importe quel moment de l'utilisation du système ct garantissant son évolutivité « à vie». Le superviseur actif en-ligne lntuiSup permet d'optimiser les interactions avec l'utilisateur pour entraîner un système d'apprentissage lorsque l'utilisateur est dans la boucle. Il permet de faire évoluer la proportion de données que l'utilisateur doit étiqueter en fonction de la difficulté du problème et de l'évolution de l'environnement (changements de concepts). L'utilisation d'une méthode de« dopage» de l'apprentissage permet d'optimiser la répartition de ces interactions avec l'utilisateur pour maximiser leur impact sur l'apprentissage. / Using gesture commands is a new way of interacting with touch sensitive interfaces. In order to facilitate user memorization of several commands, it is essential to let the user customize the gestures. This applicative context gives rise to a crosslearning situation, where the user has to memorize the set of commands and the system has to learn and recognize the different gestures. This situation implies several requirements, from the recognizer and from the system that supervizes its learning process. For instance, the recognizer has to be able to learn from few data samples, to keep learning during its use and to follow indefinitely any change of the data now. The supervisor has to optimize the cooperation between the recognizer and the system to minimize user interactions while maximizing recognizer learning. This thesis presents on the one hand the evolving recognition system Evolve oo, that is capable of fast teaming from few data samples, and that follows concept drifts. On the other hand, this thesis also presents the on line active supervisor lntuiSup, that optimizes user-system cooperation when the user is in the training loop, as during customized gesture command use for instance. The evolving classifier Evolve oo is a fuzzy inference system that is fast learning thanks to the generative capacity of rule premises, and at the same time giving high precision thanks to the discriminative capacity of first order rule conclusion. The use of forgetting in the learning process allows to maintain the learning gain indefinitely, enabling class adding at any stage of system learning, and guaranteeing lifelong evolving capacity. The on line active supervisor IntuiSup optimizes user interactions to train a classifier when the user is in the training loop. The proportion of data that is labeled by the user evolves to adapt to problem difficulty and to follow environment evolution (concept drift s). The use of a boosting method optimizes the timing of user interactions to maximize their impact on classifier learning process.
Étude de l'apparence physique de surfaces opaques, analyse photométrique et reconstruction 3D
Tauzia, Emmanuelle
30 June 2016
L'étude de l'apparence de surfaces par analyse photométrique est un domaine de recherche actif, avec de nombreuses applications par exemple pour étudier de la qualité de surfaces, la rugosité des objets, leur apparence, etc. Le sujet de cette thèse concerne plus particulièrement l'étude de surfaces opaques, par l'acquisition de la géométrie et de la réflectance. Cela nous a conduit à une analyse des modèles mathématique de réflectance, permettant de représenter les matériaux. Afin d'offrir une description physiquement plausible des matériaux opaques, notre première contribution principale concerne la mise en oeuvre d'un modèle à base de microfacettes Lambertiennes interfacées. Il généralise différents modèles de la littérature incluant des surfaces planes diffuses ou spéculaires et rugueuses diffuses ou spéculaires grâce à trois paramètres physiques : couleur, rugosité et indice de réfraction. Il permet de prendre en compte la transmission des flux lumineux pénétrant sous la surface ainsi que les réflexions multiples entre microfacettes et de restituer les effets de rétrodiffusion lumineuse et d’anisotropie. Notre seconde contribution principale concerne la réalisation d'un système complet d'acquisition de la géométrie et de la réflectance d'objets à partir d'images HDR. Notre méthodologie correspond à une chaîne de reconstruction complète et automatique, uniquement à partir d'images, permettant d'obtenir un niveau de précision intéressant et un faible coût de mise en place et de temps de traitement comparé aux méthodes existantes. Notre méthode permet d'extraire des échantillons de réflectance suffisamment nombreux pour identifier les paramètres de modèles de réflectance avec les données acquises. / The study of surface appearance by photometric analysis is an active area of research, with various applications concerning the analysis of surface roughness or appearance ... The subject of this PhD dissertation relates to the study of opaque surfaces, through the acquisition of their geometry. Our study leads us to an analysis of mathematical reflectance models, for representing materials appearance. To provide a physically plausible description of opaque surfaces, the first major contribution concerns the implementation of a model based on Lambertian interfaced microfacets. This model generalizes several approaches often referenced in the literature, and includes flat diffuse or specular surfaces as well as diffuse or specular microfacets with three physically-based parameters: color, roughness and refractive index. It makes it possible to take into account the transmission of the light flux entering below the surface as well as multiple reflections between microfacets, while handling backscattering and anisotropy. The second main contribution of this work concerns the impolementation of a complete acquisition system for estimating geometry and reflectance from HDR images. Our methodology is based on a complete and automatic reconstruction framework, achieving a higher level of precision, a lower cost of implementation and a shorter processing time compared to photometry-based existing methods.
Υλοποίηση σε FPGA του περιγραφέα HOG για ανίχνευση ανθρώπων σε εικόνες και βίντεο
Αντωνόπουλος, Γεώργιος
06 December 2013
Η παρούσα ειδική ερευνητική εργασία εκπονήθηκε στα πλαίσια του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών στην “Ηλεκτρονική και Επεξεργασία της Πληροφορίας”, στο Τμήμα Φυσικής του Πανεπιστημίου Πατρών. Αντικείμενο της παρούσας εργασίας είναι η “Υλοποίηση σε FPGA του περιγραφέα HOG για ανίχνευση ανθρώπων σε εικόνες και βίντεο”.
Το πρώτο κεφάλαιο αποτελεί μια εισαγωγή στις βασικότερες έννοιες που χρησιμοποιούνται στην παρούσα εργασία. Περιγράφεται επίσης η αναπτυξιακή πλακέτα που χρησιμοποιήθηκε καθώς και τα επί μέρους στοιχεία που τη συνθέτουν. Τέλος γίνεται μια συνοπτική αναφορά σε εργασίες με παρόμοιο αντικείμενο, οι οποίες με επηρέασαν στο σχεδιασμό και την υλοποίηση του συστήματός μου.
Στο δεύτερο κεφάλαιο αναλύεται ο περιγραφέας Ιστογραμμάτων Προσανατολισμού της Βάθμωσης ή όπως είναι ευρύτερα γνωστός Histograms of Oriented Gradient Descriptor. Παρουσιάζονται τα βήματα όπως περιγράφονται στην εργασία των Dalal&Triggs[4] και οι βέλτιστες τιμές των παραμέτρων του περιγραφέα.
Στο τρίτο κεφάλαιο ακολουθώντας τα βήματα του δευτέρου κεφαλαίου, παρουσιάζεται η διαδικασία υλοποίησης του περιγραφέα στο Matlab. Εκτός της υλοποίησης έγινε και μια προεργασία για τη μεταφορά του σε γλώσσα περιγραφής υλικού. Η προεργασία αυτή περιλαμβάνει απλοποιήσεις και τροποποιήσεις με σκοπό να μειωθεί το υπολογιστικό κόστος. Τέλος παρουσιάζονται τα αποτελέσματα δοκιμών της απόδοσης του περιγραφέα για τις διάφορες απλοποιήσεις.
Στο τέταρτο κεφάλαιο γίνεται μια μικρή αναφορά στους ταξινομητές. Περιγράφονται οι ταξινομητές που δοκιμάστηκαν στην παρούσα εργασία ως προς συγκεκριμένα χαρακτηριστικά τους καθώς και την υπολογιστική τους πολυπλοκότητα για την συγκεκριμένη εφαρμογή.
Το πέμπτο και τελευταίο κεφάλαιο περιλαμβάνει την περιγραφή της υλοποίησης σε VHDL. Αναλύονται τα επί μέρους κυκλώματα και όπου κρίθηκε αναγκαίο χρησιμοποιήθηκαν σχήματα ή πίνακες. Σε κάποιες περιπτώσεις δίνονται και οι κυματομορφές των κυκλωμάτων. / This thesis took place within the frame work of the Interdeparmental Master’s Program in “Electronics and Information Processing”, at the Department of Physics of University of Patras. The objective of this work is the implementation in FPGA of the HOG descriptor for the detection of people, images and videos.
The first chapter is an introduction about the basic concepts, which are used across the manuscript. (Additional descriptions concern the development board which was used as well as the individual parts that compose it.) In the end, there is a brief reference to past projects focusing on similar objectives, which influenced the design and the implementation of my system.
The second chapter concerns the presentation and discussion of the Histograms of Oriented Gradient descriptor. The steps of the procedure and the best parameter values of the descriptor are presented in a similar way as they are described in the paper of Dalal and Triggs.
In the third chapter, following the steps of the previous one, the focus shifts to the descriptor’s implementation procedure in Matlab. Besides the implementation, there is a preparation for the transference of the descriptor in a Hardware Description Language. This preparation includes simplifications and modifications aiming at the reduction of the computational cost. Finally, we see the tests’ results of the descriptor’s performance concerning the various simplifications.
The fourth chapter is a partial reference to the classifiers. The description is about the classifiers that were used in the present work with respect to their features and their computational complexity of this particular application.
The fifth and final chapter refers to the description of the implementation in VHDL. There is an analysis of the partial circuits and, when necessary, shapes and tables were used. In some cases, the waveforms of the circuits are being presented.
Ανάπτυξη μεθόδων ανάκτησης εικόνας βάσει περιεχομένου σε αναπαραστάσεις αντικειμένων ασαφών ορίων
Καρτσακάλης, Κωνσταντίνος
11 March 2014
Τα δεδομένα εικόνων που προκύπτουν από την χρήση βιο-ιατρικών μηχανημάτων είναι από την φύση τους ασαφή, χάρη σε μια σειρά από παράγοντες ανάμεσα στους οποίους οι περιορισμοί στον χώρο, τον χρόνο, οι παραμετρικές αναλύσεις καθώς και οι φυσικοί περιορισμοί που επιβάλλει το εκάστοτε μηχάνημα. Όταν το αντικείμενο ενδιαφέροντος σε μια τέτοια εικόνα έχει κάποιο μοτίβο φωτεινότητας ευκρινώς διαφορετικό από τα μοτίβα των υπόλοιπων αντικειμένων που εμφανίζονται, είναι εφικτή η κατάτμηση της εικόνας με έναν απόλυτο, δυαδικό τρόπο που να εκφράζει επαρκώς τα όρια των αντικειμένων. Συχνά ωστόσο σε τέτοιες εικόνες υπεισέρχονται παράγοντες όπως η ανομοιογένεια των υλικών που απεικονίζονται, θόλωμα, θόρυβος ή και μεταβολές στο υπόβαθρο που εισάγονται από την συσκευή απεικόνισης με αποτέλεσμα οι εντάσεις φωτεινότητας σε μια τέτοια εικόνα να εμφανίζονται με έναν ασαφή, βαθμωτό, «μη-δυαδικό» τρόπο.
Μια πρωτοπόρα τάση στην σχετική βιβλιογραφία είναι η αξιοποίηση της ασαφούς σύνθεσης των αντικειμένων μιας τέτοιας εικόνας, με τρόπο ώστε η ασάφεια να αποτελεί γνώρισμα του εκάστοτε αντικειμένου αντί για ανεπιθύμητο χαρακτηριστικό: αντλώντας από την θεωρία ασαφών συνόλων, τέτοιες προσεγγίσεις κατατμούν μια εικόνα με βαθμωτό, μη-δυαδικό τρόπο αποφεύγοντας τον μονοσήμαντο καθορισμό ορίων μεταξύ των αντικειμένων. Μια τέτοια προσέγγιση καταφέρνει να αποτυπώσει με μαθηματικούς όρους την ασάφεια της θολής εικόνας, μετατρέποντάς την σε χρήσιμο εργαλείο ανάλυσης στα χέρια ενός ειδικού. Από την άλλη, το μέγεθος της ασάφειας που παρατηρείται σε τέτοιες εικόνες είναι τέτοιο ώστε πολλές φορές να ωθεί τους ειδικούς σε διαφορετικές ή και αντικρουόμενες κατατμήσεις, ακόμη και από το ίδιο ανθρώπινο χέρι. Επιπλέον, το παραπάνω έχει ως αποτέλεσμα την οικοδόμηση βάσεων δεδομένων στις οποίες για μια εικόνα αποθηκεύονται πολλαπλές κατατμήσεις, δυαδικές και μη.
Μπορούμε με βάση μια κατάτμηση εικόνας να ανακτήσουμε άλλες, παρόμοιες τέτοιες εικόνες των οποίων τα δεδομένα έχουν προέλθει από αναλύσεις ειδικών, χωρίς σε κάποιο βήμα να υποβαθμίζουμε την ασαφή φύση των αντικειμένων που απεικονίζονται; Πως επιχειρείται η ανάκτηση σε μια βάση δεδομένων στην οποία έχουν αποθηκευτεί οι παραπάνω πολλαπλές κατατμήσεις για κάθε εικόνα; Αποτελεί κριτήριο ομοιότητας μεταξύ εικόνων το πόσο συχνά θα επέλεγε ένας ειδικός να οριοθετήσει ένα εικονοστοιχείο μιας τέτοιας εικόνας εντός ή εκτός ενός τέτοιου θολού αντικειμένου;
Στα πλαίσια της παρούσας εργασίας προσπαθούμε να απαντήσουμε στα παραπάνω ερωτήματα, μελετώντας διεξοδικά την διαδικασία ανάκτησης τέτοιων εικόνων. Προσεγγίζουμε το πρόβλημα θεωρώντας ότι για κάθε εικόνα αποθηκεύονται στην βάση μας περισσότερες της μίας κατατμήσεις, τόσο δυαδικής φύσης από ειδικούς όσο και από ασαφείς από αυτόματους αλγορίθμους. Επιδιώκουμε εκμεταλλευόμενοι το χαρακτηριστικό της ασάφειας να ενοποιήσουμε την διαδικασία της ανάκτησης και για τις δυο παραπάνω περιπτώσεις, προσεγγίζοντας την συχνότητα με την οποία ένας ειδικός θα οριοθετούσε το εκάστοτε ασαφές αντικείμενο με συγκεκριμένο τρόπο καθώς και τα ενδογενή χαρακτηριστικά ενός ασαφούς αντικειμένου που έχει εξαχθεί από αυτόματο αλγόριθμο. Προτείνουμε κατάλληλο μηχανισμό ανάκτησης ο οποίος αναλαμβάνει την μετάβαση από τον χώρο της αναποφασιστικότητας και του ασαφούς στον χώρο της πιθανοτικής αναπαράστασης, διατηρώντας παράλληλα όλους τους περιορισμούς που έχουν επιβληθεί στα δεδομένα από την πρωταρχική ανάλυσή τους. Στην συνέχεια αξιολογούμε την διαδικασία της ανάκτησης, εφαρμόζοντας την νέα μέθοδο σε ήδη υπάρχον σύνολο δεδομένων από το οποίο και εξάγουμε συμπεράσματα για τα αποτελέσματά της. / Image data acquired through the use of bio-medical scanners are by nature fuzzy, thanks to a series of factors including limitations in spatial, temporal and parametric resolutions other than the physical limitations of the device. When the object of interest in such an image displays intensity patterns that are distinct from the patterns of other objects appearing together, a segmentation of the image in a hard, binary manner that clearly defines the borders between objects is feasible. It is frequent though that in such images factors like the lack of homogeneity between materials depicted, blurring, noise or deviations in the background pose difficulties in the above process. Intensity values in such an image appear in a fuzzy, gradient, “non-binary” manner.
An innovative trend in the field of study is to make use of the fuzzy composition of objects in such an image, in a way in which fuzziness becomes a characteristic feature of the object instead of an undesirable trait: deriving from the theory of fuzzy sets, such approaches segment an image in a gradient, non-binary manner, therefore avoiding to set up a clear boundary between depicted objects. Such approaches are successful in capturing the fuzziness of the blurry image in mathematical terms, transforming the quality into a powerful tool of analysis in the hands of an expert. On the other hand, the scale of fuzziness observed in such images often leads experts towards different or contradictory segmentations, even drawn by the same human hand. What is more, the aforementioned case results in the compilation of image data bases consisting of multiple segmentations for each image, both binary and fuzzy.
Are we able, by segmenting an image, to retrieve other similar such images whose segmented data have been acquired by experts, without downgrading the importance of the fuzziness of the objects depicted in any step involved? How exactly are images in such a database storing multiple segmentations of each retrieved? Is the frequency with which an expert would choose to either include or exclude from a fuzzy object a pixel of an image, a criterion of semblance between objects depicted in images? Finally, how able are we to tackle the feature of fuzziness in a probabilistic manner, thus providing a valuable tool in bridging the gap between automatic segmentation algorithms and segmentations coming from field experts?
In the context of this thesis, we tackle the aforementioned problems studying thoroughly the process of image retrieval in a fuzzy context. We consider the case in which a database consists of images for which exist more than one segmentations, both crisp, derived by experts’ analysis, and fuzzy, generated by segmentation algorithms. We attempt to unify the retrieval process for both cases by taking advantage of the feature of fuzziness, and by approximating the frequency with which an expert would confine the boundaries of the fuzzy object in a uniform manner, along with the intrinsic features of a fuzzy, algorithm-generated object. We propose a suitable retrieval mechanism that undertakes the transition from the field of indecisiveness to that of a probabilistic representation, at the same time preserving all the limitations imposed on the data by their initial analysis. Next, we evaluate the retrieval process, by implementing the new method on an already existing data-set and draw conclusions on the effectiveness of the proposed scheme.
Weightless neural networks for face recognition
Khaki, Kazimali M.
January 2013
The interface with the real-world has proved to be extremely challenging throughout the past 70 years in which computer technology has been developing. The problem initially is assumed to be somewhat trivial, as humans are exceptionally skilled at interpreting real-world data, for example pictures and sounds. Traditional analytical methods have so far not provided the complete answer to what will be termed pattern recognition. Biological inspiration has motivated pattern recognition researchers since the early days of the subject, and the idea of a neural network which has self-evolving properties has always been seen to be a potential solution to this endeavour. Unlike the development of computer technology in which successive generations of improved devices have been developed, the neural network approach has been less successful, with major setbacks occurring in its development. However, the fact that natural processing in animals and humans is a voltage-based process, devoid of software, and self-evolving, provides an on-going motivation for pattern recognition in artificial neural networks. This thesis addresses the application of weightless neural networks using a ranking pre-processor to implement general pattern recognition with specific reference to face processing. The evaluation of the system will be carried out on open source databases in order to obtain a direct comparison of the efficacy of the method, in particular considerable use will be made of the MIT-CBCL face database. The methodology is cost effective in both software and hardware forms, offers real-time video processing, and can be implemented on all computer platforms. The results of this research show significant improvements over published results, and provide a viable commercial methodology for general pattern recognition.
Page generated in 0.0292 seconds