Intelligent optical methods in image analysis for human detectionGraumann, Jean-Marc January 2005
This thesis introduces the concept of a person recognition system for use on an integrated autonomous surveillance camera. Developed to enable generic surveillance tasks without the need for complex setup procedures nor operator assistance, this is achieved through the novel use of a simple dynamic noise reduction and object detection algorithm requiring no previous knowledge of the installation environment and without any need to train the system to its installation. The combination of this initial processing stage with a novel hybrid neural network structure composed of a SOM mapper and an MLP classifier using a combination of common and individual input data lines has enabled the development of a reliable detection process, capable of dealing with both noisy environments and partial occlusion of valid targets. With a final correct classification rate of 94% on a single image analysis, this provides a huge step forwards as compared to the reported 97% failure rate of standard camera surveillance systems.
Μελέτη, σχεδιασμός και υλοποίηση αλγορίθμων εντοπισμού θέσης και αναγνώρισης χαρακτήρων σε τυπωμένες εικόνεςΠαπαθανασίου, Ανδρέας 20 October 2010
Για τη παρούσα εργασία πραγματοποιήσαμε μια αναλυτική περιγραφή της δομής ενός συστήματος οπτικής αναγνώρισης χαρακτήρα και των μεθόδων που έχουν χρησιμοποιηθεί από τους διάφορους ερευνητές. Σταθήκαμε περισσότερο στην θεωρία των Κυματιδίων (Wavelets) και των Τεχνητών Νευρωνικών Δικτύων. Στη συνέχεια υλοποιήσαμε ένα σύστημα Οπτικής Αναγνώρισης Χαρακτήρα σε περιβάλλον Matlab χρησιμοποιώντας wavelets για την εξαγωγή παραμέτρων και Radial Basis Function (RBF) νευρωνικό δίκτυο. Στο πείραμα που πραγματοποιησήσαμε μετρήσαμε την αποδοτικότητα του συστήματος μας για εξαγωγή παραμέτρων με δύο διαφορετικά wavelets (sym4 και Meyer) και αποδείξαμε πως το δεύτερο έχει πολύ καλύτερη επίδοση. / Dirscription of an optical character recognition system and the methods that are used. Creation of an ocr system using wavelets for feature extraction and neural networks for the recognition.
Αύξηση της χωρικής ανάλυσης για βελτίωση της ποιότητας των εικόνων (super resolution imaging)Μπακούλιας, Κωνσταντίνος 20 April 2011
Η επεξεργασία εικόνας πλέον είναι απαραίτητη σε ένα μεγάλο πεδίο εφαρμογών που χρησιμοποιούν εκατομμύρια χρήστες σε όλο τον κόσμο. Σίγουρα οι αισθητήρες σύλληψης της εικόνας έχουν βελτιωθεί κατά πολύ με την ραγδαία εξέλιξη που έχει ο χώρος των ηλεκτρονικών. Η ελαττωμένη χωρική ανάλυση των εικόνων οφείλεται στους περιορισμούς που εμφανίζουν οι αισθητήρες. Η αύξηση της χωρικής ανάλυσης είναι και το αντικείμενο της παρούσας εργασίας.
Στην εργασία αυτή μελετήσαμε διάφορες τεχνικές με τις οποίες προσπαθούμε να αυξήσουμε την χωρική ανάλυση για να βελτιώσουμε την ποιότητα της εικόνας [1]. Η υλοποίηση της έγινε με την βοήθεια των εκτιμητών πυκνότητας πιθανότητας (Kernels). Ως συγκριτική μέθοδος χρησιμοποιήσαμε την συνάρτηση παρεμβολής του matlab (interp2) [8]. Επίσης, το μέσω τετραγωνικό σφάλμα ( Mean Square Error ) και ο μέγιστος λόγος σήματος προς θόρυβο ( Peak Signal to Noise Ratio ) είναι δύο από τους βασικούς τρόπους σύγκρισης της τεχνική μας με την μέθοδο παρεμβολής του matlab.
Θα πρέπει να αναφέρουμε ότι τα αποτελέσματά μας αν και χρησιμοποιήσαμε στατιστικά πρώτης τάξης είναι ικανοποιητικά παραπλήσια της μεθόδου παρεμβολής του matlab. Ως σημείο αναφοράς της σύγκριση της τεχνική μας με την μέθοδο παρεμβολής του matlab είναι η αρχική εικόνα.
Τέλος, στην προσπάθεια μας να βελτιώσουμε την τεχνική μας, δοκιμάσαμε και άλλες τεχνικές, οι οποίες θα περιγραφούν με λεπτομέρεια στην εργασία αυτή, τα αποτελέσματα των οποίων δεν ήταν τα επιθυμητά. / The image processing is now needed in a wide range of applications used by millions of users around the world. Certainly the design of image sensors have improved greatly with the rapid development that has an area of electronics. The reduced spatial resolution of images due to the limitations inherent in the sensors. Increased spatial resolution is the subject of this work.
This thesis reviews various techniques that try to increase the spatial resolution to improve the image quality [1]. Driving done with the help of probability density estimators (Kernels). As a comparative method used the interpolation function of matlab (interp2) [8]. Also, the means square error (Mean Square Error) and the maximum signal to noise ratio (Peak Signal to Noise Ratio) are two basic ways of comparing our technique with the method of interpolation matlab.
It should be mentioned that although our results using statistical first order is approaching a satisfactory method of interpolation matlab. As a benchmark comparison of our technique with the method of interpolation matlab is the original image.
Finally, in our efforts to improve our technique, testing and other techniques, which will be described in detail in this work, the results of which were not desired.
Ψηφιακή επεξεργασία και ανάλυση φωτογραφιών ουράνιου θόλου για μελέτη της ατμόσφαιραςΤζουμανίκας, Παναγιώτης 25 January 2012
Σκοπός της παρούσας Διπλωματικής Εργασίας είναι η ανάπτυξη και εφαρμογή τεχνικών ψηφιακής επεξεργασίας εικόνων με σκοπό την εξαγωγή ασφαλών λογικών συμπερασμάτων σχετικά με τον ουράνιο θόλο και την ατμόσφαιρα, έχοντας σαν αντικείμενο μελέτης φωτογραφίες, συγκεκριμένου μεγέθους και ανάλυσης, που αναπαριστούν τον ουράνιο θόλο σε μια περιοχή και οι οποίες αναπαράγονται ανά τακτικά χρονικά διαστήματα και χρησιμοποιούνται σε βιομηχανικές εφαρμογές. / The scope of this thesis was the development of various methodologies which would include digital image processing algorithms and techniques in order to provide various information about sky and atmosphere measurements, using as input specific images produced by an automated mechanism in pre-provisioned size and analysis. Those images were taken from a specific area periodically.
Αναγνώριση κακοήθων νεοπλασιών σε εικόνες κυτταρικής βιοψίαςΣτριφτάρας, Χρήστος 11 August 2011
Σκοπός της παρούσας διπλωματικής εργασίας είναι η υλοποίηση ενός αποτελεσματικού αλγορίθμου ικανού να επεξεργάζεται οποιεσδήποτε βιοψίες κυττάρων που εμπεριέχουν κακοήθεις νεοπλασίες και να τις αναγνωρίζει. Η επεξεργασία γίνεται κυρίως χρησιμοποιώντας τις χρωματικές ιδιότητες των υπό εξέταση εικόνων. Το αρχικό δείγμα διέρχεται από αρκετά στάδια επεξεργασίας κατά τα οποία αλλάζει τόσο η μορφή του όσο και η χρωματική του δομή. Αρχικός σκοπός είναι η μετατροπή της αρχικής εικόνας σε μορφή που θα επιτρέπει με σαφήνεια την επεξεργασία της. Ο αλγόριθμος που υλοποιήθηκε είναι φιλικός προς τον χρήστη και δίνει την δυνατότητα σε κάθε βήμα να επιλέγει οποιαδήποτε τιμή της παραμέτρου εάν δεν επιθυμεί να ακολουθήσει τις προεπιλεγμένες τιμές. / Aim of present diplomatic work is the implementation of a robust algorithm capable to process any pigmentation biopsies of cells that include malignant neoplasm and finally to recognize them. The process mainly takes place by using the chromatic attributes of the pictures. The initial sample goes through from enough stages at which stage we change both the form and the chromatic structure. Initial aim is the transformation of the initial picture in a form that will allow with clarity the process. The algorithm that was implemented is friendly to the user and it gives the possibility in each step of selecting any price of parameter or if it does not wish it to follow the preselected prices.
Αναγνώριση παθολογικών αιμοσφαιρίων με επεξεργασία ψηφιακής εικόνας σκέδασης στο υπέρυθρο και ορατό φάσμαΤσιμόγιαννη, Χριστίνα 01 October 2012
Σκοπός της διπλωματικής εργασίας είναι η εκτίμηση και η αναγνώριση των γεωμετρικών χαρακτηριστικών των ερυθρών αιμοσφαιρίων με ψηφιακή επεξεργασία της σκεδασμένης ακτινοβολίας. Αποτελείται από 8 κεφάλαια και ένα παράρτημα Α. Σε αυτά περιλαμβάνεται η μελέτη και η εφαρμογή μεθόδων επίλυσης του προβλήματος αναγνώρισης γεωμετρικών χαρακτηριστικών των ανθρώπινων ερυθρών αιμοσφαιρίων από ψηφιοποιημένες εικόνες Ηλεκτρομαγνητικής Ακτινοβολίας ενός He-Ne Laser 632. 8 nm. Oι αλγόριθμοι εκπαίδευσης των νευρωνικών δικτύων ακτινικής συνιστώσας που εφαρμόσθηκαν υλοποιήθηκαν με τη βοήθεια του MATLAB R2009a. Οι κώδικες προγραμματίστηκαν από τον Κύριο Aποστολόπουλο Γεώργιο και τα αποτελέσματα τους αξιολογήθηκαν σε συνεργασία με τον καθηγητή κ. Δερματά. Επίσης, αρκετά στοιχεία και έννοιες πάρθηκαν για καθαρά μόνο εκπαιδευτικό σκοπό από την Διδακτορική Διατριβή Του κ. Αποστολόπουλου Γεωργίου και τον ευχαριστώ πάρα πολύ για την πολύτιμη βοήθεια του. Στο πρώτο κεφάλαιο γίνεται μια εισαγωγή στις ιδιότητες και τα χαρακτηριστικά του ανθρώπινου ερυθρού αιμοσφαιρίου δίνοντας έμφαση στα γεωμετρικά χαρακτηριστικά των υγιών απαραμόρφωτων ερυθροκυττάρων. Τέλος, γίνεται μία αναφορά στις ανωμαλίες των ερυθροκυττάρων και στους μέχρι τώρα υπάρχοντες τρόπους ανίχνευσης τους. Στο δεύτερο κεφάλαιο γίνεται μια αναφορά και μια επεξήγηση κάποιων θεωρητικών εννοιών όσον αφορά την θεωρία του Ηλεκτρομαγνητισμού, ξεκινώντας από την αρχή της ιστορίας του Ηλεκτρισμού, με αναφορά στο ηλεκτρικό φορτίο, την αρχή όλων. Γίνεται μια αναλυτική παρουσίαση των εξισώσεων Maxwell και τέλος γίνεται η επεξήγηση της ηλεκτρομαγνητικής Ακτινοβολίας και του Ηλεκτρομαγνητικού Φάσματος καθώς επίσης και της απορρόφησης του φωτός από τα ερυθρά αιμοσφαίρια. Στο τρίτο κεφάλαιο παρουσιάζεται διεξοδικά το φαινόμενο της σκέδασης και της ανάκλασης, αφού η σκέδαση είναι προϊόν πολλαπλής ανάκλασης, γίνεται η συσχέτιση της απορρόφησης της σκέδασης της Ηλεκτρομαγνητικής ακτινοβολίας από τα ερυθρά αιμοσφαίρια. Γίνεται η επεξήγηση του «ευθέως προβλήματος της σκέδασης» και τέλος γίνεται μια απλή αναφορά στις εφαρμογές της σκέδασης στους διάφορους τομείς της επιστήμης και της ανθρώπινης ζωής. Στο τέταρτο κεφάλαιο αναλύεται διεξοδικά το «αντίστροφο πρόβλημα της σκέδασης ηλεκτρομαγνητικής ακτινοβολίας» δηλαδή, το γεγονός του να γνωρίζουμε το σκεδαζόμενο πεδίο και το προσπίπτον κύμα και το να προσπαθούμε να βρούμε το σχήμα και το μέγεθος του σκεδαστή. Στη συγκεκριμένη έρευνα προσπαθούμε με τη βοήθεια μιας πειραματικής συσκευής να αναγνωρίσουμε τα ανθρώπινα αιμοσφαίρια και να εκτιμήσουμε με την βοήθεια των νευρωνικών δικτύων ακτινικής συνιστώσας τα γεωμετρικά χαρακτηριστικά των ερυθροκυττάρων μέσω των ψηφιοποιημένων εικόνων σκέδασης. Στο πέμπτο κεφάλαιο περιγράφονται αναλυτικά και γίνεται μια εκτενής αναφορά στα Τεχνητά Νευρωνικά Δίκτυα, ξεκινώντας από την αρχή της ιστορίας τους. Γίνεται μια εισαγωγή σε θεωρητικές έννοιες, οι οποίες θα μας βοηθήσουν στην διάρκεια της ερευνάς μας, να μπορέσουμε να κατανοήσουμε επαρκέστερα είτε τη λειτουργία των Τεχνητών Νευρωνικών Δικτύων (Artificial Intelligence) και Των Νευρωνικών Δικτύων Ακτινικής Συνιστώσας (RBF-NN) είτε την μεθοδολογία και την επιστημονική αξία της εκπαίδευσης των προηγουμένων. Στο έκτο κεφάλαιο γίνεται μια αναφορά στις έννοιες, της ψηφιακής επεξεργασίας εικόνας, της Συμπίεσης των εικόνων,της κανονικοποίησης των εικόνων, της Διαδικασίας ανάκτησης πληροφορίας, στις μεθόδους εξαγωγής χαρακτηριστικών από ψηφιοποιημένες εικόνες, όπου στην συγκεκριμένη εργασία χρησιμοποιήθηκαν ο Διακριτός μετασχηματισμός συνημιτόνου (DCT), Ο Διακριτός μετασχηματισμός Κυματιδίου (DWT), Ο Γωνιακός Ακτινικός Μετασχηματισμός (ART), Τα φίλτρα Gabor και τέλος οι Ροπές Zernike. Στο έβδομο κεφάλαιο εισχωρούμε πλέον στην βαθύτερη και ουσιαστικότερη πλευρά της ερευνάς μας. Είμαστε πλέον έτοιμοι,από πλευράς θεωρητικών εννοιών. Κάνουμε εκτενή αναφορά στο «Αντίστροφο πρόβλημα της σκέδασης» στην συγκεκριμένη περίπτωση, δηλαδή στην Διαδικασία Ανάκτησης (με την χρήση δισδιάστατων Μετασχηματισμών, οι οποίοι περιγράφονται αναλυτικότατα), αναγνώρισης και Ταξινόμησης (με την μέθοδο των Νευρωνικών δικτύων ακτινικής Συνιστώσας) της Πληροφορίας μας (την αναγνώριση των ερυθρών αιμοσφαιρίων και την εκτίμηση των γεωμετρικών χαρακτηριστικών τους). Στο Όγδοο κεφάλαιο εμφανίζονται τα αποτελέσματα της πειραματικής διαδικασίας μέσω διαγραμμάτων και σχολίων - συμπερασμάτων. Παρατίθενται οι γραφικές παραστάσεις του Μέσου Απόλυτου Σφάλματος (Mean Regression Error) και του ποσοστού επιτυχίας Αναγνώρισης (Mean Identification Error). Στο Παράρτημα Α παρουσιάζονται τα πειραματικά αποτελέσματα σε μορφή πινάκων Excel, δηλαδή παρατίθενται οι πίνακες του μέσου Απόλυτου Σφάλματος (Regression Error)συναρτήσει του αριθμού των Νευρώνων(Number of Neurons) και το Μέσο Ποσοστό Επιτυχίας Αναγνώρισης (Mean Identification Error) συναρτήσει του αριθμού των Νευρώνων αλλά και συναρτήσει του Λευκό Gaussian θορύβου SNR(dB). / The aim of this particular scientific project is the estimation and the recognition of the geometrical characteristics of healthy, undistorted Red blood Human Cells using scattering images of visible light.
This means that we use scattering images throughout scattering phenomena in the visible spectrum of electromagnetic radiation.
This project includes and focuses on the study and the use of several important methods such as, Image Feature Extraction, Image Feature Normalization, Estimation and Identification of the geometrical Features of RBCs, throughout Neural Networks.
We make an important and a sufficient reference on the theories, that we are going to use on this survey such as the theory of Electromagnetic Radiation, the theory of Artificial Intelligence, the theory of Scattering Images, the theory of Compressing Images throughout Transforms and at last but not least the theory of the Forward scattering Problem.
On This project we use, 5 well-known Transforms for the Image Feature Extraction, such as, Discrete Cosine Transform (DCT), Discrete wavelet Transform (DWT), Angular Radial Transform (ART), Zernike Transform and Gabor’s Filters.
The each proposed method is evaluated in both, Regression and Identification Tasks when Three Important geometrical properties of The Human RBC are estimated using Database of 1575 simulated images generated with the boundary element Method.
The experimental set up consists of a light beam at 632.8 nm and moving RBCs in a thin glass and additive noise distortion is simulated using White Gaussian Noise from 10 to 60 dB SNR.
We give our whole attention on the diagrams which show us, The Mean Regression Error of the three geometrical properties versus The Number of Neurons, and the Mean Identification Error versus the Noise Distortion.
Τηλεπισκόπηση. Τρόποι διόρθωσης γεωμετρικών παραμορφώσεωνΔασκαλοπούλου, Αικατερίνη 28 February 2013
Η ψηφιακή απεικόνιση είναι ένας ραγδαία αναπτυσσόμενος κλάδος στην εξέλιξη της τεχνολογίας των υπολογιστών και έχει γίνει ένα συμβατικό εργαλείο στην χαρτογράφηση της τηλεπισκόπησης. Η ανάγκη για καλύτερη ποιότητα απεικόνισης ενισχύει τον ψηφιακό τομέα να παράγει μεθόδους για την αποκατάσταση της γεωμετρικής παραμόρφωσης. Παρά το προχωρημένο επίπεδο της σημερινής τεχνολογίας, είναι γνωστό ότι οι συσκευές εισόδου και εξόδου, σαρωτές οι οποίοι είναι περιφερειακές συσκευές που αποτυπώνουν την εικόνα μιας περιοχής και χρησιμοποιούνται ως επί το πλείστον ως συσκευές εισόδου, προκαλούν παραμορφώσεις στη εικόνα. Στην παρούσα εργασία, γίνεται μια προσπάθεια να αντιμετωπισθούν λάθη στη γεωμετρία με χρήση του προγράμματος Matlab και της μεθόδου της αντιστοίχησης εικόνας. Η αντιστοίχηση εικόνας αποσκοπεί στην εύρεση αντίστοιχων σημείων σε δύο ή περισσότερες εικόνες, τα οποία αποτελούν προβολές του ίδιου σημείου της σκηνής. Η διαδικασία δειγματοληψίας των ψηφιακών εικόνων, το μοντέλο προβολής της σκηνής μέσω αισθητήρα όρασης στο επίπεδο των εικόνων και η κίνηση του αισθητήρα ή και της σκηνής, αποτελούν τους κύριους παράγοντες που καθιστούν το πρόβλημα της αντιστοίχησης αρκετά δύσκολο.
Την πλειοψηφία των αλγορίθμων αντιστοίχησης εικόνας συνθέτουν οι παραμετρικές τεχνικές, σύμφωνα με τις οποίες υιοθετείται ένα παραμετρικό μοντέλο, το οποίο εφαρμοζόμενο στη μία εικόνα δύναται να παρέχει μια προσέγγιση της άλλης. Η προσέγγιση αυτή αξιολογείται μέσω ενός δείκτη συνολικού σφάλματος, ενώ η βέλτιστη δυνατή προσέγγιση επιτυγχάνεται με την εκτίμηση των τιμών των παραμέτρων του μοντέλου που βελτιστοποιούν τον δείκτη αυτό. Το βασικό σημείο του προτεινόμενου μοντέλου είναι η εφαρμογή πολυωνυμικών σχέσεων και η σωστή επιλογή του πολυωνυμικού γεωμετρικού μετασχηματισμού, λαμβάνοντας υπόψη τα χαρακτηριστικά της εκάστοτε παραμόρφωσης, για την αντιμετώπιση του προβλήματος.
Λειτουργίες μετασχηματισμών χρησιμοποιούνται για να περιγράψουν τις γεωμετρικές διαφορές μεταξύ δύο εικόνων που έχουν το ίδιο περιεχόμενο. Λαμβάνοντας υπόψη τις συντεταγμένες ενός σημείου σε μια εικόνα ένας μετασχηματισμός θα καθορίσει τις συντεταγμένες του ίδιου σημείου στην άλλη εικόνα. Θα καλούμε μία από τις εικόνες δευτερεύουσα και την άλλη κύρια. Η κύρια εικόνα παραμένει αμετάβλητη ενώ η δευτερεύουσα παραμορφώνεται ώστε να έχει την γεωμετρία της κύριας εικόνας. Οι λειτουργίες των μετασχηματισμών για την αντιστοίχηση εικόνας καθορίζεται βάσει ενός αριθμού αντίστοιχων συντεταγμένων στις δύο εικόνες και επιλέγεται χειροκίνητα. Στην αντιστοίχηση εικόνας δίνονται και η κύρια και η δευτερεύουσα εικόνα με την δευτερεύουσα να παραμορφώνεται ώστε να αντιστοιχηθεί με την κύρια. / Digital imaging is a rapidly growing sector in the development of computer technology and has become a conventional tool in remote sensing mapping. The need for better image quality enhances the digital sector to produce methods for restoring the geometric distortion. Despite the advanced level of today’s technology, it is known that input and output devices, scanners that are peripheral devices that capture the image of a region, and are used mostly as an input device, cause distortions in the image. In this paper, by using the Matlab program and the method of image registration we try to deal with errors in geometry. Image registration aims to find corresponding points in two or more images which are projections of the same point of a scene. The resampling process of digital images, the projection model of the scene through vision sensor at the level of images and the motion of the sensor or scene’s , are the main factors of image mapping.
The majority of algorithms of image registration compose the parametric techniques that adopt a parametric model which is applied to an image and can provide an approximation of another image. This approach is evaluated through a total error rate, while the optimal approximation is achieved by the evaluation of the values of the model parameters that optimize this indicator. The key point of the proposed model is the application of polynomial equations and the proper selection of polynomial geometric transformation.
Transformation functions are used to describe geometric differences between two images that have the same or overlapping contents. Given the coordinates of a point in one image, a transformation function will determine the coordinates of the same point in the other image. We will call one of the images the slave and the other image the master. Master image is kept unchanged. Slave image needs to be deformed to have the geometry of the master image. The transformation functions for image registration are determined using the coordinates of a number of corresponding points in the images, selected manually. In image registration, both master and slave images are given, and the slave image is deformed to overlay the master image.
Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle / Exploitation of multimodality for saliency analysis and audiovisual quality assessmentSidaty, Naty 11 December 2015
Les données audiovisuelles font partie de notre quotidien que ce soit pour des besoins professionnels ou tout simplement pour le loisir. Les quantités pléthoriques de ces données imposent un recours à la compression pour le stockage ou la diffusion, ce qui peut altérer la qualité audio-visuelle si les aspects perceptuels ne sont pas pris en compte. L’état de l’art sur la saillance et la qualité est très riche, ignorant souvent l’existence de la composante audio qui a un rôle important dans le parcours visuel et la qualité de l’expérience. Cette thèse a pour objectif de contribuer à combler le manque d’approches multimodales et ce, en suivant une démarche expérimentale dédiée. Les travaux associés se déclinent en deux parties : l’attention audiovisuelle et la qualité multimodale. Tout d'abord, afin de comprendre et d’analyser l’influence de l’audio sur les mouvements oculaires humains, nous avons mené une expérimentation oculométriques impliquant un panel d’observateurs, et exploitant une base de vidéos construite pour ce contexte. L'importance des visages a ainsi été confortée mais en particulier pour les visages parlants qui ont une saillance accrue. Sur la base de ces résultats, nous avons proposé un modèle de saillance audiovisuelle basé sur la détection des locuteurs dans la vidéo et exploitant les informations de bas niveau spatiales et temporelles. Par la suite, nous avons étudié l’influence de l’audio sur la qualité multimodale et multi-supports. A cette fin, des campagnes d’évaluations psychovisuelles ont été menées dans l’optique de quantifier la qualité multimodale pour des applications de streaming vidéo où différents dispositifs de visualisation sont utilisés. / Audiovisual information are part of our daily life either for professional needs or simply for leisure purposes. The plethoric quantity of data requires the use of compression for both storage and transmission, which may alter the audiovisual quality if it does not account for perceptual aspects. The literature on saliency and quality is very rich, often ignoring the audio component playing an important role in the visual scanpath and the quality of experience. This thesis aims at contributing in overing the lack of multimodal approaches, by following a dedicated experimental procedures. The proposed work is twofold: visual attention modelling and multimodal quality evaluation. First, in order to better understand and analyze the influence of audio on humain ocular movements, we run several eyetracking experiments involving a panel of observers and exploiting a video dataset constructed for our context. The importance of faces has been confirmed, particularly for talking faces having an increased saliency. Following these results, we proposed an audiovisual saliency model based on locutors detection in video and relying on spatial and temporal low-level features. Afterward, the influence of audio on multi-modal and multi-devices quality has been studied. To this end, psychovisual experiments have been conducted with the aim to quantify the multimodal quality in the context of video streaming applications where various display devices could be used.
Non-rigid correspondences between surfaces embedded in 3D / Correspondances non-rigides entre surfaces plongées en 3DNogneng, Dorian 21 December 2018
La manipulation et le traitement d'énormes quantités de données en 3D est devenu un défi ayant d'innombrables applications, telles que la conception assistée par ordinateur, le calcul biomédical, les jeux interactifs, la perception des machines, la robotique, etc. Le traitement géométrique est un sujet de recherche à l'interface entre l'algorithmique, les mathématiques appliquées et l'informatique en lien avec les applications sus-mentionnées, qui existe depuis une cinquantaine d'années. C'est un domaine de recherche vaste qui inclut des sous-domaines. Le problème de correspondances de forme consiste à, étant donnée une paire de formes, trouver une "bonne" correspondance entre elles. Par exemple on peut vouloir que la correspondance préserve les distances géodésiques, ou des caractéristiques locales.Ce problème a attiré un intérêt croissant, en partie dû à ses nombreuses applications, par exemple en animation, interpolation de formes ou modélisation statistique de formes.Le cadre des correspondances fonctionnelles est un outil récent qui a dévoilé de nombreuses propriété utiles pour les correspondances de formes. Cette approche donne une représentation régulière et compacte du problème de correspondances entre formes, et la plupart des contraintes sur les correspondances fonctionnelles peuvent s'exprimer sous forme de contraintes linéaires ce qui permet une formulation du problème par moindres carrés. Dans cette thèse on se concentre sur le problème de correspondance de forme, spécifiquement en utilisant des correspondances fonctionnelles. Au Chapitre 1 on introduit les notions et notations de base qui seront utilisées le long de la thèse, liées aux surfaces continues ou discrètes, l'opérateur de Laplace-Beltrami, le problème de correspondance de forme non rigide, et le processus standard du calcul d'une correspondance fonctionnelle.Au Chapitre 2 on remarque que les correspondances fonctionnelles induites par des correspondances point à point doivent satisfaire des contraintes de préservation de produits point par point. On applique cette observation à des descripteurs de formes pour améliorer la formulation classique des contraintes sur les correspondances fonctionnelles. Cela mène à une approche qui permet d'extraire plus d'information des contraintes existantes et donne de meilleures correspondances, surtout lorsqu'il y a peu de descripteurs indépendants.Au Chapitre 3 on s'appuie sur la remarque précédente, mais cette fois dans le cas où on a déjà obtenu une correspondance fonctionnelle par une méthode existante. On remarque que la préservation du produit point par point peut aussi être utilisé pour étendre le domaine sur lequel la correspondance fonctionnelle peut transférer des fonctions. On montre que cela permet d'améliorer la précision du transfert de fonction.Au Chapitre 4 on étend l'approche proposée au Chapitre 3 en remarquant qu'au lieu d'utiliser le produit point par point de fonctions, la composition par n'importe quel opérateur fixé doit aussi être préservée. On utilise un réseau de neurones pour optimiser l'approximation d'une fonction donnée qu'on veut transférer, comme fonction point par point de fonctions d'une base précalculée, qu'on sait déjà transférer à l'aide de la correspondance fonctionnelle. Puis on décrit comment évaluer ce réseau de neurones entrainé sur l'image des fonctions de la base afin de construire l'image de la fonction que l'on souhaite transférer. On montre des résultats préliminaires qui suggèrent que cette méthode peut apporter des améliorations significatives au transfert de fonctions.Finalement, au Chapitre 5 on aborde les autres sujets étudiés lors de la thèse, qui n'ont aucun lien avec les correspondances non rigides. / Handling and processing the massive amount of 3D data has become a challenge with countless applications, such as computer-aided design, biomedical computing, interactive games, machine perception, robotics, etc. Geometry Processing is an area of research at the interface between algorithmics, applied mathematics and computer science related to the above applications, that exists since approximately 50 years. It is a large topic of research that includes sub-areas. The problem of shape correspondence (also known as "shape matching") consists in, given a pair of shapes, finding a "good" correspondence between them. For example we may want the correspondence to preserve geodesic distances, or local geometric features.This problem has received a growing interest, in part due to its wide applicability, for example in animation, shape morphing or statistical shape modeling.The functional map framework is a recent tool that has shown many useful properties for shape matching. This approach provides a smooth compact representation of correspondences between shapes, and most constraints over functional maps can be expressed as linear constraints, which allows a least squares formulation of the problem.In this thesis we focus on the problem of shape correspondence, specifically using functional maps. In Chapter 1 we introduce basic notions and notations that will be used throughout the thesis, related to continuous and discrete surfaces, the Laplace-Beltrami operator, the problem of non-rigid shape matching, and the standard functional map computation pipeline.In Chapter 2 we notice that functional maps that are induced by point-to-point maps should satisfy point-wise product preservation constraints. We apply this observation to shape descriptors in order to improve the previous classical constraints on functional maps. This leads to an approach that allows to extract more information from existing constraints and results in better correspondences, particularly when the number of independent descriptors is small.In Chapter 3 we build on the previous remark, but this time in the situation where we already have a functional map that was computed by an existing method. We notice that the point-wise product preservation can also be used to extend the domain over which the given functional map can transfer functions. We show that this allows to improve the accuracy of function transfer.In Chapter 4 we extend the approach proposed in Chapter 3 by noticing that instead of using point-wise function products, the point-wise composition by any fixed operator should also be preserved. We use a neural network that optimizes the approximation of a given function that we want to transfer, as a point-wise function of some basis functions that we already know how to transfer using a given functional map. We then describe how to apply this trained network to the image of the basis functions to construct the image of the function that we want to transfer. We show preliminary results that suggest that this method can lead to significant improvement for function transfer.Finally, in Chapter 5 we mention other topics studied during the thesis, that are unrelated to non-rigid shape matching.
Heterogeneous Visualization of Complex Traffic Data and KnowledgeOertel, Wolfgang 27 June 2024
A software concept is described allowing the generation of graphic presentations of data and knowledge occurring in real traffic applications. Inputs coming from different sources are transformed into unified structures building the basis for a variety of final visualizations. / Ein Softwarekonzept wird beschrieben, das die Erzeugung grafischer Darstellungen von Daten und Wissen auftretend in realen Verkehrsanwendungen erlaubt. Eingaben aus unterschiedlichen Quellen werden in einheitliche Strukturen überführt, die als Basis für eine Vielzahl von finalen Visualisierungen dienen.
