• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • Tagged with
  • 9
  • 8
  • 4
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Μαθησιακά αντικείμενα : διαδικασίες επαναχρησιμοποίησης και εκτίμηση κόστους

Κωστόπουλος, Γεώργιος 06 November 2014 (has links)
Τις τελευταίες δεκαετίες παρατηρείται ραγδαία εξέλιξη των τεχνολογιών πληροφορικής και επικοινωνιών, ενώ συγχρόνως η διάθεση εκπαιδευτικού υλικού μέσω συστημάτων ηλεκτρονικής μάθησης αυξάνεται συνεχώς. Τα μαθησιακά αντικείμενα (ΜΑ) αποτελούν ένα νέο τρόπο προσέγγισης της οργάνωσης του εκπαιδευτικού περιεχομένου και βρίσκονται στον πυρήνα του νέου διδακτικού σχεδιασμού (Νικολόπουλος, Πιερρακέας, & Καμέας, 2011), αποτελώντας τη βάση για τη δημιουργία και το χειρισμό ψηφιακού εκπαιδευτικού περιεχομένου στην τεχνολογικά ενισχυμένη μάθηση (Sampson, & Zervas, 2011). Έχοντας μια σχετικά σύντομη ζωή στο χώρο της ηλεκτρονικής μάθησης, έχουν γίνει σήμερα ο επικρατέστερος ανάμεσα σε διάφορους άλλους όρους οι οποίοι προσπαθούν να περιγράψουν την ποικιλία των διαθέσιμων ψηφιακών πόρων που μπορούν να αξιοποιηθούν στην εκπαιδευτική διαδικασία (Βορβυλάς, 2013). Ο στόχος της συγκεκριμένης εργασίας είναι η μελέτη των ΜΑ, η αναλυτική περιγραφή των διαδικασιών επαναχρησιμοποίησης ΜΑ και η αξιολόγηση, μέσω χρήσης κατάλληλων μετρικών, του κόστους της επαναχρησιμοποίησης για τη δημιουργία μαθημάτων, ενοτήτων και προγραμμάτων σπουδών. Γνωστά στη διεθνή βιβλιογραφία ως αντικείμενα επικοινωνίας (Norton 1996), εκπαιδευτικά αντικείμενα (Friesen, 1996), επαναχρησιμοποιήσιμα αντικείμενα μάθησης (Barritt, Lewis and Wieseler 1999), γνωστικά αντικείμενα (Merrill, 1998), αντικείμενα πληροφοριών (Gibbons, Nelson, & Richards, 2000), διδακτικές μονάδες (Koper, 2001) κ.ά., τα ΜΑ έχουν εμφανισθεί τις δύο τελευταίες δεκαετίες και αποτελούν τη βάση για τη δημιουργία και το χειρισμό εκπαιδευτικού ψηφιακού περιεχομένου για τις ανάγκες της εκπαίδευσης, της μάθησης και της εξάσκησης των μαθητών. Ορισμοί έχουν δοθεί για τα ΜΑ, όπως για παράδειγμα από τον J. L’Allier (1997), το Institute of Electrical and Electronics Engineers (2000), τον David A. Wiley (2002), τους Rehak & Mason (2003), τον Polsani (2003), τον Andres Chiappe (2007), κ.ά. Παρόλα αυτά, οι προσπάθειες για την ανάπτυξη ή αποδοχή ενός κοινού εννοιολογικού ορισμού για τα ΜΑ από την εκπαιδευτική κοινότητα και τους εμπλεκόμενους φορείς, δεν έχουν καρποφορήσει. Εντούτοις, έχουν γίνει κοινά αποδεκτά κάποια λειτουργικά χαρακτηριστικά των ΜΑ, τα οποία σύμφωνα με τον Polsani (2003) είναι: • Προσβασιμότητα (Accessibility) • Επαναχρησιμοποίηση (Reusability) • Διαλειτουργικότητα (Interoperability) Ποικίλες θεωρήσεις κυριαρχούν αναφορικά με τη δομή και το μέγεθος ενός ΜΑ, η οποία πρέπει να περιλαμβάνει οπωσδήποτε την εκπαιδευτική προσέγγιση (ένα ΜΑ πρέπει να συνδέεται με έναν ή περισσότερους μαθησιακούς στόχους και πρέπει να υποστηρίζει την εκπαιδευτική διαδικασία (Νικολόπουλος κ.ά, 2011)), τις τεχνικές προδιαγραφές (μέγεθος-επίπεδο συνάθροισης), τα μεταδεδομένα, τον κύκλο ζωής, καθώς και την, βασισμένη σε κατάλληλες μετρικές, αξιολόγηση του κόστους επαναχρησιμοποίησής του. Θα μελετηθεί η διαδικασία επαναχρησιμοποίησης ΜΑ, η οποία αποτελεί ένα από τα βασικά χαρακτηριστικά των ΜΑ. Η βασική ιδέα αφορά στη χρήση μικρών, διακριτών ΜΑ ή/και το συνδυασμό τους για τη δημιουργία νέων, τα οποία να αποτελούν ένα ενιαίο εκπαιδευτικό σενάριο που να μπορεί να λειτουργήσει σε διαφορετικά εκπαιδευτικά πλαίσια, καθώς και σε διαφορετικά άτομα. Από τη μια, ένα σημαντικό πλεονέκτημα που συνεπάγεται η επαναχρησιμοποίηση ενός ΜΑ είναι η σημαντική μείωση του κόστους σχεδιασμού και ανάπτυξης των απαιτούμενων πόρων, διατηρώντας παράλληλα την ποιότητα, και από την άλλη μπορεί να αποτελέσει ένα δείκτη της υψηλής ποιότητας των διαθέσιμων ΜΑ, με την παραδοχή ότι όσο περισσότερο επαναχρησιμοποιείται ένα ΜΑ, τόσο μεγαλύτερη θα είναι η ποιότητά του (Sampson, & Zervas, 2011). Εντούτοις, υπάρχουν και μειονεκτήματα από την επαναχρησιμοποίηση ΜΑ. Το βασικότερο είναι ότι μερικές φορές το κόστος της επαναχρησιμοποίησης μπορεί να είναι μεγαλύτερο από το κόστος για τη δημιουργία νέων ΜΑ. Επίσης, πολλές φορές δεν είναι εύκολο να εμπιστευτεί κάποιος την ποιότητα των συστατικών μερών ΜΑ, τα οποία έχουν δημιουργηθεί από άλλους. Έτσι, δύσκολα είναι άμεσα μετρήσιμη η μείωση του κόστους και άρα το όφελος που προκύπτει κατά την επαναχρησιμοποίηση, κατά συνέπεια πολλές φορές συμφέρει η δημιουργία νέων ΜΑ από την επαναχρησιμοποίηση υφιστάμενων ΜΑ (Sommerville, 2006). Παρά τη σπουδαιότητα της έννοιας της επαναχρησιμοποίησης ΜΑ δεν υπάρχει κάποιος απλός τρόπος επακριβούς μέτρησης του κόστους-οφέλους που μπορεί να έχουμε σε αυτή τη διαδικασία. Η ύπαρξη μετρικών για την εκτίμηση του κόστους αποδοτικής επαναχρησιμοποίησης εκπαιδευτικών ΜΑ είναι δυνατό να διευκολύνει στον τομέα της συστηματικής αξιολόγησής τους και να δώσουν απάντηση στο ερώτημα: «Πότε αξίζει τον κόπο να επαναχρησιμοποιήσουμε και να ενσωματώσουμε ΜΑ ώστε να δημιουργήσουμε νέα;». Έτσι τελικά, θα γίνει μια μελέτη εντοπισμού και προσαρμογής μετρικών που σχετίζονται με τον τομέα της τεχνολογίας λογισμικού για την εκτίμηση του κόστους δημιουργίας εκπαιδευτικών σεναρίων και γενικότερα εκπαιδευτικού λογισμικού με επαναχρησιμοποίηση ΜΑ. Συνδέοντας αυτές τις μετρικές άμεσα με τα διάφορα στάδια του κύκλου ζωής των ΜΑ, είναι δυνατή η τελική εκτίμηση του κόστους επαναχρησιμοποίησης τους. Αυτό θα μπορούσε να δώσει τη δυνατότητα σε εκπαιδευτικούς, ιδρύματα και οργανισμούς να αξιολογήσουν αποτελεσματικά τη δημιουργία εκπαιδευτικών σεναρίων και εκπαιδευτικού λογισμικού με επαναχρησιμοποιήσιμα ΜΑ, καθώς και τη βελτίωσή τους (Sampson, & Zervas, 2011). / Over the last decades a rapid development of information technologies and communications in education is observed, while simultaneously the disposal of educational material through systems of e-learning is increasing continuously. Learning objects (LOs) constitute a new way of approaching the systematization of instructional content and are found in the core of a new educational development, constituting the base for the creation and the handling of digital educational content in technology-enhanced learning. Having a relatively short life in the area of e-learning, they have become today the most prevalent between various other terms that try to describe the variety of available digital resources that can be developed in the didactic processes. In this work, our basic goal is the study of LOs, the comprehensive description of LOs reuse processes and the evaluation of LOs reuse cost for the development of lessons, units and courses using appropriate metrics. Mostly known in the academic bibliography as media objects (Norton, 1996), educational objects (Friesen, 1996), reusable learning objects (Barritt, Lewis and Wieseler, 1999), knowledge objects (Merrill, 1998), data objects (Gibbons, Nelson, & Richards, 2000), instructional objects (Gibbons et al., 2000) or units of learning (Koper, 2001), LOs have appeared over the last decades and constitute the base for the creation and the handling of educational digital content for the needs of education, learning and students practice. Various definitions have been given for the LOs, for example from the J. L' Allier (1997), the Institute of Electrical and Electronics Engineers (2000), David A. Wiley (2002), Rehak and Mason (2003), Polsani (2003), Andres Chiappe (2007). All efforts for the development or recognition of a common conceptual definition of LOs by the educational community and the involved institutions have not thrived. However, there is a broad understanding among the members of the LO community about the functional requirements of LOs: • Accessibility • Reusability • Interoperability Various endorsements refer to the structure and the size of a LO, which should include the instructional approach (a LO should be based on one or more learning objectives and should support the educational processes), the technical specifications (level of aggregation), the metadata records, the lifecycle and the evaluation of LOs cost effective reuse that is based in suitable metrics. We will study the processes of LOs reuse, which is one of the basic characteristics of LOs. The basic idea concerns in the use of small and distinguishable LOs and/or their combination for the creation of new LOs which constitute a single educational script that could function in different educational frames as well as in different individuals. From the one hand, an important advantage that involves the re-use of MA is the important reduction of cost of planning and growth of required resources, maintaining at the same time the quality, and from the other hand, LO reuse can be an indicator for a high quality LO, under the assumption that the more a LO is reused the more likely is to be of a high quality. However, there are also disadvantages from LOs reuse. The most critical is that sometimes the cost of LO reuse can be larger than the cost of the creation of new one. Also, it is not often easy for a teacher to trust the quality of an existing LO which has been created by others. Thus, it is very difficult to measure the reduction of cost and hence the profit that results from the reuse. As an effect, many times it is easier to create new LOs than reuse existing LOs. Despite the importance of LOs reuse, there does not exist a simple way of precise measurement of the cost effectiveness in this process. The existence metrics for the estimation of the cost effectiveness of LOs reuse is possible to facilitate in the sector of their systematic evaluation and give an answer in the question: “When is it worth to reuse and incorporate existing LOs in order to create new?” Therefore, we will make a study of identification and adaptation of metrics that are related to the sector of software engineering in order to estimate the cost of creation instructional scripts and generally educational software with reusing LOs. Relating these metrics with the various stages of LOs lifecycle the final estimation of their cost reuse will be possible. This could give the chance to teachers, schools and organisms of evaluating effectively the creation and improvement of educational scripts and instructional software using reusable LOs.
2

Διαχείριση ψηφιακών αντικειμένων - σχεδιασμός, ανάπτυξη και υλοποίηση συστήματος

Σαλούρος, Δημήτριος 18 April 2008 (has links)
Η δημιουργία, παρουσίαση και ανταλλαγή της πληροφορίας όπως, επίσης, και η συλλογή, οργάνωση και αποθήκευση των μέσων πληροφορίας είναι εργασίες που επιτελούνται από τον άνθρωπο από τον καιρό της ύπαρξής του. Αυτό που καθιστά το πρόβλημα μεγαλύτερο και δυσκολότερο για την σημερινή κοινωνία της πληροφορίας είναι η διαχείριση της ποσότητας της πληροφορίας σε ψηφιακή μορφή (ψηφιακό περιεχόμενο), η ταχύτητα με την οποία αναπαράγεται και οι τρόποι με τους οποίους παρουσιάζεται, ανταλλάσσεται, οργανώνεται και αποθηκεύεται. Η εδραίωση του Παγκόσμιου Ιστού έχει επηρεάσει δραματικά όλες αυτές τις δραστηριότητες παρέχοντάς μας νέα εργαλεία και μορφές διαχείρισης και διάθεσης ψηφιακού υλικού. Τόσο η δημιουργία ψηφιακού περιεχομένου από έναν συνεχώς αυξανόμενο αριθμό αναλογικών και ψηφιακών πηγών όσο και η ανάγκη αναπαράστασής του σε μια ατέλειωτη λίστα διαφορετικών μορφών και τύπων έχουν μεταβάλλει σε πολύ μεγάλο βαθμό τους τρόπους της διαχείρισής του. Στις μέρες μας, οργανισμοί με μεγάλο όγκο ψηφιακού υλικού προβάλλουν και διανέμουν το υλικό τους μέσω του Παγκόσμιου Ιστού εμπλουτίζοντας και προεκτείνοντας τις ηλεκτρονικές τους υπηρεσίες και εφαρμογές αξιοποιώντας τα δίκτυα υπολογιστών. Κάτι τέτοιο απαιτεί την ολοκλήρωση εξειδικευμένων πληροφοριακών συστημάτων στην επιχειρησιακή λογική ενός οργανισμού καθώς και την ορθή του χρήση και υποστήριξη από ειδικό προσωπικό. Τα συστήματα αυτά αποτελούν έναν καθοριστικό παράγοντα για τη μελλοντική ανάπτυξη ενός οργανισμού ενώ εγγυώνται και διασφαλίζουν τις οικονομικές του επενδύσεις. Ωστόσο, ο Παγκόσμιος Ιστός αποτελεί ένα ιδιαίτερα εχθρικό περιβάλλον όσον αφορά θέματα ασφάλειας, πλήττοντας άμεσα την εμπορική (ή μη) εκμετάλλευση του διακινούμενου ψηφιακού περιεχομένου. Σε κάθε περίπτωση, οι οργανισμοί οφείλουν να αντιμετωπίσουν όλες εκείνες τις προκλήσεις που προέρχονται από τα ανοιχτά θέματα ασφάλειας του Διαδικτύου ακριβώς επειδή αυτά μπορούν να προκαλέσουν απώλειες μεγάλου όγκου δεδομένων, να οδηγήσουν σε οικονομική καταστροφή ή/και να αμαυρώσουν το κύρος και την αξιοπιστία του οργανισμού προς το ευρύ κοινό. Στόχος της παρούσας εργασίας είναι η ενδελεχής παρουσίαση πληροφοριακών Συστημάτων Διαχείρισης Ψηφιακών Αντικειμένων (Digital Asset Management Systems – DAMS). Στο 1ο από τα 2 μέρη της, παρουσιάζουμε την αρχιτεκτονική τέτοιων συστημάτων, τις υποδομές πάνω στις οποίες στηρίζονται και υλοποιούνται, τις υπηρεσίες και εφαρμογές που παρέχουν καθώς και τους τρόπους ολοκλήρωσής τους με άλλα πληροφοριακά συστήματα καθώς και με το Διαδίκτυο. Στο 2ο μέρος περιγράφουμε το λεπτομερή σχεδιασμό και την υλοποίηση ενός ανθεκτικού αρχιτεκτονικού μοντέλου ασφάλειας για Internet-based DAMS. Αναπτύσσουμε τις βασικές λειτουργικές προδιαγραφές και απαιτήσεις ασφάλειας με βάση τις οποίες κάναμε το σχεδιασμό. Επιπλέον, περιγράφουμε όλες εκείνες τις κρυπτογραφικές αρχές και τεχνολογίες που χρησιμοποιούμε για να πετύχουμε ασφάλεια στα διαχειριζόμενα δεδομένα και ασφαλή αλληλεπίδραση χρηστών με το μοντέλο μας σε διαδικτυακά συνεργατικά περιβάλλοντα. Τέλος, παρέχουμε μια υλοποίηση ενός πρωτοτύπου για Internet-based DAMS το οποίο στηρίζεται πάνω στο αρχιτεκτονικό μας μοντέλο και αναλύουμε όλα τα τεχνικά ζητήματα που ανακύπτουν. / Information creation, presentation and exchange, but also the collection, organization and storage of information carriers, is an old craft. What makes the problem different in today's information society is the amount of information in digital form (digital content) that has to be handled, the speed at which it is produced and the ways that it is presented, exchanged, organized and stored. The advent of the World Wide Web has tremendously affected all these activities, giving us new tools and ways for harnessing digital material. Its creation from an ever-increasing number of analog and digital sources and the need for representing it into an endless list of different types and formats influences dramatically the ways of its management. Nowadays, rich-media organizations tend to exhibit and distribute their material over Internet by extending their electronic services and applications into computer networks. This task requires specialized information systems and also skilled staff to use, maintain and integrate them into the organization's business logic. Adoption of such systems is a critical factor for future economic growth and return on investment (ROI). However, Internet increases the vulnerability of digital content commercial (or not) exploitation since it is a possibly hostile environment. In any case, organizations have to deal with all the open security challenges that can cause huge data and financial losses, harm their reputation and strictly affect people's trust on them. In the present work we describe the design and implementation of a secure and robust architectural model for digital asset management. Usage and exploitation of the World Wide Web is a critical requirement for a series of administrative tasks such as collecting, managing and distributing valuable assets. Our model addresses a list of fundamental operational and security requirements. It utilizes a number of cryptographic primitives and techniques that provide data safety and secure user interaction on especially demanding on-line collaboration environments. We provide a reference implementation of our architectural model and discuss the technical issues. It is designed as a standalone solution but it can be flexibly adapted in broader management infrastructures as well as existing DAMS platforms.
3

Φιλτράρισμα και εξόρυξη δεδομένων σε αντικείμενα πληροφορίας / Filtering and data mining techniques in information objects

Αντωνέλλης, Παναγιώτης 06 October 2011 (has links)
Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά. Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα. Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου. Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων. Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος. Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους. / The increasing usage of World Wide Web for storing and exchanging information internationally has lead to huge growth of the different types of stored data. The useful information stored in these data is usually hidden and needs special processing to be unveiled. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and can handle various types of data. The wide acceptance of XML (eXtensive Markup Language) as the standard for storing and exchanging information through internet, combined with the growth of native XML databases has designated the problem of efficient data mining techniques on semi structured data. Traditional approaches have proven inefficient as they are mainly oriented to well- structured data, like relational databases, while Web data and XML databases are based on semi structured format. The XML language permits the description of new structures, the nesting of structures in arbitrary depth and the optional description of its grammar, which allows the modeling of an XML document as a labeled treed: elements and attributes are mapped to nodes in the tree and direct nesting relationships are mapped to edges in the tree. Together with the problem of searching through a set of XML documents, a new problem has arisen: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. In addition, data management and processing issues, such as storage, mining and retrieval of the large number of XML documents, have also arisen. Clustering of XML documents improves the process of management and retrieval as it organizes the massive amounts of XML data into groups without prior knowledge. This grouping may boost the process of querying by applying the user queries only to related groups of XML documents as well the process of storing and processing XML documents in peer-to-peer networks. The next part of the thesis deals with mining source code quality metrics to assist the comprehension and the analysis of a software system’s maintainability. Due to the special nature of source code quality metrics (numerical and categorical), traditional data mining techniques can not be applied as it is. This thesis investigates a new clustering algorithm, based on frequent itemset mining, which helps produce general overviews of the system’s various source code entities (packages, classes, methods) or to identify specific parts that need further attention or handling (outliers). The final part of the thesis deals with data mining techniques on web usage data in order to identify common trends and patterns in the user navigational behavior. Clustering is a useful and ubiquitous tool in such a data analysis, allowing the website owners to group their users into different groups based on their interaction with the website, find usability issues related to the website’s content and its structure and obtain knowledge by learning the user preferences and interests. This thesis investigates the application of clustering techniques in web usage data and proposes a new model for analyzing click-stream data in the World Wide Web based on multiple levels of clustering.
4

Δυναμική συλλογή διδακτικών αντικειμένων και δημιουργία διδακτικών σεναρίων

Δρούζας, Παναγιώτης 17 September 2012 (has links)
Στην επιστημονική κοινότητα υπάρχει η τάση αποθήκευσης διδακτικών αντικειμένων σε αποθήκες περιεχομένου και η χρήση τους για την δημιουργία διαδικτυακών διδακτικών σεναρίων. Αυτή την στιγμή στην κοινότητα υπάρχει η τάση δημιουργίας αυτόνομων (modular) διαδικτυακών (web-based) εφαρμογών που να ερευνούν και να συλλέγουν διδακτικά αντικείμενα, καθώς επίσης και εφαρμογών που να δίνουν την δυνατότητα συνδυασμού διαφόρων αντικειμένων για την δημιουργία διδακτικών δραστηριοτήτων. Ένα πρόβλημα που έχει προκύψει είναι ο συνδυασμός της δυναμικής συλλογής διδακτικών αντικειμένων και της δημιουργίας εκπαιδευτικών σεναρίων. Η δημιουργία, αλλά και η αποθήκευση των διδακτικών αντικειμένων στις περισσότερες βάσεις, γίνεται ακολουθώντας συγκεκριμένα πρότυπα. Με τον τρόπο αυτό είναι δυνατό να υπάρχει πολυχρηστικότητα και επαναχρησιμοποίηση των αντικειμένων από τον ίδιο τον δημιουργό ή άλλους χρήστες, στο ίδιο ή σε διαφορετικά διδακτικά σενάρια. Στην διπλωματική εργασία θα μελετήσουμε καταρχήν τη δυνατότητα δυναμικής και αυτοματοποιημένης εξεύρεσης και συλλογής διδακτικών αντικειμένων (Learning Objects), βάσει δεδομένων κριτηρίων αναζήτησης, τα οποία είναι αποθηκευμένα σε ηλεκτρονικές βάσεις αποθήκευσης διδακτικού περιεχομένου (Learning Objects Repositories - LOR) στο διαδίκτυο ακολουθώντας συγκεκριμένα πρότυπα/πρωτόκολλα (κυρίως το ΙΕΕΕ Learning Object Metadata). Επίσης, θα μελετήσουμε τη δυνατότητα δημιουργίας εκπαιδευτικών σεναρίων, βασισμένων σε επιστημονικά αποδεκτές διδακτικές στρατηγικές, μέσω λογισμικού με χρήση των παραπάνω διδακτικών αντικειμένων και αποθήκευσης τους ακολουθώντας το κοινά αποδεκτό πρότυπο SCORM. Αρχικά, θα παρουσιάσουμε τη διαθέσιμη τεχνολογία (πρωτόκολλα και πρότυπα) εξεύρεσης και συλλογής διδακτικών αντικειμένων, επικεντρώνοντας σε «ανοικτά» πρότυπα και πρωτόκολλα (κυρίως το Open Archives Metadata Harvesting Protocol μέσω HTTP request σε αντίστοιχη server εφαρμογή που είναι ενσωματωμένη στις πιο δημοφιλείς εφαρμογές LOR). Στη συνέχεια θα παρουσιάσουμε τις δημοφιλέστερες και επικρατούσες εκπαιδευτικές/παιδαγωγικές θεωρίες μάθησης με χρήση Τ.Π.Ε. Κατόπιν θα εφαρμόσουμε τα προηγούμενα θεωρητικά μοντέλα συνολικά σε μια αυτόνομη εφαρμογή και θα αναφερθούμε σύντομα στην πιθανή ενσωμάτωση της ως εργαλείο (Module) κάποιας υπάρχουσας εφαρμογής διαχείρισης. / All over scientific community today there is a trend to store learning objects in repositories and use them to create web-based teaching scenarios. Presently the scientific community trend is to create modular web-based applications in order to search and harvest learning objects, and moreover to create applications that provide the option of combining various learning objects in order to design teaching activities. A problem that occurred is to be able to, concurrently, dynamically harvest learning objects and create a teaching scenario. Creation, but also storage of learning objects in most databases, is performed following specific standards. In this way, multiple usage and usability is achieved for the author himself but also for other users, either in the same or in different teaching scenarios. In this thesis we will initially investigate the possibility of dynamic and automated search and harvesting of Learning Objects based on pre-defined search criteria, stored in Learning Objects Repositories (LORs) on the web, according to specific standards (mainly IEEE Learning Object Metadata). We will also investigate on the possibility of creating teaching scenarios, based on widely accepted teaching strategies, through software utilizing the aforementioned learning objects and their storage according to the widely accepted SCORM standard. Firstly, we will present the existing technology (protocols and standards) of searching and harvesting learning objects, focusing on open standards and protocols (mainly Open Archives Interconnection Metadata Harvesting Protocol via HTTP request towards a server application which is embedded in the most popular LOR implementations). Then, we will present the most popular and dominating teaching/educational theories through Informatics and Communications Technologies in Education (ICTE). Finally we will apply the previous theoretical models as a whole in an autonomous application and we will briefly mention the possibility of embedding it, as a module, in an existing content management platform.
5

Ανάπτυξη μεθόδων ανάκτησης εικόνας βάσει περιεχομένου σε αναπαραστάσεις αντικειμένων ασαφών ορίων / Development of methods for content-based image retrieval in representations of fuzzily bounded objects

Καρτσακάλης, Κωνσταντίνος 11 March 2014 (has links)
Τα δεδομένα εικόνων που προκύπτουν από την χρήση βιο-ιατρικών μηχανημάτων είναι από την φύση τους ασαφή, χάρη σε μια σειρά από παράγοντες ανάμεσα στους οποίους οι περιορισμοί στον χώρο, τον χρόνο, οι παραμετρικές αναλύσεις καθώς και οι φυσικοί περιορισμοί που επιβάλλει το εκάστοτε μηχάνημα. Όταν το αντικείμενο ενδιαφέροντος σε μια τέτοια εικόνα έχει κάποιο μοτίβο φωτεινότητας ευκρινώς διαφορετικό από τα μοτίβα των υπόλοιπων αντικειμένων που εμφανίζονται, είναι εφικτή η κατάτμηση της εικόνας με έναν απόλυτο, δυαδικό τρόπο που να εκφράζει επαρκώς τα όρια των αντικειμένων. Συχνά ωστόσο σε τέτοιες εικόνες υπεισέρχονται παράγοντες όπως η ανομοιογένεια των υλικών που απεικονίζονται, θόλωμα, θόρυβος ή και μεταβολές στο υπόβαθρο που εισάγονται από την συσκευή απεικόνισης με αποτέλεσμα οι εντάσεις φωτεινότητας σε μια τέτοια εικόνα να εμφανίζονται με έναν ασαφή, βαθμωτό, «μη-δυαδικό» τρόπο. Μια πρωτοπόρα τάση στην σχετική βιβλιογραφία είναι η αξιοποίηση της ασαφούς σύνθεσης των αντικειμένων μιας τέτοιας εικόνας, με τρόπο ώστε η ασάφεια να αποτελεί γνώρισμα του εκάστοτε αντικειμένου αντί για ανεπιθύμητο χαρακτηριστικό: αντλώντας από την θεωρία ασαφών συνόλων, τέτοιες προσεγγίσεις κατατμούν μια εικόνα με βαθμωτό, μη-δυαδικό τρόπο αποφεύγοντας τον μονοσήμαντο καθορισμό ορίων μεταξύ των αντικειμένων. Μια τέτοια προσέγγιση καταφέρνει να αποτυπώσει με μαθηματικούς όρους την ασάφεια της θολής εικόνας, μετατρέποντάς την σε χρήσιμο εργαλείο ανάλυσης στα χέρια ενός ειδικού. Από την άλλη, το μέγεθος της ασάφειας που παρατηρείται σε τέτοιες εικόνες είναι τέτοιο ώστε πολλές φορές να ωθεί τους ειδικούς σε διαφορετικές ή και αντικρουόμενες κατατμήσεις, ακόμη και από το ίδιο ανθρώπινο χέρι. Επιπλέον, το παραπάνω έχει ως αποτέλεσμα την οικοδόμηση βάσεων δεδομένων στις οποίες για μια εικόνα αποθηκεύονται πολλαπλές κατατμήσεις, δυαδικές και μη. Μπορούμε με βάση μια κατάτμηση εικόνας να ανακτήσουμε άλλες, παρόμοιες τέτοιες εικόνες των οποίων τα δεδομένα έχουν προέλθει από αναλύσεις ειδικών, χωρίς σε κάποιο βήμα να υποβαθμίζουμε την ασαφή φύση των αντικειμένων που απεικονίζονται; Πως επιχειρείται η ανάκτηση σε μια βάση δεδομένων στην οποία έχουν αποθηκευτεί οι παραπάνω πολλαπλές κατατμήσεις για κάθε εικόνα; Αποτελεί κριτήριο ομοιότητας μεταξύ εικόνων το πόσο συχνά θα επέλεγε ένας ειδικός να οριοθετήσει ένα εικονοστοιχείο μιας τέτοιας εικόνας εντός ή εκτός ενός τέτοιου θολού αντικειμένου; Στα πλαίσια της παρούσας εργασίας προσπαθούμε να απαντήσουμε στα παραπάνω ερωτήματα, μελετώντας διεξοδικά την διαδικασία ανάκτησης τέτοιων εικόνων. Προσεγγίζουμε το πρόβλημα θεωρώντας ότι για κάθε εικόνα αποθηκεύονται στην βάση μας περισσότερες της μίας κατατμήσεις, τόσο δυαδικής φύσης από ειδικούς όσο και από ασαφείς από αυτόματους αλγορίθμους. Επιδιώκουμε εκμεταλλευόμενοι το χαρακτηριστικό της ασάφειας να ενοποιήσουμε την διαδικασία της ανάκτησης και για τις δυο παραπάνω περιπτώσεις, προσεγγίζοντας την συχνότητα με την οποία ένας ειδικός θα οριοθετούσε το εκάστοτε ασαφές αντικείμενο με συγκεκριμένο τρόπο καθώς και τα ενδογενή χαρακτηριστικά ενός ασαφούς αντικειμένου που έχει εξαχθεί από αυτόματο αλγόριθμο. Προτείνουμε κατάλληλο μηχανισμό ανάκτησης ο οποίος αναλαμβάνει την μετάβαση από τον χώρο της αναποφασιστικότητας και του ασαφούς στον χώρο της πιθανοτικής αναπαράστασης, διατηρώντας παράλληλα όλους τους περιορισμούς που έχουν επιβληθεί στα δεδομένα από την πρωταρχική ανάλυσή τους. Στην συνέχεια αξιολογούμε την διαδικασία της ανάκτησης, εφαρμόζοντας την νέα μέθοδο σε ήδη υπάρχον σύνολο δεδομένων από το οποίο και εξάγουμε συμπεράσματα για τα αποτελέσματά της. / Image data acquired through the use of bio-medical scanners are by nature fuzzy, thanks to a series of factors including limitations in spatial, temporal and parametric resolutions other than the physical limitations of the device. When the object of interest in such an image displays intensity patterns that are distinct from the patterns of other objects appearing together, a segmentation of the image in a hard, binary manner that clearly defines the borders between objects is feasible. It is frequent though that in such images factors like the lack of homogeneity between materials depicted, blurring, noise or deviations in the background pose difficulties in the above process. Intensity values in such an image appear in a fuzzy, gradient, “non-binary” manner. An innovative trend in the field of study is to make use of the fuzzy composition of objects in such an image, in a way in which fuzziness becomes a characteristic feature of the object instead of an undesirable trait: deriving from the theory of fuzzy sets, such approaches segment an image in a gradient, non-binary manner, therefore avoiding to set up a clear boundary between depicted objects. Such approaches are successful in capturing the fuzziness of the blurry image in mathematical terms, transforming the quality into a powerful tool of analysis in the hands of an expert. On the other hand, the scale of fuzziness observed in such images often leads experts towards different or contradictory segmentations, even drawn by the same human hand. What is more, the aforementioned case results in the compilation of image data bases consisting of multiple segmentations for each image, both binary and fuzzy. Are we able, by segmenting an image, to retrieve other similar such images whose segmented data have been acquired by experts, without downgrading the importance of the fuzziness of the objects depicted in any step involved? How exactly are images in such a database storing multiple segmentations of each retrieved? Is the frequency with which an expert would choose to either include or exclude from a fuzzy object a pixel of an image, a criterion of semblance between objects depicted in images? Finally, how able are we to tackle the feature of fuzziness in a probabilistic manner, thus providing a valuable tool in bridging the gap between automatic segmentation algorithms and segmentations coming from field experts? In the context of this thesis, we tackle the aforementioned problems studying thoroughly the process of image retrieval in a fuzzy context. We consider the case in which a database consists of images for which exist more than one segmentations, both crisp, derived by experts’ analysis, and fuzzy, generated by segmentation algorithms. We attempt to unify the retrieval process for both cases by taking advantage of the feature of fuzziness, and by approximating the frequency with which an expert would confine the boundaries of the fuzzy object in a uniform manner, along with the intrinsic features of a fuzzy, algorithm-generated object. We propose a suitable retrieval mechanism that undertakes the transition from the field of indecisiveness to that of a probabilistic representation, at the same time preserving all the limitations imposed on the data by their initial analysis. Next, we evaluate the retrieval process, by implementing the new method on an already existing data-set and draw conclusions on the effectiveness of the proposed scheme.
6

Σχεδιασμός, ανάπτυξη και σύνθεση οντολογιών για την υποστήριξη της εκπαίδευσης στην αντικειμενοστρεφή ανάλυση

Μπαγιαμπού, Μαρία 25 January 2012 (has links)
Τα τελευταία χρόνια γίνονται πολλές έρευνες οι οποίες δείχνουν πως οι Οντολογίες και οι τεχνολογίες βασισμένες σε οντολογίες, βρίσκουν ευρεία εφαρμογή στην εκπαίδευση και αποτελούν έναν από τους πιο σημαντικούς τομείς έρευνας της εκπαιδευτικής τεχνολογίας. Μια οντολογία αποτελεί την τυπική προδιαγραφή κάποιας περιοχής γνώσης (Gruber, 1993). Παρέχει τις βασικές έννοιες του πεδίου γνώσης που περιγράφεται και τις μεταξύ τους σχέσεις, καθώς και την ορολογία με την οποία αναφερόμαστε στις έννοιες και τις σχέσεις αυτές. Δηλαδή, μια οντολογία παρέχει τόσο λεξιλόγια και όσο και σχήματα οργάνωσης της γνώσης, τα οποία μπορούν να αξιοποιηθούν ως κοινά πλαίσια επικοινωνίας μεταξύ ανθρώπων, συστημάτων και οργανισμών, διευκολύνοντας το διαμοιρασμό, την διαλειτουργικότητα και την επαναχρησιμοποίηση πόρων (Uschold & Gruninger, 1996). Οι Οντολογίες συνδέονται στενά με το λεγόμενο Σημασιολογικό Ιστό, που αναφέρεται στη σημασιολογική διασύνδεση των πληροφοριών που υπάρχουν στον Παγκόσμιο Ιστό με τρόπο κατανοητό από μηχανές (Berners Lee et al., 2001). Μια τέτοια διασύνδεση θα έδινε πολύ μεγάλες προοπτικές όσον αφορά στο διαμοιρασμό, ανάκληση και επαναχρησιμοποίηση της πληροφορίας τόσο στην εκπαίδευση όσο σε όλο το φάσμα των δραστηριοτήτων μας. Η εργασία μας συνίσταται στη δημιουργία μιας εκπαιδευτικής εφαρμογής για τη διαχείριση μαθησιακού υλικού και μαθησιακών στόχων σχετικών με το αντικείμενο της Αντικειμενοστρεφούς Ανάλυσης και συγκεκριμένα με το γνωστικό πεδίο των Διαγραμμάτων Περιπτώσεων Χρήσης, η οποία βασίζεται σε οντολογίες. Χρησιμοποιούμε οντολογίες για να περιγράψουμε με τυπικό τρόπο τρεις βασικές συνιστώσες της μαθησιακής διαδικασίας: το γνωστικό πεδίο, τα μαθησιακά αντικείμενα και τους μαθησιακούς στόχους, με σκοπό να γίνει δυνατή η αυτόματη επεξεργασία των παραπάνω συνιστωσών από εφαρμογές ηλεκτρονικής μάθησης και να προωθείται η επικοινωνία, η διαλειτουργικότητα και ο διαμοιρασμός πόρων. Ακόμα, ζητούμενο της εφαρμογής μας αποτελεί η ενσωμάτωση σε αυτήν δυνατοτήτων παροχής προσωποποιημένων υπηρεσιών. Αφού κάνουμε μια σύντομη επισκόπηση της βιβλιογραφίας σχετικά με τη χρήση οντολογιών στην Εκπαίδευση αναφερόμαστε στις Οντολογίες που δημιουργήσαμε και στον τρόπο που είναι δυνατόν να χρησιμοποιηθούν για να επιτευχθούν οι προαναφερθέντες στόχοι. Σημειώνουμε ότι στην παρούσα εργασία δεν περιλαμβάνεται η εκπαιδευτική αξιολόγηση του συστήματος (μετά από πιλοτική χρήση), αλλά μόνο η επαλήθευση της λειτουργίας του. / An ontology is a formal specification of a conceptualization (Gruber, 1993). It provides terminology and conceptual schemas concerning a domain, and can be used as a communication framework between humans, software systems and organizations, promoting interoperability and reusability of resources. Our work concerns the creation of an ontology-based educational application that aims at the management of educational resources and instructional goals related to the field of Object-Orient Analysis and specifically the field of Use Case Diagrams. As part of our work, we have used ontologies to formally describe three basic components of the educational process: the learning material, the knowledge domain and the learning goals. We created three ontologies: the use case diagram ontology (domain ontology), the competency ontology (to model the learning goals) and the learning object ontology (to describe the learning material), which we ultimately combined in one application. The inclusion of components like learning objects and competencies in our application, as well as the use of ontologies to formally describe them, are features that can promote interoperability and resource reuse and can be used to provide personalised services. In this paper, we first describe ontologies and their current uses in the education field according to recent research and then we proceed with the analytic description of our ontologies and our application.
7

Σχεδιασμός και χρήση μαθησιακών αντικειμένων : μια σημειωτική προσέγγιση

Βορβυλάς, Γεώργιος 01 February 2013 (has links)
Η παρούσα διδακτορική διατριβή προτείνει ένα εννοιολογικό πλαίσιο σχεδιασμού μαθησιακών αντικειμένων το οποίο εμφορείται από την Κοινωνική Σημειωτική και από τη Θεωρία της Ρητορικής Δομής. Προτείνεται μια θεώρηση των μαθησιακών αντικειμένων ως πολυτροπικών ψηφιακών κειμενικών μακρο-ειδών τα οποία αποτελούνται από ψηφιακά κειμενικά μικρο-είδη. Η οργάνωση του μαθησιακού περιεχομένου μοντελοποιείται μέσα από διάφορα συστημικά δίκτυα τα οποία αναπαριστούν τις σχεδιαστικές επιλογές του δημιουργού των μαθησιακών αντικειμένων. Με αυτό το σημειωτικό πλαίσιο στη διάθεσή του ένας δημιουργός μαθησιακών αντικειμένων μπορεί να εξοπλιστεί με τα εννοιολογικά εκείνα εργαλεία τα οποία θα του επιτρέψουν: α) να δημιουργήσει ή να χρησιμοποιήσει διάφορους τύπους κειμενικών μικρο-ειδών σύμφωνα με τις επικοινωνιακές λειτουργίες που αυτά εξυπηρετούν, β) να συνδέσει μεταξύ τους αυτούς τους τύπους μέσα από μια σειρά συζευκτικών σχέσεων και γ) να εκφράσει μέσα στο μαθησιακό περιεχόμενο τις επικοινωνιακές του προθέσεις απέναντι σε μια συγκεκριμένη ομάδα – στόχο χρηστών. / This thesis proposes a conceptual framework for designing learning objects which is imbued by Social Semiotics and Rhetoric Structure Theory. An outlook of learning objects as digital multimodal macrogenres composed by digital microgenres is proposed. The organization of learning content is modeled through several systemic networks which represent the design choices of the learning objects’ author. With this semiotic framework at his disposal, a learning objects’ author can be equipped with those conceptual tools that will enable him: a) to create or use different types of microgenres according to the communicative functions they serve, b) to link these types through a series of conjunctive relations and c) to express within the learning content his communicative intentions towards a particular target group of users.
8

Συσκευή αναγνώρισης και παρακολούθησης ιπτάμενων αντικειμένων

Φίλης, Δημήτριος, Ρένιος, Χρήστος 08 July 2011 (has links)
Η τεχνολογία της αναγνώρισης και παρακολούθησης αεροσκαφών βρίσκει ποικίλες εφαρμογές σε όλους τους τομείς της αεροναυσιπλοΐας, πολιτικούς και στρατιωτικούς, από τον έλεγχο και τη ρύθμιση της εναέριας κυκλοφορίας σε πολιτικά αεροδρόμια έως το χειρισμό και την καθοδήγηση αντιαεροπορικών όπλων για στρατιωτικούς σκοπούς (π.χ. το σύστημα TAS του αντιαεροπορικού συστήματος MIM-23B Hawk). Έως σήμερα, γνωστές μέθοδοι υλοποίησης αποτελούν οι ραδιοεντοπιστές (radar), οι υπέρυθρες και οι θερμικές κάμερες, τα οποία είναι εγκατεστημένα σε επίγειους σταθμούς, σε κινούμενες μονάδες και σε αεροσκάφη. Το σύστημα που δημιουργήθηκε και θα παρουσιαστεί στην παρούσα διπλωματική εργασία αποτελεί μια εναλλακτική μέθοδο υλοποίησης της αναγνώρισης και της παρακολούθησης ιπτάμενων αντικειμένων, που εκμεταλλεύεται το οπτικό φάσμα με τη χρήση μιας οπτικής κάμερας ενσωματωμένης σε ένα σερβοκινητήρα. Σε σημεία όπου είναι δύσκολο να εφαρμοσθεί κάποια άλλη τεχνολογία ή σε σημεία που δεν καλύπτονται από άλλες συσκευές ανίχνευσης (π.χ. radar), η συσκευή μας προσφέρει όμοιες υπηρεσίες και συμπληρώνει πιθανά χάσματα ακάλυπτων περιοχών. Συγκεκριμένα, μέσω του λογισμικού που έχει αναπτυχθεί, όταν κάποιος στόχος (αεροσκάφος) εισέλθει στο οπτικό πεδίο της κάμερας, ανιχνεύεται και αναγνωρίζεται. Στη συνέχεια ο σερβοκινητήρας παρακολουθεί τον στόχο τροφοδοτούμενος με δεδομένα της θέσης και της ταχύτητάς του, ενώ βρίσκεται σε συνεχή επικοινωνία με την κάμερα. Όλα τα παραπάνω έχουν αναπτυχθεί ώστε να λειτουργούν σε συνθήκες πραγματικού χρόνου. Παρά την απουσία μιας θεωρητικής παρουσίασης ή μιας ολοκληρωμένης λύσης οπτικής αναγνώρισης και παρακολούθησης αεροσκαφών, η αναζήτηση και μελέτη της διεθνούς βιβλιογραφίας μας έδωσε το θεωρητικό υπόβαθρο για την κατανόηση του προβλήματος και ταυτόχρονα τη δυνατότητα να συνδυάσουμε τεχνικές και μεθόδους για την επίτευξη του στόχου μας. Για την επιτυχή αναγνώριση και παρακολούθηση των στόχων δημιουργήθηκαν διάφορα μοντέλα προσομοίωσης για τον έλεγχο της συμπεριφοράς μεμονομένων χαρακτηριστικών. Συγκεκριμένα, στο υποσύστημα της αναγνώρισης του στόχου μοντελοποιήθηκε αρχικά μια μέθοδος εξαγωγής της θέσης βασισμένη στο χρώμα του στόχου σε περιβάλλον Matlab/Simulink. Στη συνέχεια η ίδια μέθοδος μεταφέρθηκε σε περιβάλλον LabVIEW για να εμπλουτισθεί με διάφορες άλλες μεθόδους βασισμένες σε ένα σύνολο από χαρακτηριστικά που θα αναλυθούν στη συνέχεια. Το τελικό μοντέλο αποτελεί συνδυασμό των μεθόδων του αθροίσματος απολύτων διαφορών, της οπτικής ροής, της εξαγωγής χρωματικών και σχηματικών χαρακτηριστικών, της κανονικοποιημένης εττεροσυσχέτισης και άλλων λογικών μεθόδων και βελτιστοποιήσεων τους. Για την επίτευξη μιας επιτυχυμένης παρακολούθησης ενός “κλειδωμένου” στόχου, δοκιμάστηκαν και έγιναν πολλές προσομοιώσεις με διαφορετικούς τύπους ελεγκτών. Συγκεκριμένα η δυναμική του μοντέλου που δημιουργήθηκε, εξαρτάται από ένα συνδυασμό ελεγκτών θέσεως, ταχύτητας και άλλων παραμέτρων. Αυτά εξασφαλίζουν ένα ευσταθές και γραμμικοποιημένο σύστημα παρακολούθησης, ικανό να παρακολουθήσει οποιοδήποτε στόχο με τη προϋπόθεση ότι τα χαρακτηριστικά του στόχου καθώς και η κατάστασή του (θέση, ταχύτητα κτλ.), ικανοποιούν τις απαιτήσεις του αλγορίθμου αναγνώρισης και είναι μέσα στις εργοστασιακές δυνατότητες του συστήματος. Το μοντέλο αυτό αναπτύχθηκε και υλοποιήθηκε σε περιβάλλον LabVIEW, όπως και οι μετρήσεις και προσομοιώσεις που έγιναν πάνω σε αυτό. Όλες οι παραπάνω μέθοδοι συνεργάζονται και είναι ικανοί να δώσουν ακριβή αποτελέσματα θέσης πραγματικών στόχων κατά τη διάρκεια της ημέρας ακόμα και κάτω από δύσκολες συνθήκες (όπως συννεφιά, χαμηλή φωτεινότητα, παρεμβολή αντικειμένων) σε πραγματικό χρόνο. Η ακραία μεταβολή των περιβαλλοντικών συνθηκών θα επηρρέαζε οποιοδήποτε οπτικό σύστημα, συνεπώς και το παρόν. Περιγραφή των παραγόντων που επηρρεάζουν το σύστημά μας θα γίνει στη συνέχεια. / The technology of aircraft recognition and tracking applies in various applications in all areas of air navigation, civil and military, from air traffic control and regulation at civilian airports to anti-aircraft weapon handling and guidance for military purposes (e.g the TAS system of MIM-23B Hawk anti-aircraft system). To date, known methods of implementation are the radar, infrared and thermal cameras, which are installed at ground stations, in moving plants and aircrafts. The system that was created and is presented in this thesis is an alternative implementation of identifying and tracking flying objects, which operates in the optical spectrum using an optical camera built into a servomotor (pan-tilt unit – PTU). In regions where is difficult for one technology to be applied or in areas that are not covered by other detection devices (e.g. radar), our device offers similar services and complements potential gaps that arise by uncovered areas. Specifically, through the software we developed, when a target (aircraft) enters the field of view of our camera, it is detected and identified. Then the PTU, fed with data of target position and velocity, tracks the aircraft while keeps in constant communication with the camera. All the above have been developed to operate in real time. Despite the lack of a theoretical presentation or a complete solution of optical aircraft recognition and tracking, search and study of literature has given us the theoretical background for understanding the problem and making it possible to combine techniques and methods to achieve our goal. For the successful identification and monitoring of the targets, various simulation models were created to control the behavior of isolated features. Specifically, for the target recognition subsystem a method for extraction of the position based on the color of the target was initially modeled in Matlab/Simulink environment. Then the same method was implemented in LabVIEW to be enriched with several other methods based on a set of features that will be discussed below. The final model is a combination of the sum of absolute differences between two images, the extraction of color and shape profiles, the normalized cross-correlation and other logical methods and their optimizations. In order a successful tracking of a “locked” target to be achieved, there have been many tests and carried out many simulations with different types of controllers. Specifically, the dynamic of the model which was created, depends on a combination of position/velocity controllers and other parameters. These provide a stable and linearized tracking system, capable to follow any target under the condition that the characteristics of the target and its current status (position, speed, etc.) meet the requirements of the recognition algorithm and is within the capabilities of the system. The model was developed and implemented in the LabVIEW environment, as well as measurements and simulations were carried out in it. All these methods work and are able to give accurate results of the position of real targets during the day, even under difficult circumstances (such as clouds, decreased sky brightness etc) in real time. The extreme variation of environmental conditions would affect any optical system and hence could affect ours as well. Description of the factors that affect our system will be presented.
9

Αποδοτική οργάνωση και διαχείριση πολυδιάστατων αντικειμένων για την ανακάλυψη γνώσης

Κροτοπούλου, Αικατερίνη 11 January 2011 (has links)
Ο σκοπός αυτής της διατριβής είναι η ανεύρεση μεθόδων αποδοτικής οργάνωσης και διαχείρισης πολυδιάστατων αντικειμένων (multi-dimensional objects) προκειμένου να ανακαλυφθεί χρήσιμη γνώση. Αρχική αφορμή για αυτή τη μελέτη αποτέλεσαν οι ανάγκες μιας απαιτητικής εφαρμογής με σκοπό τη χαρτογράφηση του ανθρώπινου εγκεφάλου προκειμένου να εντοπιστούν επιληπτικές εστίες. Οι απαιτήσεις Αναπαράστασης και Διαχείρισης των Δεδομένων του Εγκεφάλου, έφεραν στην επιφάνεια δύο κεντρικά ερευνητικά προβλήματα: - Τις ιδιαιτερότητες των πολύπλοκων, μη-ομοιογενών, δικτυακών μερικές φορές, τρισδιάστατων αντικειμένων (τμημάτων του εγκεφάλου – brain objects). - Την ανάγκη για αποτελεσματική διαχείριση-χρήση γνωστών αλλά και παραγόμενων εξαρτήσεων δεδομένων και γνώσης (data and knowledge dependencies), η οποία μπορεί να αναβαθμίσει την απόδοση και τη δυναμική της εφαρμογής. Το μεγαλύτερο μέρος της μελέτης που αφορούσε αυτό το πρόβλημα, οδήγησε σε : - Διερεύνηση θεμάτων ανεύρεσης ομοιοτήτων (similarity search). Καθώς η συγκεκριμένη περιοχή διαθέτει μεγάλο εύρος εφαρμογών αλλά και ανοικτών προβλημάτων, αποτέλεσε τελικά μεγάλο μέρος της παρούσας διατριβής. Δεδομένου ότι πολλά από τα γεωμετρικά χαρακτηριστικά των δεδομένων αλλά και από τις εξαρτήσεις γνώσης που αφορούν τον ανθρώπινο εγκέφαλο, συναντώνται – καθ’ολοκληρία ή τμηματικά – σε πλήθος σύγχρονων πολυμεσικών (multimedia) εφαρμογών, τα παραπάνω προβλήματα εντάσσονται στα βασικά προβλήματα της έρευνας του τομέα των Βάσεων Δεδομένων. Επικεντρώνοντας την έρευνά στα παραπάνω προβλήματα, καταλήξαμε: • στον ορισμό νέων ευέλικτων τύπων δεδομένων, εννοιών και μοντέλων καθώς και εργαλείων και μεθόδων ταξινόμησης δεδομένων και γνώσης (βάση δεδομένων BDB και μοντέλα 3D-IFO και MITOS) οι οποίες οργανώνουν πιο ευέλικτα και αποδοτικά τα δεδομένα μας, με τρόπους που όχι μόνο κάνουν την πρόσβασή τους ευκολότερη αλλά αξιοποιούν παράλληλα τις ‘κρυμμένες’ μεταξύ τους σχέσεις για την άντληση επιπλέον γνώσης. • στον ορισμό νέων μεθόδων και δέντρων αναζήτησης, για : o τον αποδοτικό εντοπισμό τμηματικών ομοιοτήτων (partial similarity) ανάμεσα σε πολυδιάστατα αντικείμενα (Lui k-n-match και INTESIS) o την εξάλειψη της μεγάλης πτώσης της απόδοσης των δέντρων με την αύξηση των διαστάσεων των αντικειμένων (‘dimensionality curse’) (δομή Digenis). o την ανεύρεση χαρακτηριστικών/διαστάσεων με παρόμοια εξέλιξη στην πορεία του χρόνου – για πολυδιάστατα κυρίως αντικείμενα – με σκοπό τη μελέτη πιθανής αλληλεπίδρασής τους. Γενικά, η παρούσα μελέτη αποτελείται από δύο βασικά μέρη, τα οποία αναφέρονται σε δύο περιοχές με μεγάλη αλληλεπίδραση:  Τη Μοντελοποίηση σε Πολυμεσικές Βάσεις Δεδομένων  Την Αναζήτηση Ομοιοτήτων ανάμεσα σε Πολυδιάστατα Αντικείμενα Στο πρώτο κεφάλαιο αρχικά παρουσιάζεται το πρόβλημα της χαρτογράφησης του ανθρώπινου εγκεφάλου για τον εντοπισμό επιληπτικών εστιών, απ’όπου εγείρονται τα πρώτα προβλήματα αναπαράστασης και οργάνωσης τριδιάστατων αντικειμένων πολύπλοκης δομής και λειτουργικών σχέσεων και εξαρτήσεων μεταξύ τους. Σε μια πρώτη προσέγγιση προτείνεται το λογικό μοντέλο BDB (Brain Data Base) όπου εισάγονται νέοι τύποι οντοτήτων. Εδώ, ιδιαίτερο ενδιαφέρον παρουσιάζει η προσθήκη της ιεραρχικής διάταξης στο Σχεσιακό Μοντέλο, προκειμένου οι περιοχές του εγκεφάλου να οργανωθούν με βάση την πιθανότητα εμφάνισης επιληπτικής εστίας έτσι ώστε να βελτιώνονται στατιστικά οι χρόνοι ανάκτησής τους. Στη συνέχεια, η μελέτη επεκτείνεται σε άλλα – επόμενης γενιάς - είδη μοντέλων. Πιο συγκεκριμένα, οι ανάγκες της εφαρμογής μελετώνται με βάση ένα Σημαντικό (semantic model) - το μοντέλο IFO - και ένα Αντικειμενοστραφές Μοντέλο (object oriented model), με αποτέλεσμα τη δημιουργία των μοντέλων 3D-IFO και MITOS αντίστοιχα. Στο 3D-IFO εισήχθησαν νέοι τύποι δεδομένων προκειμένου να υποστηριχθούν αποδοτικά τα ιδιαίτερα δεδομένα μας καθώς και νέοι τελεστές για την καλύτερη διαχείριση των σύνθετων δεδομένων. Επιπλέον, εισήχθη ένας νέος constructor και ένα κατάλληλο πεδίο για την υποστήριξή του, προκειμένου να υποστηριχτεί η αναπαράσταση της διάταξης των μερών του εγκεφάλου με βάση κάποιο κριτήριο έτσι ώστε να διευκολυνθεί η μελλοντική απλή και συνδυαστική ανάκτηση πληροφορίας. Τέλος το αντικειμενοστραφές μοντέλο MITOS, εισάγει πάλι ένα νέο μοντέλο δεδομένων (MITOS Data Model - MDM) το οποίο συνεργάζεται με μία νέα γλώσσα ερωτημάτων (MITOS Query Language - MQL). Το μοντέλο MITOS εισάγει διάφορες καινοτομίες οι οποίες εξυπηρετούν μια περισσότερο εκφραστική και έξυπνη αναπαράσταση και διαχείριση πολυδιάστατων δεδομένων και γνώσης. Η μία από αυτές τις καινοτομίες είναι ο ορισμός ενός ακόμη βασικού χαρακτηριστικού των αντικειμένων (object characteristic), της σχέσης τους με το περιβάλλον, απεγκλωβίζοντάς την από την κατάσταση ή τη συμπεριφορά, όπου αποδυναμώνεται σαν έννοια. Η δεύτερη καινοτομία του MITOS η οποία αφορά την MQL σχετίζεται με την εισαγωγή ‘κλειδιού’ στους κανόνες (rules). Η διερεύνηση αυτής της δυνατότητας – η ιδέα προέρχεται από το χώρο των Βάσεων Δεδομένων – οδηγεί πράγματι σε ένα είδος κλειδιού, κατά την έννοια που θα μπορούσε να έχει στις Βάσεις Γνώσης και η οποία δεν μπορεί να είναι ακριβώς ίδια με την αντίστοιχη των Βάσεων Δεδομένων, λόγω των ειδοποιών διαφορών των δύο Βάσεων. Στο δεύτερο κεφάλαιο μελετάται η αναζήτηση ενός ελάχιστα διερευνημένου είδους ομοιότητας ανάμεσα σε πολυδιάστατα κυρίως αντικείμενα, της τμηματικής ομοιότητας (partial similarity). Η τμηματική ομοιότητα σε αντίθεση με τον ιδιαίτερα διερευνημένο τύπο της πλήρους ομοιότητας (full similarity), αναφέρεται σε πραγματικές ομοιότητες οι οποίες δεν είναι πλήρεις. Κι αυτό συμβαίνει γιατί ένα πολύ συνηθισμένο σενάριο κατά τη διερεύνηση ομοιοτήτων είναι το ακόλουθο: Συνήθως η ανεύρεση πλήρους ομοιότητας βασίζεται σε υπολογισμό αποστάσεων, όπως η Ευκλείδεια απόσταση, οι οποίες είναι συνάρτηση όλων των διαστάσεων των εμπλεκομένων αντικειμένων. Όταν λοιπόν υπάρχουν διαστάσεις με μεγάλες διαφορές, ακόμη κι αν είναι λίγες, αυξάνουν αρκετά την υπολογιζόμενη απόσταση έτσι ώστε οι αποστάσεις τέτοιων αντικειμένων που στην πραγματικότητα μπορεί να είναι όμοια, να καταλήγουν να έχουν μεγάλες τιμές και συνεπώς να μην ανιχνεύεται η ομοιότητά τους (π.χ. όμοια αντικείμενα με πολύ διαφορετικό χρώμα). Από την άλλη πλευρά, για αντικείμενα τα οποία διαφέρουν λίγο σε κάθε διάσταση (π.χ. λίγο διαφορετικό χρώμα, σχήμα, προσανατολισμό κ.λ.π.) και καταλήγουν να είναι στην πραγματικότητα συνολικά πολύ διαφορετικά, η υπολογιζόμενη μεταξύ τους απόσταση έχει μικρή τιμή, οπότε ανιχνεύονται σαν όμοια, χωρίς να είναι. Οι περισσότερες εργασίες οι οποίες έχουν μελετήσει την τμηματική ομοιότητα, έχουν εστιάσει σε γεωμετρικά δεδομένα. Η εργασία που επεκτείνεται σε πολυδιάστατα αντικείμενα γενικά, είναι η εργασία των Koudas et al., (VLDB 2006) και έχει οδηγήσει σε αξιόλογα αποτελέσματα στο θέμα της τμηματικής ομοιότητας. Εισάγει τις αποδοτικές μεθόδους k-n-match και frequent k-n-match, οι οποίες επιστρέφουν k αντικείμενα, όμοια με τα δοθέντα όχι σε όλες αλλά σε n διαστάσεις, αποφεύγοντας έτσι εκείνες τις λίγες διαστάσεις με τις μεγάλες διαφορές, οι οποίες οδηγούν σε παραπλανητικά αποτελέσματα. Παρόλ’αυτά αυτές οι μέθοδοι κρύβουν κάποιες αδυναμίες οι οποίες τελικά οδηγούν είτε σε ανεύρεση πλήρους ομοιότητας (όταν τελικά ληφθούν υπ’όψιν όλα τα n), είτε σε μία κατά περίπτωση μόνο (και σχεδόν τυχαία) ανίχνευση τμηματικής ομοιότητας (με τα κατάλληλα n’s τα οποία δεν πρέπει να είναι ούτε πολύ μεγάλα ούτε πολύ μικρά, αλλά δεν ορίζονται από κάποιο τύπο ή μέθοδο). Βασιζόμενοι σ’ αυτές τις μεθόδους, προτείνουμε δύο νέες τεχνικές οι οποίες όπως αποδεικνύεται μπορούν να εντοπίσουν πραγματικές τμηματικές ομοιότητες. Η πρώτη, η Lui k-n-match, επιτυγχάνει τον κατά προσέγγιση εντοπισμό των κατάλληλων n’s για τα k-n-matches, με τη βοήθεια της αλληλεπίδρασης με το χρήστη και του ελέγχου των αποδεκτών προτάσεων των k-n-matches. Πιο συγκεκριμένα, μέσω της μεθόδου k-n-match, προτείνεται για κάθε n ένα σύνολο αντικειμένων πιθανά όμοιων με το δεδομένο αντικείμενο του ερωτήματος (query object) . Ο χρήστης φιλτράρει αυτό το σύνολο, επιλέγοντας εκείνα τα αντικείμενα που θεωρεί πραγματικά όμοια με το δεδομένο. Αυτή η διαδικασία συνεχίζεται μέχρι αφού το n γίνει μεγαλύτερο από το ήμισυ των διαστάσεων των αντικειμένων, υπάρξει σύνολο προτεινόμενων αντικειμένων από το οποίο ο χρήστης δεν επιλέγει κανένα ως όμοιο . Μ’αυτόν τον τρόπο επιτυγχάνεται μεγαλύτερη εγκυρότητα των αποτελεσμάτων (λόγω της εμπλοκής του χρήστη) με περιορισμένο ταυτόχρονα αριθμό εκτελούμενων k-n-matches. Η δεύτερη μέθοδος (INTESIS) βασίζεται στην εξής παρατήρηση: στην ουσία όταν δύο αντικείμενα μοιάζουν αυτό συνήθως σημαίνει ότι μοιάζουν στα περισσότερα χαρακτηριστικά τους, καθένα από τα οποία αναπαριστάται και αντιπροσωπεύεται από ένα σύνολο (μικρό συνήθως) διαστάσεων-πεδίων του αντικειμένου. Εάν λοιπόν οριστεί από τους ειδικούς κάθε εφαρμογής αυτή η αντιστοιχία χαρακτηριστικών και διαστάσεων - δημιουργώντας υποσύνολα διαστάσεων - τότε μπορούν να συμβούν διαδοχικά τα παρακάτω: α) Να γίνει έλεγχος πλήρους ομοιότητας σε κάθε τέτοιο υποσύνολο διαστάσεων β) Να οργανωθούν αυτά τα υποσύνολα σε ισάριθμα ιεραρχικά δέντρα για την εύκολη και αποδοτική διαχείρισή τους. Η επιπλέον απλούστευση αυτής της επιλογής έγκειται στο ότι δεδομένου ότι τα εν λόγω υποσύνολα διαστάσεων θα είναι μικρά, είναι πολύ εύκολη η επιλογή δέντρου γι’ αυτά, αφού σχεδόν όλα τα ιεραρχικά δέντρα έχουν μεγάλη απόδοση όταν πρόκειται για μικρό αριθμό διαστάσεων. Συνεπώς ο αναλυτής της κάθε εφαρμογής μπορεί να χρησιμοποιήσει όποιο τέτοιο δέντρο κρίνει εκείνος σαν καλύτερο ( Το R*-tree είναι η δική μας πρόταση). Τελικά, για να ολοκληρωθεί η διαδικασία πρέπει να έχει οριστεί ένας ελάχιστος αριθμός απαιτούμενων όμοιων χαρακτηριστικών προκειμένου να θεωρηθούν δύο αντικείμενα όμοια. Για την αξιολόγηση αυτής της μεθόδου, πρέπει αρχικά να σημειωθεί ότι αναφέρεται σε συνολικό αριθμό διαστάσεων μικρότερο του 100 και συνεπώς σε σχετικά μικρό αριθμό δέντρων. Όπως είναι φανερό, σε μονο-επεξεργαστικό σύστημα οι τελικοί χρόνοι απόκρισης είναι το άθροισμα των χρόνων κάθε δέντρου. Λαμβάνοντας υπ’όψιν το ότι τα δέντρα λόγω του μικρού αριθμού διαστάσεων που αντιστοιχούν στο καθένα έχουν πολύ καλές αποδόσεις, βγαίνει εύκολα το συμπέρασμα ότι ο εκάστοτε τελικός χρόνος απόκρισης της μεθόδου - όντας ένα μικρό πολλαπλάσιο των πολύ μικρών χρόνων προσπέλασης των δέντρων - είναι αρκετά χαμηλός. Με δεδομένο ότι η χρήση κάθε δέντρου δεν προϋποθέτει την χρήση κάποιου άλλου πριν ή μετά, οι αναζητήσεις σε κάθε δέντρο μπορούν να γίνονται παράλληλα. Συνεπώς σε πολυεπεξεργαστικό σύστημα, ο συνολικός χρόνος απόδοσης μπορεί να μειωθεί σημαντικά, φτάνοντας μέχρι και το χρόνο που απαιτείται μόνο για αναζήτηση σε ένα δέντρο (όταν υπάρχουν τόσοι επεξεργαστές όσα και δέντρα). Φυσικά, εάν λάβει κανείς υπ’όψιν του ότι η τμηματική ομοιότητα αποτελεί ένα ιδιαίτερα απαιτητικό είδος τότε όχι μόνο οι χρόνοι απόκρισης σε πολυεπεξεργαστικό σύστημα αλλά και εκείνοι του συστήματος ενός επεξεργαστή, αποτελούν ικανοποιητικές αποδόσεις. Το τρίτο κεφάλαιο μελετά τη δυνατότητα δημιουργίας μιας νέας δομής η οποία δε θα ‘υποφέρει’ από τη μεγάλη πτώση της απόδοσης των δέντρων με την αύξηση των διαστάσεων των αντικειμένων (‘dimensionality curse’) ενώ ταυτόχρονα θα εξασφαλίζει καλή απόδοση και σε μικρό αριθμό διαστάσεων. Οι μέχρι τώρα μελέτες έχουν καταλήξει στο εξής συμπέρασμα: Τα γνωστά διαδεδομένα δέντρα αναζήτησης (είτε πρόκειται για δέντρα οργανωμένα βάση κατανομής χώρου (space partitioning) είτε για δέντρα βάση κατανομής δεδομένων (data partitioning)) αποδίδουν πολύ καλύτερα σε μικρό αριθμό διαστάσεων ενώ όσο αυτός ο αριθμός αυξάνει - ειδικά από 10 και πάνω – η απόδοση χειροτερεύει δραματικά. Το VA-File (σχήμα προσέγγισης διανύσματος) από την άλλη πλευρά - το οποίο είναι ένας απλός πίνακας-αρχείο γεωμετρικών προσεγγίσεων των αντικειμένων - με την αύξηση των διαστάσεων αποδίδει καλύτερα στην αναζήτηση ομοιοτήτων αλλά παρουσιάζει χαμηλή απόδοση σε μικρό αριθμό διαστάσεων. Προκειμένου να ξεπεραστεί αυτή η καθοριστική εξάρτηση της απόδοσης από το πλήθος των διαστάσεων των προς διαχείριση αντικειμένων, προτείνουμε τη νέα υβριδική δομή Digenis, η οποία παντρεύει τη λογική των δέντρων αναζήτησης με κείνη των VA αρχείων. Πιο συγκεκριμένα, ορίζεται και χρησιμοποιείται ένα στατικό παραμετροποιημένο δέντρο (δέντρο Digenis) σε εννοιολογικό επίπεδο ενώ σε φυσικό επίπεδο χρησιμοποιείται το αρχείο Digenis το οποίο κατασκευάζεται με βάση το δέντρο. Με αυτή τη συσχέτιση επιτυγχάνεται αναζήτηση σε μικρό μόνο μέρος του αρχείου κατά τη διαδικασία ανεύρεσης ομοιοτήτων ανάμεσα σε αντικείμενα πολλών αλλά και λίγων διαστάσεων, γεγονός που δίνει γενικότητα και ευελιξία στη μέθοδο. Πιο συγκεκριμένα, για το σχηματισμό του δέντρου, αρχικά ορίζονται οι οικογένειες αντικειμένων, οι οποίες αποτελούνται από αντικείμενα με μικρή απόσταση (βάση ενός προκαθορισμένου από τον εκάστοτε αναλυτή ορίου fl) και αντιπροσωπεύονται από το ‘μέσο’ αντικείμενο της οικογένειας (εάν δεν υπάρχει δημιουργείται για αυτό το ρόλο και μόνο). Κάθε κόμβος του δέντρου αντιπροσωπεύει-φιλοξενεί μία τέτοια οικογένεια. Το είδος των αποστάσεων που χρησιμοποιείται είναι η πλέον διαδεδομένη απόσταση, η Ευκλείδεια απόσταση, για την οποία ισχύει και η τριγωνική ανισότητα στην οποία θα βασιστεί μεγάλο μέρος της μεθόδου. Επίσης ένα δεύτερο όριο απόστασης (Lt) ορίζεται – από τον αναλυτή πάλι - σαν όριο με βάση το οποίο δύο αντικείμενα μπορούν να θεωρηθούν όμοια. Το δέντρο Digenis τελικά χτίζεται έχοντας ρίζα την πιο ‘κεντρική’ οικογένεια της περιοχής των αντικειμένων και κόμβους-παιδιά της τις ch πιο γειτονικές της οικογένειες, κάθε μία από αυτές έχει παιδιά της τις ch πιο γειτονικές της οικογένειες κ.ο.κ. Η δεδομένη ισχύ της τριγωνικής ανισότητας ανάμεσα στις Ευκλείδειες αποστάσεις των αντικειμένων-οικογενειών, αποδεικνύεται ένα χρήσιμο θεώρημα βάση του οποίου καθιστάται εφικτή η ασφαλής εξαίρεση μεγάλου μέρους του δέντρου από τους ελέγχους ομοιότητας, κατευθύνοντας τον τελικό έλεγχο σε μία μικρή περιοχή του. Αυτή η ανάλυση της αναζήτησης μέσα στο δέντρο είναι πολύ χρήσιμη σε ό,τι αφορά τη χρήση του αρχείου Digenis, όπου εκεί πραγματοποιείται η πραγματική αναζήτηση (φυσικό επίπεδο). Το αντίστοιχο αρχείο Digenis στο φυσικό επίπεδο σχηματίζεται εάν αντιστοιχίσουμε σε κάθε του εγγραφή έναν κόμβο του δέντρου, ξεκινώντας από τη ρίζα του δέντρου και περνώντας από κάθε επίπεδο, από αριστερά προς τα δεξιά. Με αυτή την αντιστοίχηση, μπορούν πολύ εύκολα να χρησιμοποιηθούν οι τεκμηριωμένες τεχνικές εύκολου, ασφαλούς και γρήγορου αποκλεισμού περιοχών. Ο απολογισμός της μεθόδου (θεωρητικά αλλά και πειραματικά) περιλαμβάνει θετικές και αρνητικές όψεις. Θετικές όψεις: • Το αρχείο έχει πολύ καλή απόδοση όταν διαχειριζόμαστε αντικείμενα πολλών διαστάσεων. Αυτό ήταν αναμενόμενο αφού το αρχείο λειτούργησε σαν ένα είδος VA αρχείου, όπου το ζητούμενο ήταν η δημιουργία συμπαγών γεωμετρικών προσεγγίσεων. Κι αυτό γιατί και η χρήση των οικογενειών επέφερε μία πρώτη ‘συμπίεση’ των δεδομένων αλλά και η προ-τακτοποίηση των αντικειμένων μέσω της εννοιολογικής χρήσης του δέντρου οδήγησε σε ένα είδος ομαδοποίησης γειτονικών αντικειμένων σε γειτονικές περιοχές. • Το αρχείο έχει επίσης καλές επιδόσεις και όταν διαχειριζόμαστε αντικείμενα λίγων διαστάσεων. Αυτό συμβαίνει γιατί σε σχέση με το αρχείο VA είναι αναμενόμενα καλύτερο αφού βασίζεται σε δενδρική διάταξη, ενώ για τον ίδιο λόγο είναι ανταγωνιστικό και των παραδοσιακών ιεραρχικών δέντρων. Αρνητικές όψεις: • Η στατικότητα στον ορισμό του αριθμού(ch) των παιδιών ανά κόμβο του δέντρου, δημιουργεί προβλήματα στην κατασκευή του, γιατί συνήθως οι πραγματικά όμοιες οικογένειες μπορεί είναι περισσότερες ή λιγότερες από ch. Αντιμετώπιση: Αν είναι περισσότερες, τοποθετούνται στο σύνολο των παιδιών οι ch κοντινότερες (με μικρότερες αποστάσεις από τον γονέα). Αν είναι λιγότερες, τότε ορίζεται ένα σχετικό όριο παιδιών και γεμάτων κόμβων στο δέντρο, πάνω από το οποίο τα παιδιά τοποθετούνται κανονικά στο δέντρο και οι υπόλοιποι κόμβοι μέχρι να συμπληρωθεί ο αριθμός παιδιών ch, συμπληρώνεται με κενούς κόμβους. Όταν όμως ο αριθμός των παιδιών μιας οικογένειας και οι υπόλοιποι γεμάτοι κόμβοι στο δέντρο είναι κάτω από αυτό το όριο, το αντίστοιχο προς δημιουργία δέντρο αποκόπτεται και δημιουργείται νέο μικρότερο δέντρο - με μικρότερο ch – ενώ το αρχικό δέντρο αναδιατάσσεται. Συνεπώς η τελική εφαρμογή μπορεί να περιλαμβάνει περισσότερα του ενός αρχεία Digenis, τα οποία κατά την αναζήτηση προσπελαύνονται από το μεγαλύτερο προς το μικρότερο, μέχρι να βρεθεί ομοιότητα (εάν υπάρχει). • Μπορεί να υπάρχουν απομακρυσμένες οικογένειες – να μη συνδέονται με καμία άλλη – οι οποίες δεν μπορούν να ενταχθούν σε κανένα δέντρο. Αντιμετώπιση: Δημιουργείται ένα Αρχείο Απομακρυσμένων (‘remote’ αρχείο) στο οποίο τοποθετούνται σειριακά οι απομακρυσμένες οικογένειες. Κατά την αναζήτηση αυτό το αρχείο προσπελαύνεται πρώτο, γιατί εφόσον εν γένει θα φιλοξενεί λίγες οικογένειες, η αναζήτηση σ’ αυτό θα είναι γρήγορη. Εάν υπάρχει ομοιότητα μεταξύ του αντικειμένου του ερωτήματος (query) και κάποιας οικογένειας του αρχείου, τότε έχει αποφευχθεί όλη η αναζήτηση στα δέντρα ενώ εάν πάλι δεν υπάρχει τέτοια ομοιότητα, λόγω του μικρού μεγέθους του αρχείου, η χρονική επιβάρυνση είναι σχεδόν αμελητέα. Στο τελευταίο κεφάλαιο εξετάζεται ένα είδος δυναμικής αναζήτησης ομοιότητας, το οποίο ασχολείται με τις χρονικές ακολουθίες όχι των ίδιων των αντικειμένων αλλά των πεδίων (χαρακτηριστικών) τους. Δηλαδή αυτό που ανιχνεύεται είναι το κατά πόσο μοιάζει η εξέλιξη δύο χαρακτηριστικών στο χρόνο, πληροφορία που μπορεί να σταθεί πολύ χρήσιμη σε πολλά είδη εφαρμογών (ιατρικές, οικονομικές, επιστημονικές γενικά, κλπ). Χρησιμοποιώντας ένα παράδειγμα ιατρικών δεδομένων που αφορούν ορμόνες, με τη βοήθεια της προτεινόμενης μεθόδου (Chiron) εντοπίζονται με αποδοτικό τρόπο όμοια ε / The subject of this dissertation is the invention of methods which assure effective organization and management of multi-dimensional objects in order to achieve knowledge discovery. The initial target behind this study was the needs of a demanding application intending to map the human brain in order to help the localization of epileptic foci. During the corresponding research, the Representation and Management needs of human brain data raised two core research problems:  The representation peculiarity of the composite, non-uniform, network structured three-dimensional objects(brain objects), and  The needs for effective management-use of known and derived data and knowledge dependencies, which can upgrade the application performance and dynamics. The most important part of our relative research, leaded to the: o Investigation of similarity search aspects. As this research area has great application and open problem width, it constitutes a great part of this dissertation. Taking into account that the certain geometrical and knowledge dependency features of human brain data are common – all or part of them - in many modern multimedia applications, the above problems are included in the basic Data Base research problems. Focusing our research in the above problems, we lead up to the:  Definition of new flexible data types, concepts, models, tools and data and knowledge ordering methods (Data Base BDB and models 3D-IFO and MITOS) which organize our data more flexibly and effectively, using methods that not only assure easier data access but also exploit their ‘hidden’ relationships and dependencies for more knowledge discovery.  Definition of new search trees and methods for: o Effective detection of partial similarity among multi-dimensional objects ( Lui k-n-match και INTESIS). o Obliteration of the high performance fall which occurs in similarity trees as dimensionality increases (‘dimensionality curse’) (Digenis structure ). o Detection of object features/attributes/properties (dimensions) which have similar course in the time course – for multi-dimensional objects mostly – aiming at the study and detection of possible interaction among them (Chiron proposal ). Generally, this dissertation consists of two basic parts, which refer to two research areas with great interaction: • The Multi-Dimensional Data Base Modelling • The Similarity Search among Multi-Dimensional objects. Ιn the first chapter, the problem of human brain mapping for the localization of epileptic foci is discussed. This problem raises issues related to the peculiarities of the representation and the organization of three dimensional objects with complex structures/shapes and functional dependencies and relationships among them (brain objects). In the beginning, the logical model BDB (Brain Data Base) is proposed as a first approach, introducing new entity types. In the corresponding study, a very interesting proposal is the introduction of hierarchical ordering in the Relational Model in order to organize the brain areas according to their frequencies of epileptic foci presence, improving statistically the corresponding response times. In the following, the needs of the application are studied in the basis of a Semantic – IFO model - and of an Object-oriented Model, resulting in the definition of the 3D-IFO and the MITOS (Model for the Intelligent Three-dimensional Object Support) model, respectively. In the framework of 3D-IFO model, new data types and new operators have been introduced, in order to achieve effective representation and better management of the complex brain objects. Additionally, a new constructor and the suitable attribute for its support have been introduced, in order to effectively represent the ordering among brain parts, based on a certain criterion, thus facilitating combined data retrieval. In the end, the object-oriented model MITOS, introduces a new data model (MITOS Data Model – MDM) which cooperates with an intelligent knowledge base approach (MITOS Query Language – MQL). MITOS model introduces many novelties which serve a more expressive and intelligent representation and management of multi-dimensional data and knowledge. One of these novelties constitutes the definition of one more basic object characteristic (in object-oriented theory), the relationship with the environment, releasing it from the situation or the behaviour, where its concept and representation weakens. The second MITOS novelty concerns MQL and is related to the introduction of the concept of ‘key’ in the rules area. The extension of this potentiality – the idea comes from Data Base area – leads in fact to a kind of a key, with a meaning that it could have in Knowledge Bases and can not be exactly the same with that in Data Bases, because of the specific distinctions of these two Bases. The subject of the second chapter is the detection of a least investigated similarity kind among multi-dimensional objects, the partial similarity. Partial similarity refers to similarities which are not full but they really exist. It is difficult to capture them using common techniques based on similarity functions (e.g. Euclidian distance) because these functions are affected by the whole set of object dimensions. Thus, when the objects are similar but ‘very different’ in few dimensions (e.g. very different colour and size) then the corresponding calculated functions (distances) will have very high values because of these few high dissimilarities and the similarity result will be negative while the objects will actually be similar. On the other hand, when between two objects there are low dissimilarities in most dimensions, they are actually dissimilar but the resultant function will have low value, so the dissimilar objects will be discerned as similar. In both cases, the common full similarity detection methods are not reliable. The few studies that have investigated partial similarity, have mostly focused on geometric data. The study which is extended to multi-dimensional objects in general and has led to significant results in partial similarity, is presented in a paper of Koudas and al., in VLDB 2006. It introduces the effective methods k-n-match and frequent k-n-match, which result in k objects being similar to the given ones not in all their dimensions but at least in n ones, avoiding in this way those few very dissimilar dimensions –if any- which lead to false results. Nonetheless, these methods have some weaknesses which finally result either in full similarity (when finally, in frequent k-n-match, all n’s are taken into account) or in an occasional partial similarity detection (with the suitable n’s, which should not be very high or very low, without having however any type or method to calculate the ‘best’ n’s). Based on these methods, we propose two techniques which can provably detect real partial similarities. The first of them, Lui k-n-match, succeeds in the approximate specification of the suitable n’s for the k-n-matches, based on human-computer interaction and on the suitable checks of the similar objects that k-n-matches propose. More precisely, using k-n-match, for each n a set with objects possibly similar to the given one (query object), is proposed. The user filters this set and decides which objects of the proposed set are really similar to the given one. This procedure continues until the point where, while n has become larger than d/2* , the user does not select any object as similar from the proposed object set. In this way, the results are more reliable and valid (because of human-computer interaction) while in parallel the number of the executed k-n-matches are remarkably reduced. The second partial similarity detection method (INTESIS) is based on the following observation: when two objects are similar, it usually means that they are similar in most of their characteristics. In data bases, each of object characteristic is represented by a set (usually small) of features-attributes(dimensions). Thus, if this correspondence between a characteristic and a set of attributes is defined by the developer of each application - creating dimension subsets – then the following can be successively done: a) A full similarity detection for each dimension subset b) Organization of these subsets in the corresponding hierarchical trees for their easy and effective management. The additional simplification of this choice derives from the fact that as long as the dimension subsets are small, the selection of the corresponding tree will be a very easy task, while almost all hierarchical trees have high performance for low dimensionalities. Consequently, the developer of each application can use the hierarchical tree that he/she considers as best (our proposition is R*-tree). Finally, in order to complete the procedure, the application developer has to define which is the minimum number of the requisite similar characteristics that indicate partial similarity, for the particular application. For the evaluation of the method, first of all, it is necessary to mention that it refers to a total number of dimensions less than 100 and consequently to a relatively small number of trees. As it is obvious, the final response time in a uniprocessor system is the sum of the response times of each tree. Taking into account that the number of dimensions which correspond to each tree is small, these trees have very good response times and consequently the total response time is low enough. While the use of each tree does not presuppose the use of another tree before or after it, the search in each tree can be performed in parallel. Therefore, in a multi-processing system, the total response time can be considerably reduced, achieving to reach the time needed for only one tree (when the number of processors is equal to the number of trees). Furthermore, bearing in mind that partial similarity forms a very demanding similarity search kind, not only the response times in multi-processing systems but those times in a uniprocessor system constitute satisfying performances. The third chapter studies the potentiality of defining a new structure which does not ‘suffer’ from ‘dimensional curse’, while it assures good performance for low dimensionalities too. The latest studies have resulted in the following: Although the known similarity trees (either based on space partitioning or on data partitioning perform effectively in cases of low dimensionality, their performance generally degrades as dimensionality increases (especially for more than 10 dimensions). On the other hand, VA-File constitutes a simple approximate method (it is a simple array-file of object geometric approximations) which manages to outperform any other similarity search method at high dimensionality but it has low performance for low dimensionality. In order to overcome this determinant dependence between the performance and the dimensionality of a data-object set, we propose the new hybrid structure called Digenis, which marries the logic of similarity trees with VA-Files logic. More precisely, a static parametric tree (Digenis tree) is defined in conceptual level while the Digenis file, based on Digenis tree, is used in physical level. Using this correlation, a) the similarity search procedure is located in a small part of the file, excluding most dissimilar objects from the search and b) the method is used effectively for both low and high dimensional objects, preserving generality and flexibility. The first necessary definition for Digenis proposal is related to the object families. They consist of objects having a small distance among them (based on a certain limit fl defined from the analyst, in each case) and they are represented by the ‘mean’ object of the family (if it does not exist, it is created just for this role). Each object family is hosted in a node of Digenis tree. The distance which is used is the most spread one, the Euclidian distance, for which the triangle inequality – where the method is mainly based - stands. Additionally, a second distance limit (Lt) is defined – from the analyst- which forms the limit used to conclude if two objects are similar or not. Finally, the root of the Digenis tree is the most ‘centered’ family in the total object area and the nodes being the children of it are its ch nearest families-nodes. The children of each of them are its ch nearest families, and so on. The triangle inequality which stands among the Euclidian distances of the object-families, is proved to be a very useful Theorem for the safe check exclusion of a great part of the tree , leading to a final check in a small tree area. The search analysis of the tree is very helpful for the use of Digenis file, where the real search is performed (physical level). The corresponding Digenis file in the physical level is created if each tree node composes a record of the file, beginning from the tree root and passing from each level, from left to right. Using this correspondence, the proved Digenis tree techniques of easy, safe and quick exclusion of Digenis record areas can be used. The (theoretical and experimental) evaluation of the method results in the detection of certain advantages and disadvantages of it. Advantages:  The file has very good performance for high dimensionalities. This was expected because the file works as a kind of VA-File, where the records are compact geometric approximations. This matters because both the use of object families achieves a first data ‘compression’ and the pre-arrangement of the objects via the conceptual use of the tree lead to a kind of grouping of neighboring objects in neighboring areas.  The file has also good performance for low dimensionality, because in comparison to VA-File, it is expectably better while it is based on a tree structure. For the same reason, Digenis file is competitive to the classic hierarchical similarity trees. Drawbacks:  The fact that the number of children for each node is statically defined as ch in each application is a disadvantage for the construction of the tree, because usually the really similar families may be more or less than ch. Confrontation: If the similar families of a node are more than ch, then only the ch closest to the family are placed as its children, in the next level. If they are less than ch, then a limit of children and full nodes in the tree is defined. When this limit is overcome, the nodes-children are normally placed in the tree and the rest nodes –until ch-th one – remain empty. When however the number of the children of a family and of the full nodes in the tree, are less than this limit, the corresponding subtree is separated, creating a new smaller tree – with smaller ch – while the initial tree is reorganized. Consequently, the final application may include more than one Digenis tree, which are accessed from the bigger to the smaller, until the similarity is found (if any).  Perhaps there are remote areas of object families – without any connection with other families – which can not be included in any other tree. Confrontation: A file including sequentially the remote families (called ‘remote’ file’) is created. During the similarity search, this file is the first which is accessed because while it usually hosts a few families, the search will be quick enough. If a similarity is detected (among the query object and a family in the file), then the search in the trees will be avoided while if no similarity exists, the time overhead of the file search is almost negligible, because of its size. In the last chapter, a new kind of dynamic similarity search is investigated. It is related with the time streams not of the objects themselves but of their properties/attributes/dimensions. In other words, what is detected is whether the courses of two or more properties resemble. This kind of information can be very useful for several kinds of applications (medical, financial, scientific in general, e.t.c). Using medical data related to hormonal tests as an example, we prove that, based on our method Chiron, the hormones which are developed in the same way are accurately and effectively detected. More precisely, new objects (property course objects or Chiron objects) which encode the variations of each property in certain time intervals, are defined and organized in a tree (Chiron tree). The way these objects are defined, their differences and the Chiron tree itself make its navigation and the detection of similar Chiron objects – and consequently of properties which are developed in a similar way - a quick and easy procedure. This is achieved via the distribution of the Chiron objects in the Chiron tree according to the number of the different digits that exist among them. In this way, when we search in the Chiron tree for objects similar to a given one, a simple and compact algorithm is used, which avoids a vast amount of useless checks among very different objects. Generally, the method is promising enough because it poses new problems for investigation, like the statistical analysis of its results, the search for objects that are developed in a reverse way, the management of time shifts among the property course objects and the Chiron tree optimization.

Page generated in 0.0813 seconds