Global ETD Search

21	Ολοκληρωμένο διαδικτυακό σύστημα διαχείρισης και οργάνωσης δομημένων ηλεκτρονικών δημοσιευμάτων Τσαρούχης, Αθανάσιος 16 June 2011 (has links) Τα τελευταία χρόνια αυξάνεται διαρκώς ο όγκος και η ποικιλομορφία των εργασιών πραγματοποιούνται με τη χρήση του Διαδικτύου και των πηγών που είναι διαθέσιμες σε αυτό. Ιδιαίτερη σημασία δίνεται στην ικανοποίηση των αναγκών των κοινοτήτων χρηστών, των οποίων οι αριθμοί παρουσιάζουν εκρηκτική αύξηση. Ένα από τα σημαντικότερα είδη πηγών που ικανοποιούν τις ανάγκες των κοινοτήτων του Διαδικτύου είναι οι ψηφιακές βιβλιοθήκες. Οι ψηφιακές βιβλιοθήκες αποτελούν συλλογές από δομημένα ηλεκτρονικά δημοσιεύματα, οι οποίες προσφέρουν στην κοινότητα των χρηστών όπου απευθύνονται εξειδικευμένες υπηρεσίες, που αφορούν στο περιεχόμενο των εγγράφων που περιλαμβάνουν, εξασφαλίζοντας συγκεκριμένο επίπεδο ποιότητας σύμφωνα με κωδικοποιημένες πολιτικές. Στα πλαίσια της παρούσας διπλωματικής εργασίας πραγματοποιήθηκε ο σχεδιασμός και η υλοποίηση ενός διαδικτυακού εργαλείου για την φορμαλιστική αποθήκευση, παρουσίαση και διαχείριση των δομημένων ηλεκτρονικών δημοσιευμάτων μιας ψηφιακής βιβλιοθήκης. Κατά το σχεδιασμό των υπηρεσιών που παρέχονται μελετήθηκε η δυνατότητα ενσωμάτωσης τεχνικών επεξεργασίας φυσικής γλώσσας, με στόχο την αποτίμηση της συνεισφοράς και της απόδοσης τέτοιων τεχνικών στην αποθήκευση και ανάκτηση δομημένων ηλεκτρονικών δημοσιευμάτων γραμμένα στη Νέα Ελληνική, μια γλώσσα με ιδιαίτερη μορφολογία. / Over the past years the amounts of tasks that are being carried out the web as well as the size of the web data demonstrate a signature growth. The major challenge associated with exploiting this data is how to satisfy the user’s needs into fulfilling tasks. One significant source of web data is scientific digital libraries, which contain structured information sources of research documents and which offer end users specialized search services that ensure good retrieved quality. In the course of the present study we designed and implemented a web-based data retrieval service that incorporates novel indexing and information modules specialized for the core of Modern Greek. The novelty of our service is that relies on advanced NLP applications in order to improve retrieval performance. The experimental evaluation of our Modern Greek Service reveals that NLP significantly improves retrieval performance compared to baseline information retrieval systems. Μηχανές αναζήτησης Ανάκτηση πληροφορίας Ψηφιακές βιβλιοθήκες 025.04 Natural language processing Search engines Data mining Digital labraries
22	Ανάκτηση εικόνας βάσει υφής με χρήση Eye tracker / A texture based image retrieval technique using Eye tracker Καραδήμας, Ηλίας 11 January 2011 (has links) Η ραγδαία αύξηση των εικόνων, σε συνδυασμό με την αδυναμία των συστημάτων ανάκτησης εικόνας βάσει περιεχομένου να εξάγουν σημασιολογικά χαρακτηριστικά, οδήγησαν στην εισαγωγή του ανθρώπινου παράγοντα στην πειραματική διαδικασία. Ένας πολύ συνηθισμένος και επιτυχημένος τρόπος χρησιμοποίησης του ανθρώπινου συστήματος όρασης είναι μέσω της καταγραφής των οφθαλμικών κινήσεων. Στο σύστημα ανάκτησης το οποίο προτείνεται στην παρούσα εργασία γίνεται καταγραφή των σημείων εστίασης που προέκυψαν κατά την παρατήρηση των εικόνων βάσεως. Από τα σημεία αυτά, γίνεται εξαγωγή χαρακτηριστικών υφής με δύο μεθόδους, τα φίλτρα Gabor και το διακριτό μετασχηματισμό συνημιτόνου (DCT), παράγοντας πολυδιάστατα διανύσματα. Τα διανύσματα αυτά συγκρίνονται ανά δύο μέσω του μη παραμετρικού WW test, δημιουργώντας έναν πίνακα αποστάσεων. Με την εισαγωγή μιας ζητούμενης εικόνας στο σύστημα, τα χαρακτηριστικά υφής της συγκρίνονται με αυτά της βάσης προσθέτοντας μια επιπλέον διάσταση στον πίνακα απόστασης. Η απεικόνιση της σχέσης μεταξύ όλων των εικόνων (συμπεριλαμβανομένης και της αιτούμενης) γίνεται σε ένα χάρτη τριών διαστάσεων μέσω πολυδιάστατης κλιμάκωσης (MDS αλγόριθμος). Τα αποτελέσματα τα οποία προέρχονται από τα φίλτρα Gabor παρουσιάζουν μεγαλύτερη αξιοπιστία, κάνοντας εφικτή την επέκταση του συστήματος με χρήση μίας μεγαλύτερης βάσης εικόνων. / The rapid increase of images, combined with the weakness of the Content Based Image Retrieval (CBIR) systems to extract semantic features, led to the introduction of the human factor into the experimental procedure. A very common and successful way of using the human vision system is through the record of eye movements. In the retrieval system which is proposed in the present thesis, the fixation points that arose from viewing the database images are recorded. From these points, the texture features are extracted using two methods, Gabor filters and Discrete Cosine Transform (DCT), producing multidimensional vectors. These vectors are compared through the non parametric WW test, creating a distance matrix. By producing a query image in the system, its’ texture features are compared to those of the database, adding an extra dimension to the distance matrix. The visual representation of the relation among all the images (query image included), is depicted in a three dimensional map using multidimensional scaling (MDS algorithm). The results obtained from Gabor filters are characterized by higher robustness, making the expansion of the system possible, by using a bigger image database. Ανάκτηση εικόνας Φίλτρα Gabor 006.42 Image retrieval Gabor filters Eye movements recording Eye tracker
23	Πειραματική αξιολόγηση μηχανισμού ανάκτησης ρυθμού συμβόλων για δορυφορικούς δέκτες Παπαδήμα, Ελισσάβετ 03 October 2011 (has links) Η παρούσα διπλωματική εργασία αφορά στην πειραματική αξιολόγηση του μηχανισμού ανάκτησης ρυθμού συμβόλου για ψηφιακούς δέκτες τεχνολογίας SDR που λαμβάνουν δεδομένα μέσω δορυφόρου. Η ορολογία SDR/SR (Software Defined Radio/Software Radio) χρησιμοποιείται για να χαρακτηρίσει τους πομποδέκτες που μπορούν να καθορίζουν σημαντικές παραμέτρους τους και βασικές αρχές της λειτουργίας τους μέσω αναβάθμισης ή ενημέρωσης του λογισμικού τους. Ο μηχανισμός ανάκτησης του ρυθμού συμβόλου (Symbol Timing Recovery, STR) αναπτύχθηκε στα πλαίσια της διδακτορικής διατριβής του διδάκτορος Παναγιώτη Σαββόπουλου. Η παρούσα εργασία μελετά τη σύγκλιση του βρόχου υπό συνθήκες παραμένοντος σφάλματος συχνότητας καθώς επίσης και τον προσδιορισμό του λόγου σήματος προς θόρυβο στην έξοδο του βρόχου κάνοντας χρήση ενός νέου μεγέθους, metric, το οποίο έχει εισαχθεί στα πλαίσια της προαναφερθείσας διδακτορικής διατριβής, υπό συνθήκες λευκού Gaussian θορύβου. Το μέγεθος αυτό είναι σε θέση να δώσει αξιόπιστα αποτελέσματα στις ενδιάμεσες υπομονάδες του δέκτη υπό συνθήκες παραμένοντος σφάλματος συχνότητας. Στην παρούσα εργασία μελετώνται οι QPSK, 8PSK, 16-APSK και 32-APSK διαμορφώσεις διότι αυτές οι διαμορφώσεις χρησιμοποιούνται από το πρότυπο DVB-S2. / The purpose of this project is the experimental evaluation of a mechanism for the symbol timing recovery which is used in digital Software Defined Radio receivers. SDR/SR (Software Defined Radio/Software Radio) technology is used to characterise the transmitters and the receivers which are able to determine important parameters and basic primciples for their function through upgrade or briefing of their software. The symbol timing recovery mechanism (STR) was developped in terms of the doctora of dr Panagiotis Savopoylos. The precent project examines the loop’s convergence when there is frequency error as well as the signal to noise ratio in the output of STR with the use of a new size, metric, which was also developped in terms of the doctora which was mentioned before, when there is white Gaussian noise. The metric is able to give reliable results in the intermediate stages of the receiver when there is frequency error. In the precent project are examined the QPSK, 8PSK,16-APSK, 32-APSK modulations because these modulations are used in DVB-S2 standard. 621.382 5 Symbol timing recovery (STR)
24	Εφαρμογή παγκόσμιου ιστού για προσωποποιημένες υπηρεσίες διαιτολογίας με την χρήση οντολογιών Οικονόμου, Φλώρα 11 June 2013 (has links) Ο παγκόσμιος ιστός αποτελεί μία τεράστια αποθήκη πληροφοριών και αναπτύσσεται με τάχιστους ρυθμούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαμβάνεται τις παρεχόμενες πληροφορίες παραμένει πεπερασμένη. Οι μηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσμιο ιστό και έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όμως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιμήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους μπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσμιο ιστό, δηλαδή η εξατομίκευση των παρεχόμενων αποτελεσμάτων, αποτελεί μία πολλά υποσχόμενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρμοσμένες εμπειρίες πλοήγησης. Στα πλαίσια αυτής της διπλωματικής εργασίας αναπτύχθηκε μία μεθοδολογία για την προσωποποίηση των αποτελεσμάτων μίας μηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιμήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η μεθοδολογία αναπτύχθηκε σε δύο μέρη: στο εκτός σύνδεσης τμήμα και στο συνδεδεμένο. Στο πρώτο με την χρησιμοποίηση των αρχείων πρόσβασης μίας μηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιμήσεις των τελευταίων. Στην συνέχεια με την χρήση μίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωματικής αυτής εργασίας, έγινε σημασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα με την χρήση ενός αλγορίθμου ομαδοποίησης οι χρήστες κατηγοριοποιήθηκαν με βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην μηχανή αναζήτησης. Στο συνδεδεμένο τμήμα ο αλγόριθμος προσωποποίησης εκμεταλλευόμενος την σημασιολογική αντιστοίχιση των αποτελεσμάτων της μηχανής αναζήτησης και τις ομάδες των χρηστών που δημιουργήθηκαν στο εκτός σύνδεσης τμήμα αναδιοργανώνει τα παρεχόμενα από την μηχανή αναζήτησης αποτελέσματα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσμάτων της μηχανής αναζήτησης τα αποτελέσματα που ταιριάζουν καλύτερα με τις προτιμήσεις και τα χαρακτηριστικά της ομάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράματα και εξακριβώθηκαν τα επιθυμητά αποτελέσματα για την προσωποποίηση σύμφωνα με τις σημασιολογικές ομάδες των χρηστών. / The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines’ returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users. The present dissertation presents the methodology which was implemented in order to personalize a search engine’s results for corresponding users’ preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines’ log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users’ interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users’ categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines’ results, based on the semantic characterization of those results and the users’ clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user’s cluster at the top of the list of the search engines’ returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users’ clustering in search engines are achievable. Οντολογίες Προσωποποίηση Εξόρυξη γνώσης Προφίλ χρηστών 025.042 5 Semantic clustering Ontologies Personalization Web usage mining Information search and retrieval User profiles
25	Ανάπτυξη μεθόδων ανάκτησης εικόνας βάσει περιεχομένου σε αναπαραστάσεις αντικειμένων ασαφών ορίων / Development of methods for content-based image retrieval in representations of fuzzily bounded objects Καρτσακάλης, Κωνσταντίνος 11 March 2014 (has links) Τα δεδομένα εικόνων που προκύπτουν από την χρήση βιο-ιατρικών μηχανημάτων είναι από την φύση τους ασαφή, χάρη σε μια σειρά από παράγοντες ανάμεσα στους οποίους οι περιορισμοί στον χώρο, τον χρόνο, οι παραμετρικές αναλύσεις καθώς και οι φυσικοί περιορισμοί που επιβάλλει το εκάστοτε μηχάνημα. Όταν το αντικείμενο ενδιαφέροντος σε μια τέτοια εικόνα έχει κάποιο μοτίβο φωτεινότητας ευκρινώς διαφορετικό από τα μοτίβα των υπόλοιπων αντικειμένων που εμφανίζονται, είναι εφικτή η κατάτμηση της εικόνας με έναν απόλυτο, δυαδικό τρόπο που να εκφράζει επαρκώς τα όρια των αντικειμένων. Συχνά ωστόσο σε τέτοιες εικόνες υπεισέρχονται παράγοντες όπως η ανομοιογένεια των υλικών που απεικονίζονται, θόλωμα, θόρυβος ή και μεταβολές στο υπόβαθρο που εισάγονται από την συσκευή απεικόνισης με αποτέλεσμα οι εντάσεις φωτεινότητας σε μια τέτοια εικόνα να εμφανίζονται με έναν ασαφή, βαθμωτό, «μη-δυαδικό» τρόπο. Μια πρωτοπόρα τάση στην σχετική βιβλιογραφία είναι η αξιοποίηση της ασαφούς σύνθεσης των αντικειμένων μιας τέτοιας εικόνας, με τρόπο ώστε η ασάφεια να αποτελεί γνώρισμα του εκάστοτε αντικειμένου αντί για ανεπιθύμητο χαρακτηριστικό: αντλώντας από την θεωρία ασαφών συνόλων, τέτοιες προσεγγίσεις κατατμούν μια εικόνα με βαθμωτό, μη-δυαδικό τρόπο αποφεύγοντας τον μονοσήμαντο καθορισμό ορίων μεταξύ των αντικειμένων. Μια τέτοια προσέγγιση καταφέρνει να αποτυπώσει με μαθηματικούς όρους την ασάφεια της θολής εικόνας, μετατρέποντάς την σε χρήσιμο εργαλείο ανάλυσης στα χέρια ενός ειδικού. Από την άλλη, το μέγεθος της ασάφειας που παρατηρείται σε τέτοιες εικόνες είναι τέτοιο ώστε πολλές φορές να ωθεί τους ειδικούς σε διαφορετικές ή και αντικρουόμενες κατατμήσεις, ακόμη και από το ίδιο ανθρώπινο χέρι. Επιπλέον, το παραπάνω έχει ως αποτέλεσμα την οικοδόμηση βάσεων δεδομένων στις οποίες για μια εικόνα αποθηκεύονται πολλαπλές κατατμήσεις, δυαδικές και μη. Μπορούμε με βάση μια κατάτμηση εικόνας να ανακτήσουμε άλλες, παρόμοιες τέτοιες εικόνες των οποίων τα δεδομένα έχουν προέλθει από αναλύσεις ειδικών, χωρίς σε κάποιο βήμα να υποβαθμίζουμε την ασαφή φύση των αντικειμένων που απεικονίζονται; Πως επιχειρείται η ανάκτηση σε μια βάση δεδομένων στην οποία έχουν αποθηκευτεί οι παραπάνω πολλαπλές κατατμήσεις για κάθε εικόνα; Αποτελεί κριτήριο ομοιότητας μεταξύ εικόνων το πόσο συχνά θα επέλεγε ένας ειδικός να οριοθετήσει ένα εικονοστοιχείο μιας τέτοιας εικόνας εντός ή εκτός ενός τέτοιου θολού αντικειμένου; Στα πλαίσια της παρούσας εργασίας προσπαθούμε να απαντήσουμε στα παραπάνω ερωτήματα, μελετώντας διεξοδικά την διαδικασία ανάκτησης τέτοιων εικόνων. Προσεγγίζουμε το πρόβλημα θεωρώντας ότι για κάθε εικόνα αποθηκεύονται στην βάση μας περισσότερες της μίας κατατμήσεις, τόσο δυαδικής φύσης από ειδικούς όσο και από ασαφείς από αυτόματους αλγορίθμους. Επιδιώκουμε εκμεταλλευόμενοι το χαρακτηριστικό της ασάφειας να ενοποιήσουμε την διαδικασία της ανάκτησης και για τις δυο παραπάνω περιπτώσεις, προσεγγίζοντας την συχνότητα με την οποία ένας ειδικός θα οριοθετούσε το εκάστοτε ασαφές αντικείμενο με συγκεκριμένο τρόπο καθώς και τα ενδογενή χαρακτηριστικά ενός ασαφούς αντικειμένου που έχει εξαχθεί από αυτόματο αλγόριθμο. Προτείνουμε κατάλληλο μηχανισμό ανάκτησης ο οποίος αναλαμβάνει την μετάβαση από τον χώρο της αναποφασιστικότητας και του ασαφούς στον χώρο της πιθανοτικής αναπαράστασης, διατηρώντας παράλληλα όλους τους περιορισμούς που έχουν επιβληθεί στα δεδομένα από την πρωταρχική ανάλυσή τους. Στην συνέχεια αξιολογούμε την διαδικασία της ανάκτησης, εφαρμόζοντας την νέα μέθοδο σε ήδη υπάρχον σύνολο δεδομένων από το οποίο και εξάγουμε συμπεράσματα για τα αποτελέσματά της. / Image data acquired through the use of bio-medical scanners are by nature fuzzy, thanks to a series of factors including limitations in spatial, temporal and parametric resolutions other than the physical limitations of the device. When the object of interest in such an image displays intensity patterns that are distinct from the patterns of other objects appearing together, a segmentation of the image in a hard, binary manner that clearly defines the borders between objects is feasible. It is frequent though that in such images factors like the lack of homogeneity between materials depicted, blurring, noise or deviations in the background pose difficulties in the above process. Intensity values in such an image appear in a fuzzy, gradient, “non-binary” manner. An innovative trend in the field of study is to make use of the fuzzy composition of objects in such an image, in a way in which fuzziness becomes a characteristic feature of the object instead of an undesirable trait: deriving from the theory of fuzzy sets, such approaches segment an image in a gradient, non-binary manner, therefore avoiding to set up a clear boundary between depicted objects. Such approaches are successful in capturing the fuzziness of the blurry image in mathematical terms, transforming the quality into a powerful tool of analysis in the hands of an expert. On the other hand, the scale of fuzziness observed in such images often leads experts towards different or contradictory segmentations, even drawn by the same human hand. What is more, the aforementioned case results in the compilation of image data bases consisting of multiple segmentations for each image, both binary and fuzzy. Are we able, by segmenting an image, to retrieve other similar such images whose segmented data have been acquired by experts, without downgrading the importance of the fuzziness of the objects depicted in any step involved? How exactly are images in such a database storing multiple segmentations of each retrieved? Is the frequency with which an expert would choose to either include or exclude from a fuzzy object a pixel of an image, a criterion of semblance between objects depicted in images? Finally, how able are we to tackle the feature of fuzziness in a probabilistic manner, thus providing a valuable tool in bridging the gap between automatic segmentation algorithms and segmentations coming from field experts? In the context of this thesis, we tackle the aforementioned problems studying thoroughly the process of image retrieval in a fuzzy context. We consider the case in which a database consists of images for which exist more than one segmentations, both crisp, derived by experts’ analysis, and fuzzy, generated by segmentation algorithms. We attempt to unify the retrieval process for both cases by taking advantage of the feature of fuzziness, and by approximating the frequency with which an expert would confine the boundaries of the fuzzy object in a uniform manner, along with the intrinsic features of a fuzzy, algorithm-generated object. We propose a suitable retrieval mechanism that undertakes the transition from the field of indecisiveness to that of a probabilistic representation, at the same time preserving all the limitations imposed on the data by their initial analysis. Next, we evaluate the retrieval process, by implementing the new method on an already existing data-set and draw conclusions on the effectiveness of the proposed scheme. Κατάτμηση εικόνας Ασαφή αντικείμενα Περιγραφείς κίνησης 006.42 CBIR content based image retrieval Image segmentation Fuzzy objects Motion descriptors
26	Αποδοτική διαχείριση κειμενικής πληροφορίας, δεικτοδότηση, αποθήκευση, επεξεργασία και εφαρμογές Θεοδωρίδης, Ευάγγελος 03 July 2009 (has links) Βασική επιδίωξη της παρούσας διατριβής είναι η διερεύνηση των δυνατοτήτων του πεδίου της επιστήμης των υπολογιστών που πραγματεύεται την αποθήκευση και την επεξεργασία πληροφορίας, μέσα στο περιβάλλον που έχουν σχηματίσει οι σύγχρονες εφαρμογές. Τα τελευταία χρόνια, η πληροφορία που είναι διαθέσιμη σε ηλεκτρονική μορφή, έχει γιγαντωθεί με αποτέλεσμα να είναι αναγκαία η ανάπτυξη νέων τεχνικών για την αποτελεσματική αποθήκευση και επεξεργασία αυτής. Δύο πολύ χαρακτηριστικές και σημαντικές εφαρμογές, στις οποίες ανακύπτουν συνεχώς νέα προβλήματα, είναι η διαχείριση Βιολογικών δεδομένων, όπως π.χ. οι ακολουθίες γονιδιωμάτων, καθώς και η διαχείριση πληροφορίας από τον παγκόσμιο ιστό, όπως π.χ. τα έγγραφα HTML, XML ή οι συντομεύσεις (urls). Στόχος είναι ανάπτυξη δομών δεικτοδότησης πάνω στην πληροφορία έτσι ώστε τα σχετικά ερωτήματα με αυτή να απαντώνται αποδοτικά και πολύ πιο γρήγορα από το να ψάχναμε εκτενώς μέσα σε αυτή. Χαρακτηριστικά τέτοια ερωτήματα είναι η εύρεση προτύπων (pattern matching) ή ο εντοπισμός επαναλαμβανόμενων μοτίβων (motif extraction). Πιο συγκεκριμένα, τα ϑέματα στα οποία εστίασε η παρούσα διατριβή είναι τα ακόλουϑα: - Εντοπισμός Περιοδικοτήτων σε συμβολοσειρές. Στην ενότητα αυτή δίνεται μια σειρά από αλγόριθμους για την εξαγωγή περιοδικοτήτων από συμβολοσειρές. Δίνονται αλγόριθμοι για την εξαγωγή μέγιστων επαναλήψεων, της περιόδου του καλύμματος και της ρίζας μιας συμβολοσειράς. Οι αλγόριθμοι αυτοί χρησιμοποιούν ώς βάση το δένδρο επιθεμάτων και οι περισσότεροι από αυτούς είναι γραμμικοί. - Δεικτοδότηση Βεβαρημένων Ακολουθιών. Στην επόμενη ενότητα η μελέτη εστιάζει στην δεικτοδότηση βεβαρημένων ακολουθιών, καθώς και στην απάντηση ερωτημάτων σε αυτές όπως η εύρεση προτύπων, η εύρεση επαναλήψεων, η εύρεση καλυμμάτων, κ.α.. Οι βεβαρημένες ακολουθίες είναι ακολουθίες όπου σε κάθε ϑέση τους έχουμε εμφάνιση όλων των συμβόλων του αλφαβήτου της ακολουθίας, έχοντας λάβει ένα συγκεκριμένο βάρος. Οι βεβαρημένες ακολουθίες αναπαριστούν βιολογικές ακολουθίες είτε νουκλεοτιδίων είτε αμινοξέων και στην ουσία περιγράφουν την πιθανότητα εμφάνισης ενός συμβόλου του αλφαβήτου σε μια συγκεκριμένη ϑέση της ακολουθίας ή κάποιες συγκεκριμένες βιολογικές ιδιότητες που διαθέτουν οι ρυθμιστικές πρωτεΐνες σε κάθε ϑέση της ακολουθίας. Για την διαχείριση αυτών των ιδιόμορφων ακολουθιών προτείνεται ως δομή δεικτοδότησης το βεβαρημένο δένδρο επιθεμάτων (Weighted Suffix Tree), ένα δένδρο με παρόμοια δομικά χαρακτηριστικά με αυτά του γενικευμένου δένδρου επιθεμάτων. Στην παρούσα εργασία δίνεται ο ορισμός του βεβαρημένου δένδρου επιθεμάτων και αλγόριθμοι κατασκευής του σε γραμμικό χρόνο και χώρο. -Εξαγωγή μοτίβων από βεβαρημένες Ακολουθίες. Με την χρήση του βεβαρημένου δένδρου επιθεμάτων υλοποιούνται ένα σύνολο αλγόριθμων εξαγωγής επαναληπτικών δομών από βεβαρημένες ακολουθίες. Πιο συγκεκριμένα, δίνονται αλγόριθμοι για την εύρεση μέγιστων ευγών,επαναλαμβανόμενων μοτίβων και κοινών μοτίβων από περισσότερες της μίας βεβαρημένες ακολουθίες. - Αλγόριθμοι Σύστασης Σελίδων Παγκόσμιου Ιστού με χρήση τεχνικών επεξεργασίας συμβολοσειρών. Αρκετές εφαρμογές παγκόσμιου ιστού (συστήματα σύστασης ή συστήματα κρυφής μνήμης) προσπαθούν να προβλέψουν τις προθέσεις ενός επισκέπτη είτε για να του προτείνουν είτε για να προφορτώσουν μία σελίδα. Για το σκοπό αυτό προσπαθούν να εκμεταλλευτούν οποιαδήποτε εμπειρία που έχει καταγραφεί στο σύστημα από προηγούμενες προσπελάσεις. Προτείνεται νέος τρόπος δεικτοδότησης και αναπαράστασης της πληροφορίας που εξάγεται από τα διαθέσιμα δεδομένα, όπως οι προσβάσεις των χρηστών από τα logfilesκαι το περιεχόμενο των σελίδων. Για την εξόρυξη γνώσης από τα παραπάνω δεδομένα, αυτά αναπαριστώνται ως συμβολοσειρές και στη συνέχεια επεξεργάζονται και δεικτοδοτούνται από ένα γενικευμένο βεβαρημένο δένδρο επιθεμάτων. Το δένδρο αυτό συμπυκνώνει αποδοτικά τα πιο συχνά αλλά και πιο ουσιαστικά μοτίβα προσπελάσεων και χρησιμοποιείται, αφότου κατασκευαστεί, σαν ένα μοντέλο για την πρόβλεψη των κινήσεων τον επισκεπτών ενός ιστοτόπου. / The basic goal of this thesis is to explore the possibilities of the field of computer science that deals with storing and processing information in the environment that formed by the modern applications. In recent years, the information that is available in electronic form, has met an enormous growth. Thus it is necessary to develop new techniques for efficient storage and processing. Two very specific and important applications in which constantly new problems arise are, the management of biological data, such as genome sequences, and the management information from the Web, such as documents HTML, XML or shortcuts (urls). The objective is the development of data structures for indexing information so that the questions are able to be answered in less time than looking explicitly in information. Such questions are to find patterns (pattern matching) or the identification of repeated motifs (motif extraction). In particular, the issues on which this thesis has focused are: - Locating Periodicities in strings. This section provides a series of algorithms for the extraction of periodicities of strings. We propose algorithms for the extraction of maximum repetitions of the cover, period and the seed of a string. The algorithms used are based on suffix tree and they are optimal. - Weighted Sequences indexing. In the next section, the study focuses on indexing of weighted sequences, and to answer questions like finding models, pairs, covers etc. in them. The weighted sequences are sequences where each position consists of all the symbols of the alphabet in sequence, having each one a specific weight. For the management of these sequences a particular indexing structure is proposed with the name Weighted Suffix Tree, a tree with structural features similar to those of the generalized suffix tree. In this work we propose the definition of the weighted suffix tree and construction algorithms in linear time and memory space. With the utilization of weighted suffix tree on a set of weighted sequences we propose algorithms for extracting repetitive structures from a set of weighted sequences. More specifically, we propose algorithms for finding maximum pairs, repeated motifs and common patterns of more than one weighted sequences -Recommendation Algorithms for web pages using strings processing algorithms. Several web applications (Recommendation systems or cache systems) want to predict the intentions of a visitor in order to propose or to preload a webpage. For this purpose systems try to exploit any experience that is recorded in the system from previous accesses. A new method for indexing and representing of information extracted is proposed upon the recorder data, from the user accesses in log files and content pages. For extracting knowledge from these data, the information is represented as strings and then treated and processed as weighted sequences. All these sequences are indexed by a generalized weighted sequence tree. Δεικτοδότηση Ανάκτηση πληροφορίας Συμβολοσειρές Δομές δεδομένων Περιοδικότητες Μέγιστα ζεύγη 025.04 Indexing Information retrieval Strings Data structures Periodicities Weighted sequences Maximal pairs Web recommendation
27	Ανάκτηση λογοτύπων Κούλης, Χρήστος 14 December 2009 (has links) Στην παρούσα εργασία γίνεται μια προσπάθεια οπτικής ανάκτησης λογοτύπων με σκοπό την οργάνωσή τους για μετέπειτα χρήση τους σε περιπτώσεις αναζήτησης ομοίων λογοτύπων από χρήστες. Η μελέτη γίνεται με χρήση μεθόδων και εργαλείων τα οποία είτε έχουν σχεδιαστεί για αυτό το σκοπό είτε έχουν ληφθεί από άλλα κομμάτια του τομέα αναγνώρισης προτύπων. Πιο συγκεκριμένα χρησιμοποιούνται οι μεθοδολογίες: α. Angular Radial Transform (ART) που ορίζεται στο MPEG-7 πρωτόκολλο. β. Ένας αλγόριθμος σύγκρισης σχημάτων ως κατανομές ιστογραμμάτων που τον ονομάζουμε Angular Radial Histogram (ARH) και περιγράφεται σε δημοσίευση που αφορά την αναγνώριση σχημάτων. γ. Μια μεθοδολογία που εκμεταλλεύεται τον αλγόριθμο DCT και την συμπιεσμένη φύση των αρχείων εικόνων - λογοτύπων στο σημερινό web για γρήγορη αναζήτηση η οποία έχει χρησιμοποιηθεί για οργάνωση βάσεων γενικών εικόνων. δ. Μια μεθοδολογία στηριγμένη στα φίλτρα Gabor και το WW-Test η οποία έχει εφαρμοστεί με αρκετά καλά αποτελέσματα σε πεδιά αναγνώρισης προτύπων. Η έρευνα γίνεται σε τρεις (νεοκατασκευασμένες) βάσεις λογοτύπων όπου τα αποτελέσματα φαίνεται να είναι θετικά ειδικά για την τελευταία μεθοδολογία. / In this work, four different algorithms are used in the field of logos retrieval, in an efford to organize logos databases that can be handful in cases where users may need to retrieve similar logos. The algorithms that are used are a. Angular Radial Transform (ART) which is defiend in MPEG-7, b. An algorithm that compairs logos outlines called sas Angular Radial Histogram which has been proposed for general shape matching procedures, c. An algorithm based on the well known DCT and the compression nature of the very common JPEG protocol, d. An algorithm based on Gabor filters for feature extraction and the Wald-Wolfowitz for feature comparisons, which gave very good results. The tests took place on three different logos database which were constructed for this purpose. Σήμα Λογότυπα Οργάνωση Ανάκτηση Αναζήτηση Γραφιστική Ομοιότητα Βάση 741.602 85 Matching Logos Brand Retrieval Shape Art Gabor DCT Neural gas Design
28	Text mining : μια νέα προτεινόμενη μέθοδος με χρήση κανόνων συσχέτισης Νασίκας, Ιωάννης 14 September 2007 (has links) Η εξόρυξη κειμένου (text mining) είναι ένας νέος ερευνητικός τομέας που προσπαθεί να επιλύσει το πρόβλημα της υπερφόρτωσης πληροφοριών με τη χρησιμοποίηση των τεχνικών από την εξόρυξη από δεδομένα (data mining), την μηχανική μάθηση (machine learning), την επεξεργασία φυσικής γλώσσας (natural language processing), την ανάκτηση πληροφορίας (information retrieval), την εξαγωγή πληροφορίας (information extraction) και τη διαχείριση γνώσης (knowledge management). Στο πρώτο μέρος αυτής της διπλωματικής εργασίας αναφερόμαστε αναλυτικά στον καινούριο αυτό ερευνητικό τομέα, διαχωρίζοντάς τον από άλλους παρεμφερείς τομείς. Ο κύριος στόχος του text mining είναι να βοηθήσει τους χρήστες να εξαγάγουν πληροφορίες από μεγάλους κειμενικούς πόρους. Δύο από τους σημαντικότερους στόχους είναι η κατηγοριοποίηση και η ομαδοποίηση εγγράφων. Υπάρχει μια αυξανόμενη ανησυχία για την ομαδοποίηση κειμένων λόγω της εκρηκτικής αύξησης του WWW, των ψηφιακών βιβλιοθηκών, των ιατρικών δεδομένων, κ.λ.π.. Τα κρισιμότερα προβλήματα για την ομαδοποίηση εγγράφων είναι η υψηλή διαστατικότητα του κειμένου φυσικής γλώσσας και η επιλογή των χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν μια περιοχή. Κατά συνέπεια, ένας αυξανόμενος αριθμός ερευνητών έχει επικεντρωθεί στην έρευνα για τη σχετική αποτελεσματικότητα των διάφορων τεχνικών μείωσης διάστασης και της σχέσης μεταξύ των επιλεγμένων χαρακτηριστικών γνωρισμάτων που χρησιμοποιούνται για να αντιπροσωπεύσουν το κείμενο και την ποιότητα της τελικής ομαδοποίησης. Υπάρχουν δύο σημαντικοί τύποι τεχνικών μείωσης διάστασης: οι μέθοδοι «μετασχηματισμού» και οι μέθοδοι «επιλογής». Στο δεύτερο μέρος αυτής τη διπλωματικής εργασίας, παρουσιάζουμε μια καινούρια μέθοδο «επιλογής» που προσπαθεί να αντιμετωπίσει αυτά τα προβλήματα. Η προτεινόμενη μεθοδολογία είναι βασισμένη στους κανόνες συσχέτισης (Association Rule Mining). Παρουσιάζουμε επίσης και αναλύουμε τις εμπειρικές δοκιμές, οι οποίες καταδεικνύουν την απόδοση της προτεινόμενης μεθοδολογίας. Μέσα από τα αποτελέσματα που λάβαμε διαπιστώσαμε ότι η διάσταση μειώθηκε. Όσο όμως προσπαθούσαμε, βάσει της μεθοδολογίας μας, να την μειώσουμε περισσότερο τόσο χανόταν η ακρίβεια στα αποτελέσματα. Έγινε μια προσπάθεια βελτίωσης των αποτελεσμάτων μέσα από μια διαφορετική επιλογή των χαρακτηριστικών γνωρισμάτων. Τέτοιες προσπάθειες συνεχίζονται και σήμερα. Σημαντική επίσης στην ομαδοποίηση των κειμένων είναι και η επιλογή του μέτρου ομοιότητας. Στην παρούσα διπλωματική αναφέρουμε διάφορα τέτοια μέτρα που υπάρχουν στην βιβλιογραφία, ενώ σε σχετική εφαρμογή κάνουμε σύγκριση αυτών. Η εργασία συνολικά αποτελείται από 7 κεφάλαια: Στο πρώτο κεφάλαιο γίνεται μια σύντομη ανασκόπηση σχετικά με το text mining. Στο δεύτερο κεφάλαιο περιγράφονται οι στόχοι, οι μέθοδοι και τα εργαλεία που χρησιμοποιεί η εξόρυξη κειμένου. Στο τρίτο κεφάλαιο παρουσιάζεται ο τρόπος αναπαράστασης των κειμένων, τα διάφορα μέτρα ομοιότητας καθώς και μια εφαρμογή σύγκρισης αυτών. Στο τέταρτο κεφάλαιο αναφέρουμε τις διάφορες μεθόδους μείωσης της διάστασης και στο πέμπτο παρουσιάζουμε την δικιά μας μεθοδολογία για το πρόβλημα. Έπειτα στο έκτο κεφάλαιο εφαρμόζουμε την μεθοδολογία μας σε πειραματικά δεδομένα. Η εργασία κλείνει με τα συμπεράσματα μας και κατευθύνσεις για μελλοντική έρευνα. / Text mining is a new searching field which tries to solve the problem of information overloading by using techniques from data mining, natural language processing, information retrieval, information extraction and knowledge management. At the first part of this diplomatic paper we detailed refer to this new searching field, separated it from all the others relative fields. The main target of text mining is helping users to extract information from big text resources. Two of the most important tasks are document categorization and document clustering. There is an increasing concern in document clustering due to explosive growth of the WWW, digital libraries, technical documentation, medical data, etc. The most critical problems for document clustering are the high dimensionality of the natural language text and the choice of features used to represent a domain. Thus, an increasing number of researchers have concentrated on the investigation of the relative effectiveness of various dimension reduction techniques and of the relationship between the selected features used to represent text and the quality of the final clustering. There are two important types of techniques that reduce dimension: transformation methods and selection methods. At the second part of this diplomatic paper we represent a new selection method trying to tackle these problems. The proposed methodology is based on Association Rule Mining. We also present and analyze empirical tests, which demonstrate the performance of the proposed methodology. Through the results that we obtained we found out that dimension has been reduced. However, the more we have been trying to reduce it, according to methodology, the bigger loss of precision we have been taking. There has been an effort for improving the results through a different feature selection. That kind of efforts are taking place even today. In document clustering is also important the choice of the similarity measure. In this diplomatic paper we refer several of these measures that exist to bibliography and we compare them in relative application. The paper totally has seven chapters. At the first chapter there is a brief review about text mining. At the second chapter we describe the tasks, the methods and the tools are used in text mining. At the third chapter we give the way of document representation, the various similarity measures and an application to compare them. At the fourth chapter we refer different kind of methods that reduce dimensions and at the fifth chapter we represent our own methodology for the problem. After that at the sixth chapter we apply our methodology to experimental data. The paper ends up with our conclusions and directions for future research. Εξόρυξη κειμένου Ανάκτηση πληροφορίας Στάθμιση όρων Ομαδοποίηση κειμένων Κανόνες συσχέτισης 006.312 Text mining Information retrieval Feature selection Term weighting Text clustering Association rules
29	Αυτόματη επιλογή σημασιολογικά συγγενών όρων για την επαναδιατύπωση των ερωτημάτων σε μηχανές αναζήτησης πληροφορίας / Automatic selection of semantic related terms for reformulating a query into a search engine Κοζανίδης, Ελευθέριος 14 September 2007 (has links) Η βελτίωση ερωτημάτων (Query refinement) είναι η διαδικασία πρότασης εναλλακτικών όρων στους χρήστες των μηχανών αναζήτησης του Διαδικτύου για την διατύπωση της πληροφοριακής τους ανάγκης. Παρόλο που εναλλακτικοί σχηματισμοί ερωτημάτων μπορούν να συνεισφέρουν στην βελτίωση των ανακτηθέντων αποτελεσμάτων, η χρησιμοποίησή τους από χρήστες του Διαδικτύου είναι ιδιαίτερα περιορισμένη καθώς οι όροι των βελτιωμένων ερωτημάτων δεν περιέχουν σχεδόν καθόλου πληροφορία αναφορικά με τον βαθμό ομοιότητάς τους με τους όρους του αρχικού ερωτήματος, ενώ συγχρόνως δεν καταδεικνύουν το βαθμό συσχέτισής τους με τα πληροφοριακά ενδιαφέροντα των χρηστών. Παραδοσιακά, οι εναλλακτικοί σχηματισμοί ερωτημάτων καθορίζονται κατ’ αποκλειστικότητα από τη σημασιολογική σχέση που επιδεικνύουν οι συμπληρωματικοί όροι με τους αρχικούς όρους του ερωτήματος, χωρίς να λαμβάνουν υπόψη τον επιδιωκόμενο στόχο της αναζήτησης που υπολανθάνει πίσω από ένα ερώτημα του χρήστη. Στην παρούσα εργασία θα παρουσιάσουμε μια πρότυπη τεχνική βελτίωσης ερωτημάτων η οποία χρησιμοποιεί μια λεξική οντολογία προκειμένου να εντοπίσει εναλλακτικούς σχηματισμούς ερωτημάτων οι οποίοι αφενός, θα περιγράφουν το αντικείμενο της αναζήτησης του χρήστη και αφετέρου θα σχετίζονται με τα ερωτήματα που υπέβαλε ο χρήστης. Το πιο πρωτοποριακό χαρακτηριστικό της τεχνικής μας είναι η οπτική αναπαράσταση του εναλλακτικού ερωτήματος με την μορφή ενός ιεραρχικά δομημένου γράφου. Η αναπαράσταση αυτή παρέχει σαφείς πληροφορίες για την σημασιολογική σχέση μεταξύ των όρων του βελτιωμένου ερωτήματος και των όρων που χρησιμοποίησε ο χρήστης για να εκφράσει την πληροφοριακή του ανάγκη ενώ παράλληλα παρέχει την δυνατότητα στον χρήστη να επιλέξει ποιοι από τους υποψήφιους όρους θα συμμετέχουν τελικά στην διαδικασία βελτιστοποίησης δημιουργώντας διαδραστικά το νέο ερώτημα. Τα αποτελέσματα των πειραμάτων που διενεργήσαμε για να αξιολογήσουμε την απόδοση της τεχνικής μας, είναι ιδιαίτερα ικανοποιητικά και μας οδηγούν στο συμπέρασμα ότι η μέθοδός μας μπορεί να βοηθήσει σημαντικά στη διευκόλυνση του χρήστη κατά τη διαδικασία επιλογής ερωτημάτων για την ανάκτηση πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού. / Query refinement is the process of providing Web information seekers with alternative wordings for expressing their information needs. Although alternative query formulations may contribute to the improvement of retrieval results, nevertheless their realization by Web users is intrinsically limited in that alternative query wordings do not convey explicit information about neither their degree nor their type of correlation to the user-issued queries. Moreover, alternative query formulations are determined based on the semantics of the issued query alone and they do not consider anything about the search intentions of the user issuing that query. In this paper, we introduce a novel query refinement technique which uses a lexical ontology for identifying alternative query formulations that are both informative of the user’s interests and related to the user selected queries. The most innovative feature of our technique is the visualization of the alternative query wordings in a graphical representation form, which conveys explicit information about the refined queries correlation to the user issued requests and which allows the user select which terms to participate in the refinement process. Experimental results demonstrate that our method has a significant potential in improving the user search experience. Διεύρυνση ερωτημάτων Βελτίωση ερωτημάτων Σημασιολογικά δίκτυα Ανάκτηση πληροφορίας 025.524 Query expansion Query refinement Semantic networks Information retrieval Natural language processing Sense disambiguation
30	XML και σχεσιακές βάσεις δεδομένων: πλαίσιο αναφοράς και αξιολόγησης / XML and relational databases: a frame of report and evaluation Παλιανόπουλος, Ιωάννης 16 May 2007 (has links) Η eXtensible Markup Language (XML) είναι εμφανώς το επικρατέστερο πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Αποτελεί μια γλώσσα περιγραφής δεδομένων, κατανοητή τόσο από τον άνθρωπο, όσο και από τη μηχανή. Η χρήση της σε αρχικό στάδιο περιορίστηκε στην ανταλλαγή δεδομένων, αλλά λόγω της εκφραστικότητάς της (σε αντίθεση με το σχεσιακό μοντέλο) μπορεί να αποτελέσει ένα αποτελεσματικό \"όχημα\" μεταφοράς και αποθήκευσης πληροφορίας. Οι σύγχρονες εφαρμογές κάνουν χρήση της τεχνολογίας XML εξυπηρετώντας ανάγκες διαλειτουργικότητας και επικοινωνίας. Ωστόσο, θεωρείται βέβαιο ότι η χρήση της σε επίπεδο υποδομής θα ενδυναμώσει περαιτέρω τις σύγχρονες εφαρμογές. Σε επίπεδο υποδομής, μια βάση δεδομένων που διαχειρίζεται την γλώσσα XML είναι σε θέση να πολλαπλασιάσει την αποδοτικότητά της, εφόσον η βάση δεδομένων μετατρέπεται σε βάση πληροφορίας. Έτσι, όσο οι εφαρμογές γίνονται πιο σύνθετες και απαιτητικές, η ενδυνάμωση των βάσεων δεδομένων με τεχνολογίες που φέρουν/εξυπηρετούν τη σημασιολογία των προβλημάτων υπόσχεται αποτελεσματικότερη αντιμετώπιση στο παραπάνω μέτωπο. Αλλά ποιος είναι ο καλύτερος τρόπος αποδοτικού χειρισμού των XML εγγράφων (XML documents); Με μια πρώτη ματιά η απάντηση είναι προφανής. Εφόσον ένα XML έγγραφο αποτελεί παράδειγμα μιας σχετικά νέας τεχνολογίας, γιατί να μη χρησιμοποιηθούν ειδικά συστήματα για το χειρισμό της; Αυτό είναι πράγματι μια βιώσιμη προσέγγιση και υπάρχει σημαντική δραστηριότητα στην κοινότητα των βάσεων δεδομένων που εστιάζει στην εκμετάλλευση αυτής της προσέγγισης. Μάλιστα, για το σκοπό αυτό, έχουν δημιουργηθεί ειδικά συστήματα βάσεων δεδομένων, οι επονομαζόμενες \"Εγγενείς XML Βάσεις Δεδομένων\" (Native XML Databases). Όμως, το μειονέκτημα της χρήσης τέτοιων συστημάτων είναι ότι αυτή η προσέγγιση δεν αξιοποιεί την πολυετή ερευνητική δραστηριότητα που επενδύθηκε για την τεχνολογία των σχεσιακών βάσεων δεδομένων. Είναι πράγματι γεγονός ότι δεν αρκεί η σχεσιακή τεχνολογία και επιβάλλεται η ανάγκη για νέες τεχνικές; Ή μήπως με την κατάλληλη αξιοποίηση των υπαρχόντων συστημάτων μπορεί να επιτευχθεί ποιοτική ενσωμάτωση της XML; Σε αυτήν την εργασία γίνεται μια μελέτη που αφορά στην πιθανή χρησιμοποίηση των σχεσιακών συστημάτων βάσεων δεδομένων για το χειρισμό των XML εγγράφων. Αφού αναλυθούν θεωρητικά οι τρόποι με τους οποίους γίνεται αυτό, στη συνέχεια εκτιμάται πειραματικά η απόδοση σε δύο από τα πιο δημοφιλή σχεσιακά συστήματα βάσεων δεδομένων. Σκοπός είναι η χάραξη ενός πλαισίου αναφοράς για την αποτίμηση και την αξιολόγηση των σχεσιακών βάσεων δεδομένων που υποστηρίζουν XML (XML-enabled RDBMSs). / The eXtensible Markup Language (XML) is obviously the prevailing model for data representation in the World Wide Web (WWW). It is a data description language comprehensible by both humans and computers. Its usage in an initial stage was limited to the exchange of data, but it can constitute an effective \"vehicle\" for transporting, handling and storing of information, due to its expressiveness (contrary to the relational model). Contemporary applications make heavy use of the XML technology in order to support communication and interoperability . However, supporting XML at the infrastructure level would reduce application development time, would make applications almost automatically complient to standards and would make them less error prone. In terms of infrastructure, a database able to handle XML properly would be beneficial to a wide range of applications thus multiplying its efficiency. In this way, as long as the applications become more complex and demanding, the strengthening of databases with technologies that serve the nature of problems, promises more effective confrontation with this topic. But how can XML documents be supported at the infrastructure level? At a first glance, the question is rhetorical. Since XML constitutes a relatively new technology, new XML-aware infrastructures can be built from scratch. This is indeed a viable approach and there is a considerable activity in the research community of databases, which focuses on the exploitation of this approach. In particular, this is the reason why special database systems have been created, called \"Native XML Databases\". However, the disadvantage of using such systems is that this approach does not build on existing knowledge currently present in the relational database field. The research question would be whether relational technology is able to support correctly XML data. In this thesis, we present a study concerned with the question whether relational database management systems (RDBMSs) provide suitable ground for handling XML documents. Having theoretically analyzed the ways with which RDBMSs handle XML, the performance in two of the most popular relational database management systems is then experimentally assessed. The aim is to draw a frame of report on the assessment and the evaluation of relational database management systems that support XML (XML-enabled RDBMSs). Έγγραφο-κεντρικό Δεδομένο-κεντρικό Μέθοδοι αποθήκευσης Ανάκτηση Μετροπρόγραμμα Ρυθμοαπόδοση 005.756 XML Relational database management systems Document-centric Data-centric Storage methods Retrieval Benchmark Throughput

Search results