Global ETD Search

1	Αποδοτική διαχείριση κειμενικής πληροφορίας, δεικτοδότηση, αποθήκευση, επεξεργασία και εφαρμογές Θεοδωρίδης, Ευάγγελος 03 July 2009 (has links) Βασική επιδίωξη της παρούσας διατριβής είναι η διερεύνηση των δυνατοτήτων του πεδίου της επιστήμης των υπολογιστών που πραγματεύεται την αποθήκευση και την επεξεργασία πληροφορίας, μέσα στο περιβάλλον που έχουν σχηματίσει οι σύγχρονες εφαρμογές. Τα τελευταία χρόνια, η πληροφορία που είναι διαθέσιμη σε ηλεκτρονική μορφή, έχει γιγαντωθεί με αποτέλεσμα να είναι αναγκαία η ανάπτυξη νέων τεχνικών για την αποτελεσματική αποθήκευση και επεξεργασία αυτής. Δύο πολύ χαρακτηριστικές και σημαντικές εφαρμογές, στις οποίες ανακύπτουν συνεχώς νέα προβλήματα, είναι η διαχείριση Βιολογικών δεδομένων, όπως π.χ. οι ακολουθίες γονιδιωμάτων, καθώς και η διαχείριση πληροφορίας από τον παγκόσμιο ιστό, όπως π.χ. τα έγγραφα HTML, XML ή οι συντομεύσεις (urls). Στόχος είναι ανάπτυξη δομών δεικτοδότησης πάνω στην πληροφορία έτσι ώστε τα σχετικά ερωτήματα με αυτή να απαντώνται αποδοτικά και πολύ πιο γρήγορα από το να ψάχναμε εκτενώς μέσα σε αυτή. Χαρακτηριστικά τέτοια ερωτήματα είναι η εύρεση προτύπων (pattern matching) ή ο εντοπισμός επαναλαμβανόμενων μοτίβων (motif extraction). Πιο συγκεκριμένα, τα ϑέματα στα οποία εστίασε η παρούσα διατριβή είναι τα ακόλουϑα: - Εντοπισμός Περιοδικοτήτων σε συμβολοσειρές. Στην ενότητα αυτή δίνεται μια σειρά από αλγόριθμους για την εξαγωγή περιοδικοτήτων από συμβολοσειρές. Δίνονται αλγόριθμοι για την εξαγωγή μέγιστων επαναλήψεων, της περιόδου του καλύμματος και της ρίζας μιας συμβολοσειράς. Οι αλγόριθμοι αυτοί χρησιμοποιούν ώς βάση το δένδρο επιθεμάτων και οι περισσότεροι από αυτούς είναι γραμμικοί. - Δεικτοδότηση Βεβαρημένων Ακολουθιών. Στην επόμενη ενότητα η μελέτη εστιάζει στην δεικτοδότηση βεβαρημένων ακολουθιών, καθώς και στην απάντηση ερωτημάτων σε αυτές όπως η εύρεση προτύπων, η εύρεση επαναλήψεων, η εύρεση καλυμμάτων, κ.α.. Οι βεβαρημένες ακολουθίες είναι ακολουθίες όπου σε κάθε ϑέση τους έχουμε εμφάνιση όλων των συμβόλων του αλφαβήτου της ακολουθίας, έχοντας λάβει ένα συγκεκριμένο βάρος. Οι βεβαρημένες ακολουθίες αναπαριστούν βιολογικές ακολουθίες είτε νουκλεοτιδίων είτε αμινοξέων και στην ουσία περιγράφουν την πιθανότητα εμφάνισης ενός συμβόλου του αλφαβήτου σε μια συγκεκριμένη ϑέση της ακολουθίας ή κάποιες συγκεκριμένες βιολογικές ιδιότητες που διαθέτουν οι ρυθμιστικές πρωτεΐνες σε κάθε ϑέση της ακολουθίας. Για την διαχείριση αυτών των ιδιόμορφων ακολουθιών προτείνεται ως δομή δεικτοδότησης το βεβαρημένο δένδρο επιθεμάτων (Weighted Suffix Tree), ένα δένδρο με παρόμοια δομικά χαρακτηριστικά με αυτά του γενικευμένου δένδρου επιθεμάτων. Στην παρούσα εργασία δίνεται ο ορισμός του βεβαρημένου δένδρου επιθεμάτων και αλγόριθμοι κατασκευής του σε γραμμικό χρόνο και χώρο. -Εξαγωγή μοτίβων από βεβαρημένες Ακολουθίες. Με την χρήση του βεβαρημένου δένδρου επιθεμάτων υλοποιούνται ένα σύνολο αλγόριθμων εξαγωγής επαναληπτικών δομών από βεβαρημένες ακολουθίες. Πιο συγκεκριμένα, δίνονται αλγόριθμοι για την εύρεση μέγιστων ευγών,επαναλαμβανόμενων μοτίβων και κοινών μοτίβων από περισσότερες της μίας βεβαρημένες ακολουθίες. - Αλγόριθμοι Σύστασης Σελίδων Παγκόσμιου Ιστού με χρήση τεχνικών επεξεργασίας συμβολοσειρών. Αρκετές εφαρμογές παγκόσμιου ιστού (συστήματα σύστασης ή συστήματα κρυφής μνήμης) προσπαθούν να προβλέψουν τις προθέσεις ενός επισκέπτη είτε για να του προτείνουν είτε για να προφορτώσουν μία σελίδα. Για το σκοπό αυτό προσπαθούν να εκμεταλλευτούν οποιαδήποτε εμπειρία που έχει καταγραφεί στο σύστημα από προηγούμενες προσπελάσεις. Προτείνεται νέος τρόπος δεικτοδότησης και αναπαράστασης της πληροφορίας που εξάγεται από τα διαθέσιμα δεδομένα, όπως οι προσβάσεις των χρηστών από τα logfilesκαι το περιεχόμενο των σελίδων. Για την εξόρυξη γνώσης από τα παραπάνω δεδομένα, αυτά αναπαριστώνται ως συμβολοσειρές και στη συνέχεια επεξεργάζονται και δεικτοδοτούνται από ένα γενικευμένο βεβαρημένο δένδρο επιθεμάτων. Το δένδρο αυτό συμπυκνώνει αποδοτικά τα πιο συχνά αλλά και πιο ουσιαστικά μοτίβα προσπελάσεων και χρησιμοποιείται, αφότου κατασκευαστεί, σαν ένα μοντέλο για την πρόβλεψη των κινήσεων τον επισκεπτών ενός ιστοτόπου. / The basic goal of this thesis is to explore the possibilities of the field of computer science that deals with storing and processing information in the environment that formed by the modern applications. In recent years, the information that is available in electronic form, has met an enormous growth. Thus it is necessary to develop new techniques for efficient storage and processing. Two very specific and important applications in which constantly new problems arise are, the management of biological data, such as genome sequences, and the management information from the Web, such as documents HTML, XML or shortcuts (urls). The objective is the development of data structures for indexing information so that the questions are able to be answered in less time than looking explicitly in information. Such questions are to find patterns (pattern matching) or the identification of repeated motifs (motif extraction). In particular, the issues on which this thesis has focused are: - Locating Periodicities in strings. This section provides a series of algorithms for the extraction of periodicities of strings. We propose algorithms for the extraction of maximum repetitions of the cover, period and the seed of a string. The algorithms used are based on suffix tree and they are optimal. - Weighted Sequences indexing. In the next section, the study focuses on indexing of weighted sequences, and to answer questions like finding models, pairs, covers etc. in them. The weighted sequences are sequences where each position consists of all the symbols of the alphabet in sequence, having each one a specific weight. For the management of these sequences a particular indexing structure is proposed with the name Weighted Suffix Tree, a tree with structural features similar to those of the generalized suffix tree. In this work we propose the definition of the weighted suffix tree and construction algorithms in linear time and memory space. With the utilization of weighted suffix tree on a set of weighted sequences we propose algorithms for extracting repetitive structures from a set of weighted sequences. More specifically, we propose algorithms for finding maximum pairs, repeated motifs and common patterns of more than one weighted sequences -Recommendation Algorithms for web pages using strings processing algorithms. Several web applications (Recommendation systems or cache systems) want to predict the intentions of a visitor in order to propose or to preload a webpage. For this purpose systems try to exploit any experience that is recorded in the system from previous accesses. A new method for indexing and representing of information extracted is proposed upon the recorder data, from the user accesses in log files and content pages. For extracting knowledge from these data, the information is represented as strings and then treated and processed as weighted sequences. All these sequences are indexed by a generalized weighted sequence tree. Δεικτοδότηση Ανάκτηση πληροφορίας Συμβολοσειρές Δομές δεδομένων Περιοδικότητες Μέγιστα ζεύγη 025.04 Indexing Information retrieval Strings Data structures Periodicities Weighted sequences Maximal pairs Web recommendation
2	Δομές δεδομένων για τη διαχείριση συμβολοσειρών και για τη διαχείριση πληροφορίας σε δικτυοκεντρικά πληροφοριακά συστήματα Παναγής, Ιωάννης-Δαμαστιανός 03 March 2009 (has links) Οι Δομές Δεδομένων είναι ένας από τους σημαντικότερους και ιστορικότερους κλάδους της Επιστήμης των Υπολογιστών, με συνεχή εξέλιξη από τη δεκαετία του εβδομήντα μέχρι σήμερα, παρέχοντας λύσεις σε θεμελιώδη προβλήματα σε ταξινόμηση, οργάνωση, διαχείριση και αναζήτηση πληροφορίας. Παράλληλα, η ανάπτυξη σύγχρονων κλάδων της Επιστήμης των Υπολογιστών όπως τα Σύγχρονα, Δικτυοκεντρικά Πληροφοριακά Συστήματα και η Βιοπληροφορική, έφερε μαζί της την έκρηξη των δεδομένων. Η ανάγκη αποδοτικής διαχείρισης της παρεχόμενης πληροφορίας καθίσταται έτσι πιο επιτακτική από ποτέ. Στα πλαίσια αυτής της διατριβής αναγνωρίζοντας την ανάγκη για αποδοτική διαχείριση πληροφορίας σε όλα τα επίπεδα, παρουσιάζουμε τη μελέτη και την πρόταση λύσεων σε σύγχρονα προβλήματα στους χώρους: της Διαχείρισης Συμβολοσειρών, της Αναδιοργάνωσης Δικτυακών Τόπων, της Ανακάλυψης Web Services με υποστήριξη χαρακτηριστικών Ποιότητας Υπηρεσίας και της Προσωποποιημένης Ανάκτησης Πληροφορίας στο Διαδίκτυο. Σε αυτή την κατεύθυνση, στον τομέα της Διαχείρισης Συμβολοσειρών, παραθέτουμε αλγορίθμους σε θεμελιώδη προβλήματα στο χώρο της διαχείρισης Σταθμισμένων Ακολουθιών (weighted sequences), όπως ταίριασμα προτύπου, εύρεση επαναληπτικών δομών, και συνεχίζουμε δίνοντας απλοποιητικές αλλά βέλτιστες λύσεις σε προβλήματα περιοδικοτήτων σε συνήθεις συμβολοσειρές, όπως τα προβλήματα εύρεσης όλων των καλυμμάτων μιας συμβολοσειράς, εύρεσης της περιόδου μιας συμβολοσειράς και εύρεσης όλων των φύτρων μιας συμβολοσειράς. Στην Αναδιοργάνωση Δικτυακών Τόπων, παραθέτουμε δυο διαφορετικές μετρικές για την αποτίμηση της αντικειμενικής αξίας των ιστοσελίδων του κάθε ιστοτόπου. Αυτές οι μετρικές παραλλάζουν τις προσβάσεις που δέχεται κάποια ιστοσελίδα με τρόπο που καταδεικνύει την αντικειμενική αξία της ιστοσελίδας. Από πειραματική αποτίμηση των μετρικών, προκύπτει ότι παρέχουν ακριβή πληροφόρηση για τα σημεία του δικτυακού τόπου που χρήζουν αναδιοργάνωσης. Στη συνέχεια δίνουμε μια μέθοδο για τον εντοπισμό σημαντικών τμημάτων μεγαλύτερου μεγέθους στο δικτυακό τόπο και παρουσιάζουμε μια σειρά μεθόδων τόσο σε τεχνικό όσο και θεωρητικό επίπεδο για την αναδιοργάνωση ενός δικτυακού τόπου. Στον τομέα της Ανακάλυψης Web Services, εξετάζουμε την Ανακάλυψη που πληροί περιορισμούς ως προς την παρεχόμενη Ποιότητα Υπηρεσίας. Αρχικά, παρουσιάζονται δυο απλές μέθοδοι για την καταχώριση χαρακτηριστικών ποιότητας υπηρεσίας επεκτείνοντας υπάρχοντα πρότυπα υλοποίησης Web Service. Στη συνέχεια παρουσιάζουμε έναν αλγόριθμο για την ανακάλυψη του σεναρίου εκτέλεσης μιας ακολουθίας (workflow) από συνεχόμενες Web Services, που ελαχιστοποιεί το συνολικό χρόνο εκτέλεσης. Μια σειρά από ευριστικές μεθόδους παρουσιάζονται επίσης, για την υλοποίηση σε πρακτικό επίπεδο του προτεινόμενου αλγορίθμου, οι οποίες αποτιμούνται πειραματικά. Τέλος, στον τομέα της Προσωποποιημένης Ανάκτησης Πληροφορίας στο Διαδίκτυο εξετάζουμε διαφορετικές τεχνικές προσωποποίησης των αποτελεσμάτων των μηχανών αναζήτησης. Η πρώτη τεχνική εφαρμόζει μετα-κατηγοριοποίηση των αποτελεσμάτων και παρουσίασή τους ανάλογα με τη σειρά ενδιαφέροντος του χρήστη ως προς τις κατηγορίες των αποτελεσμάτων. Η δεύτερη τεχνική, βασίζει την προσωποποίηση στην έμμεση απεικόνιση των ενδιαφερόντων χρήστη στις κατηγορίες του Open Directory Project, επεκτείνει μια τεχνική που έχει πρόσφατα προταθεί, τους ιδεατούς κόμβους συσχέτισης κατηγοριών, και χτίζει πολλαπλά επίπεδα ιδεατών κόμβων για την επίτευξη πιο εκλεπτυσμένης προσωποποίησης. Κλείνοντας, παρουσιάζουμε την επέκταση της λογικής της μεθόδου προσωποποίησης για την κατασκευή εστιασμένων συλλεκτών. / Data Structures is one of the most important and most historical sectors of Computer Science, being under continuous development since the seventies. Data Structuring has offered solutions to fundamental problems in sorting, organising, and retrieving information. Meanwhile, the development of the modern fields of Computer Science such as Modern, Net-centric Information Systems and Bioinformatics has signalled a data blow-up. Therefore, the need for efficient information management has become a necessity. In this Thesis, having recognized the need for efficient information management at every level, we present a study and solutions to contemporary problems in the areas of: String Processing, Website Reorganization, Web Service retrieval with support for Quality of Service characteristics, and Personalized Information Retrieval on the Web. In the area of String Processing, we present algorithms for solving fundamental problems in Weighted Sequence Processing, such as Pattern Matching, Repetitive Structures Detection and we continue by giving simplifying yet optimal solutions to periodicity problems in ordinary sequences, namely detecting all covers in a sequence, detecting the period of a sequence and detecting all the seeds of a sequence. In the area of Website Reorganization, we present two different metrics for evaluation of the objective importance of each website's pages. These metrics modify the accesses each page receives in order to present the actual page importance. We have seen from the experimental evaluation of those metrics that they provide accurate information about the areas inside the website in need of reorganization. Furthermore, we present a method to detect larger important parts inside the website and we present methods for website reorganisation both from a technical and from a theoretical viewpoint. In the area of Web Service Retrieval we are coping with retrieval under constraints for the provided Quality of Service (QoS). Firstly, we present two simple methods to register QoS information by extending existing Web Service protocols. Secondly, we present an algorithm to discover the execution scenario for a sequence of contiguous Web Services that minimizes the total execution time. A series of heuristics to implement the above algorithm is also presented. We also present an extensive experimental evaluation of those heuristics. Ultimately, we present different personalization techniques for personalized Web Information Retrieval. The first technique, applies post-categorization of search engine results and presents them according to user preferences with respect to the results' categories. The second technique is based on implicit mapping of user preferences to the categories of the Open Directory Project, it extends a recently proposed technique, namely virtual nodes for associating categories, and builds multiple layers of nodes to achieve more elaborate personalization. Finally, we present the extension of personalization methods in order to build focused crawlers. Δομές δεδομένων Συμβολοσειρές Ανακάλυψη web services Ποιότητα υπηρεσίας Ανάκτηση πληροφορίας 005.73 Data structures Strings Weighted sequences Net-centric information systems Website reorganization Web service discovery Quality of service Information retrieval

Search results

Αποδοτική διαχείριση κειμενικής πληροφορίας, δεικτοδότηση, αποθήκευση, επεξεργασία και εφαρμογές

Δομές δεδομένων για τη διαχείριση συμβολοσειρών και για τη διαχείριση πληροφορίας σε δικτυοκεντρικά πληροφοριακά συστήματα