• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • Tagged with
  • 9
  • 8
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Εξατομικευμένη αναζήτηση πληροφορίας με χρήση σημασιολογικών δικτύων / Personalized web search through the use of semantic networks

Ζώτος, Νικόλαος 15 November 2007 (has links)
Κατά την αναζήτηση στον Παγκόσμιο Ιστό, είναι πιθανό να επιστρέφονται πολλά αποτελέσματα για ερωτήματα που είναι ασαφή και αμφιλεγόμενα. Τα snippets που εξάγονται από τις σελίδες που ανακτήθηκαν, είναι ένας δείκτης της χρησιμότητας της σελίδας ως προς την θεματική πρόθεση του ερωτήματος και μπορούν να χρησιμοποιηθούν για να εστιάσουμε στο αντικείμενο της αναζήτησης. Στην παρούσα εργασία προτείνουμε μια καινοτόμο μέθοδο αυτόματης εξαγωγής snippets ιστοσελίδων που είναι πολύ σχετικά με την πρόθεση του ερωτήματος αλλά και αντιπροσωπευτικά του συνολικού περιεχομένου των σελίδων. Θα δείξουμε ότι η χρήση σημασιολογίας ως βάση της θεματικά προσανατολισμένης ανάκτησης πληροφορίας μας βοηθάει να προτείνουμε στον χρήστη snippets υψηλής ποιότητας. Τα snippets που παράγονται με την μέθοδο που προτείνουμε είναι σημαντικά καλύτερα όσον αφορά την απόδοση της ανάκτησης σε σχέση με αυτά που προκύπτουν από στατιστική επεξεργασία της σελίδας. Επιπλέον, μπορούμε να χρησιμοποιήσουμε τη σημασιολογική εξαγωγή snippets για να αυξήσουμε την απόδοση των παραδοσιακών αλγορίθμων, οι οποίοι βασίζονται στην επικάλυψη λέξεων ή σε στατιστικά βάρη, αφού αυτοί συνήθως παράγουν διαφορετικά αποτελέσματα. Η επιλογή από την πλευρά του χρήστη των πιο σχετικών με το ερώτημά του snippets, μπορεί να χρησιμοποιηθεί στο να βελτιώσουμε τα επιστρεφόμενα αποτελέσματα και να προωθήσουμε τις πιο χρήσιμες προς αυτόν σελίδες. / When searching the web, it is often possible that there are too many results available for ambiguous queries. Text snippets, extracted from the retrieved pages, are an indicator of the pages’ usefulness to the query intention and can be used to focus the scope of search results. In this paper, we propose a novel method for automatically extracting web page snippets that are highly relevant to the query intention and expressive of the pages’ entire content. We show that the usage of semantics, as a basis for focused retrieval, produces high quality text snippet suggestions. The snippets delivered by our method are significantly better in terms of retrieval performance compared to those derived using the pages’ statistical content. Furthermore, our study suggests that semantically-driven snippet generation can also be used to augment traditional passage retrieval algorithms based on word overlap or statistical weights, since they typically differ in coverage and produce different results. User clicks on the query relevant snippets can be used to refine the query results and promote the most comprehensive among the relevant documents.
2

Yδρολογική προσομοίωση λεκανών απορροής με ελλιπή δεδομένα / Hydrologic simulation of ungauged basins

Μέχλερη, Βαρβάρα 03 March 2008 (has links)
Στον ελληνικό χώρο, για έναν μεγάλο αριθμό λεκανών δεν υπάρχουν διαθέσιμες μετρήσεις απορροής, γεγονός που καθιστά δύσκολη την υδρολογική τους προσομοίωση για τον προσδιορισμό των συνιστωσών του υδρολογικού ισοζυγίου. Μια τέτοια περίπτωση αποτελούν οι λεκάνες απορροής των ποταμών του Πείρου και του Παραπείρου. Στους ποταμούς αυτούς κατασκευάζεται ένα σύστημα έργων που αποτελείται από ένα φράγμα εκτροπής στη θέση Βαλμαδούρα στον ποταμό Πείρο, έναν ταμιευτήρα στη θέση Αστέρι στον Παραπείρο και έναν συνδετικό αγωγό. Στόχος της κατασκευής των έργων αυτών αποτελεί η κάλυψη των υδρευτικών αναγκών της πόλης των Πατρών, της Βιομηχανικής Περιοχής και των κοινοτήτων της Β.Δ. Αχαϊας. Στη μελέτη των έργων αυτών (Υ.ΠΕ.ΧΩ.Δ.Ε., 1997) ο υπολογισμός του υδρολογικού ισοζυγίου στις λεκάνες που αντιστοιχούν στις θέσεις των έργων βασίστηκε σε απλοποιητικές παραδοχές. Συγκεκριμένα θεωρήθηκε ότι το νερό αποθηκεύεται μόνο στην εδαφική ζώνη και δεν γίνεται διάκριση ανάμεσα σε επιφανειακή και υπόγεια απορροή. Στην παρούσα εργασία για τον ακριβή και αναλυτικό προσδιορισμό των συνιστωσών του υδρολογικού ισοζυγίου χρησιμοποιήθηκε το υδρολογικό μοντέλο βροχής–απορροής ENNS (Nachtnebel, 1993), η χρήση του οποίου απαιτεί την εύρεση τιμών των παραμέτρων που υπεισέρχονται στις εξισώσεις των διαδικασιών που περιγράφουν το μοντέλο. Λόγω ελλείψεως μετρήσεων απορροής για τις λεκάνες του Πείρου και του Παραπείρου, για την εύρεση των τιμών των παραμέτρων του μοντέλου εφαρμόστηκε μια μεθοδολογία διερεύνησης της υδρολογικής ομοιότητας των δύο λεκανών με άλλες λεκάνες, για τις οποίες υπάρχουν διαθέσιμες μετρήσεις απορροής. Πιο συγκεκριμένα χρησιμοποιήθηκαν οι λεκάνες απορροής του Γλαύκου στον Νομό Αχαϊας, του Αχελώου που αντιστοιχεί στην θέση του φράγματος της Μεσοχώρας, του ποταμού Ερύμανθου, παραποτάμου του Αλφειού και του ποταμού Myakka στην Florida των Η.Π.Α.. Η διαδικασία που ακολουθήθηκε είναι η εξής: Αρχικά πραγματοποιείται η ρύθμιση του μοντέλου για τις τέσσερις λεκάνες για τις οποίες υπάρχουν μετρήσεις απορροής με στόχο (α) να βρεθούν οι τιμές των παραμέτρων που επηρεάζουν το αποτέλεσμα της προσομοίωσης και (β) να διαπιστωθεί το εύρος διακύμανσης των τιμών αυτών των παραμέτρων. Λόγω του σημαντικού εύρους διακύμανσης αυτών των παραμέτρων, πραγματοποιείται η κατάταξη των λεκανών του Πείρου, του Παραπείρου και των τεσσάρων λεκανών, για τις οποίες υπάρχουν διαθέσιμες μετρήσεις απορροής, σύμφωνα με κάποιους φυσιογραφικούς και κλιματικούς παράγοντες που επιλέχθησαν, ως προς την αναμενόμενη επιφανειακή απορροή. Στη συνέχεια, για τις λεκάνες για τις οποίες υπάρχουν διαθέσιμες μετρήσεις απορροής γίνεται έλεγχος εάν οι τιμές των παραμέτρων του μοντέλου είναι συμβατές με την κατάταξη των λεκανών σύμφωνα με τους φυσιογραφικούς και κλιματικούς παράγοντες. Επειδή προκύπτει ότι αυτό δεν συμβαίνει, πραγματοποιείται επαναρρύθμιση του μοντέλου αναζητώντας συνδυασμούς παραμέτρων, οι οποίοι να επαληθεύουν την κατάταξη των λεκανών. Τέλος με βάση τα αποτελέσματα της διερεύνησης της υδρολογικής ομοιότητας των λεκανών επιλέγονται οι τιμές των παραμέτρων του μοντέλου για την υδρολογική προσομοίωση των λεκανών του Πείρου και του Παραπείρου. Τα αποτελέσματα που προέκυψαν από την υδρολογική προσομοίωση του Πείρου και του Παραπείρου με την χρήση του μοντέλου συγκρίθηκαν με τα αποτελέσματα της μελέτης του Υ.ΠΕ.ΧΩ.Δ.Ε. (Μάρτιος 1997). Τα συμπεράσματα που προκύπτουν από την παρούσα εργασία είναι τα εξής: (α) Από την διερεύνηση της υδρολογικής ομοιότητας των λεκανών του Πείρου και του Παραπείρου με τις λεκάνες του Γλαύκου, του Ερύμανθου, της Μεσοχώρας και του ποταμού Myakka, Η.Π.Α. διαπιστώθηκε ότι η επαναρρύθμιση του μοντέλου που πραγματοποιήθηκε για τις τέσσερις λεκάνες, για τις οποίες υπαρχουν μετρήσεις απορροής, οδήγησε σε βελτίωση των αποτελεσμάτων της ρύθμισης (μείωση των αποκλίσεων της μετρημένης και προσομοιωμένης απορροής). Επίσης, επειδή ο λόγος της επιφανειακής απορροής προς την βροχή για τις τέσσερις λεκάνες επαληθεύει την κατάταξη σύμφωνα με τους φυσιογραφικούς και κλιματικούς παράγοντες, προκύπτει ότι η διαδικασία που ακολουθήθηκε αποτελεί μια δυνατότητα αντιστοίχισης των παραμέτρων του μοντέλου σε κριτήρια που προκύπτουν από αυτούς τους παράγοντες. (β) Από την σύγκριση των αποτελεσμάτων της μελέτης του Υ.ΠΕ.ΧΩ.Δ.Ε. με τα αποτελέσματα του μοντέλου αποδεικνύεται ότι το μοντέλο δίνει πιο ρεαλιστικές τιμές για τις συνιστώσες του υδρολογικού ισοζυγίου των λεκανών του Πείρου και του Παραπείρου από την μελέτη. Οι λόγοι είναι ότι (α) σύμφωνα με την κατάταξη των λεκανών βάσει των φυσιογραφικών και κλιματικών παραγόντων οι λεκάνες του Πείρου και του Παραπείρου παρουσιάζουν υδρολογική ομοιότητα με την λεκάνη του Γλαύκου, για την οποία το μοντέλο δίνει μια ρεαλιστική προσέγγιση της συνολικής απορροής (άμεσης και βασικής) και (β) η βασική απορροή που υπολογίστηκε με το μοντέλο παρουσιάζει πολύ μικρότερη μεταβλητότητα στον χρόνο έναντι της άμεσης απορροής λόγω της αποθηκευτικής ικανότητας του εδάφους. (γ) Από τα αποτελέσματα της υδρολογικής προσομοίωσης των λεκανών του Πείρου και του Παραπείρου με την χρήση του μοντέλου προκύπτει ότι τα ποσοστά της άμεσης απορροής προς την βροχόπτωση των λεκανών του Πείρου και του Παραπείρου σύμφωνα με το μοντέλο δεν ήταν τα αναμενόμενα, παρόλο που τα αποτελέσματα του μοντέλου κρίθηκαν ικανοποιητικά. Οι πιθανοί λόγοι είναι κάποια μειονεκτήματα που παρουσιάζει η μεθοδολογία διερεύνησης της υδρολογικής ομοιότητας των λεκανών και τα οποία κρίνεται ότι εάν ληφθούν υπόψη μπορούν να οδηγήσουν σε βελτίωση της μεθόδου. / In Greece, there is a significant number of ungauged basins, for which the hydrologic simulation is not possible and as a result calculating the components of the water balance is infeasible. The basins of the rivers Peiros and Parapeiros were selected as a case-study. These rivers are involved in a current project; the construction of a diversion dam in the position Valmadoura of Peiros River, a reservoir in the position Asteri of Parapeiros River and a conjection pipe. The aim of this project is to support the water supply of the city of Patras, the Industrial Region and the communities of the North-west Achaias. The study of this project conducted by the Hellenic Ministry of Environment, Physical Planning and Public Works in 1997 deals with the calculation of the water balance in these basins, based on simplified principles, assuming that the water is stored in the soil layer and there is no separation of the total runoff in surface flow and base flow. In the present study, the use of the rainfall-runoff model ENNS (Nachtnebel, 1993) allowed the exact and analytical quantification of the water balance. The use of this model requires the estimation of a number of parameters involved in the governing equations of the model. The lack of runoff measurements in Peiros and Parapeiros basins preclude the determination of the required parameters. A study of the hydrologic similarity of these two basins with a number of gauged basins gave solution to the problem. The chosen basins are: (a) Glaukos River basin in the prefecture of Achaias, (b) Mesoxora basin, a sub-basin of Acheloos River, (c) Erymanthos basin, a sub-basin of Alfeios River and (d) Myakka River basin, Florida of U.S.A. The procedure adopted is divided in the following steps: Firstly, the model ENNS was established for the basins mentioned previously in order to determine (a) the value of the parameters affecting the simulation result and (b) the range of their values. The significant variation led to the classification of the six basins, according to physiographic and climatic characteristics. The criterion used in the classification is the expected surface runoff to the amount of rainfall. Secondly, a compatibility check between the values of the parameters of the model and the basins classification was performed. The unsatisfying result compelled the reestablishement of the model for the four gauged basins with an aim to obtain the appropriate parameters in accordance with the basins classification. Finally, the values of the ENNS parameters, regarding Peiros and Parapeiros basins, were derived from the study of the hydrologic similarity of the basins. The results of the hydrologic simulation of Peiros and Parapeiros were compared to the results of the study conducted by the Hellenic Ministry of Environment, Physical Planning and Public Works in 1997. The conclusions of the present study are: (a)The setup of the ENNS model taking into account the hydrologic similarity study of the six basins improved the results of the model (decrease of the deviations between the measured and simulated discharge values). Moreover the ratio of the surface runoff to the rainfall for the four gauged basins verifies the basins classification. Hence, a satisfying degree of correlation between the model parameters and the physiographic and climatic basin characteristics, is obtained. (b)Comparing the obtained results to those of the Hellenic Ministry of Environment, Physical Planning and Public Works study in 1997, the present model gives a more realistic view of the water balance. The reasons are: (a) according to the basins classification, Peiros and Parapeiros basins are similar to Glaukos basin, for which the model gives a realistic approach of the total runoff (surface and base flow) and (b) the base flow calculated by the model shows a smaller variability, contrary to the surface flow due to the storage capacity of the soil. (c)The results of the hydrologic simulation of Peiros and Parapeiros basins showed that the percentage of the surface runoff to the amount of rainfall for the two basins is not compatible to the classification (smaller than 36.5% of Glaukos basin). However, the results of the model are satisfactory (accordance of the annual simulated values of actual evapotranspiration to the values calculated using the Turc method). The possible reasons are some disadvantages in the basins hydrologic similarity study that must be taken into consideration in order to improve the method.
3

Αποδοτική οργάνωση και διαχείριση πολυδιάστατων αντικειμένων για την ανακάλυψη γνώσης

Κροτοπούλου, Αικατερίνη 11 January 2011 (has links)
Ο σκοπός αυτής της διατριβής είναι η ανεύρεση μεθόδων αποδοτικής οργάνωσης και διαχείρισης πολυδιάστατων αντικειμένων (multi-dimensional objects) προκειμένου να ανακαλυφθεί χρήσιμη γνώση. Αρχική αφορμή για αυτή τη μελέτη αποτέλεσαν οι ανάγκες μιας απαιτητικής εφαρμογής με σκοπό τη χαρτογράφηση του ανθρώπινου εγκεφάλου προκειμένου να εντοπιστούν επιληπτικές εστίες. Οι απαιτήσεις Αναπαράστασης και Διαχείρισης των Δεδομένων του Εγκεφάλου, έφεραν στην επιφάνεια δύο κεντρικά ερευνητικά προβλήματα: - Τις ιδιαιτερότητες των πολύπλοκων, μη-ομοιογενών, δικτυακών μερικές φορές, τρισδιάστατων αντικειμένων (τμημάτων του εγκεφάλου – brain objects). - Την ανάγκη για αποτελεσματική διαχείριση-χρήση γνωστών αλλά και παραγόμενων εξαρτήσεων δεδομένων και γνώσης (data and knowledge dependencies), η οποία μπορεί να αναβαθμίσει την απόδοση και τη δυναμική της εφαρμογής. Το μεγαλύτερο μέρος της μελέτης που αφορούσε αυτό το πρόβλημα, οδήγησε σε : - Διερεύνηση θεμάτων ανεύρεσης ομοιοτήτων (similarity search). Καθώς η συγκεκριμένη περιοχή διαθέτει μεγάλο εύρος εφαρμογών αλλά και ανοικτών προβλημάτων, αποτέλεσε τελικά μεγάλο μέρος της παρούσας διατριβής. Δεδομένου ότι πολλά από τα γεωμετρικά χαρακτηριστικά των δεδομένων αλλά και από τις εξαρτήσεις γνώσης που αφορούν τον ανθρώπινο εγκέφαλο, συναντώνται – καθ’ολοκληρία ή τμηματικά – σε πλήθος σύγχρονων πολυμεσικών (multimedia) εφαρμογών, τα παραπάνω προβλήματα εντάσσονται στα βασικά προβλήματα της έρευνας του τομέα των Βάσεων Δεδομένων. Επικεντρώνοντας την έρευνά στα παραπάνω προβλήματα, καταλήξαμε: • στον ορισμό νέων ευέλικτων τύπων δεδομένων, εννοιών και μοντέλων καθώς και εργαλείων και μεθόδων ταξινόμησης δεδομένων και γνώσης (βάση δεδομένων BDB και μοντέλα 3D-IFO και MITOS) οι οποίες οργανώνουν πιο ευέλικτα και αποδοτικά τα δεδομένα μας, με τρόπους που όχι μόνο κάνουν την πρόσβασή τους ευκολότερη αλλά αξιοποιούν παράλληλα τις ‘κρυμμένες’ μεταξύ τους σχέσεις για την άντληση επιπλέον γνώσης. • στον ορισμό νέων μεθόδων και δέντρων αναζήτησης, για : o τον αποδοτικό εντοπισμό τμηματικών ομοιοτήτων (partial similarity) ανάμεσα σε πολυδιάστατα αντικείμενα (Lui k-n-match και INTESIS) o την εξάλειψη της μεγάλης πτώσης της απόδοσης των δέντρων με την αύξηση των διαστάσεων των αντικειμένων (‘dimensionality curse’) (δομή Digenis). o την ανεύρεση χαρακτηριστικών/διαστάσεων με παρόμοια εξέλιξη στην πορεία του χρόνου – για πολυδιάστατα κυρίως αντικείμενα – με σκοπό τη μελέτη πιθανής αλληλεπίδρασής τους. Γενικά, η παρούσα μελέτη αποτελείται από δύο βασικά μέρη, τα οποία αναφέρονται σε δύο περιοχές με μεγάλη αλληλεπίδραση:  Τη Μοντελοποίηση σε Πολυμεσικές Βάσεις Δεδομένων  Την Αναζήτηση Ομοιοτήτων ανάμεσα σε Πολυδιάστατα Αντικείμενα Στο πρώτο κεφάλαιο αρχικά παρουσιάζεται το πρόβλημα της χαρτογράφησης του ανθρώπινου εγκεφάλου για τον εντοπισμό επιληπτικών εστιών, απ’όπου εγείρονται τα πρώτα προβλήματα αναπαράστασης και οργάνωσης τριδιάστατων αντικειμένων πολύπλοκης δομής και λειτουργικών σχέσεων και εξαρτήσεων μεταξύ τους. Σε μια πρώτη προσέγγιση προτείνεται το λογικό μοντέλο BDB (Brain Data Base) όπου εισάγονται νέοι τύποι οντοτήτων. Εδώ, ιδιαίτερο ενδιαφέρον παρουσιάζει η προσθήκη της ιεραρχικής διάταξης στο Σχεσιακό Μοντέλο, προκειμένου οι περιοχές του εγκεφάλου να οργανωθούν με βάση την πιθανότητα εμφάνισης επιληπτικής εστίας έτσι ώστε να βελτιώνονται στατιστικά οι χρόνοι ανάκτησής τους. Στη συνέχεια, η μελέτη επεκτείνεται σε άλλα – επόμενης γενιάς - είδη μοντέλων. Πιο συγκεκριμένα, οι ανάγκες της εφαρμογής μελετώνται με βάση ένα Σημαντικό (semantic model) - το μοντέλο IFO - και ένα Αντικειμενοστραφές Μοντέλο (object oriented model), με αποτέλεσμα τη δημιουργία των μοντέλων 3D-IFO και MITOS αντίστοιχα. Στο 3D-IFO εισήχθησαν νέοι τύποι δεδομένων προκειμένου να υποστηριχθούν αποδοτικά τα ιδιαίτερα δεδομένα μας καθώς και νέοι τελεστές για την καλύτερη διαχείριση των σύνθετων δεδομένων. Επιπλέον, εισήχθη ένας νέος constructor και ένα κατάλληλο πεδίο για την υποστήριξή του, προκειμένου να υποστηριχτεί η αναπαράσταση της διάταξης των μερών του εγκεφάλου με βάση κάποιο κριτήριο έτσι ώστε να διευκολυνθεί η μελλοντική απλή και συνδυαστική ανάκτηση πληροφορίας. Τέλος το αντικειμενοστραφές μοντέλο MITOS, εισάγει πάλι ένα νέο μοντέλο δεδομένων (MITOS Data Model - MDM) το οποίο συνεργάζεται με μία νέα γλώσσα ερωτημάτων (MITOS Query Language - MQL). Το μοντέλο MITOS εισάγει διάφορες καινοτομίες οι οποίες εξυπηρετούν μια περισσότερο εκφραστική και έξυπνη αναπαράσταση και διαχείριση πολυδιάστατων δεδομένων και γνώσης. Η μία από αυτές τις καινοτομίες είναι ο ορισμός ενός ακόμη βασικού χαρακτηριστικού των αντικειμένων (object characteristic), της σχέσης τους με το περιβάλλον, απεγκλωβίζοντάς την από την κατάσταση ή τη συμπεριφορά, όπου αποδυναμώνεται σαν έννοια. Η δεύτερη καινοτομία του MITOS η οποία αφορά την MQL σχετίζεται με την εισαγωγή ‘κλειδιού’ στους κανόνες (rules). Η διερεύνηση αυτής της δυνατότητας – η ιδέα προέρχεται από το χώρο των Βάσεων Δεδομένων – οδηγεί πράγματι σε ένα είδος κλειδιού, κατά την έννοια που θα μπορούσε να έχει στις Βάσεις Γνώσης και η οποία δεν μπορεί να είναι ακριβώς ίδια με την αντίστοιχη των Βάσεων Δεδομένων, λόγω των ειδοποιών διαφορών των δύο Βάσεων. Στο δεύτερο κεφάλαιο μελετάται η αναζήτηση ενός ελάχιστα διερευνημένου είδους ομοιότητας ανάμεσα σε πολυδιάστατα κυρίως αντικείμενα, της τμηματικής ομοιότητας (partial similarity). Η τμηματική ομοιότητα σε αντίθεση με τον ιδιαίτερα διερευνημένο τύπο της πλήρους ομοιότητας (full similarity), αναφέρεται σε πραγματικές ομοιότητες οι οποίες δεν είναι πλήρεις. Κι αυτό συμβαίνει γιατί ένα πολύ συνηθισμένο σενάριο κατά τη διερεύνηση ομοιοτήτων είναι το ακόλουθο: Συνήθως η ανεύρεση πλήρους ομοιότητας βασίζεται σε υπολογισμό αποστάσεων, όπως η Ευκλείδεια απόσταση, οι οποίες είναι συνάρτηση όλων των διαστάσεων των εμπλεκομένων αντικειμένων. Όταν λοιπόν υπάρχουν διαστάσεις με μεγάλες διαφορές, ακόμη κι αν είναι λίγες, αυξάνουν αρκετά την υπολογιζόμενη απόσταση έτσι ώστε οι αποστάσεις τέτοιων αντικειμένων που στην πραγματικότητα μπορεί να είναι όμοια, να καταλήγουν να έχουν μεγάλες τιμές και συνεπώς να μην ανιχνεύεται η ομοιότητά τους (π.χ. όμοια αντικείμενα με πολύ διαφορετικό χρώμα). Από την άλλη πλευρά, για αντικείμενα τα οποία διαφέρουν λίγο σε κάθε διάσταση (π.χ. λίγο διαφορετικό χρώμα, σχήμα, προσανατολισμό κ.λ.π.) και καταλήγουν να είναι στην πραγματικότητα συνολικά πολύ διαφορετικά, η υπολογιζόμενη μεταξύ τους απόσταση έχει μικρή τιμή, οπότε ανιχνεύονται σαν όμοια, χωρίς να είναι. Οι περισσότερες εργασίες οι οποίες έχουν μελετήσει την τμηματική ομοιότητα, έχουν εστιάσει σε γεωμετρικά δεδομένα. Η εργασία που επεκτείνεται σε πολυδιάστατα αντικείμενα γενικά, είναι η εργασία των Koudas et al., (VLDB 2006) και έχει οδηγήσει σε αξιόλογα αποτελέσματα στο θέμα της τμηματικής ομοιότητας. Εισάγει τις αποδοτικές μεθόδους k-n-match και frequent k-n-match, οι οποίες επιστρέφουν k αντικείμενα, όμοια με τα δοθέντα όχι σε όλες αλλά σε n διαστάσεις, αποφεύγοντας έτσι εκείνες τις λίγες διαστάσεις με τις μεγάλες διαφορές, οι οποίες οδηγούν σε παραπλανητικά αποτελέσματα. Παρόλ’αυτά αυτές οι μέθοδοι κρύβουν κάποιες αδυναμίες οι οποίες τελικά οδηγούν είτε σε ανεύρεση πλήρους ομοιότητας (όταν τελικά ληφθούν υπ’όψιν όλα τα n), είτε σε μία κατά περίπτωση μόνο (και σχεδόν τυχαία) ανίχνευση τμηματικής ομοιότητας (με τα κατάλληλα n’s τα οποία δεν πρέπει να είναι ούτε πολύ μεγάλα ούτε πολύ μικρά, αλλά δεν ορίζονται από κάποιο τύπο ή μέθοδο). Βασιζόμενοι σ’ αυτές τις μεθόδους, προτείνουμε δύο νέες τεχνικές οι οποίες όπως αποδεικνύεται μπορούν να εντοπίσουν πραγματικές τμηματικές ομοιότητες. Η πρώτη, η Lui k-n-match, επιτυγχάνει τον κατά προσέγγιση εντοπισμό των κατάλληλων n’s για τα k-n-matches, με τη βοήθεια της αλληλεπίδρασης με το χρήστη και του ελέγχου των αποδεκτών προτάσεων των k-n-matches. Πιο συγκεκριμένα, μέσω της μεθόδου k-n-match, προτείνεται για κάθε n ένα σύνολο αντικειμένων πιθανά όμοιων με το δεδομένο αντικείμενο του ερωτήματος (query object) . Ο χρήστης φιλτράρει αυτό το σύνολο, επιλέγοντας εκείνα τα αντικείμενα που θεωρεί πραγματικά όμοια με το δεδομένο. Αυτή η διαδικασία συνεχίζεται μέχρι αφού το n γίνει μεγαλύτερο από το ήμισυ των διαστάσεων των αντικειμένων, υπάρξει σύνολο προτεινόμενων αντικειμένων από το οποίο ο χρήστης δεν επιλέγει κανένα ως όμοιο . Μ’αυτόν τον τρόπο επιτυγχάνεται μεγαλύτερη εγκυρότητα των αποτελεσμάτων (λόγω της εμπλοκής του χρήστη) με περιορισμένο ταυτόχρονα αριθμό εκτελούμενων k-n-matches. Η δεύτερη μέθοδος (INTESIS) βασίζεται στην εξής παρατήρηση: στην ουσία όταν δύο αντικείμενα μοιάζουν αυτό συνήθως σημαίνει ότι μοιάζουν στα περισσότερα χαρακτηριστικά τους, καθένα από τα οποία αναπαριστάται και αντιπροσωπεύεται από ένα σύνολο (μικρό συνήθως) διαστάσεων-πεδίων του αντικειμένου. Εάν λοιπόν οριστεί από τους ειδικούς κάθε εφαρμογής αυτή η αντιστοιχία χαρακτηριστικών και διαστάσεων - δημιουργώντας υποσύνολα διαστάσεων - τότε μπορούν να συμβούν διαδοχικά τα παρακάτω: α) Να γίνει έλεγχος πλήρους ομοιότητας σε κάθε τέτοιο υποσύνολο διαστάσεων β) Να οργανωθούν αυτά τα υποσύνολα σε ισάριθμα ιεραρχικά δέντρα για την εύκολη και αποδοτική διαχείρισή τους. Η επιπλέον απλούστευση αυτής της επιλογής έγκειται στο ότι δεδομένου ότι τα εν λόγω υποσύνολα διαστάσεων θα είναι μικρά, είναι πολύ εύκολη η επιλογή δέντρου γι’ αυτά, αφού σχεδόν όλα τα ιεραρχικά δέντρα έχουν μεγάλη απόδοση όταν πρόκειται για μικρό αριθμό διαστάσεων. Συνεπώς ο αναλυτής της κάθε εφαρμογής μπορεί να χρησιμοποιήσει όποιο τέτοιο δέντρο κρίνει εκείνος σαν καλύτερο ( Το R*-tree είναι η δική μας πρόταση). Τελικά, για να ολοκληρωθεί η διαδικασία πρέπει να έχει οριστεί ένας ελάχιστος αριθμός απαιτούμενων όμοιων χαρακτηριστικών προκειμένου να θεωρηθούν δύο αντικείμενα όμοια. Για την αξιολόγηση αυτής της μεθόδου, πρέπει αρχικά να σημειωθεί ότι αναφέρεται σε συνολικό αριθμό διαστάσεων μικρότερο του 100 και συνεπώς σε σχετικά μικρό αριθμό δέντρων. Όπως είναι φανερό, σε μονο-επεξεργαστικό σύστημα οι τελικοί χρόνοι απόκρισης είναι το άθροισμα των χρόνων κάθε δέντρου. Λαμβάνοντας υπ’όψιν το ότι τα δέντρα λόγω του μικρού αριθμού διαστάσεων που αντιστοιχούν στο καθένα έχουν πολύ καλές αποδόσεις, βγαίνει εύκολα το συμπέρασμα ότι ο εκάστοτε τελικός χρόνος απόκρισης της μεθόδου - όντας ένα μικρό πολλαπλάσιο των πολύ μικρών χρόνων προσπέλασης των δέντρων - είναι αρκετά χαμηλός. Με δεδομένο ότι η χρήση κάθε δέντρου δεν προϋποθέτει την χρήση κάποιου άλλου πριν ή μετά, οι αναζητήσεις σε κάθε δέντρο μπορούν να γίνονται παράλληλα. Συνεπώς σε πολυεπεξεργαστικό σύστημα, ο συνολικός χρόνος απόδοσης μπορεί να μειωθεί σημαντικά, φτάνοντας μέχρι και το χρόνο που απαιτείται μόνο για αναζήτηση σε ένα δέντρο (όταν υπάρχουν τόσοι επεξεργαστές όσα και δέντρα). Φυσικά, εάν λάβει κανείς υπ’όψιν του ότι η τμηματική ομοιότητα αποτελεί ένα ιδιαίτερα απαιτητικό είδος τότε όχι μόνο οι χρόνοι απόκρισης σε πολυεπεξεργαστικό σύστημα αλλά και εκείνοι του συστήματος ενός επεξεργαστή, αποτελούν ικανοποιητικές αποδόσεις. Το τρίτο κεφάλαιο μελετά τη δυνατότητα δημιουργίας μιας νέας δομής η οποία δε θα ‘υποφέρει’ από τη μεγάλη πτώση της απόδοσης των δέντρων με την αύξηση των διαστάσεων των αντικειμένων (‘dimensionality curse’) ενώ ταυτόχρονα θα εξασφαλίζει καλή απόδοση και σε μικρό αριθμό διαστάσεων. Οι μέχρι τώρα μελέτες έχουν καταλήξει στο εξής συμπέρασμα: Τα γνωστά διαδεδομένα δέντρα αναζήτησης (είτε πρόκειται για δέντρα οργανωμένα βάση κατανομής χώρου (space partitioning) είτε για δέντρα βάση κατανομής δεδομένων (data partitioning)) αποδίδουν πολύ καλύτερα σε μικρό αριθμό διαστάσεων ενώ όσο αυτός ο αριθμός αυξάνει - ειδικά από 10 και πάνω – η απόδοση χειροτερεύει δραματικά. Το VA-File (σχήμα προσέγγισης διανύσματος) από την άλλη πλευρά - το οποίο είναι ένας απλός πίνακας-αρχείο γεωμετρικών προσεγγίσεων των αντικειμένων - με την αύξηση των διαστάσεων αποδίδει καλύτερα στην αναζήτηση ομοιοτήτων αλλά παρουσιάζει χαμηλή απόδοση σε μικρό αριθμό διαστάσεων. Προκειμένου να ξεπεραστεί αυτή η καθοριστική εξάρτηση της απόδοσης από το πλήθος των διαστάσεων των προς διαχείριση αντικειμένων, προτείνουμε τη νέα υβριδική δομή Digenis, η οποία παντρεύει τη λογική των δέντρων αναζήτησης με κείνη των VA αρχείων. Πιο συγκεκριμένα, ορίζεται και χρησιμοποιείται ένα στατικό παραμετροποιημένο δέντρο (δέντρο Digenis) σε εννοιολογικό επίπεδο ενώ σε φυσικό επίπεδο χρησιμοποιείται το αρχείο Digenis το οποίο κατασκευάζεται με βάση το δέντρο. Με αυτή τη συσχέτιση επιτυγχάνεται αναζήτηση σε μικρό μόνο μέρος του αρχείου κατά τη διαδικασία ανεύρεσης ομοιοτήτων ανάμεσα σε αντικείμενα πολλών αλλά και λίγων διαστάσεων, γεγονός που δίνει γενικότητα και ευελιξία στη μέθοδο. Πιο συγκεκριμένα, για το σχηματισμό του δέντρου, αρχικά ορίζονται οι οικογένειες αντικειμένων, οι οποίες αποτελούνται από αντικείμενα με μικρή απόσταση (βάση ενός προκαθορισμένου από τον εκάστοτε αναλυτή ορίου fl) και αντιπροσωπεύονται από το ‘μέσο’ αντικείμενο της οικογένειας (εάν δεν υπάρχει δημιουργείται για αυτό το ρόλο και μόνο). Κάθε κόμβος του δέντρου αντιπροσωπεύει-φιλοξενεί μία τέτοια οικογένεια. Το είδος των αποστάσεων που χρησιμοποιείται είναι η πλέον διαδεδομένη απόσταση, η Ευκλείδεια απόσταση, για την οποία ισχύει και η τριγωνική ανισότητα στην οποία θα βασιστεί μεγάλο μέρος της μεθόδου. Επίσης ένα δεύτερο όριο απόστασης (Lt) ορίζεται – από τον αναλυτή πάλι - σαν όριο με βάση το οποίο δύο αντικείμενα μπορούν να θεωρηθούν όμοια. Το δέντρο Digenis τελικά χτίζεται έχοντας ρίζα την πιο ‘κεντρική’ οικογένεια της περιοχής των αντικειμένων και κόμβους-παιδιά της τις ch πιο γειτονικές της οικογένειες, κάθε μία από αυτές έχει παιδιά της τις ch πιο γειτονικές της οικογένειες κ.ο.κ. Η δεδομένη ισχύ της τριγωνικής ανισότητας ανάμεσα στις Ευκλείδειες αποστάσεις των αντικειμένων-οικογενειών, αποδεικνύεται ένα χρήσιμο θεώρημα βάση του οποίου καθιστάται εφικτή η ασφαλής εξαίρεση μεγάλου μέρους του δέντρου από τους ελέγχους ομοιότητας, κατευθύνοντας τον τελικό έλεγχο σε μία μικρή περιοχή του. Αυτή η ανάλυση της αναζήτησης μέσα στο δέντρο είναι πολύ χρήσιμη σε ό,τι αφορά τη χρήση του αρχείου Digenis, όπου εκεί πραγματοποιείται η πραγματική αναζήτηση (φυσικό επίπεδο). Το αντίστοιχο αρχείο Digenis στο φυσικό επίπεδο σχηματίζεται εάν αντιστοιχίσουμε σε κάθε του εγγραφή έναν κόμβο του δέντρου, ξεκινώντας από τη ρίζα του δέντρου και περνώντας από κάθε επίπεδο, από αριστερά προς τα δεξιά. Με αυτή την αντιστοίχηση, μπορούν πολύ εύκολα να χρησιμοποιηθούν οι τεκμηριωμένες τεχνικές εύκολου, ασφαλούς και γρήγορου αποκλεισμού περιοχών. Ο απολογισμός της μεθόδου (θεωρητικά αλλά και πειραματικά) περιλαμβάνει θετικές και αρνητικές όψεις. Θετικές όψεις: • Το αρχείο έχει πολύ καλή απόδοση όταν διαχειριζόμαστε αντικείμενα πολλών διαστάσεων. Αυτό ήταν αναμενόμενο αφού το αρχείο λειτούργησε σαν ένα είδος VA αρχείου, όπου το ζητούμενο ήταν η δημιουργία συμπαγών γεωμετρικών προσεγγίσεων. Κι αυτό γιατί και η χρήση των οικογενειών επέφερε μία πρώτη ‘συμπίεση’ των δεδομένων αλλά και η προ-τακτοποίηση των αντικειμένων μέσω της εννοιολογικής χρήσης του δέντρου οδήγησε σε ένα είδος ομαδοποίησης γειτονικών αντικειμένων σε γειτονικές περιοχές. • Το αρχείο έχει επίσης καλές επιδόσεις και όταν διαχειριζόμαστε αντικείμενα λίγων διαστάσεων. Αυτό συμβαίνει γιατί σε σχέση με το αρχείο VA είναι αναμενόμενα καλύτερο αφού βασίζεται σε δενδρική διάταξη, ενώ για τον ίδιο λόγο είναι ανταγωνιστικό και των παραδοσιακών ιεραρχικών δέντρων. Αρνητικές όψεις: • Η στατικότητα στον ορισμό του αριθμού(ch) των παιδιών ανά κόμβο του δέντρου, δημιουργεί προβλήματα στην κατασκευή του, γιατί συνήθως οι πραγματικά όμοιες οικογένειες μπορεί είναι περισσότερες ή λιγότερες από ch. Αντιμετώπιση: Αν είναι περισσότερες, τοποθετούνται στο σύνολο των παιδιών οι ch κοντινότερες (με μικρότερες αποστάσεις από τον γονέα). Αν είναι λιγότερες, τότε ορίζεται ένα σχετικό όριο παιδιών και γεμάτων κόμβων στο δέντρο, πάνω από το οποίο τα παιδιά τοποθετούνται κανονικά στο δέντρο και οι υπόλοιποι κόμβοι μέχρι να συμπληρωθεί ο αριθμός παιδιών ch, συμπληρώνεται με κενούς κόμβους. Όταν όμως ο αριθμός των παιδιών μιας οικογένειας και οι υπόλοιποι γεμάτοι κόμβοι στο δέντρο είναι κάτω από αυτό το όριο, το αντίστοιχο προς δημιουργία δέντρο αποκόπτεται και δημιουργείται νέο μικρότερο δέντρο - με μικρότερο ch – ενώ το αρχικό δέντρο αναδιατάσσεται. Συνεπώς η τελική εφαρμογή μπορεί να περιλαμβάνει περισσότερα του ενός αρχεία Digenis, τα οποία κατά την αναζήτηση προσπελαύνονται από το μεγαλύτερο προς το μικρότερο, μέχρι να βρεθεί ομοιότητα (εάν υπάρχει). • Μπορεί να υπάρχουν απομακρυσμένες οικογένειες – να μη συνδέονται με καμία άλλη – οι οποίες δεν μπορούν να ενταχθούν σε κανένα δέντρο. Αντιμετώπιση: Δημιουργείται ένα Αρχείο Απομακρυσμένων (‘remote’ αρχείο) στο οποίο τοποθετούνται σειριακά οι απομακρυσμένες οικογένειες. Κατά την αναζήτηση αυτό το αρχείο προσπελαύνεται πρώτο, γιατί εφόσον εν γένει θα φιλοξενεί λίγες οικογένειες, η αναζήτηση σ’ αυτό θα είναι γρήγορη. Εάν υπάρχει ομοιότητα μεταξύ του αντικειμένου του ερωτήματος (query) και κάποιας οικογένειας του αρχείου, τότε έχει αποφευχθεί όλη η αναζήτηση στα δέντρα ενώ εάν πάλι δεν υπάρχει τέτοια ομοιότητα, λόγω του μικρού μεγέθους του αρχείου, η χρονική επιβάρυνση είναι σχεδόν αμελητέα. Στο τελευταίο κεφάλαιο εξετάζεται ένα είδος δυναμικής αναζήτησης ομοιότητας, το οποίο ασχολείται με τις χρονικές ακολουθίες όχι των ίδιων των αντικειμένων αλλά των πεδίων (χαρακτηριστικών) τους. Δηλαδή αυτό που ανιχνεύεται είναι το κατά πόσο μοιάζει η εξέλιξη δύο χαρακτηριστικών στο χρόνο, πληροφορία που μπορεί να σταθεί πολύ χρήσιμη σε πολλά είδη εφαρμογών (ιατρικές, οικονομικές, επιστημονικές γενικά, κλπ). Χρησιμοποιώντας ένα παράδειγμα ιατρικών δεδομένων που αφορούν ορμόνες, με τη βοήθεια της προτεινόμενης μεθόδου (Chiron) εντοπίζονται με αποδοτικό τρόπο όμοια ε / The subject of this dissertation is the invention of methods which assure effective organization and management of multi-dimensional objects in order to achieve knowledge discovery. The initial target behind this study was the needs of a demanding application intending to map the human brain in order to help the localization of epileptic foci. During the corresponding research, the Representation and Management needs of human brain data raised two core research problems:  The representation peculiarity of the composite, non-uniform, network structured three-dimensional objects(brain objects), and  The needs for effective management-use of known and derived data and knowledge dependencies, which can upgrade the application performance and dynamics. The most important part of our relative research, leaded to the: o Investigation of similarity search aspects. As this research area has great application and open problem width, it constitutes a great part of this dissertation. Taking into account that the certain geometrical and knowledge dependency features of human brain data are common – all or part of them - in many modern multimedia applications, the above problems are included in the basic Data Base research problems. Focusing our research in the above problems, we lead up to the:  Definition of new flexible data types, concepts, models, tools and data and knowledge ordering methods (Data Base BDB and models 3D-IFO and MITOS) which organize our data more flexibly and effectively, using methods that not only assure easier data access but also exploit their ‘hidden’ relationships and dependencies for more knowledge discovery.  Definition of new search trees and methods for: o Effective detection of partial similarity among multi-dimensional objects ( Lui k-n-match και INTESIS). o Obliteration of the high performance fall which occurs in similarity trees as dimensionality increases (‘dimensionality curse’) (Digenis structure ). o Detection of object features/attributes/properties (dimensions) which have similar course in the time course – for multi-dimensional objects mostly – aiming at the study and detection of possible interaction among them (Chiron proposal ). Generally, this dissertation consists of two basic parts, which refer to two research areas with great interaction: • The Multi-Dimensional Data Base Modelling • The Similarity Search among Multi-Dimensional objects. Ιn the first chapter, the problem of human brain mapping for the localization of epileptic foci is discussed. This problem raises issues related to the peculiarities of the representation and the organization of three dimensional objects with complex structures/shapes and functional dependencies and relationships among them (brain objects). In the beginning, the logical model BDB (Brain Data Base) is proposed as a first approach, introducing new entity types. In the corresponding study, a very interesting proposal is the introduction of hierarchical ordering in the Relational Model in order to organize the brain areas according to their frequencies of epileptic foci presence, improving statistically the corresponding response times. In the following, the needs of the application are studied in the basis of a Semantic – IFO model - and of an Object-oriented Model, resulting in the definition of the 3D-IFO and the MITOS (Model for the Intelligent Three-dimensional Object Support) model, respectively. In the framework of 3D-IFO model, new data types and new operators have been introduced, in order to achieve effective representation and better management of the complex brain objects. Additionally, a new constructor and the suitable attribute for its support have been introduced, in order to effectively represent the ordering among brain parts, based on a certain criterion, thus facilitating combined data retrieval. In the end, the object-oriented model MITOS, introduces a new data model (MITOS Data Model – MDM) which cooperates with an intelligent knowledge base approach (MITOS Query Language – MQL). MITOS model introduces many novelties which serve a more expressive and intelligent representation and management of multi-dimensional data and knowledge. One of these novelties constitutes the definition of one more basic object characteristic (in object-oriented theory), the relationship with the environment, releasing it from the situation or the behaviour, where its concept and representation weakens. The second MITOS novelty concerns MQL and is related to the introduction of the concept of ‘key’ in the rules area. The extension of this potentiality – the idea comes from Data Base area – leads in fact to a kind of a key, with a meaning that it could have in Knowledge Bases and can not be exactly the same with that in Data Bases, because of the specific distinctions of these two Bases. The subject of the second chapter is the detection of a least investigated similarity kind among multi-dimensional objects, the partial similarity. Partial similarity refers to similarities which are not full but they really exist. It is difficult to capture them using common techniques based on similarity functions (e.g. Euclidian distance) because these functions are affected by the whole set of object dimensions. Thus, when the objects are similar but ‘very different’ in few dimensions (e.g. very different colour and size) then the corresponding calculated functions (distances) will have very high values because of these few high dissimilarities and the similarity result will be negative while the objects will actually be similar. On the other hand, when between two objects there are low dissimilarities in most dimensions, they are actually dissimilar but the resultant function will have low value, so the dissimilar objects will be discerned as similar. In both cases, the common full similarity detection methods are not reliable. The few studies that have investigated partial similarity, have mostly focused on geometric data. The study which is extended to multi-dimensional objects in general and has led to significant results in partial similarity, is presented in a paper of Koudas and al., in VLDB 2006. It introduces the effective methods k-n-match and frequent k-n-match, which result in k objects being similar to the given ones not in all their dimensions but at least in n ones, avoiding in this way those few very dissimilar dimensions –if any- which lead to false results. Nonetheless, these methods have some weaknesses which finally result either in full similarity (when finally, in frequent k-n-match, all n’s are taken into account) or in an occasional partial similarity detection (with the suitable n’s, which should not be very high or very low, without having however any type or method to calculate the ‘best’ n’s). Based on these methods, we propose two techniques which can provably detect real partial similarities. The first of them, Lui k-n-match, succeeds in the approximate specification of the suitable n’s for the k-n-matches, based on human-computer interaction and on the suitable checks of the similar objects that k-n-matches propose. More precisely, using k-n-match, for each n a set with objects possibly similar to the given one (query object), is proposed. The user filters this set and decides which objects of the proposed set are really similar to the given one. This procedure continues until the point where, while n has become larger than d/2* , the user does not select any object as similar from the proposed object set. In this way, the results are more reliable and valid (because of human-computer interaction) while in parallel the number of the executed k-n-matches are remarkably reduced. The second partial similarity detection method (INTESIS) is based on the following observation: when two objects are similar, it usually means that they are similar in most of their characteristics. In data bases, each of object characteristic is represented by a set (usually small) of features-attributes(dimensions). Thus, if this correspondence between a characteristic and a set of attributes is defined by the developer of each application - creating dimension subsets – then the following can be successively done: a) A full similarity detection for each dimension subset b) Organization of these subsets in the corresponding hierarchical trees for their easy and effective management. The additional simplification of this choice derives from the fact that as long as the dimension subsets are small, the selection of the corresponding tree will be a very easy task, while almost all hierarchical trees have high performance for low dimensionalities. Consequently, the developer of each application can use the hierarchical tree that he/she considers as best (our proposition is R*-tree). Finally, in order to complete the procedure, the application developer has to define which is the minimum number of the requisite similar characteristics that indicate partial similarity, for the particular application. For the evaluation of the method, first of all, it is necessary to mention that it refers to a total number of dimensions less than 100 and consequently to a relatively small number of trees. As it is obvious, the final response time in a uniprocessor system is the sum of the response times of each tree. Taking into account that the number of dimensions which correspond to each tree is small, these trees have very good response times and consequently the total response time is low enough. While the use of each tree does not presuppose the use of another tree before or after it, the search in each tree can be performed in parallel. Therefore, in a multi-processing system, the total response time can be considerably reduced, achieving to reach the time needed for only one tree (when the number of processors is equal to the number of trees). Furthermore, bearing in mind that partial similarity forms a very demanding similarity search kind, not only the response times in multi-processing systems but those times in a uniprocessor system constitute satisfying performances. The third chapter studies the potentiality of defining a new structure which does not ‘suffer’ from ‘dimensional curse’, while it assures good performance for low dimensionalities too. The latest studies have resulted in the following: Although the known similarity trees (either based on space partitioning or on data partitioning perform effectively in cases of low dimensionality, their performance generally degrades as dimensionality increases (especially for more than 10 dimensions). On the other hand, VA-File constitutes a simple approximate method (it is a simple array-file of object geometric approximations) which manages to outperform any other similarity search method at high dimensionality but it has low performance for low dimensionality. In order to overcome this determinant dependence between the performance and the dimensionality of a data-object set, we propose the new hybrid structure called Digenis, which marries the logic of similarity trees with VA-Files logic. More precisely, a static parametric tree (Digenis tree) is defined in conceptual level while the Digenis file, based on Digenis tree, is used in physical level. Using this correlation, a) the similarity search procedure is located in a small part of the file, excluding most dissimilar objects from the search and b) the method is used effectively for both low and high dimensional objects, preserving generality and flexibility. The first necessary definition for Digenis proposal is related to the object families. They consist of objects having a small distance among them (based on a certain limit fl defined from the analyst, in each case) and they are represented by the ‘mean’ object of the family (if it does not exist, it is created just for this role). Each object family is hosted in a node of Digenis tree. The distance which is used is the most spread one, the Euclidian distance, for which the triangle inequality – where the method is mainly based - stands. Additionally, a second distance limit (Lt) is defined – from the analyst- which forms the limit used to conclude if two objects are similar or not. Finally, the root of the Digenis tree is the most ‘centered’ family in the total object area and the nodes being the children of it are its ch nearest families-nodes. The children of each of them are its ch nearest families, and so on. The triangle inequality which stands among the Euclidian distances of the object-families, is proved to be a very useful Theorem for the safe check exclusion of a great part of the tree , leading to a final check in a small tree area. The search analysis of the tree is very helpful for the use of Digenis file, where the real search is performed (physical level). The corresponding Digenis file in the physical level is created if each tree node composes a record of the file, beginning from the tree root and passing from each level, from left to right. Using this correspondence, the proved Digenis tree techniques of easy, safe and quick exclusion of Digenis record areas can be used. The (theoretical and experimental) evaluation of the method results in the detection of certain advantages and disadvantages of it. Advantages:  The file has very good performance for high dimensionalities. This was expected because the file works as a kind of VA-File, where the records are compact geometric approximations. This matters because both the use of object families achieves a first data ‘compression’ and the pre-arrangement of the objects via the conceptual use of the tree lead to a kind of grouping of neighboring objects in neighboring areas.  The file has also good performance for low dimensionality, because in comparison to VA-File, it is expectably better while it is based on a tree structure. For the same reason, Digenis file is competitive to the classic hierarchical similarity trees. Drawbacks:  The fact that the number of children for each node is statically defined as ch in each application is a disadvantage for the construction of the tree, because usually the really similar families may be more or less than ch. Confrontation: If the similar families of a node are more than ch, then only the ch closest to the family are placed as its children, in the next level. If they are less than ch, then a limit of children and full nodes in the tree is defined. When this limit is overcome, the nodes-children are normally placed in the tree and the rest nodes –until ch-th one – remain empty. When however the number of the children of a family and of the full nodes in the tree, are less than this limit, the corresponding subtree is separated, creating a new smaller tree – with smaller ch – while the initial tree is reorganized. Consequently, the final application may include more than one Digenis tree, which are accessed from the bigger to the smaller, until the similarity is found (if any).  Perhaps there are remote areas of object families – without any connection with other families – which can not be included in any other tree. Confrontation: A file including sequentially the remote families (called ‘remote’ file’) is created. During the similarity search, this file is the first which is accessed because while it usually hosts a few families, the search will be quick enough. If a similarity is detected (among the query object and a family in the file), then the search in the trees will be avoided while if no similarity exists, the time overhead of the file search is almost negligible, because of its size. In the last chapter, a new kind of dynamic similarity search is investigated. It is related with the time streams not of the objects themselves but of their properties/attributes/dimensions. In other words, what is detected is whether the courses of two or more properties resemble. This kind of information can be very useful for several kinds of applications (medical, financial, scientific in general, e.t.c). Using medical data related to hormonal tests as an example, we prove that, based on our method Chiron, the hormones which are developed in the same way are accurately and effectively detected. More precisely, new objects (property course objects or Chiron objects) which encode the variations of each property in certain time intervals, are defined and organized in a tree (Chiron tree). The way these objects are defined, their differences and the Chiron tree itself make its navigation and the detection of similar Chiron objects – and consequently of properties which are developed in a similar way - a quick and easy procedure. This is achieved via the distribution of the Chiron objects in the Chiron tree according to the number of the different digits that exist among them. In this way, when we search in the Chiron tree for objects similar to a given one, a simple and compact algorithm is used, which avoids a vast amount of useless checks among very different objects. Generally, the method is promising enough because it poses new problems for investigation, like the statistical analysis of its results, the search for objects that are developed in a reverse way, the management of time shifts among the property course objects and the Chiron tree optimization.
4

Φωνολογική εργαζόμενη μνήμη σε παιδιά με χαμηλές αναγνωστικές και ορθογραφικές ικανότητες

Παπακώστα, Δέσποινα 11 January 2010 (has links)
Σκοπός της παρούσας έρευνας ήταν ο έλεγχος της υπόθεσης, σύμφωνα με την οποία τα παιδιά με μαθησιακές δυσκολίες χρησιμοποιούν λιγότερο τη φωνολογική κωδικοποίηση και την επανάληψη. Στο πλαίσιο που είχαν εργαστεί νωρίτερα οι Steinbrink και Klatte, η έρευνα μελέτησε τις επιδόσεις 14 μαθητών της Β’ δημοτικού με χαμηλές αναγνωστικές και ορθογραφικές ικανότητες και 14 μαθητών ίδιας τάξης με υψηλές αντίστοιχες ικανότητες, σε έργα σειριακής ανάκλησης ερεθισμάτων. Τα ερεθίσματα ποίκιλαν ως προς τη φωνολογική ομοιότητα και το μέγεθος της λέξης. Η παρουσίαση τους έγινε οπτικά και ακουστικά και συνδυάστηκε με οπτική και προφορική ανάκληση, προκειμένου να ελεγχθούν οι στρατηγικές που επιλέγουν τα παιδιά με μαθησιακές δυσκολίες, ανάλογα με τις απαιτήσεις του έργου. Oι επιδόσεις των παιδιών με αναγνωστικές και ορθογραφικές αδυναμίες ήταν χαμηλότερες σε όλες τις συνθήκες, με εξαίρεση τη συνθήκη οπτικής παρουσίασης - οπτικής ανάκλησης. Ωστόσο, οι επιδράσεις της φωνολογικής ομοιότητας και του μεγέθους της λέξης δε διέφεραν ανάμεσα στις ομάδες. Επομένως, όλοι οι συμμετέχοντες έκαναν ίση χρήση της φωνολογικής κωδικοποίησης και της επανάληψης. Ακόμη, στις συνθήκες που ευνοούσαν τη χρήση οπτικών στρατηγικών, όλοι οι συμμετέχοντες προέβησαν σε ένα συνδυασμό φωνολογικών και οπτικών στρατηγικών. Τα αποτελέσματα της έρευνας οδηγούν στο συμπέρασμα ότι τα παιδιά με αναγνωστικές και ορθογραφικές αδυναμίες χρησιμοποιούν μεν το φωνολογικό κύκλωμα, αλλά με λιγότερο αποτελεσματικό τρόπο. / Τhe purpose of this study was to test the hypothesis that children with learning disabilities make less use of phonological coding and rehearsal. In the framework of Steinbrink and Klatte’s previous research, this study examined the performance of second-grade children with poor versus good reading and spelling abilities in serial recall tasks. The stimuli used, varied in phonological similarity and word length. Their presentation was visual and auditory and it was combined with visual and verbal recall, so that to investigate the strategies that children with learning disabilities use, depending on the task’s demands. The performance of children with reading and spelling difficulties was lower in all conditions, except the condition of visual presentation - visual recall. However, phonological similarity and word length effects did not differ between groups. Consequently, all participants made equal use of phonological coding and rehearsal. Furthermore, in conditions where visual strategies could be used, all participants used a combination of phonological and visual strategies. The results suggest that children with reading and spelling impairments use the phonological loop, but in a less efficient way.
5

Προσομοίωση διεργασιών μορφοποίησης πολυμερών : η επίδραση ψυχρού εξωτερικού αέρα στην εκβολή πολυμερούς με εμφύσηση

Καρακώστα, Νικολίτσα 09 March 2009 (has links)
Το αντικείμενο της παρούσας εργασίας είναι η μαθηματική μοντελοποίηση της εφαπτομενικής ροής του ψυχρού αέρα, ο οποίος παρέχεται εξωτερικά της διεργασίας εκβολής πολυμερούς με εμφύσηση (film blowing) και η αριθμητική επίλυση των εξισώσεων που προκύπτουν. Η διεργασία εκβολής πολυμερών με εμφύσηση είναι η βασική μέθοδος παραγωγής φύλλων πλαστικού μεγάλης επιφάνειας τα οποία χρησιμοποιούνται κυρίως ως υλικά συσκευασίας και σε θερμοκήπια. Στην παρούσα εργασία αναπτύχθηκε μεθοδολογία η οποία επιτρέπει την μοντελοποίηση της ροής και της μεταφοράς θερμότητας του αέρα καθώς και του πολυμερούς και μας δίνει τη δυνατότητα να μελετήσουμε την επίδραση που έχει τόσο η ροή όσο και η ψύξη που προκαλεί ο αέρας στο φιλμ που σχηματίζει το πολυμερές. Αρχικά οι διέπουσες εξισώσεις του αέρα και του πολυμερούς απλοποιήθηκαν με την βοήθεια της θεωρίας των διαταραχών. Η μαθηματική ανάλυση και οι παραδοχές που έγιναν είχαν ως αποτέλεσμα i) η ροή και η παραμόρφωση του πολυμερούς να περιγράφεται από τις εξισώσεις του “λεπτού φιλμ” και ii) η ροή του αέρα να προσομοιάζεται με συνοριακό στρώμα, του οποίου η λύση προκύπτει με την μέθοδο ομοιότητας. Η επίδραση της θερμοκρασίας του αέρα στο πολυμερές μελετήθηκε θεωρώντας την αρχικά σταθερή, ενώ στην περίπτωση που και ο αέρας θεωρείται ότι θερμαίνεται από το πολυμερές, η κατανομή της θερμοκρασίας του προσεγγίζεται με ένα πολυώνυμο 4ου βαθμού στην ακτινική διεύθυνση. Τα αποτελέσματα που προκύπτουν εξαιτίας της ψύξης του φιλμ δείχνουν ότι οι παραμορφώσεις και οι μεταβολές του πάχους μειώνονται επιτρέποντας στο φιλμ που σχηματίζει το πολυμερές να αποκτά σωληνοειδή μορφή. Η λύση της εφαπτομενικής ροής του αέρα κατά μήκος του φιλμ έδειξε ότι στο φιλμ ασκούνται τάσεις οι οποίες μετατοπίζουν το φιλμ προς τον άξονα συμμετρίας και έτσι λαμβάνονται πιο ομοιόμορφα σχήματα σε σχέση με τα σχήματα που λαμβάνονται χωρίς την επίδραση του αέρα. Η επίδραση της ροής του αέρα φαίνεται να συμβαίνει στο χαμηλότερο τμήμα του φιλμ και κυρίως μέχρι ύψους . Τέλος, η σύγκριση μεταξύ του θεωρητικού μοντέλου που αναπτύχθηκε με πειραματικά αποτελέσματα δείχνει ότι υπάρχει, τουλάχιστον ποιοτικά, συμφωνία. / The object of present work is the mathematical modelling of tangential flow of cold air, which is provided externally to the polymer film produced in the well-known industrial process for manufacturing biaxial stretched films, Film Blowing Process, and the numerical solution of equations as well. In the present work was developed methodology which describes the flow and heat transfer of air as well as polymer. This analysis gives us the possibility of studying the effect of the flow as well as refrigeration that causes the air in the film of the polymer. Initially the governing equations of air and polymer were simplified with the help of theory of perturbations. The mathematic analysis and the assumptions that became had as result i) the flow and deformation of polymer described with the equations of "thin film" and ii) the flow of air simulated as a boundary layer, which its solution obtained by method of similarity. The effect of temperature of air in polymer was studied considering initially constant, while in the case where also the air is considered that is heated from polymer, the temperature distribution is approached with a polynomial of 4th degree in the radial direction. The results that arise because of refrigeration of film show that the deformations and the changes of thickness are decreased allowing in the film makes solenoids shape. The solution of tangential flow of air along the film showed that stresses in the film shift the film to the axis of symmetry and thus are received more uniform shapes in regard the shapes which are received without the air effect. The air flow effect appears to happen in the lower part of film and mainly until height . Finally, the comparison between the theoretical model that was developed with experimental results shows that exists qualitatively agreement.
6

Ανάκτηση λογοτύπων

Κούλης, Χρήστος 14 December 2009 (has links)
Στην παρούσα εργασία γίνεται μια προσπάθεια οπτικής ανάκτησης λογοτύπων με σκοπό την οργάνωσή τους για μετέπειτα χρήση τους σε περιπτώσεις αναζήτησης ομοίων λογοτύπων από χρήστες. Η μελέτη γίνεται με χρήση μεθόδων και εργαλείων τα οποία είτε έχουν σχεδιαστεί για αυτό το σκοπό είτε έχουν ληφθεί από άλλα κομμάτια του τομέα αναγνώρισης προτύπων. Πιο συγκεκριμένα χρησιμοποιούνται οι μεθοδολογίες: α. Angular Radial Transform (ART) που ορίζεται στο MPEG-7 πρωτόκολλο. β. Ένας αλγόριθμος σύγκρισης σχημάτων ως κατανομές ιστογραμμάτων που τον ονομάζουμε Angular Radial Histogram (ARH) και περιγράφεται σε δημοσίευση που αφορά την αναγνώριση σχημάτων. γ. Μια μεθοδολογία που εκμεταλλεύεται τον αλγόριθμο DCT και την συμπιεσμένη φύση των αρχείων εικόνων - λογοτύπων στο σημερινό web για γρήγορη αναζήτηση η οποία έχει χρησιμοποιηθεί για οργάνωση βάσεων γενικών εικόνων. δ. Μια μεθοδολογία στηριγμένη στα φίλτρα Gabor και το WW-Test η οποία έχει εφαρμοστεί με αρκετά καλά αποτελέσματα σε πεδιά αναγνώρισης προτύπων. Η έρευνα γίνεται σε τρεις (νεοκατασκευασμένες) βάσεις λογοτύπων όπου τα αποτελέσματα φαίνεται να είναι θετικά ειδικά για την τελευταία μεθοδολογία. / In this work, four different algorithms are used in the field of logos retrieval, in an efford to organize logos databases that can be handful in cases where users may need to retrieve similar logos. The algorithms that are used are a. Angular Radial Transform (ART) which is defiend in MPEG-7, b. An algorithm that compairs logos outlines called sas Angular Radial Histogram which has been proposed for general shape matching procedures, c. An algorithm based on the well known DCT and the compression nature of the very common JPEG protocol, d. An algorithm based on Gabor filters for feature extraction and the Wald-Wolfowitz for feature comparisons, which gave very good results. The tests took place on three different logos database which were constructed for this purpose.
7

Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων / Automatic extraction of lexico - semantic knowledge from electronic text corpora using minimal resources

Θανόπουλος, Αριστομένης 25 June 2007 (has links)
Το αντικείμενο της διατριβής είναι η μελέτη μεθόδων αυτόματης εξαγωγής των συμφράσεων και των σημασιολογικών ομοιοτήτων των λέξεων από μεγάλα σώματα κειμένων. Υιοθετείται μια προσέγγιση ελάχιστων γλωσσικών πόρων που εξασφαλίζει την απεριόριστη μεταφερσιμότητα των μεθόδων σε φυσικές γλώσσες και θεματικές περιοχές. Για την αξιολόγηση των προτεινόμενων μεθόδων προτείνονται, αξιολογούνται και εφαρμόζονται μεθοδολογίες με βάση πρότυπες βάσεις λεξικής γνώσης (στην Αγγλική), όπως το WordNet. Για την εξαγωγή των συμφράσεων προτείνονται νέα μέτρα εξαγωγής στατιστικά σημαντικών διγράμμων και γενικά ν-γράμμων που αξιολογούνται θετικά. Για την εξαγωγή των λεξικών - σημασιολογικών ομοιοτήτων των λέξεων ακολουθείται καταρχήν η προσέγγιση ομοιότητας περικειμένων λέξεων με παραθυρικές μεθόδους, όπου μελετώνται το πεδίο συμφραζομένων, το φιλτράρισμα των συνεμφανίσεων των λέξεων, τα μέτρα ομοιότητας, όπου εισάγεται ο παράγοντας του αριθμού κοινών παραμέτρων, καθώς και η αντιμετώπιση συστηματικών σφαλμάτων, ενώ προτείνεται η αξιοποίηση των λειτουργικών λέξεων. Επιπλέον, προτείνεται η αξιοποίηση της ομοιότητας περικείμενων εκφράσεων, που απαντάται συχνά σε θεματικώς εστιασμένα κείμενα, με ένα αλγόριθμο βασισμένο στην ετεροσυσχέτιση ακολουθιών λέξεων. Μελετάται η μεθοδολογία αξιοποίησης των παρατακτικών συνδέσεων ενώ προτείνεται μια μέθοδος ενοποίησης ετερογενών σωμάτων γνώσης λεξικών – σημασιολογικών ομοιοτήτων. Τέλος, η εξαχθείσα γνώση μετασχηματίζεται σε σημασιολογικές κλάσεις με μια συμβολική μέθοδο ιεραρχικής ομαδοποίησης και επίσης ενσωματώνεται επιτυχώς σε ένα διαλογικό σύστημα μηχανικής μάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη συμβάλλοντας στην εκτίμηση του ρόλου των άγνωστων λέξεων. / The research described in this dissertation regards automatic extraction of collocations and lexico-semantic similarities from large text corpora. We follow an approach based on minimal linguistic resources in order to achieve unrestricted portability across languages and thematic domains. In order to evaluate the proposed methods we propose, evaluate and apply methodologies based on English gold standard lexical resources, such as WordNet. For the extraction of collocations we propose and test a few novel measures for the identification of statistically significant bigrams and, generally, n-grams, which exhibit strong performance. For the extraction of lexico-semantic similarities we follow a distributional window-based approach. We study the contextual scope, the filtering of lexical co-occurrences and the performance of similarity measures. We propose the incorporation of the number of common parameters into the latter, the exploitation of functional words and a method for the elimination of systematic errors. Moreover, we propose a novel approach to exploitation of word sequence similarities, common in technical texts, based on cross-correlation of word sequences. We refine an approach for word similarity extraction from coordinations and we propose a method for the amalgamation of lexico-semantic similarity databases extracted via different principles and methods. Finally, the extracted similarity knowledge is transformed in the form of soft hierarchical semantic clusters and it is successfully incorporated into a machine learning based dialogue system, reinforcing the performance of user’s plan recognition by estimating the semantic role of unknown words.
8

Ικανότητα σειριακής ανάκλησης σε μαθητές με αναγνωστικές και ορθογραφικές δυσκολίες : μια μελέτη των επιδράσεων της φωνολογικής ομοιότητας και του μήκους των λέξεων

Μαματά, Μαρία 08 July 2011 (has links)
Στην παρούσα ερευνητική εργασία που είναι επανάληψη της έρευνας των Steinbrink και Klatte (2008) γίνεται προσπάθεια να διερευνηθεί η σχέση ανάμεσα στην ικανότητα άμεσης σειριακής συγκράτησης φωνολογικών πληροφοριών και την αναγνωστική και ορθογραφική ικανότητα παιδιών, που έχουν ως μητρική γλώσσα την ελληνική. Πολλές έρευνες έχουν δείξει ότι παιδιά με αναγνωστικές και ορθογραφικές δυσκολίες δεν χρησιμοποιούν με τον πιο αποτελεσματικό τρόπο τις φωνολογικές στρατηγικές σε έργα σειριακής ανάκλησης. Σε μια ομάδα 15 μαθητών της Γ’ Δημοτικού χωρίς αναγνωστικές και ορθογραφικές δυσκολίες και σε μια αντίστοιχη ομάδα 15 μαθητών με αναγνωστικές και ορθογραφικές δυσκολίες, παρουσιάστηκαν λίστες με τέσσερα ερεθίσματα η κάθε μία, τα οποία αντιστοιχούσαν σε ουσιαστικά υψηλής συχνότητας, με σκοπό την άμεση σειριακή ανάκλησή τους. Το μέγεθος της λέξης και η φωνολογική ομοιότητα καθώς και ο τρόπος παρουσίασης (οπτικός και ακουστικός) και ο τύπος ανάκλησης (οπτικός και προφορικός) ποίκιλαν, σε ένα μεικτό σχεδιασμό με χειρισμό των ανεξάρτητων μεταβλητών εντός υποκειμένων. Σε όλες τις πειραματικές συνθήκες, οι καλοί αναγνώστες απέδωσαν καλύτερα από τους φτωχούς αναγνώστες. Η φωνολογική ομοιότητα δεν επηρέασε τις επιδόσεις και στις δυο ομάδες των παιδιών. Αντίθετα, η επίδραση του μεγέθους των λέξεων διέφερε μεταξύ των ομάδων, πράγμα που ίσως δείχνει ελλιπή φωνολογική κωδικοποίηση και εσωτερική επανάληψη στα παιδιά με αναγνωστικές και ορθογραφικές δυσκολίες. Αναφορικά με τη σειρά παρουσίασης του ερεθίσματος, οι δύο ομάδες μαθητών έκαναν χρήση παρόμοιων στρατηγικών στις περισσότερες πειραματικές συνθήκες. Τα αποτελέσματα δείχνουν ότι οι φτωχοί αναγνώστες χρησιμοποιούν το φωνολογικό κύκλωμα. Αντί αυτού, οι δυσκολίες αυτές πηγάζουν από την ανεπαρκή εφαρμογή διαφόρων στρατηγικών λόγω ελλειμμάτων στη φωνολογική επεξεργασία. / The current study sought to investigate the relation between serial recall of phonological information and reading ability in Greek students. It has been proposed that dyslexic readers show inefficient application of phonological strategies during serial recall tasks. A group of 15 third graders with typical reading performance and 15 with reading impairments were presented with four-item lists of common nouns for immediate serial recall. Word length and phonological similarity as well as presentation modality (visual vs. auditory) and type of recall (visual vs. verbal) were varied as within subject factors in a mixed design. In all conditions, overall performance was significantly lower in poor readers. Phonological similarity did not affect performance in both groups of children. Word length effects differed between groups indicating deficient phonological coding and rehearsal in dyslexic students. With regard to the order of presentation, the two groups made use of similar strategies in the majority of the experimental conditions. The results demonstrate that, poor readers use the phonological loop. Instead, their difficulties stem from inadequate application of various strategies due to deficits in phonological processing.
9

Σχεδιασμός και υλοποίηση ενός συστήματος αποκομιδής ορισμένης πληροφορίας από τον παγκόσμιο ιστό, με τη χρήση σημασιολογικών δικτύων λημμάτων / Design and implementation of a topical-focused web crawler through the use of semantic networks

Κοζανίδης, Ελευθέριος 28 February 2013 (has links)
Η συγκεκριμένη διατριβή στοχεύει στον σχεδιασμό της μεθοδολογίας που θα εφαρμοστεί για την υλοποίηση ενός προσκομιστή πληροφορίας από τον Παγκόσμιο Ιστό, ο οποίος θα λειτουργεί λαμβάνοντας υπόψη θεματικά κριτήρια. Τέτοιου είδους προγράμματα ανίχνευσης πληροφορίας, είναι ευρέως γνωστά ως θεματικά εστιασμένοι προσκομιστές ιστοσελίδων. Κατά τη διάρκεια της μελέτης μας, σχεδιάσαμε και υλοποιήσαμε ένα καινοτόμο σύστημα θεματικής κατηγοριοποίησης ιστοσελίδων που κάνει εκτεταμένη χρήση των σημασιολογικών δεδομένων τα οποία περιέχονται στο σημασιολογικό δίκτυο WordNet. Η απόφαση για την αξιοποίηση του WordNet ελήφθη με τη φιλοδοξία να αντιμετωπιστούν αποτελεσματικά φαινόμενα ασάφειας εννοιών που μειώνουν τις επιδόσεις των διαθέσιμων θεματικών κατηγοριοποιητών. Η καταλληλότητα του WordNet για την επίλυση της σημασιολογικής ασάφειας έχει αποδειχθεί στο παρελθόν, αλλά ποτέ δεν εξετάστηκε σε ένα σύστημα εστιασμένης προσκόμισης ιστοσελίδων με τον συγκεκριμένο τρόπο, ενώ ποτέ δεν έχει αξιοποιηθεί στην κατηγοριοποίηση ιστοσελίδων για την ελληνική γλώσσα. Ως εκ τούτου, ο θεματικός κατηγοριοποιητής που υλοποιήσαμε, και κατά συνέπεια, και ο εστιασμένος προσκομιστής στον οποίο ενσωματώνεται ο κατηγοριοποιητής, είναι καινοτόμοι όσο αφορά τον τρόπο με τον οποίο αποσαφηνίζουν έννοιες λέξεων με στόχο την αποτελεσματική ανίχνευση του θεματικού προσανατολισμού μίας ιστοσελίδας . Ένας προσκομιστής ιστοσελίδων είναι ένα πρόγραμμα που με αφετηρία μία λίστα διευθύνσεων ιστοσελίδων (URLs) αρχικοποίησης προσκομίζει το περιεχόμενο των ιστοσελίδων που συναντά και συνεχίζει ακολουθώντας τους εσωτερικούς τους συνδέσμους με απώτερο σκοπό την προσκόμιση όσο το δυνατό μεγαλύτερου υποσυνόλου δεδομένων του Παγκόσμιου Ιστού (ανάλογα με τους διαθέσιμους πόρους, την χωρητικότητα του δικτύου, κλπ.). Δεδομένου ότι ο όγκος των δεδομένων που είναι διαθέσιμα στον Παγκόσμιο Ιστό αυξάνεται με εκθετικό ρυθμό, είναι πρακτικά αδύνατο να προσκομιστούν όλες οι ζητούμενες πηγές πληροφορίας ανά πάσα στιγμή. Ένας τρόπος για να αντιμετωπίσουμε το συγκεκριμένο πρόβλημα είναι η εκμετάλλευση συστημάτων εστιασμένης προσκόμισης ιστοσελίδων που στοχεύουν στη λήψη ιστοσελίδων συγκεκριμένης θεματολογίας που εκφράζουν κάθε φορά το θεματικό προφίλ του χρήστη, σε αντίθεση με τους προσκομιστές ιστοσελίδων γενικού σκοπού που καταναλώνουν πόρους άσκοπα προσπαθώντας να προσκομίσουν κάθε πιθανή πηγή πληροφορίας που συναντούν. Οι εστιασμένοι προσκομιστές χρησιμοποιούνται εκτενώς, για την κατασκευή θεματικά προσανατολισμένων ευρετηρίων ιστοσελίδων, κάθε ένα από τα οποία έχει την δυνατότητα να εξυπηρετήσει αιτήσεις χρηστών με συγκεκριμένο θεματικό προσανατολισμό. Με αυτό τον τρόπο είναι δυνατόν να αντιμετωπιστεί το πρόβλημα της υπερφόρτωσης πληροφοριών. Προκειμένου να επιτελέσουμε την συγκεκριμένη εργασία μελετήσαμε εκτενώς υπάρχουσες τεχνικές εστιασμένης προσκόμισης, στις οποίες στηριχθήκαμε ώστε να ορίσουμε την μεθοδολογία που θα ακολουθήσουμε. Το αποτέλεσμα είναι η υλοποίηση ενός θεματικά εστιασμένου πολυνηματικού προσκομιστή, ο οποίος ενσωματώνει τις εξής καινοτομίες: είναι ρυθμισμένος προκειμένου να εκτελεί εστιασμένες προσκομίσεις σε ιστοσελίδες ελληνικού ενδιαφέροντος, αποσαφηνίζει το κείμενο που αντιστοιχεί σε ιστοσελίδες προκειμένου να ανακαλύψει τον θεματικό τους προσανατολισμό. Επιπλέον προτείνουμε μία σειρά υποσυστημάτων τα οποία θα μπορούσαν να ενσωματωθούν στο σύστημα εστιασμένης προσκόμισης προκειμένου να ενισχύσουμε την απόδοσή του. Τέτοια συστήματα είναι το υποσύστημα ανίχνευσης όψεων που αντιστοιχίζονται σε επώνυμες οντότητες καθώς και το υποσύστημα εξαγωγής λέξεων κλειδιών που μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά κατηγοριοποίσης από το αλφαριθμητικό των διευθύνσεων (URL) ιστοσελίδων. Για να παρουσιάσουμε την αποτελεσματικότητα της προτεινόμενης μεθόδου, διενεργήσαμε μία σειρά πειραματικών μετρήσεων. Συγκεκριμένα αξιολογήσαμε πειραματικά τα ακόλουθα: την αποτελεσματικότητα του αλγορίθμου αποσαφήνισης που ενσωματώσαμε στον προσκομιστή, την απόδοση του θεματικού κατηγοριοποιητή ο οποίος καθορίζει την συμπεριφορά του εστιασμένου προσκομιστή σχετικά με το αν μια σελίδα θα πρέπει να κατέβει ως θεματικά σχετική με το θέμα ενδιαφέροντος ή όχι, την απόδοση του εστιασμένου προσκομιστή καταγράφοντας τον ρυθμό απόκτησης που επιτυγχάνει κατά την διάρκεια της εστιασμένης προσκόμισης χρησιμοποιώντας κάθε φορά διαφορετικά χαρακτηριστικά κατηγοριοποίησης, την καταλληλότητα του υποσυστήματος εξαγωγής λέξεων-κλειδιών από το αλφαριθμητικό URL για την περιγραφή του θεματικού προσανατολισμού της ιστοσελίδας και τέλος τη χρησιμότητα του συστήματος αναγνώρισης επώνυμων οντοτήτων στην οργάνωση ιστοσελίδων των οποίων η σημασιολογία δεν αναπαρίσταται ικανοποιητικά σε σημασιολογικούς πόρους γενικού σκοπού συμπεριλαμβανομένου του σημασιολογικού δικτύου WordNet. Τα πειραματικά αποτελέσματα επιβεβαιώνουν τη συμβολή του θεματικά εστιασμένου προσκομιστή που προτείνουμε στην προσκόμιση περιεχομένου ειδικού ενδιαφέροντος από τον Παγκόσμιο Ιστό. Παράλληλα αποδεικνύουμε ότι όλες οι μέθοδοι που ενσωματώσαμε στο σύστημα εστιασμένης προσκόμισης είναι δυνατό να συνεργαστούν κατά τρόπο που να βελτιώνει την απόδοση του προσκομιστή . Τέλος από τα πειραματικά αποτελέσματα αποδεικνύεται ότι η προτεινόμενη τεχνική είναι εξίσου αποτελεσματική για ιστοσελίδες στα αγγλικά και στα ελληνικά. Επιπλέον πιστεύουμε ότι μπορεί να εφαρμοστεί με επιτυχία και σε ιστοσελίδες που περιέχουν κείμενα άλλων φυσικών γλωσσών, με προϋπόθεση την ύπαρξη σημασιολογικών πόρων, αντίστοιχων με το WordNet και διαθέσιμων εργαλείων που θα επιτρέπουν την ανάλυση των δεδομένων κειμένου τους. / This dissertation aims at the specification of an algorithmic methodology that will be applied towards the implementation of a web crawler, which will operate upon thematic criteria. Such crawlers are widely known as topical focused web crawlers. To realize our objective, the utilization of a web page thematic classification system (either existing or newly developed one) is imperative. In the course of our study, we designed and implemented a novel thematic classifier that makes extensive use of the semantic data encoded in WordNet semantic network and such decision was taken with the aspiration of tackling effectively sense ambiguity phenomena that degrade the performance of available classifiers. The suitability of WordNet towards resolving semantic ambiguity has been previously proven but never examined in a focused web crawling application and has never been exploited for the Greek language. Therefore, our thematic classifier and consequently our focused crawler that integrates it are innovative in the way in which they perform word sense disambiguation for achieving the effective detection of the web page topics (themes). In a broad sense, a web crawler is a program that based on a seed list of URLs it downloads the contents of the web pages it comes across and continues following their internal links with the utmost objective of fetching as much as web data as possible (depending on available resources, network capacity, etc.). Given that the web data grows at exponential rates, it is practically impossible to download all the web sources at any given time. One way to tackle such difficulty is to implement and employ topical focused crawlers that aim at downloading content of specific topics (potentially of interest to the user) rather than waste resources trying to download every single data source that is available on the web. Topically focused crawlers are extensively used for building topical focused indices, each of which can serve specialized user search requests, therefore dealing partially with the information overload problem. To carry out our work, we have extensively reviewed existing approaches with respect to topically focused crawling techniques upon which we relied for defining our own focused crawling methodology, which resulted into the implementation of a topical focused crawler that incorporates the following innovate features: it is tailored to operate on the Greek web, it disambiguates the web pages in order to uncover their topic and it incorporates numerous features, such as a named entities recognizer, a URL keyword extractor, personalization techniques, etc., in order to maximize its performance. To demonstrate the effectiveness of our method, we have applied our topical focused crawler on several datasets and experimentally evaluated the following issues: the efficiency of the sense resolution algorithm incorporated into our crawler, the performance of the topical classifier that the crawler consults prior to making a final decision as to whether a page should be downloaded as topically relevant to a subject of interest or not, the suitability of the URL keyword extractor module for judging the subject of a web page based entirely on the analysis of its URL, the usefulness of the named entities recognizer in organizing pages whose semantics are poorly represented within the contents of general-purpose semantic resources (including WordNet semantic network). Experimental results confirm the contribution of our topically focused crawler in downloading web content of specific interest and show that all the methods and techniques that we have successfully integrated into the crawler can interoperate with its other in a manner that improves the crawling performance while allowing for flexibility in the downloading process at the same time. Last but not least, experimental results showcase that our crawling methodology is equally effective for both English and Greek and we believe that it can be fruitfully applied to other natural languages provided that there the respective semantic resources and tools are available for analyzing their textual data.

Page generated in 0.0279 seconds