• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 1
  • Tagged with
  • 11
  • 11
  • 10
  • 10
  • 8
  • 7
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Σημασιολογική αναζήτηση σε προσωποποιημένη δικτυακή πύλη προβολής προεπεξεργασμένου περιεχομένου από το διαδίκτυο

Σιλιντζήρης, Παναγιώτης 21 September 2010 (has links)
Σκοπός της παρούσας μεταπτυχιακής εργασίας είναι η μελέτη και η αξιολόγηση των δυνατοτήτων προηγμένης σημασιολογικής αναζήτησης (advanced semantic search) πάνω σε περιεχόμενο που προέρχεται από το Διαδικτύο. Στα πλαίσια της εργασίας, σχεδιασθηκε και υλοποιήθηκε υποσύστημα, το οποίο ενσωματώθηκε και αξιολογήθηκε πάνω στο μηχανισμό peRSSonal ο οποίος ανακτά, επεξεργάζεται και παρουσιάζει στους χρήστες του άρθρα και υλικό από διάφορες ειδησεογραφικές πύλες (news portals) του Διαδικτύου, προσαρμόζοντάς τα στις προσωπικές επιλογές του χρήστη. Η αναζήτηση παραμετροποιείται με στοιχεία όπως: χρονικό πλαίσιο δημοσίευσης τού υλικού (διάστημα από – έως), κατηγορία (πρότυπες κατηγορίες του συστήματος peRSSonal), φυσική γλώσσα στην οποία είναι γραμμένο καθώς και δυνατότητα για στατικό ή σημασιολογικό (εννοιολογικό) ταίριασμα (semantic matching) με τα άρθρα της βάσης. Αρχικά, από την επερώτηση (query) του χρήστη δημιουργείται ένα σύνολο ριζών (stems) των λέξεων οι οποίες δόθηκαν. Η εξαγωγή των ριζών εκτελείται με υποβοήθηση από stemming αλγορίθμο για την αγγλική γλώσσα, ενώ ο σχεδιασμός του συστήματος προβλέπει και τη μελλοντική υποστήριξη διαφορετικών φυσικών γλωσσών καταβάλλοντας μικρό κόπο. Για τις λεκτικές ρίζες που προκύπτουν, εντοπίζονται σχετικές τους και ταυτόχρονα με τη διαδικασία αυτή διενεργείται αναζήτηση στη βάση δεδομένων για κωδικολέξεις (keywords) με βάση την κατηγορία του άρθρου, ούτως ώστε να εμπλουτιστεί το ερώτημα του χρήστη με επιπλέον πληροφορία, καθιστώντας πιο επιτυχημένη και στοχευμένη την αναζήτηση στην πληθώρα των άρθρων που υπάρχουν αποθηκευμένα στη βάση δεδομένων. Για αυτές τις κωδικολέξεις υπολογίζονται συντελεστές – βάρη που θα προσδιορίζουν τη συνάφειά τους με την επερώτηση του χρήστη. Ανάλογα με τον τύπο της αναζήτησης, στατική η σημασιολογική, το υποσύστημα αναζήτησης συγκρίνει την επερώτηση του χρήστη με τα αποθηκευμένα άρθρα και για κάθε ένα από αυτά, ο αλγόριθμος υπολογίζει το βαθμό συνάφειάς του με την επερώτηση. Τα άρθρα που επιλέγονται τελικά είναι αυτά που ξεπερνούν ένα κατώφλι συνάφειας, το οποίο τα κατατάσσει εννοιολογικά πιο κοντά στην επερώτηση του χρήστη. Σημαντικό σημείο στο στάδιο αυτό, είναι η δυνατότητα, για τους εγγεγραμένους χρήστες της Δικτυακής Πύλης, να εκτελείται περεταίρω φιλτράρισμα πάνω στο πρωτογενές αποτέλεσμα, βάσει των προσωπικών τους επιλογών καθώς και πληροφορίας που προέρχεται από τη βάση δεδομένων και που διαμορφώνεται δυναμικά από την παρατήρηση της γενικής συμπεριφοράς των χρηστών κατά την πλοήγηση τους μέσα στον σύστημα (χρόνος παραμονής στα άρθρα, άρθρα που δεν προτιμώνται, συχνότητα επιλογής άρθρων από μια δεδομένη θεματική ενότητα κλπ). Σκοπός είναι η εξαγωγή πιο στοχευμένου συνόλου άρθρων που ικανοποιεί τελικά περισσότερο τον χρήστη. Τέλος, για την βελτίωση της απόδοσης του συστήματος, σχεδιάστηκε και υλοποιήθηκε αλγόριθμος που εκτελεί caching στα αποτελέσματα των επερωτήσεων. Με τον τρόπο αυτό, κάθε νέα αναζήτηση θα λαμβάνει πολύ πιο γρήγορα τα cached αποτελέσματα προγενέστερων παρόμοιων αναζητήσεων, ξοδεύοντας το χρόνο στα πιο πρόσφατα άρθρα. Το caching εκτελείται δυναμικά, τροποποιώντας σε κάθε επερώτηση που υποβάλλεται τα αντίστοιχα cached αποτελέσματα και μεταβάλλοντας τις προτεραιότητές τους και τα βάρη τους, ώστε να οδηγεί την έξοδο ολοένα και πιο κοντά στα επιθυμητά άρθρα και παραμένοντας πιο κοντά στο εξελισόμενο προφίλ και στις προτιμήσεις του χρήστη. Μέσα από την εργασία, προέκυψαν αποτελέσματα που έχουν να κάνουν με σύγκριση αλγορίθμων σε όλα τα παραπάνω στάδια του μηχανισμού αλλά και ανταπόκριση του μηχανισμού στις ανάγκες του χρήστη. / The scope of the present MSc Thesis is the study and the evaluation of the features provided by an advanced semantic search over digital content which comes from the Internet. For the purposes of our work, we designed and implemented a module (subsystem), which was embedded and evaluated on the PeRSSonal news portal. The PeRSSonal news portal retrieves, processes and presents to the end user articles and other content from major News Portals of the Internet by adapting on the user’s personal preferences and profile. For the search procedure, parameters such as the date interval, the thematic category and the article’s language are used. Furthermore it is possible to use static or dynamic (semantic) matching with the articles of the database. In the first phase of the procedure, from the query that the user submitted we create a set of keywords, which are the stemmed words of the words described in the initial query. The extraction stemmed words is executed by an algorithm which implements the Porter Stemmer technique. The system currently supports the English language in the search procedure but its modular architecture allows for the support of other languages as well with little effort. For the keywords produced with this procedure, we locate their synonyms and in the same time a search in the database is conducted in order to find other keywords based on the thematic category of the submitted query. This second set of keywords enriches the first set thus making the search more focused on the thematic category the user chose. For these keywords that enrich the initial query, weights are computed based on their relation with the keywords of the initial query. Based on the type of the search (static or semantic), the search subsystem compares the enriched set of keywords with the articles stored in the database and for each one of these articles which match to the keywords of the query, a degree of relevance is computed. The articles that are selected to be in the final result are the ones that surpass a specific threshold of relevance which semantically brings them close to the user query. A significant point during this phase of the procedure is the possibility to execute for the registered users of the PeRSSonal portal a more detailed filtering on the primal result based on their personal preferences and data that is produced dynamically by observing their behavior (time they spend on the articles, not preferred articles, frequency of selecting a specific thematic category) in the system, during the sessions in that. The goal is the creation of a more focused result on the end user which satisfies him more. In the final phase of the algorithm, and in order to optimize the algorithm’s performance, we design and implement an algorithm which uses cache memory in the form of a database table and runs on the server machine. For each query that is submitted to the system, we store the retrieved results in this table and in the future queries, prior to triggering the search procedure, we compare the queries with the cached ones.In this way, every new search that already has a match in the cache table will consume much less time to execute as it will search only for articles which are not found in the cache. The caching algorithm is executed dynamically by modifying for every submitted query the cached results and by changing their priorities and their relevance weights in order to include in the output the desired articles and to stay closer to the user’s profile and preferences. From the experimental results of this work we had the chance to draw useful conclusions by the comparison of different algorithmic approaches for all the stages of the mechanism and by the response and performance of the algorithm as faced by the end user.
2

Ηλεκτρονικό εμπόριο & σημασιολογικός ιστός : υλοποίηση του ηλεκτρονικού καταστήματος YourBooks

Καρακατσούλης, Δημοσθένης 14 February 2012 (has links)
Τα τελευταία χρόνια το Internet προσφέρει στις επιχειρήσεις ένα νέο φάσμα δυνατοτήτων επικοινωνίας, διείσδυσης και ανάπτυξης. Βασικός μοχλός ήταν οι ραγδαίες τεχνολογικές εξελίξεις, με σημαντικότερη καινοτομία την ανάπτυξη του Web, που διευκόλυνε την πρόσβαση μέσω φυλλομετρητών (browsers) με υποστήριξη γραφικών και επέτρεψε στο ευρύ κοινό να πλοηγείται εύκολα και γρήγορα. Αυτό είχε ως αποτέλεσμα πολλές επιχειρήσεις να εκμεταλλευτούν αυτή την ανακάλυψη και να δραστηριοποιηθούν εμπορικά χρησιμοποιώντας νέα επικοινωνιακή υποδομή τεχνοτροπία marketing και πωλήσεων. Στο πρώτο κεφάλαιο θα περιγράψουμε τον ορισμό, τις κατηγορίες, τα επιχειρηματικά μοντέλα και τις τεχνολογίες του ηλεκτρονικού εμπορίου. Στην συνέχεια θα αναφερθούμε στον Σημασιολογικό Ιστό που είναι ο «Μεσσίας» του Παγκόσμιου Ιστού δηλαδή ή εξέλιξη του και θα περιγράψουμε εργαλεία και εφαρμογές του για το πώς θα μας βοηθήσει στον τρόπο ζωής μας. Στο τρίτο κεφάλαιο θα αναφέρουμε προγράμματα - εργαλεία που χρησιμοποιούνται με σκοπό να δημιουργήσουμε ένα ηλεκτρονικό κατάστημα και στην συνέχεια στο τέταρτο κεφάλαιο θα παρουσιαστεί ένα κατάστημα αγοράς ηλεκτρονικών βιβλίων, με τις προδιαγραφές και το περιβάλλον που πρέπει να τηρούνται στις μέρες μας με σκοπό να κάνουν τις συναλλαγές ευκολότερες. Τέλος στο πέμπτο κεφάλαιο θα παραθέσουμε τα δικά μας συμπεράσματα και λεπτομέρειες που πρέπει να προσέξουμε όταν αποφασίσουμε να κατασκευάσουμε το δικό μας ηλεκτρονικό κατάστημα (website). / In recent years, Internet offers to businesses a range of new communications facilities, penetration and growth. The main reason was the rapid technological developments, most important innovation to develop the Web, which facilitated access through browsers (browsers) with graphics and allowed the public to navigate quickly and easily. This has led many companies to exploit this discovery and to operate using commercial communications infrastructure and new style of marketing and sales. The first chapter describes the definition, categories, business models and technologies of electronic commerce. Then we refer to the Semantic Web which is the "Messiah" of World Wide Web and describe tools and applications on how to help us in our lifestyle. The third chapter deals with programs - tools used to create an online store and then in the fourth chapter it is presented a detailed e-book online shop, with the standards and the environment to be observed today in order to make trade easier. Finally in the fifth chapter we cite our own conclusions and future surveys in order to be careful when we decide to create our online store (website).
3

Μελέτη τεχνολογιών σημασιολογικού ιστού και ανάπτυξη συστήματος διαχείρισης πολιτισμικών δεδομένων

Μερτής, Αριστοτέλης 07 April 2011 (has links)
Η ψηφιακή εποχή έχει διεισδύσει σε όλες τις πτυχές της ανθρώπινης δραστηριότητας και τις μεταμορφώνει με έναν επαναστατικό και πρωτόγνωρο τρόπο. Ένας ιδιαίτερος ευαίσθητος τομέας για εμάς τους Έλληνες, ο πολιτισμός, δεν θα μπορούσε να μείνει ανεπηρέαστος από το κύμα της ψηφιακής εποχής. Η ψηφιακή εποχή έχει μεταμορφώσει τη πολιτιστική κληρονομιά τόσο από άποψη δημιουργίας όσο και από άποψη διατήρησης πολιτισμού. Ενώ κάποτε συλλέγαμε φυσικά αντικείμενα όπως ζωγραφιές, βιβλία και αγάλματα, τώρα πλέον διατηρούμε και ψηφιακές αναπαραστάσεις των πολιτιστικών αντικειμένων. Μέσω των νέων τεχνολογιών της Πληροφορικής και των Επικοινωνιών μπορούν να δημιουργηθούν, ταυτοποιηθούν και να ανακτηθούν τα ψηφιακά αυτά αγαθά. Η πολιτιστική κληρονομιά έχει κερδίσει μεγάλο ενδιαφέρον τα τελευταία χρόνια. Η επιστημονική κοινότητα ερευνά τις πιθανότητες για παροχή κατάλληλων τεχνολογιών για ολοκληρωμένη πρόσβαση στις συλλογές πολιτισμικής κληρονομιάς, ενώ οι οργανισμοί πολιτισμικής κληρονομιάς γίνονται ολοένα πιο πρόθυμοι να συνεργαστούν και να παρέχουν την καλύτερη δυνατή πρόσβαση στις συλλογές τους μέσα από εξατομικευμένη παρουσίαση και πλοήγηση. Ο Σημασιολογικός Ιστός βρίσκεται στο επίκεντρο της προσπάθειας αυτής. Ο Σημασιολογικός Ιστός είναι το επόμενο στάδιο του σημερινού Διαδικτύου κατά το οποίο, τα δεδομένα θα επισημειώνονται με μεταδεδομένα, τα οποία θα επιτρέπουν στις εφαρμογές του Διαδικτύου να προσφέρουν καλύτερες υπηρεσίες αναζήτησης στο χρήστη. Η διπλωματική αυτή πραγματεύεται τη χρήση των τεχνολογιών του Σημασιολογικού Ιστού για την βελτίωση της πρόσβασης σε πολιτισμικά δεδομένα. Έχει ως στόχο την εμβάθυνση στις τεχνολογίες Σημασιολογικού Ιστού, στην ανάπτυξη μιας καινοτόμου εφαρμογής και στην ανάδειξη των πλεονεκτημάτων. Στο δεύτερο κεφάλαιο παρουσιάζεται πως ο Σημασιολογικός Ιστός λύνει το πρόβλημα της συντακτικής συμβατότητας. Συγκεκριμένα, παρουσιάζεται η τεχνολογία της XML και των διάφορων τεχνολογιών γύρω από αυτήν. Στο τρίτο και στο τέταρτο κεφάλαιο παρουσιάζεται πως επιτυγχάνεται η Σημασιολογική Συμβατότητα. Στο τρίτο κεφάλαιο μελετάται το RDF μοντέλο δεδομένων, η μοντελοποίηση δεδομένων στο Σημασιολογικό Ιστό. Παρουσιάζονται οι διάφοροι τρόποι σύνταξης του καθώς και πως γίνεται αναζήτηση σε γράφους RDF με το πρωτόκολλο SPARQL. Στο τέταρτο κεφάλαιο παρουσιάζεται η έννοια της οντολογίας. Παρουσιάζονται διάφορες γλώσσες περιγραφής οντολογιών ενώ μελετάται σε βάθος η OWL. Στο πέμπτο κεφάλαιο παρουσιάζεται ένα σύνολο θησαυρών και οντολογιών που χρησιμοποιούνται περισσότερο από τους οργανισμούς. Παρουσιάζεται η οντολογία SKOS καθώς και μέθοδοι για τη μεταφορά παραδοσιακών θησαυρών στο Σημασιολογικό Ιστό μέσω του SKOS. Τέλος, παρουσιάζεται το CIDOC-CRM ως μία λύση για την ολοκλήρωση θησαυρών ποικιλίας γνωστικών πεδίων. Στο έκτο κεφάλαιο γίνεται μία ανασκόπηση από επιλεγμένα έργα των τελευταίων ετών που χαρακτηρίζονται από την εφαρμογή των τεχνολογιών του Σημασιολογικού Ιστού στο τομέα του Πολιτισμού και της Πολιτισμικής Κληρονομιάς. Τέλος στο έβδομο κεφάλαιο παρουσιάζεται μία εφαρμογή διαχείρισης πολιτιστικών δρώμενων. Επίσης παρουσιάζεται η πρωτοβουλία των Διασυνδεδεμένων Δεδομένων και πως γίνεται η εφαρμογή μας γίνεται μέρος του Σημασιολογικού Ιστού μέσω της πρωτοβουλίας αυτής. / The digital age has influenced every aspect of human activity and has transformed them in a revolutionary, previously unseen way. A special for us Greeks sector, cultural heritage, could not stay unaffected from the wave of the digital age. The Digital age has transformed Cultural Heritage both from the aspect of creation and the aspect of conservation of civilization. While once we collected only physical objects like paintings, books and statues, now we also collect digital representations of cultural objects. Through the new ICTs the objects can be created, authenticated and retrieved. The domain of Cultural Heritage has gained a lot of popularity during the last years. The scientific community researches new possibilities for integrated access of collections of cultural heritage, while the organizations of cultural heritage are increasingly eager to cooperate and provide the best possible access to their collections through personalized presentation and navigation. The Semantic Web stands in the center of this effort. The Semantic Web is the next stage of today’s Internet, in which, data are annotated with metadata that enable novel applications of the Internet to provide better search services to the user. This thesis researches the usage of Semantic Web technologies for the enhancement of the access to cultural data. Its goal is the study of Semantic Web technologies and the development of a novel application to emphasize its advantages. In the second chapter is presented the XML, which is the vehicle of Semantic Web data representations .In the third chapter , the RDF model is presented. Specifically, the various syntaxes of RDF and how RDF graphs are queried. In the fourth chapter the concept of the ontology is studied. Many ontology description languages are presented and OWL is studied more in depth. In the fifth chapter a number of thesaurus and ontologies are presented that are used by many CH organizations. The SKOS ontology is presented as well as the methods employed to migrate legacy thesauri to the Semantic Web. Also, the CIDOC-CRM ontology is presented as a solution for the integration of various domains. In the sixth chapter a review of selected projects of the last years is presented, that are characterized by the application of the technologies of Semantic Web in the sector of Culture and Cultural heritage. In the last chapter an application of cultural events management is presented. The initiative of Linked Data is also presented and how the application becomes a part of the Semantic Web through this initiative.
4

Gestion d'identité dans des graphes de connaissances / Identity Management in Knowledge Graphs

Raad, Joe 30 November 2018 (has links)
En l'absence d'une autorité de nommage centrale sur le Web de données, il est fréquent que différents graphes de connaissances utilisent des noms (IRIs) différents pour référer à la même entité. Chaque fois que plusieurs noms sont utilisés pour désigner la même entité, les faits owl:sameAs sont nécessaires pour déclarer des liens d’identité et améliorer l’exploitation des données disponibles. De telles déclarations d'identité ont une sémantique logique stricte, indiquant que chaque propriété affirmée à un nom sera également déduite à l'autre et vice versa. Bien que ces inférences puissent être extrêmement utiles pour améliorer les systèmes fondés sur les connaissances tels que les moteurs de recherche et les systèmes de recommandation, l'utilisation incorrecte de l'identité peut avoir des effets négatifs importants dans un espace de connaissances global comme le Web de données. En effet, plusieurs études ont montré que owl:sameAs est parfois incorrectement utilisé sur le Web des données. Cette thèse étudie le problème de liens d’identité erronés ou inappropriés qui sont exprimés par des liens owl:sameAs et propose des solutions différentes mais complémentaires. Premièrement, elle présente une ressource contenant la plus grande collection de liens d’identité collectés du LOD Cloud, avec un service Web à partir duquel les données et leur clôture transitive peuvent être interrogées. Une telle ressource a à la fois des impacts pratiques (elle aide les utilisateurs à trouver différents noms pour la même entité), ainsi qu'une valeur analytique (elle révèle des aspects importants de la connectivité du LOD Cloud). En outre, en s’appuyant sur cette collection de 558 millions liens d’identité, nous montrons comment des mesures de réseau telles que la structure de communauté du réseau owl:sameAs peuvent être utilisées afin de détecter des liens d’identité éventuellement erronées. Pour cela, nous attribuons un degré d'erreur pour chaque lien owl:sameAs en fonction de la densité de la ou des communautés dans lesquelles elles se produisent et de leurs caractéristiques symétriques. L'un des avantages de cette approche est qu'elle ne repose sur aucune connaissance supplémentaire. Finalement, afin de limiter l'utilisation excessive et incorrecte du owl:sameAs, nous définissons une nouvelle relation pour représenter l'identité de deux instances d’une classe dans un contexte spécifique (une sous-partie de l’ontologie). Cette relation d'identité s'accompagne d'une approche permettant de détecter automatiquement ces liens, avec la possibilité d'utiliser certaines contraintes expertes pour filtrer des contextes non pertinents. La détection et l’exploitation des liens d’identité contextuels détectés sont effectuées sur deux graphes de connaissances pour les sciences de la vie, construits en collaboration avec des experts du domaine de l’institut national de la recherche agronomique (INRA). / In the absence of a central naming authority on the Web of data, it is common for different knowledge graphs to refer to the same thing by different names (IRIs). Whenever multiple names are used to denote the same thing, owl:sameAs statements are needed in order to link the data and foster reuse. Such identity statements have strict logical semantics, indicating that every property asserted to one name, will also be inferred to the other, and vice versa. While such inferences can be extremely useful in enabling and enhancing knowledge-based systems such as search engines and recommendation systems, incorrect use of identity can have wide-ranging effects in a global knowledge space like the Web of data. With several studies showing that owl:sameAs is indeed misused for different reasons, a proper approach towards the handling of identity links is required in order to make the Web of data succeed as an integrated knowledge space. This thesis investigates the identity problem at hand, and provides different, yet complementary solutions. Firstly, it presents the largest dataset of identity statements that has been gathered from the LOD Cloud to date, and a web service from which the data and its equivalence closure can be queried. Such resource has both practical impacts (it helps data users and providers to find different names for the same entity), as well as analytical value (it reveals important aspects of the connectivity of the LOD Cloud). In addition, by relying on this collection of 558 million identity statements, we show how network metrics such as the community structure of the owl:sameAs graph can be used in order to detect possibly erroneous identity assertions. For this, we assign an error degree for each owl:sameAs based on the density of the community(ies) in which they occur, and their symmetrical characteristics. One benefit of this approach is that it does not rely on any additional knowledge. Finally, as a way to limit the excessive and incorrect use of owl:sameAs, we define a new relation for asserting the identity of two ontology instances in a specific context (a sub-ontology). This identity relation is accompanied with an approach for automatically detecting these links, with the ability of using certain expert constraints for filtering irrelevant contexts. As a first experiment, the detection and exploitation of the detected contextual identity links are conducted on two knowledge graphs for life sciences, constructed in a mutual effort with domain experts from the French National Institute of Agricultural Research (INRA).
5

Σχεδιασμός και ανάπτυξη διεπαφής πελάτη-εξυπηρετητή για υποστήριξη συλλογισμού σε κατανεμημένες εφαρμογές του σημαντικού ιστού

Αγγελόπουλος, Παναγιώτης 21 September 2010 (has links)
Η έρευνα αναφορικά με την εξέλιξη του Παγκόσμιου Ιστού (WWW) κινείται τα τελευταία χρόνια προς πιο ευφυείς και αυτοματοποιημένους τρόπους ανακάλυψης και εξαγωγής της πληροφορίας. Ο Σημαντικός Ιστός (Semantic Web) είναι μία επέκταση του σημερινού Ιστού, όπου στην πληροφορία δίνεται σαφώς προσδιορισμένη σημασία, δίνοντας έτσι τη δυνατότητα στις μηχανές να μπορούν πλέον να επεξεργάζονται καλύτερα και να «κατανοούν» τα δεδομένα, τα οποία μέχρι σήμερα απλώς παρουσιάζουν. Για να λειτουργήσει ο Σημαντικός Ιστός, οι υπολογιστές θα πρέπει να έχουν πρόσβαση σε οργανωμένες συλλογές πληροφοριών, που καλούνται οντολογίες (ontologies). Οι οντολογίες παρέχουν μια μέθοδο αναπαράστασης της γνώσης στο Σημαντικό Ιστό και μπορούν επομένως να αξιοποιηθούν από τα υπολογιστικά συστήματα για τη διεξαγωγή αυτοματοποιημένου συλλογισμού (automated reasoning). Για την περιγραφή και την αναπαράσταση των οντολογιών του Σημαντικού Ιστού σε γλώσσες αναγνώσιμες από τη μηχανή, έχουν προταθεί και βρίσκονται υπό εξέλιξη διάφορες πρωτοβουλίες, με πιο σημαντική τη Γλώσσα Οντολογίας Ιστού (Web Ontology Language – OWL). H γλώσσα αυτή αποτελεί πλέον τη βάση για την αναπαράσταση γνώσης στο Σημαντικό Ιστό, λόγω της προώθησής της από το W3C, και του αυξανόμενου βαθμού υιοθέτησής της στις σχετικές εφαρμογές. Το βασικότερο εργαλείο για την υλοποίηση εφαρμογών που διαχειρίζονται OWL οντολογίες, είναι το OWL API. Το OWL API αποτελείται από προγραμματιστικές βιβλιοθήκες και μεθόδους, οι οποίες παρέχουν μια υψηλού επιπέδου διεπαφή για την πρόσβαση και τον χειρισμό OWL οντολογιών. Το θεωρητικό υπόβαθρο που εγγυάται την εκφραστική και συλλογιστική ισχύ των οντολογιών, παρέχεται από τις Λογικές Περιγραφής (Description Logics). Οι Λογικές Περιγραφής αποτελούν ένα καλώς ορισμένο αποφασίσιμο υποσύνολο της Λογικής Πρώτης Τάξης και καθιστούν δυνατή την αναπαράσταση και ανακάλυψη γνώσης στο Σημαντικό Ιστό. Για την ανακάλυψη άρρητης πληροφορίας ενδείκνυται, επομένως, να αξιοποιηθούν συστήματα βασισμένα σε Λογικές Περιγραφής. Τα συστήματα αυτά ονομάζονται και εργαλεία Συλλογισμού (Reasoners). Χαρακτηριστικά παραδείγματα τέτοιων εργαλείων αποτελούν τα FaCT++ και Pellet. Από τα παραπάνω γίνεται προφανής ο λόγος για τον οποίο, τόσο το OWL API, όσο και τα εργαλεία Συλλογισμού, χρησιμοποιούνται από προτεινόμενα μοντέλα υλοποίησης εφαρμογών του Σημαντικού Ιστού επόμενης γενιάς (WEB 3.0), για την επικοινωνία και την υποβολή «έξυπνων» ερωτημάτων σε βάσεις γνώσης (knowledge bases). Στα μοντέλα αυτά προτείνεται, επίσης, η χρήση κατανεμημένης αρχιτεκτονικής 3-επιπέδων (3-tier distributed architecture), για την υλοποίηση εφαρμογών του Σημαντικού Ιστού. Σκοπός της διπλωματικής αυτής είναι ο σχεδιασμός και η ανάπτυξη μιας διεπαφής Πελάτη – Εξυπηρετητή (Client – Server interface) για την υποστήριξη υπηρεσιών Συλλογισμού (reasoning) σε κατανεμημένες εφαρμογές του Σημαντικού Ιστού. Πιο συγκεκριμένα, η διεπαφή που θα υλοποιήσουμε αποτελείται από δύο μέρη. Το πρώτο παρέχει τα απαραίτητα αρχεία για την εκτέλεση ενός εργαλείου Συλλογισμού σε κάποιο απομακρυσμένο μηχάνημα (Server). Με τον τρόπο αυτό, το συγκεκριμένο μηχάνημα θα παρέχει απομακρυσμένες (remote) υπηρεσίες Συλλογισμού. Το δεύτερο μέρος (Client) περιέχει αρχεία, που δρουν συμπληρωματικά στις βιβλιοθήκες του OWL API, και του δίνουν νέες δυνατότητες. Συγκεκριμένα, δίνουν την δυνατότητα σε μια εφαρμογή, που είναι υλοποιημένη με το OWL API, να χρησιμοποιήσει τις υπηρεσίες που προσφέρονται από κάποιο απομακρυσμένο εργαλείο Συλλογισμού. Συνεπώς, η διεπαφή μας θα δώσει την δυνατότητα υιοθέτησης της χρήσης του OWL API και των εργαλείων Συλλογισμού από κατανεμημένες αρχιτεκτονικές για την υλοποίηση εφαρμογών του Σημαντικού Ιστού. / In the past few years, the research that focus on the development of the World Wide Web (WWW) has moved towards more brilliant and automated ways of discovering and exporting the information. The Semantic Web is an extension of the current Web, that explicitly defines the information, thus providing the machines with the possibility to better process and “comprehend” the data, which until now they simply present. For the Semantic Web to function properly, computers must have access to organized collections of information, that are called ontologies. Ontologies provide a method of representing knowledge in the Semantic Web and, consequently, they can be used by computing systems in order to conduct automated reasoning. In order to describe and represent the ontologies of the Semantic Web in machine-readable language, various initiatives have been proposed and are under development, most important of which is the Web Ontology Language - OWL. This language constitutes the base for representing knowledge in the Semantic Web, due to its promotion from the W3C, and its increasing degree of adoption from relative applications. The main tool for the development of applications that manages OWL ontologies, is the OWL API. The OWL API consists of programming libraries and methods, that provide a higher-level interface for accessing and handling OWL ontologies. The theoretical background that guarantees the expressivity and the reasoning of ontologies, is provided from Description Logics. Description Logics constitute a well defined and decidable subset of First Order Logic and make possible the representation and discovery of knowledge in the Semantic Web. As a consequence, in order to discover “clever” information, we have to develop and use systems that are based in Description Logics. These systems are also called Reasoners. Characteristic examples of such tools are FaCT++ and Pellet. From above, it must be obvious why both the OWL API and the Reasoners are used by proposed models of developing next generation (WEB 3.0) Semantic Web applications, for the communication and the submission of “intelligent” questions in knowledge bases. These models also propose the use of a 3-level distributed architecture (3-tier distributed architecture), for the development of Semantic Web applications. Aim of this diploma thesis is to design and implement a Client-Server interface to support Reasoning in distributed applications of the Semantic Web. Specifically, the interface that we will implement consists of two parts. First part provides the essential files for a Reasoner to run in a remote machine (Server). As a result, this machine will provide remote Reasoning services. Second part (Client) contains files, that act additionally to (enhance) the libraries of the OWL API, and give them new features. More precisely, they provide an application, that is implemented with OWL API, with the possibility of using the services that are offered by a remote Reasoner. Consequently, our interface will make possible the use of the OWL API and the Reasoners from proposed distributed architectures for the development of Semantic Web applications.
6

Προς το Web 3.0 : διαδικασία ανάπτυξης και αρχιτεκτονική υποστήριξης εφαρμογών παγκόσμιου ιστού που συνδυάζουν τεχνολογίες Web 2.0 και semantic web / Towards Web 3.0 : development process and supporting architecture for web applications combining semantic web and Web 2.0 technologies

Πομόνης, Τζανέτος 21 March 2011 (has links)
Η παρούσα διατριβή έχει ως στόχο να συνεισφέρει στον τομέα του Web Engineering εισάγοντας τρόπους αντιμετώπισης αυτών των προβλημάτων που αντιμετωπίζουν οι Μηχανικοί Παγκόσμιου Ιστού κατά τη διάρκεια του κύκλου ζωής των Εφαρμογών και των Πληροφοριακών Συστημάτων Παγκόσμιου Ιστού επόμενης γενιάς, και ειδικότερα κατά το σχεδιασμό, την ανάπτυξη και συντήρησή τους. Ειδικά τα τελευταία χρόνια, η εξέλιξη των εφαρμογών Παγκόσμιου Ιστού στηρίζεται, κατά κύριο λόγο, σε δυο τεχνολογικούς “πυλώνες”: στις βασικές αρχές και τεχνολογίες του Web 2.0 και στο Semantic Web. Είναι ισχυρή η πεποίθηση πως αυτές οι δύο διαφορετικές “σχολές” στην εξέλιξη του Παγκόσμιου Ιστού δε βρίσκονται σε σύγκρουση μεταξύ τους, αλλά μπορούν να συνδυαστούν κατάλληλα ώστε να ξεπεράσουν τις όποιες εγγενείς αδυναμίες τους. Κατ' αυτόν τον τρόπο, οι εφαρμογές Παγκόσμιου Ιστού της επόμενης γενιάς θα είναι σε θέση να συνδυάζουν τις αρχές του Web 2.0, κυρίως αυτές που στοχεύουν στην ευχρηστία των εφαρμογών και στη συνεργατική ανάπτυξη, με το ισχυρό τεχνολογικό υπόβαθρο του Semantic Web που διευκολύνει σε μεγάλο βαθμό την ανταλλαγή και το διαμοιρασμό πληροφορίας μεταξύ των εφαρμογών Παγκόσμιου Ιστού. Προσφάτως, έχει αρχίσει να χρησιμοποιείται ευρέως ο όρος Web 3.0 για να περιγράψει τη μελλοντική κατεύθυνση που τείνουν να ακολουθήσουν οι εφαρμογές Παγκόσμιου Ιστού. Το Web 3.0 προβλέπεται σαφώς να περιλαμβάνει τις αρχές του Semantic Web και του Web 2.0, αλλά οι ερευνητές πιστεύουν πως θα περιλαμβάνει επίσης και κάποια πιο εξειδικευμένα πεδία όπως η Τεχνητή Νοημοσύνη στον Παγκόσμιο Ιστό (Web AI). Σε κάθε περίπτωση πάντως, δεν έχει καταστεί ξεκάθαρο, όχι μόνο το ποια θα είναι τα πλήρη χαρακτηριστικά του Web 3.0, αλλά και το ποιες θα είναι οι κατάλληλες διαδικασίες και τεχνολογίες, με βάση τις οποίες θα μπορούν να δομηθούν και να αναπτυχθούν οι αντίστοιχες εφαρμογές επόμενης γενιάς, με αποτέλεσμα η πορεία προς το Web 3.0 να γίνεται προς το παρόν με αυθαίρετο και άναρχο τρόπο. Σε αυτή την κατεύθυνση, μελετάται η παρούσα κατάσταση σχετικά με την υποστήριξη των εφαρμογών του Web 3.0, και γίνονται συγκεκριμένες προτάσεις για τη βελτίωσή της. Σαν πρώτο βήμα προτείνεται μια αρχιτεκτονική τριών επιπέδων (3-tier), η οποία αφενός, στο χαμηλότερο επίπεδο, περιλαμβάνει μια ισχυρή υποδομή σημασιακής βάσης γνώσης που μπορεί να υποστηρίξει το συνδυασμό πολλαπλών διάσπαρτων πηγών δεδομένων, χωρίς να απαιτεί ένα ισχυρό προϋπάρχον σημασιακό υπόβαθρο, και αφετέρου, στα ψηλότερα επίπεδα, προσφέρει μεγάλη ευελιξία στο χρήστη κατά την αλληλεπίδραση με το υποκείμενο μοντέλο οντολογιών, και μπορεί να υποστηρίξει τη συνεργατική ανάπτυξη των εφαρμογών Παγκόσμιου Ιστού επόμενης γενιάς. Επίσης, ένα από τα σημαντικότερα τμήματα της παρούσας διατριβής, είναι η πρόταση για μια συγκεκριμένη διαδικασία ανάπτυξης και ένα μοντέλο κύκλου ζωής των εφαρμογών του Web 3.0, όπου, λαμβάνοντας υπόψη τα ιδιαίτερα στοιχεία και τον διττό χαρακτήρα των εν λόγω εφαρμογών, δίνονται εμπεριστατωμένα βήματα για το πως μπορούν να ξεπεραστούν τα όποια εμπόδια και να υπάρξει η μέγιστη δυνατή απόδοση κατά το σχεδιασμό και την ανάπτυξη των εφαρμογών Παγκόσμιου Ιστού επόμενης γενιάς. Με βάση τα παραπάνω, δίνεται η δυνατότητα για την ανάπτυξη κάποιων ενδεικτικών εφαρμογών Παγκόσμιου Ιστού, οι οποίες συνδυάζουν τη φιλοσοφία του Web 2.0 και το ισχυρό τεχνολογικό υπόβαθρο του Semantic Web. / --
7

Σημασιολογικές μηχανές αναζήτησης Παγκόσμιου Ιστού / Semantic web clustering engines

Καναβός, Ανδρέας 11 June 2012 (has links)
Οι μηχανές αναζήτησης είναι ένα ανεκτίμητο εργαλείο για την ανάκτηση πληροφοριών από το διαδίκτυο. Απαντώντας στα ερωτήματα του χρήστη, επιστρέφουν μια λίστα με αποτελέσματα, ταξινομημένα κατά σειρά, με βάση τη συνάφεια του περιεχομένου τους προς το ερώτημα. Ωστόσο, αν και οι μηχανές αναζήτησης είναι σίγουρα αρκετά καλές στην αναζήτηση συγκεκριμένων ερωτημάτων, όπως είναι η εύρεση μιας συγκεκριμένης ιστοσελίδας, αντίθετα μπορούν να είναι λιγότερο αποτελεσματικές όσον αφορά την αναζήτηση ασαφών, προς αυτές, ερωτημάτων, όπως για παράδειγμα όταν συναντούμε το φαινόμενο της αμφισημίας, όπου μια λέξη μπορεί να πάρει περισσότερες από μία έννοιες μέσα στα συμφραζόμενα διαφορετικής πρότασης. Άλλο ένα παράδειγμα ερωτήματος είναι όταν υπάρχουν περισσότερες από δύο υποκατηγορίες και νοήματα σ’ ένα ερώτημα, πράγμα που σημαίνει ότι ο χρήστης θα πρέπει να διατρέξει έναν μεγάλο αριθμό αποτελεσμάτων για να βρει αυτά που τον ενδιαφέρουν. Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη ενός έμπειρου συστήματος, που θα μετά-επεξεργάζεται τις απαντήσεις μας κλασικής μηχανής αναζήτησης και θα ομαδοποιεί τα αποτελέσματα σε μια ιεραρχία από κατηγορίες με βάση το περιεχόμενο τους. Οι σημαντικότερες σημερινές λύσεις πάνω στο πρόβλημα της αντιστοίχησης των αποτελεσμάτων σε συστάδες είναι τα συστήματα Vivisimo, Carrot, CREDO και SnakeT. Η συνεισφορά που προτείνεται στη παρούσα εργασία, είναι η χρήση μίας σειράς τεχνικών που βελτιώνουν την ποιότητα των ομάδων απάντησης. Μία πρωτότυπη τεχνική που χρησιμοποιήθηκε στην παρούσα εργασία είναι η αναδιατύπωση των ερωτημάτων (query reformulation) μέσω διαφόρων στρατηγικών. Ο λόγος που παρουσιάζονται τέτοιες στρατηγικές, είναι επειδή συχνά οι χρήστες τροποποιούν ένα προηγούμενο ερώτημα αναζήτησης ώστε να ανακτήσουν καλύτερα αποτελέσματα ή κι επειδή πολλές φορές δεν μπορούν να διατυπώσουν σωστά ένα ερώτημα λόγω της μη γνώσης επιθυμητών αποτελεσμάτων. Επιπλέον, επωφεληθήκαμε από τη Wikipedia αντλώντας δεδομένα από τους τίτλους των σελίδων αλλά κι από τις κατηγορίες στις οποίες ανήκουν αυτές οι σελίδες. Αυτό γίνεται μέσω της σύνδεσης των συχνών όρων που ανήκουν στα κείμενα των αποτελεσμάτων αναζήτησης με τη σημασιολογική εγκυκλοπαίδεια Wikipedia, με σκοπό την εξαγωγή των διαφορετικών εννοιών και νοημάτων του κάθε όρου. Ειδικότερα, αναζητείται στη Wikipedia η ύπαρξη σελίδας (ή σελίδων για το φαινόμενο της αμφισημίας) που αντιστοιχίζονται στους όρους αυτούς με αποτέλεσμα τη χρησιμοποίηση του τίτλου και της κατηγορίας ως επιπρόσθετη πληροφορία. Τέλος η Wikipedia χρησιμοποιείται και στην ανάθεση ετικετών στις τελικές συστάδες ως επιπρόσθετη πληροφορία κάθε ξεχωριστού κειμένου που βρίσκεται στη συστάδα. / -
8

Γραμματειακή υποστήριξη σχολών πανεπιστημίων : Ανάπτυξη ιστοσελίδας με χρήση τεχνολογιών Σημασιολογικού Ιστού (Semantic Web)

Φωτεινός, Γεώργιος 30 April 2014 (has links)
Ένα υποσύνολο του τεράστιου όγκου πληροφοριών του Ιστού αφορά τα Ανοικτά Δεδομένα (Open Data), τα οποία αποτελούν πληροφορίες, δημόσιες ή άλλες, στις οποίες ο καθένας μπορεί να έχει πρόσβαση και να τις χρησιμοποιεί περαιτέρω για οποιονδήποτε σκοπό με στόχο να προσθέσει αξία σε αυτές. Η δυναμική των ανοιχτών δεδομένων γίνεται αντιληπτή όταν σύνολα δεδομένων των δημόσιων οργανισμών μετατρέπονται σε πραγματικά ανοιχτά δεδομένα, δηλαδή χωρίς νομικούς, οικονομικούς ή τεχνολογικούς περιορισμούς για την περαιτέρω χρήση τους από τρίτους. Τα ανοικτά δεδομένα ενός Τμήματος ή Σχολής Πανεπιστημίου μπορούν να δημιουργήσουν προστιθέμενη αξία και να έχουν θετικό αντίκτυπο σε πολλές διαφορετικές περιοχές, στη συμμετοχή, την καινοτομία, τη βελτίωση της αποδοτικότητας και αποτελεσματικότητας των Πανεπιστημιακών υπηρεσιών, την παραγωγή νέων γνώσεων από συνδυασμό στοιχείων κ.α. Ο τελικός στόχος είναι τα ανοικτά δεδομένα να καταστούν Ανοικτά Διασυνδεδεμένα Δεδομένα. Τα Διασυνδεδεμένα Δεδομένα, αποκτούν νόημα αντιληπτό και επεξεργάσιμο από μηχανές, επειδή περιγράφονται σημασιολογικά με την χρήση οντολογιών. Έτσι τα δεδομένα γίνονται πιο «έξυπνα» και πιο χρήσιμα μέσα από την διάρθρωση που αποκτούν. Στην παρούσα διπλωματική εργασία, υλοποιείται μια πρότυπη δικτυακή πύλη με την χρήση του Συστήματος Διαχείρισης Περιεχομένου CMS Drupal, το οποίο ενσωματώνει τεχνολογίες Σημασιολογικού Ιστού στον πυρήνα του, με σκοπό την μετατροπή των δεδομένων ενός Τμήματος ή Σχολής Πανεπιστημίου σε Ανοικτά Διασυνδεδεμένα Δεδομένα διαθέσιμα στην τρίτη γενιά του Ιστού τον Σημασιολογικό Ιστό. / A subset of the vast amount of information of the web is concerned with open data, which is information, whether public or other, in which everyone can have access and use it for any purpose with a view to add value. The dynamics of open data becomes noticeable when datasets of public bodies are transformed into truly open data , i.e. without legal, financial or technological limitations for further use by third parties. The open data of a university department or faculty can add value and have a positive impact on many different areas such as participation, innovation, improvisation of the efficiency and effectiveness of university services, generating new knowledge from a combination of elements , etc. The ultimate goal is to transform open data into open linked data. The linked data , become meaningful and processable by machines, given that they are semantically described, using ontologies. Thus, the data become more " intelligent " and more useful through the structure they acquire. In this thesis , a prototype web portal is implemented using the content management system CMS Drupal, which incorporates semantic web technologies in the core, in order to convert the data of a University Department or School in open linked data available in the third generation web semantic web.
9

Αξιοποίηση τεχνολογιών ανοικτού κώδικα για την ανάπτυξη εφαρμογών σημασιολογικού ιστού

Κασσέ, Παρασκευή 14 February 2012 (has links)
Τα τελευταία χρόνια υπάρχει εκθετική αύξηση του όγκου της πληροφορίας που δημοσιεύεται στο Διαδίκτυο. Καθώς όμως η πληροφορία αυτή δε συνδέεται με τη σημασιολογία της παρατηρείται δυσκολία στη διαχείρισή της και στην πρόσβαση σε αυτήν. Ο Σημασιολογικός Ιστός, λοιπόν, είναι μια ομάδα μεθόδων και τεχνολογιών που σκοπεύουν να δώσουν τη δυνατότητα στις μηχανές να κατανοήσουν τη “σημασιολογία” των πληροφοριών σχετικά με τον Παγκόσμιο Ιστό. Ο Σημασιολογικός Ιστός (Semantic Web) αποτελεί επέκταση του Παγκοσμίου Ιστού. Στο Σημασιολογικό Ιστό οι πληροφορίες εμπλουτίζονται με μεταδεδομένα, τα οποία υπακουούν σε κοινά πρότυπα και επιτρέπουν την εξαγωγή γνώσεως από την ήδη υπάρχουσα, καθώς επίσης και το συνδυασμό της υπάρχουσας πληροφορίας με στόχο την εξαγωγή συμπερασμάτων. Απώτερος στόχος του Σημασιολογικού Ιστού είναι η βελτιωμένη αναζήτηση, η εκτέλεση σύνθετων διεργασιών και η εξατομίκευση της πληροφορίας σύμφωνα με τις ανάγκες του κάθε χρήστη. Στην παρούσα διπλωματική εργασία μελετήθηκε η χρήση των τεχνολογιών του Σημασιολογικού Ιστού για τη βελτίωση της πρόσβασης σε πολιτισμικά δεδομένα. Συγκεκριμένα αρχικά έγινε εμβάθυνση στις τεχνολογίες και στις θεμελιώδεις έννοιες του Σημασιολογικού Ιστού. Παρουσιάστηκαν αναλυτικά οι βασικές γλώσσες σήμανσης: XML που επιτρέπει τη δημιουργία δομημένων εγγράφων με λεξιλόγιο καθορισμένο από το χρήστη, RDF που προσφέρει ένα μοντέλο δεδομένων για την περιγραφή πληροφοριών με τέτοιο τρόπο ώστε να είναι δυνατή η ανάγνωση και η κατανόησή τους από μηχανές. Αναφέρθηκαν, ακόμη, οι διάφοροι τρόποι σύνταξης της γλώσσας RDF καθώς και πως γίνεται αναζήτηση σε γράφους RDF με το πρωτόκολλο SPARQL. Στη συνέχεια ακολουθεί η περιγραφή της RDFS, που πρόκειται για γλώσσα περιγραφής του RDF λεξιλογίου. Έχοντας παρουσιαστεί σε προηγούμενο κεφάλαιο η έννοια της οντολογίας, γίνεται αναφορά στη σημασιολογική γλώσσα σήμανσης OWL, που χρησιμοποιείται για την έκδοση και διανομή οντολογιών στο Διαδίκτυο. Έπειτα ακολουθεί μια ανασκόπηση από επιλεγμένα έργα, ελληνικά, ευρωπαϊκά και διεθνή, των τελευταίων ετών που χρησιμοποιούν τις τεχνολογίες του Σημασιολογικού Ιστού στο τομέα του πολιτισμού και της πολιτισμικής κληρονομιάς. Τέλος στο έβδομο κεφάλαιο παρουσιάζεται μία εφαρμογή διαχείρισης αρχαιολογικών χώρων-μνημείων και μελετώνται σε βάθος οι τεχνολογίες και τα εργαλεία που χρησιμοποιήθηκαν για την υλοποίησή της. / Over the past few years there has been exponential increase of the volume of information published on the Internet. Since information is not connected to its semantics, it is difficult to manipulate and access it. Therefore, the Semantic Web consists of methods and technologies that aim to enable machines to understand information’s semantics. The Semantic Web is an extension of the World Wide Web (WWW). Specifically, information is enriched with metadata, which are subject to common standards and permit knowledge extraction from the existing one and the combination of existing information in order to infer implicit knowledge, as well. Future goals of the Semantic Web are enhanced searching, complicated processes’ execution and information personalization according to each user’s needs. This post-graduate diploma thesis researches the usage of Semantic Web technologies for the enhancement of the access to cultural data. More specifically, Semantic Web technologies and essential concepts were studied. Basic markup languages were presented analytically: XML that allows structured documents’ creation with user defined vocabulary, RDF that offers a data model for such information description that it is readable and understandable by machines. Also, various RDF syntaxes and how to search RDF graphs using SPARQL protocol were referred. Below RDFS description follows, that is a description language of RDF vocabulary. After having introduced the concept of ontology in previous chapter, the semantic markup language OWL is presented, that is used for ontology publishing and distribution on the Internet. A review of selected projects of the last years, Greek, European and international, which are characterized by the application of technologies of the Semantic Web in the sector of Culture and Cultural heritage, is presented. In the last chapter, an application that manages archaeological places- sites is presented and it is studied technologies and tools that were used for it.
10

Σχεδιασμός και υλοποίηση ενός συστήματος αποκομιδής ορισμένης πληροφορίας από τον παγκόσμιο ιστό, με τη χρήση σημασιολογικών δικτύων λημμάτων / Design and implementation of a topical-focused web crawler through the use of semantic networks

Κοζανίδης, Ελευθέριος 28 February 2013 (has links)
Η συγκεκριμένη διατριβή στοχεύει στον σχεδιασμό της μεθοδολογίας που θα εφαρμοστεί για την υλοποίηση ενός προσκομιστή πληροφορίας από τον Παγκόσμιο Ιστό, ο οποίος θα λειτουργεί λαμβάνοντας υπόψη θεματικά κριτήρια. Τέτοιου είδους προγράμματα ανίχνευσης πληροφορίας, είναι ευρέως γνωστά ως θεματικά εστιασμένοι προσκομιστές ιστοσελίδων. Κατά τη διάρκεια της μελέτης μας, σχεδιάσαμε και υλοποιήσαμε ένα καινοτόμο σύστημα θεματικής κατηγοριοποίησης ιστοσελίδων που κάνει εκτεταμένη χρήση των σημασιολογικών δεδομένων τα οποία περιέχονται στο σημασιολογικό δίκτυο WordNet. Η απόφαση για την αξιοποίηση του WordNet ελήφθη με τη φιλοδοξία να αντιμετωπιστούν αποτελεσματικά φαινόμενα ασάφειας εννοιών που μειώνουν τις επιδόσεις των διαθέσιμων θεματικών κατηγοριοποιητών. Η καταλληλότητα του WordNet για την επίλυση της σημασιολογικής ασάφειας έχει αποδειχθεί στο παρελθόν, αλλά ποτέ δεν εξετάστηκε σε ένα σύστημα εστιασμένης προσκόμισης ιστοσελίδων με τον συγκεκριμένο τρόπο, ενώ ποτέ δεν έχει αξιοποιηθεί στην κατηγοριοποίηση ιστοσελίδων για την ελληνική γλώσσα. Ως εκ τούτου, ο θεματικός κατηγοριοποιητής που υλοποιήσαμε, και κατά συνέπεια, και ο εστιασμένος προσκομιστής στον οποίο ενσωματώνεται ο κατηγοριοποιητής, είναι καινοτόμοι όσο αφορά τον τρόπο με τον οποίο αποσαφηνίζουν έννοιες λέξεων με στόχο την αποτελεσματική ανίχνευση του θεματικού προσανατολισμού μίας ιστοσελίδας . Ένας προσκομιστής ιστοσελίδων είναι ένα πρόγραμμα που με αφετηρία μία λίστα διευθύνσεων ιστοσελίδων (URLs) αρχικοποίησης προσκομίζει το περιεχόμενο των ιστοσελίδων που συναντά και συνεχίζει ακολουθώντας τους εσωτερικούς τους συνδέσμους με απώτερο σκοπό την προσκόμιση όσο το δυνατό μεγαλύτερου υποσυνόλου δεδομένων του Παγκόσμιου Ιστού (ανάλογα με τους διαθέσιμους πόρους, την χωρητικότητα του δικτύου, κλπ.). Δεδομένου ότι ο όγκος των δεδομένων που είναι διαθέσιμα στον Παγκόσμιο Ιστό αυξάνεται με εκθετικό ρυθμό, είναι πρακτικά αδύνατο να προσκομιστούν όλες οι ζητούμενες πηγές πληροφορίας ανά πάσα στιγμή. Ένας τρόπος για να αντιμετωπίσουμε το συγκεκριμένο πρόβλημα είναι η εκμετάλλευση συστημάτων εστιασμένης προσκόμισης ιστοσελίδων που στοχεύουν στη λήψη ιστοσελίδων συγκεκριμένης θεματολογίας που εκφράζουν κάθε φορά το θεματικό προφίλ του χρήστη, σε αντίθεση με τους προσκομιστές ιστοσελίδων γενικού σκοπού που καταναλώνουν πόρους άσκοπα προσπαθώντας να προσκομίσουν κάθε πιθανή πηγή πληροφορίας που συναντούν. Οι εστιασμένοι προσκομιστές χρησιμοποιούνται εκτενώς, για την κατασκευή θεματικά προσανατολισμένων ευρετηρίων ιστοσελίδων, κάθε ένα από τα οποία έχει την δυνατότητα να εξυπηρετήσει αιτήσεις χρηστών με συγκεκριμένο θεματικό προσανατολισμό. Με αυτό τον τρόπο είναι δυνατόν να αντιμετωπιστεί το πρόβλημα της υπερφόρτωσης πληροφοριών. Προκειμένου να επιτελέσουμε την συγκεκριμένη εργασία μελετήσαμε εκτενώς υπάρχουσες τεχνικές εστιασμένης προσκόμισης, στις οποίες στηριχθήκαμε ώστε να ορίσουμε την μεθοδολογία που θα ακολουθήσουμε. Το αποτέλεσμα είναι η υλοποίηση ενός θεματικά εστιασμένου πολυνηματικού προσκομιστή, ο οποίος ενσωματώνει τις εξής καινοτομίες: είναι ρυθμισμένος προκειμένου να εκτελεί εστιασμένες προσκομίσεις σε ιστοσελίδες ελληνικού ενδιαφέροντος, αποσαφηνίζει το κείμενο που αντιστοιχεί σε ιστοσελίδες προκειμένου να ανακαλύψει τον θεματικό τους προσανατολισμό. Επιπλέον προτείνουμε μία σειρά υποσυστημάτων τα οποία θα μπορούσαν να ενσωματωθούν στο σύστημα εστιασμένης προσκόμισης προκειμένου να ενισχύσουμε την απόδοσή του. Τέτοια συστήματα είναι το υποσύστημα ανίχνευσης όψεων που αντιστοιχίζονται σε επώνυμες οντότητες καθώς και το υποσύστημα εξαγωγής λέξεων κλειδιών που μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά κατηγοριοποίσης από το αλφαριθμητικό των διευθύνσεων (URL) ιστοσελίδων. Για να παρουσιάσουμε την αποτελεσματικότητα της προτεινόμενης μεθόδου, διενεργήσαμε μία σειρά πειραματικών μετρήσεων. Συγκεκριμένα αξιολογήσαμε πειραματικά τα ακόλουθα: την αποτελεσματικότητα του αλγορίθμου αποσαφήνισης που ενσωματώσαμε στον προσκομιστή, την απόδοση του θεματικού κατηγοριοποιητή ο οποίος καθορίζει την συμπεριφορά του εστιασμένου προσκομιστή σχετικά με το αν μια σελίδα θα πρέπει να κατέβει ως θεματικά σχετική με το θέμα ενδιαφέροντος ή όχι, την απόδοση του εστιασμένου προσκομιστή καταγράφοντας τον ρυθμό απόκτησης που επιτυγχάνει κατά την διάρκεια της εστιασμένης προσκόμισης χρησιμοποιώντας κάθε φορά διαφορετικά χαρακτηριστικά κατηγοριοποίησης, την καταλληλότητα του υποσυστήματος εξαγωγής λέξεων-κλειδιών από το αλφαριθμητικό URL για την περιγραφή του θεματικού προσανατολισμού της ιστοσελίδας και τέλος τη χρησιμότητα του συστήματος αναγνώρισης επώνυμων οντοτήτων στην οργάνωση ιστοσελίδων των οποίων η σημασιολογία δεν αναπαρίσταται ικανοποιητικά σε σημασιολογικούς πόρους γενικού σκοπού συμπεριλαμβανομένου του σημασιολογικού δικτύου WordNet. Τα πειραματικά αποτελέσματα επιβεβαιώνουν τη συμβολή του θεματικά εστιασμένου προσκομιστή που προτείνουμε στην προσκόμιση περιεχομένου ειδικού ενδιαφέροντος από τον Παγκόσμιο Ιστό. Παράλληλα αποδεικνύουμε ότι όλες οι μέθοδοι που ενσωματώσαμε στο σύστημα εστιασμένης προσκόμισης είναι δυνατό να συνεργαστούν κατά τρόπο που να βελτιώνει την απόδοση του προσκομιστή . Τέλος από τα πειραματικά αποτελέσματα αποδεικνύεται ότι η προτεινόμενη τεχνική είναι εξίσου αποτελεσματική για ιστοσελίδες στα αγγλικά και στα ελληνικά. Επιπλέον πιστεύουμε ότι μπορεί να εφαρμοστεί με επιτυχία και σε ιστοσελίδες που περιέχουν κείμενα άλλων φυσικών γλωσσών, με προϋπόθεση την ύπαρξη σημασιολογικών πόρων, αντίστοιχων με το WordNet και διαθέσιμων εργαλείων που θα επιτρέπουν την ανάλυση των δεδομένων κειμένου τους. / This dissertation aims at the specification of an algorithmic methodology that will be applied towards the implementation of a web crawler, which will operate upon thematic criteria. Such crawlers are widely known as topical focused web crawlers. To realize our objective, the utilization of a web page thematic classification system (either existing or newly developed one) is imperative. In the course of our study, we designed and implemented a novel thematic classifier that makes extensive use of the semantic data encoded in WordNet semantic network and such decision was taken with the aspiration of tackling effectively sense ambiguity phenomena that degrade the performance of available classifiers. The suitability of WordNet towards resolving semantic ambiguity has been previously proven but never examined in a focused web crawling application and has never been exploited for the Greek language. Therefore, our thematic classifier and consequently our focused crawler that integrates it are innovative in the way in which they perform word sense disambiguation for achieving the effective detection of the web page topics (themes). In a broad sense, a web crawler is a program that based on a seed list of URLs it downloads the contents of the web pages it comes across and continues following their internal links with the utmost objective of fetching as much as web data as possible (depending on available resources, network capacity, etc.). Given that the web data grows at exponential rates, it is practically impossible to download all the web sources at any given time. One way to tackle such difficulty is to implement and employ topical focused crawlers that aim at downloading content of specific topics (potentially of interest to the user) rather than waste resources trying to download every single data source that is available on the web. Topically focused crawlers are extensively used for building topical focused indices, each of which can serve specialized user search requests, therefore dealing partially with the information overload problem. To carry out our work, we have extensively reviewed existing approaches with respect to topically focused crawling techniques upon which we relied for defining our own focused crawling methodology, which resulted into the implementation of a topical focused crawler that incorporates the following innovate features: it is tailored to operate on the Greek web, it disambiguates the web pages in order to uncover their topic and it incorporates numerous features, such as a named entities recognizer, a URL keyword extractor, personalization techniques, etc., in order to maximize its performance. To demonstrate the effectiveness of our method, we have applied our topical focused crawler on several datasets and experimentally evaluated the following issues: the efficiency of the sense resolution algorithm incorporated into our crawler, the performance of the topical classifier that the crawler consults prior to making a final decision as to whether a page should be downloaded as topically relevant to a subject of interest or not, the suitability of the URL keyword extractor module for judging the subject of a web page based entirely on the analysis of its URL, the usefulness of the named entities recognizer in organizing pages whose semantics are poorly represented within the contents of general-purpose semantic resources (including WordNet semantic network). Experimental results confirm the contribution of our topically focused crawler in downloading web content of specific interest and show that all the methods and techniques that we have successfully integrated into the crawler can interoperate with its other in a manner that improves the crawling performance while allowing for flexibility in the downloading process at the same time. Last but not least, experimental results showcase that our crawling methodology is equally effective for both English and Greek and we believe that it can be fruitfully applied to other natural languages provided that there the respective semantic resources and tools are available for analyzing their textual data.

Page generated in 0.0499 seconds