Spelling suggestions: "subject:"μηχανές αναζήτηση"" "subject:"µηχανές αναζήτηση""
1 |
Επέκταση υπάρχουσας μηχανής αναζήτησης για δεικτοδότηση οποιωνδήποτε εγγράφων χρηστώνΦραντζής, Θρασύβουλος 08 March 2010 (has links)
Oι πληροφορίες που τροφοδοτουν τη βάση
δεδομένων των Μηχανών Αναζήτησης προέρχονται από τον Παγκόσμιο Ιστό. Ένα
τρέχων ζητούμενο στο πεδίο έρευνας των Μηχανών Αναζήτησης είναι η ανάπτυξη
λογισμικού με σκοπό να δίνει την δυνατότητα στον χρήστη να δεικτοδοτεί
προσωπικά έγγραφα έτσι ώστε παράλληλα να μπορεί να κάνει αναζητήσεις για
εύρεση πληροφοριών και σε έγγραφα που προέρχονται από τον Παγκόσμιο Ιστό
αλλά και σε προσωπικά του έγγραφα όλα δεικτοδοτημένα σε μία βάση. Αυτό είναι
και το κύριο πρόβλημα που επιλύουμε στην παρούσα εργασία.
Με την δυνατότητα αυτήν ουσιαστικά ενοποιείται η διαδικασία της
αναζήτησης πληροφοριών στις δυο διαφορετικές πηγές πληροφοριών, τα έγγραφα
του Παγκόσμιου Ιστού και τα προσωπικά έγγραφα του χρήστη. / -
|
2 |
Δημιουργία μηχανής αναζήτησης προσώπων στο social webΚαλόγηρος, Γεώργιος 07 April 2011 (has links)
Στην εργασία αυτή υλοποιήθηκε μια μηχανή αναζήτησης προσώπων στο Social web. Η αναζήτηση γίνεται σε ιστοσελίδες κοινωνικής δικτύωσης όπως το Twitter, το Myspace, και το Flickr με βάση το όνομα του χρήστη ή το ονοματεπώνυμό του. Η αναζήτηση αυτή επεκτείνεται και σε ιστολόγια που βρίσκονται στον παγκόσμιο ιστό. Ύστερα βρίσκουμε σε ποιες από τις παραπάνω ιστοσελίδες έχει λογαριασμό το προς αναζήτηση άτομο και παραθέτουμε τη διεύθυνση του προφίλ του. Εάν του ανήκει κάποιο ιστολόγιο ή συμμετέχει σε κάποιο άλλο, αποθηκεύουμε στη βάση δεδομένων τα Feeds τα οποία έχει δημιουργήσει. Με τον ίδιο τρόπο ενεργούμε εάν το συγκεκριμένο άτομο έχει λογαριασμό στην ιστοσελίδα Twitter. / In this work we materialized a search engine of persons in social web. The search involves web pages on social networking such as Twitter, Myspace and Flickr, using as a base the username or his full name. This search also extends in blogs that are to be found in the WWW. Then, we store the feeds we mine from the users' accounts.
|
3 |
Αλγόριθμοι και τεχνικές εξατομικευμένης αναζήτησης σε διαδικτυακά περιβάλλοντα με χρήση υποκείμενων σημασιολογιώνΠλέγας, Ιωάννης 06 December 2013 (has links)
Η τεράστια ανάπτυξη του Παγκόσμιου Ιστού τις τελευταίες δεκαετίες έχει αναδείξει την αναζήτηση πληροφοριών ως ένα από τα πιο σημαντικά ζητήματα στον τομέα της έρευνας στις Τεχνολογίες της Πληροφορικής.
Σήμερα, οι σύγχρονες μηχανές αναζήτησης απαντούν αρκετά ικανοποιητικά στα ερωτήματα των χρηστών, αλλά τα κορυφαία αποτελέσματα που επιστρέφονται δεν είναι πάντα σχετικά με τα δεδομένα που αναζητά ο χρήστης. Ως εκ τούτου, οι μηχανές αναζήτησης καταβάλλουν σημαντικές προσπάθειες για να κατατάξουν τα πιο σχετικά αποτελέσματα του ερωτήματος ως προς τον χρήστη στα κορυφαία αποτελέσματα της λίστας κατάταξης των αποτελεσμάτων. Η διατριβή αυτή ασχολείται κυρίως με το παραπάνω πρόβλημα, δηλαδή την κατάταξη στις υψηλότερες θέσεις των πιο σχετικών αποτελεσμάτων ως προς τον χρήστη (ειδικά για ερωτήματα που οι όροι τους έχουν πολλαπλές σημασίες).
Στο πλαίσιο της παρούσας έρευνας κατασκευάστηκαν αλγόριθμοι και τεχνικές που βασίζονται στην τεχνική της σχετικής ανατροφοδότησης (relevance feedback) για την βελτίωση των αποτελεσμάτων που επιστρέφονται από μια μηχανή αναζήτησης. Βασική πηγή της ανατροφοδότησης ήταν τα αποτελέσματα που επιλέγουν οι χρήστες κατά την διαδικασία πλοήγησης. Ο χρήστης επεκτείνει την αρχική πληροφορία αναζήτησης (λέξεις κλειδιά) με νέα πληροφορία που προέρχεται από τα αποτελέσματα που διαλέγει. Έχοντας ένα νέο σύνολο πληροφορίας που αφορά τις προτιμήσεις του χρήστη, συγκρίνεται η σημασιολογική πληροφορία του συνόλου αυτού με τα υπόλοιπα αποτελέσματα (αυτά που επιστράφηκαν πριν επιλέξει το συγκεκριμένο αποτέλεσμα) και μεταβάλλεται η σειρά των αποτελεσμάτων προωθώντας και προτείνοντας τα αποτελέσματα που είναι πιο σχετικά με το νέο σύνολο πληροφορίας.
Ένα άλλο πρόβλημα που πρέπει να αντιμετωπιστεί κατά την υποβολή ερωτημάτων από τους χρήστες σε μια μηχανή αναζήτησης είναι ότι τα ερωτήματα που υποβάλλονται στις μηχανές αναζήτησης είναι συνήθως μικρά σε αριθμό λέξεων και αμφίσημα. Συνεπώς, πρέπει να υπάρχουν τρόποι αποσαφήνισης των διαφορετικών εννοιών των όρων αναζήτησης και εύρεσης της έννοιας που ενδιαφέρει τον χρήστη. Η αποσαφήνιση των όρων αναζήτησης είναι μια διαδικασία που έχει μελετηθεί στην βιβλιογραφία με αρκετούς διαφορετικούς τρόπους. Στην διατριβή μου προτείνω νέες στρατηγικές αποσαφήνισης των εννοιών των όρων αναζήτησης των μηχανών αναζήτησης και εξερευνάται η αποδοτικότητά τους στις μηχανές αναζήτησης. Η καινοτομία τους έγκειται στη χρήση του Page-Rank σαν ενδείκτη της σημαντικότητας μιας έννοιας για έναν όρο του ερωτήματος.
Επίσης είναι ευρέως γνωστό ότι ο Παγκόσμιος Ιστός περιέχει έγγραφα με την ίδια πληροφορία και έγγραφα με σχεδόν ίδια πληροφορία. Παρά τις προσπάθειες των μηχανών αναζήτησης με αλγόριθμους εύρεσης των κειμένων που περιέχουν επικαλυπτόμενη πληροφορία, ακόμα υπάρχουν περιπτώσεις που τα κείμενα που ανακτώνται από μια μηχανή αναζήτησης περιέχουν επαναλαμβανόμενη πληροφορία. Στην διατριβή αυτή παρουσιάζονται αποδοτικές τεχνικές εύρεσης και περικοπής της επικαλυπτόμενης πληροφορίας από τα αποτελέσματα των μηχανών αναζήτησης χρησιμοποιώντας τις σημασιολογικές πληροφορίες των αποτελεσμάτων των μηχανών αναζήτησης. Συγκεκριμένα αναγνωρίζονται τα αποτελέσματα που περιέχουν την ίδια πληροφορία και απομακρύνονται, ενώ ταυτόχρονα τα αποτελέσματα που περιέχουν επικαλυπτόμενη πληροφορία συγχωνεύονται σε νέα κείμενα(SuperTexts) που περιέχουν την πληροφορία των αρχικών αποτελεσμάτων χωρίς να υπάρχει επαναλαμβανόμενη πληροφορία.
Ένας άλλος τρόπος βελτίωσης της αναζήτησης είναι ο σχολιασμός των κειμένων αναζήτησης έτσι ώστε να περιγράφεται καλύτερα η πληροφορία τους. Ο σχολιασμός κειμένων(text annotation) είναι μια τεχνική η οποία αντιστοιχίζει στις λέξεις του κειμένου επιπλέον πληροφορίες όπως η έννοια που αντιστοιχίζεται σε κάθε λέξη με βάση το εννοιολογικό περιεχόμενο του κειμένου. Η προσθήκη επιπλέον σημασιολογικών πληροφοριών σε ένα κείμενο βοηθάει τις μηχανές αναζήτησης να αναζητήσουν καλύτερα τις πληροφορίες που ενδιαφέρουν τους χρήστες και τους χρήστες να βρουν πιο εύκολα τις πληροφορίες που αναζητούν. Στην διατριβή αυτή αναλύονται αποδοτικές τεχνικές αυτόματου σχολιασμού κειμένων από τις οντότητες που περιέχονται στην Wikipedia, μια διαδικασία που αναφέρεται στην βιβλιογραφία ως Wikification. Με τον τρόπο αυτό οι χρήστες μπορούν να εξερευνήσουν επιπλέον πληροφορίες για τις οντότητες που περιέχονται στο κείμενο που τους επιστρέφεται.
Ένα άλλο τμήμα της διατριβής αυτής προσπαθεί να εκμεταλλευτεί την σημασιολογία των αποτελεσμάτων των μηχανών αναζήτησης χρησιμοποιώντας εργαλεία του Σημασιολογικού Ιστού. Ο στόχος του Σημασιολογικού Ιστού (Semantic Web) είναι να κάνει τους πόρους του Ιστού κατανοητούς και στους ανθρώπους και στις μηχανές. Ο Σημασιολογικός Ιστός στα πρώτα βήματά του λειτουργούσε σαν μια αναλυτική περιγραφή του σώματος των έγγραφων του Ιστού. Η ανάπτυξη εργαλείων για την αναζήτηση σε Σημασιολογικό Ιστό είναι ακόμα σε πρώιμο στάδιο. Οι σημερινές τεχνικές αναζήτησης δεν έχουν προσαρμοστεί στην δεικτοδότηση και στην ανάκτηση σημασιολογικής πληροφορίας εκτός από μερικές εξαιρέσεις. Στην έρευνά μας έχουν δημιουργηθεί αποδοτικές τεχνικές και εργαλεία χρήσης του Παγκόσμιου Ιστού. Συγκεκριμένα έχει κατασκευαστεί αλγόριθμος μετατροπής ενός κειμένου σε οντολογία ενσωματώνοντας την σημασιολογική και συντακτική του πληροφορία έτσι ώστε να επιστρέφονται στους χρήστες απαντήσεις σε ερωτήσεις φυσικής γλώσσας.
Επίσης στην διατριβή αυτή αναλύονται τεχνικές φιλτραρίσματος XML εγγράφων χρησιμοποιώντας σημασιολογικές πληροφορίες. Συγκεκριμένα παρουσιάζεται ένα αποδοτικό κατανεμημένο σύστημα σημασιολογικού φιλτραρίσματος XML εγγράφων που δίνει καλύτερα αποτελέσματα από τις υπάρχουσες προσεγγίσεις.
Τέλος, στα πλαίσια αυτής της διδακτορικής διατριβής γίνεται επιπλέον έρευνα για την βελτίωση της απόδοσης των μηχανών αναζήτησης από μια διαφορετική οπτική γωνία. Στην κατεύθυνση αυτή παρουσιάζονται τεχνικές περικοπής ανεστραμμένων λιστών ανεστραμμένων αρχείων. Επίσης επιτυγχάνεται ένας συνδυασμός των προτεινόμενων τεχνικών με υπάρχουσες τεχνικές συμπίεσης ανεστραμμένων αρχείων πράγμα που οδηγεί σε καλύτερα αποτελέσματα συμπίεσης από τα ήδη υπάρχοντα. / The tremendous growth of the Web in the recent decades has made the searching for information as one of the most important issues in research in Computer Technologies.
Today, modern search engines respond quite well to the user queries, but the results are not always relative to the data the user is looking for. Therefore, search engines are making significant efforts to rank the most relevant query results to the user in the top results of the ranking list. This work mainly deals with this problem, the ranking of the relevant results to the user in the top of the ranking list even when the queries contain multiple meanings. In the context of this research, algorithms and techniques were constructed based on the technique of relevance feedback which improves the results returned by a search engine. Main source of feedback are the results which the users selects during the navigation process. The user extends the original information (search keywords) with new information derived from the results that chooses. Having a new set of information concerning to the user's preferences, the relevancy of this information is compared with the other results (those returned before choosing this effect) and change the order of the results by promoting and suggesting the results that are more relevant to the new set of information.
Another problem that must be addressed when the users submit queries to the search engines is that the queries are usually small in number of words and ambiguous. Therefore, there must be ways to disambiguate the different concepts/senses and ways to find the concept/sense that interests the user. Disambiguation of the search terms is a process that has been studied in the literature in several different ways. This work proposes new strategies to disambiguate the senses/concepts of the search terms and explore their efficiency in search engines. Their innovation is the use of PageRank as an indicator of the importance of a sense/concept for a query term.
Another technique that exploits semantics in our work is the use of text annotation. The use of text annotation is a technique that assigns to the words of the text extra information such as the meaning assigned to each word based on the semantic content of the text. Assigning additional semantic information in a text helps users and search engines to seek or describe better the text information. In my thesis, techniques for improving the automatic annotation of small texts with entities from Wikipedia are presented, a process that referred in the literature as Wikification.
It is widely known that the Web contain documents with the same information and documents with almost identical information. Despite the efforts of the search engine’s algorithms to find the results that contain repeated information; there are still cases where the results retrieved by a search engine contain repeated information. In this work effective techniques are presented that find and cut the repeated information from the results of the search engines. Specifically, the results that contain the same information are removed, and the results that contain repeated information are merged into new texts (SuperTexts) that contain the information of the initial results without the repeated information.
Another part of this work tries to exploit the semantic information of search engine’s results using tools of the Semantic Web. The goal of the Semantic Web is to make the resources of the Web understandable to humans and machines. The Semantic Web in their first steps functioned as a detailed description of the body of the Web documents. The development of tools for querying Semantic Web is still in its infancy. The current search techniques are not adapted to the indexing and retrieval of semantic information with a few exceptions. In our research we have created efficient techniques and tools for using the Semantic Web. Specifically an algorithm was constructed that converts to ontology the search engine’s results integrating semantic and syntactic information in order to answer natural language questions.
Also this paper contains XML filtering techniques that use semantic information. Specifically, an efficient distributed system is proposed for the semantic filtering of XML documents that gives better results than the existing approaches.
Finally as part of this thesis is additional research that improves the performance of the search engines from a different angle. It is presented a technique for cutting the inverted lists of the inverted files. Specifically a combination of the proposed technique with existing compression techniques is achieved, leading to better compression results than the existing ones.
|
4 |
Ολοκληρωμένο διαδικτυακό σύστημα διαχείρισης και οργάνωσης δομημένων ηλεκτρονικών δημοσιευμάτωνΤσαρούχης, Αθανάσιος 16 June 2011 (has links)
Τα τελευταία χρόνια αυξάνεται διαρκώς ο όγκος και η ποικιλομορφία των εργασιών πραγματοποιούνται με τη χρήση του Διαδικτύου και των πηγών που είναι διαθέσιμες σε αυτό. Ιδιαίτερη σημασία δίνεται στην ικανοποίηση των αναγκών των κοινοτήτων χρηστών, των οποίων οι αριθμοί παρουσιάζουν εκρηκτική αύξηση. Ένα από τα σημαντικότερα είδη πηγών που ικανοποιούν τις ανάγκες των κοινοτήτων του Διαδικτύου είναι οι ψηφιακές βιβλιοθήκες. Οι ψηφιακές βιβλιοθήκες αποτελούν συλλογές από δομημένα ηλεκτρονικά δημοσιεύματα, οι οποίες προσφέρουν στην κοινότητα των χρηστών όπου απευθύνονται εξειδικευμένες υπηρεσίες, που αφορούν στο περιεχόμενο των εγγράφων που περιλαμβάνουν, εξασφαλίζοντας συγκεκριμένο επίπεδο ποιότητας σύμφωνα με κωδικοποιημένες πολιτικές.
Στα πλαίσια της παρούσας διπλωματικής εργασίας πραγματοποιήθηκε ο σχεδιασμός και η υλοποίηση ενός διαδικτυακού εργαλείου για την φορμαλιστική αποθήκευση, παρουσίαση και διαχείριση των δομημένων ηλεκτρονικών δημοσιευμάτων μιας ψηφιακής βιβλιοθήκης. Κατά το σχεδιασμό των υπηρεσιών που παρέχονται μελετήθηκε η δυνατότητα ενσωμάτωσης τεχνικών επεξεργασίας φυσικής γλώσσας, με στόχο την αποτίμηση της συνεισφοράς και της απόδοσης τέτοιων τεχνικών στην αποθήκευση και ανάκτηση δομημένων ηλεκτρονικών δημοσιευμάτων γραμμένα στη Νέα Ελληνική, μια γλώσσα με ιδιαίτερη μορφολογία. / Over the past years the amounts of tasks that are being carried out the web as well as the size of the web data demonstrate a signature growth. The major challenge associated with exploiting this data is how to satisfy the user’s needs into fulfilling tasks. One significant source of web data is scientific digital libraries, which contain structured information sources of research documents and which offer end users specialized search services that ensure good retrieved quality.
In the course of the present study we designed and implemented a web-based data retrieval service that incorporates novel indexing and information modules specialized for the core of Modern Greek. The novelty of our service is that relies on advanced NLP applications in order to improve retrieval performance. The experimental evaluation of our Modern Greek Service reveals that NLP significantly improves retrieval performance compared to baseline information retrieval systems.
|
5 |
Τεχνικές εξατομικευμένης αναζήτησης στον παγκόσμιο ιστό / Techniques of personalized search in world wide webΠλέγας, Ιωάννης 18 April 2008 (has links)
Στη διπλωματική μας παραθέτουμε ένα μεγάλο κομμάτι βιβλιογραφίας σχετικής με Τεχνικές Εξατομικευμένης Αναζήτησης στον Παγκόσμιο Ιστό. Επίσης περιγράφονται αναλυτικά οι εφαρμογές που κατασκευάστηκαν στην διπλωματική μας και οι τεχνολογίες που χρησιμοποιήθηκαν για την υλοποίησή τους. Συγκεκριμένα κατασκευάστηκε ένα σύστημα εξατομίκευσης, το οποίο καταγράφει την συμπεριφορά ενός χρήστη και στην συνέχεια του δίνει την δυνατότητα να εξατομικεύσει τα αποτελέσματα μιας μηχανής αναζήτησης(Google) με βάση την προηγούμενη συμπεριφορά του. Υλοποιήθηκαν τρεις διαφορετικοί αλγόριθμοι(ένας αλγόριθμος που βασίζεται στις ακμές του γράφου, ένας αλγόριθμος πρόσθεσης εικονικών κόμβων και ένας εκτεταμένος αλγόριθμος πρόσθεσης εικονικών κόμβων), οι οποίοι με βάση την προηγούμενη συμπεριφορά του χρήστη κατασκευάζουν ένα γράφημα συμπεριφοράς για αυτόν, το οποίο χρησιμοποιούν στη συνέχεια για να εξατομικεύσουν τα αποτελέσματα μιας ερώτησης. Οι αλγόριθμοι αυτοί καλούνται από το χρήστη μέσω του συστήματος εξατομίκευσης για μια ερώτηση και ταξινομούν τα αποτελέσματα της ερώτησης σύμφωνα με την νέα σειρά που υποδεικνύει το γράφημα συμπεριφοράς που έχει κατασκευαστεί για τον συγκεκριμένο χρήστη. Στη συνέχεια δίνονται αναλυτικά παραδείγματα λειτουργίας για κάθε αλγόριθμο, που αποδεικνύουν τους θεωρητικούς υπολογισμούς. Τέλος παρατίθενται βασικά κομμάτια του κώδικα που δημιουργήθηκε για την υλοποίηση του συστήματος εξατομίκευσης. / In our diplomatic we mention a big piece of bibliography relative with Techniques of Personalized Search in the World Wide Web. Also we describe analytically the applications that were manufactured in our diplomatic and the technologies that were used for their implementation. In particular, we construct a personalization system, which records the behaviour of user and then gives him the possibility of personalizing the results of a search engine (Google) with base his previous behaviour. They constructed three different algorithms(an algorithm that based on the edges of the graph, an algorithm that add virtual nodes and an extensive algorithm that add virtual nodes), which with base the previous behaviour of user construct a graph, which they use then in order to personalize the results of the query. These algorithms are called by the user via the personalization system for a query and they categorize the results of query according to the new order that indicates the graph of behaviour that has been constructed for the particular user. Then they are given analytic examples for each algorithm, which proves the theoretical calculations. Finally, they mentioned basic pieces of code that were created for the construction of the personalization system.
|
Page generated in 0.0349 seconds