1 |
Exploring mobile trajectories : an investigation of individual spatial behaviour and geographic filters for information retrievalMountain, David Michael January 2005 (has links)
No description available.
|
2 |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xmlΜπλέκας, Αλέξανδρος 11 September 2007 (has links)
Ο Παγκόσμιος Ιστός αποτελεί σήμερα το σημαντικότερο, ίσως, μέσο παγκοσμίως
για την εξεύρεση κάθε είδους πληροφορίας και οι δικτυακοί τόποι, των οποίων το
πλήθος αυξάνεται συνεχώς, δέχονται πολλές επισκέψεις χρηστών καθημερινά. Οι
διαχειριστές των δικτυακών τόπων, σε μία προσπάθεια να κατανοήσουν τις ανάγκες
και τις επιθυμίες των χρηστών, χρησιμοποιούν τα δεδομένα της πρόσβασης στους
δικτυακούς τόπους με την ελπίδα τα δεδομένα αυτά να τους βοηθήσουν να κάνουν
το δικτυακό τους τόπο πιο χρήσιμο και αποτελεσματικό για τους τελικούς χρήστες.
Τα δεδομένα της πρόσβασης στους δικτυακούς τόπους αποθηκεύονται στους
εξυπηρετητές ιστού με τη μορφή αρχείων καταγραφής πρόσβασης (web access
logs). Τα αρχεία αυτά, είναι αρχεία κειμένου τα οποία δημιουργούνται βάσει μίας
αυτοματοποιημένης διαδικασίας και παρουσιάζουν σειριακά πληροφορίες για κάθε
αίτημα το οποίο πραγματοποιείται από έναν χρήστη προς τον εξυπηρετητή ιστού.
Κάθε ένα από τα καταγεγραμμένα αιτήματα αναπαριστάται στο αρχείο καταγραφής
πρόσβασης ως μία γραμμή κειμένου που περιλαμβάνει πολλές ετερογενείς
πληροφορίες αναφορικά με το ίδιο το αίτημα, το χρήστη που το πραγματοποίησε
και τη σελίδα ή το αρχείο του διαδικτυακού τόπου για την οποία πραγματοποιήθηκε
το αίτημα.
Το μειονέκτημα των αρχείων καταγραφής πρόσβασης είναι το γεγονός ότι
αποτελούνται από δομημένη αλλά δυστυχώς πολύ δυσανάγνωστη πληροφορία. Για
το λόγο αυτό έχουν αναπτυχθεί πολλά εμπορικά εργαλεία διαχείρισης της
πληροφορίας αυτής. Στα πλαίσια της παρούσας εργασίας, δημιουργήθηκε ένα τέτοιο
εργαλείο, το οποίο όμως έχει ως στόχο να εξάγει και να επεξεργάζεται μόνο τη
χρήσιμη πληροφορία που περιέχεται στα αρχεία καταγραφής πρόσβασης. Με τον
τρόπο αυτό, ο διαχειριστής ενός δικτυακού τόπου μπορεί να έχει στη διάθεσή του
ουσιαστικά χρήσιμα στοιχεία αναφορικά με την πρόσβαση στο δικτυακό του τόπο
τα οποία μπορούν να τον βοηθήσουν να σχεδιάσει το δικτυακό τόπο με μεγαλύτερη
αποτελεσματικότητα, δίνοντας έμφαση στις πραγματικές ανάγκες και απαιτήσεις των
χρηστών.
Στην προσέγγιση που παρουσιάζεται στην εργασία αυτή, δίδεται επίσης βαρύτητα
στην αποθήκευση και τη διαχείριση της χρήσιμης, πλέον, πληροφορίας που
προκύπτει από τα αρχεία καταγραφής πρόσβασης. Σε αυτό τον τομέα,
δημιουργήθηκε μία καινούρια γλώσσα περιγραφής των αρχείων αυτών, βασισμένη σε
XML. Σήμερα, η γλώσσα XML τείνει να αποτελέσει ένα όσο το δυνατόν πιο
καθολικό πρότυπο αποθήκευσης δεδομένων, λόγω της καλά δομημένης φύσης της
και την ανεξαρτησίας της από υπολογιστικές πλατφόρμες. Η νέα γλώσσα, λόγω της
XML φύσης της, ορίζει με ακρίβεια και πληρότητα τα στοιχεία που αποτελούν τη
χρήσιμη πληροφορία των αρχείων καταγραφής πρόσβασης.
Η νέα αυτή γλώσσα έχει ορισμένα πλεονεκτήματα που την καθιστούν πρακτική και
συνάμα λειτουργική. Η σύνταξή της και η δομή της βασίζεται στην XML, γεγονός
που της επιτρέπει να μεταφέρει τα δεδομένα της σε οποιοδήποτε υπολογιστικό
περιβάλλον και έτσι αυτά να μπορούν να τύχουν περαιτέρω επεξεργασίας. Ένα
ακόμη σημαντικό πλεονέκτημά της, είναι η εξοικονόμηση χώρου που
πραγματοποιεί. Τα αρχεία καταγραφής πρόσβασης είναι από τη φύση τους μεγάλα
σε όγκο και με την εξαγωγή της χρήσιμης πληροφορίας τους, τα αρχεία της νέας
γλώσσας μπορούν να αποθηκεύουν την πληροφορία σε πιο ευανάγνωστη και εύκολα
διαχειρίσιμη μορφή, καταλαμβάνοντας παράλληλα πολύ λιγότερο χώρο.
Η νέα γλώσσα περιγραφής αρχείων καταγραφής πρόσβασης μπορεί με ευκολία να
παραστήσει οπτικά τη χρήσιμη πληροφορία σε ποικίλες μορφές και τα αρχεία της
έχουν τη δυνατότητα να συνδυάζονται απλά και αποτελεσματικά ώστε να υπάρχει
δυνατότητα συγκέντρωσης ενοποιημένης πληροφορίας που να αφορά μεγάλες
χρονικές περιόδους. Το στοιχείο αυτό δε συναντάται συνήθως στα υπάρχοντα
εργαλεία ανάλυσης αρχείων καταγραφής πρόσβασης, τα οποία εξάγουν κατά κύριο
λόγο στατικές και καθόλου ευέλικτες μορφές αποτελεσμάτων, αποτελώντας ένα
σημαντικό πλεονέκτημα της νέας γλώσσας, καθώς από την ενοποιημένη πληροφορία
μπορούν να εξαχθούν ακόμη πιο χρήσιμα και ρεαλιστικά συμπεράσματα για την
κίνηση και τη χρήση του δικτυακού τόπου.
Στην εργασία αυτή, μελετάται η πληροφορία που περιέχεται στα αρχεία καταγραφής
πρόσβασης σε δικτυακούς τόπους, ερευνάται το πεδίο εξαγωγής και επεξεργασίας
της χρήσιμης πληροφορίας από αυτά και παρουσιάζεται αναλυτικά η νέα γλώσσα, η
οποία περιγράφει τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους, με
στόχο την καλύτερη δόμηση και διαχείριση της πληροφορίας που περιέχουν.
Παράλληλα, παρουσιάζεται ένα ολοκληρωμένο σύστημα ανάλυσης και επεξεργασίας
αρχείων καταγραφής πρόσβασης σε δικτυακούς τόπους, το οποίο εξάγει τη χρήσιμη
πληροφορία και τη μετατρέπει σε αρχεία της νέας γλώσσας, ενώ την ίδια στιγμή
προσφέρει έναν αριθμό επιπλέον λειτουργιών όπως ο συνδυασμός αρχείων της νέας
γλώσσας, η παραγωγή αρχείων με οπτικές μορφές των αποτελεσμάτων και ο έλεγχος
της εγκυρότητας των αρχείων. Το σύστημα αυτό, εκμεταλλεύεται πλήρως τα
πλεονεκτήματα της νέας γλώσσας και έχει ως στόχο τη διευκόλυνση κάθε
διαχειριστή στην προσπάθειά του να βελτιώσει τη δομή και την αποτελεσματικότητα
του δικτυακού του τόπου. / The World Wide Web is probably the most important mean for retrieving all
kinds of information nowadays and a large number of users visit the web sites
every day. The web sites’ number increases rapidly and the web sites’
administrators are trying to understand what the users really need and desire. In
order to achieve this, the administrators use the access data of their web sites,
hoping that this data will help them make the web sites more useful and effective
for the final users.
The web sites’ access data is stored in the web servers in the form of documents
that are called Web Access Logs. These logs are text documents, created by an
automated process, which hold information about each request made from a user
towards the web server, in a serial manner. Each recorded request is represented
as a line of text including many heterogeneous kinds of information about the
request itself, the user that made it and the page or file of the web site that was
requested.
Although the information held in the web access logs is structured, their main
drawback is that this information is not easily readable by humans. Hence, there
are many commercial tools that can analyze the web access logs’ information.
This thesis includes the development of such a tool, which aims to extract and
process only the useful information contained in the web access logs. This
approach provides the web sites’ administrators with the ability to obtain truly
useful data concerning the access to their web site. This kind of data is considered
efficient for designing web sites in a more effective way, focusing on the true
users’ needs and demands.
This thesis presents a new approach on the web access log analysis issue, which
basically focuses on the storing and management of the useful information that
comes out of the web access logs. This led to the creation of a new, XML-based,
language for the description of web access logs. Nowadays, XML tends to
become a universal standard for storing information because of its well structured
nature and its independency of computational platforms. The new language, due
to its XML nature, specifies the elements that comprise the web access logs’
useful information in a strict and thorough manner.
This new language has a number of advantages that make it a practical and
functional language. The new language’s syntax and structure are based on XML
allowing it to transfer its data towards any computational environment, where the
data can be further processed. Another noticable advantage is the storage space
that can be saved by using the new language. The web access logs are rather big
files and the extraction of the useful information which they contain allows the
new language’s files to store the access information in a more easily readable and
manageable form, while occupying much less storage space.
The new language for the description of web access logs may easily present the
useful information of the logs in a variety of visual manners and the new
language’s files have the ability to be combined easily and effectively. This last
feature allows the gathering of integrated information that concerns large periods
of time. It must be pointed out that this feature is not a common one among the
existing commercial log analysis tools which mainly create static and not flexible
reports. The easy and effective combination of the new language’s files
constitutes one of the most important advantages of the language as the
integrated information can lead to more useful and reliable inferences about the
traffic and the usage of the web site.
This thesis studies the useful information that is hidden inside the web access logs
and investigates the field of this information’s extraction and processing.
Furthermore, this thesis thoroughly presents the new language that describes the
web access logs in order to achieve a better structure and management of their
information. Moreover, a complete web access log analysis and processing system
is presented, which extracts the logs’ useful information and converts it into files
of the new language. The system provides a number of useful functions such as
the combination of the new language’s files, the creation of files that visually
present the information and the integration of a tool that validates those files.
The implemented system fully exploits the new language’s advantages and aims to
accommodate the administrators’ efforts for the improvement of their web sites’
structure and effectiveness.
|
3 |
Θεωρητική και πειραματική αξιολόγηση μεθόδων για ανάκτηση πληροφορίας στο ΔιαδίκτυοΚαλομοίρη, Παρασκευή 08 October 2007 (has links)
- / -
|
4 |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό / Algorithms and techniques for data mining over click streams on the webΤσιράκης, Νικόλαος 09 October 2007 (has links)
Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό την εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά. Οι μέθοδοι εξόρυξης δεδομένων παρουσιάζουν ιδιαίτερο ενδιαφέρον ειδικά στην περίπτωση όπου η πηγή των δεδομένων μας είναι οι ροές δεδομένων. Με τον όρο ροές δεδομένων εννοούμε προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων υπάρχουν σε μεγάλο όγκο, συνήθως δεν τελειώνουν, αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα. Αν λάβουμε υπ’όψιν το γεγονός πως ο όγκος πληροφορίας που είναι αποθηκευμένος στο διαδίκτυο είναι πολύ μεγάλος και διαρκώς αυξάνεται γεννάται η ανάγκη εφαρμογής μεθόδων εξόρυξης της πληροφορίας αυτής από ροές δεδομένων του παγκόσμιου ιστού. Ο τομέας αυτός (web mining) είναι αρκετά σύγχρονος και υπάρξουν αρκετές τεχνικές εφαρμογής του. Ειδικά στην κατηγορία τεχνικών γνωστές ως web usage mining techniques η διαχείριση των web click data streams καθώς και άλλων μορφών δεδομένων που έχουν να κάνουν με το χρήστη μπορεί να οδηγήσει στην δημιουργία τάσεων (trends) και προτύπων (patterns) για τη βελτίωση της ποιότητας των υπηρεσιών και των αναγκών του χρήστη.
Στα πλαίσια αυτής της διπλωµατικής εργασίας γίνεται αναφορά σε τεχνικές αποδοτικής επεξεργασίας και ανάλυσης εξόρυξης δεδομένων όταν η πηγή της πληροφορίας είναι ροές δεδομένων με σκοπό την συσταδοποίηση (clustering) και τον προσδιορισμό κατανομών ή προτύπων. Μελετάμε διάφορες εφαρμογές στον παγκόσμιο ιστό και με τη βοήθεια των τεχνικών αυτών διερευνούμε τεχνικές προσωποποίησης χρηστών (web mining for web personalization).
Κύριος στόχος της εργασίας είναι η μελέτη και η υλοποίηση ενός συστήματος ομαδοποίησης χρηστών και εξαγωγής συμπερασμάτων για αυτούς αλλά και για τα δεδομένα που είχαν πρόσβαση. Αναλυτικότερα γίνεται χρήση τεχνικών μίκρο (micro) και μάκρο (macro) συσταδοποίησης σε ροές δεδομένων και μετέπειτα χρήση προηγμένων δομών δεδομένων με απώτερο στόχο την αποδοτικότερη και πιο γρήγορη δημιουργία προφίλ χρηστών.
Στο πρώτο μέρος γίνεται μια εισαγωγή στον τομέα της εξόρυξης γνώσης με παρουσίαση εφαρμογών και αλγορίθμων που υπάρχουν μέχρι και σήμερα. Στην συνέχεια εστιάζουμε στην εξόρυξη γνώσης από τον παγκόσμιο ιστό παρουσιάζοντας τα στάδια της διαδικασίας αυτής και αναλύοντας εφαρμογές που χρησιμοποιούν τέτοιες τεχνικές. Πριν παρουσιαστεί σε βάθος η τεχνική της συσταδοποίησης δεδομένων γίνεται μια αναφορά στις ροές δεδομένων με τεχνικές, αλγορίθμους, κατηγορίες και συστήματα που έχουν ως τώρα μελετηθεί και υλοποιηθεί. Στο τέλος αυτού του μέρους παρουσιάζουμε αναλυτικά τη μέθοδο της συσταδοποίησης και ειδικά της συσταδοποίησης ροών δεδομένων.
Σε δεύτερο επίπεδο, γίνεται η παρουσίαση του υλοποιημένου συστήματος εξόρυξης γνώσης από τον παγκόσμιο ιστό. Ειδικότερα αναφέρονται τα βήματα και τα μέρη του συστήματος καθώς και διάφορες αναλύσεις και συμπεράσματα. Τέλος γίνεται μια αναφορά σε μελλοντικές επεκτάσεις και ερευνητικές κατευθύνσεις της εργασίας.
Το υλοποιημένο μοντέλο έχει παρουσιαστεί σαν αποδεκτή δημοσίευση στο International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. Επίσης βασίζεται σε μια προηγούμενη εργασία αναφορικά με ευχρηστία (usability) εφαρμογών και τεχνικές αξιολόγησης ευχρηστίας των συστημάτων, που παρουσιάστηκε στο Metainformatics Symposium 2005. Τέλος υπάρχει ακόμα μια εργασία πάνω στο δομικό υπολογισμό των Open Hypermedia Systems που παρουσιάστηκε στο Metainformatics Symposium 2004. / The world wide web has gradually transformed into large data repository consisting of vast amount of data in many different types. These data doubles about every year, but useful information seems to be decreasing. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and handles various types of data. When the related data are data streams the problems seem to be very crucial and interesting. Data streams are large volumes of data arriving continuously. Data mining techniques have been proposed and studied to help users better understand and analyze the information. Clustering and other mining techniques have grasped the interest of the data mining community. Clustering is a useful and ubiquitous tool in data analysis. In broad strokes, is the problem of finding a partition of a data set so that, under some definition of “similarity,” similar items are in the same part of the partition and different items are in different parts. With the rapid increase in web-traffic and e-commerce, understanding user behavior based on their interaction with a website is becoming more and more important for website owners and clustering in correlation with personalization techniques of this information space has become a necessity. The knowledge obtained by learning the users preferences can help improve web content, find usability issues related to this content and its structure, ensure the security of provided data, analyze the different groups of users that can be derived from the web access logs and extract patterns, profiles and trends.
In this thesis we introduce in data mining and then we mention techniques and algorithms related to web mining which is part of data mining area. We focus in web mining when the data are streams from the web (click stream data) and then we analyze the technique of clustering. The main purpose of this thesis is the presentation of a model that performs clustering in click stream data. The results from this procedure can show the differences between clusters and easily can be extracted trends and usability and security conclusions. The basic attribute of clustering data streams is one-pass algorithms. Current methods don’t address the following issues: a) the quality of clusters is poor when data evolves considerably over time. b) A data stream clustering algorithm requires much greater functionality in discovering and exploring clusters over different portions of the stream.
The developed model has been tested using data from web servers and has been presented as a paper in the International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. My thesis is also based on another paper of mine that argues about usability of systems and provide a technique for usability evaluation and has been presented in the Metainformatics Symposium 2005. Finally there is a paper that refers to Open Hypermedia Systems and structural computing and has been presented in Metainformatics Symposium 2004.
|
5 |
End-user interaction with thesaurus-enhanced search interfaces : an evaluation of search term selection for query expansionShiri, Ali Asghar January 2003 (has links)
A major challenge faced by end-users during the information search and retrieval process is the selection of search terms for query formulation and expansion. Thesauri are recognised as one source of search terms with the potential to assist users in the process of term selection. Research in search term selection, query expansion and interface evaluation has stressed the importance of providing end-users with terminological assistance. As the number of thesauri attached to information retrieval systems has grown, a range of interface facilities and features have been developed to aid users in formulating their queries. This study investigated end-user interaction with a thesaurus-enhanced search interface to evaluate their search term selection and query expansion behaviour. The main objectives of this study were: to evaluate how and to what extent a thesaurus-enhanced search interface assisted end-users in selecting search terms for query expansion, to ascertain users' attitude toward both the thesaurus and interface as tools for facilitating search term selection, and to identify searching and browsing behaviours of users interacting with a thesaurus-enhanced interface. The test environment involved the Ovid CAB Abstracts database, the CAB thesaurus, and 30 academic staff and postgraduate students with genuine search requests. The data gathering tools employed were pre-search questionnaires, screen capturing software, post-search questionnaires, and post-session interviews. The results demonstrated different patterns of thesaurus-based search term selection by academic staff and postgraduates. Academic staff with more extensive domain knowledge tended to select narrower terms whereas postgraduates more often chose related and broader terms. In general, all users selected a larger number of narrower and related terms for expanding their queries. The effect of topic characteristics such as topic complexity and topic familiarity on search behaviour was also investigated. It was shown that complex topics affected users' cognitive and physical moves, number of search terms selected and query expansion instances. Topic familiarity was also found to have an effect on users' browsing behaviour. An evaluation of users' perceptions of the interface indicated that usability was a factor affecting thesaurus browsing and navigating behaviour. This study was constrained by the limitations of the IR system utilised, the experimental design and the choice of subjects. However, this study can be viewed as the first investigation of variables such as topic complexity and topic familiarity within a thesaurus-enhanced search environment. The findings of this study contribute to research in the areas of user-centred search term selection, thesaurus-assisted query expansion and the evaluation of user interaction with IR search interfaces.
|
6 |
Efficient indexing structures for similarity search in content-based information retrievalWang, Ben January 2007 (has links)
No description available.
|
7 |
The development of a model of information seeking behaviour of students in higher education when using internet search enginesMartzoukou, Konstantina January 2006 (has links)
This thesis develops a model of Web information seeking behaviour of postgraduate students with a specific focus on Web search engines' use. It extends Marchionini's eight stage model of information seeking, geared towards electronic environments, to holistically encompass the physical, cognitive, affective and social dimensions of Web users' behaviour. The study recognises the uniqueness of the Web environment as a vehicle for information dissemination and retrieval, drawing on the distinction between information searching and information seeking and emphasises the importance of following user-centred holistic approaches to study information seeking behaviour. It reviews the research in the field and demonstrates that there is no comprehensive model that explains the behaviour of Web users when employing search engines for information retrieval. The methods followed to develop the study are explained with a detailed analysis of the four dimensions of information seeking (physical, cognitive affective, social). Emphasis is placed on the significance of combined methods (qualitative and quantitative) and the ways in which they can enrich the examination of human behaviour. This is concluded with a discussion of methodological issues. The study is supported by an empirical investigation, which examines the relationship between interactive information retrieval using Web search engines and human information seeking processes. This investigates the influence of cognitive elements (such as learning and problem style, and creative ability) and affective characteristics (e. g. confidence, loyalty, familiarity, ease of use), as well as the role that system experience, domain knowledge and demographics play in information seeking behaviour and in user overall satisfaction with the retrieval result. The influence of these factors is analysed by identifying users' patterns of behaviour and tactics, adopted to solve specific problems. The findings of the empirical study are incorporated into an enriched information-seeking model, encompassing use of search engines, which reveals a complex interplay between physical, cognitive, affective and social elements and that none of these characteristics can be seen in isolation when attempting to explain the complex phenomenon of information seeking behaviour. Although the model is presented in a linear fashion the dynamic, reiterative and circular character of the information seeking process is explained through an emphasis on transition patterns between the different stages. The research concludes with a discussion of problems encountered by Web information seekers which provides detailed analysis of the reasons why users express satisfaction or dissatisfaction with the results of Web searching, areas in which Web search engines can be improved and issues related to the need for students to be given additional training and support are identified. These include planning and organising information, recognising different dimensions of information intents and needs, emphasising the importance of variety in Web information seeking, promoting effective formulation of queries and ranking, reducing overload of information and assisting effective selection of Web sites and critical examination of results.
|
8 |
A dialectical model of information retrieval : exploring a contradiction in termsThornley, Clare Victoria January 2005 (has links)
No description available.
|
9 |
Knowledge management in innovation teams : a case study of an IT development institute in TaiwanWang, Jaw-Kai January 2006 (has links)
No description available.
|
10 |
Αλγόριθμοι και εργαλεία προεπεξεργασίας και ανάκτησης πληροφορίας συλλογών κειμένου / Algorithms and tools for text preprocessing and information retrievalΖεϊμπέκης, Δημήτριος 16 May 2007 (has links)
Στην παρούσα διπλωματική εργασία παρουσιάζονται μέθοδοι και εργαλεία προεπεξεργασίας και ανάκτησης πληροφορίας συλλογών κειμένου. Το σύνολο των μεθόδων αυτών στηρίζονται στο μοντέλο Διανυσματικού Χώρου και χρησιμοποιούν στον πυρήνα τους αλγορίθμους από την περιοχή της Υπολογιστικής Γραμμικής Άλγεβρας. Πιο συγκεκριμένα, στην παρούσα εργασία παρουσιάζεται αρχικά το εργαλείο λογισμικού Text to Matrix Generator (TMG), για την κατασκευή μητρώων όρων-κειμένων από συλλογές κειμένου, που είναι γραμμένο εξ / We consider algorithms and tools for text preprocessing and information retrieval. All these algorithms are based on the Vector Space Model and use as kernel Computational Linear Algebra algorithms. In particular, we present the text preprocessing software tool Text to Matrix Generator (TMG), that can be used for the construction of term-document matrices from text collections and is written entirely in MATLAB. TMG can be used for the application of a wide range of text preprocessing techniques, such as stopword removal and stemming. Furthermore, TMG can be used for the construction of query vectors using the collection
|
Page generated in 0.0269 seconds