1 |
Αλγόριθμοι και εργαλεία προεπεξεργασίας και ανάκτησης πληροφορίας συλλογών κειμένου / Algorithms and tools for text preprocessing and information retrievalΖεϊμπέκης, Δημήτριος 16 May 2007 (has links)
Στην παρούσα διπλωματική εργασία παρουσιάζονται μέθοδοι και εργαλεία προεπεξεργασίας και ανάκτησης πληροφορίας συλλογών κειμένου. Το σύνολο των μεθόδων αυτών στηρίζονται στο μοντέλο Διανυσματικού Χώρου και χρησιμοποιούν στον πυρήνα τους αλγορίθμους από την περιοχή της Υπολογιστικής Γραμμικής Άλγεβρας. Πιο συγκεκριμένα, στην παρούσα εργασία παρουσιάζεται αρχικά το εργαλείο λογισμικού Text to Matrix Generator (TMG), για την κατασκευή μητρώων όρων-κειμένων από συλλογές κειμένου, που είναι γραμμένο εξ / We consider algorithms and tools for text preprocessing and information retrieval. All these algorithms are based on the Vector Space Model and use as kernel Computational Linear Algebra algorithms. In particular, we present the text preprocessing software tool Text to Matrix Generator (TMG), that can be used for the construction of term-document matrices from text collections and is written entirely in MATLAB. TMG can be used for the application of a wide range of text preprocessing techniques, such as stopword removal and stemming. Furthermore, TMG can be used for the construction of query vectors using the collection
|
2 |
Διαδραστική εξατομίκευση ιστοσελίδων / Adaptive site customizationΤζέκου, Παρασκευή 14 November 2007 (has links)
Η εκρηκτική αύξηση του μεγέθους των δεδομένων που είναι διαθέσιμα στο Δίκτυο καθώς και η ποικιλία των εργασιών οι οποίες μπορούν να πραγματοποιηθούν μέσω του Δικτύου έχουν αυξήσει σημαντικά την νομισματική αξία της κίνησης στο Δίκτυο. Για να κερδίσουν από αυτή την αναπτυσσόμενη αγορά, οι διαχειριστές ιστοσελίδων προσπαθούν να αυξήσουν την κίνηση χρηστών στην ιστοσελίδα τους, διαμορφώνοντάς τη κατάλληλα έτσι ώστε να ικανοποιεί τις ανάγκες συγκεκριμένων χρηστών. Η διαμόρφωση και η παραμετροποίηση των ιστοσελίδων παρουσιάζει δύο μεγάλες προκλήσεις: την αποτελεσματική αναγνώριση των ενδιαφερόντων κάθε χρήστη και την ενσωμάτωση των ενδιαφερόντων του στην παρουσίαση και στο περιεχόμενο της ιστοσελίδας. Σε αυτή την εργασία μελετάται ο τρόπος με τον οποίο μπορούμε να αναγνωρίσουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη χρησιμοποιώντας τα μοτίβα πλοήγησης και παρουσιάζεται ένας καινοτόμος μηχανισμός προτάσεων ο οποίος εφαρμόζει τεχνικές εξόρυξης στο Δίκτυο για να πραγματοποιήσει τη συσχέτιση μεταξύ των ενδιαφερόντων του χρήστη και του περιεχομένου και της δομής της ιστοσελίδας. Στόχος της τεχνικής που παρουσιάζεται είναι να παραμετροποιηθεί η σελίδα για κάθε συγκεκριμένο χρήστη με βάση τα ενδιαφέροντά του. Η πειραματική αξιολόγηση αποδεικνύει ότι είναι δυνατόν να συμπεράνουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη από την συμπεριφορά του κατά την πλοήγηση και ότι ο μηχανισμός προτάσεων, ο οποίος χρησιμοποιεί τα συμπεράσματα για τα ενδιαφέροντα του χρήστη, έχει σαν αποτέλεσμα σημαντικές βελτιώσεις στη λειτουργικότητα μιας ιστοσελίδας. / The explosive growth of online data and the diversity of goals that may be pursued over the web have significantly increased the monetary value of the web traffic. To tap into this accelerating market, web site operators try to increase their traffic by customizing their sites to the needs of specific users. Web site customization involves two great challenges: the effective identification of the user interests and the encapsulation of those interests into the sites’ presentation and content. In this paper, we study how we can effectively detect the user interests that are hidden behind navigational patterns and we introduce a novel recommendation mechanism that employs web mining techniques for correlating the identified interests to the sites’ semantic content, in order to customize them to specific users. Our experimental evaluation shows that the user interests can be accurately detected from their navigational behavior and that our recommendation mechanism, which uses the identified interests, yields significant improvements in the sites’ usability.
|
3 |
Νέες τεχνικές αξιολόγησης ανάκτησης πληροφορίας / New techniques in evaluating information retrievalΕυαγγελόπουλος, Ξενοφών 27 May 2015 (has links)
Η Ανάκτηση πληροφορίας αποτελεί μια αρκετά σημαντική επιστημονική περιοχή της επιστήμης των υπολογιστών που αποσκοπεί στην συγκέντρωση τεράστιων ποσών αδόμητης πληροφορίας (συνήθως κείμενο) απο μεγάλες συλλογές κειμένων, σύμφωνα με μια πληροφοριακή ανάγκη ενός χρήστη. Τα τελευταία χρόνια, ενα βασικό κομμάτι της ανάκτησης πληροφορίας επικεντρώνεται στην αξιολόγηση της διαδικασίας ανάκτησης αυτής καθ'αυτής. Έτσι, τα τελευταία χρόνια έχουν αναπτυχθεί αρκετές μετρικές αξιολόγησης, αλλά και μοντέλα χρηστών που προσπαθούν να αξιολογήσουν και να μοντελοποιήσουν, όσο το δυνατόν καλύτερα την συμπεριφορά ενός χρήστη κατα την διάρκεια της αναζήτησης.
Σε αυτήν την διπλωματική εργασία προτείνουμε μια νέα μετρική αξιολόγησης για την ανάκτηση πληροφοριών, η οποία αποσκοπεί στην καλύτερη δυνατή αξιολόγηση απο την πλευρά της συμπεριφοράς του χρήστη. Μια συνηθισμένη μέθοδος για τον προσδιορισμό της σχετικότητας ενός κειμένου, είναι η χρήση αξιολογήσων απο ειδικούς, οι οποίοι είναι εκπαιδευμένοι στον να διακρίνουν εάν ενα κείμενο είναι σχετικό με βάση κάποιο ερώτημα. Ωστόσο, οι αξιολογήσεις αυτές δεν αντανακλούν πάντοτε τις απόψεις όλων των χρηστών, παρα μόνο μιας μερίδας αυτών. Η δική μας μετρική, εισάγη μια νέα έννοια, αυτήν της "δημοφιλίας" για ένα κείμενο/ιστοσελίδα, η οποία μπορεί να θεωρηθεί ως η άποψη κάθε χρήστη για μια ιστοσελίδα. Έτσι, εισάγoντας εναν γραμμικό συνδυασμό απο αξιολογήσεις ειδικών , αλλά και "απόψεις δημοφιλίας" απο τους χρήστες, οδηγούμαστε σε μια μετρική η οποία εξηγεί καλύτερα την συμπεριφορά του χρήστη.
Επιπλέον, παρουσιάζουμε ενα καινούργιο μοντέλο προσομοίωσης της αναζήτησης χρηστών, το οποίο αποσκοπεί στον προσδιοριμό της σχετικότητας ενός κειμένου μελετώντας δεδομένα που αφήνει ο χρήστης κατα την αναζήτηση. Το συγκεκριμένο μοντέλο βασίζεται στην θεωρία των δυναμικών δικτύων Bayes και χρησιμοποιεί την έννοια της δημοφιλίας για να πετύχει καλύτερη εκτίμηση της πραγματικής σχετικότητας ενός κειμένου. / Information retrieval constitutes an important scientific area of the computer science, that focuses on the extraction of amounts of unstructured information (usually text from documents) from large collections (corpora, etc.) according to a special information need of a user. Over the last years, one major task of information retrieval research is the evaluation of the retrieval process. As a result, a vast amount of evaluation metrics and user models have been developed, trying to best model user's behaviour during the search.
In this thesis we propose a new evaluation metric which aims at the best evaluation of search process from the perspective of user's behaviour. A conventional approach when estimating the relevance of a document is by using relevance judgements from assessors that are responsible to assess whether a document is relevant according to a specific query. However, relevance judgements do not always reflect the opinion of every user, rather from a small proportion only. Our evaluation metric introduces a novel factor of relevance, document popularity which can be seen as user's vote for a document. Thus, by employing a linear combination of relevance judgements and popularity, we achieve a better explanation of user's behaviour.
Additionally, we present a novel click user model which by the best modelling of user's navigational behaviour, aims at the best estimation of the relevance of a document. This particular user model, is based on the dynamic Bayesian networks theory and employs the notion of popularity in order to better estimate actual document relevance, rather perceived relevance, that most other models do.
|
4 |
Συ-σχεδίαση υλικού/λογισμικού και υλοποίηση σε πλατφόρμα FPGA του πρωτοκόλλου ασφαλείας IPsec για το IPv6Γκίτσας, Γεώργιος 28 August 2014 (has links)
Τις τελευταίες δεκαετίες η ασφάλεια υπολογιστών και δικτύων έχει τραβήξει το ενδιαφέρον τόσο των ερευνητών όσο και της βιομηχανίας. Το ενδιαφέρον αυτό συνεχίζει να αυξάνεται με εκθετικό ρυθμό τα τελευταία χρόνια λόγω των συνεχώς αυξανόμενων επιθέσεων, της συνεχούς μεγέθυνσης των εταιρικών και κυβερνητικών δικτύων καθώς και την ολοένα αυξανόμενη χρήση και αξιοποίηση των υπολογιστικών συστημάτων σε κάθε πτυχή της ανθρώπινης δραστηριότητας.
Στο πολύ ενεργό αυτό πεδίο, προκύπτουν συνέχεια νέα προβλήματα και παρουσιάζονται συνεχώς νέες ιδέες για την επίλυσή τους. Μία από τις πιο υποσχόμενες είναι η σουίτα IPsec, η οποία προστατεύει την κίνηση των δικτύων στο επίπεδο IP της στοίβας πρωτοκόλλων του Internet, TCP/IP. Η εφαρμογή του έχει ήδη ξεκινήσει τα τελευταία χρόνια, σε μικρή κλίμακα, αλλά με την μετάβαση που προβλέπεται να γίνει από το IPv4 στο IPv6, η υλοποίηση του IPsec θα είναι υποχρεωτικό να υπάρχει σε κάθε δικτυακό σύστημα με την προοπτική της ενδυνάμωσης της ασφάλειας στο Internet.
Ακόμα, η ανάπτυξη υπολογιστικών συστημάτων ειδικών εφαρμογών έχει καταφύγει τα τελευταία χρόνια στην μορφή των ενσωματωμένων συστημάτων (embedded systems). Για την σχεδίαση και πιστοποίηση της ορθής λειτουργίας αυτών των συστημάτων είναι σύνηθες να χρησιμοποιούνται FPGA (Field Programmable Gated Array) chip ενώ η τελική μορφή του συστήματος είναι συνήθως υλοποιημένη σε ASIC (Application Specific Integrated Circuit) διότι δίνει τα πλεονεκτήματα μεγαλύτερης ταχύτητας και μικρότερης κατανάλωσης ενέργειας σε σχέση με τα FPGA.
Στην παρούσα διπλωματική εργασία σχεδιάστηκε το πρωτόκολλο IPsec ως ένα ενσωματωμένο σύστημα υλικού-λογισμικού και υλοποιήθηκε στην πλατφόρμα FPGA Virtex 5 της εταιρείας Xilinx. Το ενσωματωμένο σύστημα εμπεριέχει έναν επεξεργαστή Microblaze και επιταγχυντές υλικού (hardware accelerators). Η υλοποίηση έγινε με αποδοτική συσχεδίαση υλικού και λογισμικού ώστε να γίνεται αξιοποίηση των πλεονεκτημάτων και των δύο. Συγκεκριμένα, σε υλικό σχεδιάστηκαν οι, απαιτητικοί σε χρόνο, κρυπτογραφικοί πυρήνες του συστήματος, CBC-AES-128 και HMAC-SHA1-96, ενώ το υπόλοιπο τμήμα του IPsec σχεδιάστηκε σε λογισμικό. Για την σχεδίαση και υλοποίηση του ακολουθήθηκαν οι προδιαγραφές που δίνονται στα αντίστοιχα Data-Sheets και RFCs (Request For Comments) και έγινε προσπάθεια να υλοποιηθεί όσο το δυνατόν μεγαλύτερο μέρος αυτών και με όση το δυνατόν ακρίβεια. Τέλος, έγινε on-chip πιστοποίηση ορθής λειτουργίας του συστήματος στην αναπτυξιακή πλακέτα ML507 (Virtex-5) με σύνδεση της σε ένα δίκτυο υπολογιστών και κρυπτογράφηση/αποκρυπτογράφηση πραγματικών πακέτων δεδομένων. / Computer and network security have been of great interest within the research and the industrial community for the last decades. This interest still grows exponentially due to continually growing attacks in number and scale, the growth of corporative and government networks and the increasing use and trust of computer systems in every aspect of life.
Many new problems and many new ideas and solutions have occurred in this active field. One of the most promising is the IPsec protocol suite, which protects network traffic in the IP level of the internet protocol stack, TCP/IP. Its usage begun a few years ago, in small scale, but with the foreseeing transition from IPv4 to IPv6, it will be mandatory for every networking system to have an IPsec implementation, with the perspective of strengthening Internet security.
Moreover, development of application specific systems turned to embedded system solutions. For the development and verification process of embedded systems, it’s usual the usage of FPGA (Field Programmable Gate Array) chips, while the final form of the system is, in most cases, an ASIC (Application Specific Integrated Circuit) system because of the advantages in speed and low power consumption.
The current diploma thesis deals with the design and implementation of IPsec protocol suite in the form of a hardware-software embedded system, using the Virtex 5 FPGA platform, product of the company Xilinx. It uses a Microblaze processor and hardware accelerators. The system is designed with hardware/software co-design, utilizing efficiently their advantages. Specifically, the most time consuming cryptographic components, CBC-AES-128 and HMAC-SHA1-96, are implemented in hardware, while the rest of the IPsec is implemented in software. The implementation followed the corresponding Data-Sheets and RFC (Request For Comments) specifications as much as possible in the manner of features and implementation accuracy. Finally, the system was interconnected as part of a computer network and was verified with processing of real packets.
|
5 |
Μελέτη παραμέτρων αξιόπιστης μετάδοσης πληροφορίας σε ασύρματα δίκτυα υπό συνθήκες ισχυρού θορύβου και παρεμβολώνΛεπενιώτης, Παναγιώτης, Δουληγέρης, Ηρακλής 28 September 2009 (has links)
Στο κεφάλαιο 1 της εργασίας αυτής γίνεται μια εισαγωγή στα ασύρματα δίκτυα με την περιγραφή της δομής του ασύρματου καναλιού. Στο κεφάλαιο 2 δίνονται τα χαρακτηριστικά, η δομή και η λειτουργία του συστήματος UMTS. Επίσης στο συγκεκριμένο κεφάλαιο θα παρουσιαστεί αναλυτικά η αρχιτεκτονική και οι λειτουργικότητες του συγκεκριμένου συστήματος. Στο 3ο κεφάλαιο γίνεται μια παρουσίαση του προτύπου WIMAX που δημιουργήθηκε για να ικανοποιήσει τις απαιτήσεις για ασύρματη πρόσβαση ευρείας ζώνης. Στο κεφάλαιο 4 γίνεται μια εκτενής ανάλυση του HSDPA (High Speed Downlink Packet Access) που βασικός του στόχος είναι η αύξηση των πακέτων δεδομένων στην έξοδο. Στο 5ο κεφάλαιο παρουσιάζονται διεξοδικά οι παρεμβολές και ο θόρυβος που μπορούν να εμφανιστούν κατά τη μετάδοση δεδομένων στα ασύρματα δίκτυα. Τέλος, στο 6ο κεφάλαιο γίνεται μια θεωρητική ανάλυση της παρεμβολής ενδοδιαμόρφωσης, ακολουθεί η πειραματική μελέτη της και καταλήγουμε με συμπεράσματα και σχόλια. / -
|
6 |
Μέθοδοι απόκρυψης πληροφορίας και υδατογράφηση ως τεχνικές προστασίας πνευματικών δικαιωμάτων και πιστοποίησης της αυθεντικότητας / Data hiding methods and watermarking as techniques protecting intellectual property rights and authenticationΑρμένη, Σπυριδούλα 22 June 2007 (has links)
Η προστασία των πνευματικών δικαιωμάτων και η απόδειξη γνησιότητας του κατόχου, επομένως και η πιστοποίηση της αυθεντικότητας των ψηφιακών αντικειμένων είναι ένα πολύ καυτό ζήτημα και για την επίλυσή του επιστρατεύονται μέθοδοι απόκρυψης πληροφορίας και τεχνικές υδατογράφησης. Εκτός από τη φιλοσοφική αντιμετώπιση του θέματος, προτείνονται μια μέθοδος απόκρυψης πληροφορίας και δύο τεχνικές υδατογράφησης, με σκοπό την προστασία των πνευματικών δικαιωμάτων και την πιστοποίηση της αυθεντικότητας των ψηφιακών αντικειμένων. Η μέθοδος απόκρυψης πληροφορίας δανείζεται έννοιες από την κρυπτογραφία εισάγοντας σε μεγάλες εικόνες ένα δύσκολο στιγμιότυπο, δηλαδή έναν τρία χρωματίσιμο γράφο. Ο γράφος μαζί με το χρωματισμό του αποτελεί το κλειδί. Για να μην αποκαλυφθεί όλος ο χρωματισμός του γράφου σε μια πιθανή διαμάχη, εφαρμόζεται το πρωτόκολλο των διαντιδραστικών αποδείξεων μηδενικής γνώσης (ZKIP) για δύσκολα υπολογιστικά προβλήματα. Η διαδικασία της ένθεσης γίνεται με χρήση του μετασχηματισμού wavelets, παρέχοντας καλή ποιότητα των παραγόμενων εικόνων και ανθεκτικότητα σε περιπτώσεις επιθέσεων. Οι δύο τεχνικές υδατογράφησης εφαρμόζονται στο χωρικό πεδίο και στο πεδίο συχνοτήτων, αντίστοιχα. Η τεχνική που εφαρμόστηκε στο χωρικό πεδίο εκμεταλλεύεται τυχόν ομοιότητες του υδατογραφήματος με τις αρχικές εικόνες για να επιλεγούν οι θέσεις ένθεσης. Αντίθετα στην τεχνική υδατογράφησης που εφαρμόστηκε στο πεδίο συχνοτήτων γίνεται χρήση του μετασχηματισμού wavelet. Σε όλες τις τεχνικές παρατηρήθηκαν ικανοποιητικά αποτελέσματα μετά την ένθεση της εισαγόμενης πληροφορίας έτσι ώστε να μη είναι οπτικά αντιληπτή. Επίσης εξετάστηκε και η ανθεκτικότητα της εισαγόμενης πληροφορίας στις εικόνες ύστερα από πιθανές επιθέσεις και επιβεβαιώθηκε ότι επιζεί ένα αρκετά μεγάλο ποσοστό της εισαγόμενης πληροφορίας, γεγονός που καταξιώνει τις προτεινόμενες μεθόδους. / The copyright protection and the authentication is a very hot topic and for its solution are called up data hiding methods and watermarking techniques. Αpart from the philosophical confrontation of the subject, there are proposed a data hiding method and two watermarking techniques that aim to copyright protect and the authenticate digital objects. The data hiding technique combines concepts from cryptography and it can be applied to large images by inserting a hard instance, i.e. a 3-colorable graph. The graph itself with its coloring compose the key. In order not to reveal all its coloring in a possible conflict, the Zero Knowledge Interactive Proof Protocol (ZKIP) is applied. The insertion process has been done using wavelets transformation, offering good quality of the produced images and robustness against possible attacks. The two watermarking techniques are applied in spatial domain and in frequency domain, respectively. The technique that was applied in spatial domain is exploiting any similarity between the watermark and the initial images so that to select at best the insertion positions. On the contrary, in the watermarking technique that is applied in the frequency domain, wavelets transformation has been used and the watermark was inserted in the differential coefficients of the image, in order to be imperceptible. To all the above techniques, it has been observed sufficient results after the insertion of the redundant information, so that it turned to be visible imperceptibly. Moreover, the robustness of the redundant information was each time after possible attacks examined, and it was confirmed that a rather big percentage of the redundant information is survived, making more reliable the proposed techniques.
|
7 |
Μελέτη των κύριων παραμέτρων ενός ευζωνικού δικτύου μέσω των γραμμών ηλεκτρικής ισχύος (BPL)Μιλτιάδου, Μίλτος 08 February 2010 (has links)
Η επίδραση της τεχνολογίας BPL (Broadband over Power Lines) στη ΔΕΗ, αλλά και στους φορείς ρύθμισης και λειτουργίας της -αναμενόμενης- απελευθερωμένης αγοράς ενέργειας, όπως είναι ο Διαχειριστής Ελληνικού Συστήματος Μεταφοράς Ηλεκτρικής Ενέργειας (ΔΕΣΜΗΕ), θα είναι άμεση και καταλυτική. Η ευρυζωνική μετάδοση πληροφορίας μέσω των γραμμών ηλεκτρικής ισχύος έχει τη δυνατότητα να προσφέρει υπηρεσίες τόσο στις επιχειρήσεις ηλεκτρικής ενέργειας (στην περίπτωσή μας τη ΔΕΗ) όσο και στους καταναλωτές. Με την εφαρμογή της τεχνολογίας BPL στο δίκτυο της ΔΕΗ οι γραμμές ηλεκτρικής ισχύος, εκτός από τη μεταφορά και τη διανομή ηλεκτρικής ενέργειας, μπορούν ταυτόχρονα να μεταδώσουν πληροφορία με ρυθμό μετάδοσης που φτάνει, προς το παρόν, τα 200 Mbps στο φυσικό επίπεδο. Μερικές από τις υπηρεσίες που προσφέρει η τεχνολογία BPL είναι υπηρεσίες τηλεφωνίας (VoIP), ευρυζωνική πρόσβαση στο διαδίκτυο, υπηρεσία τηλεόρασης (internet TV), υπηρεσία ραδιοφώνου, δυνατότητα φορητότητας και κινητικότητας των υπηρεσιών διαδικτύου, αυτοματοποίηση κατοικίας, απομακρυσμένος έλεγχος και λειτουργία του οικιακού εξοπλισμού, δυναμική ρύθμιση της κατανάλωσης ηλεκτρικής ενέργειας, παρακολούθηση για λόγους ασφάλειας, παιχνίδια βασισμένα στο διαδίκτυο, εφαρμογές quadruple play κ.ά. Η πρόσβαση των καταναλωτών πραγματοποιείται με ασύρματο τρόπο (Wi-Fi) από τη γραμμή χαμηλής τάσης (σύνδεση στο μετρητή του χρήστη) ή κατευθείαν από τη γραμμή μέσης τάσης. Ο νέος αυτός τρόπος ευρυζωνικής πρόσβασης στο διαδίκτυο είναι ιδιαίτερα σημαντικός, γιατί δε χρειάζεται επενδύσεις για νέα υποδομή, εφόσον οι γραμμές ηλεκτρικής ισχύος καλύπτουν σχεδόν όλες τις κατοικημένες περιοχές του πλανήτη. Ιδιαίτερα σε περιοχές αραιοκατοικημένες ή με ελάχιστη τηλεπικοινωνιακή υποδομή, η τεχνολογία BPL αποτελεί ίσως τη μοναδική λύση για ευρυζωνικές υπηρεσίες.
Στις επιχειρήσεις ηλεκτρικής ενέργειας προσφέρονται πολλαπλές και ιδιαίτερης σημασίας δυνατότητες. Μερικές από αυτές είναι η αυτόματη ανάγνωση μετρητών και η τιμολόγηση, η αυτόματη σύνδεση/αποσύνδεση φορτίων, η μέτρηση και η απεικόνιση των δεδομένων του δικτύου διανομής (τάση, ρεύμα, θερμοκρασία περιβάλλοντος, πραγματική ισχύς, άεργος ισχύς, συντελεστής ισχύος), η διαχείριση της ζήτησης, η μείωση των εκπομπών CO2 λόγω της βελτίωσης της ενεργειακής αποδοτικότητας, η ανίχνευση κλοπής ηλεκτρικής ενέργειας, ο εντοπισμός βλαβών, η απομόνωση και άμεση αποκατάσταση σφαλμάτων, η προληπτική συντήρηση του δικτύου (εναέριο και υπόγειο), η διαχείριση και ο προγραμματισμός του προσωπικού συντήρησης, η διαγνωστική παρακολούθηση του δικτύου, η διαχείριση ασφάλειας του δικτύου. Επιπρόσθετα, προσφέρεται η δυνατότητα στη διοίκηση να αναπτύξει, να ρυθμίσει και να ελέγξει την απελευθερωμένη αγορά ηλεκτρικής ενέργειας. Όλη η πληροφορία για τις συνθήκες λειτουργίας του δικτύου ηλεκτρικής ενέργειας θα διακινείται σε πραγματικό χρόνο και θα αξιοποιείται από τις ρυθμιστικές αρχές, με αποτέλεσμα τη δημιουργία μιας αξιόπιστης και ευέλικτης αγοράς ηλεκτρικής ενέργειας. Τα καλώδια του ρεύματος πηγαίνουν παντού και αποτελούνται συνήθως από καλής ποιότητας χαλκό. Επίσης, οι μόνες συχνότητες που χρησιμοποιούνται είναι αυτές του ρεύματος, δηλαδή τα 50 και 60 Hz. Έτσι, η μετάδοση σημάτων πληροφορίας μέσω των γραμμών ηλεκτρικής ισχύος είναι απλή στη σύλληψή της. Τέλος, γίνεται ένας σχολιασμός σε διάφορα μοντέλα εξομοιώσεων σε Matlab για την συμπεριφορά των διαφόρων παραμέτρων που επηρεάζουν το BPL δίκτυο. / -
|
8 |
Αποτελεσματικοί αλγόριθμοι και δομές δεδομένων με εφαρμογές στην ανάκτηση πληροφορίας και στις τεχνολογίες διαδικτύουΑντωνίου, Δημήτρης 23 May 2011 (has links)
Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη και τροποποίηση βασικών δομών δεδομένων με σκοπό τη δημιουργία νέων και την τροποποίηση υπαρχουσών λύσεων, με εφαρμογές στην Ανάκτηση Πληροφορίας, τη Βιοπληροφορική και το Διαδίκτυο.
Αρχικά, δίνεται έμφαση στην ανάπτυξη και πειραματική επιβεβαίωση αλγοριθμικών τεχνικών για τη σχεδίαση αυτοοργανώμενων δομών δεδομένων (self-organizing data structures). Μέχρι σήμερα, ο μόνος πιθανός υποψήφιος αλγόριθμος αναζήτησης σε δένδρο που μπορεί να είναι Ο(1)-ανταγωνιστικός είναι το splay δένδρο (splay tree) που παρουσιάστηκε από τους Sleator και Tarjan [1]. Επιπρόσθετα, μελετώνται διάφορες εναλλακτικές τεχνικές αυτοοργάνωσης ([2],[3],[4],[5],[6]) και γίνεται επιβεβαίωση των πάνω ορίων που ισχύουν για την απόδοση των splay trees και για αυτές. Η ανάπτυξη των διάφορων αλγοριθμικών αυτών τεχνικών βρίσκει εφαρμογές πάνω στη συμπίεση δεδομένων. Οι αλγόριθμοι συμπίεσης δεδομένων μπορούν να βελτιώσουν την αποδοτικότητα με την οποία τα δεδομένα αποθηκεύονται ή μεταφέρονται, μέσω της μείωσης του ποσού της πλεονάζουσας πληροφορίας. Η χρήση αυτών των αλγορίθμων τόσο στην κρυπτογράφηση όσο και στην επεξεργασία εικόνας είναι αποδοτική και έχει μεγάλο ερευνητικό ενδιαφέρον. Γενικότερα, οι αυτοοργανώμενες δομές δεδομένων χρίζουν ιδιαίτερης προσοχής στους on-line αλγόριθμους. Αναλυτικότερα, στην παρούσα διατριβή, εφαρμόζεται συμπίεση σε βιολογικά δεδομένα αλλά και σε κείμενα τόσο με χρήση του κλασσικού splay δέντρου [10] αλλά και της log log n ανταγωνιστικής παραλλαγής του. Επιπλέον, παρουσιάζονται τυχαιοποιημένες εκδόσεις των παραπάνω δομών και εφαρμόζονται και αυτές στη συμπίεση δεδομένων. Οι log log n ανταγωνιστικές δομές έχουν καλύτερη απόδοση όσον αφορά την πολυπλοκότητά τους σε σχέση με την κλασσική splay δομή. Το γεγονός αυτό επιβεβαιώνεται πειραματικά, όπου η επιτυγχανόμενη συμπίεση είναι στις περισσότερες των περιπτώσεων καλύτερη από την αντίστοιχη της κλασικής δομής .
Επιπλέον, ιδιαίτερο ερευνητικό ενδιαφέρον βρίσκει η εφαρμογή βασικών δομών δεδομένων στο διαδίκτυο. Επιδιώκουμε την ανάπτυξη και θεωρητική επιβεβαίωση αλγορίθμων για προβλήματα όπως η ανάθεση «καυτών συνδέσμων» (hot links [7]), η αναδιοργάνωση ιστοσελίδων και η ανάκτηση πληροφορίας ([8],[9]). Σε πρώτο στάδιο, προτείνονται ευριστικοί αλγόριθμοι με σκοπό την ανάθεση «καυτών συνδέσμων» (hotlinks) και τη βελτίωση της τοπολογίας ενός ιστότοπου ([12],[13],[14]). Σκοπός του αλγορίθμου είναι η προώθηση των δημοφιλών ιστοσελίδων ενός ιστότοπου, μέσω της ανάθεσης συνδέσμων προς αυτές, από ιστοσελίδες οι οποίες είναι σχετικές με αυτές ως προς το περιεχόμενο αλλά και ταυτόχρονα συντελούν στη μείωση της απόστασής τους από την αρχική σελίδα. Παρουσιάζεται το μοντέλο του αλγορίθμου, καθώς και μετρικές οι οποίες χρησιμοποιούνται για την ποσοτική αξιολόγηση της αποδοτικότητας του αλγορίθμου σε σχέση με ειδικά χαρακτηριστικά ενός ιστότοπου, όπως η εντροπία του.
Σε δεύτερο στάδιο, γίνεται μελέτη τεχνικών προσωποποίησης ιστοσελίδων [11]. Συγκεκριμένα, σκοπός είναι η υλοποίηση ενός αλγορίθμου, ο οποίος θα ανακαλύπτει την αυξημένη ζήτηση μίας κατηγορίας ιστοσελίδων Α από έναν χρήστη και αξιοποιώντας την καταγεγραμμένη συμπεριφορά άλλων χρηστών, θα προτείνει κατηγορίες σελίδων οι οποίες προτιμήθηκαν από χρήστες οι οποίοι ομοίως παρουσίασαν αυξημένο ενδιαφέρον προς την κατηγορία αυτή. Αναλύεται το φαινόμενο της έξαρσης επισκεψιμότητας (burst) και η αξιοποίηση του στο πεδίο της εξατομίκευσης ιστοσελίδων. Ο αλγόριθμος υλοποιείται με τη χρήση δύο δομών δεδομένων, των Binary heaps και των Splay δέντρων, και αναλύεται η χρονική και χωρική πολυπλοκότητά του. Επιπρόσθετα, γίνεται πειραματική επιβεβαίωση της ορθής και αποδοτικής εκτέλεσης του αλγορίθμου. Αξίζει να σημειωθεί πως ο προτεινόμενος αλγόριθμος λόγω της φύσης του, χρησιμοποιεί χώρο, ο οποίος επιτρέπει τη χρησιμοποίηση του στη RAM. Τέλος, ο προτεινόμενος αλγόριθμος δύναται να βρει εφαρμογή σε εξατομίκευση σελίδων με βάση το σημασιολογικό τους περιεχόμενο σε αντιστοιχία με το διαχωρισμό τους σε κατηγορίες.
Σε τρίτο στάδιο, γίνεται παρουσίαση πρωτότυπης τεχνικής σύστασης ιστοσελίδων [15] με χρήση Splay δέντρων. Σε αυτή την περίπτωση, δίνεται ιδιαίτερο βάρος στην εύρεση των σελίδων που παρουσιάζουν έξαρση επισκεψιμότητας και στη σύστασή τους στους χρήστες ενός ιστότοπου. Αρχικά, τεκμηριώνεται η αξία της εύρεσης μιας σελίδας, η οποία δέχεται ένα burst επισκέψεων. H έξαρση επισκεψιμότητας (burst) ορίζεται σε σχέση τόσο με τον αριθμό των επισκέψεων, όσο και με το χρονικό διάστημα επιτέλεσής τους. Η εύρεση των σελίδων επιτυγχάνεται με τη μοντελοποίηση ενός ιστότοπου μέσω ενός splay δέντρου. Με την τροποποίηση του δέντρου μέσω της χρήσης χρονοσφραγίδων (timestamps), ο αλγόριθμος είναι σε θέση να επιστρέφει σε κάθε χρονική στιγμή την ιστοσελίδα που έχει δεχθεί το πιο πρόσφατο burst επισκέψεων. Ο αλγόριθμος αναλύεται όσον αφορά τη χωρική και χρονική του πολυπλοκότητα και συγκρίνεται με εναλλακτικές λύσεις. Μείζονος σημασίας είναι η δυνατότητα εφαρμογής του αλγορίθμου και σε άλλα φαινόμενα της καθημερινότητας μέσω της ανάλογης μοντελοποίησης. Παραδείγματος χάρη, στην περίπτωση της απεικόνισης ενός συγκοινωνιακού δικτύου μέσω ενός γράφου, ο αλγόριθμος σύστασης δύναται να επιστρέφει σε κάθε περίπτωση τον κυκλοφοριακό κόμβο ο οποίος παρουσιάζει την πιο πρόσφατη συμφόρηση.
Τέλος, όσον αφορά το πεδίο της ανάκτησης πληροφορίας, η διατριβή επικεντρώνεται σε μία πρωτότυπη και ολοκληρωμένη μεθοδολογία με σκοπό την αξιολόγηση της ποιότητας ενός συστήματος λογισμικού βάσει του Προτύπου Ποιότητας ISO/IEC-9126.
Το κύριο χαρακτηριστικό της είναι ότι ολοκληρώνει την αξιολόγηση ενός συστήματος λογισμικού ενσωματώνοντας την αποτίμηση όχι μόνο των χαρακτηριστικών που είναι προσανατολισμένα στο χρήστη, αλλά και εκείνων που είναι πιο τεχνικά και αφορούν τους μηχανικούς λογισμικού ενός συστήματος. Σε αυτή τη διατριβή δίνεται βάρος στην εφαρμογή μεθόδων εξόρυξης δεδομένων πάνω στα αποτελέσματα της μέτρησης μετρικών οι οποίες συνθέτουν τα χαρακτηριστικά του πηγαίου κώδικα, όπως αυτά ορίζονται από το Προτύπο Ποιότητας ISO/IEC-9126 [16][17]. Ειδικότερα εφαρμόζονται αλγόριθμοι συσταδοποίησης με σκοπό την εύρεση τμημάτων κώδικα με ιδιαίτερα χαρακτηριστικά, που χρήζουν προσοχής. / In this dissertation we take an in-depth look at the use of effective and efficient data structures and algorithms in the fields of data mining and web technologies. The main goal is to develop algorithms based on appropriate data structures, in order to improve the performance at all levels of web applications.
In the first chapter the reader is introduced to the main issues studied dissertation. In the second chapter, we propose novel randomized versions of the splay trees. We have evaluated the practical performance of these structures in comparison with the original version of splay trees and with their log log n-competitive variations, in the application field of compression. Moreover, we show that the Chain Splay tree achieves O(logn) worst-case cost per query. In order to evaluate performance, we utilize plain splay trees, the log log n-competitive variations, the proposed randomized version with the Chain Splay technique to compress data. It is observed experimentally that the compression achieved in the case of the log log n-competitive technique is, as expected, more efficient than the one of the plain splay trees.
The third chapter focuses on hotlinks assignment techniques. Enhancing web browsing experience is an open issue frequently dealt using hotlinks assignment between webpages, shortcuts from one node to another. Our aim is to provide a novel, more efficient approach to minimize the expected number of steps needed to reach expected pages when browsing a website. We present a randomized algorithm, which combines the popularity of the webpages, the website structure, and for the first time to the best authors’ knowledge, the similarity of context between pages in order to suggest the placement of suitable hotlinks. We verify experimentally that users need less page transitions to reach expected information pages when browsing a website, enhanced using the proposed algorithm.
In the fourth chapter we investigate the problem of web personalization. The explosive growth in the size and use of the World Wide Web continuously creates new great challenges and needs. The need for predicting the users’ preferences in order to expedite and improve the browsing though a site can be achieved through personalizing of the Websites. Recommendation and personalization algorithms aim at suggesting WebPages to users based on their current visit and past users’ navigational patterns. The problem that we address is the case where few WebPages become very popular for short periods of time and are accessed very frequently in a limited temporal space. Our aim is to deal with these bursts of visits and suggest these highly accessed pages to the future users that have common interests. Hence, in this paper, we propose a new web personalization technique, based on advanced data structures. The data structures that are used are the Splay tree (1) and Binary heaps (2). We describe the architecture of the technique, analyze the time and space complexity and prove its performance. In addition, we compare both theoretically and experimentally the proposed technique to another approach to verify its efficiency. Our solution achieves O(P2) space complexity and runs in k log P time, where k is the number of pages and P the number of categories of WebPages.
Extending this algorithm, we propose an algorithm which efficiently detects bursts of visits to webpages. As an increasing number of Web sites consist of multiple pages, it is more difficult for the visitors to rapidly reach their own target. This results in an urgent need for intelligent systems that effectively support the users’ navigation to high demand Web content. In many cases, due to specific conditions, web pages become very popular and receive excessively large number of hits. Therefore, there is a high probability that these web pages will be of interest to the majority of the visitors at a given time. The data structure that is used for the purposes of the recommendation algorithm is the Splay tree. We describe the architecture of the technique, analyze the time and space complexity and show its performance.
The dissertation’s last chapter elaborates on how to use clustering for the evaluation of a software system’s maintainability according to the ISO/IEC-9126 quality standard. More specifically it proposes a methodology that combines clustering and multicriteria decision aid techniques for knowledge acquisition by integrating groups of data from source code with the expertise of a software system’s evaluators. A process for the extraction of elements from source code and Analytical Hierarchical Processing for assigning weights to these data are provided; k-Attractors clustering algorithm is then applied on these data, in order to produce system overviews and deductions. The methodology is evaluated on Apache Geronimo, a large Open Source Application Server, results are discussed and conclusions are presented together with directions for future work.
|
9 |
Οι αντιλήψεις και στάσεις των εκπαιδευτικών σχετικά με την επιμόρφωση για την αξιοποίηση των ΤΠΕ στην διδακτική πράξη / Perceptions and attitudes of teachers on tranining using ICT in teaching practiceΚαλαντζής, Γιώργος 11 August 2011 (has links)
Η ενσωμάτωση των ΤΠΕ στην εκπαιδευτική διαδικασία είναι μια ιδιαίτερα δύσκολη και περίπλοκη διαδικασία. Η προβληματική που αναπτύσσεται στη χώρα μας για την προετοιμασία των εκπαιδευτικών ώστε να χρησιμοποιήσουν αποτελεσματικά τις ΤΠΕ στη διδακτική πράξη ξεκίνησε παρόλα τα προβλήματα με καλούς οιωνούς.
Στη συγκεκριμένη μελέτη γίνεται καταγραφή και διερεύνηση των απόψεων εκπαιδευτικών ,που συμμετείχαν στο πρόγραμμα επιμόρφωσης Β΄ Επιπέδου ,αφενός μεν προς την χρήση της Τεχνολογίας Πληροφορίας και Επικοινωνίας (Τ.Π.Ε) στη διδακτική και μαθησιακή διαδικασία και αφετέρου ως προς το πρόγραμμα επιμόρφωσης. Πιο συγκεκριμένα καταγράφονται οι απόψεις των εκπαιδευτικών που συμμετείχαν στην επιμόρφωση γύρω από τι θεωρούν ότι αποκόμισαν από αυτήν, εάν και κατά πόσο άλλαξε η θεώρησή τους απέναντι στη χρήση των νέων τεχνολογιών στην εκπαίδευση, πώς θα αξιοποιήσουν τις γνώσεις που έλαβαν από την επιμόρφωση στη διδασκαλία το μαθήματός τους. Τέλος καταγράφονται οι απόψεις τους για τον τρόπο διεξαγωγής της συγκεκριμένης επιμόρφωσης. / This particular study both investigates and records the opinions expressed by the teachers who participated in the in-service training course (Level B). Firstly we recorded how they feel towards the use of Information and Communication Technology (I.C.T) in the instructive and training process and secondly the evaluation of the course itself. Specifically we investigated how the participants viewed the course and whether it led them to consider the adoption of new technologies in the educational process. Also we investigated how they would implement the acquired knowledge in their teaching environments. Finally, we recorded how they assessed this particular training course.
|
10 |
Φιλτράρισμα και εξόρυξη δεδομένων σε αντικείμενα πληροφορίας / Filtering and data mining techniques in information objectsΑντωνέλλης, Παναγιώτης 06 October 2011 (has links)
Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά.
Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα.
Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου.
Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων.
Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος.
Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους. / The increasing usage of World Wide Web for storing and exchanging information internationally has lead to huge growth of the different types of stored data. The useful information stored in these data is usually hidden and needs special processing to be unveiled. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and can handle various types of data.
The wide acceptance of XML (eXtensive Markup Language) as the standard for storing and exchanging information through internet, combined with the growth of native XML databases has designated the problem of efficient data mining techniques on semi structured data. Traditional approaches have proven inefficient as they are mainly oriented to well- structured data, like relational databases, while Web data and XML databases are based on semi structured format. The XML language permits the description of new structures, the nesting of structures in arbitrary depth and the optional description of its grammar, which allows the modeling of an XML document as a labeled treed: elements and attributes are mapped to nodes in the tree and direct nesting relationships are mapped to edges in the tree. Together with the problem of searching through a set of XML documents, a new problem has arisen: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. In addition, data management and processing issues, such as storage, mining and retrieval of the large number of XML documents, have also arisen. Clustering of XML documents improves the process of management and retrieval as it organizes the massive amounts of XML data into groups without prior knowledge. This grouping may boost the process of querying by applying the user queries only to related groups of XML documents as well the process of storing and processing XML documents in peer-to-peer networks.
The next part of the thesis deals with mining source code quality metrics to assist the comprehension and the analysis of a software system’s maintainability. Due to the special nature of source code quality metrics (numerical and categorical), traditional data mining techniques can not be applied as it is. This thesis investigates a new clustering algorithm, based on frequent itemset mining, which helps produce general overviews of the system’s various source code entities (packages, classes, methods) or to identify specific parts that need further attention or handling (outliers).
The final part of the thesis deals with data mining techniques on web usage data in order to identify common trends and patterns in the user navigational behavior. Clustering is a useful and ubiquitous tool in such a data analysis, allowing the website owners to group their users into different groups based on their interaction with the website, find usability issues related to the website’s content and its structure and obtain knowledge by learning the user preferences and interests. This thesis investigates the application of clustering techniques in web usage data and proposes a new model for analyzing click-stream data in the World Wide Web based on multiple levels of clustering.
|
Page generated in 0.0298 seconds