• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • Tagged with
  • 21
  • 15
  • 9
  • 7
  • 7
  • 7
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Κρυπτογραφία και εξόρυξη δεδομένων

Γολέμη, Ελένη 21 October 2011 (has links)
Στην παρούσα εργασία καταγράφεται μία μεθοδολογία για τον συνδυασμό των επιστημών της Κρυπτογραφίας και της Εξόρυξης Δεδομένων. Με τον προτεινόμενο αλγόριθμο είναι δυνατόν η εξόρυξη δεδομένων χωρίς τη γνώση των ίδιων των δεδομένων και προστατεύοντας τα ίδια τα δεδομένα με πολλαπλούς τρόπους. Ο κάτοχος της βάσης δεδομένων απλά μπορεί στη συνέχεια να αποκρυπτογραφήσει με ασφάλεια τους κανόνες που προέκυψαν από την ανάλυση. / This paper describes a methodology for the combination of Cryptography and Data Mining. We propose an algorithm that makes possible the successful data mining without revealing the data itself and maximizing the security. A database owner can later safely decrypt the results of the data mining classification analysis.
2

Τεχνικές ταξινόμησης σεισμογραμμάτων

Πίκουλης, Βασίλης 01 October 2008 (has links)
Σεισμικά γεγονότα τα οποία προέρχονται από σεισμικές πηγές των οποίων η απόσταση μεταξύ τους είναι πολύ μικρότερη από την απόσταση μέχρι τον κοντινότερο σταθμό καταγραφής, είναι γνωστά στη βιβλιογραφία σαν όμοια σεισμικά γεγονότα και αποτελούν αντικείμενο έρευνας εδώ και μια εικοσαετία. Η διαδικασία επαναπροσδιορισμού των υποκεντρικών παραμέτρων ή επανεντοπισμού όμοιων σεισμικών γεγονότων οδηγεί σε εκτιμήσεις των παραμέτρων που είναι συνήθως μεταξύ μίας και δύο τάξεων μεγέθους μικρότερου σφάλματος από τις αντίστοιχες των συνηθισμένων διαδικασιών εντοπισμού και επομένως, μπορεί εν δυνάμει να παράξει μια λεπτομερέστερη εικόνα της σεισμικότητας μιας περιοχής, από την οποία μπορεί στη συνέχεια να προκύψει η ακριβής χαρτογράφηση των ενεργών ρηγμάτων της. Πρόκειται για μια σύνθετη διαδικασία που μπορεί να αναλυθεί στα παρακάτω τρία βασικά βήματα: 1. Αναγνώριση ομάδων όμοιων σεισμικών γεγονότων. 2. Υπολογισμός διαφορών χρόνων άφιξης μεταξύ όμοιων σεισμικών γεγονότων. 3. Επίλυση προβλήματος αντιστροφής. Το πρώτο από τα παραπάνω βήματα είναι η αναγνώριση των λεγόμενων σεισμικών οικογενειών που υπάρχουν στον διαθέσιμο κατάλογο και έχει ξεχωριστή σημασία για την ολική επιτυχία της διαδικασίας. Μόνο εάν εξασφαλιστεί η ορθότητα της επίλυσης αυτού του προβλήματος τίθενται σε ισχύ οι προϋποθέσεις για την εφαρμογή της διαδικασίας και άρα έχει νόημα η γεωλογική ανάλυση που ακολουθεί. Είναι επίσης ένα πρόβλημα που απαντάται και σε άλλες γεωλογικές εφαρμογές, όπως είναι για παράδειγμα ο αυτόματος εντοπισμός του ρήγματος γένεσης ενός άγνωστου σεισμικού γεγονότος μέσω της σύγκρισής του με διαθέσιμες αντιπροσωπευτικές οικογένειες. Το πρόβλημα της αναγνώρισης είναι στην ουσία ένα πρόβλημα ταξινόμησης και ως εκ τούτου προϋποθέτει την επίλυση δύο σημαντικών επιμέρους υποπροβλημάτων. Συγκεκριμένα, αυτό της αντιστοίχισης των σεισμικών κυματομορφών (matching problem) και αυτό της κατηγοριοποίησής τους (clustering problem). Το πρώτο έχει να κάνει με τη σύγκριση όλων των δυνατών ζευγών σεισμογραμμάτων του καταλόγου ώστε να εντοπισθούν όλα τα όμοια ζεύγη, ενώ το δεύτερο αφορά την ομαδοποίηση των ομοίων σεισμογραμμάτων ώστε να προκύψουν οι σεισμικές οικογένειες. Στα πλαίσια αυτής της εργασίας, λαμβάνοντας υπόψη τις ιδιομορφίες που υπεισέρχονται στο παραπάνω πρόβλημα ταξινόμησης από τις ιδιαιτερότητες των σεισμογραμμάτων αλλά και την ιδιαίτερη φύση της εφαρμογής, προτείνουμε μια μέθοδο σύγκρισης που βασίζεται σε μια γενικευμένη μορφή του συντελεστή συσχέτισης και μια μέθοδο κατηγοριοποίησης βασισμένη σε γράφους, με στόχο την αποτελεσματική αλλά και αποδοτική επίλυσή του. / Seismic events that occur in a confined region, meaning that the distance separating the sources is very small compared to the distance between the sources and the recording station, are known in the literature as similar seismic events and have been under study for the past two decades. The re-estimation of the hypocenter parameters or the relocation of similar events gives an estimation error that is between one and two orders of magnitude lower that the one produced by the conventional location procedures. As a result, the application of this approach creates a much more detailed image of the seismicity of the region under study, from which the exact mapping of the active faults of the region can occur. The relocation procedure is in fact a complex procedure, consisting of three basic steps: 1. Identification of groups of similar seismic events. 2. Estimation of the arrival time differences between events of the same group. 3. Solution of the inverse problem. The first of the above steps, namely the identification of the seismic families of the given catalog plays an important role in the total success of the procedure, since only the correct solution of this problem can ensure that the requirements for the application of the procedure are met and therefore the geological analysis that is based on its outcome is meaningful. The problem is also encountered in other geological applications, such as the automatic location of the fault mechanism of an unknown event by comparison with available representative families. The problem of the identification of the seismic families is a classification problem and as such, requires the solution of two subproblems, namely the matching problem and the clustering problem. The object of the first one is the comparison of all the possible event pairs of the catalog with the purpose of locating all the existing similar pairs, while the second one is concerned with the grouping of the similar pairs into seismic families. In this work, taking into consideration the particularities that supersede the classification problem described above due to the special nature of the seismograms and also the specific requirements of the application, we propose a comparing method which is based on a generalized form of the correlation coefficient and a graph – based clustering technique, as an effective solution of the problem at hand.
3

Ανάπτυξη μεθόδων αναγνώρισης της κατάστασης του χρήστη με τη χρήση συστημάτων αισθητήρων κινητών τηλεφώνων

Παυλοπούλου, Χριστίνα 26 May 2015 (has links)
Η ανίχνευση καθημερινών φυσικών δραστηριοτήτων είναι πολύ σημαντική σε εφαρμογές όπως η ανάπτυξη αυτοματοποιημένων συστημάτων. Οι αισθητήρες κίνησης προηγουμένως χρησιμοποιούνταν μόνο ως συμπληρωματικές είσοδοι ενώ τώρα χρησιμοποιούνται όλο και πιο συχνά ως η κύρια πηγή δεδομένων για αναγνώριση κάποιας καθημερινής κίνησης. Σε αυτή την εργασία, χρησιμοποιούνται τα επιταχυνσιόμετρα των κινητών τηλεφώνων με σκοπό να αναγνωρισθούν σε πραγματικό χρόνο τέσσερις καθημερινές δραστηριότητες: κάθισμα, περπάτημα, ξάπλωμα, τρέξιμο. Σε αυτή την εργασία, σχεδιάστηκαν 2 νέα υβριδικά πρωτόκολλα που συνδυάζουν δύο άλλες μεθόδους της βιβλιογραφίας με παραμετροποιημένο τρόπο. Στη συνέχεια, τα 2 αυτά πρωτόκολλα υλοποιήθηκαν μέσω της ανάπτυξης Android εφαρμογών. Σύμφωνα με τα αποτελέσματα της αξιολόγησης η οποία έγινε με πραγματικούς χρήστες, οι 2 υβριδικές μέθοδοι επιτυγχάνουν μεγάλη ακρίβεια (έως και 99%), ενώ διατηρούν την κατανάλωση μπαταρίας σε πολύ χαμηλά επίπεδα (μέση κατανάλωση μπαταρίας 874mW). / Detecting daily physical activities is very important in applications such as developing automated comfort scenarios for an individual. Motion smartphone sensors were previously used only as a complementary input whereas now, they are increasingly used as the primary data source for motion recognition. In this work, we use smartphone accelerometers to recognize online four daily human activities: sitting, walking, lying and running. We design two new hybrid protocols combining state of the art methods in a parameterized way. Then, we implement those protocols in the context of Android applications, which we develop. According to our experimental performance evaluation with real users, our hybrid methods achieve very high accuracy (even 99%), while keeping battery dissipation at very satisfactory levels (average energy consumption 874mW).
4

Προσωποποιημένη προβολή περιεχομένου του διαδικτύου σε desktop εφαρμογή με τεχνικές ανάκτησης δεδομένων, προεπεξεργασίας κειμένου, αυτόματης κατηγοριοποίησης και εξαγωγής περίληψης

Τσόγκας, Βασίλειος 15 June 2009 (has links)
Με την πραγματικότητα των υπέρογκων και ολοένα αυξανόμενων πηγών κειμένου στο διαδίκτυο, καθίστανται αναγκαία η ύπαρξη μηχανισμών οι οποίοι βοηθούν τους χρήστες ώστε να λάβουν γρήγορες απαντήσεις στα ερωτήματά τους. Η παρουσίαση προσωποποιημένου, συνοψισμένου και προκατηγοριοποιημένου περιεχομένου στους χρήστες, κρίνεται απαραίτητη σύμφωνα με τις επιταγές της συνδυαστικής έκρηξης της πληροφορίας που είναι ορατή σε κάθε "γωνία" του διαδικτύου. Ζητούνται άμεσες και αποτελεσματικές λύσεις ώστε να "τιθασευτεί" αυτό το χάος πληροφορίας που υπάρχει στον παγκόσμιο ιστό, λύσεις που είναι εφικτές μόνο μέσα από ανάλυση των προβλημάτων και εφαρμογή σύγχρονων μαθηματικών και υπολογιστικών μεθόδων για την αντιμετώπισή τους. Στα πλαίσια της παρούσας εργασίας, δημιουργήθηκε ένας ολοκληρωμένος μηχανισμός ο οποίος μπορεί αυτόματα να αναλύει κείμενα του διαδικτύου προκειμένου να εξάγει λέξεις-κλειδιά. Μέσα από αυτή την ανάλυση προκύπτουν οι σημαντικότερες προτάσεις του κειμένου που το χαρακτηρίζουν και οι οποίες μπορούν, αν συνενωθούν, να αποτελέσουν μια σύντομη περίληψη του κειμένου. Ο μηχανισμός αξιοποιεί γνώσεις για την κατηγορία του κειμένου καθώς και για τις προτιμήσεις που παρουσιάζουν οι χρήστες του προκειμένου να βελτιώσει και να φιλτράρει τα αποτελέσματα που παρουσιάζονται. Το σύστημα που κατασκευάστηκε έχει τα εξής βασικά υποσυστήματα: μηχανισμός ανάκτησης δεδομένων και εξαγωγής χρήσιμου κειμένου από τον παγκόσμιο ιστό, μηχανισμός εξαγωγής λέξεων-κλειδιών από το πηγαίο κείμενο, μηχανισμός κατηγοριοποίησης κειμένου, ο οποίος μπορεί να συμμετάσχει στη διαδικασία εξαγωγής περίληψης και να ενδυναμώσει τα αποτελέσματά της, μηχανισμοί προσωποποίησης περιεχομένου στο χρήστη και φυσικά, μηχανισμός εξαγωγής περίληψης. Οι παραπάνω μηχανισμοί είναι ενσωματωμένοι σε ένα σύστημα αποδελτίωσης, το PeRSSonal, το οποίο χρησιμοποιείται για την ανάκτηση / προεπεξεργασία / κατηγοριοποίηση / προσωποποίηση και περίληψη άρθρων από ειδησεογραφικούς τόπους του διαδικτύου. Σκοπός της παρούσας εργασίας είναι η ενίσχυση των υπαρχόντων διαδικασιών του μηχανισμού με καλύτερες και αποτελεσματικότερες μεθόδους και αλγορίθμους, καθώς και η δημιουργία μιας desktop εφαρμογής που θα αξιοποιεί στο έπακρο τις δυνατότητες παρουσίασης του συστήματος μέσω του κλασικού client-server μοντέλου. Πιο συγκεκριμένα, αναβαθμίζονται όλα τα στάδια λειτουργίας του μηχανισμού. Έτσι, το στάδιο ανάκτησης δεδομένων από τον ιστό ενισχύεται με έναν νέο, πιο αποτελεσματικό crawler. Ο αλγόριθμος που υλοποιείται σε αυτό το στάδιο λαμβάνει υπ' όψιν του, μεταξύ άλλων, και τον ρυθμό μεταβολής των RSS Feeds που αναλύει προκειμένου να αποφανθεί αν θα επισκεφθεί τη σελίδα του νέου. Αποφεύγονται έτσι άσκοπες εκτελέσεις της διαδικασίας του crawling και ουσιαστικά εξοικονομούνται πόροι του συστήματος. Παράλληλα, οι αλγόριθμοι αναγνώρισης και εξαγωγής χρήσιμου κειμένου έχουν ενισχυθεί και βελτιστοποιηθεί ώστε να εκτελούνται ταχύτερα και να επιστρέφουν με υψηλότερη ακρίβεια το περιεχόμενο που ανταποκρίνεται στο ωφέλιμο κείμενο μιας ιστοσελίδας. Η διαδικασία προεπεξεργασίας του κειμένου και εξαγωγής των λέξεων-κλειδιών από αυτό, έχει επίσης βελτιωθεί σημαντικά. Οι αλγόριθμοι πλέον δέχονται ρύθμιση μέσω παραμέτρων που μεταβάλλονται ανάλογα με το κείμενο και την πηγή του. Επιπλέον, το σύστημα μπορεί να αναγνωρίσει κείμενα όλων των βασικών γλωσσών με μια αρθρωτή (modular) αρχιτεκτονική. Παράλληλα, η διαδικασία εύρεσης λέξεων-κλειδιών έχει ενισχυθεί με την δυνατότητα εξαγωγής των ουσιαστικών του κειμένου, που συνήθως φέρουν το μεγαλύτερο ποσοστό ``νοήματος'' μιας πρότασης, και γενικότερα δυνατότητα αναγνώρισης των μερών του λόγου των προτάσεων. Ακολουθώντας, βρίσκονται οι μηχανισμοί κατηγοριοποίησης κειμένου και εξαγωγής της περίληψης αυτού οι οποίοι επίσης έχουν ενισχυθεί και παρουσιάζουν καλύτερα αποτελέσματα σε σχέση με την αρχική έκδοση του συστήματος. Η διαδικασία περίληψης έχει βελτιωθεί σημαντικά με τεχνικές που αξιοποιούν τη γνώση του συστήματος τόσο για το ίδιο το κείμενο όσο και για τον χρήστη που ζητάει την περίληψη. Η διαδικασία κατηγοριοποίησης επίσης επωφελείται από την περίληψη του κειμένου αξιοποιώντας τη, ως μικρότερη και συνοπτικότερη έκδοση του αρχικού κειμένου, προκειμένου να αποφανθεί σε περιπτώσεις που δεν είναι εντελώς ξεκάθαρο σε ποια κατηγορία ανήκει το κείμενο. Η διαδικασία ολοκληρώνεται με την προσωποποιημένη παρουσίαση των αποτελεσμάτων στη μεριά του χρήστη. Ο αλγόριθμος προσωποποίησης λαμβάνει υπ' όψιν του πολλές παραμέτρους, μεταξύ των οποίων το ιστορικό περιήγησης, οι χρόνοι που μένει ο χρήστης σε κάποιο άρθρο και οι επιλογές του στην εφαρμογή για να παράγει το προφίλ του. Ο αλγόριθμος προσωποποίησης που προτείνεται ουσιαστικά ``μαθαίνει'' από τις επιλογές του χρήστη και προσαρμόζεται στις πραγματικές προτιμήσεις του με το πέρασμα του χρόνου. Έτσι το σύστημα μπορεί να ανταποκρίνεται στις διαρκώς μεταβαλλόμενες προτιμήσεις των χρηστών. Στην τελική φάση της ροής της πληροφορίας, τα αποτελέσματα επιστρέφονται στην εφαρμογή που τρέχει ο χρήστης στην επιφάνεια εργασίας του και που αποτελεί μέρος της παρούσας εργασίας. Ο σκοπός της client-side εφαρμογής είναι να αξιοποιήσει και να παρουσιάσει την πληροφορία που εκτιμάται ότι ενδιαφέρει τον χρήστη, μορφοποιώντας την κατάλληλα ώστε να είναι πραγματικά χρήσιμη και ευανάγνωστη. Σκοπός δεν είναι να ``πλημμυριστεί'' ο χρήστης με ακόμη περισσότερη πληροφορία από αυτή που μπορεί να βρει μόνος του στο διαδίκτυο, αλλά να φιλτραριστεί αυτή ώστε να αντιπροσωπεύει πραγματικά τα ενδιαφέροντα του χρήστη. Η εφαρμογή που αναπτύχθηκε στηρίζεται σε standard πρωτόκολλα τόσο μετάδοσης όσο και μορφοποίησης της πληροφορίας και είναι εύκολα παραμετροποιήσιμη από τον χρήστη, ενώ παράλληλα προσφέρει πλήθος λειτουργιών που την καθιστούν ικανή να αντικαταστήσει τις κοινές μεθόδους καθημερινής ενημέρωσης που χρησιμοποιούν οι χρήστες του διαδικτύου. / The aim of the current thesis is the amendment of the existing procedures of the mechanism that was constructed with better and more effective methods and algorithms, as well as the development of a desktop application which shall exploit to the maximum the presentation capabilities of the system though the classic client-server model. More specifically, all the operation stages of the mechanism are upgraded. Thus, the data retrieval stage is improved with a new, more effective web crawler. The implemented algorithm at this stage takes into consideration, among others, the modification rate of the RSS Feeds that are analyzed in order to decide if the article's page should be fetched. In this manner, unneeded crawling executions are bypassed and system resources are conserved. Furthermore, the recognition and useful text extraction algorithms are enhanced in order to run faster and return with higher precision the content which responds to the useful text of an article's page. The text preprocessing keyword extraction unneeded are also significantly improved. The algorithms now are parametrized and are adjusted according to the text and its origin. Moreover, the system can recognize the texts language through a modular architecture. In addition, the keyword extraction procedure is enhanced with noun retrieval capabilities. Nouns usually baring the most semantic meaning of the text are now identified and can be weighted accordingly. This subsystem is also designed to support multimedia content which will be correlated with keywords. One step more, the categorization and summarization mechanism are improved with heuristics that deliver better results than the initial version of the system. The summarization procedure has improved significantly with techniques that utilize the system's knowledge not only for the text itself, but also for the user requesting the summary. The categorization procedure is also benefitted by the text's summary using it as a shorter, more meaningful version of the initial text, in order to decide in occasions that the categorization of the full text does not give clear results. The procedure concludes with the personalized presentation of the results on the user's side. The personalization algorithm takes into consideration many parameters, along which the browsing history, the times spent by the user at a text's summary or full body, etc. The algorithm is also "leaning" by the user choices and adjusts itself to the real user preferences as time passes. Thus the system can actually respond positively to the continually changing user preferences. In the φnal stage of the show of information, the results are returned to the application that the user is running on his/her desktop and the development of which is part of this thesis. The aim of the client side application is to utilize and properly present the information that the system has decided to be user-interesting. This information is suitably formatted so as to be really useful and readable on the desktop application. We are not targetting to the "information flooding" of the user, but contrary, to the filtering of information in order to truly represent the user's interests. The developed application is based on standard protocols for the transmission and formatting of information and is easily adjustable by the user, while it also offers many functions which make it able to replace the common methods for the user's everyday internet news reading needs.
5

Η χρήση σημασιολογικών δικτύων για τη διαχείριση του περιεχομένου του παγκόσμιου ιστού / Managing the web content through the use of semantic networks

Στάμου, Σοφία 25 June 2007 (has links)
Η παρούσα διατριβή πραγματεύεται την ενσωμάτωση ενός σημασιολογικού δικτύου λημμάτων σ’ ένα σύνολο εφαρμογών Διαδικτύου για την αποτελεσματική διαχείριση του περιεχομένου του Παγκόσμιου Ιστού. Τα δίκτυα σημασιολογικά συσχετισμένων λημμάτων αποτελούν ένα είδος ηλεκτρονικών λεξικών στα οποία καταγράφεται σημασιολογική πληροφορία για τα λήμματα που περιλαμβάνουν, όπου τα τελευταία αποθηκεύονται σε μια δενδρική δομή δεδομένων. Ο τρόπος δόμησης του περιεχομένου των σημασιολογικών δικτύων παρουσιάζει αρκετές ομοιότητες με την οργάνωση που ακολουθούν οι ιστοσελίδες στον Παγκόσμιο Ιστό, με αποτέλεσμα τα σημασιολογικά δίκτυα να αποτελούν έναν σημασιολογικό πόρο άμεσα αξιοποιήσιμο από ένα πλήθος εφαρμογών Διαδικτύου που καλούνται να διαχειριστούν αποδοτικά το πλήθος των δεδομένων που διακινούνται στον Παγκόσμιο Ιστό. Μετά από επισκόπηση των τεχνικών που παρουσιάζονται στη διεθνή βιβλιογραφία για τη διαχείριση του περιεχομένου του Παγκόσμιου Ιστού, προτείνεται και υλοποιείται ένα πρότυπο μοντέλο διαχείρισης ιστοσελίδων, το οποίο κάνοντας εκτεταμένη χρήση ενός εμπλουτισμένου σημασιολογικού δικτύου λημμάτων, εντοπίζει εννοιολογικές ομοιότητες μεταξύ του περιεχομένου διαφορετικών ιστοσελίδων και με βάση αυτές επιχειρεί και κατορθώνει την αυτοματοποιημένη και αποδοτική δεικτοδότηση, κατηγοριοποίηση και ταξινόμηση του πλήθους των δεδομένων του Παγκόσμιου Ιστού. Για την επίδειξη του μοντέλου διαχείρισης ιστοσελίδων που παρουσιάζεται, υιοθετούμε το μοντέλο πλοήγησης στους θεματικούς καταλόγους του Παγκόσμιου Ιστού και καταδεικνύουμε πειραματικά τη συμβολή των σημασιολογικών δικτύων σε όλα τα στάδια της δημιουργίας θεματικών καταλόγων Διαδικτύου. Συγκεκριμένα, εξετάζεται η συνεισφορά των σημασιολογικών δικτύων: (i) στον ορισμό και εμπλουτισμό των θεματικών κατηγοριών των καταλόγων του Παγκόσμιου Ιστού, (ii) στην επεξεργασία και αποσαφήνιση του περιεχομένου των ιστοσελίδων, (iii) στον αυτόματο εμπλουτισμό των θεματικών κατηγοριών ενός δικτυακού καταλόγου, (iv) στην ταξινόμηση των ιστοσελίδων που έχουν δεικτοδοτηθεί στις αντίστοιχες θεματικές κατηγορίες ενός καταλόγου, (v) στη διαχείριση των περιεχομένων των θεματικών καταλόγων με τρόπο που να διασφαλίζει την παροχή χρήσιμων ιστοσελίδων προς τους χρήστες, και τέλος (vi) στην αναζήτηση πληροφορίας στους θεματικούς καταλόγους του Παγκόσμιου Ιστού. Η επιτυχία του προτεινόμενου μοντέλου επιβεβαιώνεται από τα αποτελέσματα ενός συνόλου πειραματικών εφαρμογών που διενεργήθηκαν στο πλαίσιο της παρούσας διατριβής, όπου καταδεικνύεται η συμβολή των σημασιολογικών δικτύων στην αποτελεσματική διαχείριση των πολυάριθμων και δυναμικά μεταβαλλόμενων ιστοσελίδων του Παγκόσμιου Ιστού. Η σπουδαιότητα του προτεινόμενου μοντέλου διαχείρισης ιστοσελίδων, έγκειται στο ότι, εκτός από αυτόνομο εργαλείο διαχείρισης και οργάνωσης ιστοσελίδων, συνιστά το πρώτο επίπεδο επεξεργασίας σε ευρύτερο πεδίο εφαρμογών, όπως είναι η εξαγωγή περιλήψεων, η εξόρυξη πληροφορίας, η θεματικά προσανατολισμένη προσκομιδή ιστοσελίδων, ο υπολογισμός του ρυθμού μεταβολής των δεδομένων του Παγκόσμιου Ιστού, η ανίχνευση ιστοσελίδων με παραποιημένο περιεχόμενο, κτλ. / This dissertation addresses the incorporation of a semantic network into a set of Web-based applications for the effective management of Web content. Semantic networks are a kind of machine readable dictionaries, which encode semantic information for the lemmas they contain, where the latter are stored in a tree structure. Semantic networks store their contents in a similar way to the organization that Web pages exhibit on the Web graph; a feature that makes semantic networks readily usable by several Web applications that aim at the efficient management of the proliferating and constantly changing Web data. After an overview of the techniques that have been employed for managing the Web content, we propose and implement a novel Web data management model, which relies on an enriched semantic network for locating semantic similarities in the context of distinct Web pages. Based on these similarities, our model attempts and successfully achieves the automatic and effective indexing, categorization and ranking of the numerous pages that are available on the Web. For demonstrating the potential of our Web data management model, we adopt the navigation model in Web thematic directories and we experimentally show the contribution of semantic networks throughout the construction of Web catalogs. More specifically, we study the contribution of semantic networks in: (i) determining and enriching the thematic categories of Web directories, (ii) processing and disambiguating the contents of Web pages, (iii) automatically improving the thematic categories of Web directories, (iv) ordering Web pages that have been assigned in the respective categories of a Web directory, (v) managing the contents of Web directories in a way that ensures the availability of useful Web data to the directories’ users, and (vi) searching for information in the contents of Web directories. The contribution of our model is certified by the experimental results that we obtained from a numerous of testing applications that we run in the framework of our study. Obtained results demonstrate the contribution of semantic networks in the effective management of the dynamically evolving Web content. The practical outcome of the research presented herein, besides offering a fully-fledge infrastructure for the efficient manipulation and organization of the Web data, it can play a key role in the development of numerous applications, such as text summarization, information extraction, topical-focused crawling, measuring the Web’s evolution, spam detection, and so forth.
6

Μηχανισμοί και τεχνικές διαχείρισης, επεξεργασίας, ανάλυσης, κατηγοριοποίησης, εξαγωγής περίληψης και προσωποποίησης συχνά ανανεώσιμων δεδομένων του παγκόσμιου ιστού για παρουσίαση σε σταθερές και κινητές συσκευές

Πουλόπουλος, Βασίλειος 01 November 2010 (has links)
Ζούμε μία εποχή τεχνολογικών εξελίξεων και τεχνολογικών αλμάτων με το Διαδίκτυο να γίνεται ένας από τους βασικότερους εκφραστές των νέων τεχνολογικών τάσεων. Ωστόσο, ο τρόπος λειτουργίας του και δόμησής του παρουσιάζει εξαιρετικά μεγάλη ανομοιογένεια με αποτέλεσμα οι χρήστες να βρίσκονται συχνά μπροστά από αδιέξοδο στην προσπάθεια αναζήτησης πληροφορίας. Άλλωστε η ύπαρξη εκατομμυρίων domains οδηγεί σε δυσκολίες κατά την αναζήτηση πληροφορίας. Η έρευνα που πραγματοποιείται επικεντρώνεται στους δικτυακούς τόπους που αποτελούν πηγές ενημέρωσης και πιο συγκεκριμένα στα ειδησεογραφικά πρακτορεία ειδήσεων, αλλά και στα blogs. Μία απλή αναζήτηση αποκάλυψε περισσότερους από 40 δικτυακούς τόπους από μεγάλα ειδησεογραφικά πρακτορεία στην Αμερική. Αυτό σημαίνει πως στην προσπάθεια αναζήτησης μίας είδησης και δη, όλων των πτυχών της, κάποιος θα πρέπει να επισκεφθεί αν όχι όλους, τους περισσότερους από αυτούς τους δικτυακούς τόπους για να εντοπίσει στοιχεία για το θέμα που τον ενδιαφέρει. Σε αυτό το «πρόβλημα» ή έστω σε αυτή την επίπονη διαδικασία, έχει γίνει προσπάθεια να δοθούν λύσεις μέσα από τη χρήση των καναλιών επικοινωνίας RSS και μέσα από προσωποποιημένους δικτυακούς τόπους που διαθέτουν τα μεγάλα ειδησεογραφικά πρακτορεία ή ακόμα και από τους μηχανισμούς αναζήτησης που αυτοί διαθέτουν. Σε κάθε περίπτωση όμως, υπάρχουν σημαντικά μειονεκτήματα που συχνά οδηγούν και πάλι το χρήστη σε αδιέξοδο. Τα κανάλια επικοινωνίας δε φιλτράρουν πληροφορίες, τροφοδοτώντας τους RSS readers των χρηστών με πληθώρα πληροφοριών που δεν αφορούν τους χρήστες ή ακόμα είναι ενοχλητικές για αυτούς. Για παράδειγμα η προσθήκη δύο (2) μόνον καναλιών από Ελληνικά μεγάλα ειδησεογραφικά portals μας οδήγησε στη λήψη περισσότερων από 1000 ειδήσεων καθημερινά. Από την άλλη, η χρήση των microsites που έχουν οι δικτυακοί τόποι επιβάλει στους χρήστες την επίσκεψη σε όλους τους δικτυακούς τόπους που τους ενδιαφέρουν. Όσον αφορά στη χρήση των μηχανών αναζήτησης, ακόμα και οι πιο μεγάλες από αυτές συχνά επιστρέφουν εκατομμύρια αποτελέσματα στα ερωτήματα των χρηστών ή πληροφορίες που δεν είναι επικαιροποιημένες. Τέλος, επειδή οι δικτυακοί τόποι των ειδησεογραφικών πρακτορείων δεν έχουν κατασκευαστεί για να προσφέρουν εκτενείς υπηρεσίες αναζήτησης ειδήσεων, είναι συχνό το φαινόμενο είτε να μην προσφέρουν καθόλου υπηρεσία αναζήτησης, είτε η υπηρεσία που προσφέρουν να μη μπορεί να απαντήσει με δομημένα αποτελέσματα και αντί να βοηθά τους χρήστες να εντοπίσουν την πληροφορία που αναζητούν, να τους αποπροσανατολίζει. / We live an era of technology advances and huge technological steps where the Internet becomes a basic place of demonstration of the technology trends. Nevertheless, the way of operation and construction of the WWW is extremely uneven and this results in dead-ends when the users are trying to locate information. Besides the existence of billions of domains leads to difficulties in difficulties in recording all this information. The research that we are doing, is focused on websites that are sources of information and specifically news portals and informational blogs. A simple search on the Internet led to more than 40 large scale press agencies in America. This means that when trying to search for information and more specifically a news article in all its existences somebody has to visit all the websites. This problem, or at least this tedious task is of major concern of the research community. Many solutions were proposed in order to overcome the aforementioned issues with usage of RSS feeds or personalized microsites, or even analytical search applications. In any occasion there are many disadvantages that lead the user to a dead-end again. The RSS feeds do not filter information and they feed the user’s RSS readers with large amounts of information that most of it is not of the user’s concern. For example, a simple addition of 2 rss feeds from large Greek portals led to receipt of more that 1000 news articles within a day! On the other side, the usage of microsites that many websites support is a solution if and only if the user visits every single website and of course have and maintain an account to each one of them. The search engines are an alternative but lately, due to the expansion of the WWW, the results to simple queries are often million or the first results retrieved are outdated. Finally, the websites of the major news agencies are not directly constructed to offer extensive searching facilities and thus they usually offer search results through support of a large well-known search engine (eg. Google). According to the aforementioned the research that we are conducting is furthermore focused on the study of techniques and mechanisms that try to give a solution to the everyday issue of being informed about news and having a spherical opinion about an issue. The idea is simple and lies on the problem of the Internet: instead of letting the user do all the search of the news and information that meet their needs we collect all the informationand present them directly to the user, presenting only the information that meet their profile. This sounds pretty simple and logical, but the implementation we have to think of a number of prerequisites. The constraints are: the users of the Internet speak different languages and they want to see the news in their mother language and the users want access to the information from everywhere. This implies that we need a mechanism that would collect news articles from many – if not all – news agencies worldwide so that everybody can be informed. The news articles that we collect should be furthermore analyzed before presented to the users. In parallel we need to apply text pre-processing techniques, categorization and automatic summarization so that the news articles can be presented back to the user in a personalized manner. Finally, the mechanism is able to construct and maintain a user profile and present only articles that meet the profile of the user and not all the articles collected by the system. As it is obvious this is not a simple procedure. Substantially it a multilevel modular mechanism that implements and uses advanced algorithm on every level in order to achieve the required result. We are referring to eight different mechanisms that lead to the desired result. The systems are: 1. Retrieve news and articles from the Internet –advaRSS system 2. HTML page analysis and useful text extraction – CUTER system. 3. Preprocess and Natural Language Processing in order to extract keywords. 4. Categorization subsystem in order to construct ontologies that assigns texts to categories 5. Article Grouping mechanism (web application level) 6. Automatic Text Summarization 7. Web based User Personalization Mechanism 8. Application based User Personalization Mechanism The subsystems and system architecture is presented in figure 1: The procedure of fetching articles and news from the WWW is a procedure that includes algorithms that fetch data of the large database that is called internet. In this research we have included algorithms for instant retrieval of articles and the mechanism has furthermore mechanism for fetching HTML pages that include news articles. As a next step and provided that we own HTML pages with articles we have procedures for efficient useful text extraction. The HTML pages include the body of the article and information that are disrelated to the article like advertisements. Our mechanism introduces algorithms and systems for extraction of the original body of the text out of the aforementioned pages and omitting any irrelevant information. As a furthermore procedure of the same mechanism we try and extract multimedia related to the article. The aforementioned mechanism are communicating directly with the Internet.
7

Τεχνικές επαναδιατύπωσης ερωτημάτων στον παγκόσμιο ιστό για ανάκτηση πληροφορίας προσανατολισμένης στο σκοπό αναζήτησης / Query rewrites for goal oriented web searches

Κύρτσης, Νικόλαος 15 May 2012 (has links)
Στα πλαίσια της παρούσας διπλωματικής εργασίας, ασχολούμαστε με την αυτόματη κατηγοριοποίηση των αποτελεσμάτων των αναζητήσεων στον Παγκόσμιο Ιστό. Αρχικά, ορίζουμε τα χαρακτηριστικά των σελίδων που είναι κατάλληλα για κατηγοριοποίηση με βάση την πρόθεση του χρήστη. Έπειτα, με χρήση μεθόδων μείωσης της διαστατικότητας επιλέγουμε τα πιο αντιπροσωπευτικά από τα χαρακτηριστικά αυτά και αξιολογούμε την απόδοση διάφορων αλγορίθμων κατηγοριοποίησης. Ακολούθως, επιλέγουμε τον αλγόριθμο κατηγοριοποίησης που βασίζεται στα επιλεγμένα χαρακτηριστικά και επιτυγχάνει την καλύτερη απόδοση. Εφαρμόζοντας τον αλγόριθμο, κατηγοριοποιούμε τα αποτελέσματα των αναζητήσεων στον Παγκόσμιο Ιστό. Τέλος, προτείνουμε μια μέθοδο εξαγωγής όρων από τα κατηγοριοποιημένα αποτελέσματα και επαναδιατύπωσης του ερωτήματος με βάση τον σκοπό αναζήτησης του χρήστη. / In this thesis, we tackle the problem of automatic classification of search results in Web environment. First, we define web pages features that are convenient for classification based on the user’s intent. Next, we use dimensionality reduction techniques to choose the most representative features and we evaluate different classification algorithms. We choose the most efficient classification algorithm based on chosen features and by using it, we classify the results retrieved from web searches. In the end, we propose a method to extract terms from the classified results and to reformulate the query based on user intent.
8

Μέθοδοι αυτόματης αναγνώρισης περιεχομένου που παράγεται από χρήστες (User Generated Content) στον Παγκόσμιο ιστό

Λάμπος, Βασίλειος 08 May 2013 (has links)
Εκατομμύρια ανθρώπων επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό για ένα ευρύ σύνολο δραστηριοτήτων. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, όπως επίσης και το σύνολο των διαφορετικών δραστηριοτήτων που μπορούν να εκτελεστούν μέσω ιστοσελίδων και υπηρεσιών του διαδικτύου. Οι χρήστες του Παγκόσμιου Ιστού καθημερινά συμμετέχουν σε διάφορες ψηφιακές δραστηριότητες, οριοθετώντας με αυτόν τον τρόπο τη ψηφιακή τους «ζωή». Κάθε χρήστης μπορεί να στείλει μήνυμα με το ηλεκτρονικό ταχυδρομείο, να επικοινωνήσει και να δημιουργήσει σχέσεις με άλλους χρήστες του Παγκόσμιου Ιστού, να επισκεφτεί ιστότοπους για να ικανοποιήσει τις ενημερωτικές του ανάγκες ή να διατηρεί ένα προσωπικό προφίλ σε έναν ή περισσότερους ιστότοπους κοινωνικής δικτύωσης. Παράλληλα, όλο και περισσότεροι χρήστες του Παγκόσμιου Ιστού χρησιμοποιούν τα ηλεκτρονικά καταστήματα για τις αγορές τους, επιτυγχάνοντας την απευθείας σύνδεση της έρευνας αγοράς με την αγορά προϊόντων ή υπηρεσιών, ενώ ο σχολιασμός και οι απόψεις άλλων χρηστών για προϊόντα και υπηρεσίες αποτελεί άλλο ένα αναμφισβήτητο πλεονέκτημα των ηλεκτρονικών καταστημάτων. Αποτέλεσμα της αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου των κειμενικών δεδομένων που έχουν παραχθεί από χρήστες (user generated text content - UGTC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Οι δικτυακές κοινότητες αυξάνονται συνεχώς σε μέγεθος και αριθμό, ενώ ταυτόχρονα οι ιστότοποι και οι υπηρεσίες του Παγκόσμιου Ιστού προσφέρουν όλο και περισσότερες δυνατότητες στους χρήστες τους για να δημιουργήσουν, να συντηρήσουν και να δημοσιοποιήσουν περιεχόμενο κειμένου που έχει παραχθεί από τους ίδιους. Αποτέλεσμα της αλληλεπίδρασης των χρηστών αλλά και χρηστών και ιστοσελίδων, είναι ότι ένα αρκετά μεγάλο μέρος της διαδικτυακής πληροφορίας με το οποίο έρχεται σε επαφή ο μέσος χρήστης καθημερινά, έχει παραχθεί από άλλους χρήστες και όχι από τους δημιουργούς του ιστοτόπου. Η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης άποψης (opinion mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή ένα προϊόν. Μελέτες, όπως οι παραπάνω, είναι ιδιαίτερα χρήσιμες στην ανάπτυξη σύγχρονων εμπορικών εφαρμογών, που θα προσφέρουν στον καταναλωτή δυνατότητα πληρέστερης ενημέρωσης για τις συναλλαγές που πρόκειται να πραγματοποιήσει. Άλλες περιπτώσεις αφορούν στην ανάλυση των γλωσσολογικών χαρακτηριστικών των κειμενικών δεδομένων που έχουν συνταχθεί από χρήστες. Επίσης, η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες του Παγκόσμιου Ιστού είναι ιδιαίτερα σημαντική στη μελέτη του social web, καθώς είναι δυνατόν να προκύψουν χρήσιμα συμπεράσματα τόσο για την εξέλιξή του στο χώρο και στο χρόνο, όσο και για την περαιτέρω εξέλιξη του, προσφέροντας στους χρήστες νέες δυνατότητες μέσα από σύγχρονες εφαρμογές που θα αναπτυχθούν. Σε κάθε περίπτωση, το περιεχόμενο των ιστοσελίδων του Παγκόσμιου Ιστού μπορεί θεωρητικά να κατηγοριοποιηθεί σε δυο κατηγορίες: στα δεδομένα των δημιουργών των ιστοσελίδων και στα δεδομένα που προέκυψαν από τους χρήστες των ιστοσελίδων κατά την αλληλεπίδρασή τους με αυτές. Στόχος της παρούσας μελέτης είναι να μελετήσει το κατά πόσο είναι εφικτή και με ποιόν τρόπο η αυτόματη αναγνώριση ύπαρξης ή μη περιεχομένου κειμένου του Παγκόσμιου Ιστού που έχει παραχθεί από χρήστες. Στα πλαίσια της παρούσας μεταπτυχιακής εργασίας θα εντοπιστούν χαρακτηριστικά, τα οποία θα επιτρέψουν τον αυτόματο εντοπισμό των κειμενικών δεδομένων χρηστών σε μια ιστοσελίδα. Γενικά σε μια ιστοσελίδα υπάρχουν τρεις πηγές πληροφοριών, οι οποίες μπορούν να χρησιμοποιηθούν κατά τη διαδικασία προσδιορσμού του user generated content (UGC): το περιεχόμενο της ιστοσελίδας, το περιβάλλον εμφάνισής της (συνδεσιμότητα με άλλες σελίδες και anchor text) και η δομή της, η οποία περιγράφεται από τα html tags (πχ ο τίτλος της σελίδας, οι λέξεις που παρουσιάζονται με bold κλπ). Η προτεινόμενη μεθοδολογία συνίσταται στην εφαρμογή τεχνικών ανάλυσης της ιστοσελίδας που σκοπό έχουν τον καθορισμό ενός συνόλου χαρακτηριστικών γνωρισμάτων της (features). Το σύνολο των γνωρισμάτων αυτών αποτελείται από τρία επιμέρους είδη χαρακτηριστικών γνωρισμάτων, τα γλωσσολογικά χαρακτηριστικά γνωρίσματα (textual features), τα χαρακτηριστικά γνωρίσματα δομής της ιστοσελίδας (Html tags), και τα χαρακτηριστικά γνωρίσματα απεικόνισης ή εμφάνισης της ιστοσελίδας (Visual and Visually Central Features). Από τα καθορισμένα χαρακτηριστικά θα επιλεγούν πειραματικά εκείνα, τα οποία θα συμμετάσχουν αποδοτικότερα στον αλγόριθμο προσδιορισμού για την ύπαρξη user generated text content σε μια ιστοσελίδα. Η αξιολόγηση των αποτελεσμάτων της προτεινόμενης μεθόδου θα πραγματοποιηθεί βάσει ενός συνόλου δεδομένων ελέγχου. Τα δεδομένα ελέγχου αποτελούνται από μια συλλογή ιστοσελίδων, για τις οποίες έχει γίνει έλεγχος για το αν περιέχουν user generated text content. Η διαδικασία αξιολόγησης συνίσταται στην σύγκριση των αποτελεσμάτων του αλγορίθμου που προτείνουμε με τα αποτελέσματα που έχουν παραχθεί από την επεξεργασία του συνόλου δεδομένων ελέγχου. Τα συμπεράσματα που θα προκύψουν μπορούν να χρησιμοποιηθούν για την περεταίρω βελτίωση του αλγορίθμου προσδιορισμού ύπαρξης user generated text content, καθώς και για την αξιοποίηση τους σε τεχνικές ανάλυσης και επεξεργασίας του user generated text content από ιστοσελίδες του Παγκόσμιου Ιστού. / Millions of people every day use the Web for a wide range of activities. The number of Internet users is continuously growing, as well as all the different activities that can be performed through websites and Internet services. Web users daily participate in various digital activities, delimiting in this way their digital "life." Each user can send an e-mail, communicate and establish relationships with other web users, visit websites in order to satisfy his information needs, or keep a personal profile in one or more social networking sites. At the same time, more and more web users use online shopping for their purchases, achieving direct connection of the market research by buying products or services, while the commentations and the views of other users for goods and services is another undoubted advantage of online shops. The users’ increasing activity has as result the continuous raising of the volume data, generated by users (user generated content - UGTC) in Web pages. On-line communities are growing in size and number, while simultaneously websites and web services offer users more and more options, in order to create, preserve and publish text produced by them. Result of the interaction between users and the website users and websites, is that a large part of the online information, in which the user come daily in contact, is produced by others and not by the creators of the website. The study of the characteristics of the content obtained by users is a key point in a series of searching fields. Typical examples are the studies within the field of mining opinion (opinion mining), which are based on the content of users to catch their opinions on a topic or product. Studies such as the above, are particularly useful in the development of modern commercial applications that can offer the consumer better information for his transactions. Other cases concern the analysis of the linguistic characteristics of textual data compiled by users. Also, the study of the content characteristics generated by users of the World Wide Web is particularly important in the study of the social web, as well as it can yield useful results for both the evolution in space and time, and further development providing users with new capabilities through new applications, which are developed. In any case, the Web content could theoretically be categorized in two categories: data of Web pages creators and the data generated by web users when interacting with them. The aim of this study is to examine whether it is feasible and with which way the automatic recognition of the text content on the Web produced by users. In this thesis, it will be identified characteristics that allow the automatic detection of textual data of users to a website and its separation from the content that has been produced by the creators of the website. During the planning and design of the proposed method it will initially be studied the inherent characteristics of different types of websites, which are indicative of the presence of these text content users. It will also be studied the usefulness of linguistic and visual features for recognition textual data users at the site, in order to separate it from the official content, that is from content creators. Generally in a website there are three sources of information that can be used during the process of identifying user generated content (UGC): website content, setting of development (connectivity with other pages and anchor text) and its structure, which is described by the html tags (eg page title, words presented in bold, etc). The proposed methodology is recommended in applying technical analysis website aimed at defining a part of attributes (features). All these attributes consist of three kinds of features, textual features, features of the site structure (Html tags), and imaging features or appearance of the website (Visual and Visually Central Features). From the defined features it will experimentally be selected those, which will efficiently participate in the identification algorithm for the existence user generated text content on a website. The evaluation results of the proposed method will be held considering specific audit data. The audit data consist of a collection of web pages, which have already been checked whether they contain user generated text content. The process evaluation reccommends comparing the results of the proposed algorithm with the results obtained from processing all audit data. The conclusions can be used to further improvement of the identification algorithm existence of user generated text content, as well as to exploit them in technical analysis and processing of user generated text content from Web pages.
9

Εξόρυξη χωροχρονικών δεδομένων από τον ανθρώπινο εγκέφαλο και εφαρμογές στην ανίχνευση των επιληπτικών κρίσεων

Πίππα, Ευαγγελία 12 October 2013 (has links)
Αντικείμενο αυτής της εργασίας είναι η μελέτη τεχνικών για την ανάλυση δεδομένων που προέρχονται από συστήματα απεικόνισης της λειτουργίας του ανθρώπινου εγκεφάλου όπως το ηλεκτροεγκεφαλογράφημα. Σκοπός των τεχνικών ανάλυσης είναι η ανίχνευση συγκεκριμένων μορφών αυτών των σημάτων όπως για παράδειγμα οι επιληπτικές κρίσεις. Μία κρίση είναι μια παρέκκλιση στην ηλεκτρική δραστηριότητα του εγκεφάλου που παράγει αποδιοργανωτικά συμπτώματα για το άτομο και εκδηλώνεται κλινικά από εναλλαγή στη συμπεριφορά, στην κίνηση, στις αισθήσεις και στη συνειδητότητα. Οι κλινικές συμπεριφορές προηγούνται και στη συνέχεια συνοδεύονται από ηλεκτροεγκεφαλογραφικές αλλαγές. Η αυτόματη ανίχνευση των επιληπτικών κρίσεων μπορεί να αντιμετωπιστεί ως ένα πρόβλημα κατηγοριοποίησης των σημάτων σε κρίσεις ή όχι. Η ανίχνευση μπορεί να πραγματοποιηθεί σε δύο βήματα. Αρχικά εξάγονται χαρακτηριστικά που συλλαμβάνουν την μορφή και στη συνέχεια το διάνυσμα των χαρακτηριστικών δίνεται σε έναν εκπαιδευμένο κατηγοριοποιητή. / The subject of this work is the research of analysis techniques on data coming from neuroimaging systems such as Electroencephalogram. The aim of the data analysis techniques is the detection of specific morphologies of these signals such as the epileptic seizures. A seizure is a sudden breakdown of the neuronal activity of the brain that is clinically manifested by an involuntary alteration in behavior, movement, sensation, or consciousness. These clinical behaviors are preceded and then accompanied by electroencephalographic alterations. The automatic detection of epileptic seizures can be faced as a classification problem of the signals into seizures or non seizures. The detection can be carried out in two steps. Firstly, features which capture the morphology of the epileptic seizures are extracted and then the feature vector is given to an appropriately trained classifier.
10

Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο

Αραβαντινού, Χριστίνα 15 May 2015 (has links)
Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων που πρέπει να αντιμετωπιστούν. Η συσσώρευση παρόμοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώμη του για διάφορα θέματα ή περιγράφει στιγμιότυπα από τη ζωή του δημιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα μέσω των tweets, των δημοσιευμάτων σε ιστολόγια (blogs) και των αναρτήσεων στο Facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς μπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί βάσει δημογραφικών χαρακτηριστικών, όπως το φύλο ή η ηλικία. Άμεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έμμεσες πληροφορίες που μπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειμένων του χρήστη, αποτελούν σημαντικά δεδομένα που μπορούν να χρησιμοποιηθούν για την ανίχνευση του φύλου του συγγραφέα. Πιο συγκεκριμένα, η αναγνώριση του φύλου ενός χρήστη από δεδομένα κειμένου, μπορεί να αναχθεί σε ένα πρόβλημα κατηγοριοποίησης κειμένου. Το κείμενο υφίσταται επεξεργασία και στη συνέχεια, με τη χρήση μηχανικής μάθησης, εντοπίζεται το φύλο. Ειδικότερα, μέσω στατιστικής και γλωσσολογικής ανάλυσης των κειμένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εμφάνισης λέξεων, μέρη του λόγου, μήκος λέξεων, χαρακτηριστικά που συνδέονται με το περιεχόμενο κ.τ.λ.), τα οποία στη συνέχεια χρησιμοποιούνται για να γίνει η αναγνώριση του φύλου. Στην παρούσα διπλωματική εργασία σκοπός είναι η μελέτη και η ανάπτυξη ενός συστήματος κατηγοριοποίησης κειμένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, βάσει του φύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασμών χαρακτηριστικών και κατηγοριοποιητών στoν εντοπισμό του φύλου. / The rapid growth of social media in recent years creates important research tasks. The collection and management of the huge information available, based on topic, author, age or gender are some examples of the problems that need to be addressed. The gathering of such information from the digital traces of the users, when they express their opinions on different subjects or they describe moments of their lives, creates trends, which expand through tweets, blog posts and Facebook statuses. An interesting aspect is to classify all the available information, according to demographic characteristics, such as gender or age. The direct clues provided by the users about themselves, along with the indirect information that can come of the linguistic analysis of their texts, are useful elements that can be used for the identification of the authors’ gender. More specifically, the detection of the users’ gender from textual data can be faced as a document classification problem. The document is processed and then, machine learning techniques are applied, in order to detect the gender. The features used for the gender identification can be extracted from statistical and linguistic analysis of the document. In the present thesis, we aim to develop an automatic system for the classification of web blog and social media posts, according to their authors’ gender. We study the performance of different combinations of features and classifiers for the identification of the gender.

Page generated in 0.4624 seconds