• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 70
  • Tagged with
  • 72
  • 70
  • 55
  • 44
  • 25
  • 18
  • 15
  • 15
  • 14
  • 13
  • 12
  • 10
  • 9
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Χρήση τεχνικών εξόρυξης γνώσης σε ιατρικά δεδομένα

Ρήγας, Λάμπρος 25 May 2015 (has links)
Γνωριμία με την διαδικασία εξόρυξης γνώσης από δεδομένα και εφαρμογή των τεχνικών εξόρυξης γνώσης σε ιατρικά δεδομένα ασθενών με την χρήση της πλατφόρμας αλγορίθμων μηχανικής μάθησης Weka. / Getting to the process of data mining and applying data mining techniques in medical data of patients with the use of machine learning algorithms platform Weka.
2

Διαδραστική εξατομίκευση ιστοσελίδων / Adaptive site customization

Τζέκου, Παρασκευή 14 November 2007 (has links)
Η εκρηκτική αύξηση του μεγέθους των δεδομένων που είναι διαθέσιμα στο Δίκτυο καθώς και η ποικιλία των εργασιών οι οποίες μπορούν να πραγματοποιηθούν μέσω του Δικτύου έχουν αυξήσει σημαντικά την νομισματική αξία της κίνησης στο Δίκτυο. Για να κερδίσουν από αυτή την αναπτυσσόμενη αγορά, οι διαχειριστές ιστοσελίδων προσπαθούν να αυξήσουν την κίνηση χρηστών στην ιστοσελίδα τους, διαμορφώνοντάς τη κατάλληλα έτσι ώστε να ικανοποιεί τις ανάγκες συγκεκριμένων χρηστών. Η διαμόρφωση και η παραμετροποίηση των ιστοσελίδων παρουσιάζει δύο μεγάλες προκλήσεις: την αποτελεσματική αναγνώριση των ενδιαφερόντων κάθε χρήστη και την ενσωμάτωση των ενδιαφερόντων του στην παρουσίαση και στο περιεχόμενο της ιστοσελίδας. Σε αυτή την εργασία μελετάται ο τρόπος με τον οποίο μπορούμε να αναγνωρίσουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη χρησιμοποιώντας τα μοτίβα πλοήγησης και παρουσιάζεται ένας καινοτόμος μηχανισμός προτάσεων ο οποίος εφαρμόζει τεχνικές εξόρυξης στο Δίκτυο για να πραγματοποιήσει τη συσχέτιση μεταξύ των ενδιαφερόντων του χρήστη και του περιεχομένου και της δομής της ιστοσελίδας. Στόχος της τεχνικής που παρουσιάζεται είναι να παραμετροποιηθεί η σελίδα για κάθε συγκεκριμένο χρήστη με βάση τα ενδιαφέροντά του. Η πειραματική αξιολόγηση αποδεικνύει ότι είναι δυνατόν να συμπεράνουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη από την συμπεριφορά του κατά την πλοήγηση και ότι ο μηχανισμός προτάσεων, ο οποίος χρησιμοποιεί τα συμπεράσματα για τα ενδιαφέροντα του χρήστη, έχει σαν αποτέλεσμα σημαντικές βελτιώσεις στη λειτουργικότητα μιας ιστοσελίδας. / The explosive growth of online data and the diversity of goals that may be pursued over the web have significantly increased the monetary value of the web traffic. To tap into this accelerating market, web site operators try to increase their traffic by customizing their sites to the needs of specific users. Web site customization involves two great challenges: the effective identification of the user interests and the encapsulation of those interests into the sites’ presentation and content. In this paper, we study how we can effectively detect the user interests that are hidden behind navigational patterns and we introduce a novel recommendation mechanism that employs web mining techniques for correlating the identified interests to the sites’ semantic content, in order to customize them to specific users. Our experimental evaluation shows that the user interests can be accurately detected from their navigational behavior and that our recommendation mechanism, which uses the identified interests, yields significant improvements in the sites’ usability.
3

Συγκριτική μελέτη κατανεμημένων και παράλληλων αλγόριθμων παραγωγής κανόνων συσχέτισης

Γερολυμάτος, Αντώνιος 23 August 2010 (has links)
- / -
4

Εφαρμογή τεχνικών data mining σε συστήματα ηλεκτρονικού εμπορίου

Κουρής, Γιάννης Ν. 17 June 2009 (has links)
Η παρούσα διατριβή ασχολήθηκε με την εφαρμογή τεχνικών data mining σε συστήματα ηλεκτρονικού εμπορίου. Για να είμαστε πιο ακριβείς επικεντρωθήκαμε στην εύρεση κανόνων συσχετίσεων από δεδομένα, και κύρια δεδομένα που είχαν να κάνουν με βάσεις συναλλαγών. Η βασική ιδέα ενός κανόνα συσχετίσεως είναι να αναπτύξει μια συστηματική μέθοδο με την οποία ένας χρήστης μπορεί να προβλέψει την εμφάνιση κάποιων αντικειμένων, δοσμένης της ύπαρξης κάποιων άλλων σε μια συναλλαγή, και συνήθως αποτελούν συνεπαγωγές της μορφής Χ=>Y. Παράδειγμα ενός τέτοιου κανόνα είναι: “οι πελάτες που αγοράζουν κινητά τηλέφωνα και handsfree αγοράζουν και θήκη για το κινητό τους”. Τα τελευταία χρόνια είχε γίνει κοινός τόπος όλων των μελετών και των ερευνητών οι αδυναμίες και τα μειονεκτήματα του μοντέλου εύρεσης κανόνων συσχετίσεων. Στόχος μας ήταν να επιλύσουμε υπάρχοντα προβλήματα αλλά και να εκθέσουμε και να αντιμετωπίσουμε κάποια νέα. Σαν σύγγραμμα η παρούσα διατριβή μπορεί να χωριστεί σε τρία κομμάτια. Το πρώτο είναι τα τρία πρώτα κεφάλαια, τα οποία και αποτελούν εισαγωγικά κεφάλαια απαραίτητα για την υποστήριξη και κατανόηση της δουλειάς μας. Ακολούθως τα κεφάλαια 4 έως 8 αποτελούν το δεύτερο και κύριο κομμάτι της παρούσας διατριβής, και περιγράφουν διάφορες τεχνικές και προτάσεις μας, αποτελέσματα της ερευνάς μας. Το τρίτο και τελευταίο κομμάτι της διατριβής, αναφορικά το Κεφάλαιο 9, αποτελεί την σύνοψη ολόκληρης της εργασίας μας όπου παραθέτουμε εν συντομία την τελική προσφορά μας στο χώρο, δίνουμε πιθανές εφαρμογές των προτάσεων μας, και τέλος προτείνουμε μελλοντικές κατευθύνσεις της έρευνας σε ανοιχτά πεδία – προβλήματα. / -
5

Τεχνικές για προσαρμοστική και προσωποποιημένη πρόσβαση σε ιστοσελίδες

Τσάκου, Αναστασία 10 June 2014 (has links)
Ο μεγάλος όγκος σελίδων και υπηρεσιών στο Διαδίκτυο αρκετές φορές δημιουργεί προβλήματα πλοήγησης με αποτέλεσμα η αναζήτηση εγγράφων και πληροφοριών να είναι μια εξαιρετικά χρονοβόρα και δύσκολη διαδικασία. Για το λόγο αυτό είναι απαραίτητη η πρόβλεψη των αναγκών των χρηστών με στόχο τη βελτίωση της χρηστικότητας του Διαδικτύου αλλά και της παραμονής του χρήστη σε έναν δικτυακό τόπο. Ο στόχος αυτής της διπλωματικής εργασίας είναι αρχικά να παρουσιάσει μεθόδους και τεχνικές που χρησιμοποιούνται για την εξατομίκευση και προσαρμογή στα ενδιαφέροντα του χρήστη, δικτυακών τόπων. Η εξατομίκευση περιλαμβάνει τη χρήση πληροφοριών που προέρχονται από τα ενδιαφέρονται και τη συμπεριφορά πλοήγησης του χρήστη σε συνδυασμό με το περιεχόμενο και τη δομή του δικτυακού τόπου. Στη συνέχεια παρουσιάζεται ένα σύστημα αναδιοργάνωσης της δομής ενός δικτυακού τόπου, του οποίου η υλοποίηση βασίστηκε στη δημοτικότητα των σελίδων για κάθε χρήστη όπως αυτή προκύπτει από τα log αρχεία που διατηρεί ο server του δικτυακού τόπου. Τέλος, το σύστημα αυτό εφαρμόζεται σε έναν πειραματικό δικτυακό τόπο και γίνεται αξιολόγηση των αποτελεσμάτων εφαρμογής του. / The large number of web pages on many Web sites has raised navigation problems. As a result, users often miss the goal of their inquiry, or receive ambiguous results when they try to navigate through them. Therefore, the requirement for predicting user needs in order to improve the usability and user retention of a Web Site is more than ever, indispensable. The primary purpose of this thesis is to explore methods and techniques for improving or “personalizing” Web Sites. Web personalization includes any action that adapts the information or services provided by a Web site to the needs of a particular user or a set of users, taking advantage of the knowledge gained from the users’ navigation behavior and interests in combination with the content and structure of the Web Site. Secondly, this thesis describes the implementation of a tool (reorganization software) which parses log files and uses specific metrics related to web page accesses, in order to reorganize the structure of a web site according to its users’ preferences. Finally, the tool is applied in an experimental Web Site and the results of this reorganization process are evaluated.
6

Data mining system for tree and network structures in medical images / Σύστημα εξόρυξης δεδομένων από τοπολογίες δένδρων και πλεγμάτων αναπαριστώμενων σε ιατρικές εικόνες

Σκούρα, Αγγελική 24 November 2014 (has links)
Ανατομικές δομές με δενδρική τοπολογία απαντώνται συχνά στο ανθρώπινο σώμα και οπτικοποιούνται σε ιατρικές εικόνες χρησιμοποιώντας απεικονιστικές τεχνικές με ακτίνες-χ και τη χρήση σκιαγραφικού υλικού. Χαρακτηριστικά παραδείγματα τέτοιων δομών είναι το βρογχικό δένδρο εντός των πνευμόνων το οποίο οπτικοποιείται με εικόνες αξονικής τομογραφίας και τα γαλακτοφόρα δένδρα εσωτερικά του μαστού τα οποία οπτικοποιούνται με γαλακτογραφίες. Σκοπός της παρούσας διδακτορικής διατριβής αποτελεί η ανάπτυξη ενός συνόλου αλγοριθμικών μεθόδων για την αυτοματοποίηση της ανάλυσης των ανατομικών δομών του ανθρωπίνου σώματος που έχουν τοπολογία δένδρου ή τοπολογία δικτύου. Πιο συγκεκριμένα, οι δύο βασικοί στόχοι της διατριβής είναι η ανάπτυξη μεθόδων ειδικά σχεδιασμένων για τη ψηφιακή επεξεργασία των ιατρικών εικόνων που απεικονίζουν δομές με διακλαδώσεις και η ανάπτυξη μεθοδολογικών πλαισίων για τη διερεύνηση της σχέσης μεταξύ τοπολογίας και παθοφυσιολογίας αυτού του τύπου ανατομικών δομών. Το πρώτο κεφάλαιο της διατριβής παρουσιάζει μια βιβλιογραφική ανασκόπηση σχετικά με τις ανατομικές δομές του ανθρωπίνου σώματος με τοπολογία διακλαδώσεων καθώς και το κίνητρο για την παρούσα έρευνα. Οι επιμέρους ερευνητικοί στόχοι, οι κύριες συνεισφορές και η γενικότερη απήχηση της διατριβής αναφέρονται επίσης. Το δεύτερο κεφάλαιο εστιάζει στην κατάτμηση εικόνας. Η κατάτμηση εικόνας αποτελεί το πρώτο βήμα στη διαδικασία ανάλυσης ιατρικών εικόνων και στα συστήματα αναγνώρισης προτύπων και οι αλγόριθμοι κατάτμησης αποτελούν κρίσιμα τμήματα των σύγχρονων ιατρικών διαγνωστικών συστημάτων. Παρά την πλούσια βιβλιογραφία στην περιοχή, η ανάγκη για αποδοτικές μεθοδολογίες κατάτμησης εφαρμόσιμες σε μεγάλο εύρος απεικονιστικών τεχνικών παραμένει. Προσπαθώντας να αντιμετωπιστεί αυτή η ερευνητική πρόκληση, μια καινοτόμα και πλήρως αυτοματοποιημένη μεθοδολογία για την κατάτμηση των δενδρικών ανατομικών δομών παρουσιάζεται. Η βασική ιδέα είναι ο συνδυασμός τεχνικών ανίχνευσης ακμών με μεθόδους ανάπτυξης περιοχών για να επιτευχθεί αποδοτική κατάτμηση. Η υβριδική αυτή προσέγγιση εφαρμόστηκε και αξιολογήθηκε σε δύο σύνολα δεδομένων ιατρικών εικόνων από διαφορετικές απεικονιστικές τεχνικές (γαλακτογραφίες και αγγειογραφίες) και η απόδοσή της συγκρίθηκε με τεχνικές κατάτμησης της υπάρχουσας τεχνολογικής στάθμης. Το τρίτο κεφάλαιο επικεντρώνεται στην ανίχνευση των κόμβων διακλάδωσης το οποίο συνιστά ένα σημαντικό υπολογιστικό στάδιο στα πλαίσια της επεξεργασίας των ιατρικών εικόνων που απεικονίζουν δομές δενδρικής τοπολογίας. Οι κόμβοι διακλάδωσης αποτελούν σημεία-κλειδιά για τον προσδιορισμό της θέσης του δένδρου και η σωστή ανίχνευσή τους είναι ένα σημαντική για την αυτοματοποίηση διαδικασιών επεξεργασίας εικόνας όπως ευθυγράμμιση εικόνας, κατάτμηση εικόνας και ανάλυση των προτύπων διακλάδωσης. Ωστόσο, η ανάπτυξη αυτοματοποιημένων τεχνικών για την ανίχνευση των κόμβων διακλάδωσης δυσχεραίνεται από τα διαφορετικά επίπεδα θορύβου που υπάρχουν κατά μήκος της δενδρικής δομής. Η προτεινόμενη μεθοδολογία ανίχνευσης απαρτίζεται από δύο κύρια στάδια: ανίχνευση γωνιακών σημείων σε διάφορες κλίμακες και προσδιορισμό της θέσης της διακλάδωσης. Η βασική συνεισφορά της νέας μεθοδολογίας είναι η χρήση ενός τοπικά προσαρμοζόμενου κατωφλιού κατά τη φάση της ανίχνευσης προκειμένου να αντιμετωπιστεί αποδοτικά η ανίχνευση των σημείων διακλάδωσης που βρίσκονται στα χαμηλά δενδρικά επίπεδα. Η αξιολόγηση της μεθόδου πραγματοποιήθηκε χρησιμοποιώντας ένα σύνολο δεδομένων από κλινικές γαλακτογραφίες και η απόδοσης της συγκρίνεται με αντίστοιχες τεχνικές της υπάρχουσας τεχνολογικής στάθμης. Στο τέταρτο κεφάλαιο παρουσιάζονται καινοτόμες μεθοδολογίες για τον χαρακτηρισμό και την κατηγοριοποίηση των ανατομικών δενδρικών δομών στοχεύοντας στη διερεύνηση της συσχέτισης μεταξύ τοπολογίας και παθολογίας των αντίστοιχων οργάνων. Οι μέθοδοι περιλαμβάνουν κατηγοριοποίηση χρησιμοποιώντας περιγραφικά χαρακτηριστικά της τοπολογίας όπως η δενδρική ασυμμετρία, η χωρική κατανομή των σημείων διακλάδωσης, η στρεβλότητα των κλάδων και άλλα γεωμετρικά χαρακτηριστικά του δένδρου. Επιπρόσθετα σε αυτό το κεφάλαιο, ένα νέο μεθοδολογικό πλαίσιο προτείνεται για την ανάλυση δενδρικών τοπολογιών χρησιμοποιώντας διανύσματα που κωδικοποιούν τις σχέσεις παιδιού-γονέα των κόμβων και ελαστικό ταίριασμα μεταξύ των ακολουθιών. Η υπεροχή της νέας αυτής μεθόδου έναντι των μεθόδων της υπάρχουσας τεχνολογικής στάθμης για την κατηγοριοποίηση δένδρων αξιολογήθηκε πειραματικά ως προς ευαισθησία, ειδικότητα και ακρίβεια. Στο πέμπτο κεφάλαιο μελετώνται τεχνικές συλλογικής μάθησης. Η ενοποίηση πολλαπλών αλγορίθμων μηχανικής μάθησης συνιστά σημαντική πρόοδο για τις μεθοδολογίες κατηγοριοποίησης και βασίζεται στην ιδέα του συνδυασμού των προβλέψεων ενός πλήθους κατηγοριοποιητών με σκοπό τη μεγιστοποίηση της ακρίβειας κατηγοριοποίησης. Τρεις τεχνικές συνδυαστικής μάθησης βασισμένες στην τεχνική της ενδυνάμωσης (boosting) και η χρήση ενός συνδυαστικού κανόνα που ονομάζεται Πρότυπο Απόφασης (Decision Template) χρησιμοποιούνται για τη βελτιστοποίηση της ακρίβειας που επιτυγχάνουν οι κατηγοριοποιητές βάσης. Τα πειραματικά αποτελέσματα επιβεβαιώνουν την υπεροχή των μεθόδων συλλογικής μάθησης. Κλείνοντας, τα συμπεράσματα της διατριβής παρουσιάζονται στο έκτο κεφάλαιο. Οι περιορισμοί των προτεινόμενων τεχνικών καθώς και οι προοπτικές για επιπρόσθετη ερευνητική εργασία αναλύονται. / Anatomical structures of branching topology are frequently met in the human body and are visualized in medical images using various image acquisition modalities. Examples of such structures include the bronchial tree in chest computed tomography images, the blood vessels in retinal images and the breast ductal network in x-ray galactograms. The current thesis aims at the development of a set of automated methods for the analysis of anatomical structures of tree and network topology. More specifically, the two main objectives include (i) the development of image processing methods for optimized visualization of anatomical branching structures, and (ii) the development of analysis frameworks sin order to explore the association between topology and pathophysiology of anatomical branching structures. The first chapter of the thesis presents a literature review regarding anatomical structures of the human body with branching topology and the motivation for this thesis. The specific research objectives, the main contributions and the impact of the thesis are also demonstrated. The second chapter focuses on image segmentation. Image segmentation is the first step of medical image analysis and pattern recognition systems and segmentation algorithms are critical components of today radiological diagnostic systems. Despite the large number of existing segmentation algorithms, the need for effective methodologies applicable to a range of imaging modalities still remains. Towards this challenge a novel and fully automated methodology for segmenting anatomical branching structures is presented. The main idea is the integration of edge detection techniques with region growing methods to achieve robust segmentation. The hybrid approach is applied and evaluated in two datasets of branching structures from different imaging modalities (x-ray galactograms and vasculature angiograms) and is compared to state-of-the-art segmentation techniques. The third chapter presents the image processing stage of detecting branching nodes of anatomical structures in medical images. The branching nodes are the key components for tree localization as well as topology modelling and node detection is a very important first step towards the automated processing of these structures including image registration, segmentation and analysis of branching patterns. Developing automated techniques for node detection is a very challenging task due to different levels of noise fluctuations throughout across tree levels. The proposed methodology of node detection consists of two main steps; multi-scale corner detection and branching localization. The main contribution of this work is the use of locally adaptive thresholding in the corner detection phase in order to facilitate node detection at lower tree levels. The evaluation of the methodology using a dataset of clinical galactograms and its comparison with state-of-the-art methods is also presented. In the forth chapter, novel methodologies for the classification of anatomical tree-shape structures are presented aiming at providing new insights into the association between topology and underlying pathology. The methods include classification using descriptive features of the branching topology such as the tree asymmetry index, the spatial distribution of branching nodes, the branch tortuosity and other geometry-based tree features. Additionally, in this chapter a novel framework is presented to analyze tree topologies using representative encodings of parent-child node relationships and elastic sequence matching techniques. The superiority of the new methods over state-of-the-art techniques in terms of sensitivity, specificity and accuracy is evaluated experimentally. In the fifth chapter the potential of ensemble learning schemes is explored. Ensemble schemes are important developments in classification methodology and are based on the idea to combine the predictions of multiple classifiers in order to maximize the classification accuracy. Three ensemble learning techniques based on the boosting technique and an effective combination rule named Decision Template are employed to optimize the accuracy of base classifiers. The experimental results confirm the superiority of ensemble techniques. Finally the conclusions of the thesis are presented in the sixth chapter. The limitations of the proposed approach and the perspectives for further work are discussed.
7

Γλωσσολογικές πηγές για τεχνικές εξόρυξης γνώμης (opinion mining) προσαρμοσμένες στις ιδιαιτερότητες της Νέας Ελληνικής

Δεμπέλης, Νικόλαος 15 December 2014 (has links)
Η έρευνα στην παρούσα εργασία εστιάζει στην εξόρυξη γνώμης/ συναισθήματος. Στόχος είναι η θεωρητική μελέτη των γλωσσολογικών τεχνικών και πόρων που χρησιμοποιούνται στη διαδικασία της εξόρυξη γνώμης/ συναισθήματος και η υλοποίηση μέρους ενός συστήματος για την δημιουργία ενός τέτοιου γλωσσολογικού πόρου. Η εφαρμογή που αναπτύχθηκε στα πλαίσια της εργασίας επιτρέπει στους χρήστες να «ψηφίζουν» για την πολικότητα επιθέτων (αν το επίθετο έχει θετική, αρνητική ή ουδέτερη έννοια) της ελληνικής γλώσσας σε μια 5-βάθμια κλίμακα (από -2 έως 2). / This essay focuses on opinion/sentiment mining. It aims in a theoretical study of computational linguistic means and techniques that are used in the process of opinion/sentiment mining and in the development of a part of a system to implement such a linguistic mean. The application developed in the frame of this essay allows users to vote in a 5-scale (from -2 to 2) the polarity (positive, negative, neutral) of Greek adjectives.
8

Ομάδες ταξινομητών για την αύξηση της ακρίβειας των μεθόδων μηχανικής μάθησης και εξόρυξης γνώσης / Improving the accuracy of machine learning and data mining techniques using ensembles of classifiers

Κωτσιαντής, Σωτήρης 24 June 2007 (has links)
Στην περίπτωση της αναζήτησης της βέλτιστης ακρίβειας από ένα σύστημα εξόρυξης γνώσης είναι αδύνατο ένας αλγόριθμος που βασίζεται σε μια και μόνο μέθοδο μηχανικής μάθησης να υπερτερεί σε ακρίβεια μιας ομάδας ταξινομητών. Γι’ αυτό το λόγο θα παρουσιαστούν διάφοροι προτεινόμενοι νέοι τρόποι συνδυασμού των αποφάσεων των αλγορίθμων μάθησης οι οποίοι αναπτύχθηκαν στα πλαίσια της διατριβής. Επίσης, θα παρουσιαστεί ένας προτεινόμενος υβριδικός τρόπος επιλογής των ανεξάρτητων μεταβλητών για τους αλγόριθμους μάθησης. Στη συνέχεια, θα παρουσιαστούν κάποιοι νέοι προτεινόμενοι αλγόριθμοι που αναπτύχθηκαν για την αντιμετώπιση προβλημάτων ειδικής δυσκολίας όπως η μάθηση: α) σε ανομοιογενή δεδομένα, β) σε προβλήματα πραγματικού χρόνου και γ) σε προβλήματα βαθμωτής συνάρτησης στόχου. Τέλος, περιγράφεται η δυνατότητα χρησιμοποίησης των μεθόδων μηχανικής μάθησης για εκπαιδευτικούς σκοπούς, όπως στην πρόβλεψη της επίδοσης των φοιτητών στο Ανοιχτό Πανεπιστήμιο. Στη συνέχεια, θα παρουσιαστεί και ένα εργαλείο υποστήριξης των αποφάσεων που αναπτύχθηκε για αυτό το σκοπό. Η παρουσίαση τελειώνει παραθέτοντας κάποια ανοιχτά επιστημονικά ζητήματα του χώρου. / Ensembles of classifiers is a new direction for the improvement of the classification accuracy. For this reason, we present a number of new proposed methods for combining classifiers. We also introduce a new hybrid method for feature selection that is a very important step of the data mining process. Moreover, we present a number of new algorithms for handling special learning problems such as: a) problems with imbalanced datasets, b) real time problems and c) ordinal classification problems. Furthermore, we have used machine learning techniques for educational applications.
9

Μέθοδοι ανακάλυψης γνώσης από δεδομένα στην πρόβλεψη αφερεγγυότητας χρηστών τηλεπικοινωνιακών υπηρεσιών

Κοπανάς, Ιωάννης 22 June 2010 (has links)
- / -
10

Τεχνικές text mining για την συγκριτική ανάλυση νοήματος κειμένου

Πλώτα, Δέσποινα 27 December 2010 (has links)
Τις τελευταίες δεκαετίες έχουν παραχθεί ασύλληπτα μεγάλες ποσότητες δεδομένων από διάφορες διεργασίες που έχουν οργανωθεί με χρήση υπολογιστικών συστημάτων. Το μεγαλύτερο βέβαια ποσό των δεδομένων βρίσκεται σε μορφή κειμένων και αυτός ο τύπος των μη δομημένων στοιχείων στερείται συνήθως «τα στοιχεία για τα στοιχεία». Η ανάγκη λοιπόν για την αυτοματοποιημένη εξαγωγή χρήσιμης γνώσης από τεράστια ποσά κειμενικών στοιχείων προκειμένου να βοηθηθεί η ανθρώπινη ανάλυση είναι προφανής. Η εξόρυξη κειμένου (text mining) είναι ένας νέος ερευνητικός τομέας που προσπαθεί να επιλύσει το πρόβλημα της υπερφόρτωσης πληροφοριών με την χρησιμοποίηση των τεχνικών από την εξόρυξη από δεδομένα (data mining), την μηχανική μάθηση (machine learning), την επεξεργασία φυσικής γλώσσας (natural language processing), την ανάκτηση πληροφορίας (information retrieval), την εξαγωγή πληροφορίας (information extraction) και τη διαχείριση γνώσης (Knowledge management). Βασιζόμενοι λοιπόν σε αυτήν την τεχνική εξόρυξης κειμένου παρουσιάζουμε σε αυτή την διπλωματική εργασία μια μεθοδολογία εξαγωγής γνώσης από κείμενο με απώτερο σκοπό την απόδοση της πατρότητας δυο έργων σε συγκεκριμένο συγγραφέα. Το κύριο θέμα ενδιαφέροντος είναι το εξής: είναι η Ιλιάδα και Οδύσσεια έργα του ίδιου ποιητή; Η μεθοδολογία μας βασίζεται στην ανάλυση του «σημαινόμενου» παρά του «σημαίνοντος» στην Ιλιάδα και στην Οδύσσεια. Σε μία πρώτη φάση μετασχηματίζουμε τα δεδομένα: διατηρήθηκαν μόνο τα ουσιαστικά, τα ρήματα, τα επίθετα και τα επιρρήματα τα οποία οργανώθηκαν σε ομάδες συνωνύμων, όπου κάθε ομάδα αντιπροσωπεύει μία έννοια. Επιλέξαμε να κάνουμε ανάλυση των σχέσεων μεταξύ αυτών των εννοιών. Έτσι μετατρέψαμε όλες τις προτάσεις στο κείμενο, σε προτάσεις οι οποίες αποτελούνται μόνο από αυτές τις έννοιες, απαλείφοντας φυσικά τα διπλότυπα. Στη συνέχεια μετασχηματίσαμε το κείμενο σε μια δομημένη μορφή, ώστε να μπορέσουμε να το αποθηκεύσουμε σε «εγγραφές» μιας βάσης δεδομένων. Συγκεκριμένα, θεωρήσαμε συνεχή τμήματα κειμένου σαν τέτοιες «εγγραφές». Πειραματιστήκαμε ορίζοντας είτε μία πρόταση είτε δύο συνεχόμενες ως «εγγραφή», χρησιμοποιώντας τον Apriori αλγόριθμο για να εξάγουμε «κανόνες συσχέτισης» της μορφής «90% των εγγραφών που περιέχουν την έννοια χ περιέχουν και την έννοια y». Εξάγαμε ένα μεγάλο αριθμό ισχυρών συσχετίσεων μεταξύ ίδιων εννοιών και στα δυο ποιήματα (π.χ. «γη»-«άνδρας»). Υπάρχουν επίσης συσχετίσεις μεταξύ διαφορετικών εννοιών (π.χ. «μάχη»-«άνδρας» μόνο στην Ιλιάδα) και διαφορετικές συσχετίσεις για την ίδια έννοια (π.χ. «ήρωας»-«μάχη» στην Ιλιάδα και «ήρωας»-«κατοικία» στην Οδύσσεια). Όμως, δεν βρήκαμε καμία αντίθεση. Αυτά τα αποτελέσματα ενδεχομένως να οδηγούν στο συμπέρασμα ότι ο Όμηρος έγραψε και τα δυο έπη. / What is generally called “the Homeric question” is by far the oldest author-attribution problem. The Homeric question really encompasses several issues, e.g. are the Iliad and Odyssey each work of a single poet? In this paper we try to answer the question using a data mining technique. Data mining is an emerging research area that develops techniques for knowledge discovery in huge volumes of data. Data mining methods have been applied to a wide variety of domains, from market basket analysis to the analysis of satellite pictures and human genomes. More specifically, in this paper, we present an application of data mining in discovering whether a document is ascribed to a writer. Our methodology is based on analyzing rather the content than the syntax. More specifically, we propose a technique for mining association rules, in order to analyze associations amongst concepts. We, also demonstrate the results of the analyses which we have undertaken using this algorithm.

Page generated in 0.04 seconds