Global ETD Search

1	Χρήση τεχνικών εξόρυξης γνώσης σε ιατρικά δεδομένα Ρήγας, Λάμπρος 25 May 2015 (has links) Γνωριμία με την διαδικασία εξόρυξης γνώσης από δεδομένα και εφαρμογή των τεχνικών εξόρυξης γνώσης σε ιατρικά δεδομένα ασθενών με την χρήση της πλατφόρμας αλγορίθμων μηχανικής μάθησης Weka. / Getting to the process of data mining and applying data mining techniques in medical data of patients with the use of machine learning algorithms platform Weka. Εξόρυξη δεδομένων 610.285 Data mining Weka
2	Συγκριτική μελέτη κατανεμημένων και παράλληλων αλγόριθμων παραγωγής κανόνων συσχέτισης Γερολυμάτος, Αντώνιος 23 August 2010 (has links) - / - Αλγόριθμοι Εξόρυξη δεδομένων 511.8 Algorithms Data mining
3	Data mining system for tree and network structures in medical images / Σύστημα εξόρυξης δεδομένων από τοπολογίες δένδρων και πλεγμάτων αναπαριστώμενων σε ιατρικές εικόνες Σκούρα, Αγγελική 24 November 2014 (has links) Ανατομικές δομές με δενδρική τοπολογία απαντώνται συχνά στο ανθρώπινο σώμα και οπτικοποιούνται σε ιατρικές εικόνες χρησιμοποιώντας απεικονιστικές τεχνικές με ακτίνες-χ και τη χρήση σκιαγραφικού υλικού. Χαρακτηριστικά παραδείγματα τέτοιων δομών είναι το βρογχικό δένδρο εντός των πνευμόνων το οποίο οπτικοποιείται με εικόνες αξονικής τομογραφίας και τα γαλακτοφόρα δένδρα εσωτερικά του μαστού τα οποία οπτικοποιούνται με γαλακτογραφίες. Σκοπός της παρούσας διδακτορικής διατριβής αποτελεί η ανάπτυξη ενός συνόλου αλγοριθμικών μεθόδων για την αυτοματοποίηση της ανάλυσης των ανατομικών δομών του ανθρωπίνου σώματος που έχουν τοπολογία δένδρου ή τοπολογία δικτύου. Πιο συγκεκριμένα, οι δύο βασικοί στόχοι της διατριβής είναι η ανάπτυξη μεθόδων ειδικά σχεδιασμένων για τη ψηφιακή επεξεργασία των ιατρικών εικόνων που απεικονίζουν δομές με διακλαδώσεις και η ανάπτυξη μεθοδολογικών πλαισίων για τη διερεύνηση της σχέσης μεταξύ τοπολογίας και παθοφυσιολογίας αυτού του τύπου ανατομικών δομών. Το πρώτο κεφάλαιο της διατριβής παρουσιάζει μια βιβλιογραφική ανασκόπηση σχετικά με τις ανατομικές δομές του ανθρωπίνου σώματος με τοπολογία διακλαδώσεων καθώς και το κίνητρο για την παρούσα έρευνα. Οι επιμέρους ερευνητικοί στόχοι, οι κύριες συνεισφορές και η γενικότερη απήχηση της διατριβής αναφέρονται επίσης. Το δεύτερο κεφάλαιο εστιάζει στην κατάτμηση εικόνας. Η κατάτμηση εικόνας αποτελεί το πρώτο βήμα στη διαδικασία ανάλυσης ιατρικών εικόνων και στα συστήματα αναγνώρισης προτύπων και οι αλγόριθμοι κατάτμησης αποτελούν κρίσιμα τμήματα των σύγχρονων ιατρικών διαγνωστικών συστημάτων. Παρά την πλούσια βιβλιογραφία στην περιοχή, η ανάγκη για αποδοτικές μεθοδολογίες κατάτμησης εφαρμόσιμες σε μεγάλο εύρος απεικονιστικών τεχνικών παραμένει. Προσπαθώντας να αντιμετωπιστεί αυτή η ερευνητική πρόκληση, μια καινοτόμα και πλήρως αυτοματοποιημένη μεθοδολογία για την κατάτμηση των δενδρικών ανατομικών δομών παρουσιάζεται. Η βασική ιδέα είναι ο συνδυασμός τεχνικών ανίχνευσης ακμών με μεθόδους ανάπτυξης περιοχών για να επιτευχθεί αποδοτική κατάτμηση. Η υβριδική αυτή προσέγγιση εφαρμόστηκε και αξιολογήθηκε σε δύο σύνολα δεδομένων ιατρικών εικόνων από διαφορετικές απεικονιστικές τεχνικές (γαλακτογραφίες και αγγειογραφίες) και η απόδοσή της συγκρίθηκε με τεχνικές κατάτμησης της υπάρχουσας τεχνολογικής στάθμης. Το τρίτο κεφάλαιο επικεντρώνεται στην ανίχνευση των κόμβων διακλάδωσης το οποίο συνιστά ένα σημαντικό υπολογιστικό στάδιο στα πλαίσια της επεξεργασίας των ιατρικών εικόνων που απεικονίζουν δομές δενδρικής τοπολογίας. Οι κόμβοι διακλάδωσης αποτελούν σημεία-κλειδιά για τον προσδιορισμό της θέσης του δένδρου και η σωστή ανίχνευσή τους είναι ένα σημαντική για την αυτοματοποίηση διαδικασιών επεξεργασίας εικόνας όπως ευθυγράμμιση εικόνας, κατάτμηση εικόνας και ανάλυση των προτύπων διακλάδωσης. Ωστόσο, η ανάπτυξη αυτοματοποιημένων τεχνικών για την ανίχνευση των κόμβων διακλάδωσης δυσχεραίνεται από τα διαφορετικά επίπεδα θορύβου που υπάρχουν κατά μήκος της δενδρικής δομής. Η προτεινόμενη μεθοδολογία ανίχνευσης απαρτίζεται από δύο κύρια στάδια: ανίχνευση γωνιακών σημείων σε διάφορες κλίμακες και προσδιορισμό της θέσης της διακλάδωσης. Η βασική συνεισφορά της νέας μεθοδολογίας είναι η χρήση ενός τοπικά προσαρμοζόμενου κατωφλιού κατά τη φάση της ανίχνευσης προκειμένου να αντιμετωπιστεί αποδοτικά η ανίχνευση των σημείων διακλάδωσης που βρίσκονται στα χαμηλά δενδρικά επίπεδα. Η αξιολόγηση της μεθόδου πραγματοποιήθηκε χρησιμοποιώντας ένα σύνολο δεδομένων από κλινικές γαλακτογραφίες και η απόδοσης της συγκρίνεται με αντίστοιχες τεχνικές της υπάρχουσας τεχνολογικής στάθμης. Στο τέταρτο κεφάλαιο παρουσιάζονται καινοτόμες μεθοδολογίες για τον χαρακτηρισμό και την κατηγοριοποίηση των ανατομικών δενδρικών δομών στοχεύοντας στη διερεύνηση της συσχέτισης μεταξύ τοπολογίας και παθολογίας των αντίστοιχων οργάνων. Οι μέθοδοι περιλαμβάνουν κατηγοριοποίηση χρησιμοποιώντας περιγραφικά χαρακτηριστικά της τοπολογίας όπως η δενδρική ασυμμετρία, η χωρική κατανομή των σημείων διακλάδωσης, η στρεβλότητα των κλάδων και άλλα γεωμετρικά χαρακτηριστικά του δένδρου. Επιπρόσθετα σε αυτό το κεφάλαιο, ένα νέο μεθοδολογικό πλαίσιο προτείνεται για την ανάλυση δενδρικών τοπολογιών χρησιμοποιώντας διανύσματα που κωδικοποιούν τις σχέσεις παιδιού-γονέα των κόμβων και ελαστικό ταίριασμα μεταξύ των ακολουθιών. Η υπεροχή της νέας αυτής μεθόδου έναντι των μεθόδων της υπάρχουσας τεχνολογικής στάθμης για την κατηγοριοποίηση δένδρων αξιολογήθηκε πειραματικά ως προς ευαισθησία, ειδικότητα και ακρίβεια. Στο πέμπτο κεφάλαιο μελετώνται τεχνικές συλλογικής μάθησης. Η ενοποίηση πολλαπλών αλγορίθμων μηχανικής μάθησης συνιστά σημαντική πρόοδο για τις μεθοδολογίες κατηγοριοποίησης και βασίζεται στην ιδέα του συνδυασμού των προβλέψεων ενός πλήθους κατηγοριοποιητών με σκοπό τη μεγιστοποίηση της ακρίβειας κατηγοριοποίησης. Τρεις τεχνικές συνδυαστικής μάθησης βασισμένες στην τεχνική της ενδυνάμωσης (boosting) και η χρήση ενός συνδυαστικού κανόνα που ονομάζεται Πρότυπο Απόφασης (Decision Template) χρησιμοποιούνται για τη βελτιστοποίηση της ακρίβειας που επιτυγχάνουν οι κατηγοριοποιητές βάσης. Τα πειραματικά αποτελέσματα επιβεβαιώνουν την υπεροχή των μεθόδων συλλογικής μάθησης. Κλείνοντας, τα συμπεράσματα της διατριβής παρουσιάζονται στο έκτο κεφάλαιο. Οι περιορισμοί των προτεινόμενων τεχνικών καθώς και οι προοπτικές για επιπρόσθετη ερευνητική εργασία αναλύονται. / Anatomical structures of branching topology are frequently met in the human body and are visualized in medical images using various image acquisition modalities. Examples of such structures include the bronchial tree in chest computed tomography images, the blood vessels in retinal images and the breast ductal network in x-ray galactograms. The current thesis aims at the development of a set of automated methods for the analysis of anatomical structures of tree and network topology. More specifically, the two main objectives include (i) the development of image processing methods for optimized visualization of anatomical branching structures, and (ii) the development of analysis frameworks sin order to explore the association between topology and pathophysiology of anatomical branching structures. The first chapter of the thesis presents a literature review regarding anatomical structures of the human body with branching topology and the motivation for this thesis. The specific research objectives, the main contributions and the impact of the thesis are also demonstrated. The second chapter focuses on image segmentation. Image segmentation is the first step of medical image analysis and pattern recognition systems and segmentation algorithms are critical components of today radiological diagnostic systems. Despite the large number of existing segmentation algorithms, the need for effective methodologies applicable to a range of imaging modalities still remains. Towards this challenge a novel and fully automated methodology for segmenting anatomical branching structures is presented. The main idea is the integration of edge detection techniques with region growing methods to achieve robust segmentation. The hybrid approach is applied and evaluated in two datasets of branching structures from different imaging modalities (x-ray galactograms and vasculature angiograms) and is compared to state-of-the-art segmentation techniques. The third chapter presents the image processing stage of detecting branching nodes of anatomical structures in medical images. The branching nodes are the key components for tree localization as well as topology modelling and node detection is a very important first step towards the automated processing of these structures including image registration, segmentation and analysis of branching patterns. Developing automated techniques for node detection is a very challenging task due to different levels of noise fluctuations throughout across tree levels. The proposed methodology of node detection consists of two main steps; multi-scale corner detection and branching localization. The main contribution of this work is the use of locally adaptive thresholding in the corner detection phase in order to facilitate node detection at lower tree levels. The evaluation of the methodology using a dataset of clinical galactograms and its comparison with state-of-the-art methods is also presented. In the forth chapter, novel methodologies for the classification of anatomical tree-shape structures are presented aiming at providing new insights into the association between topology and underlying pathology. The methods include classification using descriptive features of the branching topology such as the tree asymmetry index, the spatial distribution of branching nodes, the branch tortuosity and other geometry-based tree features. Additionally, in this chapter a novel framework is presented to analyze tree topologies using representative encodings of parent-child node relationships and elastic sequence matching techniques. The superiority of the new methods over state-of-the-art techniques in terms of sensitivity, specificity and accuracy is evaluated experimentally. In the fifth chapter the potential of ensemble learning schemes is explored. Ensemble schemes are important developments in classification methodology and are based on the idea to combine the predictions of multiple classifiers in order to maximize the classification accuracy. Three ensemble learning techniques based on the boosting technique and an effective combination rule named Decision Template are employed to optimize the accuracy of base classifiers. The experimental results confirm the superiority of ensemble techniques. Finally the conclusions of the thesis are presented in the sixth chapter. The limitations of the proposed approach and the perspectives for further work are discussed. Εξόρυξη δεδομένων Δενδρικές δομές 006.312 Data mining Branching structures
4	Μέθοδοι ανακάλυψης γνώσης από δεδομένα στην πρόβλεψη αφερεγγυότητας χρηστών τηλεπικοινωνιακών υπηρεσιών Κοπανάς, Ιωάννης 22 June 2010 (has links) - / - Εξόρυξη δεδομένων Μηχανική μάθηση 006.3 Data mining Machine learning
5	Τεχνικές text mining για την συγκριτική ανάλυση νοήματος κειμένου Πλώτα, Δέσποινα 27 December 2010 (has links) Τις τελευταίες δεκαετίες έχουν παραχθεί ασύλληπτα μεγάλες ποσότητες δεδομένων από διάφορες διεργασίες που έχουν οργανωθεί με χρήση υπολογιστικών συστημάτων. Το μεγαλύτερο βέβαια ποσό των δεδομένων βρίσκεται σε μορφή κειμένων και αυτός ο τύπος των μη δομημένων στοιχείων στερείται συνήθως «τα στοιχεία για τα στοιχεία». Η ανάγκη λοιπόν για την αυτοματοποιημένη εξαγωγή χρήσιμης γνώσης από τεράστια ποσά κειμενικών στοιχείων προκειμένου να βοηθηθεί η ανθρώπινη ανάλυση είναι προφανής. Η εξόρυξη κειμένου (text mining) είναι ένας νέος ερευνητικός τομέας που προσπαθεί να επιλύσει το πρόβλημα της υπερφόρτωσης πληροφοριών με την χρησιμοποίηση των τεχνικών από την εξόρυξη από δεδομένα (data mining), την μηχανική μάθηση (machine learning), την επεξεργασία φυσικής γλώσσας (natural language processing), την ανάκτηση πληροφορίας (information retrieval), την εξαγωγή πληροφορίας (information extraction) και τη διαχείριση γνώσης (Knowledge management). Βασιζόμενοι λοιπόν σε αυτήν την τεχνική εξόρυξης κειμένου παρουσιάζουμε σε αυτή την διπλωματική εργασία μια μεθοδολογία εξαγωγής γνώσης από κείμενο με απώτερο σκοπό την απόδοση της πατρότητας δυο έργων σε συγκεκριμένο συγγραφέα. Το κύριο θέμα ενδιαφέροντος είναι το εξής: είναι η Ιλιάδα και Οδύσσεια έργα του ίδιου ποιητή; Η μεθοδολογία μας βασίζεται στην ανάλυση του «σημαινόμενου» παρά του «σημαίνοντος» στην Ιλιάδα και στην Οδύσσεια. Σε μία πρώτη φάση μετασχηματίζουμε τα δεδομένα: διατηρήθηκαν μόνο τα ουσιαστικά, τα ρήματα, τα επίθετα και τα επιρρήματα τα οποία οργανώθηκαν σε ομάδες συνωνύμων, όπου κάθε ομάδα αντιπροσωπεύει μία έννοια. Επιλέξαμε να κάνουμε ανάλυση των σχέσεων μεταξύ αυτών των εννοιών. Έτσι μετατρέψαμε όλες τις προτάσεις στο κείμενο, σε προτάσεις οι οποίες αποτελούνται μόνο από αυτές τις έννοιες, απαλείφοντας φυσικά τα διπλότυπα. Στη συνέχεια μετασχηματίσαμε το κείμενο σε μια δομημένη μορφή, ώστε να μπορέσουμε να το αποθηκεύσουμε σε «εγγραφές» μιας βάσης δεδομένων. Συγκεκριμένα, θεωρήσαμε συνεχή τμήματα κειμένου σαν τέτοιες «εγγραφές». Πειραματιστήκαμε ορίζοντας είτε μία πρόταση είτε δύο συνεχόμενες ως «εγγραφή», χρησιμοποιώντας τον Apriori αλγόριθμο για να εξάγουμε «κανόνες συσχέτισης» της μορφής «90% των εγγραφών που περιέχουν την έννοια χ περιέχουν και την έννοια y». Εξάγαμε ένα μεγάλο αριθμό ισχυρών συσχετίσεων μεταξύ ίδιων εννοιών και στα δυο ποιήματα (π.χ. «γη»-«άνδρας»). Υπάρχουν επίσης συσχετίσεις μεταξύ διαφορετικών εννοιών (π.χ. «μάχη»-«άνδρας» μόνο στην Ιλιάδα) και διαφορετικές συσχετίσεις για την ίδια έννοια (π.χ. «ήρωας»-«μάχη» στην Ιλιάδα και «ήρωας»-«κατοικία» στην Οδύσσεια). Όμως, δεν βρήκαμε καμία αντίθεση. Αυτά τα αποτελέσματα ενδεχομένως να οδηγούν στο συμπέρασμα ότι ο Όμηρος έγραψε και τα δυο έπη. / What is generally called “the Homeric question” is by far the oldest author-attribution problem. The Homeric question really encompasses several issues, e.g. are the Iliad and Odyssey each work of a single poet? In this paper we try to answer the question using a data mining technique. Data mining is an emerging research area that develops techniques for knowledge discovery in huge volumes of data. Data mining methods have been applied to a wide variety of domains, from market basket analysis to the analysis of satellite pictures and human genomes. More specifically, in this paper, we present an application of data mining in discovering whether a document is ascribed to a writer. Our methodology is based on analyzing rather the content than the syntax. More specifically, we propose a technique for mining association rules, in order to analyze associations amongst concepts. We, also demonstrate the results of the analyses which we have undertaken using this algorithm. Εξόρυξη δεδομένων Πατρότητα κειμένου 006.312 Text mining Author attribution problem
6	Κρυπτογραφία και εξόρυξη δεδομένων Γολέμη, Ελένη 21 October 2011 (has links) Στην παρούσα εργασία καταγράφεται μία μεθοδολογία για τον συνδυασμό των επιστημών της Κρυπτογραφίας και της Εξόρυξης Δεδομένων. Με τον προτεινόμενο αλγόριθμο είναι δυνατόν η εξόρυξη δεδομένων χωρίς τη γνώση των ίδιων των δεδομένων και προστατεύοντας τα ίδια τα δεδομένα με πολλαπλούς τρόπους. Ο κάτοχος της βάσης δεδομένων απλά μπορεί στη συνέχεια να αποκρυπτογραφήσει με ασφάλεια τους κανόνες που προέκυψαν από την ανάλυση. / This paper describes a methodology for the combination of Cryptography and Data Mining. We propose an algorithm that makes possible the successful data mining without revealing the data itself and maximizing the security. A database owner can later safely decrypt the results of the data mining classification analysis. Κρυπτογραφία Εξόρυξη δεδομένων Κατηγοριοποίηση 006.3 Cryptography Data mining Classification
7	Εφαρμογή αλγορίθμων εξόρυξης δεδομένων σε εικόνες / Application of data mining algorithm in images Ζαχαρία, Ελισάβετ 26 July 2013 (has links) H παρούσα εργασία ασχολείται με τεχνικές εξόρυξης δεδομένων από εικόνες. Παρουσιάζει κάποια βασικά θεωρητικά στοιχεία σχετικά με τις διάφορες μεθόδους, και στη συνέχεια εστιάζει στην υλοποίηση της τεχνικής dynamic recursive partitioning (DRP), που αναφέρεται ειδικά σε εξόρυξη δεδομένων σε σχέση με εικόνες. Η συγκεκριμένη τεχνική μελετήθηκε έτσι ώστε να καθοριστούν και να χαρακτηριστούν συγκεκριμένα μορφομετρικά χαρακτηριστικά ανάμεσα σε ανατομικές δομές / εικόνες εγκεφάλων, για ιατρικές εφαρμογές. Στόχος είναι να αποδειχτεί ότι η μέθοδος αυτή μειώνει τον απαιτούμενο αριθμό στατιστικών τεστ σε σχέση με άλλες αντίστοιχες μεθόδους, όπως για παράδειγμα σε σχέση με τη μέθοδο ανάλυσης κατά pixel. Όπως φάνηκε η μέθοδος DRP αποδίδει έχοντας εξίσου καλά και ικανοποιητικά αποτελέσματα με την μέθοδο ανάλυσης κατά pixel. Ταυτόχρονα όμως, η χρήση της DRP έχει ως αποτέλεσμα να χρησιμοποιείται σαφώς μικρότερος αριθμός στατιστικών τεστ, για την εξόρυξη των δεδομένων από τις εικόνες και την καταγραφή των περιοχών των εικόνων με τις σημαντικότερες μορφολογικές διαφοροποιήσεις, με την μείωση αυτή να φτάνει ως και το 50%. / This dissertation deals with methods of data mining from images. It presents a basic theoretical background regarding the several different methods, and then it focuses on a specific technique called dynamic recursive partitioning (DRP). The specific technique was examined in order to define some basic morphological characteristics between anatomical structures / images of brains for medical applications. The main target was to prove that this method reduces the necessary number of statistical tests with respect to other similar methods. As it was shown, DRP indeed performs at least the same as other methods. At the same time, its usage results in a significantly lower number of statistical tests, in order to perform data mining from the images and extract the areas of images with the most important morphological differences. This reduction of statistical tests reaches almost 50%. Εξόρυξη δεδομένων Τεχνική DRP 006.312 Data mining
8	Ανάπτυξη μεθόδων αυτόματης αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκοσμίου ιστού Μαλαγκονιάρη, Διονυσία 15 December 2014 (has links) Είναι γεγονός ότι ολοένα και περισσότεροι άνθρωποι επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό προκειμένου να εκτελέσουν ένα ευρύ φάσμα δραστηριοτήτων το οποίο προσφέρεται μέσα από αυτόν. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, καθώς επίσης και το σύνολο των ποικίλων δραστηριοτήτων που μπορούν να εκτελεστούν μέσω των ιστοσελίδων. Όμως, έχει παρατηρηθεί ότι τα τελευταία χρόνια πέρα από πηγή πληροφόρησης, ο Παγκόσμιος Ιστός αποτελεί και ένα σημαντικότατο μέσο έκφρασης για τους ανθρώπους αλλά και επικοινωνίας μεταξύ τους. Εκατομμύρια χρηστών του Παγκόσμιου Ιστού χρησιμοποιούν καθημερινά εφαρμογές του διαδικτύου μέσω των οποίων αλληλεπιδρούν. Κάθε ένας λοιπόν από αυτούς τους χρήστες μπορεί ελεύθερα να εκφράσει την άποψή του πάνω σε διάφορα ζητήματα που τον απασχολούν, να σχολιάσει της απόψεις των άλλων χρηστών αλλά και να επικοινωνήσει με αυτούς. Σύμφωνα με τα παραπάνω λοιπόν, οι χρήστες του διαδικτύου μπορούν να επιλέξουν ανάμεσα σε πολλά μέσα που είναι διαθέσιμα όπως ιστολόγια, φόρουμ, ιστότοπους και μέσα κοινωνικής δικτύωσης προκειμένου να επικοινωνούν. Αρκετό ερευνητικό ενδιαφέρον παρουσιάζει η συλλογή, ανάλυση και αξιολόγηση δεδομένων από τον Παγκόσμιο Ιστό που έχουν παραχθεί από χρήστες. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει ο συσχετισμός του χρήστη με το κείμενο που έχει παράξει, και η αναγνώριση κάποιων κοινωνικών χαρακτηριστικών του, όπως για παράδειγμα, αν ο χρήστης του κειμένου χ είναι άνδρας ή γυναίκα. Μια τέτοια αναγνώριση είναι δυνατή με τον εντοπισμό αντιπροσωπευτικών γνωρισμάτων ανδρικής ή γυναικείας γραφής και λόγου σε κειμενικά δεδομένα χρηστών. Η μελέτη λοιπόν των χαρακτηριστικών του περιεχομένου το οποίο έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης πληροφορίας (text mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή για ένα προϊόν. Ως αποτέλεσμα λοιπόν, της συνεχώς αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου δεδομένων που έχουν παραχθεί από χρήστες (User Generated Content - UGC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Συγκεκριμένα, το πεδίο UGC ([1],[2]) ασχολείται με την αναγνώριση και εξόρυξη web περιεχομένου που έχει παραχθεί από τους χρήστες. Σε αυτό το σημείο είναι σημαντικό να αναφέρουμε ότι οι παραπάνω μελέτες που αναφέραμε είναι αρκετά χρήσιμες στην ανάπτυξη ερευνητικών αλλά και εμπορικών εφαρμογών. Στόχος της προτεινόμενης διπλωματικής εργασίας είναι η μελέτη δεδομένων κειμένου τα οποία θα αντλήσουμε από τον Παγκόσμιο Ιστό, εστιάζοντας στα διαφοροποιητικά χαρακτηριστικά που θα εντοπιστούν τα οποία στη συνέχεια θα βοηθήσουν στην υλοποίηση του συστήματος το οποίο θα μπορεί με όσο το δυνατόν μεγαλύτερο ποσοστό ακρίβειας να εντοπίζει το φύλο του χρήστη που έχει δημιουργήσει κείμενο στον Παγκόσμιο Ιστό. Μια τέτοια προσπάθεια είναι ιδιαίτερα ενδιαφέρουσα και σημαντική, καθώς καλείται να συμβάλλει στην ερευνητική δραστηριότητα σε αυτό το σχετικά νέο πεδίο ([3], [4]). Η αναγνώριση του φύλου ενός χρήστη, χωρίς σε καμία περίπτωση να θίγεται η ανωνυμία του και τα προσωπικά του δεδομένα, βασίζεται μόνο σε κειμενικά του δεδομένα μπορεί να αποτελέσει ένα ιδιαίτερο εργαλείο με πολλές εφαρμογές. Μια σημαντική εφαρμογή αυτού εργαλείου μπορεί να αποτελέσει και η στοχευμένη διαφήμιση. Στα πλαίσια της προτεινόμενης διπλωματικής θα ακολουθηθούν τα παρακάτω βήματα. Αρχικά θα μελετηθεί η απαραίτητη βιβλιογραφία, η οποία θα μας παρέχει την απαραίτητη θεωρητική γνώση των επιστημονικών πεδίων που αφορούν στην έρευνά μας, αλλά και τις υπάρχουσες μεθοδολογίες και τεχνικές. Στη συνέχεια θα προχωρήσουμε με τη συλλογή των δεδομένων που θα χρησιμοποιήσουμε κατά τη διάρκεια της εργασίας μας. Από τα κειμενικά δεδομένα που θα συλλέξουμε αλλά και τη βιβλιογραφική επισκόπηση θα προκύψει και η αναγνώριση και η εξαγωγή των χαρακτηριστικών που θα μας βοηθήσουν στην ανίχνευση του γυναικείου/ανδρικού λόγου σε ένα δοκιμαστικό σύνολο δεδομένων. Το επόμενο βήμα θα αποτελεί η ανάπτυξη μετρικών κατηγοριοποίησης κειμένων χρήστη ανάλογα με το φύλο του. Τελειώνοντας, θα αξιολογηθεί αυτή η προσπάθεια κατηγοριοποίησης, ώστε να υλοποιηθεί κατάλληλο σύστημα αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκόσμιου Ιστού. / It is a fact that more and more people choose daily to use the World Wide Web to perform a wide range of activities which are offered through it. The number of internet users is increasing, as well as all the various activities that can be performed through the WebPages. However, it has been observed recently that apart from an information source, the Web is a very important expression tool for people and communication between them. Millions of web users use daily internet applications through which they interact. Each of these users can freely express his opinion on various issues that concern him, to comment on the opinions of other users and communicate with them. According to the above, Internet users can choose among many available means to communicate such as blogs , forums , websites and social media. The collection, analysis and evaluation of data from the Web produced by users, is interesting in terms of research. Also of particular interest is the correlation between the user and the text that has produced, and the recognition of some social features, such as if the user of the text x is a man or woman. Such recognition is possible by identifying representative features of male or female writing and speech in user’s text data. Therefore the study of content characteristics that have been produced by users is a key point in a number of research fields. An example are the studies within the field of data mining (text mining), which are based on the users content in order to fish their opinions on a topic or product. As a result, the growing user activity is constantly increasing the volume of data generated by users (User Generated Content - UGC) sites on the Web. Specifically, the scope UGC ([1], [2]) deals with the recognition and extraction of web content produced by users. At this point it is important to mention that the above studies are quite useful in developing research and commercial applications. The purpose of this project is to analyze the text data that we took from the Web, focusing on distinctive features that will be identified, which will later help to be implemented into the system resulting in the gender of the user who created the text on the Web. Such effort is particularly interesting and important, as contributes to research in this relatively new field ( [3 ] , [4 ] ) . Recognizing the gender of a user, without in any way affecting the anonymous and personal data, based only on text data can be a special tool with many applications. A major application of this tool can also be targeted advertising. This thesis will follow the steps below. Initially we will study the necessary literature, which will provide us with the necessary theoretical knowledge in scientific fields related to our research, but also the existing methodologies and techniques. Then we will proceed with the collection of data that will be used during our work. From the text data we collected and literature review, the recognition and extraction of features will occur that will help us to detect the female / male ratio in a test dataset. The next step is to develop categorizing text metrics according to user’s gender. Finally, we evaluate this categorization effort in order to implement an appropriate system that identifies the sex of users in texts of the Web. Εξόρυξη δεδομένων Παγκόσμιος ιστός Φύλο χρήστη Μηχανική μάθηση 006.312 Data mining World Wide Web UCG WEKA
9	Ανίχνευση παραποιημένων λογιστικών καταστάσεων και πρόβλεψη πτωχεύσεων επιχειρήσεων με μεθόδους εξόρυξης δεδομένων Τσίντζου, Αθηνά 07 May 2015 (has links) Τα μεγάλα εταιρικά σκάνδαλα των τελευταίων δεκαετιών, το ανταγωνιστικό οικονομικό περιβάλλον και οι πιέσεις που υφίστανται τα στελέχη των επιχειρήσεων να πετύχουν όλο και υψηλότερους στόχους, σηματοδοτούν μια νέα απειλή για το χρηματοοικονομικό σύστημα: την παραποίηση των λογιστικών καταστάσεων. Παράλληλα, πληθαίνουν οι επιχειρήσεις που κηρύσσουν πτώχευση εξαιτίας παραποίησης λογιστικών καταστάσεων. Χαρακτηριστικό παράδειγμα η Enron η οποία παρά την ανοδική της πορεία, ειδικότερα μετά τα μέσα της δεκαετίας του 1990, κήρυξε πτώχευση λίγες εβδομάδες μετά την αποκάλυψη ότι είχαν παραποιηθεί οι λογιστικές της καταστάσεις. Μια πολλά υποσχόμενη λύση σε προβλήματα πρόβλεψης παραποιημένων λογιστικών καταστάσεων και πτώχευσης επιχειρήσεων αποτελεί η μηχανική μάθηση. Κύριος στόχος η δημιουργία αλγορίθμων που μέσα από την εμπειρική απόκτηση και ενοποίηση γνώσεων παρέχει τη δυνατότητα αυτόματης επίλυσης περίπλοκων προβλημάτων. Σκοπός της εργασίας αυτής είναι η πρόβλεψη παραποιημένων λογιστικών καταστάσεων και η πτώχευση επιχειρήσεων με μεθόδους εξόρυξης δεδομένων. Αρχικά εισάγονται οι βασικές έννοιες των χρηματοοικονομικών καταστάσεων και αναλύονται θέματα σχετικά με τη σημασία τους για μια επιχείρηση. Στη συνέχεια εισάγονται οι όροι της χρηματοοικονομικής αποτυχίας και αναλύονται τα κύρια μοντέλα που συνήθως χρησιμοποιούνται για την έγκαιρη πρόβλεψη της χρηματοοικονομικής αποτυχίας. Όσον αφορά τη μηχανική μάθηση γίνεται αναφορά στις βασικές έννοιες, στις τεχνικές εξόρυξης γνώσης και αναλύονται οι σημαντικότερες τεχνικές ταξινόμησης. Χρησιμοποιείται ένας αντιπροσωπευτικός αλγόριθμος για κάθε μία από τις βασικότερες τεχνικές ταξινόμησης στη διερεύνηση της αποτελεσματικότητάς τους στην πρόβλεψη παραποιημένων λογιστικών καταστάσεων και πτώχευσης επιχειρήσεων. Μέσω ενός αυτοματοποιημένου συστήματος (στατιστικό πακέτο R), παρουσιάζονται τα αποτελέσματα της πειραματικής διαδικασίας και αξιολογούνται οι δημοφιλέστεροι αλγόριθμοι μηχανικής μάθησης: o αλγόριθμος C4.5 [45] ως αντιπροσωπευτικός των δέντρων απόφασης, ο RBF [46] των Τεχνητών Νευρωνικών Δικτύων, ο αλγόριθμος RIPPER [47] ως αντιπροσωπευτικός της μάθησης με κανόνες και ο αλγόριθμος Bagging ως αντιπροσωπευτικός των ομάδων ταξινομητών. Επιπλέον, χρησιμοποιήσαμε τον αλγόριθμο SMO (Sequential Minimal Optimization) ως αντιπροσωπευτικό για τις Μηχανές Διανυσμάτων Υποστήριξης [48]. Για τα σύνολα δεδομένων που χρησιμοποιήσαμε κατά την πειραματική διαδικασία ο αλγοριθμος RBF εμφανίζεται ακριβέστερος κατά την πρόβλεψη τόσο στο πρόβλημα πρόβλεψης πτώχευσης επιχειρήσεων όσο και στο πρόβλημα πρόβλεψης παραποίησης λογιστικών καταστάσεων. Τέλος, στα πλαίσια της παρούσας διπλωματικής εργασίας υλοποιήθηκαν δύο εφαρμογές σε javascript, οι οποίες περιλαμβάνουν τα κυριότερα κριτήρια – αριθμοδείκτες που μπορούν να προβλέψουν την πιθανότητα πτώχευση μιας επιχείρησης και την πιθανότητα παραποίηση των λογιστικών καταστάσεων. / -- Εξόρυξη δεδομένων 519.507 1 Data mining Business bankruptsy
10	Αναπαράσταση και κατηγοριοποίηση δενδρικών δομών από ιατρικά δεδομένα Σκούρα, Αγγελική 03 August 2009 (has links) Το θέμα της παρούσας διπλωματικής εργασίας είναι η ανάκτηση πληροφορίας από δενδρικές δομές που εμφανίζονται σε ιατρικές εικόνες. Η διάγνωση με την βοήθεια ηλεκτρονικών υπολογιστών είναι ένας ευρέως αναπτυσσόμενος κλάδος της πληροφορικής καθώς υποβοηθά το ιατρικό έργο. Συχνά στην ιατρική απαιτείται αξιολόγηση δεδομένων που προκύπτουν από εικόνες (π.χ. απλή ακτινογραφία, αξονική τομογραφία). Οι ιατρικές αυτές εικόνες παρουσιάζουν τη μορφολογία διαφόρων οργάνων του ανθρώπινου σώματος. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση ιατρικών εικόνων με τη βοήθεια προγραμμάτων που κατασκευάζουμε προκειμένου να αυτοματοποιηθεί η διαδικασία της διάγνωσης. Οι ιατρικές εικόνες τις οποίες μελετάμε απεικονίζουν δενδρικές δομές από ιστούς του ανθρώπινου σώματος. Πιο συγκεκριμένα, γίνεται προσπάθεια να εντοπιστούν εκείνα τα χαρακτηριστικά των δενδρικών δομών που συμβάλλουν με ακρίβεια στη διάγνωση του ασθενούς. Παλιότερες εργασίες έχουν αποδείξει ότι η ανάλυση της μορφολογίας αυτών των δενδρικών δομών μπορεί να χρησιμοποιηθεί για την εξόρυξη περιγραφικών χαρακτηριστικών που διακρίνουν τους ασθενείς από τους μη ασθενείς. Αυτοματοποιημένες τεχνικές ανάλυσης των εικόνων αυτών έχουν ήδη χρησιμοποιηθεί για την ανίχνευση πρώιμων σταδίων όγκων του εγκεφάλου, καρκίνου του μαστού και τρισδιάστατη ανάλυση της μορφολογίας των αεραγωγών στον πνεύμονα. Η μέθοδός μας προσπαθεί να βελτιώσει τα αποτελέσματα από προηγούμενες μεθόδους αναλύοντας την εικόνα, ώστε να μοντελοποιηθεί η δενδρική δομή που υπάρχει. Με βάση τη δενδρική δομή λαμβάνονται μετρήσεις αρκετών παραμέτρων, όπως το πλήθος των διακλαδώσεων, η χωρική πυκνότητα των διακλαδώσεων (ανάλυση Sholl) και ο δείκτης ασυμμετρίας. Βάσει των παραπάνω μετρήσεων, γίνεται κατηγοριοποίηση των εξεταζόμενων ασθενών σε δύο κλάσεις (ασθενείς με ευρήματα και ασθενείς χωρίς ευρήματα). Τέλος, γίνεται αξιολόγηση της προτεινόμενης μεθόδου με κριτήρια την ευαισθησία και ειδικότητά της σχετικά με τον εντοπισμό ευρημάτων. Η έρευνά μας μπορεί να βρει εφαρμογές στην ανίχνευση ευρημάτων που οδηγούν σε καρκίνο του στήθους. Στην περίπτωση αυτή οι ιατρικές εικόνες που εξετάζονται είναι γαλακτογραφίες (είδος ακτινογραφίας που χρησιμοποιείται κατά την εξέταση του στήθους). Επίσης, μπορεί να εφαρμοστεί στις δενδρικές δομές που υπάρχουν στο πυελοκαλυκικό σύστημα των νεφρών. Καταλήγοντας, η μέθοδος αυτή μπορεί να χρησιμοποιηθεί στη σύγκριση και την κατηγοριοποίηση ιστών ή τμημάτων του ανθρωπίνου σώματος που αποτελούνται από δενδρικές δομές. / - Εξόρυξη δεδομένων Δενδρικές δομές Γαλακτογραφία Καρκίνος στήθους 616.075 4 Data mining Tree structures Galactography Breast cancer

Search results