Global ETD Search

31	Τεχνικές εξόρυξης γνώσης με χρήση σημασιολογιών από δεδομένα πλοήγησης χρηστών (web usage log mining) με σκοπό την εξατομίκευση δικτυακών τόπων / Knowledge extraction techniques using semantics of web usage log mining in order to personalize websites Θεοδωρίδης, Ιωάννης-Βασίλειος 06 May 2009 (has links) Η παρούσα Διπλωματική Εργασία μελετά το θέμα της προσωποποίησης - εξατομίκευσης δικτυακών τόπων. Αρχικά, παρουσιάζεται μια ανασκόπηση στη σχετική βιβλιογραφία όπου εντοπίζεται πληθώρα αναφορών και λύσεων -ακαδημαϊκών και εμπορικών- για το συγκεκριμένο θέμα. Στις περισσότερες από αυτές τις περιπτώσεις καταβάλλεται προσπάθεια για εξατομίκευση η οποία στηρίζεται σε δεδομένα που συλλέγονται από δηλώσεις ή ενέργειες του χρήστη, άμεσα ή έμμεσα. Όμως, η μελέτη των σχετικών άρθρων δείχνει ότι η μέχρι σήμερα επιτυχία των εγχειρημάτων αξιοποίησης δεδομένων χρήσης του ιστού (web usage data) είναι περιορισμένη. Το βασικό έλλειμμα που διαπιστώνεται είναι το γεγονός ότι η διαχείριση του περιεχομένου ενός δικτυακού τόπου συνήθως γίνεται με μηχανιστικό τρόπο, αποφεύγοντας τόσο την κατανόηση του περιεχομένου του όσο και της δομής του. Ακολούθως, στη Διπλωματική Εργασία γίνεται απόπειρα εξατομίκευσης δικτυακών τόπων με ημιαυτόματο τρόπο χρησιμοποιώντας τα αρχεία καταγραφής χρήσης ιστού ενώ ταυτόχρονα βασίζεται σε σημασιολογικές και εννοιολογικές αναλύσεις του περιεχομένου των δικτυακών τόπων. Με αυτήν τη μέθοδο υλοποιείται ένα εργαλείο που εξατομικεύει τον δικτυακό τόπο προτείνοντας στους χρήστες ιστοσελίδες με παραπλήσιο εννοιολογικό περιεχόμενο. Αυτό γίνεται δημιουργώντας την οντολογία του εκάστοτε δικτυακού τόπου και συνδυάζοντάς τη με τα δεδομένα πλοήγησης των χρηστών. / The present Diploma Dissertation attempts to study the personalization of websites. Initially, a thorough review of the relevant bibliography is presented, in which a plethora of academic and commercial reports and solutions is located regarding the subject of website personalization. In most cases, to achieve personalization, the researchers are based on data which are directly or indirectly collected by user statements or actions. However, the study of relative articles shows that there is limited success in the use of web usage data for personalization purposes. The fundamental problem lies in the fact that the comprehension of the content and the structure of a website is often neglected or even avoided. Further on, personalization of websites in a semi-automatic way is attempted using log files while it is simultaneously based in semantic and conceptual analysis of the website content. In this way, a tool is developed that personalizes websites by proposing web pages with similar conceptual content to the users. This is done by creating the ontology of the website and combining it with the users’ web usage data. Εξόρυξη γνώσης Οντολογία Εργαλείο 006.312 Website personalization Web usage log mining Knowledge extraction Website semantics Ontology Content based personalization Tool
32	Μέθοδοι εισαγωγής και επίδραση των νέων τεχνολογιών και της πληροφορικής σε μονάδες υγείας Κωστάκη, Χαρά 31 October 2007 (has links) Η διατριβή αναφέρεται στην ανάπτυξη μίας Μεθοδολογίας Ενοποίησης Εργαλείων Διοίκησης (Μ.Ε.Δ.Δ.) για την επίλυση προβλημάτων που παρουσιάζονται στον τομέα της υγείας, τα οποία αναφέρονται αφενός στη χωροθέτηση μονάδων υγείας και αφετέρου στην οργάνωση και διαχείρισή τους. Η καινοτομία της διατριβής αυτής είναι ότι αντιμετωπίζει τα προβλήματα αυτά σαν προβλήματα της μορφής ‘αιτία-κατάσταση-αντιμετώπιση’, δηλαδή προτείνει την ανάλυση των αιτιών (για παράδειγμα ανάλυση παραγόντων κινδύνου για τη δημιουργία Οξέος Στεφανιαίου Συνδρόμου) που οδηγούν σε μία κατάσταση (Οξύ Στεφανιαίο Σύνδρομο) και μετά χρησιμοποιεί αυτή την ανάλυση για την αντιμετώπιση των καταστάσεων (χωροθέτηση, οργάνωση και διαχείριση μονάδων καρδιαγγειακών νοσημάτων). Η Μ.Ε.Ε.Δ. βασίζεται στην ενοποίηση μεθόδων από τα πεδία της Επιχειρηματικής Νοημοσύνης (Business Intelligence), της Επιχειρησιακής Έρευνας και της Κοστολόγησης, με σκοπό αρχικά την εξαγωγή κανόνων για την εύρεση αιτιών που δημιουργούν μία κατάσταση, στη συνέχεια την αντιμετώπιση αυτής της κατάστασης με βάση τους εξορυγχθέντες κανόνες και τέλος την οργάνωση των λειτουργικών μονάδων που δημιουργήθηκαν για την αντιμετώπιση της κατάστασης. Αρχικά, χρησιμοποιούνται τρεις μέθοδοι του επιστημονικού πεδίου Εξόρυξης από Δεδομένα (data mining): οι κανόνες συσχέτισης (association rules), ταξινόμησης (classification rules) και ομαδοποίησης (clustering rules) ως τεχνικές εύρεσης ισχυρών κανόνων, δηλαδή αιτιών που δημιουργούν την κατάσταση. Στη συνέχεια, χρησιμοποιείται η ανάλυση χωροθέτησης (location analysis) από το πεδίο της επιχειρησιακής έρευνας, προκειμένου να χωροθετηθούν λειτουργικές μονάδες. Η τεχνική της προσομοίωσης (simulation) εφαρμόζεται, προκειμένου να εξετάσει σενάρια σχετικά με τη δομή και τους απαιτούμενους πόρους των μονάδων. Κατόπιν, η τεχνική της κοστολόγησης με βάση τις δραστηριότητες (Activity-based costing) χρησιμοποιείται για την κοστολόγηση των υπηρεσιών της μονάδας, ενώ η μέθοδος OLAP (On-line analytical processing) εφαρμόζεται για την παρακολούθηση της λειτουργίας της μονάδας και για τη λήψη στρατηγικών αποφάσεων και διορθωτικών μέτρων. Η εργασία αυτή προτείνει την οργάνωση των μεθόδων που αναφέρθηκαν με μία συγκεκριμένη ροή, ώστε κανείς να οδηγείται σε μία ολοκληρωμένη λύση τέτοιων πολύπλοκων προβλημάτων. / The thesis is concerned with the development of a methodology for solving a variety of problems in healthcare management, which refer to the location of health units, as well as their organization and management. The proposed methodology deals with these kinds of problems as problems of the form ‘cause-state-treatment’, which means that it proposes the analysis of the causes (for example risk factors associated with cardiovascular disease) which result in a state (cardiovascular disease) and then it uses this analysis to deal (treat) with the state (situation) (location, organization and management of Heart Disease Centers). The proposed methodology is based on the integration of various methods and techniques from the fields of Business Intelligence, Data Mining, Operational Research and Costing. Initially, the methodology extracts rules, which represent the causes that create a state, then it tackles the state (situation) based on the extracted rules, and finally it organizes the operational units, which are developed in order to deal with the state (situation). Thus, at the fist stage three data mining techniques are used: association rule mining, classification rules and clustering, as techniques for discovering strong rules in databases, that is, causes that lead to a state. Following, location analysis is used, intending to locate operational units, based on the quantitative results of the first stage. Simulation is used with the aim to examine alternative scenarios regarding the structure and the required resources (human resources as well as technology requirements) of the units. Then, activity-based costing is used to assess the efficiency of the health care technology. Finally, OLAP (On-line analytical processing) is applied in order for the health care managers to monitor the operations of the unit, as well as undertake corrective measures and finally aid decision making. The thesis proposes the organization of the aforementioned methods with a particular flow, so as the decision maker is led to an integrated solution of such complex health care management problems. Εξόρυξη δεδομένων Ανάλυση χωροθέτησης Προσομοίωση Επιδημιολογία Παράγοντες κινδύνου 338.473 621 Health management Epidemiology Data mining Business Intelligence Location analysis Simulation Activity-based costing Risk factors
33	Μεθοδολογία στατιστικής μάθησης για την πρόγνωση ασθενών με τη Β-χρόνια λεμφογενή λευχαιμία (Β-ΧΛΛ) με χρήση δεδομένων κυτταρομετρίας ροής / Statistical learning methodology for the prognosis of B-chronic lymphocytic leukemia (B-CLL) using flow cytometry data Λακουμέντας, Ιωάννης 20 April 2011 (has links) Η Β-χρόνια Λεμφογενής Λευχαιμία (Β-ΧΛΛ) αποτελεί τον πιο κοινό τύπο λευχαιμίας στο Δυτικό κόσμο. Η πρόγνωσή της θεωρείται ως ένα από τα πιο ενδιαφέροντα προβλήματα απόφασης στην κλινική έρευνα και πρακτική. Για διάφορους κλινικούς και εργαστηριακούς δείκτες είναι γνωστό ότι σχετίζονται με την εξέλιξη της νόσου. Για τις παραμέτρους, όμως, που εξάγονται με ανάλυση κυτταρομετρίας ροής, οι οποίες αποτελούν τον ακρογωνιαίο λίθο της διαδικασίας διάγνωσης της νόσου, το αν προσφέρουν επιπρόσθετη προγνωστική πληροφορία αποτελεί ανοιχτό πρόβλημα. Στη διατριβή αυτή προτείνουμε ένα σύστημα υποβοήθησης για τις αποφάσεις των ειδικών του πεδίου, το οποίο πραγματοποιεί πολυπαραμετρική πρόγνωση ασθενών με Β-ΧΛΛ, συνδυάζοντας τη χρήση ποικίλων ετερογενών προγνωστικών δεικτών (κλινικών, εργαστηριακών και κυτταρομετρίας ροής) που σχετίζονται με τη νόσο. Η διάγνωση της Β-ΧΛΛ βασίζεται κυρίως στη μελέτη του αντιγονικού φαινότυπου των κυττάρων των ασθενών, η οποία διενεργείται με κυτταρομετρία ροής. Αν και η διαδικασία που ακολουθείται κατά την ανάλυση αυτή είναι σαφώς ορισμένη, ο τρόπος με τον οποίο οι εργαστηριακοί υπεύθυνοι την πραγματοποιούν παραδοσιακά χαρακτηρίζεται από ανακρίβεια και υποκειμενικότητα. Καθώς η τεχνολογία της κυτταρομετρίας ροής εξελίσσεται ραγδαία, γίνεται όλο και πιο επιτακτική η ανάγκη για την ανάπτυξη αυτοματοποιημένων μεθόδων ανάλυσης των δεδομένων που παράγει. Σε αυτά τα πλαίσια, παρουσιάζουμε ένα χρήσιμο παράδειγμα αυτοματοποιημένης ανάλυσης κυτταρομετρικών δεδομένων, η οποία δεν απαιτεί την άμεση επίβλεψη των ειδικών, για τη διάγνωση ασθενών με Β-ΧΛΛ. Οι τιμές των χαρακτηριστικών παραμέτρων που εξάγονται με εφαρμογή της προτεινόμενης μεθοδολογίας, ενσωματώνονται κατόπιν στο προαναφερθέν προγνωστικό σύστημα. Ανάγοντας το πρόβλημα της πρόγνωσης της Β-ΧΛΛ σε ένα στιγμιότυπο ταξινόμησης προτύπων, καθώς και προσομοιώνοντας κάθε ένα από τα βήματα της διαδικασίας της διάγνωσης της νόσου με ένα στιγμιότυπο συσταδοποίησης δεδομένων, αντιμετωπίσαμε τα δύο προβλήματα εφαρμόζοντας τεχνικές στατιστικής μάθησης. Εστιάσαμε σε μεθοδολογίες δικτύων πεποίθησης, χρησιμοποιώντας συγκεκριμένα το naïve-Bayes μοντέλο και για τις δύο περιπτώσεις, στην επιβλεπόμενη και στη μη επιβλεπόμενη εκδοχή του, αντίστοιχα. Τα χαρακτηριστικά και η φύση των δεδομένων (κυρίως των κυτταρομετρικών) που παράγονται από έναν παθολογικό υποκείμενο μηχανισμό, όπως αυτός της νόσου, δεν ευνοούν την απευθείας εφαρμογή του παραπάνω μοντέλου στο εκάστοτε στιγμιότυπο. Για το λόγο αυτό, συνδυάσαμε την εφαρμογή του naïve-Bayes μοντέλου με κατάλληλες ευρετικές αλγοριθμικές διαδικασίες, για την επίτευξη καλύτερων αποτελεσμάτων, με κριτήριο βέλτιστου όχι μόνο κάποιες συχνά χρησιμοποιούμενες μετρικές αποτίμησης αλγόριθμων, αλλά και τη γνώμη των αιματολόγων. Χάρη στην ιδιότητά τους να ενσωματώνουν την έμπειρη γνώση των ειδικών ως εκ των προτέρων πληροφορία αρχικοποίησης των μεθόδων μάθησής τους, οι Bayesian μεθοδολογίες κρίνονται ως οι πλέον κατάλληλες για την εφαρμογή τους σε τέτοιου τύπου προβλήματα. / B-Chronic Lymphocytic Leukemia (B-CLL) is known to be the most common type of leukemia in the Western world. Its prognosis remains one of the most interesting decision problems in clinical research and practice. Various clinical and laboratory factors are known to be associated with the evolution of the disease. However, for the parameters obtained by flow cytometry analysis, that are traditionally utilized as the cornerstone during the diagnosis procedure of the disease, whether they offer additional prognostic information is an open issue. In this dissertation, we propose a decision support system to the hematologists, that provides multiparametric B-CLL patients’ prognosis, combining the usage of diverse heterogeneous factors (clinical, laboratory and flow cytometry) associated with the disease. B-CLL diagnosis is primarily derived from the study of the antigenic phenotype of the patients’ blood cells, which is held with flow cytometry analysis. Despite the fact that the method of the analysis is well defined, the process traditionally followed by the laboratory experts is characterized by amounts of inexactness and subjectivity. As flow cytometry technology advances rapidly, the need for adequate automated (computer-assisted) analysis methodologies on the data it produces is accordingly increasing. In this context, we present a useful paradigm of automated analysis of flow cytometry data, that does not require the direct supervision of the expert, for B-CLL patients’ diagnosis. The values of the flow cytometry characteristic parameters extracted by applying the proposed methodology are afterward incorporated to the prognostic system for B-CLL mentioned above. By reducing the B-CLL prognosis problem to an instance of the pattern classification problem, as well as by simulating each step of the B-CLL diagnosis procedure with an instance of the data classification problem, we proceeded with applying statistical learning techniques. We focused on Bayesian network methodologies and utilized the naïve-Bayes model for both cases, in its supervised and unsupervised version, respectively. The characteristics of the data (especially of the flow cytometry ones) generated by a pathological underlying mechanism, like the disease’s one, did not encourage the direct use of the above model. Therefore, we combined the naïve-Bayes model with a set of suitable heuristic algorithmic procedures to obtain better results, not only with respect to some commonly used algorithmic optimality metrics, but also by considering the experts’ opinion. Due to their ability of incorporating the expert knowledge as a priori initial information to their learning methods, Bayesian methodologies are considered as the most appropriate ones to make use of in such types of applications. Κυτταρομετρία ροής Στατιστική μάθηση Δίκτυα πεποίθησης Εξόρυξη δεδομένων 616.994 190 75 B-chronic lymphocytic leukemia (B-CLL) Flow cytometry Statistical learning Belief networks Data mining
34	Σημασιολογική μοντελοποίηση συμπεριφοράς και μηχανισμός πρόβλεψης απόδοσης εκπαιδευομένων σε συστήματα ανοικτής και εξ' αποστάσεως εκπαίδευσης Μπουφαρδέα, Ευαγγελία 14 February 2012 (has links) Η ραγδαία εξάπλωση του Internet έχει προκαλέσει σημαντικές αλλαγές σε πολλούς κλάδους της οικονομίας και της κοινωνίας παγκόσμια. Με τη ραγδαία ανάπτυξη των Τεχνολογιών της Πληροφορικής και της Τεχνολογίας, μια νέα μορφή εκπαίδευσης εμφανίστηκε, που δεν είναι άλλη από το e-learning (εκπαίδευση από απόσταση), που έφερε την επανάσταση στο εκπαιδευτικό γίγνεσθαι. Επιπρόσθετα ο Παγκόσμιος Ιστός σταδιακά μετεξελίσσεται στο Σημασιολογικό Παγκόσμιο Ιστό (Semantic Web) νέα μοντέλα και πρότυπα (XML, RDF, OWL) αναπτύσσονται για την προώθηση αυτής της διαδικασίας. Η έκφραση, μετάδοση και αναζήτηση πληροφοριών με χρήση αυτών των προτύπων ανοίγει νέους ορίζοντες στη χρήση του Διαδικτύου. Οι οντολογίες κερδίζουν ολοένα έδαφος για την αναπαράσταση γνώσης. Σε μια μεγάλη οντολογία που περιέχει χρήσιμα δεδομένα για ένα σύστημα εξ’ αποστάσεως εκπαίδευσης, αξίζει κάποιος να ερευνήσει την «κρυμμένη γνώση», δηλαδή να ανακαλύψει πιθανές συσχετίσεις ή συνειρμούς, να βρει πρότυπα ή μορφές που επαναλαμβάνονται ή ακραία φαινόμενα. Η παρούσα διπλωματική εργασία αποτελεί μια επίδειξη τεχνολογίας για την έγκυρη και έγκαιρη πρόβλεψη της απόδοσης των φοιτητών σε ένα σύστημα εξ’ αποστάσεως εκπαίδευσης. Η βασική ιδέα προκύπτει από την ανάγκη να σχεδιαστεί μία οντολογία η οποία θα μπορεί να αποθηκεύσει τη γνώση σχετικά με τις ικανότητες φοιτητών (user profile) σε σχέση με ένα συγκεκριμένο εκπαιδευτικό αντικείμενο (ΠΛΗ23 – Τηλεματική, Διαδίκτυο του Ελληνικού Ανοικτού Πανεπιστημίου (ΕΑΠ) )η οποία έχει πολύ συγκεκριμένη ύλη και 4 υποχρεωτικές γραπτές εργασίες ανά έτος). Στη συνέχεια παρουσιάζονται τα αποτελέσματα μελέτης της ανάλυσης των δεδομένων των φοιτητών με τεχνικές εξόρυξης γνώσης. Η εύρεση των κανόνων πραγματοποιήθηκε μέσω του εργαλείου Weka. Το αποτέλεσμα που προέκυψε είναι μία βάση γνώσης βάσει της οποίας γίνεται έγκαιρα και έγκυρα η πρόβλεψη της συμπεριφοράς του φοιτητή, δηλαδή αν θα καταφέρει να ολοκληρώσει επιτυχώς ή μη τη Θεματική Ενότητα που έχει αναλάβει στο ΕΑΠ, ώστε ο διδάσκων να μπορεί από πολύ νωρίς να υποστηρίξει το φοιτητή με επιπλέον υλικό αν απαιτείται. / The rapid spread of Internet has caused significant changes in many sectors of the economy and society worldwide. From those changes could not be left out of education. With the rapid development of information technologies and technology, a new form of education appears, e-learning (distance education), which revolutionized the educational process. Furthermore, while the World Wide Web gradually transforms into Semantic Web, new standards and models (XML, RDF, OWL) are evolving in order to launch this inquiry. The storage, presentation, transmission and search of information according to those standards open up new horizons in the utilization of the Web. Ontologies are increasingly get used for knowledge representation. A large ontology contains useful data for a system of distance education, deserves someone to investigate the "hidden knowledge", i.e. to discover possible associations or to find patterns or forms that are repeated or extreme events. This thesis is a demonstration of technology for accurate and timely prediction of the performance of students in a system of distance education. The basic idea was to design an ontology that can store knowledge about the students’ skills (user profile) in relation to a specific educational purpose (PLI23 - Telematics, Internet of the Hellenic Open University, which has a very specific matter and 4 mandatory projects per year). Then we present the results of a study analyzing student data mining techniques (data mining-classification). The discovery rules took place via the tool Weka. The result is a knowledge base which is the appropriate tool (Interface teacher) may provide that a student needs on a particular topic (in addition to material help from the teacher), etc. Σημασιολογικός ιστός Οντολογία Εξόρυξη δεδομένων Ταξινόμηση J48 αλγόριθμος Συστήματα πρόβλεψης 371.334 Semantic Web Ontology Protege Reasoner Data mining Classification Weka J48 algorithm Recommendation system Hellenic Open University E-learning
35	Μελέτη, σχεδίαση και ανάπτυξη συστήματος για την παροχή υπηρεσιών φροντίδας σε χρόνιες παθήσεις, με την ενσωμάτωση αναγνώρισης της φυσικής δραστηριότητας και τη χρήση τεχνολογιών τηλεματικής Κουρής, Ιωάννης 09 July 2013 (has links) Στην παρούσα διδακτορική διατριβή εξετάζονται οι δυνατότητες που προσφέρουν τα έξυπνα κινητά τηλέφωνα (smartphones) στην παροχή υπηρεσιών φροντίδας σε άτομα με χρόνιες παθήσεις, μέσω των τεχνολογιών τηλεματικής. Για το σκοπό αυτό μελετήθηκε, σχεδιάστηκε και αναπτύχθηκε ένα δίκτυο φορετών ασύρματων αισθητήρων για την αναγνώριση της φυσικής δραστηριότητας, το οποίο καταγράφει δεδομένα της κίνησης και βιολογικά σήματα, τα οποία στη συνέχεια επεξεργάζονται για την αναγνώριση της δραστηριότητας που εκτελείται, σε πραγματικό χρόνο. Σε σχέση με τις μέχρι σήμερα προσεγγίσεις, στην παρούσα εργασία γίνεται συγκριτική μελέτη πολλαπλών τεχνικών αναγνώρισης προτύπων καθώς και τεχνικών που δεν έχουν χρησιμοποιηθεί μέχρι σήμερα, ενώ γίνεται εξέταση των αποτελεσμάτων που προκύπτουν κάνοντας χρήση του συνδυασμού μικρότερου αριθμού δεδομένων. Η πληροφορία της αναγνώρισης της φυσικής δραστηριότητας συνδυάζεται στη συνέχεια με περιβαλλοντικά δεδομένα, ώστε να μελετηθούν τα μοτίβα της καθημερινής δραστηριότητας υγειών ατόμων και ατόμων με χρόνιες παθήσεις. Με την αναζήτηση Emerging Patterns στα αποθηκευμένα δεδομένα, εξετάζεται ο βαθμός συμμόρφωσης στις ιατρικές οδηγίες, αλλά οι δυνατότητες πρόβλεψης των βραχυπρόθεσμων και μακροπρόθεσμων επιπλοκών των χρόνιων παθήσεων. / The present PhD thesis examines the potentials of the usage of the smartphones in order to offer health services to patients with chronic diseases. A wearable wireless sensor network designed and developed in order to record body movement and biosignal data. Physical activity recognition techniques are applied to the recorded data, so that to extract the actual activities performed, in real time. In contrast to the research that has been carried out till today, an extensive comparison between different pattern recognition techniques is performed using all the recorded data and a reduced number of them, applying newly proposed pattern recognition. Furthermore, the recognized physical activities are combined with environmental data, in order to study the daily activity patterns of healthy persons and persons with chronic diseases. Searching for Emerging Patterns in the data, patient conformance to the medical advices, along with short and long term complications of chronic diseases are examined. Χρόνιες παθήσεις Τηλεϊατρική Ασύρματοι αισθητήρες Φυσική δραστηριότητα Εξόρυξη δεδομένων Αναγνώριση προτύπων 610.285 Smartphones Chronic conditions Telemedicine Wireless sensors Physical activity Data mining Pattern recognition Emerging patterns
36	Η αντιμετώπιση της πληροφοριακής υπερφόρτωσης ενός οργανισμού με χρήση ευφυών πρακτόρων Κόρδαρης, Ιωάννης 26 August 2014 (has links) Η πληροφοριακή υπερφόρτωση των χρηστών αποτελεί βασικό πρόβλημα ενός οργανισμού. Η συσσώρευση μεγάλου όγκου πληροφορίας στα πληροφοριακά συστήματα, προκαλεί στους χρήστες άγχος και υπερένταση, με αποτέλεσμα να δυσχεραίνει την ικανότητά τους για λήψη αποφάσεων. Λόγω αυτού, η επίδραση της πληροφοριακής υπερφόρτωσης στους οργανισμούς είναι καταστροφική και απαιτείται η αντιμετώπισή της. Υπάρχουν διάφοροι τρόποι αντιμετώπισης της πληροφοριακής υπερφόρτωσης όπως τα συστήματα υποστήριξης λήψης αποφάσεων, τα συστήματα φιλτραρίσματος πληροφορίας, οι αποθήκες δεδομένων και άλλες τεχνικές της εξόρυξης δεδομένων και της τεχνητής νοημοσύνης, όπως είναι οι ευφυείς πράκτορες. Οι ευφυείς πράκτορες αποτελούν εφαρμογές που εφάπτονται της τεχνικής νοημοσύνης, οι οποίες έχουν την ικανότητα να δρουν αυτόνομα, συλλέγοντας πληροφορίες, εκπαιδεύοντας τον εαυτό τους και επικοινωνώντας με τον χρήστη και μεταξύ τους. Συχνά, υλοποιούνται πολυπρακτορικά συστήματα προκει-μένου να επιλυθεί ένα πρόβλημα του οργανισμού. Στόχος τους είναι να διευκολύνουν τη λήψη αποφάσεων των χρηστών, προτείνοντας πληροφορίες βάσει των προτιμήσεών τους. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι να αναλύσει σε βάθος τους ευφυείς πράκτορες, σαν μία αποτελεσματική μέθοδο αντιμετώπισης της πληροφοριακής υπερφόρτωσης, να προτείνει πειραματικούς πράκτορες προτά-σεων και να εξετάσει επιτυχημένες υλοποιήσεις. Συγκεκριμένα, παρουσιάζεται ένα ευφυές σύστημα διδασκαλίας για την ενίσχυση του e-Learning/e-Teaching, προτείνεται ένα σύστημα πρακτόρων για τον οργανισμό Flickr, ενώ εξετάζεται το σύστημα προτάσεων του Last.fm και ο αλγόριθμος προτάσεων του Amazon. Τέλος, αναλύεται μια πειραματική έρευνα ενός ευφυούς πράκτορα προτάσεων, ο οποίος αντιμετώπισε με επιτυχία την αντιληπτή πληροφοριακή υπερφόρτωση των χρηστών ενός θεωρητικού ηλεκτρονικού καταστήματος. Τα αποτελέσματα του πειράματος παρουσίασαν την επίδραση της αντιληπτής πληροφοριακής υπερφόρτωσης και του φορτίου πληροφορίας στην ποιότητα επιλογής, στην εμπιστοσύνη επιλογής και στην αντιληπτή αλληλεπίδραση μεταξύ ηλεκτρονικού καταστήματος και χρήστη, ενώ παρατηρήθηκε η καθοριστική συμβολή της χρήσης των ευφυών πρακτόρων στην αντιμετώπιση της πληροφοριακής υπερφόρτωσης. / - Ευφυείς πράκτορες Εξόρυξη δεδομένων Αποθήκες δεδομένων Πράκτορες Μετά-πράκτορες Σύστημα προτάσεων Πράκτορες προτάσεων 006.33 Information overload Intelligent agents Decision support system Data mining Data warehouses Filtering systems Multi-agent systems Agents Meta-agent Information Logistics Recommendation system Recommendation agent Collaborative filtering Content-based filtering
37	Παραμετροποίηση στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα, μετασχηματισμού συμβολοσειρών και τεχνικών συμπερασματικού λογικού προγραμματισμού / Parameterization of stochastic data mining methods, string conversion algorithms and deductive logic programming techniques Λύρας, Δημήτριος 02 February 2011 (has links) Η παρούσα διατριβή πραγματεύεται το αντικείμενο της μάθησης από δύο διαφορετικές οπτικές γωνίες: την επαγωγική και την παραγωγική μάθηση. Αρχικά, παρουσιάζονται παραμετροποιήσεις στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα υπό τη μορφή τεσσάρων καινοτόμων εξατομικευμένων μοντέλων στήριξης ασθενών που πάσχουν από διαταραχές άγχους. Τα τρία μοντέλα προσανατολίζονται στην ανεύρεση πιθανών συσχετίσεων μεταξύ των περιβαλλοντικών παραμέτρων των ασθενών και του επιπέδου άγχους που αυτοί παρουσιάζουν, ενώ παράλληλα προτείνεται και η χρήση ενός Μπεϋζιανού μοντέλου πρόβλεψης του επιπέδου άγχους που είναι πιθανό να εμφανίσει κάποιος ασθενής δεδομένων ορισμένων τιμών του περιβαλλοντικού του πλαισίου εφαρμογής. Αναφορικά με το χώρο της εξόρυξης γνώσης από κείμενο και του μετασχηματισμού συμβολοσειρών, προτείνεται η εκπαίδευση μοντέλων δέντρων αποφάσεων για την αυτόματη μεταγραφή Ελληνικού κειμένου στην αντίστοιχη φωνητική του αναπαράσταση, πραγματοποιείται η στοχαστική μοντελοποίηση όλων των πιθανών μεταγραφικών νορμών από ορθογραφημένα Ελληνικά σε Greeklish και τέλος παρουσιάζεται ένας καινοτόμος αλγόριθμος που συνδυάζει δύο γνωστά για την ικανοποιητική τους απόδοση μέτρα σύγκρισης ομοιότητας αλφαριθμητικών προκειμένου να επιτευχθεί η αυτόματη λημματοποίηση του κειμένου εισόδου. Επιπρόσθετα, στα πλαίσια της ανάπτυξης συστημάτων που θα διευκολύνουν την ανάκτηση εγγράφων ή πληροφοριών προτείνεται η συνδυαστική χρήση του προαναφερθέντος αλγορίθμου λημματοποίησης παράλληλα με τη χρήση ενός πιθανοτικού δικτύου Bayes στοχεύοντας στην ανάπτυξη ενός εύρωστου και ανταγωνιστικού ως προς τις επιδόσεις συστήματος ανάκτησης πληροφοριών. Τέλος, παρουσιάζονται οι προτάσεις μας που αφορούν στο χώρο της παραγωγικής μάθησης και του ελέγχου ικανοποιησιμότητας λογικών εκφράσεων. Συγκεκριμένα περιλαμβάνουν: i) την ανάλυση και εκτενή παρουσίαση μιας καινοτόμας μαθηματικής μοντελοποίησης με την ονομασία AnaLog (Analytic Tableaux Logic) η οποία δύναται να εκφράσει τη λογική που διέπει τους αναλυτικούς πίνακες για προτασιακούς τύπους σε κανονική διαζευκτική μορφή. Mέσω του λογισμού Analog επιτυγχάνεται η εύρεση των κλειστών κλάδων του πλήρως ανεπτυγμένου δέντρου Smullyan, χωρίς να είναι απαραίτητος ο αναλυτικός σχεδιασμός του δέντρου, και ii) την παράθεση ενός αναλυτικού αλγορίθμου που μπορεί να αξιοποιήσει τον φορμαλισμό AnaLog σε ένα πλαίσιο αριθμητικής διαστημάτων μέσω του οποίου μπορούμε να αποφανθούμε για την ικανοποιησιμότητα συμβατικών διαζευκτικών προτασιακών εκφράσεων. / The present dissertation deals with the problem of learning from two different perspectives, meaning the inferential and the deductive learning. Initially, we present our suggestions regarding the parameterization of stochastic data mining methods in the form of four treatment supportive services for patients suffering from anxiety disorders. Three of these services focus on the discovery of possible associations between the patients’ contextual data whereas the last one aims at predicting the stress level a patient might suffer from, in a given environmental context. Our proposals with regards to the wider area of text mining and string conversion include: i) the employment of decision-tree based models for the automatic conversion of Greek texts into their equivalent CPA format, ii) the stochastic modeling of all the existing transliteration norms for the Greek to Greeklish conversion in the form of a robust transcriber and iii) a novel algorithm that is able to combine two well-known for their satisfactory performance string distance metric models in order to address the problem of automatic word lemmatization. With regards to the development of systems that would facilitate the automatic information retrieval, we propose the employment of the aforementioned lemmatization algorithm in order to reduce the ambiguity posed by the plethora of morphological variations of the processed language along with the parallel use of probabilistic Bayesian Networks aiming at the development of a robust and competitive modern information retrieval system. Finally, our proposals regarding logical deduction and satisfiability checking include: i) a novel mathematical formalism of the analytic tableaux methodology named AnaLog (after the terms Analytic Tableaux Logic) which allows us to efficiently simulate the structure and the properties of a complete clausal tableau given an input CNF formula. Via the AnaLog calculus it is made possible to calculate all the closed branches of the equivalent complete Smullyan tree without imposing the need to fully construct it, and ii) a practical application of the AnaLog calculus within an interval arithmetic framework which is able to decide upon the satisfiability of propositional formulas in CNF format. This framework, apart from constituting an illustrative demonstration of the application of the AnaLog calculus, it may also be employed as an alternative conventional SAT system. Εξόρυξη δεδομένων Μηχανική μάθηση Ανάκτηση πληροφοριών Αναλυτικοί πίνακες 006.312 Knowledge mining from Data Data mining String conversion Deductive logic programming Text mining Machine learning Information retrieval Boolean satisfiability Analytic tableaux
38	Τεχνικές εξόρυξης δεδομένων και εφαρμογές σε προβλήματα διαχείρισης πληροφορίας και στην αξιολόγηση λογισμικού / Data mining techniques and their applications in data management problems and in software systems evaluation Τσιράκης, Νικόλαος 20 April 2011 (has links) Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων τα οποία συλλέγονται και αποθηκεύονται σε διάφορες βάσεις δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων αυτών επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό τη βοήθεια του ανθρώπου στην εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά. Οι τεχνικές εξόρυξης δεδομένων παρουσιάζουν τα τελευταία χρόνια ιδιαίτερο ενδιαφέρον στις περιπτώσεις όπου η πηγή των δεδομένων είναι οι ροές δεδομένων ή άλλες μορφές όπως τα XML έγγραφα. Σύγχρονα συστήματα και εφαρμογές όπως είναι αυτά των κοινοτήτων πρακτικής έχουν ανάγκη χρήσης τέτοιων τεχνικών εξόρυξης για να βοηθήσουν τα μέλη τους. Τέλος ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα για σκοπούς καλύτερης συντηρησιμότητας τους. Από τη μια μεριά οι ροές δεδομένων είναι προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Υπάρχουν πολλές εφαρμογές που χειρίζονται δεδομένα σε μορφή ροών, όπως δεδομένα αισθητήρων, ροές κίνησης δικτύων, χρηματιστηριακά δεδομένα και τηλεπικοινωνίες. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων παρουσιάζουν μεγάλο όγκο και χαρακτηρίζονται από μια συνεχή ροή πληροφορίας που δεν έχει αρχή και τέλος. Αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Ίσως είναι η μοναδική πηγή γνώσης για εξόρυξη δεδομένων και ανάλυση στην περίπτωση όπου οι ανάγκες μιας εφαρμογής περιορίζονται από τον χρόνο απόκρισης και το χώρο αποθήκευσης. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα ιδιαίτερα στον Παγκόσμιο Ιστό. Ένας άλλος τομέας ενδιαφέροντος για τη χρήση νέων τεχνικών εξόρυξης δεδομένων είναι οι κοινότητες πρακτικής. Οι κοινότητες πρακτικής (Communities of Practice) είναι ομάδες ανθρώπων που συμμετέχουν σε μια διαδικασία συλλογικής εκμάθησης. Μοιράζονται ένα ενδιαφέρον ή μια ιδέα που έχουν και αλληλεπιδρούν για να μάθουν καλύτερα για αυτό. Οι κοινότητες αυτές είναι μικρές ή μεγάλες, τοπικές ή παγκόσμιες, face to face ή on line, επίσημα αναγνωρίσιμες, ανεπίσημες ή και αόρατες. Υπάρχουν δηλαδή παντού και σχεδόν όλοι συμμετέχουμε σε δεκάδες από αυτές. Ένα παράδειγμα αυτών είναι τα γνωστά forum συζητήσεων. Σκοπός μας ήταν ο σχεδιασμός νέων αλγορίθμων εξόρυξης δεδομένων από τις κοινότητες πρακτικής με τελικό σκοπό να βρεθούν οι σχέσεις των μελών τους και να γίνει ανάλυση των εξαγόμενων δεδομένων με μετρικές κοινωνικών δικτύων ώστε συνολικά να αποτελέσει μια μεθοδολογία ανάλυσης τέτοιων κοινοτήτων. Επίσης η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML μορφή δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Ταυτόχρονα λόγο της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας πρέπει να γίνεται το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Από την άλλη μεριά οι διαστάσεις της εσωτερικής και εξωτερικής ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολύ έμφαση στην εξωτερική ποιότητα και διαφέρει από την εσωτερική, όπως για παράδειγμα στη σχεδίαση η οποία αναφέρεται στην εσωτερική ποιότητα και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι ο καθορισμός και η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψη τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος. Στα πλαίσια αυτής της διδακτορικής διατριβής έγινε σε βάθος έρευνα σχετικά με τεχνικές εξόρυξης δεδομένων και εφαρμογές τόσο στο πρόβλημα διαχείρισης πληροφορίας όσο και στο πρόβλημα της αξιολόγησης λογισμικού. / The World Wide Web has gradually transformed into a large data repository consisting of vast amount of data in many different types. These data doubles about every year, but useful information seems to be decreasing. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and handles various types of data. When the related data are for example data streams or XML data then the problems seem to be very crucial and interesting. Also contemporary systems and applications related to communities of practice seek appropriate data mining techniques and algorithms in order to help their members. Finally, great interest has the field of software evaluation when by using data mining in order to facilitate the comprehension and maintainability evaluation of a software system’s source code. Source code artifacts and measurement values can be used as input to data mining algorithms in order to provide insights into a system’s structure or to create groups of artifacts with similar software measurements. First, data streams are large volumes of data arriving continuously. Data mining techniques have been proposed and studied to help users better understand and analyze the information. Clustering is a useful and ubiquitous tool in data analysis. With the rapid increase in web-traffic and e-commerce, understanding user behavior based on their interaction with a website is becoming more and more important for website owners and clustering in correlation with personalization techniques of this information space has become a necessity. The knowledge obtained by learning the users preferences can help improve web content, find usability issues related to this content and its structure, ensure the security of provided data, analyze the different groups of users that can be derived from the web access logs and extract patterns, profiles and trends. This thesis investigates the application of a new model for clustering and analyzing click-stream data in the World Wide Web with two different approaches. The next part of the thesis deals with data mining techniques regarding communities of practice. These are groups of people taking part in a collaborative way of learning and exchanging ideas. Systems for supporting argumentative collaboration have become more and more popular in digital world. There are many research attempts regarding collaboration filtering and recommendation systems. Sometimes depending on the system and its needs there are different problems and developers have to deal with special cases in order to provide useful service to users. Data mining can play an important role in the area of collaboration systems that want to provide decision support functionality. Data mining in these systems can be defined as the effort to generate actionable models through automated analysis of their databases. Data mining can only be deployed successfully when it generates insights that are substantially deeper than what a simple view of data can give. This thesis introduces a framework that can be applied to a wide range of software platforms aiming at facilitating collaboration and learning among users. More precisely, an approach that integrates techniques from the Data Mining and Social Network Analysis disciplines is being presented. The next part of the thesis deals with XML data and ways to handle huge volumes of data that they may hold. Lately data written in a more sophisticated markup language such as XML have made great strides in many domains. Processing and management of XML documents have already become popular research issues with the main problem in this area being the need to optimally index them for storage and retrieval purposes. This thesis first presents a unified clustering algorithm for both homogeneous and heterogeneous XML documents. Then using this algorithm presents an XML P2P system that efficiently distributes a set of clustered XML documents in a P2P network in order to speed-up user queries. Ultimately, data mining and its ability to handle large amounts of data and uncover hidden patterns has the potential to facilitate the comprehension and maintainability evaluation of a software system. This thesis investigates the applicability and suitability of data mining techniques to facilitate the comprehension and maintainability evaluation of a software system’s source code. What is more, this thesis focuses on the ability of data mining to produce either overviews of a software system (thus supporting a top down approach) or to point out specific parts of this system that require further attention (thus supporting a bottom up approach) potential to facilitate the comprehension and maintainability evaluation of a software system. Εξόρυξη δεδομένων Κοινότητες πρακτικής Ποιότητα λογισμικού Συσταδοποίηση Συστήματα προτάσεων Συστήματα πρόβλεψης Data mining XML Peer 2 peer networks Communities of practice Social networks Software quality Software evaluation Clustering Recommendation systems Prediction systems Evaluation of user behavior
39	Σχεδιασμός ανάπτυξη και εφαρμογή συστήματος υποστήριξης της διάγνωσης επιχρισμάτων θυρεοειδούς δεδομένων βιοψίας με λεπτή βελόνη FNA με χρήση εξελιγμένων μεθόδων εξόρυξης δεδομένων Ζούλιας, Εμμανουήλ 17 September 2012 (has links) Σκοπός της παρούσας διδακτορικής διατριβής είναι η ανάπτυξη ενός ολοκληρωμένου συστήματος υποστήριξης της διάγνωσης (Decision Support System - DSS) με χρήση μεθόδων εξόρυξης δεδομένων για την ταξινόμηση επιχρισμάτων βιοψίας με λεπτή βελόνα (Fine Needle Aspiration - FNA). Δύο κατηγορίες επιλέχθηκαν για τα δείγματα FNA: καλοήθεια και κακοήθεια. Το σύστημα αυτό αποτελείται από τις ακόλουθες βαθμίδες: 1) συλλογής δεδομένων, 2) επιλογής δεδομένων, 3) εύρεσης κατάλληλων χαρακτηριστικών, 4) εφαρμογής ταξινόμησης με χρήση μεθόδων εξόρυξης δεδομένων. Επίσης, βασικός στόχος της παρούσας διδακτορικής διατριβής ήταν η βελτίωση της ορθής ταξινόμησης των ύποπτων επιχρισμάτων (suspicious), για τα οποία είναι γνωστή η αδυναμία της μεθόδου FNA να τα ταξινομήσει. Το σύστημα εκπαιδεύτηκε και ελέγχθηκε σε σχέση με το δείγμα για το οποίο είχαμε ιστολογικές επιβεβαιώσεις (ground truth). Για περιπτώσεις οι οποίες χαρακτηρίστηκαν ως μη κακοήθεις από την FNA, και για τις οποίες δεν είχαμε ιστολογικές επιβεβαιώσεις, το δείγμα προέκυψε από την συνεκτίμηση και άλλων κλινικών, εργαστηριακών και απεικονιστικών εξετάσεων. Στα πλαίσια της παρούσας διδακτορικής διατριβής συλλέχθηκαν εξετάσεις FNA θυρεοειδούς από το Εργαστήριο Παθολογοανατομίας του Α’ Τμήματος Παθολογίας της Ιατρικής Σχολής του Πανεπιστημίου Αθηνών. Δεδομένου ότι το εν λόγω εργαστήριο λειτουργεί και σαν κέντρο αναφοράς, σημαντικός αριθμός των δειγμάτων εστάλησαν εκεί και από άλλα Εργαστήρια Παθολογοανατομίας για επανέλεγχο. Το αρχειακό υλικό ήταν πολύ καλά ταξινομημένο σε χρονολογική σειρά αλλά ήταν σε έντυπη μορφή. Αρχικά πραγματοποιήθηκε η ανάλυση απαιτήσεων για τη δομή και το σχεδιασμό της βάσης δεδομένων. Με βάση τα στοιχεία από την τεκμηριωμένη διάγνωση σχεδιάστηκε και αναπτύχθηκε προηγμένο σύστημα για την κωδικοποίηση και αρχικοποίηση των δεδομένων. Με τη βοήθεια του σχεδιασμού και ανάλυσης απαιτήσεων αναπτύχθηκε και υλοποιήθηκε η βάση δεδομένων στην οποία αποθηκεύτηκαν τα δεδομένα προς επεξεργασία. Παράλληλα, με το σχεδιασμό της βάσης έγινε και η προεργασία για το σχεδιασμό και την ανάλυση απαιτήσεων του γραφικού περιβάλλοντος εισαγωγής στοιχείων. Λαμβάνοντας υπόψη ότι το σύστημα θα μπορούσε να χρησιμοποιηθεί και πέρα από τα πλαίσια της παρούσας διδακτορικής διατριβής λήφθηκε μέριμνα ώστε να παρέχεται ένα φιλικό και ευέλικτο προς το χρήστη περιβάλλον. Σύμφωνα με τη μεθοδολογία προσέγγισης η οποία ακολουθήθηκε προηγήθηκε στατιστική ανάλυση των 9.102 συλλεχθέντων δειγμάτων FNA ως προς τα κυτταρολογικά χαρακτηριστικά τους και τις διαγνώσεις. Οι κυτταρολογικές διαγνώσεις των συγκεκριμένων δειγμάτων συσχετίστηκαν με τις ιστολογικές διαγνώσεις, στοχεύοντας στον υπολογισμό της πιθανής επίδρασης και συμβολής κάθε κυτταρολογικού χαρακτηριστικού σε μια ορθή ή ψευδή κυτταρολογική διάγνωση, έτσι ώστε να προσδιοριστούν οι πιθανές πηγές λανθασμένης διάγνωσης. Τα δείγματα τα οποία περιείχαν μόνο αίμα ή πολύ λίγα θυλακειώδη κύτταρα χωρίς κολλοειδές θεωρήθηκαν ανεπαρκή για τη διάγνωση. Οι βιοψίες εκτελέσθηκαν είτε στο Α’ τμήμα του Πανεπιστημίου Αθηνών (οι περισσότερες από τις περιπτώσεις με ψηλαφητούς όζους) είτε αλλού (κυρίως κάτω από την καθοδήγηση του κέντρου αναφοράς). Τα δείγματα επιστρωμένα σε πλακάκια, στάλθηκαν στο κέντρο αναφοράς από διάφορα νοσοκομεία, με διαφορετικά πρωτόκολλα σχετικά με τα κριτήρια εκτέλεσης βιοψίας FNA σε θυρεοειδή. Μετεγχειρητικές ιστολογικές επαληθεύσεις ήταν διαθέσιμες για 266 ασθενείς (κακοήθειες και μη). Το χαμηλό ποσοστό ιστολογικών επαληθεύσεων οφείλεται στην ετερογενή προέλευση των ασθενών και στην έλλειψη ολοκληρωμένης παρακολούθησης και επανελέγχου των ασθενών. Για την αξιολόγηση των δεδομένων χρησιμοποιήθηκαν περιγραφικά στατιστικά μεγέθη όπως, μέση τιμή, τυπική απόκλιση, ποσοστά, μέγιστο και ελάχιστο. Έγιναν επίσης και χ2 δοκιμές επιπέδου σημαντικότητας διαφόρων παραμέτρων για να ελεγχθεί η πιθανή συσχέτιση ή η ανεξαρτησία. Για τη συσχέτιση των κυτταρολογικών και των ιστολογικών διαγνώσεων και την αξιολόγηση των εργαστηριακών ευρημάτων, πέραν των περιγραφικών στατιστικών μεγεθών χρησιμοποιήθηκαν και υπολογισμοί της ευαισθησίας, της ειδικότητας, της συνολικής ακρίβειας, της αρνητικής και θετικής αξίας πρόβλεψης (negative and positive predictive value). Προκειμένου να καθοριστεί εάν μια κατηγορία ασθενειών συσχετίζεται ή όχι με συγκεκριμένες κυτταρολογικές παραμέτρους εφαρμόστηκε μέθοδος ελέγχου στατιστικής σημαντικότητας σε επίπεδο 5% (p < 0,05). Η διαδικασία ακολουθήθηκε για κάθε κατηγορία ασθενειών ή συνδυασμό τους και για κάθε παράμετρο των κυτταρολογικών και αρχιτεκτονικών στοιχείων της κυτταρολογικής διάγνωσης. Τα αποτελέσματα της στατιστικής ανάλυσης επέτρεψαν το διαχωρισμό των δεδομένων σε καλοήθη, κακοήθη, νεοπλασματικά, ύποπτα για κακοήθεια και οριακά με χαρακτηριστικά γνωρίσματα μεταξύ ενός καλοήθους και ενός νεοπλασματικού. Στην συνέχεια αναπτύχθηκε σύστημα υποστήριξης της διάγνωσης χρησιμοποιώντας εξειδικευμένες μεθόδους εξόρυξης δεδομένων. Το σύστημα αποτελείται από τέσσερις βαθμίδες. Η πρώτη βαθμίδα αυτού του συστήματος είναι το περιβάλλον Συλλογής Δεδομένων στην οποία τα δεδομένα αποθηκεύονται στη βάση δεδομένων. Η Δεύτερη Βαθμίδα αυτού του συστήματος αφορά στην Επιλογή Δεδομένων. Σύμφωνα με την καταγραφή των απαιτήσεων, την εισαγωγή και τη ψηφιοποίηση των στοιχείων, δημιουργήθηκαν 111 χαρακτηριστικά για κάθε ασθενή (record). Τα περισσότερα χαρακτηριστικά είχαν τιμές δυαδικού τύπου, αποτυπώνοντας την ύπαρξη ή μη του κάθε χαρακτηριστικού, ενώ κάποιες άλλες είχαν τιμές τύπων αριθμών ή αλφαριθμητικών χαρακτήρων. Από τα 111 χαρακτηριστικά επιλέχθηκαν 60 χαρακτηριστικά τα οποία περιγράφουν τη δομή των επιχρισμάτων ενώ δημιουργήθηκαν άλλα 7 χαρακτηριστικά τα οποία αφορούσαν στην ομαδοποίηση άλλων χαρακτηριστικών. Η Τρίτη Βαθμίδα του συστήματος αφορά στην εύρεση των Κατάλληλων Χαρακτηριστικών. Λόγω του αρχικά υψηλού αριθμού χαρακτηριστικών παραμέτρων (67 ανά περίπτωση), ήταν απαραίτητο να εξαλειφθούν οι χαρακτηριστικές παράμετροι που συσχετίζονταν γραμμικά ή δεν είχαν καμία διαγνωστική πληροφορία. H μέθοδος επιλογής χαρακτηριστικών εφαρμόστηκε πριν από την ταξινόμηση, με γνώμονα την ανεύρεση ενός υποσυνόλου των χαρακτηριστικών παραμέτρων που βελτιστοποιούν σε ακρίβεια τη διαδικασία ταξινόμησης. Εφαρμόστηκε η τεχνική επιπλέουσας πρόσθιας ακολουθιακά μεταβαλλόμενης επιλογής (SFFS). Ο αριθμός των δειγμάτων που χρησιμοποιήθηκαν είναι 2.036 (1.886 καλοήθειες και 150 κακοήθειες). Εξ αυτών, όλες οι κακοήθειες είναι ιστολογικά επιβεβαιωμένες. Επίσης, 140 καλοήθειες είναι ιστολογικά επιβεβαιωμένες με επάρκεια υλικού. Οι υπόλοιπες 1.726 καλοήθειες είναι επιβεβαιωμένες με συνεκτίμηση κλινικών, εργαστηριακών και απεικονιστικών ιατρικών εξετάσεων (υπέρηχοι κ.λπ.). Από τα 2.036 δείγματα, το 25% χρησιμοποιήθηκε για την επιλογή χαρακτηριστικών παραμέτρων, δηλαδή 37 περιπτώσεις κακοήθειας (Malignant) και 472 περιπτώσεις καλοήθειας (Non Malignant). Από την εφαρμογή της τεχνικής (SFFS) επιλέχθηκαν τελικά 12 χαρακτηριστικά ως βέλτιστα για την ταξινόμηση των δεδομένων FNA σε καλοήθη και κακοήθη. Η Τέταρτη βαθμίδα επεξεργασίας είναι η Εφαρμογής Ταξινόμησης με χρήση Μεθόδων Εξόρυξης Δεδομένων ή Ταξινομητής. Για το σκοπό αυτό, επιλέχθηκε να εφαρμοστεί μια πληθώρα αξιόπιστων, καλά επιβεβαιωμένων και σύγχρονων μεθόδων εξόρυξης δεδομένων. Το σύστημα εκπαιδεύτηκε και ελέγχθηκε σε σχέση με το δείγμα για το οποίο είχαμε ιστολογικές επιβεβαιώσεις (ground truth). Η ανεξάρτητη εφαρμογή τεσσάρων αξιόπιστων μεθόδων, Δέντρων Αποφάσεων (Decision Trees), Τεχνιτών Νευρωνικών Δικτύων (Artificial Neural Network), Μηχανών Στήριξης Διανυσμάτων (Support Vector Machine), και Κ - κοντινότερου γείτονα (k-NN), έδωσε αποτελέσματα συγκρίσιμα με αυτά της FNA μεθόδου. Περαιτέρω βελτίωση των αποτελεσμάτων επιτεύχθηκε με την εφαρμογή της μεθόδου πλειοψηφικού κανόνα (Majority Vote - CMV) συνδυάζοντας τα αποτελέσματα από την εφαρμογή των τριών καλύτερων αλγορίθμων, ήτοι των Νευρωνικών Δικτύων, Μηχανών Στήριξης Διανυσμάτων και Κ - κοντινότερου γείτονα. Η τροποποιημένη μέθοδος τεχνητών αυτοάνοσων συστημάτων (Artificial Immune Systems – AIS) χρησιμοποιήθηκε για πρώτη φορά στην ταξινόμηση και παρουσίασε ιδιαίτερα βελτιωμένα αποτελέσματα στην ταξινόμηση των επιχρισμάτων τα οποία χαρακτηρίζονται ύποπτα (suspicious) από τους ειδικούς και αποτελούν το αδύναμο σημείο της μεθόδου FNA. Αυτές οι περιπτώσεις υπόνοιας αποτελούν ένα πολύ δύσκολο κομμάτι για τη διάκριση μεταξύ των καλοηθειών και των κακοηθειών, ακόμα και για τους πλέον ειδικούς. Επειδή όλα τα περιστατικά που χαρακτηρίζονται από την βιοψία FNA ως υπόνοιες αντιμετωπίζονται κλινικά σαν κακοήθειες, η εφαρμογή των αλγοριθμικών μεθόδων βελτιώνει αισθητά τη διαχείριση αυτών των περιπτώσεων μειώνοντας τον αριθμό των άσκοπων χειρουργικών επεμβάσεων θυρεοειδεκτομών. / The Aim of present thesis is the development of an integrated system for supporting diagnosis (Decision Support System - DSS) using for categorizing FNA biopsy smears. Two categories were selected for the FNA smears: malignant and nonmalignant. The system is constituted by the following stages of 1) data collection, 2) data selection 3) choice of suitable clinical and cytological features, 4) application of data mining method for the categorization of FNA biopsy smears. Furthermore a fundamental objective of the doctoral thesis was the improvement of suspect smears (suspicious) categorization, for the latter FNA Biopsy has a known restriction. The system had been trained and checked in relation to the sample that histologic evaluation existed (ground truth). For smears that characterized as nonmalignant by FNA and histological data we’re not available, complementary clinical, laboratory and imaging evaluations took into account in order to create the sample. Τhe smears that were available in this thesis, were collected from FNA biopsies in Pathologoanatomy Laboratory, A’ Pathology Department, Medical School of Athens University. Given that the above referred laboratory is a reference center, an important number of FNA smears were sent to it from other laboratories for cross check. The examination files were sorted in chronological order, but there were in paper forms. The requirements for the formation and the design of database system were collected. Based on the material of the diagnosis an improved system was designed and developed for data initialization and coding. The database was developed based on the design and analysis of requirements; in this database data were stored for further investigation. Analysis of the graphical user interface design was performed in parallel to the database design. Taking into account that the system might be used after the completion of thesis, the graphical user interface was designed in order to be user friendly and flexible environment. According to the methodological approach that was followed, the various cytological characteristic of 9102 FNA smears aspired among 2000-2004 was analyzed statistically. The cytological reports cross correlated with histological diagnoses, aiming to calculate the effect or contribution of each cytological characteristic to a false or true cytological diagnosis and to find the possible sources of erroneous diagnosis. The smears that have blood or a few follicular cells without colloid were characterized as insufficient for further diagnosis. The aspiration was performed either in Α’ department of Athens University (most of the cases with palpable nodules) or elsewhere (mainly under guidance of the reference center). The acquired smears being send to the reference center from various hospitals with different protocols concerning criteria to perform a thyroid FNA. Histological reports were available for 266 patients. The small number of histological verifications was due to the heterogeneity and the lack of patients files. For evaluating of data, descriptive statistic values were used like mean, standard deviation, percentage, maximum and minimum. In addition to that χ2 tests of significance were performed in order to check possible correlation or independence. For correlating cytological and histological diagnosis and evaluating laboratory findings, apart from the descriptive statistic parameters also calculated sensitivity, specificity, total accuracy, negative predictive value and positive predictive value. Method of statistical significance in the level of 5% (p < 0,05) was applied in order to specify if a disease was correlated to a cytological parameter. Those checks were performed for each disease category in correlation to any cytological parameter. Statistical analysis divided the smears into nonmalignant, malignant, neoplasms, suspicious for malignancy and borderline. A diagnosis support system was implemented using data mining methods. The system is consisted of four stages. The First stage of the system is the Data Collection environment, which stores the data to the database. The Second stage of this system concerns the Selection of Data. User requirements concluded that 111 characteristics are needed to describe each patient (record). Most of them have binary values, presenting existence and not existence, other have alphanumeric and number values. Among them 60 were selected and 7 more are produced from grouping other characteristics. The final analysis reveals that 67 characteristics of the smears are capable for describing the structure of smears in general. The Third stage of system concerns the Selection of Best Characteristics. Due to the high number of attributes (67 per case), it was essential to eliminate the characteristics that are connected linearly or do not bring diagnostics information. The choice of characteristics applied before the classification, having the aim of discovering a subset of characteristics that optimizes the process of classification. The technique of Sequential Float Forward Search (SFFS) was applied. The number of patients that used was 2,036 (1886 non malignancies and 150 malignancies). Among them all malignancies were histologically confirmed. In addition to that 140 no malignancies were histologically confirmed in correlation to evaluation of clinics, laboratorial and medical image actions (ultrasounds etc.). Among 2.036 smears the 25% used for characteristics selection, 37 smears of Malignant and smears of Non Malignant. The Sequential Float Forward Search (SFFS) Technique, choose the best 12 elements that they reveal high performance to FNA data categorization. The Fourth stage is the Application of Classification using Data Mining Methods or in other words data mining method. For this aim a set of reliable, well confirmed but also modern methods applied. In addition to that the system was trained and was checked using the sample with histological verifications (ground truth). The independent application of four reliable methods, Decision Trees, Artificial Neural Network, Support Vector Machine, and k-NN, resulting to comparable outcomes concerning those of FNA. However, further improvement was achieved with the application of Majority (Majority Vote - CMV) using of previous results of three algorithms Artificial Neural Network, Support Vector Machine, and k-NN. The modified Artificial Immune System (AIS) was applied for first time. AIS presents particularly improved results for the categorization of smears, which are characterised “suspicious” by the experts and is a known weakness of FNA method. These cases constitute a very difficult part for the discrimination among non-malignant and malignant, even for a specialist. Since all these cases are faced clinically using FNA as malignancies, the application of an improved algorithmic method improves accordingly the management of these cases by decreasing the number of useless surgical thyroid operations. Εξόρυξη δεδομένων Δέντρα αποφάσεων 610.285 Medical decision support system Data mining FNA biopsy Neural networks Decision trees k-Nearest neighborhood Immune systems Majority vote Support vector systems Feature selection

Search results