Global ETD Search

11	Μηχανική μάθηση σε ανομοιογενή δεδομένα / Machine learning in imbalanced data sets Λυπιτάκη, Αναστασία Δήμητρα Δανάη 07 July 2015 (has links) Οι αλγόριθμοι μηχανικής μάθησης είναι επιθυμητό να είναι σε θέση να γενικεύσουν για οποιασδήποτε κλάση με ίδια ακρίβεια. Δηλαδή σε ένα πρόβλημα δύο κλάσεων - θετικών και αρνητικών περιπτώσεων - ο αλγόριθμος να προβλέπει με την ίδια ακρίβεια και τα θετικά και τα αρνητικά παραδείγματα. Αυτό είναι φυσικά η ιδανική κατάσταση. Σε πολλές εφαρμογές οι αλγόριθμοι καλούνται να μάθουν από ένα σύνολο στοιχείων, το οποίο περιέχει πολύ περισσότερα παραδείγματα από τη μια κλάση σε σχέση με την άλλη. Εν γένει, οι επαγωγικοί αλγόριθμοι είναι σχεδιασμένοι να ελαχιστοποιούν τα σφάλματα. Ως συνέπεια οι κλάσεις που περιέχουν λίγες περιπτώσεις μπορούν να αγνοηθούν κατά ένα μεγάλο μέρος επειδή το κόστος λανθασμένης ταξινόμησης της υπερ-αντιπροσωπευόμενης κλάσης ξεπερνά το κόστος λανθασμένης ταξινόμησης της μικρότερη κλάση. Το πρόβλημα των ανομοιογενών συνόλων δεδομένων εμφανίζεται και σε πολλές πραγματικές εφαρμογές όπως στην ιατρική διάγνωση, στη ρομποτική, στις διαδικασίες βιομηχανικής παραγωγής, στην ανίχνευση λαθών δικτύων επικοινωνίας, στην αυτοματοποιημένη δοκιμή του ηλεκτρονικού εξοπλισμού, και σε πολλές άλλες περιοχές. Η παρούσα διπλωματική εργασία με τίτλο ‘Μηχανική Μάθηση με Ανομοιογενή Δεδομένα’ (Machine Learning with Imbalanced Data) αναφέρεται στην επίλυση του προβλήματος αποδοτικής χρήσης αλγορίθμων μηχανικής μάθησης σε ανομοιογενή/ανισοκατανεμημένα δεδομένα. Η διπλωματική περιλαμβάνει μία γενική περιγραφή των βασικών αλγορίθμων μηχανικής μάθησης και των μεθόδων αντιμετώπισης του προβλήματος ανομοιογενών δεδομένων. Παρουσιάζεται πλήθος αλγοριθμικών τεχνικών διαχείρισης ανομοιογενών δεδομένων, όπως οι αλγόριθμοι AdaCost, Cost Senistive Boosting, Metacost και άλλοι. Παρατίθενται οι μετρικές αξιολόγησης των μεθόδων Μηχανικής Μάθησης σε ανομοιογενή δεδομένα, όπως οι καμπύλες διαχείρισης λειτουργικών χαρακτηριστικών (ROC curves), καμπύλες ακρίβειας (PR curves) και καμπύλες κόστους. Στο τελευταίο μέρος της εργασίας προτείνεται ένας υβριδικός αλγόριθμος που συνδυάζει τις τεχνικές OverBagging και Rotation Forest. Συγκρίνεται ο προτεινόμενος αλγόριθμος σε ένα σύνολο ανομοιογενών δεδομένων με άλλους αλγόριθμους και παρουσιάζονται τα αντίστοιχα πειραματικά αποτελέσματα που δείχνουν την καλύτερη απόδοση του προτεινόμενου αλγόριθμου. Τελικά διατυπώνονται τα συμπεράσματα της εργασίας και δίνονται χρήσιμες ερευνητικές κατευθύνσεις. / Machine Learning (ML) algorithms can generalize for every class with the same accuracy. In a problem of two classes, positive (true) and negative (false) cases-the algorithm can predict with the same accuracy the positive and negative examples that is the ideal case. In many applications ML algorithms are used in order to learn from data sets that include more examples from the one class in relationship with another class. In general inductive algorithms are designed in such a way that they can minimize the occurred errors. As a conclusion the classes that contain some cases can be ignored in a large percentage since the cost of the false classification of the super-represented class is greater than the cost of false classification of lower class. The problem of imbalanced data sets is occurred in many ‘real’ applications, such as medical diagnosis, robotics, industrial development processes, communication networks error detection, automated testing of electronic equipment and in other related areas. This dissertation entitled ‘Machine Learning with Imbalanced Data’ is referred to the solution of the problem of efficient use of ML algorithms with imbalanced data sets. The thesis includes a general description of basic ML algorithms and related methods for solving imbalanced data sets. A number of algorithmic techniques for handling imbalanced data sets is presented, such as Adacost, Cost Sensitive Boosting, Metacost and other algorithms. The evaluation metrics of ML methods for imbalanced datasets are presented, including the ROC (Receiver Operating Characteristic) curves, the PR (Precision and Recall) curves and cost curves. A new hybrid ML algorithm combining the OverBagging and Rotation Forest algorithms is introduced and the proposed algorithmic procedure is compared with other related algorithms by using the WEKA operational environment. Experimental results demonstrate the performance superiority of the proposed algorithm. Finally, the conclusions of this research work are presented and several future research directions are given. Ανομοιογενή δεδομένα Μηχανική μάθηση Εξόρυξη δεδομένων Σύνολα ταξινομητών Καμπύλη ROC Καμπύλη PRC Αλγόριθμος Bagging Αλγόριθμος Rotation forest 006.31 Machine learning Imbalanced data sets Data mining ROC curves PRC curves Bagging algorithm Rotation forest algorithm
12	Σχεδιασμός, υλοποίηση και εφαρμογή μεθόδων υπολογιστικής νοημοσύνης για την πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών Ραπακούλια, Τρισεύγενη 11 October 2013 (has links) Η πιο απλή μορφή γενετικής διαφοροποίησης στον άνθρωπο είναι οι μονονουκλεοτιδικοί πολυμορφισμοί (Single Nucleotide Polymorphisms - SNPs). Ο αριθμός αυτού του είδους πολυμορφισμών που έχουν βρεθεί στο ανθρώπινο γονιδίωμα και επηρεάζουν την παραγόμενη πρωτεΐνη αυξάνεται συνεχώς, αλλά η αντιστοίχηση τους σε πιθανές ασθένειες με πειραματικές μεθόδους είναι ασύμφορη από θέμα χρόνου και κόστους. Για αυτό τον λόγο έχουν αναπτυχθεί διάφορες υπολογιστικές μέθοδοι με σκοπό να ταξινομήσουν τους μονονουκλεοτιδικούς πολυμορφισμούς σε παθογόνους και μη. Οι περισσότερες από αυτές τις μεθόδους χρησιμοποιούν ταξινομητές, οι οποίοι παίρνοντας σαν είσοδο ένα σύνολο δομικών, λειτουργικών, ακολουθιακών και εξελικτικών χαρακτηριστικών, επιχειρούν να προβλέψουν αν ένας μονονουκλεοτιδικός πολυμορφισμός είναι παθογόνος ή μη. Για την εκπαίδευση αυτών των ταξινομητών, χρησιμοποιούνται δύο σύνολα μονονουκλεοτιδικών πολυμορφισμών. Το πρώτο αποτελείται από μονονουκλεοτιδικούς πολυμορφισμούς που έχει βρεθεί πειραματικά ότι οδηγούν σε παθογένεια και το δεύτερο από μονονουκλεοτιδικούς πολυμορφισμούς που έχει αποδειχθεί πειραματικά ότι είναι αδρανείς. Οι μέθοδοι αυτές διαφέρουν στα χαρακτηριστικά των μεταλλάξεων που λαμβάνουν υπόψη στην πρόβλεψη τους, καθώς επίσης και στην εκπαίδευση και τη φύση των τεχνικών ταξινόμησης, που χρησιμοποιούν για τη λήψη των αποφάσεων. Το βασικότερο προβλήματα τους ωστόσο έγκειται στο γεγονός ότι καθορίζουν τα χαρακτηριστικά, που θα χρησιμοποιήσουν σαν είσοδο στους ταξινομητές τους με τρόπο εμπειρικό και μάλιστα διαφορετικές μέθοδοι προτείνουν και χρησιμοποιούν διαφορετικά χαρακτηριστικά, χωρίς να τεκμηριώνουν επαρκώς τις αιτίες αυτής της διαφοροποίησης. Δύο ακόμα προβλήματα που δεν έχουν καταφέρει να αντιμετωπίσουν οι υπάρχουσες μεθοδολογίες είναι το πρόβλημα της ανισορροπίας των δύο κλάσεων ταξινόμησης και των ελλιπών τιμών σε πολλά από τα χαρακτηριστικά εισόδου των ταξινομητών, ώστε να επιτυγχάνουν πιο ακριβή και αξιόπιστα αποτελέσματα. Από τα παραπάνω είναι ξεκάθαρο πως υπάρχει μεγάλο περιθώριο βελτίωσης των υπάρχουσων μεθοδολογιών για το συγκεκριμένο πρόβλημα ταξινόμησης. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα υβριδική μεθοδολογία υπολογιστικής νοημοσύνης, που ξεπερνά πολλά από τα προβλήματα των υπάρχοντων μεθοδολογιών και βελτιώνει με τον τρόπο αυτό την απόδοσή τους. Δύο είναι τα βασικά βήματα που ακολουθήσαμε για την επίτευξη του στόχου αυτού. Πρώτον, συγκεντρώσαμε από τις διαθέσιμες δημόσιες βάσεις δεδομένων, τους μονονουκλεοτιδικούς πολυμορφισμούς που χρησιμοποιήθηκαν για την εκπαίδευση και τον έλεγχο των μοντέλων μηχανικής μάθησης. Συγκεκριμένα, συλλέχθησαν και φιλτραρίστηκαν τα θετικά και αρνητικά σύνολα εκπαίδευσης και ελέγχου, που αποτελούνται από μονονουκλεοτιδικούς πολυμορφισμούς που είτε οδηγούν σε παθογένεια, είτε είναι ουδέτεροι. Για κάθε πολυμορφισμό των δύο συνόλων υπολογίσαμε χρησιμοποιώντας υπάρχοντα διαθέσιμα εργαλεία όσο το δυνατό περισσότερα δομικά, λειτουργικά, ακολουθιακά και εξελικτικά χαρακτηριστικά. Για εκείνα τα χαρακτηριστικά, για τα οποία δεν υπήρχε κάποιο διαθέσιμο εργαλείο υπολογισμού τους, υλοποιήσαμε τον κατάλληλο κώδικα για τον υπολογισμό τους. Το δεύτερο βήμα της διπλωματικής αφορούσε το σχεδιασμό και την υλοποίηση της κατάλληλης υβριδικής μεθόδου για την επίλυση του προβλήματος που μελετάμε. Χρησιμοποιήσαμε μια νέα μέθοδο ταξινόμησης την EnsembleGASVR. Πρόκειται για μια ensemble μεθοδολογία, που συνδυάζει σε ένα ενιαίο πλαίσιο ταξινόμησης οκτώ διαφορετικούς ταξινομητές. Κάθε ένας από αυτούς τους ταξινομητές βασίζεται στον υβριδικό συνδυασμό των Γενετικών Αλγορίθμων και των μοντέλων Παλινδρόμησης Διανυσμάτων Υποστήριξης (nu-Support Vector Regression). Συγκεκριμένα ένας Προσαρμοζόμενος Γενετικός Αλγόριθμος χρησιμοποιείται για να καθοριστεί το βέλτιστο υποσύνολο χαρακτηριστικών, καθώς και οι βέλτιστες τιμές των παραμέτρων των ταξινομητών. Σαν μέθοδο ταξινόμησης των μεταλλάξεων σε ουδέτερες και παθογενείς, προτείνουμε τον nu-SVR ταξινομητή, καθώς παρουσιάζει υψηλή απόδοση, καλή γενίκευση, δεν παγιδεύεται σε τοπικά βέλτιστα, ενώ ταυτόχρονα επιτυγχάνει την ισορροπία μεταξύ της ακρίβειας και της πολυπλοκότητας του μοντέλου. Μάλιστα για να ξεπεράσουμε τα πρόβληματα των ελλιπών τιμών και της ανισορροπίας των δύο κλάσεων ταξινόμησης, αλλά και για να βελτιώσουμε τη συνολική απόδοση της μεθοδολογίας μας, επεκτείναμε τον υβριδικό αλγόριθμο, ώστε να λειτουργεί σαν μία ensemble-συλλογική τεχνική, συνδυάζοντας οκτώ επί μέρους μοντέλα ταξινόμησης. Τα πειραματικά αποτελέσματα της προτεινόμενης μεθοδολογίας ήταν εξαιρετικά ελπιδοφόρα, καθώς η EnsembleGASVR μεθοδολογία υπερτερεί σημαντικά έναντι άλλων ευρέως γνωστών μεθόδων ταξινόμησης παθογενών μεταλλάξεων. / Single Nucleotide Polymorphisms (SNPs) are the most common form of genetic variations in humans. The number of SNPs that have been found in human genome and affect protein functionality is constantly increasing. Finding matches between SNPs and diseases using experimental techniques, is excessive disadvantageous in terms of time and cost. For this reason, several computational methods have been developed. These methods classify polymorphisms as pathogenic and non-pathogenic. Most of them use classifiers, which take as input a set of structural, functional, sequential and evolutionary features and predict whether a single nucleotide polymorphism is pathogenic or neutral. For training these classifiers use two sets of SNPs. The first one consists of SNPs that have been experimentally proven as pathogenic, whereas the second set consists of SNPs that have been experimentally characterized as benign. These methods differ in the classification methods they deploy and in the features they use as inputs. However, the main problem is the determination of an empirically verified set of features for training. Specifically, different methods suggest different feature sets, without adequately documenting the causes of this differentiation. In addition, the existing methodologies do not tackle efficiently the class imbalance problem between positive and negative training sets and the problem of missing values in the datasets. In this thesis a new hybrid computational intelligence methodology is proposed, that overcomes many of the problems of existing methodologies. The proposed method achieves high classification performance and systematizes the selection of relevant features. In the first phase of this study the polymorphisms were gathered from the available public databases and they were used for training and testing of the machine learning models. Specifically, the positive and negative training and test sets were collected and filtered. They consist of single nucleotide polymorphisms that lead to either pathogenesis or are neutral. For each polymorphism of the two sets, using existing available tools, a wide range of structural, functional, sequential and evolutionary features were calculated. For those features for which there was no available tool, the suitable program (code) was developed in order to compute them. In the second step a new embedded hybrid classification method called EnsembleGASVR is designed and implemented. The method uses an ensemble methodology, based on hybrid combination of Genetic Algorithms and nu-Support Vector Regression (nu-SVR) models. An Adaptive Genetic Algorithm is used to determine the optimal subset of features and the optimal values of the parameters of classifiers. We propose the nu-SVR classifier, since it exhibits high performance, good generalization ability, it is not trapped in local optima and achieves a balance between accuracy and complexity of the model. In order to overcome the problem of missing values and class imbalance, we extended the above algorithm to function as a collective ensemble-technique, combining eight individual classification models. In overall, the method achieves 87.45% accuracy, 71.78% sensitivity and 93.16% specificity. These priliminary results are very promising and shows that EnsembleGASVR methodology significantly outperforms other well-known classification methods for pathogenic mutations. Μηχανική μάθηση Γενετικοί αλγόριθμοι 616.042 Pathogenic mutations Single Nucleotide Polymorphisms (SNPs) Ensemble methods Support vector regression
13	Χρήση αλγορίθμων μηχανικής μάθησης για την ταυτοποίηση κοινών σημείων ενδιαφέροντος σε ετερογενή σύνολα δεδομένων από μέσα κοινωνικής δικτύωσης Καλαβρουζιώτης, Βασίλειος 02 April 2014 (has links) Στην εργασία αυτή ασχολούμαστε με την αξιοποίηση των δεδομένων από διαφορετικά κοινωνικά δίκτυα (πιο συγκεκριμένα από Foursquare και Facebook) με σκοπό να ταυτοποιήσουμε τις ίδιες τοποθεσίες (ή αλλιώς σημεία ενδιαφέροντος) που έχουν εισαχθεί σε αυτά τα δίκτυα. Το πρόβλημα της ταυτοποίησης είναι σημαντικό να λυθεί διότι έτσι θα μπορούσε να αποκτηθεί μια καλύτερη εικόνα για τις αλληλεπιδράσεις των χρηστών με το φυσικό περιβάλλον με τη χρήση των μέσων κοινωνικής δικτύωσης (social data). Αυτό σημαίνει ταυτόχρονα και καλύτερη ανάλυση και αξιοποίηση αυτών δεδομένων, αφού θα έχουμε αναγνωρίσει μεγάλο μέρος των κοινών σημείων ενδιαφέροντος από ετερογενή σύνολα δεδομένων από τα μέσα κοινωνικής δικτύωσης. Μια λύση στο πρόβλημα είναι η χρήση των αλγορίθμων μηχανικής μάθησης, που θα αποφασίζουν αν ένα ζεύγος σημείων αντιπροσωπεύει το ίδιο σημείο ενδιαφέροντος. / In this paper we deal with the exploitation of data from different social networks (more specifically from Foursquare and Facebook) in order to identify the same locations (or landmarks ) introduced in these networks . The problem of identification is important to solve it so he could get a better picture of the user interactions with the natural environment through the use of social media (social data). This means simultaneously and better analysis and use of such data , since we recognize much of the common points of interest from heterogeneous datasets from social media . One solution to this problem is the use of machine learning algorithms , which will decide whether a pair of points represents the same point of interest . Μηχανική μάθηση Νευρωνικά δίκτυα Γεωγραφικά δεδομένα Σημεία ενδιαφέροντος 006.32 Machine learning Neural networks Geographic data Points of interest
14	Αποτίμηση μεθόδων εκπαίδευσης τεχνητών νευρωνικών δικτύων και εφαρμογές Λιβιέρης, Ιωάννης 31 August 2009 (has links) Τα τεχνητά νευρωνικά δίκτυα είναι μια μορφή τεχνητής νοημοσύνης, τα οποία αποτελούνται από ένα σύνολο απλών, διασυνδεδεμένων και προσαρμοστικών μονάδων, οι οποίες συνιστούν ένα παράλληλο πολύπλοκο υπολογιστικό μοντέλο. Μέχρι σήμερα έχουν εφαρμοστεί επιτυχημένα σε ένα ευρύ φάσμα περιοχών για την επίλυση προβλημάτων ταξινόμησης ή πρόβλεψης, όπως η βιολογία, η ιατρική, η γεολογία, η φυσική κ.ά. Σε αυτήν την εργασία θα ασχοληθούμε με την εκπαίδευση τεχνητών νευρωνικών δικτύων ανά πρότυπο εισόδου. Αυτή η προσέγγιση θεωρείται κατεξοχήν κατάλληλη για περιπτώσεις όπου η εκπαίδευση διαθέτει σημαντικό χρόνο και απαιτεί μεγάλο αποθηκευτικό χώρο, όπως συμβαίνει συχνά όταν έχουμε μεγάλα σύνολα προτύπων ή/και δίκτυα. Μέχρι σήμερα έχουν προταθεί πολλοί αλγόριθμοι εκπαίδευσης νευρωνικών δικτύων, καλύπτοντας ο ένας τα κενά του άλλου, σχεδιασμένοι ώστε να επιλύουν τα προβλήματα που παλιότερα ήταν δύσκολο να επιλυθούν. Στόχος της εργασίας είναι η εκτενής ανάλυση και αξιολόγηση των αλγορίθμων εκπαίδευσης καθώς και η ικανότητα γενίκευσης των εκπαιδευόμενων δικτύων σε μια ποικιλία προβλημάτων από τους τομείς τις ιατρικής και της βιοπληροφορικής. Επίσης επηρεασμένοι από τη δυνατότητα για την επίτευξη καλύτερης απόδοσης θα μελετήσουμε την συμβολή των νευρωνικών δικτύων στη μηχανική μάθηση. Συγκεκριμένα θα αποτιμήσουμε τη συνεισφορά των νευρωνικών δικτύων στη δημιουργία αξιόπιστων συστημάτων αποφάσεων χρησιμοποιώντας τεχνικές συνδυασμού ταξινομητών. Τέλος, θα μελετήσουμε τις δυνατότητες συνδυασμού τους με διάφορες άλλες κατηγορίες ταξινομητών μηχανικής μάθησης για την ανάπτυξη ισχυρότερων υβριδικών συστημάτων εξαγωγής πληροφορίας. / Literature review corroborates that artificial neural networks are being successfully applied in a variety of regression and classification problems. Due of their ability to exploit the tolerance for imprecision and uncertainty in real-world problems and their robustness and parallelism, artificial neural networks have been increasingly used in many applications. It is well-known that the procedure of training a neural network is highly consistent with unconstrained optimization theory and many attempts have been made to speed up this process. In particular, various algorithms motivated from numerical optimization theory have been applied for accelerating neural network training. Moreover, commonly known heuristics approaches such as momentum or variable learning rate lead to a significant improvement. In this work we compare the performance of classical gradient descent methods and examine the effect of incorporating into them a variable learning rate and an adaptive nonmonotone strategy. We perform a large scale study on the behavior of the presented algorithms and identify their possible advantages. Additionally, we propose two modifications of two well-known second order algorithms aiming to overcome the limitations of the original methods. Νευρωνικά δίκτυα Μέθοδοι εκπαίδευσης Μηχανική μάθηση 006.3 Neural networks Training methods Data mining Ensemble of classifiers
15	Μοντελοποίηση και ψηφιακή επεξεργασία προσωδιακών φαινομένων της ελληνικής γλώσσας με εφαρμογή στην σύνθεση ομιλίας / Modeling and signal processing of greek language prosodic events with application to speech synthesis Ζέρβας, Παναγιώτης 04 February 2008 (has links) Αντικείμενο της παρούσης διδακτορικής διατριβής αποτελεί η μελέτη και μοντελοποίηση των φαινομένων επιτονισμού της Ελληνικής γλώσσας με εφαρμογές στην σύνθεση ομιλίας. Στα πλαίσια της διατριβής αυτής αναπτύχθηκαν πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη προσωδιακών παραγόντων οι οποίοι επηρεάζουν την πληροφορία που μεταφέρεται μέσω του προφορικού λόγου. Για την διαχείρηση και επεξεργασία των παραπάνω πόρων υλοποιήθηκε πλατφόρμα μετατροπής κειμένου σε ομιλία βασισμένη στην συνένωση δομικών μονάδων ομιλίας. Για την μελέτη και την δημιουργία των μοντέλων μηχανικής μάθησης χρησιμοποιήθηκε η γλωσσολογική αναπαράσταση GRToBI των φαινομένων επιτονισμού. / In this thesis we cope with the task of studying and modeling prosodic phenomena encountered in Greek language with applications to the task of speech synthesis from tex. Thus, spoken corpora with various levels of morphosyntactical and linguistic representation as well as tools for their processing, we constructed. For the task of coding the emerged prosodic phenomena of our recorded utterences we have utilized the GRToBI annotation of speech. Προσωδία Επιτονισμός Σύνθεση ομιλίας Μηχανική μάθηση 621.382 23 Prosody Intonation Speech signal processing Speech synthesis Machine learning
16	Ευφυής ανάλυση βιοσημάτων προκλητών δυναμικών στον μετεγχειρητικό πόνο Ντουραντώνης, Δημήτριος 26 July 2013 (has links) Στην παρούσα διπλωματική εργασία γίνεται μια προσπάθεια αντικειμενοποίησης και μοντελοποίησης του μετεγχειρητικού πόνου συνεπεία προγραμματισμένων ορθοπαιδικών επεμβάσεων στην άρθρωση του γόνατος με την βοήθεια εργαλείων μηχανικής μάθησης. Σκοπός της εν λόγω μοντελοποίησης είναι η δημιουργία ενός ευφυούς συστήματος αξιολόγησης και εκτίμησης του μετεγχειρητικού πόνου και η εξέταση της υπόθεσης του κατά πόσο η χρήση ως παραμέτρου μιας αντικειμενικής τιμής όπως αυτή που προέρχεται από την καταγραφή των σωματοαισθητικών προκλητών δυναμικών μπορεί να επηρεάσει την ακρίβεια του συστήματος μας. Συγκεκριμένα χρησιμοποιήθηκαν παράμετροι από το ιστορικό του ασθενούς, τα σωματομετρικά του χαρακτηριστικά, τα δεδομένα του χειρουργείου και της αναλγησίας που δόθηκε σε αυτό, η αυτοαξιολόγηση του ίδιου του ασθενούς μέσω της κλίμακας αυτοαξιολόγησης του πόνου NRS και τέλος αυτό που διαφοροποιεί την παρούσα διπλωματική είναι η προσπάθεια συσχέτισης μιας αντικειμενικής παραμέτρου που τα τελευταία χρόνια έχει συσχετιστεί με τον πόνο, αυτή των σωματοαισθητικών προκλητών δυναμικών. / In this paper we made an attempt of objectification and modeling of postoperative pain as a result of planned orthopedic surgery in the knee joint with the help of machine learning tools. The purpose of this modeling is to create an intelligent system evaluation and assessment of postoperative pain and the case is whether the use as an objective parameter value as derived from the recording of somatosensory evoked potentials may affect the accuracy of the system our. Specific parameters used by the patient's history, the anthropometric characteristics, data of surgery and analgesia given to this, self-evaluation of the patient using the scale of self-assessment of pain NRS and finally what differentiates this thesis is the attempt correlation of an objective parameter in recent years has been associated with pain, that of somatosensory evoked potentials. Προκλητά δυναμικά Ευφυή συστήματα Μηχανική μάθηση 616.804 754 7 Somatosensory evoked potentials Postoperative pain Artificial intelligence Machine learning Weka Fuzzy clips
17	Σχεδιασμός και ανάπτυξη αλγορίθμου συσταδοποίησης μεγάλης κλίμακας δεδομένων Γούλας, Χαράλαμπος January 2015 (has links) Υπό το φάσμα της νέας, ανερχόμενης κοινωνίας της πληροφορίας, η σύγκλιση των υπολογιστών με τις τηλεπικοινωνίες έχει οδηγήσει στην συνεχώς αυξανόμενη παραγωγή και αποθήκευση τεράστιου όγκου δεδομένων σχεδόν για οποιονδήποτε τομέα της ανθρώπινης ενασχόλησης. Αν, λοιπόν, τα δεδομένα αποτελούν τα καταγεγραμμένα γεγονότα της ανθρώπινης ενασχόλησης, οι πληροφορίες αποτελούν τους κανόνες, που τα διέπουν. Και η κοινωνία στηρίζεται και αναζητά διακαώς νέες πληροφορίες. Το μόνο που απομένει, είναι η ανακάλυψη τους. Ο τομέας, που ασχολείται με την συστηματική ανάλυση των δεδομένων με σκοπό την εξαγωγή χρήσιμης γνώσης ονομάζεται μηχανική μάθηση. Υπό αυτό, λοιπόν, το πρίσμα, η παρούσα διπλωματική πραγματεύεται την μηχανική μάθηση ως μια ελπίδα των επιστημόνων να αποσαφηνίσουν τις δομές που διέπουν τα δεδομένα και να ανακαλύψουν και να κατανοήσουν τους κανόνες, που “κινούν” τον φυσικό κόσμο. Αρχικά, πραγματοποιείται μια πρώτη περιγραφή της μηχανικής μάθησης ως ένα από τα βασικότερα δομικά στοιχεία της τεχνητής νοημοσύνης, παρουσιάζοντας ταυτόχρονα μια πληθώρα προβλημάτων, στα οποία μπορεί να βρει λύση, ενώ γίνεται και μια σύντομη ιστορική αναδρομή της πορείας και των κομβικών της σημείων. Ακολούθως, πραγματοποιείται μια όσο το δυνατόν πιο εμπεριστατωμένη περιγραφή, μέσω χρήσης εκτεταμένης βιβλιογραφίας, σχεδιαγραμμάτων και λειτουργικών παραδειγμάτων των βασικότερων κλάδων της, όπως είναι η επιβλεπόμενη μάθηση (δέντρα αποφάσεων, νευρωνικά δίκτυα), η μη-επιβλεπόμενη μάθηση (συσταδοποίηση δεδομένων), καθώς και πιο εξειδικευμένων μορφών της, όπως είναι η ημί-επιβλεπόμενη μηχανική μάθηση και οι γενετικοί αλγόριθμοι. Επιπρόσθετα, σχεδιάζεται και υλοποιείται ένας νέος πιθανοτικός αλγόριθμος συσταδοποίησης (clustering) δεδομένων, ο οποίος ουσιαστικά αποτελεί ένα υβρίδιο ενός ιεραρχικού αλγορίθμου ομαδοποίησης και ενός αλγορίθμου διαμέρισης. Ο αλγόριθμος δοκιμάστηκε σε ένα πλήθος διαφορετικών συνόλων, πετυχαίνοντας αρκετά ενθαρρυντικά αποτελέσματα, συγκριτικά με άλλους γνωστούς αλγορίθμους, όπως είναι ο k-means και ο single-linkage. Πιο συγκεκριμένα, ο αλγόριθμος κατασκευάζει συστάδες δεδομένων, με μεγαλύτερη ομοιογένεια κατά πλειοψηφία σε σχέση με τους παραπάνω, ενώ το σημαντικότερο πλεονέκτημά του είναι ότι δεν χρειάζεται κάποια αντίστοιχη παράμετρο k για να λειτουργήσει. Τέλος, γίνονται προτάσεις τόσο για περαιτέρω βελτίωση του παραπάνω αλγορίθμου, όσο και για την ανάπτυξη νέων τεχνικών και μεθόδων, εναρμονισμένων με τις σύγχρονες τάσεις της αγοράς και προσανατολισμένων προς τις απαιτητικές ανάγκες της νέας, αναδυόμενης κοινωνίας της πληροφορίας. / In the spectrum of a new and emerging information society, the convergence of computers and telecommunication has led to a continuously increasing production and storage of huge amounts of data for almost any field of human engagement. So, if the data are recorded facts of human involvement, then information are the rules that govern them. And society depends on and looking earnestly for new information. All that remains is their discovery. The field of computer science, which deals with the systematic analysis of data in order to extract useful information, is called machine learning. In this light, therefore, this thesis discusses the machine learning as a hope of scientists to elucidate the structures that govern the data and discover and understand the rules that "move" the natural world. Firstly, a general description of machine learning, as one of the main components of artificial intelligence, is discussed, while presenting a variety of problems that machine learning can find solutions, as well as a brief historical overview of its progress. Secondly, a more detailed description of machine learning is presented by using extensive literature, diagrams, drawings and working examples of its major research areas, as is the supervised learning (decision trees, neural networks), the unsupervised learning (clustering algorithms) and more specialized forms, as is the semi-supervised machine learning and genetic algorithms. In addition to the above, it is planned and implemented a new probabilistic clustering algorithm, which is a hybrid of a hierarchical clustering algorithm and a partitioning algorithm. The algorithm was tested on a plurality of different datasets, achieving sufficiently encouraging results, as compared to other known algorithms, such as k-means and single-linkage. More specifically, the algorithm constructs data blocks, with greater homogeneity by majority with respect to the above, while the most important advantage is that it needs no corresponding parameter k to operate. Finally, suggestions are made in order to further improve the above algorithm, as well as to develop new techniques and methods in keeping with the current market trends, oriented to the demanding needs of this new, emerging information society. Μηχανική μάθηση Δέντρα αποφάσεων Νευρωνικά δίκτυα Γενετικοί αλγόριθμοι Υβριδικοί αλγόριθμοι 006.31 Machine learning Hierarchical clustering Decision trees Neural networks Genetic algorithms Hybrid algorithms
18	Εμπλουτισμός στατιστικού ελέγχου ποιότητας με τεχνικές μηχανικής μάθησης / Augmenting statistical quality control with machine learning techniques Φουντουλάκη, Αικατερίνη 09 January 2012 (has links) Η παρούσα διατριβή αφορά στην ολοκλήρωση των μεθόδων Στατιστικού Ελέγχου Ποιότητας με τεχνικές Μηχανικής Μάθησης, για την καλύτερη εξυπηρέτηση των αναγκών των σύγχρονων επιχειρήσεων. Προς αυτή την κατεύθυνση, έγινε αρχικά μια λεπτομερής ανασκόπηση της σχετικής βιβλιογραφίας για τον εντοπισμό και την αναγνώριση των σημαντικότερων ελλείψεων του Στατιστικού Ελέγχου Ποιότητας. Στη συνέχεια, χρησιμοποιήθηκαν τεχνικές Μηχανικής Μάθησης για την αντιμετώπιση των παραπάνω ελλείψεων. Πιο συγκεκριμένα, προτάθηκε μια μεθοδολογία για αναγνώριση μέσων μετατοπίσεων σε αυτοσυσχετιζόμενα δεδομένα πολυμεταβλητών διεργασιών, τα οποία συναντώνται πολύ συχνά σε πραγματικές διεργασίες. Η προτεινόμενη μεθοδολογία δοκιμάζεται και ελέγχεται ως προς την απόδοσή της και την ικανότητά της για εφαρμογή σε δεδομένα διαφορετικής φύσεως σε δυο μελέτες περίπτωσης. Τα αποτελέσματα από τις μελέτες αυτές είναι ενθαρρυντικά καθώς επιτεύχθηκαν αρκετά υψηλά ποσοστά επιτυχών αναγνωρίσεων μέσων μετατοπίσεων. Η διατριβή ολοκληρώνεται με παράθεση μιας σειράς συμπερασμάτων, ανάδειξη της συμβολής της προτεινόμενης μεθοδολογίας και υπόδειξη μελλοντικών ερευνητικών κατευθύνσεων για την επέκτασή της. / This thesis concerns the integration of Statistical Quality Control methods with Machine Learning techniques for covering contemporary business needs. The proposed approach took into account a thorough review of the literature, which identified the major shortcomings of Statistical Quality Control. A consideration of Machine Learning techniques with respect to the above shortcomings was then performed. More specifically, a methodology was proposed for identifying mean shifts in auto-correlated multivariate data processes, which occurs very often in real processes. The proposed approach was tested through two different case studies for its performance and ability to implement data of different type. The results of these case studies were encouraging as quite high rates were achieved for the successful recognition of mean shifts. The thesis concludes by listing a series of findings, highlighting the contribution of the proposed approach and suggesting a series of future research directions. Μηχανική μάθηση Νευρωνικά δίκτυα 519.86 Statistical quality control Machine learning Statistical process control Neural networks
19	Σύνθεση περιλήψεων από σχόλια χρηστών για προϊόντα και υπηρεσίες ηλεκτρονικού εμπορίου / Extractive summarization of user opinions for online products and services Besharat, Jeries F. 14 February 2012 (has links) Ο στόχος της διπλωματικής εργασίας είναι διττός: 1.Εξαγωγή απόψεων που αφορούν τα προϊόντα 2.Περίληψη των απόψεων Η εξαγωγή απόψεων αναφέρεται σε μια ευρεία περιοχή επεξεργασίας της φυσικής γλώσσας, υπολογιστικής γλωσσολογίας και εξόρυξης κειμένου. Σε γενικές γραμμές, έχει ως στόχο να εντοπίσει τη στάση του ομιλητή ή συγγραφέα σε σχέση με κάποιο θέμα. Οι απόψεις του μπορούν να εκφράζουν κρίση ή αξιολόγηση, τη συναισθηματική του κατάσταση ή την προβλεπόμενη συναισθηματική επικοινωνία. H αυτόματη εξαγωγή περίληψης είναι η δημιουργία μιας συντομευμένης εκδοχής του αρχικού κειμένου. Η συνεισφορά της συγκεκριμένης διπλωματικής εργασίας εντοπίζεται στα ακόλουθα σημεία. Αρχικά βοηθά τον ενδιαφερόμενο αγοραστή κάποιου προϊόντος να σχηματίσει μια γενική εικόνα για το προϊόν. Επίσης, δίνει την δυνατότητα στον κατασκευαστή να δει τις εντυπώσεις των χρηστών για το συγκεκριμένο προϊόν και αναλόγως να προχωρήσει σε βελτιώσεις του ή να επιλύσει διάφορα προβλήματα που μπορεί να παρουσιάζει. / In recent years the nancial transactions via the web increase. This leads the Internet to become an important mean of nancial transactions. Transactions on the Internet di er from traditional in many ways including: communication, market segmentation, distribution costs and price. An expression of such transactions is electronic commerce (e-commerce). E-commerce refers in buying and selling products or services through electronic systems. A large percentage of electronic commerce conducted entirely electronically for virtual items such as access to content on a site, but the bulk of e-commerce business involves the transportation of tangible assets such as products. The recent increase is the content generated by users (User Generated Content), dramatically reshaping the marketing. Internet users today can cite comments and views on various issues. Part of such views out and e-commerce. Each user buys a product, can write his opinion on this and thus carry information to other users who might be interested. The objective of this thesis is twofold: • Export of major coreference chains of the comments related to products • Text summary based on the sentences from the candidate set of chains The chains export refers to a wide range of natural language processing, computational linguistics and text mining. In general, aims to identify the main subject of the comment by using the references, also where the writer is referred in each sentence (a general view of the product or for a speci c element) and calculating the coherence of the summary (text coherence). H automatic synthesis of the abstract is to create an abridged version of the original text from one software. The product of this process still contains the most important points of the original text. The phenomenon of information overload means that access to consistent and well-developed summaries are vital. As the access to data increases, so does the interest in automatic summarization. In the proposed research there should be studied and solved speci c challenges in this scope. An example might be the fact that the data are dynamic and change over time. Also, users can update their reviews for the same product or even replace them entirely with a new perspective. Another challenge is the fact that the products are upgraded over time and hence the views that evaluate or criticize respectively. The contribution of this thesis lies in the following points. Originally helps the potential buyer of a product to get a general picture of the product without having to read all the comments made. It also enables the manufacturer to see the user experience on the product and accordingly proceed to improvements or to resolve various problems that may be. Ηλεκτρονικό εμπόριο Συνοχή κειμένου Εξόρυξη γνώμης Μηχανική μάθηση 005.302 9 E-commerce User generated content Text coherence
20	Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας / Learning of syntactic dependencies and development of modern Greek grammars Κερμανίδου, Κάτια Λήδα 25 June 2007 (has links) Η παρούσα διατριβή έχει ως σκοπό της, πρώτον, την ανάκτηση συντακτικής πληροφορίας (αναγνώριση συμπληρωμάτων ρημάτων, ανάκτηση πλαισίων υποκατηγοριοποίησης (ΠΥ) ρημάτων, αναγνώριση των ορίων και του είδους των προτάσεων) αυτόματα μέσα από ελληνικά και αγγλικά σώματα κειμένων με την χρήση ποικίλων και καινοτόμων τεχνικών μηχανικής μάθησης και, δεύτερον, την θεωρητική περιγραφή της ελληνικής σύνταξης μέσω τυπικών γλωσσολογικών φορμαλισμών, όπως η γραμματική Ενοποίησης και η γραμματική Φραστικής Δομής Οδηγούμενη από τον Κύριο Όρο. Η διατριβή κινήθηκε πάνω στους εξής καινοτόμους άξονες: 1. Η προεπεξεργασία των σωμάτων κειμένων βασίστηκε σε ελάχιστους γλωσσολογικούς πόρους για να είναι δυνατή η μεταφορά των μεθόδων σε γλώσσες φτωχές σε υποδομή. 2. Η αντιμετώπιση του θορύβου που υπεισέρχεται στα δεδομένα εξ αιτίας της χρήσης ελάχιστων πόρων πραγματοποιείται με Μονόπλευρη Δειγματοληψία. Εντοπίζονται αυτόματα παραδείγματα δεδομένων που δεν προσφέρουν στην μάθηση και αφαιρούνται. Τα τελικά δεδομένα είναι πιο καθαρά και η απόδοση της μάθησης βελτιώνεται πολύ. 3. Αποδεικνύεται η χρησιμότητα της εξαχθείσας πληροφορίας. Η χρησιμότητα των συμπληρωμάτων φαίνεται από την αύξηση της απόδοσης της διαδικασίας ανάκτησης ΠΥ με την χρήση τους. Η χρησιμότητα των εξαγόμενων ΠΥ φαίνεται από την αύξηση της απόδοσης ενός ρηχού συντακτικού αναλυτή με την χρήση τους. 4. Οι μέθοδοι εφαρμόζονται και στα Αγγλικά και στα Ελληνικά για να φανεί η μεταφερσιμότητά τους σε διαφορετικές γλώσσες και για να πραγματοποιηθεί μια ενδιαφέρουσα σχετική σύγκριση ανάμεσα στις δύο γλώσσες. Τα αποτελέσματα είναι πολύ ενθαρρυντικά, συγκρίσιμα με, και σε πολλές περιπτώσεις καλύτερα από, προσεγγίσεις που χρησιμοποιούν εξελιγμένα εργαλεία προεπεξεργασίας. / The thesis aims firstly at the acquisition of syntactic information (detection of verb complements, acquisition of verb subcategorization frames (SF), detection of the boundaries and the semantic type of clauses) automatically from Modern Greek and English text corpora with the use of various state-of-the-art and novel machine learning techniques, and, secondly, at the theoretical description of the Greek syntax through formal grammatical theories like Unification Grammar and Head-driven Phrase Structure Grammar. The thesis has been based on the following novel axes: 1. Corpus pre-processing has been limited to the use of minimum linguistic resources to ensure the portability of the presented methodologies to languages that are poorly equipped with resources. 2. Due to the low pre-processing level, a significant amount of noise appears in the data, which is dealt with One-sided Sampling. Examples that do not contribute to the learning process are detected and removed. The final data set is clean and learning performance improves significantly. 3. The importance of the acquired information is proven. The importance of complements is shown by the improvement in the performance of the SF acquisition process after the incorporation of complement information. The importance of the acquired SF lexicon is shown by its incorporation in a shallow syntactic parser and the increase of the performance of the latter. 4. The methods are applied on Modern Greek and on English to show their portability across different languages and to allow for an interesting rough comparison between the two languages. The results are very satisfactory, comparable to, and in some cases better than, approaches utilizing sophisticated resources for pre-processing. Συμπληρώματα ρημάτων Μηχανική μάθηση Συντακτική ανάλυση 410.285 Natural language processing Verb complements Verb subcategorization frames Machine learning Syntactic processing One-sided sampling Modern Greek grammar development

Search results