Global ETD Search

1	Μελέτη εκτέλεσης αλγορίθμων στο πλέγμα υπολογιστών Ευταξιόπουλος, Χαρίλαος 19 October 2009 (has links) Στη σύχρονη εποχή η ανάπτυξη των ετερογενών και κατανεμημένων περιβαλλόντων, όπως τα περιβάλλοντα πλέγματος, καθιστά εφικτή την επίλυση υπολογιστικά εντατικών προβλημάτων με αξιόπιστο και οικονομικό τρόπο. Το Πλέγμα υπολογιστών είναι μια αναπτυσσόμενη δομή που παρέχει πρόσβαση σε υπολογιστική ισχύ και αποθηκευτικό χώρο κατανεμημένα σε όλο τον κόσμο και εισήχθη για να ικανοποιήσει την ανάγκη για εφαρμογές που απαιτούν μεγάλο αριθμό υπολογισμών καθώς και την επικοινωνία των ατόμων που τις εκτελούν. Στην παρούσα διπλωματική εργασία παρουσίαζεται με λεπτομέρεια η δομή και ο τρόπος λειτουργίας και εξυπηρέτησης χρηστών του Πλέγματος. Επικεντρώνουμε το ενδιαφέρον μας στη μελέτη εκτέλεσης αλγορίθμων στο Πλέγμα προσφέροντας στον αναγνώστη τη δυνατότητα εξοικείωσης με τις ιδιαιτερότητες συγγραφής αλγορίθμων και εφαρμογών που επιθυμούν να εκμεταλλευτούν τις δυνατότητες του Πλέγματος. Επίσης, καταγράφουμε τη μεθοδολογία και τον τρόπο υποβολής εργασιών στο Πλέγμα από τη σκοπιά του χρήστη. Από τους αλγορίθμους που καταγράφονται, ιδιαίτερη έμφαση δόθηκε στις παράλληλες εφαρμογές που εκμεταλλεύονται το μεγάλο πλεονέκτημα που μας προσφέρει το Πλέγμα εφοδιάζοντας μας με πολλαπλές επεξεργαστικές μονάδες. Συγκεκριμένα για να εξετάσουμε τόσο την αρχιτεκτονική όσο και τις δυνατότητες του Πλέγματος, αναπτύξαμε και συγγράψαμε ένα παράλληλο Γενετικό Αλγόριθμο για το πολυδίαστατο και απαιτητικό πρόβλημα του Χρονοπρογραμματισμού Εξετάσεων σε Πανεπιστήμια. / In our contemporary society, the development of distributed and heterogeneous computing environments, provide us with the capability of solving difficult scientific problems in a reliable and economic manner. The Grid environment is a form of distributed computing whereby a “super and virtual computer” is composed of a cluster of networked loosely coupled computers acting in concert to perform very large tasks. This technology has been applied to computationally intensive scientific, mathematical, and academic problems through volunteer computing, and it is used in commercial enterprises for such diverse applications as drug discovery, economic forecasting, seismic analysis, and back-office data processing in support of e-commerce and Web services. In the current paper, there is a significant reference to the architecture and the different elements of which Grid is composed .We focus our interest in the way we should write and develop our algorithms in order to retrieve the benefits of Grid computing. As far as the user aspect is concerned, we describe the methodology of job submission and job monitoring in Grid. From the algorithms we developed and tested, there is a significant emphasis concerning the parallel applications which take advantage of the fact that Grid offers us multiple computing resources and processors. In detail, we developed a parallel genetic algorithm for the examination timetabling problem in Universities which consists a difficult np problem which provides a significant example of the importance and the role of Grid in Computational Science. Πλέγματα υπολογιστών Γενετικοί αλγόριθμοι 004.36 Computational grids Genetic algorithms
2	Ανάπτυξη και εφαρμογή μη γραμμικών διανυσματικών μεθόδων επεξεργασίας βιοσημάτων Λάσκαρης, Νικόλαος 29 March 2010 (has links) - / - Γενετικοί αλγόριθμοι Ιατρική φυσική 610.153 Genetic algorithms Medical physics
3	Σχεδιασμός σθεναρών ελεγκτών με χρήση γενετικών αλγόριθμων Κίτσιος, Ιωάννης Ε. 15 July 2010 (has links) - / - Γενετικοί αλγόριθμοι Αυτόματος έλεγχος 005.1 Genetic algorithms Automatic control
4	Εξελικτικός υπολογισμός και βελτιστοποίηση Λάσκαρη, Ελένη 26 August 2010 (has links) - / - Γενετικοί αλγόριθμοι 006.3 Genetic algorithms Evolutionary computation
5	Σχεδιασμός, ανάλυση και υλοποίηση ευφυών αλγορίθμων υπολογιστικής νοημοσύνης για την εύρεση βέλτιστου ωρολογίου προγράμματος εργασίας οδηγών και χρονοδρομολόγησης λεωφορείων σε υπεραστικά και αστικά ΚΤΕΛ στην Ελλάδα Λελούδας, Παναγιώτης 11 June 2012 (has links) Ο κύριος σκοπός της παρούσας εργασίας είναι να διερευνηθεί η χρήση ενός εναλλακτικού νέου γενετικού αλγορίθμου, που εφαρμόζεται στο ωράριο εργασίας και στον χρονοπρογραμματισμό των αστικών και υπεραστικών λεωφορείων στην Ελλάδα. Φαίνεται ότι η απόδοση επηρεάζεται από διάφορες παραμέτρους, όπως ισχυρούς ή ελαστικούς περιορισμούς, δεδομένου ενός συνόλου των οδηγών λεωφορείων, και ενός συνόλου δρομολογιών προς εκτέλεση. Πιο συγκεκριμένα, η μέθοδος που επιλέχθηκε για τη διεξαγωγή της παρούσας εργασίας είναι μια προσομοίωση των υπεραστικών λεωφορείων της πόλης της Πρέβεζας. Τέλος, τα αποτελέσματα της μελέτης δείχνουν ότι ο συνδυασμός των τεχνικών που παρουσιάστηκαν λειτουργεί αποτελεσματικά και να ξεπερνά όλα τα προηγούμενα μοντέλα σε μια απλή προσομοίωση. / The main target is to expand the usage of an alternative new generic algorithm, that is used in the timetable scheduling of urban and intercity buses in Greece. The performance is influenced by several factors. The method used is a simulation of the intercity buses of the city of Preveza. Finally, the results of the study shows that the combination of the techniques implemented works efficiently and overcomes the previous methods in a simple simulation. Χρονοπρογραμματισμός Γενετικοί αλγόριθμοι 006.3 Timetable scheduling Generic algorithms
6	Γενετικοί και μετά-γενετικοί αλγόριθμοι και η εφαρμογή τους στην εκτίμηση ARMA μοντέλων Άννινου, Νίκη 26 October 2009 (has links) Αντικείμενο της διπλωματικής εργασίας είναι η εφαρμογή Εξελικτικών Μεθόδων, βασισμένων, στους Γενετικούς Αλγόριθμους, στο πρόβλημα της επιλογής της τάξης και της αναγνώρισης των παραμέτρων γραμμικών συστημάτων και ειδικότερα Αυτοανάδρομων Κινούμενου Μέσου όρου Διαδικασιών ARMA (Autoregressive Moving Average Processes). Οι Γενετικοί Αλγόριθμοι είναι αλγόριθμοι αναζήτησης που βασίζονται στις αρχές της εξέλιξης που παρατηρούνται στη φύση και γίνονται όλο και περισσότερο γνωστοί χάριν της ικανότητά τους να λύνουν δύσκολα προβλήματα. Οι ΓΑ χαρακτηρίζονται από την απλότητα και την κομψότητά τους ως ‘γεροί’ αλγόριθμοι αναζήτησης, καθώς επίσης και από τη ικανότητά τους να ανακαλύπτουν γρήγορα τις καλές λύσεις δύσκολων και κυρίως μεγάλης διάστασης προβλημάτων. Το θεμελιώδες πρόβλημα της επιλογής της τάξης και της αναγνώρισης των παραμέτρων ενός μοντέλου, έχει αντιμετωπιστεί με επιτυχία με τη χρήση της θεωρίας Διαμερισμού Πολλών Μοντέλων (Multi Model Partitioning -MMP) του Λαϊνιώτη. Βασισμένη στην εκ των υστέρων επιλογή του συνόλου των υποψηφίων μοντέλων, η μέθοδος αυτή δίνει βέλτιστες λύσεις - ή σχεδόν βέλτιστες, όταν η πραγματική τάξη του μοντέλου δεν ανήκει στον αρχικό πληθυσμό των υποψηφίων μοντέλων. Το μειονέκτημα της εξάρτησης από την εκ των υστέρων επιλογή των υποψηφίων μοντέλων μπορεί να αντιμετωπιστεί με τη χρήση τεχνικών φυσικής επιλογής, όπως οι Γενετικοί Αλγόριθμοι, οι οποίοι αποτελούν μία από τις πιο γνωστές και αποτελεσματικές μεθόδους αναζήτησης και βελτιστοποίησης. Η εξελικτική μέθοδος, που παρουσιάζεται στην εργασία αυτή, συνδυάζει την αποτελεσματικότητα της MMP θεωρίας με την ευρωστία των Γενετικών Αλγορίθμων με σκοπό τη δημιουργία μίας νέας γενιάς πολυδιάστατων φίλτρων διαμερισμού. Η δομή των φίλτρων αυτών μεταβάλλεται διαρκώς για να ταιριάζει κάθε φορά με ένα δεδομένο σύνολο μοντέλων, τα οποία προσδιορίζονται δυναμικά και on-line με τη χρήση ενός κατάλληλα σχεδιασμένου ΓΑ. Παρά του ότι η κωδικοποίηση των παραμέτρων είναι σύνθετη, τα πειραματικά αποτελέσματα έδειξαν ότι ο προτεινόμενος αλγόριθμος επιτυγχάνει καλύτερα αποτελέσματα, σε σύγκριση με τους συμβατικούς αλγορίθμους αναγνώρισης συστήματος, αφού έχει τη δυνατότητα να εξερευνά ολόκληρο το χώρο τιμών των παραμέτρων. Επιπλέον, η εξέλιξη του αρχικού πληθυσμού καταλήγει σε εύρεση της πραγματικής τάξης του μοντέλου του συστήματος ακόμα και στην περίπτωση όπου η πραγματική τάξη δεν ανήκει στην τράπεζα μοντέλων του αρχικού πληθυσμού. Η υλοποίηση του αλγόριθμου έγινε σε παράλληλο περιβάλλον, αφού τόσο το Multi Model Adaptive Filter (MMAF) όσο και οι Γενετικοί Αλγόριθμοι είναι από τη φύση τους παράλληλα δομημένοι, οδηγώντας έτσι στη βελτίωση της ταχύτητας του αλγορίθμου. Με σκοπό να επιτευχθεί επιπλέον βελτίωση του αλγορίθμου τόσο ως προς την αύξηση της ταχύτητας του όσο και την ποιότητα της εξέλιξης των πληθυσμών των ΓΑ, έγινε χρήση ενός επιπλέον Γενετικού Αλγορίθμου ο οποίος προσδιόρισε τις τιμές των παραμέτρων των ΓΑ που υλοποιούν την υβριδική εξελικτική μέθοδο. Ο Μετά-Γενετικός αλγόριθμος προσδιόρισε το Μέγεθος του Πληθυσμού, την Πιθανότητα Μετάλλαξης και Διασταύρωσης των παράλληλων ΓΑ. Από τα πειραματικά αποτελέσματα που προέκυψαν μπορεί κάποιος εύκολα να καταλήξει στο συμπέρασμα ότι ο ΜΓΑ καταφέρνει να επιλέξει τις βέλτιστες τιμές για τις βασικές γενετικές παραμέτρους με αποτέλεσμα η όλη διαδικασία να μπορεί να αυτοματοποιηθεί και να είναι πλήρως προσαρμόσιμη σε οποιαδήποτε αλλαγή συμβεί στο περιβάλλον εφαρμογής του ΜΓΑ. / - Γενετικοί αλγόριθμοι ARMA μοντέλα Kalman φίλτρα Θεωρία Λαϊνιώτη 518.1 Genetic algorithms Meta-genetic algorithms ARMA models Kalman filters Lainiotis theory
7	Ανάπτυξη ενός έμπειρου συστήματος για την επιλογή των βέλτιστων υπαρχουσών τεχνολογιών κατασκευής / εγκατάστασης βιομηχανικών μονάδων και βελτιστοποίησης των παραμέτρων της επιλεχθείσας τεχνολογίας με τη χρήση ενός γενετικού αλγορίθμου / Development of an expert systems for the selection of best available technologies for design / installation of industrial plants and optimisation of the parameters of the selected technology with the use of a genetic algorithm Φωτεινός, Διονύσιος 24 October 2007 (has links) Η παρούσα διατριβή πραγματεύεται την ανάπτυξη μιας καινοτόμου μεθοδολογίας για την βελτιστοποίηση τόσο του σχεδιασμού όσο και της λειτουργίας βιομηχανικών εγκαταστάσεων. Η μεθοδολογία αυτή βασίζεται στη χρήση δυο μεθόδων Τεχνητής Νοημοσύνης (Έμπειρων Συστημάτων και Γενετικών Αλγόριθμων) για τη δημιουργία ενός λογισμικού το οποίο λαμβάνοντας από το χρήστη στοιχεία σχετικά με τα κριτήρια σχεδιασμού (ή ανασχεδιασμού) μιας διεργασίας καθώς και για τις συνθήκες λειτουργίας της θα εξαγάγει τόσο τις βέλτιστες διαθέσιμες τεχνολογίες για τη διεργασία αυτή όσο και τις βέλτιστες συνθήκες λειτουργίες των επιλεχθεισών τεχνολογιών. Προκειμένου να λειτουργήσει η αναπτυχθείσα μεθοδολογία πέρα από τα στοιχεία τα οποία παρέχει ο χρήστης είναι απαραίτητη η ύπαρξη μιας βάσης δεδομένων η οποία θα περιέχει τις διαθέσιμες τεχνολογίες οι οποίες είναι δυνατόν να χρησιμοποιηθούν για τη συγκεκριμένη διεργασία, δηλαδή όλα τα τμήματα εξοπλισμού που μπορούν να χρησιμοποιηθούν για τη διεργασία αυτή. Οι βέλτιστες διαθέσιμες τεχνολογίες, τις οποίες η μεθοδολογία επιλέγει από αυτή τη βάση δεδομένων, είναι τα τμήματα του εξοπλισμού εκείνα τα οποία πληρούν με τον καλύτερο δυνατό τρόπο τα κριτήρια σχεδιασμού της διεργασίας. Για την εύρεση των βέλτιστων τεχνολογιών για μια διεργασία για κάθε διαθέσιμη τεχνολογία πρέπει να λαμβάνονται υπόψη και τα εκτιμώνται: τεχνικά κριτήρια όπως τα όρια λειτουργίας της, η ολοκλήρωσή της στη διεργασίας (δηλαδή η διασύνδεσή της με άλλες τεχνολογίες που χρησιμοποιούνται στην ίδια διεργασία), οικονομικά κριτήρια όπως το κόστος εγκατάστασης, το κόστος λειτουργίας, ή / και το κόστος συντήρησης, περιβαλλοντικά στοιχεία όπως οι εκπομπές ρύπων, παραπροϊόντα. Η απαίτηση για ταυτόχρονη ικανοποίηση όλων αυτών των κριτηρίων καθιστά την εύρεση των βέλτιστων διαθέσιμων τεχνολογιών ένα περίπλοκο πρόβλημα για την επίλυση του οποίου απαιτείται εξειδικευμένη γνώση. Στην αναπτυχθείσα μεθοδολογία η γνώση αυτή καταχωρείται με κατάλληλο τρόπο στο σύστημα και κατά συνέπεια με τη χρήση του είναι δυνατόν ακόμη μη εξειδικευμένα άτομα να βρουν τις βέλτιστες διαθέσιμες τεχνολογίες (και τις βέλτιστες παραμέτρους λειτουργίας του). Η αναπτυχθείσα μεθοδολογία εφαρμόστηκε σε τρία προβλήματα ανασχεδιασμού του συστήματος συμπαραγωγής ενέργειας ενός διυλιστηρίου. Από τα αποτελέσματα που προέκυψαν από τις εφαρμογές αυτές γίνεται φανερό ότι η μεθοδολογία καταλήγει σε βέλτιστες λύσεις του προβλήματος για τις εκάστοτε συνθήκες και ότι ο αλγόριθμος της μεθοδολογίας είναι ιδιαίτερα εύρωστος υπό την έννοια ότι η σύγκλισή του δεν επηρεάζεται από τις τιμές των παραμέτρων που χρησιμοποιούνται για την εκτέλεσή του. / The thesis at hand deals with the development of a novel methodology for the optimisation of both the design and the operation of industrial plants. The methodology is based on two Artificial Intelligence techniques (Expert Systems and Genetic Algorithms) for the development of a software which, given from the user data related to the design criteria of the process, as well as the conditions of operation of the process, it will output both the best available technologies for that process as well as the optimal working conditions of the selected technologies. Apart from the data provided from the user, the methodology requires also a database which should contain the available technologies which can be used for the process at hand. These technologies are the various components of the equipment which can be used for the process. The best available technologies which are selected by the methodology from the database are those components which satisfy in the best possible way the design criteria. For the identification of the best technologies for a process the methodology assess (for each of the available techonologies): technical criteria such range of operation, its integration to the whole process (i.e. its connectivity with other technologies used in the process), financial criteria such as the cost of installation, the cost of operation and or the cost of maintenance, environmental criteria such as emissions of various pollutants, side products etc. The requirement of the simultaneous satisfaction of these criteria makes the identification of the best available technologies a complex problem which requires specific knowledge (expertise) in order to be solved. In the developed methodology this specific knowledge (expertise) is stored in a proper way in the system and therefore it is possible that even not-expert users of the system to identify the best available technnologies (and the best working conditions of the selected technologies). The developed methodology was applied to three problems of re-design of the cogeneration plant of a refinery. From the results obtain from these applications it is evident that the methodology converges to near optimal solutions for the criteria set each time and that the algorithm of the methodology is robust since its convergence is not affected by the value set for the algorithm's parameters during each of the runs. Γενετικοί αλγόριθμοι Βελτιστοποίηση Έμπειρα συστήματα 670.285 Genetic algorithms Optimisation Industrial process Expert system
8	Υπολογισμός βέλτιστης θέσης εγκατάστασης με την χρήση διαγραμμάτων Voronoi Σταθόπουλος, Αναστάσιος 29 December 2010 (has links) Η παρούσα εργασία αποσκοπεί στην ανάπτυξη ενός εργαλείου υπολογισμού βέλτιστης θέσης εγκατάστασης σημειακών υπηρεσιών. Το πρόβλημα της χωροθέτησης προσεγγίζεται με την χρήση του συνεχούς μοντέλου ενώ οι περιπτώσεις που επιλύονται αφορούν σημειακές υπηρεσίες. Οι υπηρεσίες αυτές μπορεί να χρησιμοποιούνται είτε από ανεξάρτητους χρήστες, από ομάδες χρηστών ή να υπόκεινται σε ιεραρχική δομή. Για τον σκοπό αυτό αναπτύχθηκε μεθοδολογία η οποία συνδέει το πρόγραμμα βελτιστοποίησης με το ΓΣΠ και χρησιμοποιώντας τις λειτουργίες των δύο αυτών εργαλείων επιτυγχάνεται η μοντελοποίηση και η λύση του προβλήματος. Η μεθοδολογία βελτιστοποίησης τής αντικειμενικής συνάρτησης που χρησιμοποιήθηκε είναι αυτή των Γενετικών Αλγορίθμων. Για το σκοπό αυτό στο περιβάλλον του εμπορικού πακέτου Matlab παραμετροποιήθηκε το εργαλείο Genetic Algorithm Tool (gatool) για τις μελέτες περίπτωσης που αντιμετωπίσαμε. Το πρόγραμμα των Γενετικών Αλγορίθμων σε κάθε συναρτησιακό υπολογισμό καλεί το ΓΣΠ όπου και γίνεται ο υπολογισμός της τιμής. Ο κώδικας για αυτό το σκοπό έχει γραφτεί σε MapBasic και με την χρήση των εντολών χωρικής ανάλυσης που μας παρέχει το ΓΣΠ, υπολογίζουμε την τιμή της συνάρτησης που προσπαθούμε να ελαχιστοποιήσουμε. Την μεθοδολογία που αναπτύξαμε την εφαρμόσαμε σε δυο περιπτώσεις μελέτης. Η πρώτη αφορούσε το πρόβλημα του υπολογισμού της βέλτιστης θέσης εγκατάστασης μιας υπηρεσίας που χρησιμοποιείται από ανεξάρτητους χρήστες. Στην περίπτωση μας οι υπηρεσίες είναι τα ταχυδρομεία ενώ η περιοχή μελέτης αποτελείται από τους δήμους του Μοσχάτου, της Καλλιθέας, της Ν. Σμύρνης, του Π. Φαλήρου και του Αγ. Δημητρίου, όπου και υπάρχουν 9 ταχυδρομεία. Στην εφαρμογή που παρουσιάστηκε υπολογίστηκε τόσο η προσθήκη ενός όσο και η προσθήκη δεύτερου ταχυδρομείου. Στην πρώτη περίπτωση επιτεύχθηκε βελτίωση 29% ενώ στην δεύτερη 39%. Στην δεύτερη μελέτη περίπτωσης και στη ίδια περιοχή μελέτης υπολογίστηκε η βέλτιστη θέση εγκατάστασης μιας ιεραρχικής δομής. Η δομή είχε δυο επίπεδα, ενώ η υπηρεσίες αφορούσαν το τραπεζικό δίκτυο μιας ελληνικής τράπεζας. Στο πρώτο επίπεδο είχαμε τα υποκαταστήματα της τράπεζας (14) και στο δεύτερο τα ΑΤΜ (9). Η εφαρμογή της μεθοδολογίας επέφερε βελτίωση 25% και 12% στην περίπτωση της εισαγωγής ενός νέου υποκαταστήματος και ενός ΑΤΜ αντίστοιχα. / - Βέλτιστη θέση Γενετικοί αλγόριθμοι Χωροθέτηση 658.210 15 Best location Genetic algorithms Voronoi
9	Χρονοπρογραμματισμός με τη χρήση γενετικών αλγορίθμων Σουρλίγκα, Σοφία 07 October 2011 (has links) Η παρούσα εργασία αποσκοπεί στη μελέτη του προβλήματος του χρονοπρογραμματισμού γεγονότων, την τοποθέτηση δηλαδή των γεγονότων σε υποδοχείς χρόνου και χώρου, με τη χρήση Γενετικών Αλγορίθμων. Μελετήσαμε τo πρόβλημα του χρονοπρογραμματισμού στην Εκπαίδευση και ειδικότερα σε ένα Πανεπιστήμιο, που εμφανίζεται σε δύο εκδοχές: το πρόβλημα χρονοπρογραμματισμού εξετάσεων και το πρόβλημα χρονοπρογραμματισμού διαλέξεων, καθώς και τα αντίστοιχα πειράματα και τα αποτελέσματα αυτών. Χρησιμοποιώντας το λογισμικό FET που βασίζεται στους Γενετικούς Αλγόριθμους κατασκευάσαμε χρονοδιαγράμματα για το ωρολόγιο πρόγραμμα του Μεταπτυχιακού Προγράμματος του Διατμηματικού του Πανεπιστημίου Πατρών "Μαθηματικά των Υπολογιστών και των Αποφάσεων" των τμημάτων Μαθηματικών και Μηχανικών Η/Υ και Πληροφορικής και παρουσιάσαμε τα αποτελέσματα αυτών. / The aim of this paper is the study of the timetabling problem, meaning the allocation of events in time-slots and space-slots, using Genetic Algorithms. We studied the Education Timetabling problem for a University which appears in two versions, timetabling of exams and timetabling of lectures and its corresponding experiments and results. Using the open source free software FET which is based on the Genetic Algorithms, we scheduled timetables for the weekly program of Postgraduate Program of University of Patras "Mathematics of Computers and Decision" in which participate two departments, the department of Mathematics and the department of Engineering Computing and Information Technology and we presented the results of those. Χρονοπρογραμματισμός Γενετικοί αλγόριθμοι 658.53 Timetabling Genetic algorithms Free timetabling software (FET)
10	Σχεδιασμός, υλοποίηση και εφαρμογή μεθόδων υπολογιστικής νοημοσύνης για την πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών Ραπακούλια, Τρισεύγενη 11 October 2013 (has links) Η πιο απλή μορφή γενετικής διαφοροποίησης στον άνθρωπο είναι οι μονονουκλεοτιδικοί πολυμορφισμοί (Single Nucleotide Polymorphisms - SNPs). Ο αριθμός αυτού του είδους πολυμορφισμών που έχουν βρεθεί στο ανθρώπινο γονιδίωμα και επηρεάζουν την παραγόμενη πρωτεΐνη αυξάνεται συνεχώς, αλλά η αντιστοίχηση τους σε πιθανές ασθένειες με πειραματικές μεθόδους είναι ασύμφορη από θέμα χρόνου και κόστους. Για αυτό τον λόγο έχουν αναπτυχθεί διάφορες υπολογιστικές μέθοδοι με σκοπό να ταξινομήσουν τους μονονουκλεοτιδικούς πολυμορφισμούς σε παθογόνους και μη. Οι περισσότερες από αυτές τις μεθόδους χρησιμοποιούν ταξινομητές, οι οποίοι παίρνοντας σαν είσοδο ένα σύνολο δομικών, λειτουργικών, ακολουθιακών και εξελικτικών χαρακτηριστικών, επιχειρούν να προβλέψουν αν ένας μονονουκλεοτιδικός πολυμορφισμός είναι παθογόνος ή μη. Για την εκπαίδευση αυτών των ταξινομητών, χρησιμοποιούνται δύο σύνολα μονονουκλεοτιδικών πολυμορφισμών. Το πρώτο αποτελείται από μονονουκλεοτιδικούς πολυμορφισμούς που έχει βρεθεί πειραματικά ότι οδηγούν σε παθογένεια και το δεύτερο από μονονουκλεοτιδικούς πολυμορφισμούς που έχει αποδειχθεί πειραματικά ότι είναι αδρανείς. Οι μέθοδοι αυτές διαφέρουν στα χαρακτηριστικά των μεταλλάξεων που λαμβάνουν υπόψη στην πρόβλεψη τους, καθώς επίσης και στην εκπαίδευση και τη φύση των τεχνικών ταξινόμησης, που χρησιμοποιούν για τη λήψη των αποφάσεων. Το βασικότερο προβλήματα τους ωστόσο έγκειται στο γεγονός ότι καθορίζουν τα χαρακτηριστικά, που θα χρησιμοποιήσουν σαν είσοδο στους ταξινομητές τους με τρόπο εμπειρικό και μάλιστα διαφορετικές μέθοδοι προτείνουν και χρησιμοποιούν διαφορετικά χαρακτηριστικά, χωρίς να τεκμηριώνουν επαρκώς τις αιτίες αυτής της διαφοροποίησης. Δύο ακόμα προβλήματα που δεν έχουν καταφέρει να αντιμετωπίσουν οι υπάρχουσες μεθοδολογίες είναι το πρόβλημα της ανισορροπίας των δύο κλάσεων ταξινόμησης και των ελλιπών τιμών σε πολλά από τα χαρακτηριστικά εισόδου των ταξινομητών, ώστε να επιτυγχάνουν πιο ακριβή και αξιόπιστα αποτελέσματα. Από τα παραπάνω είναι ξεκάθαρο πως υπάρχει μεγάλο περιθώριο βελτίωσης των υπάρχουσων μεθοδολογιών για το συγκεκριμένο πρόβλημα ταξινόμησης. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα υβριδική μεθοδολογία υπολογιστικής νοημοσύνης, που ξεπερνά πολλά από τα προβλήματα των υπάρχοντων μεθοδολογιών και βελτιώνει με τον τρόπο αυτό την απόδοσή τους. Δύο είναι τα βασικά βήματα που ακολουθήσαμε για την επίτευξη του στόχου αυτού. Πρώτον, συγκεντρώσαμε από τις διαθέσιμες δημόσιες βάσεις δεδομένων, τους μονονουκλεοτιδικούς πολυμορφισμούς που χρησιμοποιήθηκαν για την εκπαίδευση και τον έλεγχο των μοντέλων μηχανικής μάθησης. Συγκεκριμένα, συλλέχθησαν και φιλτραρίστηκαν τα θετικά και αρνητικά σύνολα εκπαίδευσης και ελέγχου, που αποτελούνται από μονονουκλεοτιδικούς πολυμορφισμούς που είτε οδηγούν σε παθογένεια, είτε είναι ουδέτεροι. Για κάθε πολυμορφισμό των δύο συνόλων υπολογίσαμε χρησιμοποιώντας υπάρχοντα διαθέσιμα εργαλεία όσο το δυνατό περισσότερα δομικά, λειτουργικά, ακολουθιακά και εξελικτικά χαρακτηριστικά. Για εκείνα τα χαρακτηριστικά, για τα οποία δεν υπήρχε κάποιο διαθέσιμο εργαλείο υπολογισμού τους, υλοποιήσαμε τον κατάλληλο κώδικα για τον υπολογισμό τους. Το δεύτερο βήμα της διπλωματικής αφορούσε το σχεδιασμό και την υλοποίηση της κατάλληλης υβριδικής μεθόδου για την επίλυση του προβλήματος που μελετάμε. Χρησιμοποιήσαμε μια νέα μέθοδο ταξινόμησης την EnsembleGASVR. Πρόκειται για μια ensemble μεθοδολογία, που συνδυάζει σε ένα ενιαίο πλαίσιο ταξινόμησης οκτώ διαφορετικούς ταξινομητές. Κάθε ένας από αυτούς τους ταξινομητές βασίζεται στον υβριδικό συνδυασμό των Γενετικών Αλγορίθμων και των μοντέλων Παλινδρόμησης Διανυσμάτων Υποστήριξης (nu-Support Vector Regression). Συγκεκριμένα ένας Προσαρμοζόμενος Γενετικός Αλγόριθμος χρησιμοποιείται για να καθοριστεί το βέλτιστο υποσύνολο χαρακτηριστικών, καθώς και οι βέλτιστες τιμές των παραμέτρων των ταξινομητών. Σαν μέθοδο ταξινόμησης των μεταλλάξεων σε ουδέτερες και παθογενείς, προτείνουμε τον nu-SVR ταξινομητή, καθώς παρουσιάζει υψηλή απόδοση, καλή γενίκευση, δεν παγιδεύεται σε τοπικά βέλτιστα, ενώ ταυτόχρονα επιτυγχάνει την ισορροπία μεταξύ της ακρίβειας και της πολυπλοκότητας του μοντέλου. Μάλιστα για να ξεπεράσουμε τα πρόβληματα των ελλιπών τιμών και της ανισορροπίας των δύο κλάσεων ταξινόμησης, αλλά και για να βελτιώσουμε τη συνολική απόδοση της μεθοδολογίας μας, επεκτείναμε τον υβριδικό αλγόριθμο, ώστε να λειτουργεί σαν μία ensemble-συλλογική τεχνική, συνδυάζοντας οκτώ επί μέρους μοντέλα ταξινόμησης. Τα πειραματικά αποτελέσματα της προτεινόμενης μεθοδολογίας ήταν εξαιρετικά ελπιδοφόρα, καθώς η EnsembleGASVR μεθοδολογία υπερτερεί σημαντικά έναντι άλλων ευρέως γνωστών μεθόδων ταξινόμησης παθογενών μεταλλάξεων. / Single Nucleotide Polymorphisms (SNPs) are the most common form of genetic variations in humans. The number of SNPs that have been found in human genome and affect protein functionality is constantly increasing. Finding matches between SNPs and diseases using experimental techniques, is excessive disadvantageous in terms of time and cost. For this reason, several computational methods have been developed. These methods classify polymorphisms as pathogenic and non-pathogenic. Most of them use classifiers, which take as input a set of structural, functional, sequential and evolutionary features and predict whether a single nucleotide polymorphism is pathogenic or neutral. For training these classifiers use two sets of SNPs. The first one consists of SNPs that have been experimentally proven as pathogenic, whereas the second set consists of SNPs that have been experimentally characterized as benign. These methods differ in the classification methods they deploy and in the features they use as inputs. However, the main problem is the determination of an empirically verified set of features for training. Specifically, different methods suggest different feature sets, without adequately documenting the causes of this differentiation. In addition, the existing methodologies do not tackle efficiently the class imbalance problem between positive and negative training sets and the problem of missing values in the datasets. In this thesis a new hybrid computational intelligence methodology is proposed, that overcomes many of the problems of existing methodologies. The proposed method achieves high classification performance and systematizes the selection of relevant features. In the first phase of this study the polymorphisms were gathered from the available public databases and they were used for training and testing of the machine learning models. Specifically, the positive and negative training and test sets were collected and filtered. They consist of single nucleotide polymorphisms that lead to either pathogenesis or are neutral. For each polymorphism of the two sets, using existing available tools, a wide range of structural, functional, sequential and evolutionary features were calculated. For those features for which there was no available tool, the suitable program (code) was developed in order to compute them. In the second step a new embedded hybrid classification method called EnsembleGASVR is designed and implemented. The method uses an ensemble methodology, based on hybrid combination of Genetic Algorithms and nu-Support Vector Regression (nu-SVR) models. An Adaptive Genetic Algorithm is used to determine the optimal subset of features and the optimal values of the parameters of classifiers. We propose the nu-SVR classifier, since it exhibits high performance, good generalization ability, it is not trapped in local optima and achieves a balance between accuracy and complexity of the model. In order to overcome the problem of missing values and class imbalance, we extended the above algorithm to function as a collective ensemble-technique, combining eight individual classification models. In overall, the method achieves 87.45% accuracy, 71.78% sensitivity and 93.16% specificity. These priliminary results are very promising and shows that EnsembleGASVR methodology significantly outperforms other well-known classification methods for pathogenic mutations. Μηχανική μάθηση Γενετικοί αλγόριθμοι 616.042 Pathogenic mutations Single Nucleotide Polymorphisms (SNPs) Ensemble methods Support vector regression

Search results