Global ETD Search

1	Optimal hidden Markov models McKee, Bill Frederick January 1999 (has links) In contrast with training algorithms such as Baum-Welch, which produce solutions that are a local optimum of the objective function, this thesis describes the attempt to develop a training algorithm which delivers the global optimum Discrete ICdden Markov Model for a given training sequence. A total of four different methods of attack upon the problem are presented. First, after building the necessary analytical tools, the thesis presents a direct, calculus-based assault featuring Matrix Derivatives. Next, the dual analytic approach known as Geometric Programming is examined and then adapted to the task. After that, a hill-climbing formula is developed and applied. These first three methods reveal a number of interesting and useful insights into the problem. However, it is the fourth method which produces an algorithm that is then used for direct comparison vAth the Baum-Welch algorithm: examples of global optima are collected, examined for common features and patterns, and then a rule is induced. The resulting rule is implemented in *C' and tested against a battery of Baum-Welch based programs. In the limited range of tests carried out to date, the models produced by the new algorithm yield optima which have not been surpassed by (and are typically much better than) the Baum-Welch models. However, far more analysis and testing is required and in its current form the algorithm is not fast enough for realistic application. 510
2	Μη γραμμικές μέθοδοι συζυγών κλίσεων για βελτιστοποίηση και εκπαίδευση νευρωνικών δικτύων Λιβιέρης, Ιωάννης 04 December 2012 (has links) Η συνεισφορά της παρούσας διατριβής επικεντρώνεται στην ανάπτυξη και στη Μαθηματική θεμελίωση νέων μεθόδων συζυγών κλίσεων για βελτιστοποίηση χωρίς περιορισμούς και στη μελέτη νέων μεθόδων εκπαίδευσης νευρωνικών δικτύων και εφαρμογών τους. Αναπτύσσουμε δύο νέες μεθόδους βελτιστοποίησης, οι οποίες ανήκουν στην κλάση των μεθόδων συζυγών κλίσεων. Οι νέες μέθοδοι βασίζονται σε νέες εξισώσεις της τέμνουσας με ισχυρά θεωρητικά πλεονεκτήματα, όπως η προσέγγιση με μεγαλύτερη ακρίβεια της επιφάνεια της αντικειμενικής συνάρτησης. Επιπλέον, μία σημαντική ιδιότητα και των δύο προτεινόμενων μεθόδων είναι ότι εγγυώνται επαρκή μείωση ανεξάρτητα από την ακρίβεια της γραμμικής αναζήτησης, αποφεύγοντας τις συχνά αναποτελεσματικές επανεκκινήσεις. Επίσης, αποδείξαμε την ολική σύγκλιση των προτεινόμενων μεθόδων για μη κυρτές συναρτήσεις. Με βάση τα αριθμητικά μας αποτελέσματα καταλήγουμε στο συμπέρασμα ότι οι νέες μέθοδοι έχουν πολύ καλή υπολογιστική αποτελεσματικότητα, όπως και καλή ταχύτητα επίλυσης των προβλημάτων, υπερτερώντας σημαντικά των κλασικών μεθόδων συζυγών κλίσεων. Το δεύτερο μέρος της διατριβής είναι αφιερωμένο στην ανάπτυξη και στη μελέτη νέων μεθόδων εκπαίδευσης νευρωνικών δικτύων. Προτείνουμε νέες μεθόδους, οι οποίες διατηρούν τα πλεονεκτήματα των κλασικών μεθόδων συζυγών κλίσεων και εξασφαλίζουν τη δημιουργία κατευθύνσεων μείωσης αποφεύγοντας τις συχνά αναποτελεσματικές επανεκκινήσεις. Επιπλέον, αποδείξαμε ότι οι προτεινόμενες μέθοδοι συγκλίνουν ολικά για μη κυρτές συναρτήσεις. Τα αριθμητικά αποτελέσματα επαληθεύουν ότι οι προτεινόμενες μέθοδοι παρέχουν γρήγορη, σταθερότερη και πιο αξιόπιστη σύγκλιση, υπερτερώντας των κλασικών μεθόδων εκπαίδευσης. Η παρουσίαση του ερευνητικού μέρους της διατριβής ολοκληρώνεται με μία νέα μέθοδο εκπαίδευσης νευρωνικών δικτύων, η οποία βασίζεται σε μία καμπυλόγραμμη αναζήτηση. Η μέθοδος χρησιμοποιεί τη BFGS ενημέρωση ελάχιστης μνήμης για τον υπολογισμό των κατευθύνσεων μείωσης, η οποία αντλεί πληροφορία από την ιδιοσύνθεση του προσεγγιστικού Eσσιανού πίνακα, αποφεύγοντας οποιαδήποτε αποθήκευση ή παραγοντοποίηση πίνακα, έτσι ώστε η μέθοδος να μπορεί να εφαρμοστεί για την εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας. Ο αλγόριθμος εφαρμόζεται σε προβλήματα από το πεδίο της τεχνητής νοημοσύνης και της βιοπληροφορικής καταγράφοντας πολύ καλά αποτελέσματα. Επίσης, με σκοπό την αύξηση της ικανότητας γενίκευσης των εκπαιδευόμενων δικτύων διερευνήσαμε πειραματικά και αξιολογήσαμε την εφαρμογή τεχνικών μείωσης της διάστασης δεδομένων στην απόδοση της γενίκευσης των τεχνητών νευρωνικών δικτύων σε μεγάλης κλίμακας δεδομένα βιοϊατρικής. / The contribution of this thesis focuses on the development and the Mathematical foundation of new conjugate gradient methods for unconstrained optimization and on the study of new neural network training methods and their applications. We propose two new conjugate gradient methods for unconstrained optimization. The proposed methods are based on new secant equations with strong theoretical advantages i.e. they approximate the surface of the objective function with higher accuracy. Moreover, they have the attractive property of ensuring sufficient descent independent of the accuracy of the line search, avoiding thereby the usual inefficient restarts. Further, we have established the global convergence of the proposed methods for general functions under mild conditions. Based on our numerical results we conclude that our proposed methods outperform classical conjugate gradient methods in both efficiency and robustness. The second part of the thesis is devoted on the study and development of new neural network training algorithms. More specifically, we propose some new training methods which preserve the advantages of classical conjugate gradient methods while simultaneously ensure sufficient descent using any line search, avoiding thereby the usual inefficient restarts. Moreover, we have established the global convergence of our proposed methods for general functions. Encouraging numerical experiments on famous benchmarks verify that the presented methods provide fast, stable and reliable convergence, outperforming classical training methods. Finally, the presentation of the research work of this dissertation is fulfilled with the presentation of a new curvilinear algorithm for training large neural networks which is based on the analysis of the eigenstructure of the memoryless BFGS matrices. The proposed method preserves the strong convergence properties provided by the quasi-Newton direction while simultaneously it exploits the nonconvexity of the error surface through the computation of the negative curvature direction without using any storage and matrix factorization. Our numerical experiments have shown that the proposed method outperforms other popular training methods on famous benchmarks. Furthermore, for improving the generalization capability of trained ANNs, we explore the incorporation of several dimensionality reduction techniques as a pre-processing step. To this end, we have experimentally evaluated the application of dimensional reduction techniques for increasing the generalization capability of neural network in large biomedical datasets. Νευρωνικά δίκτυα 519.6 Conjugate gradient methods Unconstrained optimization Neural networks Training algorithms
3	Νέες μέθοδοι εκπαίδευσης τεχνητών νευρωνικών δικτύων, βελτιστοποίησης και εφαρμογές / New neural network training methods, optimization and application Πλαγιανάκος, Βασίλειος Π. 24 June 2007 (has links) Η παρούσα διατριβή ασχολείται με την μελέτη και την εκπαίδευση Τεχνητών Νευρωνικών Δικτύων (ΤΝΔ) με μεθόδους Βελτιστοποίησης και τις εφαρμογές αυτών. Η παρουσίαση των επιμέρους θεμάτων και αποτελεσμάτων της διατριβής αυτής οργανώνεται ως εξής : Στο κεφάλαιο 1 παρέχουμε τους βασικούς ορισμούς και περιγράφουμε τη δομή και τη λειτουργία των ΤΝΔ. Στη συνέχεια, παρουσιάζουμε μια συντομή ιστορική αναδρομή, αναφέρουμε μερικά από τα πλεονεκτήματα της χρήσης των ΤΝΔ και συνοψίζουμε τους κύριους τομείς όπου τα ΤΝΔ εφαρμόζονται. Τέλος, περιγράφουμε τις βασικές κατηγορίες μεθόδων εκπαίδευσης. Το κεφάλαιο 2 αφιερώνεται στη μαθηματική θεμελίωση της εκπαίδευσης ΤΝΔ. Περιγράφουμε τη γνωστή μέθοδο της οπισθοδρομικής διάδοσης του σφάλματος (Backpropagation) και δίνουμε αποδείξεις σύγκλισης για μια κλάση μεθόδων εκπαίδευσης που χρησιμοποιούν μονοδιάστατες ελαχιστοποιήσεις. Στο τέλος του κεφαλαίου παρουσιάζουμε κάποια θεωρητικά αποτελέσματα σχετικά με την ικανότητα των ΤΝΔ να προσεγγίζουν άγνωστες συναρτήσεις. Στο κεφάλαιο 3 προτείνουμε μια νέα κλάση μεθόδων εκπαίδευσης ΤΝΔ και αποδεικνύουμε ότι αυτές έχουν την ιδιότητα της ευρείας σύγκλισης , δηλαδή συγκλίνουν σε ένα ελάχιστο της αντικειμενικής συνάρτησης σχεδόν από οποιαδήποτε αρχική συνθήκη. Τα αποτελέσματα μας δείχνουν ότι η προτεινόμενη τεχνική μπορεί να βελτιώσει οποιαδήποτε μέθοδο της κλάσης της οπισθοδρομικής διάδοσης του σφάλματος. Στο επόμενο κεφάλαιο παρουσιάζουμε τη γνωστή μέθοδο Quick-Prop και μελετάμε τις ιδιότητες σύγκλισής της. Με βάση το θεωρητικό αποτέλεσμα που προκύπτει, κατασκευάζουμε μια νέα τροποποίηση της μεθόδου Quick-Prop, που έχει την ιδιότητα της ευρείας σύγκλισης και βελτιώνει σημαντικά την κλασίκη Quick-Prop μέθοδο. Στα επόμενα δύο κεφάλαια μελετάμε την εκπαίδευση ΤΝΔ με μεθόδους ολικής Βελτιστοποίησης. Πιο συγκεκριμένα, στο Κεφάλαιο 5 προτείνουμε και μελετάμε διεξοδικά μια νέα κλάση μεθόδων που είναι ικανές να εκπαιδεύσουν ΤΝΔ με περιορισμένα ακέραια βάρη. Στη συνέχεια, επεκτείνουμε τις μεθόδους αυτές έτσι ώστε να υλοποιούνται σε παράλληλους υπολογιστές και να εκπαιδεύουν ΤΝΔ με χρήση συναρτήσεων κατωφλιών. Το κεφάλαιο 6 πραγματεύεται την εφαρμογή γνωστών μεθόδων όπως οι Γενετικοί Αλγόριθμοι, η μέθοδος της προσομοιωμένης ανόπτησης ( Simulated Annealing ) και η μέθοδος βελτιστοποίησης με σμήνος σωματιδίων (Particle Swarm Optimization) στην εκπαίδευση ΤΝΔ. Επίσης, παρουσιάζουμε νέους μετασχηματισμούς της αντικειμενικής συνάρτησης με σκοπό την σταδιακή εξάλειψη των τοπικών ελαχίστων της. Στο κεφάλαιο 7 κάνουμε μια σύντομη ανασκόπηση της στοχαστικής μεθόδου της πιο απότομης κλίσης (stochastic gradient descent) για την εκπαίδευση ΤΝΔ ανά πρότυπο εισόδου και προτείνουμε μια νέα τέτοια μέθοδο . Η νέα μέθοδος συγκρίνεται με άλλες γνωστές μεθόδους και τα πειράματά μας δείχνουν ότι υπερτερεί. Η παρουσίαση του ερευνητικού έργου για αυτή τη διατριβή ολοκληρώνεται με το Κεφάλαιο 8, όπου προτείνουμε και μελετάμε εκτενώς μη μονότονες μεθόδους εκπαίδευσης ΤΝΔ. Η τεχνική που προτείνουμε μπορεί να εφαρμοστεί σε κάθε μέθοδο της κλάσης της οπισθοδρομικής διάδοσης του σφάλματος με αποτέλεσμα η τροποποιημένη μέθοδος να έχει την ικανότητα , πολλές φορές, να αποφεύγει τοπικά ελάχιστα της αντικειμενικής συνάρτησης. Η παρουσίαση της διατριβής ολοκληρώνεται με το κεφάλαιο 9 και δύο Παραρτήματα. Το Κεφάλαιο 9 περιέχει τα γενικά συμπεράσματα της διατριβής. Στο παράρτημα Α παρουσιάζουμε συνοπτικά μερικά από τα προβλήματα εκπαίδευσης που εξετάσαμε στα προηγούμενα κεφάλαια και τέλος στο Παράρτημα Β δίνουμε την απόδειξη της μεθόδου της οπισθοδρομικής διάδοσης του σφάλματος. / - 006.32 Artificial neural networks Training algorithms Batch training Online training Integer weight neural networks Threshold activations Nonmonotone training Parallel implementation Global convergence

1

Page generated in 0.0686 seconds