Μη γραμμικές μέθοδοι συζυγών κλίσεων για βελτιστοποίηση και εκπαίδευση νευρωνικών δικτύων

Η συνεισφορά της παρούσας διατριβής επικεντρώνεται στην ανάπτυξη και στη Μαθηματική θεμελίωση νέων μεθόδων συζυγών κλίσεων για βελτιστοποίηση χωρίς περιορισμούς και στη μελέτη νέων μεθόδων εκπαίδευσης νευρωνικών δικτύων και εφαρμογών τους.
Αναπτύσσουμε δύο νέες μεθόδους βελτιστοποίησης, οι οποίες ανήκουν στην κλάση των μεθόδων συζυγών κλίσεων. Οι νέες μέθοδοι βασίζονται σε νέες εξισώσεις της τέμνουσας με ισχυρά θεωρητικά πλεονεκτήματα, όπως η προσέγγιση με μεγαλύτερη ακρίβεια της επιφάνεια της αντικειμενικής συνάρτησης. Επιπλέον, μία σημαντική ιδιότητα και των δύο προτεινόμενων μεθόδων είναι ότι εγγυώνται επαρκή μείωση ανεξάρτητα από την ακρίβεια της γραμμικής αναζήτησης, αποφεύγοντας τις συχνά αναποτελεσματικές επανεκκινήσεις. Επίσης, αποδείξαμε την ολική σύγκλιση των προτεινόμενων μεθόδων για μη κυρτές συναρτήσεις. Με βάση τα αριθμητικά μας αποτελέσματα καταλήγουμε στο συμπέρασμα ότι οι νέες μέθοδοι έχουν πολύ καλή υπολογιστική αποτελεσματικότητα, όπως και καλή ταχύτητα επίλυσης των προβλημάτων, υπερτερώντας σημαντικά των κλασικών μεθόδων συζυγών κλίσεων.
Το δεύτερο μέρος της διατριβής είναι αφιερωμένο στην ανάπτυξη και στη μελέτη νέων μεθόδων εκπαίδευσης νευρωνικών δικτύων. Προτείνουμε νέες μεθόδους, οι οποίες διατηρούν τα πλεονεκτήματα των κλασικών μεθόδων συζυγών κλίσεων και εξασφαλίζουν τη δημιουργία κατευθύνσεων μείωσης αποφεύγοντας τις συχνά αναποτελεσματικές επανεκκινήσεις. Επιπλέον, αποδείξαμε ότι οι προτεινόμενες μέθοδοι συγκλίνουν ολικά για μη κυρτές συναρτήσεις. Τα αριθμητικά αποτελέσματα επαληθεύουν ότι οι προτεινόμενες μέθοδοι παρέχουν γρήγορη, σταθερότερη και πιο αξιόπιστη σύγκλιση, υπερτερώντας των κλασικών μεθόδων εκπαίδευσης.
Η παρουσίαση του ερευνητικού μέρους της διατριβής ολοκληρώνεται με μία νέα μέθοδο εκπαίδευσης νευρωνικών δικτύων, η οποία βασίζεται σε μία καμπυλόγραμμη αναζήτηση. Η μέθοδος χρησιμοποιεί τη BFGS ενημέρωση ελάχιστης μνήμης για τον υπολογισμό των κατευθύνσεων μείωσης, η οποία αντλεί πληροφορία από την ιδιοσύνθεση του προσεγγιστικού Eσσιανού πίνακα, αποφεύγοντας οποιαδήποτε αποθήκευση ή παραγοντοποίηση πίνακα, έτσι ώστε η μέθοδος να μπορεί να εφαρμοστεί για την εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας. Ο αλγόριθμος εφαρμόζεται σε προβλήματα από το πεδίο της τεχνητής νοημοσύνης και της βιοπληροφορικής καταγράφοντας πολύ καλά αποτελέσματα. Επίσης, με σκοπό την αύξηση της ικανότητας γενίκευσης των εκπαιδευόμενων δικτύων διερευνήσαμε πειραματικά και αξιολογήσαμε την εφαρμογή τεχνικών μείωσης της διάστασης δεδομένων στην απόδοση της γενίκευσης των τεχνητών νευρωνικών δικτύων σε μεγάλης κλίμακας δεδομένα βιοϊατρικής. / The contribution of this thesis focuses on the development and the Mathematical foundation of new conjugate gradient methods for unconstrained optimization and on the study of new neural network training methods and their applications.
We propose two new conjugate gradient methods for unconstrained optimization. The proposed methods are based on new secant equations with strong theoretical advantages i.e. they approximate the surface of the objective function with higher accuracy.
Moreover, they have the attractive property of ensuring sufficient descent independent of the accuracy of the line search, avoiding thereby the usual inefficient restarts. Further, we have established the global convergence of the proposed methods for general functions under mild conditions. Based on our numerical results we conclude that our proposed methods outperform classical conjugate gradient methods in both efficiency and robustness.
The second part of the thesis is devoted on the study and development of new neural network training algorithms. More specifically, we propose some new training methods which preserve the advantages of classical conjugate gradient methods while simultaneously ensure sufficient descent using any line search, avoiding thereby the usual inefficient restarts. Moreover, we have established the global convergence of our proposed methods for general functions. Encouraging numerical experiments on famous benchmarks verify that the presented methods provide fast, stable and reliable convergence, outperforming classical training methods.
Finally, the presentation of the research work of this dissertation is fulfilled with the presentation of a new curvilinear algorithm for training large neural networks which is based on the analysis of the eigenstructure of the memoryless BFGS matrices. The proposed method preserves the strong convergence properties provided by the quasi-Newton direction while simultaneously it exploits the nonconvexity of the error surface through the computation of the negative curvature direction without using any storage and matrix factorization. Our numerical experiments have shown that the proposed method outperforms other popular training methods on famous benchmarks. Furthermore, for improving the generalization capability of trained ANNs, we explore the incorporation of several dimensionality reduction techniques as a pre-processing step. To this end, we have experimentally evaluated the application of dimensional reduction techniques for increasing the generalization capability of neural network in large biomedical datasets.

Identiferoai:union.ndltd.org:upatras.gr/oai:nemertes:10889/5677
Date04 December 2012
CreatorsΛιβιέρης, Ιωάννης
ContributorsΠιντέλας, Παναγιώτης, Livieris, Ioannis, Βραχάτης, Μιχαήλ, Λυκοθανάσης, Σπυρίδων
Source SetsUniversity of Patras
Languagegr
Detected LanguageGreek
TypeThesis
Rights0
RelationΗ ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της.

Page generated in 0.0033 seconds