Return to search

Convergence of Linear Neural Networks to Global Minimizers / Konvergens av linjära neurala nätverk till globala minimum​

It is known that gradient flow in linear neural networks using Euclidean loss almost always avoids critical points that have at least one eigendirection with negative curvature. Using algebraic invariants of the gradient flow we try to prove that the set of all critical points with no second-order curvature (zero Hessian) for arbitrary networks is associated to a subset of the invariants of lower dimension. This would mean that these critical points are almost surely avoided. We show that this holds for networks with $3$ or less hidden layers and a few other special cases. We show by way of explicit counter-example that it is not true for general deep networks. / Det är känt att linjära neurala nätverk med Euklidisk loss-funktion under gradient flow alltid undviker kritiska punkter som har minst en egenriktning med negativ böjning. Med hjälp av algebraiska invarianter till gradient flow försöker vi bevisa att invarianter associerade med kritiska punkter med försvinnande Hessian-matris utgör en algebraisk mängd av lägre dimension. Det skulle innebära att dessa kritiska punkter nästan alltid undviks. Vi visar att för nätverk med $3$ eller färre gömda lager så gäller detta. Vi visar även med explicit motexempel att våran förmodan inte gäller för allmänna djupa nätverk.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-281982
Date January 2020
CreatorsHedlin, Ludwig
PublisherKTH, Matematik (Inst.)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2020:325

Page generated in 0.0024 seconds