Return to search

Extrapolation of polynomial nets and their generalization guarantees

Polynomial neural networks (NNs-Hp) have recently demonstrated high expressivity and efficiency across several tasks. However, a theoretical explanation toward such success is still unclear, especially when compared to the classical neural networks. Neural tangent kernel (NTK) is a powerful tool to analyze the training dynamics of neural networks and their generalization bounds. The study on NTK has been devoted to typical neural network architectures, but is incomplete for NNs-Hp. In this work, we derive the finite-width NTK formulation for NNs-Hp, and prove their equivalence to the kernel regression predictor with the associated NTK, which expands the application scope of NTK. Based on our results, we elucidate the difference of NNs-Hp over standard neural networks with respect to extrapolation and spectral bias. Our two key insights are that when compared to standard neural networks, a) NNs-Hp are able to fit more complicated functions in the extrapolation region; and b) NNs-Hp admit a slower eigenvalue decay of the respective NTK. Our empirical results provide a good justification for a deeper understanding of NNs-Hp / Polynomiska neurala nätverk (NNs-Hp) har nyligen visat hög uttrycksförmåga och effektivitet över flera uppgifter. En teoretisk förklaring till sådan framgång är dock fortfarande oklar, särskilt jämfört med de klassiska neurala nätverken. Neurala tangentkärnor (NTK) är ett kraftfullt verktyg för att analysera träningsdynamiken i neurala nätverk och deras generaliseringsgränser. Studien om NTK har ägnats åt typiska neurala nätverksarkitekturer, men är ofullständig för NNs-Hp. I detta arbete härleder vi NTK-formuleringen med ändlig bredd för NNs-Hp och bevisar deras likvärdighet med kärnregressionsprediktorn med den associerade NTK, vilket utökar tillämpningsomfånget för NTK. Baserat på våra resultat belyser vi skillnaden mellan NNs-Hp jämfört med standardneurala nätverk med avseende på extrapolering och spektral bias. Våra två viktiga insikter är att jämfört med vanliga neurala nätverk, a) NNs-Hp kan passa mer komplicerade funktioner i extrapolationsregionen; och b) NNs-Hp medger en långsammare egenvärdesavklingning av respektive NTK. Våra empiriska resultat ger en bra motivering för en djupare förståelse av NNs-Hp.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-318819
Date January 2022
CreatorsWu, Yongtao
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:229

Page generated in 0.0021 seconds