The far-reaching successes of deep neural networks in a wide variety of learning tasks have prompted research on how model properties account for high network performance. For a specific class of models whose activation functions are piecewise linear, one such property of interest is the number of linear regions that the network generates. Such models themselves define piecewise linear functions by partitioning input space into disjoint regions and fitting a different linear function on each such piece. It would be expected that the number or configuration of such regions would describe the model’s ability to fit complicated functions. However, previous works have shown difficulty in identifying linear regions as satisfactory predictors of model success. In this thesis, the question of whether the generation of linear regions due to training encode the properties of the learning problem is explored. More specifically, it is investigated whether change in linear region density due to model fitting is related to the geometric properties of the training data. In this work, data geometry is characterized in terms of the curvature of the underlying manifold. Models with ReLU activation functions are trained on a variety of regression problems defined on artificial manifolds and the change in linear region density is recorded along trajectories in input space. Learning is performed on problems defined on curves, surfaces and for image data. Experiments are repeated as the data geometry is varied and the change in density is compared with the manifold curvature measure used. In no experimental setting, was the observed change in density found to be clearly linked with curvature. However, density was observed to increase at points of discontinuity. This suggests that linear regions can in some instances model data complexities, however, the findings presented here do not support that data curvature is encoded by the formation of linear regions. Thus, the role that linear regions play in controlling the capacity of piecewise linear networks remains open. Future research is needed to gain further insights into how data geometry and linear regions are connected. / De breda framgångar som djupa neurala nätverk har uppvisat i en mängd olika inlärningsproblem har inspirerat ny forskning med syfte att förklara vilka modellegenskaper som resulterar i högpresterande nätverk. För neurala nätverk som använder styckvis linjära aktiveringsfunktioner är en intressant egenskap att studera de linjära regioner som nätverket genererar i det vektorrum som utgör träningsdatans definitionsmängd. Nätverk med styckvis linjära aktiveringsfunktioner delar upp definitionsmängden i distinkta regioner på vilka olika linjära funktioner avbildas. Dessa nätverk avbildar själva styckvis linjära funktioner. Genom att anpassa flera skilda linjära avbildningar går det att approximera funktioner som är icke-linjära. Därför skulle man kunna förvänta sig att antalet linjära regioner som en modell genererar och hur de är fördelade i rummet kunde fungera som mått på modellens förmåga att lära sig komplicerade funktioner. Tidigare efterforskingar inom detta område har dock inte kunnat demonstrera ett samband mellan antalet eller fördelningen av linjära regioner och modellens prestanda. I den här avhandlingen undersöks det vilken roll linjära regioner spelar i att förklara en modells kapacitet och vad den lär sig. Fångar de linjära regioner som ett nätverk lär sig de underliggande egenskaperna hos träningsdatan? Mer specifikt så studeras huruvida den lokala förändringen i antalet linjära regioner efter modellträning korrelerar med träningsdatans geometri. Träningsdata genereras från syntetiska mångfalder och datageometrin beskrivs i termer av mångfaldens krökning. På dessa mångfalder definieras regressionsproblem och träning upprepas för topologier av olika form och med olika krökning. Skillnaden i antalet linjära regioner efter träning mäts längs banor i definitionsdomänen och jämförs med datans krökning. Ingen av de experiment som utfördes lyckades påvisa något tydligt samband mellan förändring i antal regioner och datans krökning. Det observerades dock att antalet linjära regioner ökar i närheten av punkter som utgör diskontinuiteter. Detta antyder att linjära regioner under vissa omständigheter kan modellera komplexitet. Således förblir rollen som linjära regioner har i att förklara modellförmåga diffus.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321465 |
Date | January 2022 |
Creators | Eriksson, Petter |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:709 |
Page generated in 0.0024 seconds