Få studier om ljudsymbolik, d.v.s. kopplingen mellan ords form och betydelse, har baserats på statistisk analys. I denna studie använder vi random forests med måttet permutation variable importance för att utforska vilka fonem (språkljud) som är prevalenta i engelska ord som beskriver hårdhet eller mjukhet. Denna icke-parametriska maskininlärningsmetod har funnits vara användbar för identifiering av ett fåtal inflytelserika förklaringsvariabler i situationer där n < p eller interkorrelationer förekommer. Vårt material och val av metod grundar sig på en tidigare studie, som fann att r-ljud hade starkt samband med betydelsen ‘strävhet’, men som inte kontrollerade för betydelsen ‘hårdhet’ trots att dessa korrelerar med varandra. Vi kontrollerar för dimensionen strävhet-lenhet genom att utföra random forest-analysen på två delmängder: ord som används för att beskriva hårdhet eller mjukhet (n = 81), samt den delmängd av dessa ord som inte beskriver strävhet eller lenhet (n = 40). Samtliga regressorer är binära variabler, som anger förekomsten eller avsaknaden av varsitt fonem; vi utförde separata analyser på respektive datamängd för att se vilka fonem som hade störst effekt, då man betraktade specifika stavelsekomponenter. Vi fann att r-ljuden hade starkt samband med betydelsen ‘hårdhet’ både före och efter kontrollen för ‘strävhet’. Vi fann även att ljudet med symbolen i (t.ex. sista vokalen i fluffy) hade starkt samband med betydelsen ‘mjukhet’ före och efter kontroll, men vi misstänker att detta egentligen reflekterar sambandet mellan ‘mjukhet’ och exkluderade bakgrundsvariabler. / Few studies about sound symbolism, i.e. the association between the shape and meaning of words, have been based on statistical analysis. In this study, we use random forests and the permutation variable importance measure to explore which phonemes (language sounds) are prevalent in English descriptors of hardness or softness. This non-parametric machine learning method has been found useful for identification of a few influential predictors in situations where n < p or intercorrelations are present. Our materials and choice of method are based on an earlier study, in which a strong association was found between r-sounds and ‘roughness’, but which did not control for the meaning ‘hardness’ despite the correlation between them. We control for the dimension ‘roughness-smoothness’ by performing the random forest-analysis on two subsets of data: descriptors of hardness or softness (n = 81), and descriptors of hardness or softness which are not used to describe roughness or smoothness (n = 40). All regressors are binary variables indicating the presence or absence of a phoneme. Separate analyses were conducted on each subset to see which phonemes had the largest effect when specific syllable compontents were considered. We found that r-sounds had a strong association with ‘hardness’ both before and after controlling for ‘roughness’. We also found that the sound here symbolized by i (e.g. the last vowel of fluffy) had a strong association with ‘softness’ before and after control, but we suspect that this might instead reflect an association between ‘softness’ and excluded variables.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-203082 |
Date | January 2022 |
Creators | Råberg, Emil, Siljamäki, Mia |
Publisher | Stockholms universitet, Statistiska institutionen |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0028 seconds