Global ETD Search

1	R-ljud är hårda: slumpskogsanalys av sambandet mellan språkljud och betydelse i taktila adjektiv / R is for hard: random forest analysis of the association between sound and meaning in tactile adjectives Råberg, Emil, Siljamäki, Mia January 2022 (has links) Få studier om ljudsymbolik, d.v.s. kopplingen mellan ords form och betydelse, har baserats på statistisk analys. I denna studie använder vi random forests med måttet permutation variable importance för att utforska vilka fonem (språkljud) som är prevalenta i engelska ord som beskriver hårdhet eller mjukhet. Denna icke-parametriska maskininlärningsmetod har funnits vara användbar för identifiering av ett fåtal inflytelserika förklaringsvariabler i situationer där n < p eller interkorrelationer förekommer. Vårt material och val av metod grundar sig på en tidigare studie, som fann att r-ljud hade starkt samband med betydelsen ‘strävhet’, men som inte kontrollerade för betydelsen ‘hårdhet’ trots att dessa korrelerar med varandra. Vi kontrollerar för dimensionen strävhet-lenhet genom att utföra random forest-analysen på två delmängder: ord som används för att beskriva hårdhet eller mjukhet (n = 81), samt den delmängd av dessa ord som inte beskriver strävhet eller lenhet (n = 40). Samtliga regressorer är binära variabler, som anger förekomsten eller avsaknaden av varsitt fonem; vi utförde separata analyser på respektive datamängd för att se vilka fonem som hade störst effekt, då man betraktade specifika stavelsekomponenter. Vi fann att r-ljuden hade starkt samband med betydelsen ‘hårdhet’ både före och efter kontrollen för ‘strävhet’. Vi fann även att ljudet med symbolen i (t.ex. sista vokalen i fluffy) hade starkt samband med betydelsen ‘mjukhet’ före och efter kontroll, men vi misstänker att detta egentligen reflekterar sambandet mellan ‘mjukhet’ och exkluderade bakgrundsvariabler. / Few studies about sound symbolism, i.e. the association between the shape and meaning of words, have been based on statistical analysis. In this study, we use random forests and the permutation variable importance measure to explore which phonemes (language sounds) are prevalent in English descriptors of hardness or softness. This non-parametric machine learning method has been found useful for identification of a few influential predictors in situations where n < p or intercorrelations are present. Our materials and choice of method are based on an earlier study, in which a strong association was found between r-sounds and ‘roughness’, but which did not control for the meaning ‘hardness’ despite the correlation between them. We control for the dimension ‘roughness-smoothness’ by performing the random forest-analysis on two subsets of data: descriptors of hardness or softness (n = 81), and descriptors of hardness or softness which are not used to describe roughness or smoothness (n = 40). All regressors are binary variables indicating the presence or absence of a phoneme. Separate analyses were conducted on each subset to see which phonemes had the largest effect when specific syllable compontents were considered. We found that r-sounds had a strong association with ‘hardness’ both before and after controlling for ‘roughness’. We also found that the sound here symbolized by i (e.g. the last vowel of fluffy) had a strong association with ‘softness’ before and after control, but we suspect that this might instead reflect an association between ‘softness’ and excluded variables. random forest sound symbolism regression tree variable importance permutation importance slumpskog random forest ljudsymbolik regressionsträd variable importance Probability Theory and Statistics Sannolikhetsteori och statistik General Language Studies and Linguistics
2	Auto-Tuning Apache Spark Parameters for Processing Large Datasets / Auto-Optimering av Apache Spark-parametrar för bearbetning av stora datamängder Zhou, Shidi January 2023 (has links) Apache Spark is a popular open-source distributed processing framework that enables efficient processing of large amounts of data. Apache Spark has a large number of configuration parameters that are strongly related to performance. Selecting an optimal configuration for Apache Spark application deployed in a cloud environment is a complex task. Making a poor choice may not only result in poor performance but also increases costs. Manually adjusting the Apache Spark configuration parameters can take a lot of time and may not lead to the best outcomes, particularly in a cloud environment where computing resources are allocated dynamically, and workloads can fluctuate significantly. The focus of this thesis project is the development of an auto-tuning approach for Apache Spark configuration parameters. Four machine learning models are formulated and evaluated to predict Apache Spark’s performance. Additionally, two models for Apache Spark configuration parameter search are created and evaluated to identify the most suitable parameters, resulting in the shortest execution time. The obtained results demonstrates that with the developed auto-tuning approach and adjusting Apache Spark configuration parameters, Apache Spark applications can achieve a shorter execution time than when using the default parameters. The developed auto-tuning approach gives an improved cluster utilization and shorter job execution time, with an average performance improvement of 49.98%, 53.84%, and 64.16% for the three different types of Apache Spark applications benchmarked. / Apache Spark är en populär öppen källkodslösning för distribuerad databehandling som möjliggör effektiv bearbetning av stora mängder data. Apache Spark har ett stort antal konfigurationsparametrar som starkt påverkar prestandan. Att välja en optimal konfiguration för en Apache Spark-applikation som distribueras i en molnmiljö är en komplex uppgift. Ett dåligt val kan inte bara leda till dålig prestanda utan också ökade kostnader. Manuell anpassning av Apache Spark-konfigurationsparametrar kan ta mycket tid och leda till suboptimala resultat, särskilt i en molnmiljö där beräkningsresurser tilldelas dynamiskt och arbetsbelastningen kan variera avsevärt. Fokus för detta examensprojekt är att utveckla en automatisk optimeringsmetod för konfigurationsparametrarna i Apache Spark. Fyra maskininlärningsmodeller formuleras och utvärderas för att förutsäga Apache Sparks prestanda. Dessutom skapas och utvärderas två modeller för att söka efter de mest lämpliga konfigurationsparametrarna för Apache Spark, vilket resulterar i kortast möjliga exekveringstid. De erhållna resultaten visar att den utvecklade automatiska optimeringsmetoden, med anpassning av Apache Sparks konfigurationsparameterar, bidrar till att Apache Spark-applikationer kan uppnå kortare exekveringstider än vid användning av standard-parametrar. Den utvecklade metoden för automatisk optimering bidrar till en förbättrad användning av klustret och kortare exekveringstider, med en genomsnittlig prestandaförbättring på 49,98%, 53,84% och 64,16% för de tre olika typerna av Apache Spark-applikationer som testades. Apache Spark Cloud Environment Spark Configuration Parameter Resource Utilization Ridge Regression Elastic Net Random Forest Deep Neural Network Bayesian Optimization Particle Swarm Optimization. Apache Spark Molnmiljö Apache Spark konfigurationsparameter Resursutnyttjande Ridge-regression Elastisk nät Slumpskog Djupt neuralt nätverk Bayesiansk optimering Partikelsvärmsoptimering. Computer and Information Sciences Data- och informationsvetenskap

Search results

R-ljud är hårda: slumpskogsanalys av sambandet mellan språkljud och betydelse i taktila adjektiv / R is for hard: random forest analysis of the association between sound and meaning in tactile adjectives

Auto-Tuning Apache Spark Parameters for Processing Large Datasets / Auto-Optimering av Apache Spark-parametrar för bearbetning av stora datamängder