Global ETD Search

1	Resource-efficient and fast Point-in-Time joins for Apache Spark : Optimization of time travel operations for the creation of machine learning training datasets / Resurseffektiva och snabba Point-in-Time joins i Apache Spark : Optimering av tidsresningsoperationer för skapande av träningsdata för maskininlärningsmodeller Pettersson, Axel January 2022 (has links) A scenario in which modern machine learning models are trained is to make use of past data to be able to make predictions about the future. When working with multiple structured and time-labeled datasets, it has become a more common practice to make use of a join operator called the Point-in-Time join, or PIT join, to construct these datasets. The PIT join matches entries from the left dataset with entries of the right dataset where the matched entry is the row whose recorded event time is the closest to the left row’s timestamp, out of all the right entries whose event time occurred before or at the same time of the left event time. This feature has long only been a part of time series data processing tools but has recently received a new wave of attention due to the rise of the popularity of feature stores. To be able to perform such an operation when dealing with a large amount of data, data engineers commonly turn to large-scale data processing tools, such as Apache Spark. However, Spark does not have a native implementation when performing these joins and there has not been a clear consensus by the community on how this should be achieved. This, along with previous implementations of the PIT join, raises the question: ”How to perform fast and resource efficient Pointin- Time joins in Apache Spark?”. To answer this question, three different algorithms have been developed and compared for performing a PIT join in Spark in terms of resource consumption and execution time. These algorithms were benchmarked using generated datasets using varying physical partitions and sorting structures. Furthermore, the scalability of the algorithms was tested by running the algorithms on Apache Spark clusters of varying sizes. The results received from the benchmarks showed that the best measurements were achieved by performing the join using Early Stop Sort-Merge Join, a modified version of the regular Sort-Merge Join native to Spark. The best performing datasets were the datasets that were sorted by timestamp and primary key, ascending or descending, using a suitable number of physical partitions. Using this new information gathered by this project, data engineers have been provided with general guidelines to optimize their data processing pipelines to be able to perform more resource-efficient and faster PIT joins. / Ett vanligt scenario för maskininlärning är att träna modeller på tidigare observerad data för att för att ge förutsägelser om framtiden. När man jobbar med ett flertal strukturerade och tidsmärkta dataset har det blivit vanligare att använda sig av en join-operator som kallas Point-in-Time join, eller PIT join, för att konstruera dessa datauppsättningar. En PIT join matchar rader från det vänstra datasetet med rader i det högra datasetet där den matchade raden är den raden vars registrerade händelsetid är närmaste den vänstra raden händelsetid, av alla rader i det högra datasetet vars händelsetid inträffade före eller samtidigt som den vänstra händelsetiden. Denna funktionalitet har länge bara varit en del av datahanteringsverktyg för tidsbaserad data, men har nyligen fått en ökat popularitet på grund av det ökande intresset för feature stores. För att kunna utföra en sådan operation vid hantering av stora mängder data vänder sig data engineers vanligvis till storskaliga databehandlingsverktyg, såsom Apache Spark. Spark har dock ingen inbyggd implementation för denna join-operation, och det finns inte ett tydligt konsensus från Spark-rörelsen om hur det ska uppnås. Detta, tillsammans med de tidigare implementationerna av PIT joins, väcker frågan: ”Vad är det mest effektiva sättet att utföra en PIT join i Apache Spark?”. För att svara på denna fråga har tre olika algoritmer utvecklats och jämförts med hänsyn till resursförbrukning och exekveringstid. För att jämföra algoritmerna, exekverades de på genererade datauppsättningar med olika fysiska partitioner och sorteringstrukturer. Dessutom testades skalbarheten av algoritmerna genom att köra de på Spark-kluster av varierande storlek. Resultaten visade att de bästa mätvärdena uppnåddes genom att utföra operationen med algoritmen early stop sort-merge join, en modifierad version av den vanliga sort-merge join som är inbyggd i Spark, med en datauppsättning som är sorterad på tidsstämpel och primärnyckel, antingen stigande eller fallande. Fysisk partitionering av data kunde även ge bättre resultat, men det optimala antal fysiska partitioner kan variera beroende på datan i sig. Med hjälp av denna nya information som samlats in av detta projekt har data engineers försetts med allmänna riktlinjer för att optimera sina databehandlings-pipelines för att kunna utföra mer resurseffektiva och snabbare PIT joins Apache Spark Point-in-Time ASOF Join Optimizations Time travel Apache Spark Point-in-Time ASOF Join Optimeringar Tidsresning Software Engineering Programvaruteknik
2	La valeur perçue dans l'alimentation santé : conceptualisation et mesure dans une perspective expérientielle / The perceived value of health-enhancing foods : conceptualization and operationalization through an experiential perspective Ravoniarison, Aina 03 October 2012 (has links) L’objet de cette recherche correspond aux aliments santé à orientation fonctionnelle (ASOF), définis comme des produits courants qui, au-delà de leur valeur nutritive de base, ciblent un effet positif sur une fonction spécifique de l’organisme, via des composants additionnels. Les travaux en matière de consommation nutrition-santé (CNS) démontrent la prédominance de l’approche cognitiviste, érigeant le raisonnement analytique et l’attitude en tant que régulateurs principaux du processus décisionnel du consommateur. Toutefois, une exploration conceptuelle préliminaire (revue documentaire pluridisciplinaire et étude qualitative multi-méthodes) suggère que le postulat de rationalité des consommateurs, s’il n’est pas sans fondement, peut paraître restrictif et ne rend pas totalement compte du caractère multidimensionnel de la consommation des ASOF (fonctionnelle, hédonique et symbolique). A ce titre, la recherche s’inscrit dans une perspective expérientielle, en positionnant la valeur perçue de la consommation en tant que clé d’analyse. Afin de mettre à jour les mécanismes à l’oeuvre dans la perception d’une valeur de la CNS, une validation empirique de la mesure du concept est établie, dans l’objectif d’en proposer un cadre explicatif intégrateur éclairant la dynamique qui anime la perception de la valeur, ses déterminants, ses modérateurs et ses conséquences (intention de réachat). L’application du cadre d’analyse expérientiel à la CNS montre qu’il semble tout à fait approprié pour appréhender la facette affective de la consommation. Le processus met ainsi en jeu une interaction consommateur-produit, soumise à la force modératrice de traits de personnalité durables. / Functional foods are conventional products that contain additional bioactive compound targeting physiological benefits beyond basic nutritional value. Previous research regarding the health nutrition consumption widely focused on the cognitive features of reasoned decisional process to explain consumer acceptance. Bearing on experiential perspective, the purpose of the present study is to provide an in-depth analysis of functional food consumption by exploring the multidimensional approach of consumer perceived value (utilitarian, hedonistic and symbolic). A primary literature review allowed determining the factors which might affect consumption experience (typology of value components, variables related to consumer, product characteristics and personality traits). An exploratory qualitative survey which mixed interviews with diary and questionnaire was carried out in order to verify research proposals. Finally, following an empirical validation of a perceived value scale, an integrative conceptual model was elaborated and tested through a quantitative survey. This explanatory frame highlighted the underlying relationships between the perceived value of functional food consumption, its predictors, its moderators and its effects (repurchasing intention). Results showed that experiential framework gives a relevant insight into the affective pattern of functional food consumption that emerges from an interaction between the consumer and the product. Valeur perçue Aliments fonctionnels Courant expérientiel Nutrition-santé ASOF Consommation Nutrition Santé Perceived value Functional foods Experiential paradigm Health nutrition

Search results

La valeur perçue dans l'alimentation santé : conceptualisation et mesure dans une perspective expérientielle / The perceived value of health-enhancing foods : conceptualization and operationalization through an experiential perspective