Global ETD Search

1	Big Data Workflows: DSL-based Specification and Software Containers for Scalable Execution Dejene Dessalk, Yared January 2020 (has links) Big Data workflows are composed of multiple orchestration steps that perform different data analytics tasks. These tasks process heterogeneous data using various computing and storage resources. Due to the diversity of application domains, involved technologies, and complexity of data sets, the design and implementation of Big Data workflows require the collaboration of domain experts and technical experts. However, existing tools are too technical and cannot easily allow domain experts to participate in the process of defining and executing Big Data workflows. Moreover, the majority of existing tools are designed for specific applications such as bioinformatics, computational chemistry, and genomics. They are also based on specific technology stacks that do not provide flexible means of code reuse and maintenance. This thesis presents the design and implementation of a Big Data workflow solution based on the use of a domain-specific language (DSL) for hiding complex technical details, enabling domain experts to participate in the process definition of workflows. The workflow solution uses a combination of software container technologies and message-oriented middleware (MOM) to enable highly scalable workflow execution. The applicability of the solution is demonstrated by implementing a prototype based on a real-world data workflow. As per performed evaluations, the proposed workflow solution was evaluated to provide efficient workflow definition and scalable execution. Furthermore, the results of a set of experiments were presented, comparing the performance of the proposed approach with Argo Workflows, one of the most promising tools in the area of Big Data workflows. / Big Data-arbetsflöden består av flera orkestreringssteg som utför olika dataanalysuppgifter. Dessa uppgifter bearbetar heterogena data med hjälp av olika databehandlings- och lagringsresurser. På grund av stora variationen av tillämpningsområden, den involverade tekniken, och komplexiteten hos datamängderna, kräver utformning och implementering av Big Data-arbetsflöden samarbete mellan domänexperter och tekniska experter. Befintliga verktyg är dock för tekniska och vilket försvårar för domänexperter att delta i processen att definiera och genomföra Big Data-arbetsflöden. Dessutom är majoriteten av befintliga verktyg utformade för specifika tillämpningar, som bioinformatik, beräkningskemi och genomik. Verktygen är också baserade på specifika teknikstackar som inte erbjuder flexibla metoder för att kunna underhålla och återanvända kod. Denna avhandling ämnar att presentera design och implementering av en Big Data-arbetsflödeslösning som utnyttjar ett domänspecifikt språk (DSL) för att dölja komplexa tekniska detaljer, vilket gör det möjligt för domänexperter att delta i processdefinitionen av arbetsflöden. Arbetsflödeslösningen använder en kombination av mjukvaruutrustningsteknik och meddelande-orienterad mellanvara (MOM) för att möjliggöra en mer skalbar körning av arbetsflöden. Tillämpningslösningen demonstreras genom att implementera en prototyp baserad på ett verkligt dataflöde. Efter en granskning av de genomförda testerna modifierades den föreslagna arbetsflödeslösningen för att uppnå en effektiv arbetsflödesdefinition och skalbar körning. Dessutom presenteras resultaten av en uppsättning experiment där man jämför skalbarheten för det föreslagna tillvägagångssättet med Argo Workflows, ett av de mest lovande verktygen inom Big Data-arbetsflöden Big Data workflow Domain-specific language Software container Message oriented middleware Scalable execution Big Data-arbetsflode Doman-specifikt sprak Programvarubehallare Meddelande-orienterad mellanprogramvara Skalbar korning Computer and Information Sciences Data- och informationsvetenskap
2	Ten thousand applications in ten minutes : Evaluating scalable recruitment, evaluation and screening methods of candidates for sales jobs Kirk, Stephen January 2017 (has links) While personnel evaluation has been extensively covered in literature, little is known about evaluation procedures screening a large number of applicants. The basis of this research was to investigate if candidates for sales positions can be evaluated in a scalable way (where the number of applications does not impact the cost of evaluation much) for an on demand sales platform. The study consists of interviews with the recruiters and growth leads of the studied firm, a case study of a firm that has omitted resumes in their salesperson recruitment processes, and sample tests performed on candidates for sales positions. Further, some data on salespeople was collected and analysed. In summary, the study links the findings to the restrictions of a process that requires scalability. Previous research outlines how various indicators (personality facets, biodata, and optimism) predict sales performance in salespeople. Mental ability of candidates is relevant especially for the work training phase. Some of these findings were supported by the case study. While traditional resumes contain information predicting sales ability, some sales managers argue that they are obsolete. Previous research shows that recruiters risk drawing broad generalizations based on resume content. Video resumes have some potential, but currently have technical and ethical limitations. Personality and mental ability tests show predictive ability for sales performance, and are scalable. Previous research discusses limitations in many personality tests being commercial, resulting in limitations in how they may be modified; in their transparency of scoring; and validity studies being hard to conduct. Other limitations with personality tests in evaluation settings are that they are prone to faking. The study also suggests future topics of research in how culture defines what an ideal salesperson is, and extending these findings to other areas than sales. / Medan bedömning av sökande för tjänster har täckts i tidigare forskning, är lite känt om utvärderingsprocesser som utvärderar stort antal sökande. Denna studie söker att svara på om kandidater för säljtjänster kan utvärderas på ett skalbart sätt (där antalet sökande har liten påverkan på kostnaden för utvärdering) för en säljplattform. Studien består av intervjuer med rekryterare och growth leads av det studerade företaget, en fallstudie av ett företag som har slopat CV:n i sin ansökningsprocess, och test på kandidater för säljtjänster. Vidare analyserades befintlig data på säljare. Sammanfattningsvis länkar studien resultaten till de begränsningar som krävs av en skalbar process. Tidigare forskning visar hur olika indikatorer (personlighet, biografisk data, och optimism) kan förutse säljförmåga. Kandidatens mentala förmåga är särskilt relevant för träningsfasen. Vissa av dessa resultat stöds av fallstudien. Medan CV:n innehåller information för att förutse säljförmåga, hävdar vissa säljchefer att de är utdaterade. Tidigare forskning visar att rekryterare ibland generaliserar brett baserat på innehållet av ett CV. Videobaserade CV:n har viss potential, men har etiska och tekniska brister i dagsläget. Personlighetstest och test som mäter mental förmåga visar prediktiv potential för säljförmåga och är också skalbara. Tidigare forskning diskuterar även de begränsningar som uppstår av att många personlighetstest är kommersiella, vilket leder till begränsningar i hur de kan modifieras; i transparensen av rättningen; och att validitetsstudier är svåra att utföra på dem. Andra begränsningar med personlighetstest är att kandidater kan manipulera resultaten. Studien föreslår även framtida forskning inom till exempel hur kultur definierar en ideal säljperson, och om dessa resultat kan utökas till andra områden än försäljning. Scalable recruitment evaluation evaluation for sales positions screening e-recruiting ideal salesperson digital recruitment erecruiting recruiting human resources human resource management scalability scalable recruiting sälj säljare skalbar försäljning utvärdering av säljare Övrig annan teknik
3	A Cross-Platform Health Care Application Eriksson, Rickard, Hemani, Sajjadali January 2015 (has links) This report describes the development process of the mobile application HealthyWay. The application is developed as a Bachelor thesis project together with KTH Royal Institute of Technology. The applications' main function is to be the interface to a number of wearable medical electronic appliances such as bandages and pill boxes. The communication is done through Bluetooth Low Energy. The application was mainly written in 3 di erent languages, QML, C++ and Java. The most stressed point throughout this project was the importance of platform independence. The exibility had to be done on a scalable as well as on a modular level. With this in mind, QT was used to address the requirement of scalability. The modularity was achieved through an organized structure to the program accompanied by easy directives to introduce new devices. The purpose of the application is to increase the quality of life for the user. This intent could however not be concluded due to the lack of testing among users. In its current state, the application is not yet ready for deployment but instead acts as a framework for future prospects. / Den här rapporten beskriver utvecklingsprocessen för en mobilapplikation vid namn Healthy- Way. Applikationen är utvecklad som ett kandidatexamensarbete tillsammans med KTH. Applikationens huvudsakliga uppgift är att vara ett gränssnitt till medicinskt relaterad utrustning såsom plaster och pilleraskar. Kommunikationen mellan dessa sker via Bluetooth Low Energy. Applikationen skrevs huvudsakligen i 3 olika språk, QML, C++ och Java. Den viktigaste punkten genom projektets gång var att applikationen skulle vara oberoende av plattform. Flexibiliteten var tvungen att göras på både en skalbar och modulär nivå. Med detta i åtanke valdes QT för att behandla skalbarheten. Modulariteten uppnåddes genom en välplanerad struktur på programmet tillsammans med instruktioner på hur ny utrustning kan introduceras. Syftet med programmet är att öka livskvaliteten för användaren. Detta syfte kunde däremot inte slutföras på grund av bristande testning hos användare. I dagens läge är applikationen inte redo för att släppas kommersiellt, men tjänar som ett bra ramverk för framtida utveckling. QT Scalable Modular Bluetooth Low Energy Wearable electronics Health care Mobile application Java C++ QML Cross-platform Android iOS QT Skalbar Modular Bluetooth Low Energy Wearable electronics Health care Mobilapplikation Java C++ QML Multiplattform Android iOS Computer and Information Sciences Data- och informationsvetenskap
4	Dynamic Graph Embedding on Event Streams with Apache Flink Perini, Massimo January 2019 (has links) Graphs are often considered an excellent way of modeling complex real-world problems since they allow to capture relationships between items. Because of their ubiquity, graph embedding techniques have occupied research groups, seeking how vertices can be encoded into a low-dimensional latent space, useful to then perform machine learning. Recently Graph Neural Networks (GNN) have dominated the space of embeddings generation due to their inherent ability to encode latent node dependencies. Moreover, the newly introduced Inductive Graph Neural Networks gained much popularity for inductively learning and representing node embeddings through neighborhood aggregate measures. Even when an entirely new node, unseen during training, appears in the graph, it can still be properly represented by its neighboring nodes. Although this approach appears suitable for dynamic graphs, available systems and training methodologies are agnostic of dynamicity and solely rely on re-processing full graph snapshots in batches, an approach that has been criticized for its high computational costs. This work provides a thorough solution to this particular problem via an efficient prioritybased method for selecting rehearsed samples that guarantees low complexity and high accuracy. Finally, a data-parallel inference method has been evaluated at scale using Apache Flink, a data stream processor for real-time predictions on high volume graph data streams. / Molti problemi nel mondo reale possono essere rappresentati come grafi poichè queste strutture dati consentono di modellare relazioni tra elementi. A causa del loro vasto uso, molti gruppi di ricerca hanno tentato di rappresentare i vertici in uno spazio a bassa dimensione, utile per poi poter utilizzare tecniche di apprendimento automatico. Le reti neurali per grafi sono state ampiamente utilizzate per via della loro capacità di codificare dipendenze tra vertici. Le reti neurali induttive recentemente introdotte, inoltre, hanno guadagnato popolarità poichè consentono di generare rappresentazioni di vertici aggregando altri vertici. In questo modo anche un nodo completamente nuovo può comunque essere rappresentato utilizzando i suoi nodi vicini. Sebbene questo approccio sia adatto per grafici dinamici, i sistemi ad oggi disponibili e gli algoritmi di addestramento si basano esclusivamente sulla continua elaborazione di grafi statici, un approccio che è stato criticato per i suoi elevati costi di calcolo. Questa tesi fornisce una soluzione a questo problema tramite un metodo efficiente per l’allenamento di reti neurali induttive basato su un’euristica per la selezione dei vertici. Viene inoltre descritto un metodo per eseguire predizioni in modo scalabile in tempo reale utilizzando Apache Flink, un sistema per l’elaborazione di grandi quantità di flussi di dati in tempo reale. / Grafer anses ofta vara ett utmärkt sätt att modellera komplexa problem i verkligheten eftersom de gör det möjligt att fånga relationer mellan objekt. På grund av deras allestädes närhet har grafinbäddningstekniker sysselsatt forskningsgrupper som undersöker hur hörn kan kodas in i ett lågdimensionellt latent utrymme, vilket är användbart för att sedan utföra maskininlärning. Nyligen har Graph Neural Networks (GNN) dominerat utrymmet för inbäddningsproduktion tack vare deras inneboende förmåga att koda latenta nodberoenden. Dessutom fick de nyinförda induktiva grafiska nervnäten stor popularitet för induktivt lärande och representerande nodbäddningar genom sammanlagda åtgärder i grannskapet. Även när en helt ny nod, osynlig under träning, visas i diagrammet, kan den fortfarande representeras ordentligt av dess angränsande noder. Även om detta tillvägagångssätt tycks vara lämpligt för dynamiska grafer, är tillgängliga system och träningsmetodologier agnostiska för dynamik och förlitar sig bara på att behandla fullständiga ögonblicksbilder i partier, en metod som har kritiserats för dess höga beräkningskostnader. Detta arbete ger en grundlig lösning på detta specifika problem via en effektiv prioriteringsbaserad metod för att välja repeterade prover som garanterar låg komplexitet och hög noggrannhet. Slutligen har en dataparallell inferensmetod utvärderats i skala med Apache Flink, en dataströmprocessor för realtidsprognoser för grafiska dataströmmar med hög volym. Dynamic Graph Representation Learning Stream Real-Time Data Processing Scalable Graph Processing Graph Neural Network Experience Replay Grafi dinamici Representation Learning Flussi di dati Elaborazione in tempo reale Elaborazione di grafi scalabile Reti neurali per grafi Experience Replay Dynamisk graf Representationsinlärning ström databehandling i realtid skalbar grafbehandling grafiskt neuralt nätverk erfarenhetsåterspelning Computer and Information Sciences Data- och informationsvetenskap Elektroteknik och elektronik

1

Page generated in 0.0421 seconds