31 |
S3-HopsFS: A Scalable Cloud-native Distributed File SystemStenkvist, Joel January 2019 (has links)
Data has been regarded as the new oil in today’s modern world. Data is generated everywhere from how you do online shopping to where you travel. Companies rely on analyzing this data to make informed business decisions and improve their products and services. However, storing this massive amount of data can be very expensive. Current distributed file systems rely on commodity hardware to provide strongly consistent data storage for big data analytics applications, such as Hadoop and Spark. Running these storage clusters can be very costly; it is estimated that storing 100 TB in an HDFS cluster with AWS EC2 costs $47,000 per month. On the other hand, using cloud storage such as Amazon’s S3 to store 100 TB only costs about $3,000 per month however S3 is not sufficient due to eventual consistency and low performance. Therefore, combining these two solutions is optimal for a cheap, consistent, and fast file system.This thesis outlines and builds a new class of distributed file system that utilizes cloud native block storage as the data-layer, such as Amazon’s S3. AWS recently increased the bandwidth from S3 to EC2 from 5 Gbps to 25Gbps, sparking new interest in this area. The new system is built on top of HopsFS; a hierarchical, distributed file system with a scale-out metadata layer utilizing an in-memory, distributed database called NDB which dramatically increases the scalability of the file system. In combination with native cloud storage, this new file system reduces the price of deployment by up to 15 times, but at a performance cost of 25% of the original HopsFS system (four times slower). However, tests in this research shows that S3-HopsFS can be improved towards 38% of the original performance by comparing it with only using S3 by itself. In addition to the new HopsFS version, S3Guard was developed to use NDB instead of Amazon’s DynamoDB to store the file tree hierarchy metadata. S3Guard is a tool that allows big data analytics applications such as Hive to utilize S3 as a direct input and output source for queries. The eventual consistency problems of S3 have been solved and tests show a 36% performance boost when listing and deleting files and directories. S3Guard is sufficient to support some big data analytic applications like Hive, but we lose all the benefits of HopsFS like the performance, scalability, and extended metadata -therefore we need a new file system combining both solutions. / Data har ansetts vara den nya oljan i dagens moderna värld. Data kommer från överallt från hur du handlar online till var du reser. Företag är beroende på analysering av denna data för att kunna göra välgrundade affärsbeslut och förbättra sina produkter och tjänster. Det är väldigt dyrt att spara denna enorm mängd av data för analysering. Nuvarande distribuerade filsystem använder vanlig hårdvara för att kunna ge stark och konsekvent datalagring till stora dataanalysprogram, som Hadoop och Spark. Dessa lagrings kluster kan kosta väldigt mycket. Det beräknas att lagra 100 TB med ett HDFS-kluster i AWS EC2 kostar $47 000 per månad. På andra sidan kostar molnlagring med Amazons S3 bara cirka $ 3 000 per månad för 100 TB, men S3 är inte tillräckligt på grund av eventuell konsistens och låg prestanda. Därför är kombinationen av dessa två lösningar optimalt för ett billigt, konsekvent och snabbt filsystem. Forskningen i denna thesis designar och bygger en ny klass av distribue-rat filsystem som använder cloud blocklagring som datalagret, som Amazonas S3, istället för vanlig hårdvara. AWS ökade nyligen bandbredd från S3 till EC2 från 5 Gbps till 25Gbps, som gjorde ett nytt intresse i det här området. Det nya systemet är byggt på toppen av HopsFS; ett hierarkiskt, distribuerat filsystem med utökad metadata som utnyttjar av en in-memory-distribuerad databas som heter NDB som dramatiskt ökar filsystemets skalbarhet. I kombination med inbyggd molnlagring minskar detta nya filsystem priset för implementering upp till 15 gånger, men med en prestandakostnad på 25 % av det ursprungliga HopsFS-systemet (den är fyra gånger långsammare). Test i denna undersökning visar dock att S3-HopsFS kan förbättras till 38% av den ursprungliga prestandan genom att jämföra den med bara användning av S3.Förutom den nya HopsFS-versionen, utvecklades S3Guard för att använda NDB istället för Amazons DynamoDB för att spara fil systemets metadata. S3Guard är ett verktyg som tillåter stora dataanalysprogram som Hive att använda S3 istället för HDFS. De eventuella konsekvensproblemen i S3 är nu lösta och tester visar en 36% förbättring av prestanda när man listar och tar bort filer och kataloger. S3Guard är tillräckligt för att stödja flera dataanalys program som Hive, men vi förlorar alla fördelar med HopsFS som prestanda, skalbarhet och utökad metadata. Därför behöver vi ett nytt filsystem som kombinerar båda lösningarna.
|
32 |
Unsupervised Learning of Visual Features for Fashion ClassificationDhariwal, Sumeet January 2019 (has links)
Deep Learning has changed the way computer vision tasks are being solved in the current age. Deep Learning approaches have achieved state-of-the-art results in computer vision problems like image classification, image verification, object detection, and image segmentation. However, most of this success has been achieved by training deep neural networks on labelled datasets. While this way of training the neural networks results in classifiers with better accuracies, but it might not be the most efficient way to solve computer vision problems. This is so because it is a resource consuming process to manually label the images/data-points and can cost a lot of time and money to the organizations that employ deep learning for developing various products and services.Fashion and e-commerce is one such domain where there is a need to leverage the image data without relying too much on labels. This process can be beneficial to automatically label the category, attributes and other metadata of images, generally used to show the inventory digitally, without relying on humans to manually annotate them.The aim of this master thesis is to explore the effectiveness of unsupervised deep learning approaches for fashion classification so that the data can be classified by only relying on a few labelled data points. Two unsupervised approaches, one based on clustering of features called DeepCluster and the other based on rotation as a self-supervision task, are compared to a fully supervised model on DeepFashion dataset.Through empirical experiments, it has been shown that these unsupervised deep learning techniques can be used to attain comparable classification accuracies (~1-4 % lesser than that achieved by a fully supervised model) and thus making them as suitable alternatives to supervised approaches. / Deep Learning har förändrat hur datorvisionsuppgifter löses under nuvarande ålder. Deep Learning-metoder har uppnått toppmoderna resultat i datorvisionsproblem som bildklassificering, bildverifiering, objektdetektering och bildsegmentering. Emellertid har det mesta av denna framgång uppnåtts genom att träna djupa neurala nätverk på märkta dataset. Medan detta sätt att träna de neurala nätverken resulterar i klassificerare med bättre noggrannhet, men det kanske inte är det mest effektiva sättet att lösa problem med datorens syn. Det här beror på att det är en resurskrävande process för att manuellt märka bilderna / datapunkterna och kan kosta mycket tid och pengar till organisationer som använder djupt lärande för att utveckla olika produkter och tjänster.Mode och e-handel är en sådan domän där det finns behov av att utnyttja bilddata utan att förlita sig för mycket på etiketter. Denna process kan vara till nytta för att automatiskt märka kategorin, attribut och andra metadata för bilder, vanligtvis används för att visa inventeringen digitalt, utan att förlita sig på människor för att manuellt annotera dem.Syftet med denna magisteruppsats är att undersöka effektiviteten av oövervakade djupt lärande tillvägagångssätt för modeklassificering så att data kan klassificeras genom att endast förlita sig på några märkta datapunkter. Två oövervakade tillvägagångssätt, en baserad på kluster av funktioner som kallas DeepCluster och den andra baserat på rotation som självövervakningsuppgift, jämförs med en helt övervakad modell på DeepFashion dataset.Genom empiriska experiment har det visat sig att dessa oövervakade djupa inlärningstekniker kan användas för att uppnå jämförbara klassifikationsnoggrannigheter (~1-4 % mindre än det som uppnås genom en helt övervakad modell) och därigenom göra dem till lämpliga alternativ för övervakade tillvägagångssätt.
|
33 |
Cascaded Machine Learning for Increasing Conversion in Hospitality Recommender SystemGonzalez Ferrer, Antonio Javier January 2018 (has links)
Recommender systems refer to algorithms widely used in industry to determine the preferred product to propose to a customer, given some information about the customer and the context of the purchase. In this thesis, such an approach is applied to predict the desirability of hotels given information about an air travel booking. Specifically, we present a novel recommender system which optimizes the booking conversion based on a list of hotels chosen from a larger set. The proposed solution uses information such as details about the associated flight booking, characteristics of each hotel and the attributes of the list of hotels proposed. The main contribution of this thesis concerns the Hotel List Builder (HLB) which is the component of the recommender system that generates the new recommendations of hotels. This component relies on a two-stage machine learning model and the feature importance analysis of the hotel bookings. The expected conversion rate is improved from 0.049% to 0.186% on average due to the new recommendation system. This method also results in a significant improvement in the processing time when the HLB is applied with respect to a brute force solution to build an optimal list of hotel recommendations (up to 20 times faster). / Rekommendationssystem refererar till algoritmer som används i stor utsträckning inom industrin. Detta för att besluta den föredragna produkten som skall visas till en kund, med information om kunden och innehållet av köpet. I denna avhandling tillämpas ett tillvägagångssätt för att förutsäga önskemål om hotell med information om en flygreservation. Vi presenterar ett specifikt rekommendationssysten som optimerar bokningskonverteringen baserad på en lista över hotell. Dessa hotel är valda från en större upppsättning. Den föreslagna lösningen använder information såsom detaljer om tillhörande flygbokningar, egenskaper hos varje hotell och attributen i listan över föreslagda hotell. Huvudbidraget av denna avhandling handlar om Hotel List Builder (HLB). Denna är komponenten i rekomendationssystemet, vilket genererar de nya rekommendationerna av hotell. Denna komponent förlitar sig på en två-stegs maskininlärningsmodell och har viktiga analyser om hotellbokningar. Tack vare det nya rekommendationssystemet, förbättras den förväntade omvandlingskonverteringen från 0,049% till 0,186 i genomsnitt. Denna metod resulterar också i en betydande förbättring av behandlingstiden när HLB appliceras med respekt för en låg tvångslösning. Detta för att skapa en optimal lista av hotell rekommendationer (up till 20 gånger snabbare).
|
34 |
Towards unification of organ labeling in radiation therapy using a machine learning approach based on 3D geometriesRuffa, Giorgio January 2019 (has links)
In radiation therapy, it is important to control the radiation dose absorbed by Organs at Risk (OARs). The OARs are represented as 3D volumes delineated by medical experts, typically using computed tomography images of the patient. The OARs are identified using user-provided text labels, which, due to a lack of enforcement of existing naming standards, are subject to a great level of heterogeneity. This condition negatively impacts the development of procedures that require vast amounts of standardized data, like organ segmentation algorithms and inter-institutional clinical studies. Previous work showed that supervised learning using deep-learning classifiers could be used to predict OARs labels. The input of this model was composed of 2D contours of the OARs, while the output was a standardized label. In this work, we expanded this approach by qualitatively comparing the performance of different machine learning algorithms trained on a clinical data set of anonymized prostate cancer patients from the Iridium Kankernetwerk clinic (Belgium). The data set was partitioned in a semi-automatic fashion using a divide-and-conquer-like approach and various 2D and 3D encodings of the OARs geometries were tested. Moreover, we implemented a reject class mechanism to assess if the inference probability yielded by the model could be used as a measure of confidence. The underlining goal was to restrict human intervention to rejected cases while allowing for a reliable and automatic standardization of the remaining ones. Our results show that a random forest model trained on simple 3D-based manually engineered features can achieve the twofold goal of high classification performance and reliable inferences. In contrast, 3D convolutional neural networks, while achieving similar classification results, produced wrong, but confident, predictions that could not be effectively rejected. We conclude that the random forest approach represents a promising solution for automatic OAR labels unification, and future works should investigate its applications on more diversified data sets. / En viktig faktor i strålbehandling är att kontrollera hur mycket av strålningen som absorberas av riskorgan. Med hjälp av medicinska bilder, vanligtvis från datortomografi, konturerar medicinska experter riskorgan som sedan representeras som tredimensionella volymer. Riskorganens typ anges via manuell namngivning från den medicinska experten. Detta samt bristande efterlevnad av namngivningsprotokoll, har resulterat i hög heterogenitet bland angivna organnamn. Där denna heterogenitet bromsar utvecklingen av metoder som kräver stora mängder standardiserade data, såsom organsegmenteringsalgoritmer, därutöver försvårar det studier som utförs på intraklinisk basis. Tidigare arbete inom fältet för namngivning av konturerade organ har visat att övervakad inlärning med djupinlärningsklassificerare kan användas för att automatiskt identifiera riskorgannamn. Indata till denna modell bestod av tvådimensionella riskorgankonturer och utdata bestod av standardiserade riskorgannamn. Detta arbete bygger vidare på det tidigare tillvägagångssättet genom att kvalitativt jämföra och utvärdera olika maskininlärningsalgoritmers prestanda för samma ändamål. Algoritmerna tränades på en klinisk datamängd bestående av anonymiserade prostatacancerpatienter från den belgiska kliniken Iridium Kankernetwerk. Datamängden partitionerades på ett semi-automatiserat vis med hjälp av ett tillvägagångssätt inspirerat av söndra-och-härska-tekniken och flera typer av tvåoch tredimensionell representationer av patientbilderna testades. Vidare implementerades en mekanism för att utvärdera om inferenssannolikheten från modellen kunde användas som ett tillförlitligt konfidensmått. Med bakomliggande mål att enbart behöva involvera mänsklig inblandning i de fall som bedöms som extra svåra av mekanismen och på så sätt åstadkomma en automatisk standardiseringen av resterande fall. Resultaten visar att en random forest-modell som tränats på enkla och manuellt designade variabler kan uppnå de två uppsatta målen: hög klassificeringsprestanda och pålitlig inferens. Jämförelsevis lyckades tredimensionella faltningsnätverk uppnå likvärdiga klassificeringsresultat men producerade felaktiga prediktioner som inte var möjliga att avfärda på ett effektivt sätt. Vår slutsats är att den framtagna random forest-metoden är en lovande lösning för automatisk och standardiserad namngivning av riskorgan. Framtida arbete bör utvärdera metoden på data med större variation.
|
35 |
Towards color compatibility in fashion using machine learningWang, Xinhui January 2019 (has links)
Fashion analyses, such as predicting trends and fashion recommendation, have been a hot topic. Color, as one of the dominant features of clothing, has great influence on people’s shopping behaviors. Understanding popular colors and color combinations are of high business value. In this thesis, we investigate compatible color combinations in fashion. We tackle this problem in two parts. First, we implement a semantic segmentation model of fashion images to segment different clothing items of daily photos. We employ Deeplab V2 trained on ModaNet dataset, reaching 0.64 mIoU and 0.96 accuracy in the test set. Our experimental results achieve the state-of-the-art performance comparing to other models proposed in this field. Second, we propose two color recommendation approaches, matrix factorization and item-to-item collaborative filtering, in order to study color combinations in fashion and possibly make recommendations based on the study outcomes. The item-to-item collaborative filtering model shows the compatibility between/among colors quantitatively and achieves high-quality color recommendations with a hit-rate of 0.49. / Modeanalyser,som att förutse trender och mode, är ett hett område. Färg, som är en av de dominerande egenskaperna hos kläder,har stor inverkan på människors shoppingbeteenden. Att förstå populära färger och färgkombinationer är av högt aärsvärde. I denna avhandling undersöker vi kompatibla färgkombinationer inom mode. Vi tar itu med detta problem i två delar. Först genomför vi en semantisk segmenteringsmodell av modebilder för att segmentera olika klädselar av modebilder.Våra experimentella resultat visar att vår segmenteringsmodell når topp-prestanda och är mer generaliserbar jämfört med andra modeller som föreslås inom detta fält. Därför föreslår vi två färgrekommendationsmetoder; matrisfaktorisering och sammansatt ltrering mellan objekt och objekt. Detta i syfte att studera färgkombinationer inom mode och möjligengöra färgrekommendationer. Våra experiment visar kompatibilitet mellan färger kvantitativt och uppnår färgrekommendationer med en träffsäkerhet på 0.49.
|
36 |
WinBro: A Window and Broadcast-based Parallel Streaming Graph Partitioning Framework for Apache FlinkAckva, Adrian January 2019 (has links)
The past years have shown an increasing demand to process data of various kinds and size in real-time. A common representation for many real-world scenarios is a graph, which shows relations between entities, such as users of social networks or pages on the Internet. These graphs increase in size over time and can easily exceed the capacity of single machines.Graph partitioning is used to divide graphs into multiple subgraphs on different servers. Traditional partitioning techniques work in an offline manner where the whole graph is processed before partitioning. Due to the recently increased demand for real-time analysis, online partitioning algorithms have been introduced. They are able to partition a graph arriving as a stream, also referred to as a streaming graph, without any pre-processing step.The goal of a good graph partitioning algorithm is to maintain the data locality and to balance partitions’ load at the same time. Although different algorithms have proven to achieve both goals for real-world graphs, they often require to maintain a state. However, modern stream processing systems, such as Apache Flink, work with a shared-nothing architecture in a data-parallel manner. Therefore, they do not allow to exchange information along with parallel computations. These systems usually use Hash-based partitioning, that is a fast stateless technique but ignores the graph structure. Hence, it can lead to longer analysis times for streaming applications which could benefit from preserved structures.This work aims to develop a state-sharing parallel streaming graph partitioner for Apache Flink, called WinBro, implementing well-performing partitioning algorithms. In order to do this, existing streaming graph algorithms are studied for possible implementation and then integrated into WinBro.For validation, different experiments were made with real-world graphs. In these experiments, the partitioning quality, and partitioning speed were measured. Moreover, the performance of different streaming applications using WinBro was measured and compared with the default Hash-based partitioning method.Results show that the new partitioner WinBro provides better partitioning quality in terms of data locality and also higher performance for applications with requirements for locality-based input data. Nonetheless, the Hash-based partitioner shows the highest throughput and better performance for data localityagnostic streaming applications. / De senaste åren har det skett en ökande efterfrågan på att bearbeta data av olika sorter och storlek i realtid. En vanlig representation för många scenarier är diagram som visar relationer mellan enheter, till exempel användare av sociala nätverk eller sidor på Internet. Dessa grafers storlek ökar över tiden och kan enkelt överstiga kapaciteten hos individuella maskiner.Grafpartitionering används för att dividera grafer i flera delgrafer på olika servrar. Traditionella partitioneringstekniker fungerar offline, där hela grafen bearbetas före partitionering. Baserat på den nyligen ökade efterfrågan på realtidsanalys har online-partitionsalgoritmer introducerats. De kan partitionera en graf som kommer strömmande, även kallad ett strömmande diagram, utan förbehandling.Målet med en bra grafpartitioneringsalgoritm är att behålla datalokalitet och balansera partitionernas belastning samtidigt. Även om olika algoritmer har visat möjligheten att uppnå båda målen för realvärldsgrafik, behöver de ofta behålla ett tillstånd. Moderna strömbehandlingssystem, som Apache Flink, arbetar emellertid med en gemensam-ingenting-arkitektur på ett data-parallellt sätt. Därför tillåter de inte att utbyta information under parallella beräkningar. Dessa system brukar använda Hash-baserad partitionering, vilket är en snabb tillståndslös teknik men ignorerar grafstrukturen. Därför kan det leda till längre analystider för strömmande applikationer som kan dra nytta av bevarade strukturer.Detta arbete har som mål till att utveckla en tillstånsdsdelande, parallellströmmande grafpartitionering för Apache Flink, kallad WinBro, som implementerar välpresterande partitioneringsalgoritmer. För att nå målet studeras befintliga strömmande grafalgoritmer för möjlig implementering och sedan integreras i WinBro.För validering görs olika experiment med realvärldsgrafik. I våra experiment mäter vi partitioneringskvaliteten och partitioneringshastigheten. Dessutom kvantifierar vi prestanda för olika strömmande applikationer med WinBro och jämför den med en standard Hash-baserad partitionsmetod.Resultat visar att den nya partitionern WinBro ger bättre partitioneringskvalitet när det gäller datalokalitet och även högre prestanda för applikationer med krav på lokalitetsbaserad inmatningsdata. Alternativt visar den Hashbaserade partitionen den högsta genomströmningen och bättre prestanda för datalokalitets-agnostiska strömmande applikationer.
|
37 |
SSC: Single-Shot Multiscale Counter. : Counting Generic Objects in Images / SSC: Single-Shot Multiscale Counter. : Räknageneriska objekt i bilderVavassori, Luca January 2019 (has links)
Counting object in pictures is a computer vision task that has been explored in the past years, achieving state-of-the-art results thanks to the rise of convolutional neural networks. Most of the work focused on specific and limited domains to predict the number of just one category in the likes of people, cars, cells, and animals. Little effort has been employed to investigate methods to count the instances of different classes at the same time. This thesis work explored the different approaches present in the literature to understand their strenghts and weaknesses and eventually improve the accuracy and reduce the inference time of models aimed to estimate the number of multiple elements. At first, new techniques have been applied on top of the previously proposed algorithms to lower the prediction error. Secondly, the possibility to adapt an object detector to the counting task avoiding the localization prediction has been investigated. As a result, a new model called Single-Shot Multiscale Counter has been proposed, based on the architecture of the Single-Shot Multibox Detector. It achieved a lower prediction error on the ground truth count by 11% (from an mRMSE of 0.42 to 0.35) and an inference time 16x to 20x faster compared to the models found in the literature (from 1.25s to 0.049s). / Att räkna objekt i bilder är en datorvisionsuppgift som har utforskats under de senaste åren och uppnått toppmoderna resultat tack vare ökningen av invändiga neurala nätverk. De flesta av arbetena fokuserade på specifika och begränsade domäner för att förutsäga antalet bara en kategori som människor, bilar, celler och djur. Liten ansträngning har använts för att undersöka metoder för att räkna förekomsten av olika klasser samtidigt. Detta avhandlingsarbete utforskade de olika metoder som finns i litteraturen för att förstå deras styrka och svagheter och så småningom förbättra noggrannheten och minska inferingstiden för modeller som syftar till att uppskatta antalet flera element. Först har nya tekniker tillämpats ovanpå de tidigare föreslagna algoritmerna för att sänka förutsägelsefelet. För det andra har möjligheten att anpassa en objektdetektor till räkneuppgiften för att undvika lokaliseringsförutsägelse undersökts. Som ett resultat har en ny modell som heter Single-Shot Multiscale Counter föreslagits, baserad på arkitekturen för Single-Shot Multibox Detector. Den uppnådde ett lägre förutsägelsefel på sanningsräkningen på marken med 11 % (från en mRMSE på 0,42 till 0,35) och en slutningstid 16x till 20x snabbare jämfört med modellerna som finns i litteraturen (från 1,25 till 0,049 sek).
|
38 |
Streaming Graph Partitioning with Graph Convolutional NetworksZwolak, Michal January 2020 (has links)
In this work, we present a novel approach to the streaming graph partitioning problem which handles unbounded streams.Graph partitioning is a process of dividing a graph into groups of nodes or edges. Traditional, offline partitioning methods require a priori access to the entire graph and make multiple passes over the data in order to compute partitions. However, recently the demand for real-time analysis of graph data sparked the prospect of online partitioning. In such an approach, the graph arrives as a stream of nodes or edges which are assigned to partitions as they come and are never reassigned again. Additionally, in the case of modern systems, where graphs constantly grow, the streams are unbounded. The main goals of graph partitioning are preserving data locality, so related items belong to the same partitions, and load balance, so partitions have similar sizes.State-of-the-art streaming graph partitioning algorithms fulfil the two latter requirements. However, they make their partitioning decisions based on internal state, which grows as new items arrive. Thus, they are not capable of processing unbounded streams. At some point, the state will exceed the memory capacity of the machine the algorithm is running on. Moreover, modern stream data processors run in a distributed environment. In such a setting synchronisation of a shared state is an expensive operation.In the proposed approach, in addition to structural information about the graph, we utilise attributes associated with vertices such as user’s location, age, or previous actions. In order to do that, we employ a graph convolutional network (GCN), which is a novel method of graph representation learning. A GCN can embed both structural and feature-based characteristics of each vertex into a low-dimensional space. Secondly, we feed these representations into a neural network, which assigns incoming items to partitions. Such a method requires only the networks’ parameters’ values in order to make a partitioning decision. Thus, the size of the state remains constant regardless of the length of the stream.We present both unsupervised and supervised approaches to train the proposed framework. Moreover, we describe a method to apply the models to partition the streaming graph. We evaluate the performance of our novel method on three real-world graph datasets and compare it with the state-of-the-art HDRF algorithm as well as a simple, stateless hash-based approach. The experimental results show the generalisation capabilities of our models. Moreover, our methods can yield up to 16% lower replication factor than hash partitioning which corresponds to only 1% increase compared to HDRF. At thesame time, we reduce state requirements from linear to constant, which for the graph with 230k vertices and 5.7M edges translates to 125 times smaller size of the state and allows for processing unbounded streams. Nevertheless, the latency of our methods is about 20 times higher than HDRF. / I det här arbetet presenterar vi en ny metod för grafpartitionering av obundna strömmar.Grafpartitionering är en process att dela upp en graf i grupper av noder eller kanter. Traditionella, offline-partitioneringsmetoder kräver en priori åtkomst till hela grafen och gör flera passeringar över datan för att beräkna partitioner. Nyligen gjorde dock efterfrågan på realtidsanalys av grafdata möjligheterna att partitionera online. I ett sådant tillvägagångssätt ankommer grafen som en ström av noder eller kanter som tilldelas partitioner när de kommer och aldrig tilldelas igen. Dessutom, för moderna system, där grafer ständigt växer, är strömmarna obegränsade. Huvudmålen för grafpartitionering är att bevara datalokalitet, så relaterade objekt tillhör samma partitioner och lastbalans, så partitioner har liknande storlekar.Avancerade algoritmer för strömmande grafpartitionering uppfyller de två senare kraven. De fattar emellertid sina partitionsbeslut baserade på internt tillstånd, som växer när nya artiklar kommer. Således kan de inte bearbeta obundna strömmar. Vid någon tidpunkt kommer tillståndet att överskrida minneskapaciteten för maskinen som algoritmen kör på. Dessutom körs moderna databehandlare i en distribuerad miljö. I en sådan inställning är synkronisering av ett delat tillstånd en dyr operation.I det föreslagna tillvägagångssättet använder vi, utöver strukturell information om grafen, attribut som är förknippade med hörn som användarens plats, ålder eller tidigare åtgärder. För att göra det använder vi ett grafkonvolutional nätverk (GCN), som är en ny metod för grafrepresentation. En GCN kan bädda in både strukturella och funktionsbaserade egenskaper hos varje toppunkt i ett lågdimensionellt utrymme. För det andra matar vi dessa representationer i ett neuralt nätverk, som tilldelar inkommande objekt till partitioner. En sådan metod kräver bara nätverksparametrarnas värden för att fatta ett partitionsbeslut. Således förblir tillståndets storlek konstant oavsett strömmens längd.Vi presenterar både obevakade och övervakade tillvägagångssätt för att utbilda det föreslagna ramverket. Dessutom beskriver vi en metod för att tillämpa modellerna för att partitionera strömningsgrafen. Vi utvärderar prestandan för vår nya metod på tre grafiska datauppsättningar i verkligheten och jämför den med den senaste HDRF-algoritmen samt en enkel, statslös hashbaserad strategi. De experimentella resultaten visar generaliseringsförmågan hos våra modeller. Dessutom kan våra metoder ge upp till 16% lägre replikationsfaktor än hashpartitionering, vilket motsvarar endast 1% ökning jämfört med HDRF. Samtidigt minskar vi tillståndskraven från linjär till konstant,vilket för diagrammet med 230k vertikaler och 5,7M kanter motsvarar 125 gånger mindre storlek på tillståndet. Trots det är latens för våra metoder ungefär 20 gånger högre än HDRF.
|
39 |
Disconjugacy, conjugacy and oscillation criteria for continuous and discrete linear hamiltonian systemsKumari, Sowjanya I 01 1900 (has links)
Linear hamiltonian systems
|
40 |
Nachlasserschließung im Goethe- und Schiller-ArchivBischof, Ulrike January 2005 (has links)
Beiträge zum Thema "Nachlässe an Universitäts- und Hochschularchiven
sowie Archiven wissenschaftlicher Institutionen" im Rahmen der Frühjahrstagung der Fachgruppe 8: "Archivare an Hochschularchiven und Archiven wissenschaftlicher Institutionen" am 16./17. Juni an der Universität Potsdam.
|
Page generated in 0.1299 seconds