Global ETD Search

11	IoT-NETZ: Spoong Attack Mitigation in IoT Network Mohammadnia, Hamzeh January 2019 (has links) The phenomenal growth of the Internet of Things (IoT) and popularity of the mobile stations have rapidly increased the demand of WLAN network (known as IEEE 802.11 and WiFi). WLAN is a low-cost alternative of the cellular network and being an unlicensed spectrum to build the master plan of embedding the Internet in everything -&-anywhere. At the same time, monitoring the number of IoT and WiFi-enabled devices across residential and enterprises is not trivial. Therefore, future WiFi network architecture requires an agile management paradigm to provide internal support and security for WiFi networks.The operation of IoT and mobile device applications relies on scalability and high-performance computing of clouds. Cloud computing has completely centralized the current data center networking architecture and it provides computation-intensive, high-speed network, and realtime responses to the requests of IoT. The IoT-to-cloud communication is the essence of network security concerns and it is in grievous need of constant security improvement along the inter-networking. Based on the number of researches and analysis on generated traffic by IoT, it has been observed there are the significant number of massive spoofing-oriented attacks targeting cloud services are launched from compromised IoT.On the basis of reviewing prior researches on mostly-conducted network attacks by IoT, there is a challenging and common characteristic which has been frequently utilized in the numerous massive Internet attacks, known as spoofing. This work will survey the existing proposed solutions which have been deployed to protect both traditional and softwarized network paradigms. Then, it proposes the approach of this work that enables IoT-hosting networks protected by employing Software-defined Wireless Networking (SDWN) within the proposed model to mitigate spoofing -oriented network attacks. In addition, the proposed solution provides the environmental sustainability feature by saving power consumption in networking devices during network operation. The practical improvement in the proposed model is measured and evaluated within the emulated environment of Mininet-WiFi. / Den fenomenala tillväxten av IoT och populariteten hos mobilstationerna har snabbt ökat efterfrågan på WLAN-nätverk (känd som IEEE 802.11 och WiFi). WLAN är ett billigt alternativ för mobilnätet och är ett olicensierat spektrum för att bygga huvudplanen för att bädda in Internet i allt-och-var som helst. Samtidigt är det inte trivialt att övervaka antalet IoT och WiFi-aktiverade enheter över bostäder och företag. Därför kräver framtida WiFi nätverksarkitektur ett smidigt hantering paradigm för att tillhandahålla internt stöd och säkerhet för WiFi-nätverk.Användningen av IoT och mobilanvändningsapplikationer är beroende av skalbarhet och högpresterande beräkningar av moln. Cloud computing har helt centraliserat den nuvarande datacenters nätverksarkitektur och det ger beräkningsintensiva, höghastighetsnätverk och realtidssvar påbegäran från IoT. IoT-till-moln kommunikationen är kärnan i nätverkssäkerhetshänsyn och de har ett allvarligt behov av ständig förbättring och säkerhetshärdning inom deras internätverk. Baserat på antalet undersökningar och analyser av genererad trafik av IoT har det observerats. Det finns det betydande antalet massiva spoofing-orienterade attacker som riktar sig mot molntjänster, lanseras från komprometterad IoT.På grundval av att granska tidigare undersökningar om IoTs mest genomförda nätverksattacker finns det en utmanande och gemensam egenskap som ofta utnyttjats i de många massiva internetattackerna. Detta arbete kommer att undersöka de befintliga lösningarna som har implementerats för att skydda både traditionella och mjukvariga nätverksparadigmer. Därefter föreslår det tillvägagångssättet för detta arbete som möjliggör IoT-värdnät skyddade genom att använda SDWN inom den föreslagna modellen för att mildra poofing-orienterade nätverksattacker. Dessutom erbjuder den föreslagna lösningen miljöhållbarhet genom att spara strömförbrukning i nätverksenheter under nätverksdrift. Den praktiska förbättringen av den föreslagna modellen mäts och utvärderas inom den omgivande miljön av Mininet-WiFi. Computer and Information Sciences Data- och informationsvetenskap
12	MeteorShower: geo-replicated strongly consistent NoSQL data store with low latency : Achieving sequentially consistent keyvalue store with low latency Guan, Xi January 2016 (has links) According to CAP theorem, strong consistency is usually compromised in the design of NoSQL databases. Poor performance is often observed when strong data consistency level is required, especially when a system is deployed in a geographical environment. In such an environment, servers need to communicate through cross-datacenter messages, whose latency is much higher than message within a data center. However, maintaining strong consistency usually involves extensive usage of cross-datacenter messages. Thus, the large cross-data center communication delay is one of the most dominant reasons, which leads to poor performance of most algorithms achieving strong consistency in a geographical environment. This thesis work proposes a novel data consistency algorithm – I-Write-One-Read-One based on Write-One-Read- All. The novel approach allows a read request to be responded by performing a local read. Besides, it reduces the cross-datacenter-consistency-synchronization message delay from a round trip to a single trip. Moreover, the consistency model achieved in I-Write-One-Read-One is higher than sequential consistency, however, looser than linearizability. In order to verify the correctness and effectiveness of IWrite- One-Read-One, a prototype, MeteoerShower, is implemented on Cassandra. Furthermore, in order to reduce time skews among nodes, NTP servers are deployed. Compared to Cassandra with Write-One-Read-All consistency setup, MeteoerShower has almost the same write performance but much lower read latency in a real geographical deployment. The higher cross-datacenter network delay, the more evident of the read performance improvement. Same as Cassandra, MeteorShower also has excellent horizontal scalability, where its performance grows linearly with the increasing number of nodes per data center. Computer and Information Sciences Data- och informationsvetenskap
13	A Continuous Dataflow Pipeline For Low Latency Recommendations Ge, Wu January 2016 (has links) The goal of building recommender system is to generate personalized recommendations to users. Recommender system has great value in multiple business verticals like video on demand, news, advertising and retailing. In order to recommend to each individual, large number of personal preference data need to be collected and processed. Processing big data usually takes long time. The long delays from data entered system to results being generated makes recommender systems can only benefit returning users. This project is an attempt to build a recommender system as service with low latency, to make it applicable for more scenarios. In this paper, different recommendation algorithms, distributed computing frameworks are studied and compared to identify the most suitable design. Experiment results reviled the logarithmical relationship between recommendation quality and training data size in collaborative filtering. By applying the finding, a low latency recommendation workflow is achieved by reduce training data size and create parallel computing partitions with minimal cost of prediction quality. In this project the calculation time is successfully limited in 3 seconds (instead of 25 in control value) while maintaining 90% of the prediction quality. Computer and Information Sciences Data- och informationsvetenskap
14	Fraud detection in online payments using Spark ML Amaya de la Pena, Ignacio January 2017 (has links) Frauds in online payments cause billions of dollars in losses every year. To reduce them, traditional fraud detection systems can be enhanced with the latest advances in machine learning, which usually require distributed computing frameworks to handle the big size of the available data. Previous academic work has failed to address fraud detection in real-world environments. To fill this gap, this thesis focuses on building a fraud detection classifier on Spark ML using real-world payment data. Class imbalance and non-stationarity reduced the performance of our models, so experiments to tackle those problems were performed. Our best results were achieved by applying undersampling and oversampling on the training data to reduce the class imbalance. Updating the model regularly to use the latest data also helped diminishing the negative effects of non-stationarity. A final machine learning model that leverages all our findings has been deployed at Qliro, an important online payments provider in the Nordics. This model periodically sends suspicious purchase orders for review to fraud investigators, enabling them to catch frauds that were missed before. / Bedrägerier vid online-betalningar medför stora förluster, så företag bygger bedrägeribekämpningssystem för att förhindra dem. I denna avhandling studerar vi hur maskininlärning kan tillämpas för att förbättra dessa system. Tidigare studier har misslyckats med att hantera bedrägeribekämpning med verklig data, ett problem som kräver distribuerade beräkningsramverk för att hantera den stora datamängden. För att lösa det har vi använt betalningsdata från industrin för att bygga en klassificator för bedrägeridetektering via Spark ML. Obalanserade klasser och icke-stationäritet minskade träffsäkerheten hos våra modeller, så experiment för att hantera dessa problem har utförts. Våra bästa resultat erhålls genom att kombinera undersampling och oversampling på träningsdata. Att använda bara den senaste datan och kombinera flera modeller som ej har tränats med samma data förbättrar också träffsäkerheten. En slutgiltig modell har implementerats hos Qliro, en stor leverantör av online betalningar i Norden, vilket har förbättrat deras bedrägeribekämpningssystem och hjälper utredare att upptäcka bedrägerier som tidigare missades. Computer and Information Sciences Data- och informationsvetenskap
15	Exploring consensus mediating arguments in online debates Kaas Johansen, Andreas January 2017 (has links) This work presents a first venture into the search for features that define the rhetorical strategy known as Rogerian rhetoric. Rogerian rhetoric is a conflictsolving rhetorical strategy intended to find common ground instead of polarizing debates further by presenting strong arguments and counter arguments, as is often done in debates. The goal of the thesis is to lay the groundwork, a feature exploration and an evaluation of machine learning in this domain, for others tempted to model consensus-mediating arguments. In order to evaluate different sets of features statistical testing is applied to test if the distribution of certain features differ over consensus-mediating comments compared to nonconsensus mediating comments. Machine Learning in this domain is evaluated using support vector machines and different featuresets. The results show that on this data the consensus-mediating comments do have some characteristics that differ from other comments, some of which may generalize across debates. Next, as consensus-mediating arguments proved to be rare, these comments are a minority class, and in order to classify them using machine learning techniques overfitting needs to be addressed, the results suggest that the strategy applied to deal with overfitting is highly important. Due to the bias inherent in the hand annotated dataset the results should be considered provisional, more studies using debates from more domains with either expert or crowdsourced annotations are necessary to take the research further and produce results that generalize well. / Detta arbete presenterar en första resa in i eftersökningen för egenskaper som definierar den retoriska strategin kallat Rogerian Rhetoric. Rogerian Rhetoric är en konfliktlösande retorikstrategi skapat för att hitta en gemensam grund, istället för att polarisera debatten ytterligare genom att presentera starka och motstridiga argument, som det ofta görs. Målet med denna uppsats är att skapa det underliggande jobbet, en egenskapsundersökning och en evaluering av maskininlärning i denna domän, för andra som tänker att modellera konsensusförmedlade kommentarer. For at kunna evaluera olika sätt av egenskaper används statistiska tester. För att kunna testa om bestämda egenskaper varierar i konsensusförmedlade kommentarer sammanhållit med icke-konsensus förmedlade kommentarer. Maskininlärning i denna domän är evaluerat genom användning av support vector machine och olika egenskapssätt. Resultatet visar att på det använda datasätt har de konsensusförmedlade kommentarerna några karakteristika som skiljer sig från andra kommentarer, några av dom generaliserar på tvärs av debatter. Eftersom konsensusförmedlade kommentarer är sällsynta, är dissa kommentar en minority class och för att kunna klassificera genom användande av maskininlärningstekniker måste overfitting hanteras, resultatet visar att vilken strategi som man använder till overfitting är av högsta betydning. Grundet biasen som uppstår i det manuellt-kategoriserat datasätt skal resultatet anses för att provisorisk, behöves fler studier på debatter inom andra domänen göras, äntligen med expert eller crowdsourced kategoriseringar för att ta forskningen till nästa steg och producera resultat som sen kan används brett. Computer and Information Sciences Data- och informationsvetenskap
16	Sort Merge Buckets: Optimizing Repeated Skewed Joins in Dataflow Nardelli, Andrea January 2019 (has links) The amount of data being generated and consumed by today’s systems and applications is staggering and increasing at a vertiginous rate. Many businesses and entities rely on the analysis and the insights gained from this data to deliver their service. Due to the massive scale of this data, it is not possible to process it on a single machine, requiring instead parallel processing on multiple workers through horizontal scaling. However, even simple operations become complicated in a parallel environment. One such operation are joins, used widely in order to connect data by matching on the value of a shared key. Data-intensive platforms are used in order to make it easier to perform this and other operations at scale. In 2004, MapReduce was presented, revolutionizing the field by introducing a simpler programming model and a fault-tolerant and scalable execution framework. MapReduce’s legacy went on to inspire many processing frameworks, including contemporary ones such as Dataflow, used in this work. The Dataflow programming model (2015) is a unified programming model for parallel processing of data-at-rest and data-in-motion. Despite much work going into optimizing joins in parallel processing, few tackle the problem from a data perspective rather than an engine perspective, tying solutions to the execution engine. The reference implementation of Dataflow, Apache Beam, abstracts the execution engine away, requiring solutions that are platformindependent. This work addresses the optimization of repeated joins, in which the same operation is repeated multiple times by different consumers, e.g., user-specific decryption. These joins might also be skewed, creating uneven work distribution among the workers with a negative impact on performance. The solution introduced, sort merge buckets, is tested on Cloud Dataflow, the platform that implements the eponymous model, achieving promising results compared to the baseline both in terms of compute resources and network traffic. Sort merge buckets uses fewer CPU resources after two join operations and shuffles fewer data after four, for non-skewed inputs. Skew-adjusted sort merge buckets is robust to all types and degrees of skewness tested, and is better than a single join operation in cases of extreme skew. / Mängden data som genereras av applikationer och system ökar med en acceleration som inte tidigare skådats. Trots mängden data måste företag och organisationer kunna dra rätt slutsater av sin data, även om mängden är så stor att det går att behandla på en dator. Istället behövs parallella system för att bearbeta data, men de enklaste operationerna blir lätt komplicerade i ett parallellt system. En sådan enkel operation är join, som grupperar matchande par av datarader för en gemensam nyckel. Processningsramverk har implementerat join och andra operationer för att underlätta utveckling av storskaliga parallella system. MapReduce, som är ett sådant ramverk, presenterades 2004 och var banbrytande genom att tillhandahålla en enkel modell för programmering och en robust och skalbar exekveringsmiljö. MapReduce lade grunden för fler ramverk, till exempel Dataflow som används i denna uppsats. Dataflow (2015) är en programmeringsmodell för att parallellt behandla lagrad data på hårddisk och strömmande data. Join är en kostsam operation och trots att mycket arbete läggs på att optimera join i parallell databehandling, angriper få problemet från ett dataperspektiv istället för att optimera exekveringskod. Apache Beam, referensimplementationen av Dataflow, abstraherar bort exekveringsmiljön och ger utvecklare möjligheten att skriva databehandlingskod som är oberoende av platformen där den exekveras. Denna uppsats utforskar metoder för att optimera joins som utförs på ett repeterande sätt, där operationen utförs på en datamängd, men flera gånger av olika data-pipelines. Ett exempel på en sådan operation är kryptering av användarspecifik data. Join utförs ibland på data som är skev, det vill säga där vissa join-nycklar förekommer oftare än andra, vilket ofta leder till en negativ effekt på prestanda. Sort Merge Bucket Join, en optimering av join operationen och en lösning för skeva datamängder, introduceras i denna uppsats med tillhörande implementation för Cloud Dataflow. Resultaten av denna optimering är lovande med anseende till minskad användning av resurser för processning och nätverkstrafik. Computer and Information Sciences Data- och informationsvetenskap
17	S3-HopsFS: A Scalable Cloud-native Distributed File System Stenkvist, Joel January 2019 (has links) Data has been regarded as the new oil in today’s modern world. Data is generated everywhere from how you do online shopping to where you travel. Companies rely on analyzing this data to make informed business decisions and improve their products and services. However, storing this massive amount of data can be very expensive. Current distributed file systems rely on commodity hardware to provide strongly consistent data storage for big data analytics applications, such as Hadoop and Spark. Running these storage clusters can be very costly; it is estimated that storing 100 TB in an HDFS cluster with AWS EC2 costs $47,000 per month. On the other hand, using cloud storage such as Amazon’s S3 to store 100 TB only costs about $3,000 per month however S3 is not sufficient due to eventual consistency and low performance. Therefore, combining these two solutions is optimal for a cheap, consistent, and fast file system.This thesis outlines and builds a new class of distributed file system that utilizes cloud native block storage as the data-layer, such as Amazon’s S3. AWS recently increased the bandwidth from S3 to EC2 from 5 Gbps to 25Gbps, sparking new interest in this area. The new system is built on top of HopsFS; a hierarchical, distributed file system with a scale-out metadata layer utilizing an in-memory, distributed database called NDB which dramatically increases the scalability of the file system. In combination with native cloud storage, this new file system reduces the price of deployment by up to 15 times, but at a performance cost of 25% of the original HopsFS system (four times slower). However, tests in this research shows that S3-HopsFS can be improved towards 38% of the original performance by comparing it with only using S3 by itself. In addition to the new HopsFS version, S3Guard was developed to use NDB instead of Amazon’s DynamoDB to store the file tree hierarchy metadata. S3Guard is a tool that allows big data analytics applications such as Hive to utilize S3 as a direct input and output source for queries. The eventual consistency problems of S3 have been solved and tests show a 36% performance boost when listing and deleting files and directories. S3Guard is sufficient to support some big data analytic applications like Hive, but we lose all the benefits of HopsFS like the performance, scalability, and extended metadata -therefore we need a new file system combining both solutions. / Data har ansetts vara den nya oljan i dagens moderna värld. Data kommer från överallt från hur du handlar online till var du reser. Företag är beroende på analysering av denna data för att kunna göra välgrundade affärsbeslut och förbättra sina produkter och tjänster. Det är väldigt dyrt att spara denna enorm mängd av data för analysering. Nuvarande distribuerade filsystem använder vanlig hårdvara för att kunna ge stark och konsekvent datalagring till stora dataanalysprogram, som Hadoop och Spark. Dessa lagrings kluster kan kosta väldigt mycket. Det beräknas att lagra 100 TB med ett HDFS-kluster i AWS EC2 kostar $47 000 per månad. På andra sidan kostar molnlagring med Amazons S3 bara cirka $ 3 000 per månad för 100 TB, men S3 är inte tillräckligt på grund av eventuell konsistens och låg prestanda. Därför är kombinationen av dessa två lösningar optimalt för ett billigt, konsekvent och snabbt filsystem. Forskningen i denna thesis designar och bygger en ny klass av distribue-rat filsystem som använder cloud blocklagring som datalagret, som Amazonas S3, istället för vanlig hårdvara. AWS ökade nyligen bandbredd från S3 till EC2 från 5 Gbps till 25Gbps, som gjorde ett nytt intresse i det här området. Det nya systemet är byggt på toppen av HopsFS; ett hierarkiskt, distribuerat filsystem med utökad metadata som utnyttjar av en in-memory-distribuerad databas som heter NDB som dramatiskt ökar filsystemets skalbarhet. I kombination med inbyggd molnlagring minskar detta nya filsystem priset för implementering upp till 15 gånger, men med en prestandakostnad på 25 % av det ursprungliga HopsFS-systemet (den är fyra gånger långsammare). Test i denna undersökning visar dock att S3-HopsFS kan förbättras till 38% av den ursprungliga prestandan genom att jämföra den med bara användning av S3.Förutom den nya HopsFS-versionen, utvecklades S3Guard för att använda NDB istället för Amazons DynamoDB för att spara fil systemets metadata. S3Guard är ett verktyg som tillåter stora dataanalysprogram som Hive att använda S3 istället för HDFS. De eventuella konsekvensproblemen i S3 är nu lösta och tester visar en 36% förbättring av prestanda när man listar och tar bort filer och kataloger. S3Guard är tillräckligt för att stödja flera dataanalys program som Hive, men vi förlorar alla fördelar med HopsFS som prestanda, skalbarhet och utökad metadata. Därför behöver vi ett nytt filsystem som kombinerar båda lösningarna. Computer and Information Sciences Data- och informationsvetenskap
18	Unsupervised Learning of Visual Features for Fashion Classification Dhariwal, Sumeet January 2019 (has links) Deep Learning has changed the way computer vision tasks are being solved in the current age. Deep Learning approaches have achieved state-of-the-art results in computer vision problems like image classification, image verification, object detection, and image segmentation. However, most of this success has been achieved by training deep neural networks on labelled datasets. While this way of training the neural networks results in classifiers with better accuracies, but it might not be the most efficient way to solve computer vision problems. This is so because it is a resource consuming process to manually label the images/data-points and can cost a lot of time and money to the organizations that employ deep learning for developing various products and services.Fashion and e-commerce is one such domain where there is a need to leverage the image data without relying too much on labels. This process can be beneficial to automatically label the category, attributes and other metadata of images, generally used to show the inventory digitally, without relying on humans to manually annotate them.The aim of this master thesis is to explore the effectiveness of unsupervised deep learning approaches for fashion classification so that the data can be classified by only relying on a few labelled data points. Two unsupervised approaches, one based on clustering of features called DeepCluster and the other based on rotation as a self-supervision task, are compared to a fully supervised model on DeepFashion dataset.Through empirical experiments, it has been shown that these unsupervised deep learning techniques can be used to attain comparable classification accuracies (~1-4 % lesser than that achieved by a fully supervised model) and thus making them as suitable alternatives to supervised approaches. / Deep Learning har förändrat hur datorvisionsuppgifter löses under nuvarande ålder. Deep Learning-metoder har uppnått toppmoderna resultat i datorvisionsproblem som bildklassificering, bildverifiering, objektdetektering och bildsegmentering. Emellertid har det mesta av denna framgång uppnåtts genom att träna djupa neurala nätverk på märkta dataset. Medan detta sätt att träna de neurala nätverken resulterar i klassificerare med bättre noggrannhet, men det kanske inte är det mest effektiva sättet att lösa problem med datorens syn. Det här beror på att det är en resurskrävande process för att manuellt märka bilderna / datapunkterna och kan kosta mycket tid och pengar till organisationer som använder djupt lärande för att utveckla olika produkter och tjänster.Mode och e-handel är en sådan domän där det finns behov av att utnyttja bilddata utan att förlita sig för mycket på etiketter. Denna process kan vara till nytta för att automatiskt märka kategorin, attribut och andra metadata för bilder, vanligtvis används för att visa inventeringen digitalt, utan att förlita sig på människor för att manuellt annotera dem.Syftet med denna magisteruppsats är att undersöka effektiviteten av oövervakade djupt lärande tillvägagångssätt för modeklassificering så att data kan klassificeras genom att endast förlita sig på några märkta datapunkter. Två oövervakade tillvägagångssätt, en baserad på kluster av funktioner som kallas DeepCluster och den andra baserat på rotation som självövervakningsuppgift, jämförs med en helt övervakad modell på DeepFashion dataset.Genom empiriska experiment har det visat sig att dessa oövervakade djupa inlärningstekniker kan användas för att uppnå jämförbara klassifikationsnoggrannigheter (~1-4 % mindre än det som uppnås genom en helt övervakad modell) och därigenom göra dem till lämpliga alternativ för övervakade tillvägagångssätt. Computer and Information Sciences Data- och informationsvetenskap
19	Cascaded Machine Learning for Increasing Conversion in Hospitality Recommender System Gonzalez Ferrer, Antonio Javier January 2018 (has links) Recommender systems refer to algorithms widely used in industry to determine the preferred product to propose to a customer, given some information about the customer and the context of the purchase. In this thesis, such an approach is applied to predict the desirability of hotels given information about an air travel booking. Specifically, we present a novel recommender system which optimizes the booking conversion based on a list of hotels chosen from a larger set. The proposed solution uses information such as details about the associated flight booking, characteristics of each hotel and the attributes of the list of hotels proposed. The main contribution of this thesis concerns the Hotel List Builder (HLB) which is the component of the recommender system that generates the new recommendations of hotels. This component relies on a two-stage machine learning model and the feature importance analysis of the hotel bookings. The expected conversion rate is improved from 0.049% to 0.186% on average due to the new recommendation system. This method also results in a significant improvement in the processing time when the HLB is applied with respect to a brute force solution to build an optimal list of hotel recommendations (up to 20 times faster). / Rekommendationssystem refererar till algoritmer som används i stor utsträckning inom industrin. Detta för att besluta den föredragna produkten som skall visas till en kund, med information om kunden och innehållet av köpet. I denna avhandling tillämpas ett tillvägagångssätt för att förutsäga önskemål om hotell med information om en flygreservation. Vi presenterar ett specifikt rekommendationssysten som optimerar bokningskonverteringen baserad på en lista över hotell. Dessa hotel är valda från en större upppsättning. Den föreslagna lösningen använder information såsom detaljer om tillhörande flygbokningar, egenskaper hos varje hotell och attributen i listan över föreslagda hotell. Huvudbidraget av denna avhandling handlar om Hotel List Builder (HLB). Denna är komponenten i rekomendationssystemet, vilket genererar de nya rekommendationerna av hotell. Denna komponent förlitar sig på en två-stegs maskininlärningsmodell och har viktiga analyser om hotellbokningar. Tack vare det nya rekommendationssystemet, förbättras den förväntade omvandlingskonverteringen från 0,049% till 0,186 i genomsnitt. Denna metod resulterar också i en betydande förbättring av behandlingstiden när HLB appliceras med respekt för en låg tvångslösning. Detta för att skapa en optimal lista av hotell rekommendationer (up till 20 gånger snabbare). Computer and Information Sciences Data- och informationsvetenskap
20	Towards unification of organ labeling in radiation therapy using a machine learning approach based on 3D geometries Ruffa, Giorgio January 2019 (has links) In radiation therapy, it is important to control the radiation dose absorbed by Organs at Risk (OARs). The OARs are represented as 3D volumes delineated by medical experts, typically using computed tomography images of the patient. The OARs are identified using user-provided text labels, which, due to a lack of enforcement of existing naming standards, are subject to a great level of heterogeneity. This condition negatively impacts the development of procedures that require vast amounts of standardized data, like organ segmentation algorithms and inter-institutional clinical studies. Previous work showed that supervised learning using deep-learning classifiers could be used to predict OARs labels. The input of this model was composed of 2D contours of the OARs, while the output was a standardized label. In this work, we expanded this approach by qualitatively comparing the performance of different machine learning algorithms trained on a clinical data set of anonymized prostate cancer patients from the Iridium Kankernetwerk clinic (Belgium). The data set was partitioned in a semi-automatic fashion using a divide-and-conquer-like approach and various 2D and 3D encodings of the OARs geometries were tested. Moreover, we implemented a reject class mechanism to assess if the inference probability yielded by the model could be used as a measure of confidence. The underlining goal was to restrict human intervention to rejected cases while allowing for a reliable and automatic standardization of the remaining ones. Our results show that a random forest model trained on simple 3D-based manually engineered features can achieve the twofold goal of high classification performance and reliable inferences. In contrast, 3D convolutional neural networks, while achieving similar classification results, produced wrong, but confident, predictions that could not be effectively rejected. We conclude that the random forest approach represents a promising solution for automatic OAR labels unification, and future works should investigate its applications on more diversified data sets. / En viktig faktor i strålbehandling är att kontrollera hur mycket av strålningen som absorberas av riskorgan. Med hjälp av medicinska bilder, vanligtvis från datortomografi, konturerar medicinska experter riskorgan som sedan representeras som tredimensionella volymer. Riskorganens typ anges via manuell namngivning från den medicinska experten. Detta samt bristande efterlevnad av namngivningsprotokoll, har resulterat i hög heterogenitet bland angivna organnamn. Där denna heterogenitet bromsar utvecklingen av metoder som kräver stora mängder standardiserade data, såsom organsegmenteringsalgoritmer, därutöver försvårar det studier som utförs på intraklinisk basis. Tidigare arbete inom fältet för namngivning av konturerade organ har visat att övervakad inlärning med djupinlärningsklassificerare kan användas för att automatiskt identifiera riskorgannamn. Indata till denna modell bestod av tvådimensionella riskorgankonturer och utdata bestod av standardiserade riskorgannamn. Detta arbete bygger vidare på det tidigare tillvägagångssättet genom att kvalitativt jämföra och utvärdera olika maskininlärningsalgoritmers prestanda för samma ändamål. Algoritmerna tränades på en klinisk datamängd bestående av anonymiserade prostatacancerpatienter från den belgiska kliniken Iridium Kankernetwerk. Datamängden partitionerades på ett semi-automatiserat vis med hjälp av ett tillvägagångssätt inspirerat av söndra-och-härska-tekniken och flera typer av tvåoch tredimensionell representationer av patientbilderna testades. Vidare implementerades en mekanism för att utvärdera om inferenssannolikheten från modellen kunde användas som ett tillförlitligt konfidensmått. Med bakomliggande mål att enbart behöva involvera mänsklig inblandning i de fall som bedöms som extra svåra av mekanismen och på så sätt åstadkomma en automatisk standardiseringen av resterande fall. Resultaten visar att en random forest-modell som tränats på enkla och manuellt designade variabler kan uppnå de två uppsatta målen: hög klassificeringsprestanda och pålitlig inferens. Jämförelsevis lyckades tredimensionella faltningsnätverk uppnå likvärdiga klassificeringsresultat men producerade felaktiga prediktioner som inte var möjliga att avfärda på ett effektivt sätt. Vår slutsats är att den framtagna random forest-metoden är en lovande lösning för automatisk och standardiserad namngivning av riskorgan. Framtida arbete bör utvärdera metoden på data med större variation. Computer and Information Sciences Data- och informationsvetenskap

Search results