• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 5
  • Tagged with
  • 10
  • 8
  • 7
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Blockkedjor : Teknik för bevaring av dataintegritet i industriella nätverk

Hansson, Martin, Magnusson, Olof January 2018 (has links)
I en perfekt värld hanteras all data på ett säkert och verifierbart sätt för att förhindra att information förändras, stjäls eller blockeras. Dagens infrastruktur bygger på centraliserade system som är format till ett fåtal aktörer som statliga organisationer, myndigheter och institutioner. Denna lösning är inte anpassningsbar till den digitala utvecklingen vilket har lett till att mer information sparas och hanteras online. Blockkedjan har en stor potential att decentralisera hur vi lagrar och hanterar data genom effektivitet, transparens och säkerhet. Blockkedjetekniken har en mängd appliceringsområden som finans, medicin och logistik, men kan summeras som en teknik där algoritmerna utformas för att skapa en distribuerad ledger av informationen som sparas, vilket är en teknik för att få data replikerad, synkroniserad, delad och utspridd geografiskt över ett antal platser. Avsikten med blockkedjan är att tillämpas som ett register av tidigare transaktioner på ett sådant sätt att alla inblandade noder på nätverket tillhandahålls en kopia av kedjan, varmed samtliga deltagare kan verifiera med övriga på nätverket att kedjan inte har manipulerats. Detta öppnar upp för frågorna: Hur ser landskapet ut idag? Vilka tekniker är lämpligast för just industriella system? Vad är det som krävs för att komma igång med en blockkedjeteknik i industriella nätverk? Syftet med studien är att undersöka de viktigaste teknikerna inom ämnet och föra ett resonemang kring lämplighet av olika tekniker med hänsyn till de egenskaperna som är relevanta för industriella system. Även ett experiment utförs om hur man kan använda blockkedjetekniken utifrån ett enkelt scenario taget från industrin. Sammanfattningsvis ses blockkedjan som en innovation med potential att förändra hur man distribuerar information i industriella system på ett säkert sätt. Resultatet av denna studie är en kartläggning och en demonstration som kan lägga grunden för beslut kring hur blockkedjor skulle kunna användas i framtiden. / In a perfect world, all data is handled in a secure and verifiable manner to prevent information from being changed, stolen or blocked. Today's infrastructure is based on centralized systems that are shaped to a few participants like government, authorities and institutions. This solution is not adaptable to the digital development, which has led to more information being stored and managed online. The blockchain has a great potential to decentralize how we store and manage data through efficiency, transparency and security. Blockchain technology has a variety of application areas such as finance, medicine and logistics, but can be summed up as a technology in which the algorithms are designed to create a distributed ledger of the information that is stored, which is a technique for getting the data replicated, synchronized, shared and spread geographically over a number of places. The purpose of the blockchain is to be used as a ledger of previous transactions in such a way that all involved nodes on the network are provided a copy of the chain, whereby all participants can verify with the others on the network that the chain has not been manipulated. This opens the questions: How does the landscape look like today? Which techniques are the most appropriate for industrial systems? What is required to get started with a blockchain technology in industrial networks? The purpose of the study is to investigate the most important techniques in the area and clarify the most suitable of the different techniques, taking into consideration the characteristics relevant to industrial systems. An experiment is also being conducted on how to use the blockchain technique based on a simple scenario taken from the industry. In summary, the blockchain is seen as an innovation with the potential to change how to securely distribute information in industrial systems. The result of this study is a survey and a demonstration that can lay the groundwork for decisions about how blockchains could be used in the future.
2

Smarta enheter kräver smarta användare - om riskerna med att använda mobila enheter

Sjösten, Dennis January 2012 (has links)
Användandet av internetstödjande enheter som kan användas överallt i det vardagliga livet har ökat intensivt på bara några få år. Informationsmobilitet är större idag än någonsin tidigare. Fler och fler människor har tillgång till information så nära som i hans eller hennes ficka. Detta beteende har både positiv och negativ potential. I studien undersöker vi hur en mindre grupp människor använder sina enheter och även hur oförsiktigt beteende kan sammankopplas med några av de stora potentiella skador som kan inträffa på mobila enheter. Frågan ”På vilka sätt kan oförsiktigt användande av mobila enheter påverka säkerheten kring information som finns tillgänglig via enheten?” besvaras med en jämförelse mellan litteratur och resultaten från en enkätundersökning. Det oförsiktiga användandet av mobila enheter har definitivt en påverkan på datasäkerheten, oavsett om informationen är personlig eller organisatorisk. / The use of devices with internet connectivity that can be used everywhere in everyday life has increased immensely in just a few years. Information mobility is greater today than ever before. A lot of people have access to large amounts of information in his or her pocket. This behavior has both positive and negative potentials. In this study we explore how a small group of people use their devices and also how inconsiderate behavior can be linked to some threats directed towards mobile devices. The question “In what ways can careless usage of mobile devices affect the safety regarding information accessible from the device?” is answered by comparing studied literature and the results of a survey. The careless use of mobile devices definitely has an impact on data integrity, independently of whether it is personal or organizational data.
3

Machine Learning with Reconfigurable Privacy on Resource-Limited Edge Computing Devices / Maskininlärning med Omkonfigurerbar Integritet på Resursbegränsade Edge-datorenheter

Tania, Zannatun Nayem January 2021 (has links)
Distributed computing allows effective data storage, processing and retrieval but it poses security and privacy issues. Sensors are the cornerstone of the IoT-based pipelines, since they constantly capture data until it can be analyzed at the central cloud resources. However, these sensor nodes are often constrained by limited resources. Ideally, it is desired to make all the collected data features private but due to resource limitations, it may not always be possible. Making all the features private may cause overutilization of resources, which would in turn affect the performance of the whole system. In this thesis, we design and implement a system that is capable of finding the optimal set of data features to make private, given the device’s maximum resource constraints and the desired performance or accuracy of the system. Using the generalization techniques for data anonymization, we create user-defined injective privacy encoder functions to make each feature of the dataset private. Regardless of the resource availability, some data features are defined by the user as essential features to make private. All other data features that may pose privacy threat are termed as the non-essential features. We propose Dynamic Iterative Greedy Search (DIGS), a greedy search algorithm that takes the resource consumption for each non-essential feature as input and returns the most optimal set of non-essential features that can be private given the available resources. The most optimal set contains the features which consume the least resources. We evaluate our system on a Fitbit dataset containing 17 data features, 4 of which are essential private features for a given classification application. Our results show that we can provide 9 additional private features apart from the 4 essential features of the Fitbit dataset containing 1663 records. Furthermore, we can save 26:21% memory as compared to making all the features private. We also test our method on a larger dataset generated with Generative Adversarial Network (GAN). However, the chosen edge device, Raspberry Pi, is unable to cater to the scale of the large dataset due to insufficient resources. Our evaluations using 1=8th of the GAN dataset result in 3 extra private features with up to 62:74% memory savings as compared to all private data features. Maintaining privacy not only requires additional resources, but also has consequences on the performance of the designed applications. However, we discover that privacy encoding has a positive impact on the accuracy of the classification model for our chosen classification application. / Distribuerad databehandling möjliggör effektiv datalagring, bearbetning och hämtning men det medför säkerhets- och sekretessproblem. Sensorer är hörnstenen i de IoT-baserade rörledningarna, eftersom de ständigt samlar in data tills de kan analyseras på de centrala molnresurserna. Dessa sensornoder begränsas dock ofta av begränsade resurser. Helst är det önskvärt att göra alla insamlade datafunktioner privata, men på grund av resursbegränsningar kanske det inte alltid är möjligt. Att göra alla funktioner privata kan orsaka överutnyttjande av resurser, vilket i sin tur skulle påverka prestanda för hela systemet. I denna avhandling designar och implementerar vi ett system som kan hitta den optimala uppsättningen datafunktioner för att göra privata, med tanke på begränsningar av enhetsresurserna och systemets önskade prestanda eller noggrannhet. Med hjälp av generaliseringsteknikerna för data-anonymisering skapar vi användardefinierade injicerbara sekretess-kodningsfunktioner för att göra varje funktion i datasetet privat. Oavsett resurstillgänglighet definieras vissa datafunktioner av användaren som viktiga funktioner för att göra privat. Alla andra datafunktioner som kan utgöra ett integritetshot kallas de icke-väsentliga funktionerna. Vi föreslår Dynamic Iterative Greedy Search (DIGS), en girig sökalgoritm som tar resursförbrukningen för varje icke-väsentlig funktion som inmatning och ger den mest optimala uppsättningen icke-väsentliga funktioner som kan vara privata med tanke på tillgängliga resurser. Den mest optimala uppsättningen innehåller de funktioner som förbrukar minst resurser. Vi utvärderar vårt system på en Fitbit-dataset som innehåller 17 datafunktioner, varav 4 är viktiga privata funktioner för en viss klassificeringsapplikation. Våra resultat visar att vi kan erbjuda ytterligare 9 privata funktioner förutom de 4 viktiga funktionerna i Fitbit-datasetet som innehåller 1663 poster. Dessutom kan vi spara 26; 21% minne jämfört med att göra alla funktioner privata. Vi testar också vår metod på en större dataset som genereras med Generative Adversarial Network (GAN). Den valda kantenheten, Raspberry Pi, kan dock inte tillgodose storleken på den stora datasetet på grund av otillräckliga resurser. Våra utvärderingar med 1=8th av GAN-datasetet resulterar i 3 extra privata funktioner med upp till 62; 74% minnesbesparingar jämfört med alla privata datafunktioner. Att upprätthålla integritet kräver inte bara ytterligare resurser utan har också konsekvenser för de designade applikationernas prestanda. Vi upptäcker dock att integritetskodning har en positiv inverkan på noggrannheten i klassificeringsmodellen för vår valda klassificeringsapplikation.
4

Säkerheten i webbapplikationer mot SQL- injektionsattacker : En studie av tekniker, säkerhetspåverkan och förekommande skyddslösningar

Hanna Malko, Ranim January 2023 (has links)
Web applications constitute an essential part of our daily lives, providing us access to significant online services and information. Despite their advantages, they are also vulnerable to security threats, particularly SQL injection attacks. SQL injection is a vulnerability that arises when an attacker inserts malicious SQL queries through user input parameters in a web application. This attack can have severe consequences, such as exposing sensitive information. The purpose of this study is to investigate and analyze the security of web applications against SQL injection attacks. This is achieved by examining SQL injection techniques, their impact on security and integrity, as well as the most common protective solutions. The goal of the study is to enhance and improve the security of applications and protect users from potential security risks. To achieve this, a combination of literature study and practical investigations is conducted. A literature review is performed to identify SQL injection techniques, security risks, and the most prevalent protective solutions. Subsequently, these factors are evaluated and analyzed to determine the effectiveness of the techniques using the penetration testing tool SQLmap. The results of the study indicate that the most common and effective attack techniques are Inband SQL injection and Inferential SQL injection. These techniques can have severe implications for users, businesses, and society at large, such as unauthorized access to protected data, data manipulation in databases, and the compromise of confidentiality and data integrity. To safeguard against such attacks, it is crucial to employ defensive coding practices, including the use of prepared statements with parameterized queries and input validation. However, manual implementation remains challenging. A combination of automated prevention techniques and best coding practices should be employed to ensure a reliable database protected against SQL injections, even concerning stored procedures that are difficult to prevent with existing automated prevention techniques. / Webbapplikationer utgör en viktig del av vårt dagliga liv och ger oss tillgång till betydelsefulla onlinetjänster och information. Trots deras fördelar är de också sårbara för säkerhetshot, särskilt SQL-injektionsattacker. SQL-injektion är en sårbarhet som uppstår när en angripare infogar skadliga SQL-frågor genom användarens inmatningsparametrar i en webbapplikation. Attacken medför allvarliga konsekvenser, såsom exponering av känslig information. Syftet med denna studie är att undersöka och analysera säkerheten i webbapplikationer mot SQL-injektionsattacker. Detta genomförs genom att undersöka SQL-injektionstekniker, deras påverkan på säkerhet och integritet, samt de vanligaste skyddslösningarna. Målet med studien är att öka och förbättra säkerheten hos applikationer samt skydda användarna från potentiella säkerhetsrisker. För att åstadkomma detta genomförs en kombination av litteraturstudier och praktiska undersökningar. En litteraturstudie genomförs för att identifiera SQL-injektionstekniker, säkerhetsrisker och de vanligast förekommande skyddslösningarna. Därefter utvärderas och analyseras dessa faktorer för att kunna fastställa effektiviteten hos teknikerna genom användning av penetrationstestningsverktyget SQLmap. Resultaten av studien visar att de vanligaste och mest effektiva attackteknikerna är Inband SQL-injektion och Inferential SQL-injektion. Dessa tekniker kan få allvarliga konsekvenser för användare, företag och samhället i stort, såsom åtkomst till skyddade data, manipulering av data i databasen och förlust av sekretess och dataintegritet. För att skydda mot sådana attacker är det avgörande att använda defensiva kodningsmetoder, inklusive användning av förberedda satser med parametriserade frågor och indatavalidering. Trots detta utgör manuell implementering en utmaning. En kombination av automatiserade förebyggande tekniker och bästa kod-praxis bör användas för att säkerställa en pålitlig databas som är skyddade mot SQL-injektioner, även när det gäller lagrade procedurer som är svåra att förhindra med befintliga automatiserade förebyggande tekniker.
5

Decentralized Large-Scale Natural Language Processing Using Gossip Learning / Decentraliserad Storskalig Naturlig Språkbehandling med Hjälp av Skvallerinlärning

Alkathiri, Abdul Aziz January 2020 (has links)
The field of Natural Language Processing in machine learning has seen rising popularity and use in recent years. The nature of Natural Language Processing, which deals with natural human language and computers, has led to the research and development of many algorithms that produce word embeddings. One of the most widely-used of these algorithms is Word2Vec. With the abundance of data generated by users and organizations and the complexity of machine learning and deep learning models, performing training using a single machine becomes unfeasible. The advancement in distributed machine learning offers a solution to this problem. Unfortunately, due to reasons concerning data privacy and regulations, in some real-life scenarios, the data must not leave its local machine. This limitation has lead to the development of techniques and protocols that are massively-parallel and data-private. The most popular of these protocols is federated learning. However, due to its centralized nature, it still poses some security and robustness risks. Consequently, this led to the development of massively-parallel, data private, decentralized approaches, such as gossip learning. In the gossip learning protocol, every once in a while each node in the network randomly chooses a peer for information exchange, which eliminates the need for a central node. This research intends to test the viability of gossip learning for large- scale, real-world applications. In particular, it focuses on implementation and evaluation for a Natural Language Processing application using gossip learning. The results show that application of Word2Vec in a gossip learning framework is viable and yields comparable results to its non-distributed, centralized counterpart for various scenarios, with an average loss on quality of 6.904%. / Fältet Naturlig Språkbehandling (Natural Language Processing eller NLP) i maskininlärning har sett en ökande popularitet och användning under de senaste åren. Naturen av Naturlig Språkbehandling, som bearbetar naturliga mänskliga språk och datorer, har lett till forskningen och utvecklingen av många algoritmer som producerar inbäddningar av ord. En av de mest använda av dessa algoritmer är Word2Vec. Med överflödet av data som genereras av användare och organisationer, komplexiteten av maskininlärning och djupa inlärningsmodeller, blir det omöjligt att utföra utbildning med hjälp av en enda maskin. Avancemangen inom distribuerad maskininlärning erbjuder en lösning på detta problem, men tyvärr får data av sekretesskäl och datareglering i vissa verkliga scenarier inte lämna sin lokala maskin. Denna begränsning har lett till utvecklingen av tekniker och protokoll som är massivt parallella och dataprivata. Det mest populära av dessa protokoll är federerad inlärning (federated learning), men på grund av sin centraliserade natur utgör det ändock vissa säkerhets- och robusthetsrisker. Följaktligen ledde detta till utvecklingen av massivt parallella, dataprivata och decentraliserade tillvägagångssätt, såsom skvallerinlärning (gossip learning). I skvallerinlärningsprotokollet väljer varje nod i nätverket slumpmässigt en like för informationsutbyte, vilket eliminerarbehovet av en central nod. Syftet med denna forskning är att testa livskraftighetenav skvallerinlärning i större omfattningens verkliga applikationer. I synnerhet fokuserar forskningen på implementering och utvärdering av en NLP-applikation genom användning av skvallerinlärning. Resultaten visar att tillämpningen av Word2Vec i en skvallerinlärnings ramverk är livskraftig och ger jämförbara resultat med dess icke-distribuerade, centraliserade motsvarighet för olika scenarier, med en genomsnittlig kvalitetsförlust av 6,904%.
6

Real-time forecasting of dietary habits and user health using Federated Learning with privacy guarantees

Horchidan, Sonia-Florina January 2020 (has links)
Modern health self-monitoring devices and applications, such as Fitbit and MyFitnessPal, empower users to take concrete actions and set fitness and lifestyle goals based on their recorded trends and statistics. Predicting such trends is beneficial in the road of achieving long-time targets, as the individuals can adjust their diets and habits at any point to guarantee success. The design and implementation of such a system, which also respects user privacy, is the main objective of our work.This application is modelled as a time-series forecasting problem. Given the historical data of users, we aim to predict their eating and lifestyle habits in real-time. We apply the federated learning paradigm to our use-case be- cause of the highly-distributed nature of our data and the privacy concerns of such sensitive recorded information. However, federated learning from het- erogeneous sequences of data can be challenging, as even state-of-the-art ma- chine learning techniques for time-series forecasting can encounter difficulties when learning from very irregular data sequences. Specifically, in the pro- posed healthcare scenario, the machine learning algorithms might fail to cater to users with unique dietary patterns.In this work, we implement a two-step streaming clustering mechanism and group clients that exhibit similar eating and fitness behaviours. The con- ducted experiments prove that learning federatively in this context can achieve very high prediction accuracy, as our predictions are no more than 0.025% far from the ground truth value with respect to the range of each feature. Training separate models for each group of users is shown to be beneficial, especially in terms of the training time, but it is highly dependent on the parameters used for the models and the training process. Our experiments conclude that the configuration used for the general federated model cannot be applied to the clusters of data. However, a decrease in prediction error of more than 45% can be achieved, given the parameters are optimized for each case.Lastly, this work tackles the problem of data privacy by applying state-of- the-art differential privacy techniques. Our empirical study shows that noising the gradients sent to the server is unsuitable for small datasets and cancels out the benefits obtained by prior users’ clustering. On the other hand, noising the training data achieves remarkable results, obtaining a differential privacy level corresponding to an epsilon value of 0.1 with an increase in the observed mean absolute error by a factor of only 0.21. / Moderna apparater och applikationer för självövervakning av hälsa, som Fitbit och MyFitnessPal, ger användarna möjlighet att vidta konkreta åtgärder och sätta fitness- och livsstilsmål baserat på deras dokumenterade trender och statistik. Att förutsäga sådana trender är fördelaktigt för att uppnå långtidsmål, eftersom individerna kan anpassa sina dieter och vanor när som helst för att garantera framgång.Utformningen och implementeringen av ett sådant system, som dessutom respekterar användarnas integritet, är huvudmålet för vårt arbete. Denna appli- kation är modellerad som ett tidsserieprognosproblem. Med avseende på an- vändarnas historiska data är målet att förutsäga deras matvanor och livsstilsva- nor i realtid. Vi tillämpar det federerade inlärningsparadigmet på vårt använd- ningsfall på grund av den mycket distribuerade karaktären av vår data och in- tegritetsproblemen för sådan känslig bokförd information. Federerade lärande från heterogena datasekvenser kan emellertid vara utmanande, eftersom även de modernaste maskininlärningstekniker för tidsserieprognoser kan stöta på svårigheter när de lär sig från mycket oregelbundna datasekvenser. Specifikt i det föreslagna sjukvårdsscenariot kan maskininlärningsalgoritmerna misslyc- kas med att förse användare med unika dietmönster.I detta arbete implementerar vi en tvåstegsströmmande klustermekanism och grupperar användare som uppvisar liknande ät- och fitnessbeteenden. De genomförda experimenten visar att federerade lärande i detta sammanhang kan uppnå mycket hög nogrannhet i förutsägelse, eftersom våra förutsägelser in- te är mer än 0,025% ifrån det sanna värdet med avseende på intervallet för varje funktion. Träning av separata modeller för varje grupp användare visar sig vara fördelaktigt, särskilt gällande träningstiden, men det är mycket be- roende av parametrarna som används för modellerna och träningsprocessen. Våra experiment drar slutsatsen att konfigurationen som används för den all- männa federerade modellen inte kan tillämpas på dataklusterna. Dock kan en minskning av förutsägelsefel på mer än 45% uppnås, givet att parametrarna är optimerade för varje fall.Slutligen hanteras problemet med datasekretess genom att tillämpa bästa tillgängliga differentiell integritetsteknik. Vår empiriska studie visar att adde- ra brus till gradienter som skickas till servern är olämpliga för liten data och avbryter fördelarna med tidigare användares kluster. Däremot, genom att ad- dera brus till träningsdata uppnås anmärkningsvärda resultat. En differentierad integritetsnivå motsvarande ett epsilonvärde på 0,1 med en ökning av det ob- serverade genomsnittliga absoluta felet med en faktor på endast 0,21 erhölls.
7

Agila Business Intelligence System : Kritiska framgångsfaktorer / Agile Business Intelligence Systems : Critical Success Factors

Yoo, Sam, Naef, Petter January 2014 (has links)
Agila Business Intelligence System (ABIS) är en relativt ny och komplex typ av informationssystem, som kännetecknas av förkortade utvecklingstider, genom att exempelvis införa mer självbetjäning i de analytiska systemen, för att kunna möta ett behov av att analysera omvärldsfaktorer, som förändras i en allt snabbare takt. Eftersom ABIS är ett nytt och relativt outforskat område, finns ett behov av att utforska detta område. IT-investeringar är alltför ofta olönsamma och finns ett intresse av att visa på vad som bidrar till ett framgångsrikt införande av ett ABIS och på vilket sätt. Syftet med denna fallstudie var att identifiera högt rankade och gemensamma faktorer baserat på de kritiska framgångsfaktorer som belagts av tidigare forskning inom ABIS, beskriva hur dessa bidragit till ett framgångsrikt införande samt utröna skillnader och/eller likheter mellan hur dessa faktorer verkar ur kund- respektive leverantörsperspektiv. Som underlag för denna studie användes framför allt tidigare forskning kring kritiska framgångsfaktorer för Business Intelligence System. Speciellt en modell som utvecklades 2010 av Yeoh och Koronios användes som utgångspunkt för att lista de potentiella faktorer, som skulle beaktas av denna studie. Denna undersökning genomfördes som en fallstudie med hjälp av ett företag, som både levererar konsulttjänster och ABIS. En Delphipanel användes för att sortera fram framgångsfaktorer, som sedan studerades närmare genom semistrukturerade intervjuer för hur dessa kritiska framgångsfaktorer bidragit till ett framgångsrikt införande av ABIS från dels ett kundperspektiv, dels ett leverantörsperspektiv. De två faktorer som rankades högt och samtidigt delades av samtliga respondenter var: affärsvision och planer datakvalitet och dataintegritet Kundperspektivet var det styrande och leverantörens roll var ordentligt förstå kundens perspektiv, för att på så sätt framgångsrikt införa ABIS. Affärsvision och planer var av betydelse för att koppla införande till kundens målsättningar. Datakvalitet och dataintegritet var den mest betydelsefull faktorn utifrån den resursfördelningen skedde inom ett införandeprojekt för ABIS. / An Agile Business Intelligence System (ABIS) is a relatively new and complex type of information system, which is characterized by shortened development times, for by example introducing more self-service in the analytical systems, in order to meet the need to analyze the business environment, which is changing at an even faster pace. As the ABIS is a new and relatively uncharted area there is a need to explore this area. IT investments are too often unprofitable and there is an interest to show what contributes to a successful implementation of an ABIS and in which manner. The purpose of this case study was to identify highly ranked and common critical success factors based on the critical success factors faced by previous research in ABIS, describe how these contributed to a successful introduction of the system and examining differences and / or similarities between how these factors act from customer and supplier perspective. Earlier research on critical success factors for business intelligence systems was used as a basis for this study. Especially the model developed in 2010 by Yeoh and Koronios was used as a starting point to list potential factors to be considered by this study. This study was conducted as a case study with the help of a company that delivers both consulting services and ABIS. A Delphi panel was used to shortlist two success factors, which were then studied in more detail in semi-structured interviews to describe how these contributed to the successful introduction of ABIS from both a client as well as a supplier perspective. The two factors that both ranked high and were common for all respondents were: Clear vision and well-established business case Data quality and data integrity The leading perspective was the customer and the supplier role was to properly understand the customer perspective in order to successfully introduce ABIS. The vision and business case were important to link the introduction ABIS to client objectives. Data quality and data integrity was the most significant factor on the basis of the resource allocation of implementation projects for ABIS.
8

Federated Learning for Natural Language Processing using Transformers / Evaluering av Federerad Inlärning tillämpad på Transformers för klassificering av analytikerrapporter

Kjellberg, Gustav January 2022 (has links)
The use of Machine Learning (ML) in business has increased significantly over the past years. Creating high quality and robust models requires a lot of data, which is at times infeasible to obtain. As more people are becoming concerned about their data being misused, data privacy is increasingly strengthened. In 2018, the General Data Protection Regulation (GDPR), was announced within the EU. Models that use either sensitive or personal data to train need to obtain that data in accordance with the regulatory rules, such as GDPR. One other data related issue is that enterprises who wish to collaborate on model building face problems when it requires them to share their private corporate data [36, 38]. In this thesis we will investigate how one might overcome the issue of directly accessing private data when training ML models by employing Federated Learning (FL) [38]. The concept of FL is to allow several silos, i.e. separate parties, to train models with the same objective, using their local data and then with the learned model parameters create a central model. The objective of the central model is to obtain the information learned by the separate models, without ever accessing the raw data itself. This is achieved by averaging the separate models’ weights into the central model. FL thus facilitates opportunities to train a model on large amounts of data from several sources, without the need of having access to the data itself. If one can create a model with this methodology, that is not significantly worse than a model trained on the raw data, then positive effects such as strengthened data privacy, cross-enterprise collaboration and more could be attainable. In this work we have used a financial data set consisting of 25242 equity research reports, provided by Skandinaviska Enskilda Banken (SEB). Each report has a recommendation label, either Buy, Sell or Hold, making this a multi-class classification problem. To evaluate the feasibility of FL we fine-tune the pre-trained Transformer model AlbertForSequenceClassification [37] on the classification task. We create one baseline model using the entire data set and an FL model with different experimental settings, for which the data is distributed both uniformly and non-uniformly. The baseline model is used to benchmark the FL model. Our results indicate that the best FL setting only suffers a small reduction in performance. The baseline model achieves an accuracy of 83.5% compared to 82.8% for the best FL model setting. Further, we find that with an increased number of clients, the performance is worsened. We also found that our FL model was not sensitive to non-uniform data distributions. All in all, we show that FL results in slightly worse generalisation compared to the baseline model, while strongly improving on data privacy, as the central model never accesses the clients’ data. / Företags nyttjande av maskininlärning har de senaste åren ökat signifikant och för att kunna skapa högkvalitativa modeller krävs stora mängder data, vilket kan vara svårt att insamla. Parallellt med detta så ökar också den allmänna förståelsen för hur användandet av data missbrukas, vilket har lätt till ett ökat behov av starkare datasäkerhet. 2018 så trädde General Data Protection Regulation (GDPR) i kraft inom EU, vilken bland annat ställer krav på hur företag skall hantera persondata. Företag med maskininlärningsmodeller som på något sätt använder känslig eller personlig data behöver således ha fått tillgång till denna data i enlighet med de rådande lagar och regler som omfattar datahanteringen. Ytterligare ett datarelaterat problem är då företag önskar att skapa gemensamma maskininlärningsmodeller som skulle kräva att de delar deras bolagsdata [36, 38]. Denna uppsats kommer att undersöka hur Federerad Inlärning [38] kan användas för att skapa maskinlärningsmodeller som överkommer dessa datasäkerhetsrelaterade problem. Federerad Inlärning är en metod för att på ett decentraliserat vis träna maskininlärningsmodeller. Detta omfattar att låta flera aktörer träna en modell var. Varje enskild aktör tränar respektive modell på deras isolerade data och delar sedan endast modellens parametrar till en central modell. På detta vis kan varje enskild modell bidra till den gemensamma modellen utan att den gemensamma modellen någonsin haft tillgång till den faktiska datan. Givet att en modell, skapad med Federerad Inlärning kan uppnå liknande resultat som en modell tränad på rådata, så finns många positiva fördelar så som ökad datasäkerhet och ökade samarbeten mellan företag. Under arbetet har ett dataset, bestående av 25242 finansiella rapporter tillgängliggjort av Skandinaviska Ensilda Banken (SEB) använts. Varje enskild rapport innefattar en rekommendation, antingen Köp, Sälj eller Håll, vilket innebär att vi utför muliklass-klassificering. Med datan tränas den förtränade Transformermodellen AlbertForSequence- Classification [37] på att klassificera rapporterna. En Baseline-modell, vilken har tränats på all rådata och flera Federerade modellkonfigurationer skapades, där bland annat varierande fördelningen av data mellan aktörer från att vara jämnt fördelat till vara ojämnt fördelad. Resultaten visar att den bästa Federerade modellkonfigurationen endast presterar något sämre än Baseline-modellen. Baselinemodellen uppnådde en klassificeringssäkerhet på 83.5% medan den bästa Federerade modellen uppnådde 82.8%. Resultaten visar också att den Federerade modellen inte var känslig mot att variera fördelningen av datamängd mellan aktorerna, samt att med ett ökat antal aktörer så minskar klassificeringssäkerheten. Sammanfattningsvis så visar vi att Federerad Inlärning uppnår nästan lika goda resultat som Baseline-modellen, samtidigt så bidrar metoden till avsevärt bättre datasäkerhet då den centrala modellen aldrig har tillgång till rådata.
9

Riskhantering för molnbaserade affärssystem i stora organisationer : En studie om hur stora organisationer hanterar säkerhetsrisker som kan uppstå vid nyttjandet av molnbaserade affärssystem

Zogaj, Drilon January 2020 (has links)
Framväxten av molntjänster är en trend som påverkar organisationer i allt större utsträckning vilket anses vara framtiden inom informationsteknik. Idag migrerar stora organisationer i allt större grad sina affärskritiska affärssystem till molnet, trots att det är en av de mest riskabla, kostsamma och tidskrävande IT-investering som en organisation någonsin kan göra. Molnbaserade affärssystem kan medföra fördelar men också säkerhetsrisker som exempelvis att lagra organisationens data hos tredjeparts-leverantörer. Säkerhetsrisker kan inte elimineras, utan de behöver hanteras och reduceras. Denna studie har undersökt hur stora organisationer hanterar säkerhetsrisker som kan uppstå vid nyttjandet av molnbaserade affärssystem. Studien har identifierat tre tillvägagångssätt att hantera säkerhetsrisker på. Det första tillvägagångssättet att hantera säkerhetsrisker är genom formella avtal med molntjänst leverantören. Det andra tillvägagångsättet att hantera säkerhetsrisker på är genom interna processer som exempelvis datakryptering. Det tredje tillvägagångsättet är att medvetandegöra och utbilda användare i verksamheten. / The emergence of cloud services is a trend that is increasingly effecting organizations which is considered the future of information technology. Today, large organizations are increasingly migrating their business-critical ERP-system to the cloud, despite being the one of the most risky, costly and time-consuming IT-investment that an organization can ever make. CloudbasedERP-system can bring several benefits, but also several security risks, such as storing organizational data with third-party suppliers. Security risks cannot be eliminated, but they need to be managed and reduced. This study has examined how big customer organizations handle security risks that may arise when using cloud-based ERP-systems. The study has identified three approaches to managing security risks. The first approach is to manage security risks through formal agreements with the cloud provider. The second approach to managing security risks is through internal processes such as data encryption. The third approach is to raise awareness and educate users in the organization.
10

Measuring the Utility of Synthetic Data : An Empirical Evaluation of Population Fidelity Measures as Indicators of Synthetic Data Utility in Classification Tasks / Mätning av Användbarheten hos Syntetiska Data : En Empirisk Utvärdering av Population Fidelity mätvärden som Indikatorer på Syntetiska Datas Användbarhet i Klassifikationsuppgifter

Florean, Alexander January 2024 (has links)
In the era of data-driven decision-making and innovation, synthetic data serves as a promising tool that bridges the need for vast datasets in machine learning (ML) and the imperative necessity of data privacy. By simulating real-world data while preserving privacy, synthetic data generators have become more prevalent instruments in AI and ML development. A key challenge with synthetic data lies in accurately estimating its utility. For such purpose, Population Fidelity (PF) measures have shown to be good candidates, a category of metrics that evaluates how well the synthetic data mimics the general distribution of the original data. With this setting, we aim to answer: "How well are different population fidelity measures able to indicate the utility of synthetic data for machine learning based classification models?" We designed a reusable six-step experiment framework to examine the correlation between nine PF measures and the performance of four ML for training classification models over five datasets. The six-step approach includes data preparation, training, testing on original and synthetic datasets, and PF measures computation. The study reveals non-linear relationships between the PF measures and synthetic data utility. The general analysis, meaning the monotonic relationship between the PF measure and performance over all models, yielded at most moderate correlations, where the Cluster measure showed the strongest correlation. In the more granular model-specific analysis, Random Forest showed strong correlations with three PF measures. The findings show that no PF measure shows a consistently high correlation over all models to be considered a universal estimator for model performance.This highlights the importance of context-aware application of PF measures and sets the stage for future research to expand the scope, including support for a wider range of types of data and integrating privacy evaluations in synthetic data assessment. Ultimately, this study contributes to the effective and reliable use of synthetic data, particularly in sensitive fields where data quality is vital. / I eran av datadriven beslutsfattning och innovation, fungerar syntetiska data som ett lovande verktyg som bryggar behovet av omfattande dataset inom maskininlärning (ML) och nödvändigheten för dataintegritet. Genom att simulera verklig data samtidigt som man bevarar integriteten, har generatorer av syntetiska data blivit allt vanligare verktyg inom AI och ML-utveckling. En viktig utmaning med syntetiska data är att noggrant uppskatta dess användbarhet. För detta ändamål har mått under kategorin Populations Fidelity (PF) visat sig vara goda kandidater, det är mätvärden som utvärderar hur väl syntetiska datan efterliknar den generella distributionen av den ursprungliga datan. Med detta i åtanke strävar vi att svara på följande: Hur väl kan olika population fidelity mätvärden indikera användbarheten av syntetisk data för maskininlärnings baserade klassifikationsmodeller? För att besvara frågan har vi designat ett återanvändbart sex-stegs experiment ramverk, för att undersöka korrelationen mellan nio PF-mått och prestandan hos fyra ML klassificeringsmodeller, på fem dataset. Sex-stegs strategin inkluderar datatillredning, träning, testning på både ursprungliga och syntetiska dataset samt beräkning av PF-mått. Studien avslöjar förekommandet av icke-linjära relationer mellan PF-måtten och användbarheten av syntetiska data. Den generella analysen, det vill säga den monotona relationen mellan PF-måttet och prestanda över alla modeller, visade som mest medelmåttiga korrelationer, där Cluster-måttet visade den starkaste korrelationen. I den mer detaljerade, modell-specifika analysen visade Random Forest starka korrelationer med tre PF-mått. Resultaten visar att inget PF-mått visar konsekvent hög korrelation över alla modeller för att betraktas som en universell indikator för modellprestanda. Detta understryker vikten av kontextmedveten tillämpning av PF-mått och banar väg för framtida forskning för att utöka omfånget, inklusive stöd för ett bredare utbud för data av olika typer och integrering av integritetsutvärderingar i bedömningen av syntetiska data. Därav, så bidrar denna studie till effektiv och tillförlitlig användning av syntetiska data, särskilt inom känsliga områden där datakvalitet är avgörande.

Page generated in 0.1028 seconds