• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 15
  • 13
  • Tagged with
  • 28
  • 22
  • 17
  • 12
  • 10
  • 8
  • 7
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Finding time-based listening habits in users music listening history to lower entropy in data / Hitta tidsbaserade musiklyssningsvanor i användares lyssningshistorik för att sänka entropi i data

Magnusson, John January 2021 (has links)
In a world where information, entertainment and e-commerce are growing rapidly in terms of volume and options, it can be challenging for individuals to find what they want. Search engines and recommendation systems have emerged as solutions, guiding the users. A typical example of this is Spotify, a music streaming company that utilises users listening data and other derived metrics to provide personalised music recommendation. Spotify has a hypothesis that external factors affect users listening preferences and that some of these external factors routinely affect the users, such as workout routines and commuting to work. This work aims to find time- based listening habits in users’ music listening history to decrease the entropy in the data, resulting in a better understanding of the users. While this work primarily targets listening habits, the method can, in theory, be applied on any time series-based dataset. Listening histories were split into hour vectors, vectors where each element represents the distribution of a label/genre played during an hour. The hour vectors allowed for a good representation of the data independent of the volume. In addition, it allowed for clustering, making it possible to find hours where similar music was played. Hour slots that routinely appeared in the same cluster became a profile, highlighting a habit. In the final implementation, a user is represented by a profile vector allowing different profiles each hour of a week. Several users were profiled with the proposed approach and evaluated in terms of decrease in Shannon entropy when profiled compared to when not profiled. On average, user entropy dropped by 9% with highs in the 50% and a small portion of users not experiencing any decrease. In addition, the profiling was evaluated by measuring cosine similarity across users listening history, resulting in a correlation between gain in cosine similarity and decrease in entropy. In conclusion, users become more predictable and interpretable when profiled. This knowledge can be used to understand users better or as a feature for recommender systems and other analysis. / I en värld där information, underhållning och e-handel har vuxit kraftig i form av volym och alternativ, har individer fått det svårare att hitta det som de vill ha. Sökmotorer och rekommendationssystem har vuxit fram som lösningar till detta problem och hjälpt individer att hitta rätt. Ett typexempel på detta är Spotify, en musikströmningstjänst som använder sig av användares lyssningsdata för att rekommendera musik och annan personalisering. Spotify har en hypotes att externa faktorer påverkar användares lyssningspreferenser, samt att vissa av dessa faktorer påverkar användaren rutinmässigt som till exempel träningsrutiner och pendlade till jobbet. Målet med detta arbete är att hitta tidsbaserade lyssningsvanor i användares musiklyssningshistorik för att sänka Shannon entropin i data, resulterande i en bättre förståelse av användarna. Arbetet är primärt gjort för att hitta lyssningsvanor, men metoden kan i teorin appliceras på valfri godtycklig tidsserie dataset. Lyssningshistoriken delades in i timvektorer, radvektorer med längden x där varje element representerar fördelningen av en etikett/ genre som spelas under en timme. Timvektorerna skapade möjligheten till att använda klusteranalys som användes för att hitta timmar där liknande musik spelats. Timvektorer som rutinmässigt hamnade i samma kluster blev profiler, som användes för att markera vanor. I den slutgiltiga produkten representeras en användare av en profilvektor som tillåter en användare att ha en profil för varje timme i veckan. Ett flertal användare blev profilerade med den föreslagna metoden och utvärderade i form av sänkning i entropi när de blev profilerade gentemot när de inte blev profilerade. I genomsnitt sänktes användarnas entropi med 9%, med några över användare 50%, samt ett fåtal som inte fick någon sänknings alls. Profilering blev även utvärderad genom att mäta cosinuslikhet över en användares lyssningshistorik. Detta resulterade i en korrelation mellan ökning i cosinuslikhet och sänkning i entropi vid användandet av profilering. Slutsatsen som kan dras är att användare blir mera förutsägbara och tolkbara när de har blivit profilerade. Denna kunskap kan användas till att förstå användare bättre eller användas som en del av ett rekommendationssystem eller annan analys.
12

Det allmänna TDM-undantaget : En analys av 15 a § URL

Tidhult, Ludvig January 2024 (has links)
No description available.
13

Endometriosis and Its Correlation with Lifestyle Factors and Health Indicators : A Data Mining Approach Using R and Python / Endometrios och dess samband med livsstilsfaktorer och hälsoindikatorer : En datautvinningsmetod med R och Python

Stylbäck, Jonas, Villför, Ella January 2023 (has links)
Around 10% of women in fertile age have endometriosis, despite this there is little known about its origin. It can take years from the first experienced symptoms to an established diagnosis, which is done using invasive methods. A database from the Lucy application containing 11720 questionnaires with up to 41 questions each was examined for signs of associations between lifestyle factors and health indicators with endometriosis. The database was restructured and unusable questionnaires were pruned, leaving 5719 questionnaires for analysis. Questionnaires were assigned a label depending on whether the respondent had an endometriosis diagnosis, some other diagnosis or no diagnosis. Histograms were created for 36 questions to visualize answer distributions among the labels while wordclouds were created for 3 questions to determine commonly used words. Pearson’s chi-square test was performed on 24 questions to determine whether there were statistically significant differences in how respondents answered with regards to their diagnosis. Then, 26 questions were divided between seven question groups based on their similarities. The relative prevalence of endometriosis for every answer alternative was determined and compared withthe average for that group. This was then followed up by a multi-correspondence analysis for every question group. It was found that there are associations between endometriosis and 12 health indicators. These being: affected by infertility, always being tired, regarding own health as bad, having more than 100 birthmarks, severe chronic pelvic pain, dysmenorrhea, regularly whole-body pain, muscle stiffness, neck and shoulder tension, forgetfulness, concentration difficulties, regularly experiencing that stress worsens physical symptoms. No statistically significant association between lifestyle factors and endometriosis could be found in the survey database. There were findings of socioeconomic differences between respondents with endometriosis and those without a diagnosis which may have affected the result. / Runt 10% av kvinnor i fertil ålder har endometrios, trots detta är lite känt om dess ursprung. Det kan gå flera år från första upplevda symptom till en etablerad diagnos, som kräver invasiva metoder. En databas från Lucy applikationen med 11 720 enkäter upp till 41 frågor vardera undersöktes efter tecken på kopplingar mellan livsstilsfaktorer och hälsoindikatorer med endometrios. Som ett första steg omstrukturerades databasen och oanvändbara enkäter sållades bort, vilket lämnar 5719 enkäter för analys. Enkäterna blev tilldelad en etikett baserad på huruvida respondenten hade en endometriosdiagnos, någon annan diagnos eller ingen diagnos. Histogram skapades för 36 frågor för att visualisera svarsfördelningen mellan etiketter medan ordmoln skapades för 3 frågor för att bestämma vanligt förekommande ord. Pearsons chi-kvadrattest utfördes på 24 frågor för att bestämma huruvida det fanns signifikanta statistiska skillnader i hur respondenter svarade med avseende på deras diagnos. 26 frågor blev uppdelade i 7 olika grupper baserade på deras liknelser och den relativa utbredningen av endometrios bestämdes för varje grupp och jämfördes med snittet i varje grupp. Slutligen följdes detta upp med multikorrespondensanalys för varje grupp av frågor. Det hittades associationer mellan endometrios och 12 hälsofaktorer. Dessa var: infertilitet, alltid vara trött, betrakta sin egna hälsa som dålig, ha fler än 100 födelsemärken, uppleva allvarlig kronisk bäckensmärta, dysmenorré, regelbunden helkroppssmärta, muskelstelhet, spändhet i nacke och axlar, glömskhet, koncentrationssvårigheter, regelbundet uppleva att stress förvärrar fysiska symptom. Ingen statistisk signifikant association kunde hittas mellan livsstilsfaktorer och endometrios från undersökningsdatabasen. Det hittades socioekonomiska skillnader mellan respondenter med endometrios och de utan diagnos vilket kan ha påverkat resultatet. / FEMaLe
14

Kognitiva tjänster på en myndighet : Förstudie om hur Lantmäteriet kan tillämpa IBM Watson

Åström, Gustav January 2017 (has links)
Many milestones have been passed in computer science and currently we are on our way to pass yet another: artificial intelligence. One of the characteristics of AI is to be able to interpret so-called unstructured data, i.e., data that lacks structure. Unstructured data can be useful and with the new tools within AI is it possible to interpret it and use it to solve problems. This has the potential to be useful in practical applications such as processing and decision support. The work has been done at Apendo AB, which has the Swedish National Land Survey as a customer. The work is to investigate how AI-driven cognitive services through IBM Watson can be applied to the Swedish National Land Survey. The goal is to answer the following questions: Is it possible to apply cognitive services through Watson's services to give decision support to the Swedish National Land Survey already? In what ways can you use Watson's services to create a decision support? How effective can the solution for the Swedish National Land Survey be, i.e. how much time and costs can they save by using Watson's services on the chosen concept? As a practical part of the AI study, a perceptron was developed and evaluated. Through an agile approach, tests and studies about IBM Watson have taken place in parallel with interviews with employees at the Swedish National Land Survey. The tests were performed in the PaaS service IBM Bluemix with both Node-RED and an own built web application. Though the interviews, the Watson service Retrieve and Rank became interesting and examined more closely. With Retrieve and Rank you can get questions answered by ranking selected corpus pieces that are then trained for better answers. Uploading the corpus with related questions resulted in that 75% of the questions was answered correctly. Applications for the Swedish National Land Survey can then be a cognitive search function that helps administrators to search information in manuals and the law book. / Många milstolpar har passerats inom datavetenskapen och just nu håller vi på att passera en till: artificiell intelligens. En av de egenskaper som kännetecknar AI är att kunna tolka s.k. ostrukturerad data, alltså sådan data som saknar struktur. Ostrukturerad data vara användbar och med de nya verktygen inom AI är det möjligt att tolka för sedan använda det till att lösa problem. Detta har potential att vara användbart inom praktiska applikationer såsom handläggning och beslutsstöd. Arbetet har skett på företaget Apendo AB som har Lantmäteriet som kund. Arbetet går ut på att undersöka hur AI-drivna kognitiva tjänster genom IBM Watson kan tillämpas på Lantmäteriet. Målet är att besvara följande frågor: Är det möjligt att tillämpa kognitiva tjänster genom Watsons tjänster för att ge beslutsstöd åt Lantmäteriet redan i dagsläget? På vilka sätt kan man använda Watsons tjänster för att skapa ett beslutsstöd? Hur effektiv kan lösningen för Lantmäteriet bli, d.v.s. hur mycket tid och kostnader kan de tänkas spara genom att använda Watsons tjänster på valt koncept? Som praktisk del av studien om AI utvecklades och utvärderades en perceptron. Genom ett agilt förhållningssätt har tester och studier om IBM Watson skett parallellt med intervjuer med anställda på Lantmäteriet. Testerna utfördes i PaaS-tjänsten IBM Bluemix med både Node- RED och egenbyggd webbapplikation. Av intervjuerna blev Watson-tjänsten Retrieve and Rank intressant och undersöktes noggrannare. Med Retrieve and Rank kan man få frågor besvarade genom rankning av stycken av valt korpus som sedan tränas upp för bättre svar. Uppladdning av korpus med tillhörade frågor gav att 75 % av frågorna besvarades korrekt. Tillämpningarna Lantmäteriet kan då vara en kognitiv uppträningsbar sökfunktion som hjälper handläggare att söka information i handböcker och lagboken.
15

Hierarkisk klustring av klickströmmar : En metodik för identifiering av användargrupper

Schorn, Björn January 2022 (has links)
Nasdaq utvecklar och tillhandahåller mjukvarulösningar för clearinghus. Det finns ett intresse för att utveckla en fördjupad förståelse för hur funktionaliteten av produkten används. En möjlighet för detta är att använda sig av hierarkisk klustring av klickströmmar från webbgränssnittet. Denna rapport utvecklar ett tillvägagångsätt för en sådan klustring och tillämpar den på ett redan befintligt dataset av klickströmsloggar. Att använda sig av ett euklidiskt avståndsmått kan fungera för enklare klustringar så som gruppering av produktsidor. För en djupare analys av användarbeteendet genom en klustring av sessioner ger dock Damerau-Levenshtein bättre resultat då det även tar hänsyn till i vilken ordningsföljd sidvisningarna för respektive session sker. / Nasdaq develops and provides software solutions for clearing houses. There is an interest in developing an in-depth understanding of how the functionality of this product is used. One possibility for this is to use hierarchical clustering of click streams from the web interface. This report develops a methodology for such clustering and applies it to an already existing dataset of clickstream logs. Using a Euclidean distance measure can work for simpler clusters such as grouping product pages. For a deeper analysis of user behavior through a clustering of sessions, however, Damerau–Levenshtein gives better results as it also takes into account the order of the pages visited within the sessions.
16

A Benchmark of Prevalent Feature Selection Algorithms on a Diverse Set of Classification Problems

Anette, Kniberg, Nokto, David January 2018 (has links)
Feature selection is the process of automatically selecting important features from data. It is an essential part of machine learning, artificial intelligence, data mining, and modelling in general. There are many feature selection algorithms available and the appropriate choice can be difficult. The aim of this thesis was to compare feature selection algorithms in order to provide an experimental basis for which algorithm to choose. The first phase involved assessing which algorithms are most common in the scientific community, through a systematic literature study in the two largest reference databases: Scopus and Web of Science. The second phase involved constructing and implementing a benchmark pipeline to compare 31 algorithms’ performance on 50 data sets.The selected features were used to construct classification models and their predictive performances were compared, as well as the runtime of the selection process. The results show a small overall superiority of embedded type algorithms, especially types that involve Decision Trees. However, there is no algorithm that is significantly superior in every case. The pipeline and data from the experiments can be used by practitioners in determining which algorithms to apply to their respective problems. / Variabelselektion är en process där relevanta variabler automatiskt selekteras i data. Det är en essentiell del av maskininlärning, artificiell intelligens, datautvinning och modellering i allmänhet. Den stora mängden variabelselektionsalgoritmer kan göra det svårt att avgöra vilken algoritm som ska användas. Målet med detta examensarbete är att jämföra variabelselektionsalgoritmer för att ge en experimentell bas för valet av algoritm. I första fasen avgjordes vilka algoritmer som är mest förekommande i vetenskapen, via en systematisk litteraturstudie i de två största referensdatabaserna: Scopus och Web of Science. Den andra fasen bestod av att konstruera och implementera en experimentell mjukvara för att jämföra algoritmernas prestanda på 50 data set. De valda variablerna användes för att konstruera klassificeringsmodeller vars prediktiva prestanda, samt selektionsprocessens körningstid, jämfördes. Resultatet visar att inbäddade algoritmer i viss grad är överlägsna, framför allt typer som bygger på beslutsträd. Det finns dock ingen algoritm som är signifikant överlägsen i varje sammanhang. Programmet och datan från experimenten kan användas av utövare för att avgöra vilken algoritm som bör appliceras på deras respektive problem.
17

PRAAG Algorithm in Anomaly Detection

Zhang, Dongyang January 2016 (has links)
Anomaly detection has been one of the most important applications of datamining, widely applied in industries like financial, medical,telecommunication, even manufacturing. In many scenarios, data are in theform of streaming in a large amount, so it is preferred to analyze the datawithout storing all of them. In other words, the key is to improve the spaceefficiency of algorithms, for example, by extracting the statistical summary ofthe data. In this thesis, we study the PRAAG algorithm, a collective anomalydetection algorithm based on quantile feature of the data, so the spaceefficiency essentially depends on that of quantile algorithm.Firstly, the master thesis investigates quantile summary algorithms thatprovides quantile information of a dataset without storing all the data point.Then, we implement the selected algorithms and run experiments to test theperformance. Finally, the report focuses on experimenting on PRAAG tounderstand how the parameters affect the performance and compare it withother anomaly detection algorithms.In conclusion, GK algorithm provides a more space efficient way to estimatequantiles than simply storing all data points. Also, PRAAG is effective in termsof True Prediction Rate (TPR) and False Prediction Rate (FPR), comparingwith a baseline algorithm CUSUM. In addition, there are many possibleimprovements to be investigated, such as parallelizing the algorithm. / Att upptäcka avvikelser har varit en av de viktigaste tillämpningarna avdatautvinning (data mining). Det används stor utsträckning i branscher somfinans, medicin, telekommunikation, och även tillverkning. I många fallströmmas stora mängder data och då är det mest effektivt att analysera utanatt lagra data. Med andra ord är nyckeln att förbättra algoritmernasutrymmeseffektivitet till exempel genom att extraheraden statistiskasammanfattning avdatat. PRAAGär en kollektiv algoritm för att upptäckaavvikelser. Den ärbaserad på kvantilenegenskapernai datat, såutrymmeseffektiviteten beror i huvudsak på egenskapernahoskvantilalgoritmen.Examensarbetet undersöker kvantilsammanfattande algoritmer som gerkvantilinformationen av ett dataset utan att spara alla datapunkter. Vikommer fram till att GKalgoritmenuppfyllervåra krav. Sedan implementerarvialgoritmerna och genomför experiment för att testa prestandan. Slutligenfokuserar rapporten påexperiment på PRAAG för att förstå hur parametrarnapåverkar prestandan. Vi jämför även mot andra algoritmer för att upptäckaavvikelser.Sammanfattningsvis ger GK ett mer utrymmeseffektiv sätt att uppskattakvantiler än att lagra alla datapunkter. Dessutom är PRAAG, jämfört med enstandardalgoritm (CUSUM), effektiv när det gäller True Prediction Rate (TPR)och False Prediction Rate (FPR). Det finns fortfarande flertalet möjligaförbättringar som ska undersökas, t.ex. parallelisering av algoritmen.
18

A simulation and machine learning approach to critical infrastructure resilience appraisal : Case study on payment disruptions

Samstad, Anna January 2018 (has links)
This study uses a simulation to gather data regarding a payment disruption. The simulation is part of a project called CCRAAAFFFTING, which examines what happens to a society when a payment disruption occurs. The purpose of this study is to develop a measure for resilience in the simulation and use machine learning to analyse the attributes in the simulation to see how they affect the resilience in the society. The resilience is defined as “the ability to bounce back to a previous state”, and the resilience measure is developed according to this definition. Two resilience measurements are defined, one which relates the simulated value to the best-case and worst-case scenarios, and the other which takes the pace of change in values into consideration. These two measurements are then combined to one measure of the total resilience. The three machine learning algorithms compared are Neural Network, Support Vector Machine and Random Forest, and the performance measure of these are the error rate. The results show that Random Forest performs significantly better than the other two algorithms, and that the most important attributes in the simulation are those concerning the customers’ ability to make purchases in the simulation. The developed resilience measure proves to respond logically to how the situation unfolded, and some suggestions to further improve the measurement is provided for future research. / I denna studie används en simulering för att samla in data. Simuleringen är en del i ett projekt som kallas för CCRAAAFFFTING, vars syfte är att undersöka vad som händer i ett samhälle om en störning i betalsystemet inträffar. Syftet med denna studie är att utveckla ett mått för resiliens i simuleringen, samt att använda machine learning för att analysera attributen i simuleringen för att se hur de påverkar resiliensen i samhället. Resiliensen definieras enligt ”förmågan att snabbt gå tillbaka till ett tidigare stadie”, och resiliensmåttet utvecklas i enlighet med denna definition. Två resiliensmått definieras, där det ena måttet relaterar det simulerade värdet till de värsta och bästa scenarierna, och det andra måttet tar i beaktning hur snabbt värdena förändrades. Dessa två mått kombineras sedan till ett mått för den totala resiliensen. De tre machine learning-algoritmerna som jämförs är Neural Network, Support Vector Machine och Random Forest, och måttet för hur de presterar är felfrekvens. Resultaten visar att Random Forest presterar märkbart bättre än de andra två algoritmerna, och att de viktigaste attributen i simuleringen är de som berör kunders möjlighet att genomföra köp i simuleringen. Det utvecklade resiliensmåttet svarar på ett logiskt sätt enligt hur situationen utvecklar sig, och några förslag för att vidare utveckla måttet ges för vidare forskning.
19

Processautomation och datautvinning : Övervakning med robotic process automation (RPA) och dess möjligheter

Nilsson, Ina January 2023 (has links)
Robotic process automation (RPA) är en växande trend inom alla möjliga arbetsområden. En RPA-mjukvara har kapaciteten att utföra enformiga digitala uppgifter på ett nästintill mänskligt sätt tack vare dess förmåga att jobba mot alla typer av system och gränssnitt. Potentialen är enorm, däribland för övervakning och datautvinning. Syftet med detta projekt var att utforska RPA:ns möjligheter gällande övervakning, samt dess framtida potential. För det byggdes en så kallad RPA-robot i utvecklingsmiljön UiPath Studio för att automatisera processen att hämta väderinformation från tre olika väderwebbsidor, och testa robotens styrkor och svagheter. Resultatet blev en färdig robot som uppnådde kraven som ställts på den, samt visade det på en bra prestanda vid typiska förutsättningar där en körning genomsnittligen låg på under en minut. Det visade dock också att RPA har tydliga brister, som vid förändringar av struktur och diverse störningar, och det visade att implementation spelar väldigt stor roll i hur roboten hanterar diverse situationer. Det som härledes från resultatet var att RPA är en något stel men samtidigt otroligt användbar teknologi som är bra för det den är ämnad för. Den har stor potential, särskilt i kombination med andra teknologier som artificiell intelligens, som kan täcka RPA:ns begränsningar, och ämnar sig utmärkt till alla typer av processer. / Robotic process automation (RPA) is a growing trend withing all fields of work. An RPA-software has the capacity to perform monotonous digital tasks in a nearly human manner thanks to its ability to work across all systems and interfaces. The potential is huge, for surveillance and data mining among all other areas. The purpose of this project was to explore the possibilities of RPA regarding surveillance, as well as its future potential. For that, a so-called RPA-robot was built in the tool UiPath Studio to automate the process of fetching weather information from three different weather websites, and to test the strengths and weaknesses of the robot. The result was a finished robot which reached the established requirements and showed good performance under typical circumstances, where one run of the robot on average took under one minute. However, it also showed that RPA has clear flaws, such as when structure changes and when affected by various disturbances. What can be deduced from the result was that RPA is a somewhat stiff but also incredibly useful technology which is good for what it is meant for. It has great potential, especially in combination with other technologies like artificial intelligence, which can fill the gaps of RPA’s limitations, and it works well for all types of processes, among them data mining and surveillance.
20

Improving Change Point Detection Using Self-Supervised VAEs : A Study on Distance Metrics and Hyperparameters in Time Series Analysis

Workinn, Daniel January 2023 (has links)
This thesis addresses the optimization of the Variational Autoencoder-based Change Point Detection (VAE-CP) approach in time series analysis, a vital component in data-driven decision making. We evaluate the impact of various distance metrics and hyperparameters on the model’s performance using a systematic exploration and robustness testing on diverse real-world datasets. Findings show that the Dynamic Time Warping (DTW) distance metric significantly enhances the quality of the extracted latent variable space and improves change point detection. The research underscores the potential of the VAE-CP approach for more effective and robust handling of complex time series data, advancing the capabilities of change point detection techniques. / Denna uppsats behandlar optimeringen av en Variational Autoencoder-baserad Change Point Detection (VAE-CP)-metod i tidsserieanalys, en vital komponent i datadrivet beslutsfattande. Vi utvärderar inverkan av olika distansmått och hyperparametrar på modellens prestanda med hjälp av systematisk utforskning och robusthetstestning på diverse verkliga datamängder. Resultaten visar att distansmåttet Dynamic Time Warping (DTW) betydligt förbättrar kvaliteten på det extraherade latenta variabelutrymmet och förbättrar detektionen av brytpunkter (eng. change points). Forskningen understryker potentialen med VAE-CP-metoden för mer effektiv och robust hantering av komplexa tidsseriedata, vilket förbättrar förmågan hos tekniker för att upptäcka brytpunkter.

Page generated in 0.0597 seconds