Spelling suggestions: "subject:"återkommande neural nätverk""
1 |
Hierarchical Clustering using Brain-like Recurrent Attractor Neural Networks / Hierarkisk klustring med hjälp av Hjärnliknande återkommande attraktor Neurala nätverkKühn, Hannah January 2023 (has links)
Hierarchical clustering is a family of machine learning methods that has many applications, amongst other data science and data mining. This thesis belongs to the research area of brain-like computing and introduces a novel approach to hierarchical clustering using a brain-like recurrent neural network. Attractor networks can cluster samples by converging to the same network state. We modulate the network behaviour by varying a parameter in the activity propagation rule such that the granularity of the resulting clustering is changed. A hierarchical clustering is then created by combining multiple levels of granularity. The method is developed for two different datasets and evaluated on a variety of clustering metrics. Its performance is compared to standard clustering algorithms and the structure and composition of the clustering is inspected. We show that the method can produce clusterings for different levels of granularity and new data without retraining. As a novel clustering method, it is relevant to machine learning applications. As a model for hierarchical recall in a memory model, it is relevant to computational neuroscience and neuromorphic computing. / Hierarkiskt klusterarbete är en grupp av maskininlärningsmetoder som har många tillämpningar, bland annat datavetenskap och datagrävning. Denna avhandling tillhör forskningsområdet för hjärnlikt databehandling och introducerar ett nytt tillvägagångssätt för hierarkiskt klusterarbete med hjälp av ett hjärnlikt återkommande neuronnätverk. Attraktornätverk kan klustra prover genom att konvergera till samma nätverksstadium. Vi modulerar nätverkets beteende genom att variera en parameter i regeln för aktivitetspropagering så att granulariteten i det resulterande klusterarbetet förändras. Ett hierarkiskt klusterarbete skapas sedan genom att kombinera flera nivåer av granularitet. Metoden utvecklas för två olika datasets och utvärderas med hjälp av olika klustringsmått. Dess prestanda jämförs med standard klusteringsalgoritmer och strukturen och sammansättningen av klusterarbetet inspekteras. Vi visar att metoden kan producera klusterarbeten för olika nivåer av granularitet och nya data utan omträning. Som en ny klusteringsmetod är den relevant för maskininlärningsapplikationer. Som en modell för hierarkisk återkallelse i en minnesmodell är den relevant för beräkningsneurovetenskap och neuromorfisk databehandling.
|
2 |
Federated Learning for Time Series Forecasting Using Hybrid ModelLi, Yuntao January 2019 (has links)
Time Series data has become ubiquitous thanks to affordable edge devices and sensors. Much of this data is valuable for decision making. In order to use these data for the forecasting task, the conventional centralized approach has shown deficiencies regarding large data communication and data privacy issues. Furthermore, Neural Network models cannot make use of the extra information from the time series, thus they usually fail to provide time series specific results. Both issues expose a challenge to large-scale Time Series Forecasting with Neural Network models. All these limitations lead to our research question:Can we realize decentralized time series forecasting with a Federated Learning mechanism that is comparable to the conventional centralized setup in forecasting performance?In this work, we propose a Federated Series Forecasting framework, resolving the challenge by allowing users to keep the data locally, and learns a shared model by aggregating locally computed updates. Besides, we design a hybrid model to enable Neural Network models utilizing the extra information from the time series to achieve a time series specific learning. In particular, the proposed hybrid outperforms state-of-art baseline data-central models with NN5 and Ericsson KPI data. Meanwhile, the federated settings of purposed model yields comparable results to data-central settings on both NN5 and Ericsson KPI data. These results together answer the research question of this thesis. / Tidseriedata har blivit allmänt förekommande tack vare överkomliga kantenheter och sensorer. Mycket av denna data är värdefull för beslutsfattande. För att kunna använda datan för prognosuppgifter har den konventionella centraliserade metoden visat brister avseende storskalig datakommunikation och integritetsfrågor. Vidare har neurala nätverksmodeller inte klarat av att utnyttja den extra informationen från tidsserierna, vilket leder till misslyckanden med att ge specifikt tidsserierelaterade resultat. Båda frågorna exponerar en utmaning för storskalig tidsserieprognostisering med neurala nätverksmodeller. Alla dessa begränsningar leder till vår forskningsfråga:Kan vi realisera decentraliserad tidsserieprognostisering med en federerad lärningsmekanism som presterar jämförbart med konventionella centrala lösningar i prognostisering?I det här arbetet föreslår vi ett ramverk för federerad tidsserieprognos som löser utmaningen genom att låta användaren behålla data lokalt och lära sig en delad modell genom att aggregera lokalt beräknade uppdateringar. Dessutom utformar vi en hybrid modell för att möjliggöra neurala nätverksmodeller som kan utnyttja den extra informationen från tidsserierna för att uppnå inlärning av specifika tidsserier. Den föreslagna hybrida modellen presterar bättre än state-of-art centraliserade grundläggande modeller med NN5och Ericsson KPIdata. Samtidigt ger den federerade ansatsen jämförbara resultat med de datacentrala ansatserna för både NN5och Ericsson KPI-data. Dessa resultat svarar tillsammans på forskningsfrågan av denna avhandling.
|
3 |
Unsupervised Anomaly Detection on Multi-Process Event Time SeriesVendramin, Nicoló January 2018 (has links)
Establishing whether the observed data are anomalous or not is an important task that has been widely investigated in literature, and it becomes an even more complex problem if combined with high dimensional representations and multiple sources independently generating the patterns to be analyzed. The work presented in this master thesis employs a data-driven pipeline for the definition of a recurrent auto-encoder architecture to analyze, in an unsupervised fashion, high-dimensional event time-series generated by multiple and variable processes interacting with a system. Facing the above mentioned problem the work investigates whether it is possible or not to use a single model to analyze patterns produced by different sources. The analysis of log files that record events of interaction between users and the radio network infrastructure is employed as realworld case-study for the given problem. The investigation aims to verify the performances of a single machine learning model applied to the learning of multiple patterns developed through time by distinct sources. The work proposes a pipeline, to deal with the complex representation of the data source and the definition and tuning of the anomaly detection model, that is based on no domain-specific knowledge and can thus be adapted to different problem settings. The model has been implemented in four different variants that have been evaluated over both normal and anomalous data, gathered partially from real network cells and partially from the simulation of anomalous behaviours. The empirical results show the applicability of the model for the detection of anomalous sequences and events in the described conditions, with scores reaching above 80% in terms of F1-score, and varying depending on the specific threshold setting. In addition, their deeper interpretation gives insights about the difference between the variants of the model and thus, their limitations and strong points. / Att fastställa huruvida observerade data är avvikande eller inte är en viktig uppgift som har studerats ingående i litteraturen och problemet blir ännu mer komplext, om detta kombineras med högdimensionella representationer och flera källor som oberoende genererar de mönster som ska analyseras. Arbetet som presenteras i denna uppsats använder en data-driven pipeline för definitionen av en återkommande auto-encoderarkitektur för att analysera, på ett oövervakat sätt, högdimensionella händelsetidsserier som genereras av flera och variabla processer som interagerar med ett system. Mot bakgrund av ovanstående problem undersöker arbetet om det är möjligt eller inte att använda en enda modell för att analysera mönster som producerats av olika källor. Analys av loggfiler som registrerar händelser av interaktion mellan användare och radionätverksinfrastruktur används som en fallstudie för det angivna problemet. Undersökningen syftar till att verifiera prestandan hos en enda maskininlärningsmodell som tillämpas för inlärning av flera mönster som utvecklats över tid från olika källor. Arbetet föreslår en pipeline för att hantera den komplexa representationen hos datakällorna och definitionen och avstämningen av anomalidetektionsmodellen, som inte är baserad på domänspecifik kunskap och därför kan anpassas till olika probleminställningar. Modellen har implementerats i fyra olika varianter som har utvärderats med avseende på både normala och avvikande data, som delvis har samlats in från verkliga nätverksceller och delvis från simulering av avvikande beteenden. De empiriska resultaten visar modellens tillämplighet för detektering av avvikande sekvenser och händelser i det föreslagna ramverket, med F1-score över 80%, varierande beroende på den specifika tröskelinställningen. Dessutom ger deras djupare tolkning insikter om skillnaden mellan olika varianter av modellen och därmed deras begränsningar och styrkor.
|
4 |
Remaining Useful Life Prediction of Power Electronic Devices Using Recurrent Neural Networks / Förutsägelse av återstående livslängd för kraftelektroniska enheter som använder återkommande neurala nätverkCai, Congrui January 2023 (has links)
The growing demand for sustainable technology has led to an increased application of power electronics. As these devices are often exposed to harsh conditions, their reliability is a primary concern for both manufacturers and users. Addressing these reliability challenges involves a set of activities known as Prognostics and Health Management (PHM). In PHM, predicting the Remaining Useful Life (RUL) is crucial. This prediction relies on identifying failure precursors, which signify the presence of degradation. These precursors are then used to construct a degradation model that enables the prediction of the remaining time that the device can work before failure. The project focuses on examining a MOSFET aging dataset from the NASA PCoE dataset depository and a diode aging dataset from Fraunhofer ENAS. The prediction of the remaining useful life of devices using failure precursors has been done by applying recurrent neural network (RNN) methods. However, the prediction results from a single feature is significantly deviated from the actual values. To improve the prediction, the age of the device was proposed as an additional feature. RNNs with a similar number of weights and RNNs with the same hyperparameters are implemented and their performance is evaluated by the accuracy of prediction. The results show that all the RNN models implemented manage to capture the characteristics of the aging data. Despite its simpler structure, the vanilla RNN manages to produce a comparable result with the GRU and LSTM by simpler mechanism and less number of weights. The results also reveal that the characteristics of the data have a significant impact on the final results. / Den växande efterfrågan på hållbar teknik har lett till en ökad tillämpning av kraftelektronik. Eftersom dessa enheter ofta utsätts för tuffa förhållanden är deras tillförlitlighet ett primärt bekymmer för både tillverkare och användare. Att ta itu med dessa tillförlitlighetsutmaningar innebär en uppsättning aktiviteter som kallas Prognostics and Health Management (PHM). I PHM är det avgörande att förutsäga det återstående användbara livet (RUL). Denna förutsägelse bygger på identifiering av felprekursorer, som anger förekomsten av nedbrytning. Dessa prekursorer används sedan för att konstruera en nedbrytningsmodell som möjliggör förutsägelse av den återstående tiden som enheten kan fungera innan fel. Projektet fokuserar på att undersöka en MOSFET-åldringsdataset från NASA PCoE-datauppsättningen och en diodåldringsdataset från Fraunhofer ENAS. Förutsägelsen av den återstående livslängden för enheter som använder felprekursorer har gjorts genom att använda metoder för återkommande neurala nätverk (RNN). Förutsägelseresultatet från en enskild funktion avviker dock avsevärt från de faktiska värdena. För att förbättra förutsägelsen föreslogs enhetens ålder som en extra funktion. RNN med ett liknande antal vikter och RNN med samma hyperparametrar implementeras och deras prestanda utvärderas av förutsägelsens noggrannhet. Resultaten visar att alla implementerade RNN-modeller lyckas fånga egenskaperna hos åldrande data. Trots sin enklare struktur lyckas vanilj RNN producera ett jämförbart resultat med GRU och LSTM genom enklare mekanism och färre antal vikter. Resultaten visar också att uppgifternas egenskaper har en betydande inverkan på de slutliga resultaten.
|
5 |
Short-term Forecasting of EV Charging Stations Power Consumption at Distribution Scale / Korttidsprognoser för elbils laddstationer Strömförbrukning i distributionsskalaClerc, Milan January 2022 (has links)
Due to the intermittent nature of renewable energy production, maintaining the stability of the power supply system is becoming a significant challenge of the energy transition. Besides, the penetration of Electric Vehicles (EVs) and the development of a large network of charging stations will inevitably increase the pressure on the electrical grid. However, this network and the batteries that are connected to it also constitute a significant resource to provide ancillary services and therefore a new opportunity to stabilize the power grid. This requires to be able to produce accurate short term forecasts of the power consumption of charging stations at distribution scale. This work proposes a full forecasting framework, from the transformation of discrete charging sessions logs into a continuous aggregated load profile, to the pre-processing of the time series and the generation of predictions. This framework is used to identify the most appropriate model to provide two days ahead predictions of the hourly load profile of large charging stations networks. Using three years of data collected at Amsterdam’s public stations, the performance of several state-of-the-art forecasting models, including Gradient Boosted Trees (GBTs) and Recurrent Neural Networks (RNNs) is evaluated and compared to a classical time series model (Auto Regressive Integrated Moving Average (ARIMA)). The best performances are obtained with an Extreme Gradient Boosting (XGBoost) model using harmonic terms, past consumption values, calendar information and temperature forecasts as prediction features. This study also highlights periodical patterns in charging behaviors, as well as strong calendar effects and an influence of temperature on EV usage. / På grund av den intermittenta karaktären av förnybar energiproduktion, blir upprätthållandet av elnäts stabilitet en betydande utmaning. Dessutom kommer penetrationen av elbilar och utvecklingen av ett stort nät av laddstationer att öka trycket på elnätet. Men detta laddnät och batterierna som är anslutna till det utgör också en betydande resurs för att tillhandahålla kompletterande tjänster och därför en ny möjlighet att stabilisera elnätet. För att göra sådant bör man kunna producera korrekta kortsiktiga prognoser för laddstationens strömförbrukning i distributions skala. Detta arbete föreslår ett fullständigt prognos protokoll, från omvandlingen av diskreta laddnings sessioner till en kontinuerlig förbrukningsprofil, till förbehandling av tidsserier och generering av förutsägelser. Protokollet används för att identifiera den mest lämpliga metoden för att ge två dagars förutsägelser av timförbrukning profilen för ett stort laddstation nät. Med hjälp av tre års data som samlats in på Amsterdams publika stationer utvärderas prestanda för flera avancerade prognosmodeller som är gradient boosting och återkommande neurala nätverk, och jämförs med en klassisk tidsseriemodell (ARIMA). De bästa resultaten uppnås med en XGBoost modell med harmoniska termer, tidigare förbrukningsvärden, kalenderinformation och temperatur prognoser som förutsägelse funktioner. Denna studie belyser också periodiska mönster i laddningsbeteenden, liksom starka kalendereffekter och temperaturpåverkan på elbilar-användning.
|
6 |
Long Term Forecasting of Industrial Electricity Consumption Data With GRU, LSTM and Multiple Linear RegressionBuzatoiu, Roxana January 2020 (has links)
Accurate long-term energy consumption forecasting of industrial entities is of interest to distribution companies as it can potentially help reduce their churn and offer support in decision making when hedging. This thesis work presents different methods to forecast the energy consumption for industrial entities over a long time prediction horizon of 1 year. Notably, it includes experimentations with two variants of the Recurrent Neural Networks, namely Gated Recurrent Unit (GRU) and Long-Short-Term-Memory (LSTM). Their performance is compared against traditional approaches namely Multiple Linear Regression (MLR) and Seasonal Autoregressive Integrated Moving Average (SARIMA). Further on, the investigation focuses on tailoring the Recurrent Neural Network model to improve the performance. The experiments focus on the impact of different model architectures. Secondly, it focuses on testing the effect of time-related feature selection as an additional input to the Recurrent Neural Network (RNN) networks. Specifically, it explored how traditional methods such as Exploratory Data Analysis, Autocorrelation, and Partial Autocorrelation Functions Plots can contribute to the performance of RNN model. The current work shows through an empirical study on three industrial datasets that GRU architecture is a powerful method for the long-term forecasting task which outperforms LSTM on certain scenarios. In comparison to the MLR model, the RNN achieved a reduction in the RMSE between 5% up to to 10%. The most important findings include: (i) GRU architecture outperforms LSTM on industrial energy consumption datasets when compared against a lower number of hidden units. Also, GRU outperforms LSTM on certain datasets, regardless of the choice units number; (ii) RNN variants yield a better accuracy than statistical or regression models; (iii) using ACF and PACF as dicovery tools in the feature selection process is unconclusive and unefficient when aiming for a general model; (iv) using deterministic features (such as day of the year, day of the month) has limited effects on improving the deep learning model’s performance. / Noggranna långsiktiga energiprognosprognoser för industriella enheter är av intresse för distributionsföretag eftersom det potentiellt kan bidra till att minska deras churn och erbjuda stöd i beslutsfattandet vid säkring. Detta avhandlingsarbete presenterar olika metoder för att prognostisera energiförbrukningen för industriella enheter under en lång tids förutsägelsehorisont på 1 år. I synnerhet inkluderar det experiment med två varianter av de återkommande neurala nätverken, nämligen GRU och LSTM. Deras prestanda jämförs med traditionella metoder, nämligen MLR och SARIMA. Vidare fokuserar undersökningen på att skräddarsy modellen för återkommande neurala nätverk för att förbättra prestanda. Experimenten fokuserar på effekterna av olika modellarkitekturer. För det andra fokuserar den på att testa effekten av tidsrelaterat funktionsval som en extra ingång till RNN -nätverk. Specifikt undersökte den hur traditionella metoder som Exploratory Data Analysis, Autocorrelation och Partial Autocorrelation Funtions Plots kan bidra till prestanda för RNN -modellen. Det aktuella arbetet visar genom en empirisk studie av tre industriella datamängder att GRU -arkitektur är en kraftfull metod för den långsiktiga prognosuppgiften som överträffar ac LSTM på vissa scenarier. Jämfört med MLR -modellen uppnådde RNN en minskning av RMSE mellan 5 % upp till 10 %. De viktigaste resultaten inkluderar: (i) GRU -arkitekturen överträffar LSTM på datauppsättningar för industriell energiförbrukning jämfört med ett lägre antal dolda enheter. GRU överträffar också LSTM på vissa datauppsättningar, oavsett antalet valenheter; (ii) RNN -varianter ger bättre noggrannhet än statistiska modeller eller regressionsmodeller; (iii) att använda ACF och PACF som verktyg för upptäckt i funktionsvalsprocessen är otydligt och ineffektivt när man siktar på en allmän modell; (iv) att använda deterministiska funktioner (t.ex. årets dag, månadsdagen) har begränsade effekter på att förbättra djupinlärningsmodellens prestanda.
|
7 |
Safe Reinforcement Learning for Social Human-Robot Interaction : Shielding for Appropriate Backchanneling Behavior / Säker förstärkningsinlärning för social människa-robotinteraktion : Avskärmning för lämplig uppbackningsbeteendeAkif, Mohamed January 2023 (has links)
Achieving appropriate and natural backchanneling behavior in social robots remains a challenge in Human-Robot Interaction (HRI). This thesis addresses this issue by utilizing methods from Safe Reinforcement Learning in particular shielding to improve social robot backchanneling behavior. The aim of the study is to develop and implement a safety shield that guarantees appropriate backchanneling. In order to achieve that, a Recurrent Neural Network (RNN) is trained on a human-human conversational dataset. Two agents are built; one uses a random algorithm to backchannel and another uses shields on top of its algorithm. The two agents are tested using a recorded human audio, and later evaluated in a between-subject user study with 41 participants. The results did not show any statistical significance between the two conditions, for the chosen significance level of α < 0.05. However, we observe that the agent with shield had a better listening behavior, more appropriate backchanneling behavior and missed less backchanneling opportunities than the agent without shields. This could indicate that shields have a positive impact on the robot’s behavior. We discuss potential explanations for why we did not obtain statistical significance and shed light on the potential for further exploration. / Att uppnå lämpligt och naturligt upbbackningsbeteende i sociala robotar är fortfarande en utmaning i Människa-Robot Interaktion (MRI). Den här avhandlingen tar upp detta problem genom att använda metoder från säker förstärkningsinlärning i synnerhet avskärmning för att förbättra sociala robotars upbbackningsbeteende. Syftet med studien är att utveckla och implementera en säkerhetsavskärmning som garanterar lämplig upbbackning. För att uppnå det, tränas ett återkommande neuralt nätverk på en människa-människa konversationsdatamängd. Två agenter byggs; en använder en slumpmässig algoritm för att upbbacka och en annan använder avskärmninng ovanpå sin algoritm. De två agenterna testas med hjälp av ett inspelat mänskligt ljud och utvärderas senare i en användarstudie med 41 deltagare. Resultaten visade inte någon statistisk signifikans mellan de två skicken, för den valda signifikansnivån < 0, 05. Vi observerar dock att agenten med avskärmning hade ett bättre lyssningsbeteende, mer lämplig upbbackningsbeteende och missade mindre upbbacknings-möjligheter än agenten utan avskärmning. Detta kan indikera att avskärmning har en positiv inverkan på robotarnas beteende. Vi diskuterar potentiella förklaringar till varför vi inte fick statistisk signifikans och belyser potentialen för ytterligare utforskning.
|
8 |
Improving Recommender Engines for Video Streaming Platforms with RNNs and Multivariate Data / Förbättring av Rekommendationsmotorer för Videoströmningsplattformar med RNN och Multivariata DataPérez Felipe, Daniel January 2022 (has links)
For over 4 years now, there has been a fierce fight for staying ahead in the so-called ”Streaming War”. The Covid-19 pandemic and its consequent confinement only worsened the situation. In such a market where the user is faced with too many streaming video services to choose from, retaining customers becomes a necessary must. Moreover, an extensive catalogue makes it even more difficult for the user to choose a movie from. Recommender Systems try to ease this task by analyzing the users’ interactions with the platform and predicting movies that, a priori, will be watched next. Neural Networks have started to be implemented as the underlying technology in the development of Recommender Systems. Yet, most streaming services fall victim to a highly uneven movies distribution, where a small fraction of their content is watched by most of their users, having the rest of their catalogue a limited number of views. This is the long-tail problem that makes for a difficult classification model. An RNN model was implemented to solve this problem. Following a multiple-experts classification strategy, where each classifier focuses only on a specific group of films, movies are clustered by popularity. These clusters were created following the Jenks natural breaks algorithm, clustering movies by minimizing the inner group variance and maximizing the outer group variance. This new implementation ended up outperforming other clustering methods, where the proposed Jenks’ movie clusters gave better results for the corresponding models. The model had, as input, an ordered stream of watched movies. An extra input variable, the date of the visualization, gave an increase in performance, being more noticeable in those clusters with a fewer amount of movies and more views, i.e., those clusters not corresponding to the least popular ones. The addition of an extra variable, the percent of movies watched, gave inconclusive results due to hardware limitations. / I över fyra år har det nu varit en hård kamp för att ligga i framkant i det så kallade ”Streaming kriget”. Covid-19-pandemin och den därpå följande karantänen förvärrade bara situationen. På en sådan marknad där användaren står inför alltför många streamingtjänster att välja mellan, blir kvarhållande av kunderna en nödvändighet. En omfattande katalog gör det dessutom ännu svårare för användaren att välja en film. Rekommendationssystem försöker underlätta denna uppgift genom att analysera användarnas interaktion med plattformen och förutsäga vilka filmer som kommer att ses härnäst. Neurala nätverk har börjat användas som underliggande teknik vid utvecklingen av rekommendationssystem. De flesta streamingtjänster har dock en mycket ojämn fördelning av filmerna, då en liten del av deras innehåll ses av de flesta av användarna, medan en stor del av deras katalog har ett begränsat antal visualiseringar. Detta så kallade ”Long Tail”-problem gör det svårt att skapa en klassificeringsmodell. En RNN-modell implementerades för att lösa detta problem. Genom att följa en klassificeringsstrategi med flera experter, där varje klassificerare endast fokuserar på en viss grupp av filmer, grupperas filmerna efter popularitet. Dessa kluster skapades enligt Jenks natural breaks-algoritm, som klustrar filmer genom att minimera variansen i den inre gruppen och maximera variansen i den yttre gruppen. Denna nya implementering överträffade till slut andra klustermetoder, där filmklustren föreslagna av Jenks gav bättre resultat för motsvarande modeller. Modellen hade som indata en ordnad ström av sedda filmer. En extra ingångsvariabel, datumet för visualiseringen, gav en ökning av prestandan, som var mer märkbar i de kluster med färre filmer och fler visualiseringar, dvs. de kluster som inte motsvarade de minst populära klustren. Tillägget av en extra variabel, procent av filmen som har setts, gav inte entydiga resultat på grund av hårdvarubegränsningar / Desde hace más de 4 años, se está librando una lucha encarnizada por mantenerse en cabeza en la llamada ”Guerra del Streaming”. La Covid-19 y su consiguiente confinamiento no han hecho más que empeorar la situación. En un mercado como éste, en el que el usuario se encuentra con demasiados servicios de vídeo en streaming entre los que elegir, retener a los clientes se convierte en una necesidad. Además, un catálogo extenso dificulta aún más la elección de una película por parte del usuario. Los sistemas de recomendación intentan facilitar esta tarea analizando las interacciones de los usuarios con la plataforma y predecir las películas que, a priori, se verán a continuación. Las Redes Neuronales han comenzado a implementarse como tecnología subyacente en el desarrollo de los sistemas de recomendación. Sin embargo, la mayoría de los servicios de streaming son víctimas de una distribución de películas muy desigual, en la que una pequeña fracción de sus contenidos es vista por la mayoría de sus usuarios, teniendo el resto de su catálogo un número muy inferior de visualizaciones. Este es el denominado problema de ”long-tail” que dificulta el modelo de clasificación. Para resolver este problema se implementó un modelo RNN. Siguiendo una estrategia de clasificación de expertos múltiples, en la que cada clasificador se centra en un único grupo específico de películas, agrupadas por popularidad. Estos clusters se crearon siguiendo el algoritmo de Jenks, agrupando las películas mediante minimización y maximización de la varianza entre grupos . Esta nueva implementación acabó superando a otros métodos de clustering, donde los clusters de películas de Jenks propuestos dieron mejores resultados para los modelos correspondientes. El modelo tenía como entrada un flujo ordenado de películas vistas. Una variable de entrada extra, la fecha de la visualización, dio un incremento en el rendimiento, siendo más notable en aquellos clusters con una menor cantidad de películas y más visualizaciones, es decir, aquellos clusters que no corresponden a los menos populares. La adición de una variable extra, el porcentaje de películas vistas, dio resultados no concluyentes debido a limitaciones hardware.
|
9 |
Improving Training of Differentiable Neural Computers on Time Series / Att Förbättra Träningen av Differentierbara Neurala Datorer på TidserierPersson, Isak January 2022 (has links)
Memory Augmented Neural Networks (MANN) is a hot research area within deep learning. One of the most promising MANN is the Differentiable Neural Network (DNC) which is able to learn, in a fully differentiable way, how to represent and store data into an external memory. Due to its memory, it performs exceptionally well on tasks where long-term memory is required. However, not a lot of research has been done on DNCs applied to time series and is also considered to be difficult to train. This work focuses on how to improve the training of a DNC on time series by taking advantage of the external memory and manipulating it in training. Three methods are presented. The first method reuses the memory between epochs which can help when there is a risk of overfitting. The second method is based on the first but has a bi-directional training scheme which drastically improves the stability of the convergence and can potentially produce better performing DNC. The last method presented is a transfer learning method where the memory is being transferred. This method is a versatile transfer learning method that can be applied when the source and target input feature spaces are different. It is also not dependent on the architecture of the DNC other than the size of the memory. These methods were applied and tested to time series in the telecom domain. Specifically, they were tested on four time series, two for predicting read and write latency, and two for predicting round trip time for signals. The results of the methods were fairly consistent on all the time series. / Minnesförstärkta neurala nätverk (MANNs) är en trendig forskningsområde inom djupinlärning. En av de mest lovande MANN är Differentierbara Neurala Datorer (DNCs) som kan lära sig representera och lagra data in till ett externt minne. På grund av sitt externa minne, så är den exceptionellt bra på att lösa problem som kräver långtids minne. Det finns däremot inte mycket forskning på DNCs applicerat på tidserier och att den är svår att träna. Arbetet i denna uppsatts har fokuserat på hur man kan förbättra träning av DNC på tidserier genom att utnyttja det externa minnet och manipulera det under träningen. Arbetet presenterar tre styckna metoder. Första metoden återanvänder minnet mellan epoker och kan hjälpa när det finns risk att överanpassar sig till träningsdatan. Den andra metoden är baserad på den första men har ett dubbelriktat tränings system som kan tydligt förbättra stabiliteten av konvergensen och kan ibland producera bättre presterande DNC. Den sista metoden är en metod som överför lärande genom att överföra minnet av en tränad DNC. Denna metod är mångsidig då den inte är beror på källans och målets ingångs datautrymme. Den beror inte heller på arkitekturen av DNC annat än storleken på minnet. Dessa metoder var applicerade och testade på tidsseries inom telekom domänen. Dom var testade på fyra tidsserier, två styckena för att förutspå läs- och skriv latens, och två för att förutspå tid för tur och retur för signaler. Resultaten för metoderna vara relativt konsekventa med alla tidsseries.
|
10 |
An evaluation of deep learning models for urban floods forecasting / En utvärdering av modeller för djupinlärning för prognoser över översvämningar i städerMu, Yang January 2022 (has links)
Flood forecasting maps are essential for rapid disaster response and risk management, yet the computational complexity of physically-based simulations hinders their application for efficient high-resolution spatial flood forecasting. To address the problems of high computational cost and long prediction time, this thesis proposes to develop deep learning neural networks based on a flood simulation dataset, and explore their potential use for flood prediction without learning hydrological modelling knowledge from scratch. A Fully Convolutional Network (FCN), FCN with multiple outputs (Multioutput FCN), UNet, Graph-based model and their Recurrent Neural Network (RNN) variants are trained on a catchment area with twelve rainfall events, and evaluated on two cases of a specific rainfall event both quantitatively and qualitatively. Among them, Convolution-based models (FCN, Multioutput FCN and UNet) are commonly used to solve problems related to spatial data but do not encode the position and orientation of objects, and Graph-based models can capture the structure of the problem but require higher time and space complexity. RNN-based models are effective for modelling time-series data, however, the computation is slow due to its recurrent nature. The results show that Multioutput FCN and the Graph-based model have significant advantages in predicting deep water depths (>50 cm), and the application of recurrent training greatly improves the long-term flood prediction accuracy of the base deep learning models. In addition, the proposed recurrent training FCN model performs the best and can provide flood predictions with high accuracy.
|
Page generated in 0.0708 seconds