Global ETD Search

11	Advancing Keyword Clustering Techniques: A Comparative Exploration of Supervised and Unsupervised Methods : Investigating the Effectiveness and Performance of Supervised and Unsupervised Methods with Sentence Embeddings / Jämförande analys av klustringstekniker för klustring av nyckelord : Undersökning av effektiviteten och prestandan hos övervakade och oövervakade metoder med inbäddade ord Caliò, Filippo January 2023 (has links) Clustering keywords is an important Natural Language Processing task that can be adopted by several businesses since it helps to organize and group related keywords together. By clustering keywords, businesses can better understand the topics their customers are interested in. This thesis project provides a detailed comparison of two different approaches that might be used for performing this task and aims to investigate whether having the labels associated with the keywords improves the clusters obtained. The keywords are clustered using both supervised learning, training a neural network and applying community detection algorithms such as Louvain, and unsupervised learning algorithms, such as HDBSCAN and K-Means. The evaluation is mainly based on metrics like NMI and ARI. The results show that supervised learning can produce better clusters than unsupervised learning. By looking at the NMI score, the supervised learning approach composed by training a neural network with Margin Ranking Loss and applying Kruskal achieves a slightly better score of 0.771 against the 0.693 of the unsupervised learning approach proposed, but by looking at the ARI score, the difference is more relevant. HDBSCAN achieves a lower score of 0.112 compared to the supervised learning approach with the Margin Ranking Loss (0.296), meaning that the clusters formed by HDBSCAN may lack meaningful structure or exhibit randomness. Based on the evaluation metrics, the study demonstrates that supervised learning utilizing the Margin Ranking Loss outperforms unsupervised learning techniques in terms of cluster accuracy. However, when trained with a BCE loss function, it yields less accurate clusters (NMI: 0.473, ARI: 0.108), highlighting that the unsupervised algorithms surpass this particular supervised learning approach. / Klustring av nyckelord är en viktig uppgift inom Natural Language Processing som kan användas av flera företag eftersom den hjälper till att organisera och gruppera relaterade nyckelord tillsammans. Genom att klustra nyckelord kan företag bättre förstå vilka ämnen deras kunder är intresserade av. Detta examensarbete ger en detaljerad jämförelse av två olika metoder som kan användas för att utföra denna uppgift och syftar till att undersöka om de etiketter som är associerade med nyckelorden förbättrar de kluster som erhålls. Nyckelorden klustras med hjälp av både övervakad inlärning, träning av ett neuralt nätverk och tillämpning av algoritmer för community-detektering, t.ex. Louvain, och algoritmer för oövervakad inlärning, t.ex. HDBSCAN och KMeans. Utvärderingen baseras huvudsakligen på mått som NMI och ARI. Resultaten visar att övervakad inlärning kan ge bättre kluster än oövervakad inlärning. Om man tittar på NMI-poängen uppnår den övervakade inlärningsmetoden som består av att träna ett neuralt nätverk med Margin Ranking Loss och tillämpa Kruskal en något bättre poäng på 0,771 jämfört med 0,693 för den föreslagna oövervakade inlärningsmetoden, men om man tittar på ARI-poängen är skillnaden mer relevant. HDBSCAN uppnår en lägre poäng på 0,112 jämfört med den övervakade inlärningsmetoden med Margin Ranking Loss (0,296), vilket innebär att de kluster som bildas av HDBSCAN kan sakna meningsfull struktur eller uppvisa slumpmässighet. Baserat på utvärderingsmetrikerna visar studien att övervakad inlärning som använder Margin Ranking Loss överträffar tekniker för oövervakad inlärning när det gäller klusternoggrannhet. När den tränas med en BCEförlustfunktion ger den dock mindre exakta kluster (NMI: 0,473, ARI: 0,108), vilket belyser att de oövervakade algoritmerna överträffar denna speciella övervakade inlärningsmetod. Keyword Clustering Supervised Learning Unsupervised Learning Cluster Labels Natural Language Processing Sentence Embeddings Nyckelord Klustring övervakad inlärning oövervakad inlärning klustermärkning naturlig språkbehandling Inbäddning av meningar Computer and Information Sciences Data- och informationsvetenskap
12	Fault Detection and Diagnosis for Automotive Camera using Unsupervised Learning / Feldetektering och Diagnostik för Bilkamera med Oövervakat Lärande Li, Ziyou January 2023 (has links) This thesis aims to investigate a fault detection and diagnosis system for automotive cameras using unsupervised learning. 1) Can a front-looking wide-angle camera image dataset be created using Hardware-in-Loop (HIL) simulations? 2) Can an Adversarial Autoencoder (AAE) based unsupervised camera fault detection and diagnosis method be crafted for SPA2 Vehicle Control Unit (VCU) using an image dataset created using Hardware-inLoop? 3) Does using AAE surpass the performance of using Variational Autoencoder (VAE) for the unsupervised automotive camera fault diagnosis model? In the field of camera fault studies, automotive cameras stand out for its complex operational context, particularly in Advanced Driver-Assistance Systems (ADAS) applications. The literature review finds a notable gap in comprehensive image datasets addressing the image artefact spectrum of ADAS-equipped automotive cameras under real-world driving conditions. In this study, normal and fault scenarios for automotive cameras are defined leveraging published and company studies and a fault diagnosis model using unsupervised learning is proposed and examined. The types of image faults defined and included are Lens Flare, Gaussian Noise and Dead Pixels. Along with normal driving images, a balanced fault-injected image dataset is collected using real-time sensor simulation under driving scenario with industrially-recognised HIL setup. An AAE-based unsupervised automotive camera fault diagnosis system using VGG16 as encoder-decoder structure is proposed and experiments on its performance are conducted on both the selfcollected dataset and fault-injected KITTI raw images. For non-processed KITTI dataset, morphological operations are examined and are employed as preprocessing. The performance of the system is discussed in comparison to supervised and unsupervised image partition methods in related works. The research found that the AAE method outperforms popular VAE method, using VGG16 as encoder-decoder structure significantly using 3-layer Convolutional Neural Network (CNN) and ResNet18 and morphological preprocessings significantly ameliorate system performance. The best performing VGG16- AAE model achieves 62.7% accuracy to diagnosis on own dataset, and 86.4% accuracy on double-erosion-processed fault-injected KITTI dataset. In conclusion, this study introduced a novel scheme for collecting automotive sensor data using Hardware-in-Loop, utilised preprocessing techniques that enhance image partitioning and examined the application of unsupervised models for diagnosing faults in automotive cameras. / Denna avhandling syftar till att undersöka ett felupptäcknings- och diagnossystem för bilkameror med hjälp av oövervakad inlärning. De huvudsakliga forskningsfrågorna är om en bilduppsättning från en frontmonterad vidvinkelkamera kan skapas med hjälp av Hardware-in-Loop (HIL)-simulationer, om en Adversarial Autoencoder (AAE)-baserad metod för oövervakad felupptäckt och diagnos för SPA2 Vehicle Control Unit (VCU) kan utformas med en bilduppsättning skapad med Hardware-in-Loop, och om användningen av AAE skulle överträffa prestandan av att använda Variational Autoencoder (VAE) för den oövervakade modellen för felanalys i bilkameror. Befintliga studier om felanalys fokuserar på roterande maskiner, luftbehandlingsenheter och järnvägsfordon. Få studier undersöker definitionen av feltyper i bilkameror och klassificerar normala och felaktiga bilddata från kameror i kommersiella passagerarfordon. I denna studie definieras normala och felaktiga scenarier för bilkameror och en modell för felanalys med oövervakad inlärning föreslås och undersöks. De typer av bildfel som definieras är Lens Flare, Gaussiskt brus och Döda pixlar. Tillsammans med normala bilder samlas en balanserad uppsättning felinjicerade bilder in med hjälp av realtidssensor-simulering under körscenarier med industriellt erkänd HIL-uppsättning. Ett AAE-baserat system för oövervakad felanalys i bilkameror med VGG16 som kodaredekoderstruktur föreslås och experiment på dess prestanda genomförs både på den självinsamlade uppsättningen och felinjicerade KITTI-raw-bilder. För icke-behandlade KITTI-uppsättningar undersöks morfologiska operationer och används som förbehandling. Systemets prestanda diskuteras i jämförelse med övervakade och oövervakade bildpartitioneringsmetoder i relaterade arbeten. Forskningen fann att AAE-metoden överträffar den populära VAEmetoden, genom att använda VGG16 som kodare-dekoderstruktur signifikant med ett 3-lagers konvolutionellt neuralt nätverk (CNN) och ResNet18 och morfologiska förbehandlingar förbättrar systemets prestanda avsevärt. Den bäst presterande VGG16-AAE-modellen uppnår 62,7 % noggrannhet för diagnos på egen uppsättning, och 86,4 % noggrannhet på dubbelerosionsbehandlad felinjicerad KITTI-uppsättning. Sammanfattningsvis introducerade denna studie ett nytt system för insamling av data från bilsensorer med Hardware-in-Loop, utnyttjade förbehandlingstekniker som förbättrar bildpartitionering och undersökte tillämpningen av oövervakade modeller för att diagnostisera fel i bilkameror. Unsupervised Learning Autoencoders Image Clustering Fault Detection and Diagnosis Morphological Operations Hardware-in-Loop Advanced DriverAssistance System Oövervakad inlärning Autoencoders Bildklustering Felfindning och Diagnostik Morfologiska Operationer Hardware-in-Loop Avancerade Förarassistanssystem Computer and Information Sciences Data- och informationsvetenskap
13	Unsupervised Anomaly Detection on Time Series Data: An Implementation on Electricity Consumption Series / Oövervakad anomalidetektion i tidsseriedata: en implementation på elförbrukningsserier Lindroth Henriksson, Amelia January 2021 (has links) Digitization of the energy industry, introduction of smart grids and increasing regulation of electricity consumption metering have resulted in vast amounts of electricity data. This data presents a unique opportunity to understand the electricity usage and to make it more efficient, reducing electricity consumption and carbon emissions. An important initial step in analyzing the data is to identify anomalies. In this thesis the problem of anomaly detection in electricity consumption series is addressed using four machine learning methods: density based spatial clustering for applications with noise (DBSCAN), local outlier factor (LOF), isolation forest (iForest) and one-class support vector machine (OC-SVM). In order to evaluate the methods synthetic anomalies were introduced to the electricity consumption series and the methods were then evaluated for the two anomaly types point anomaly and collective anomaly. In addition to electricity consumption data, features describing the prior consumption, outdoor temperature and date-time properties were included in the models. Results indicate that the addition of the temperature feature and the lag features generally impaired anomaly detection performance, while the inclusion of date-time features improved it. Of the four methods, OC-SVM was found to perform the best at detecting point anomalies, while LOF performed the best at detecting collective anomalies. In an attempt to improve the models' detection power the electricity consumption series were de-trended and de-seasonalized and the same experiments were carried out. The models did not perform better on the decomposed series than on the non-decomposed. / Digitaliseringen av elbranschen, införandet av smarta nät samt ökad reglering av elmätning har resulterat i stora mängder eldata. Denna data skapar en unik möjlighet att analysera och förstå fastigheters elförbrukning för att kunna effektivisera den. Ett viktigt inledande steg i analysen av denna data är att identifiera möjliga anomalier. I denna uppsats testas fyra olika maskininlärningsmetoder för detektering av anomalier i elförbrukningsserier: densitetsbaserad spatiell klustring för applikationer med brus (DBSCAN), lokal avvikelse-faktor (LOF), isoleringsskog (iForest) och en-klass stödvektormaskin (OC-SVM). För att kunna utvärdera metoderna infördes syntetiska anomalier i elförbrukningsserierna och de fyra metoderna utvärderades därefter för de två anomalityperna punktanomali och gruppanomali. Utöver elförbrukningsdatan inkluderades även variabler som beskriver tidigare elförbrukning, utomhustemperatur och tidsegenskaper i modellerna. Resultaten tyder på att tillägget av temperaturvariabeln och lag-variablerna i allmänhet försämrade modellernas prestanda, medan införandet av tidsvariablerna förbättrade den. Av de fyra metoderna visade sig OC-SVM vara bäst på att detektera punktanomalier medan LOF var bäst på att detektera gruppanomalier. I ett försök att förbättra modellernas detekteringsförmåga utfördes samma experiment efter att elförbrukningsserierna trend- och säsongsrensats. Modellerna presterade inte bättre på de rensade serierna än på de icke-rensade. Unsupervised learning machine learning anomaly detection time series electricity consumption synthetic anomalies DBSCAN LOF iForest OC-SVM Oövervakad inlärning maskininlärning anomalidetektion tidsserier elförbrukning syntetiska anomalier DBSCAN LOF iForest OC-SVM Mathematics Matematik
14	Adding temporal plasticity to a self-organizing incremental neural network using temporal activity diffusion / Om att utöka ett självorganiserande inkrementellt neuralt nätverk med temporal plasticitet genom temporal aktivitetsdiffusion Lundberg, Emil January 2015 (has links) Vector Quantization (VQ) is a classic optimization problem and a simple approach to pattern recognition. Applications include lossy data compression, clustering and speech and speaker recognition. Although VQ has largely been replaced by time-aware techniques like Hidden Markov Models (HMMs) and Dynamic Time Warping (DTW) in some applications, such as speech and speaker recognition, VQ still retains some significance due to its much lower computational cost — especially for embedded systems. A recent study also demonstrates a multi-section VQ system which achieves performance rivaling that of DTW in an application to handwritten signature recognition, at a much lower computational cost. Adding sensitivity to temporal patterns to a VQ algorithm could help improve such results further. SOTPAR2 is such an extension of Neural Gas, an Artificial Neural Network algorithm for VQ. SOTPAR2 uses a conceptually simple approach, based on adding lateral connections between network nodes and creating “temporal activity” that diffuses through adjacent nodes. The activity in turn makes the nearest-neighbor classifier biased toward network nodes with high activity, and the SOTPAR2 authors report improvements over Neural Gas in an application to time series prediction. This report presents an investigation of how this same extension affects quantization and prediction performance of the self-organizing incremental neural network (SOINN) algorithm. SOINN is a VQ algorithm which automatically chooses a suitable codebook size and can also be used for clustering with arbitrary cluster shapes. This extension is found to not improve the performance of SOINN, in fact it makes performance worse in all experiments attempted. A discussion of this result is provided, along with a discussion of the impact of the algorithm parameters, and possible future work to improve the results is suggested. / Vektorkvantisering (VQ; eng: Vector Quantization) är ett klassiskt problem och en enkel metod för mönsterigenkänning. Bland tillämpningar finns förstörande datakompression, klustring och igenkänning av tal och talare. Även om VQ i stort har ersatts av tidsmedvetna tekniker såsom dolda Markovmodeller (HMM, eng: Hidden Markov Models) och dynamisk tidskrökning (DTW, eng: Dynamic Time Warping) i vissa tillämpningar, som tal- och talarigenkänning, har VQ ännu viss relevans tack vare sin mycket lägre beräkningsmässiga kostnad — särskilt för exempelvis inbyggda system. En ny studie demonstrerar också ett VQ-system med flera sektioner som åstadkommer prestanda i klass med DTW i en tillämpning på igenkänning av handskrivna signaturer, men till en mycket lägre beräkningsmässig kostnad. Att dra nytta av temporala mönster i en VQ-algoritm skulle kunna hjälpa till att förbättra sådana resultat ytterligare. SOTPAR2 är en sådan utökning av Neural Gas, en artificiell neural nätverk-algorithm för VQ. SOTPAR2 använder en konceptuellt enkel idé, baserad på att lägga till sidleds anslutningar mellan nätverksnoder och skapa “temporal aktivitet” som diffunderar genom anslutna noder. Aktiviteten gör sedan så att närmaste-granne-klassificeraren föredrar noder med hög aktivitet, och författarna till SOTPAR2 rapporterar förbättrade resultat jämfört med Neural Gas i en tillämpning på förutsägning av en tidsserie. I denna rapport undersöks hur samma utökning påverkar kvantiserings- och förutsägningsprestanda hos algoritmen självorganiserande inkrementellt neuralt nätverk (SOINN, eng: self-organizing incremental neural network). SOINN är en VQ-algorithm som automatiskt väljer en lämplig kodboksstorlek och också kan användas för klustring med godtyckliga klusterformer. Experimentella resultat visar att denna utökning inte förbättrar prestandan hos SOINN, istället försämrades prestandan i alla experiment som genomfördes. Detta resultat diskuteras, liksom inverkan av parametervärden på prestandan, och möjligt framtida arbete för att förbättra resultaten föreslås. ANN artificial neural network SOINN SOTPAR SOTPAR2 prediction spatio-temporal pattern detection temporal activity diffusion pattern recognition unsupervised learning vector quantization ANN artificiellt neuralt nätverk artificiella neurala nätverk SOINN SOTPAR SOTPAR2 förutsägelse spatio-temporal mönsterdetekion temporal aktivitetsdiffusion mönsterigenkänning oövervakad inlärning vektorkvantisering Computer Sciences Datavetenskap (datalogi)

Page generated in 0.081 seconds