Spelling suggestions: "subject:"klustring"" "subject:"clustring""
61 |
Advancing Keyword Clustering Techniques: A Comparative Exploration of Supervised and Unsupervised Methods : Investigating the Effectiveness and Performance of Supervised and Unsupervised Methods with Sentence Embeddings / Jämförande analys av klustringstekniker för klustring av nyckelord : Undersökning av effektiviteten och prestandan hos övervakade och oövervakade metoder med inbäddade ordCaliò, Filippo January 2023 (has links)
Clustering keywords is an important Natural Language Processing task that can be adopted by several businesses since it helps to organize and group related keywords together. By clustering keywords, businesses can better understand the topics their customers are interested in. This thesis project provides a detailed comparison of two different approaches that might be used for performing this task and aims to investigate whether having the labels associated with the keywords improves the clusters obtained. The keywords are clustered using both supervised learning, training a neural network and applying community detection algorithms such as Louvain, and unsupervised learning algorithms, such as HDBSCAN and K-Means. The evaluation is mainly based on metrics like NMI and ARI. The results show that supervised learning can produce better clusters than unsupervised learning. By looking at the NMI score, the supervised learning approach composed by training a neural network with Margin Ranking Loss and applying Kruskal achieves a slightly better score of 0.771 against the 0.693 of the unsupervised learning approach proposed, but by looking at the ARI score, the difference is more relevant. HDBSCAN achieves a lower score of 0.112 compared to the supervised learning approach with the Margin Ranking Loss (0.296), meaning that the clusters formed by HDBSCAN may lack meaningful structure or exhibit randomness. Based on the evaluation metrics, the study demonstrates that supervised learning utilizing the Margin Ranking Loss outperforms unsupervised learning techniques in terms of cluster accuracy. However, when trained with a BCE loss function, it yields less accurate clusters (NMI: 0.473, ARI: 0.108), highlighting that the unsupervised algorithms surpass this particular supervised learning approach. / Klustring av nyckelord är en viktig uppgift inom Natural Language Processing som kan användas av flera företag eftersom den hjälper till att organisera och gruppera relaterade nyckelord tillsammans. Genom att klustra nyckelord kan företag bättre förstå vilka ämnen deras kunder är intresserade av. Detta examensarbete ger en detaljerad jämförelse av två olika metoder som kan användas för att utföra denna uppgift och syftar till att undersöka om de etiketter som är associerade med nyckelorden förbättrar de kluster som erhålls. Nyckelorden klustras med hjälp av både övervakad inlärning, träning av ett neuralt nätverk och tillämpning av algoritmer för community-detektering, t.ex. Louvain, och algoritmer för oövervakad inlärning, t.ex. HDBSCAN och KMeans. Utvärderingen baseras huvudsakligen på mått som NMI och ARI. Resultaten visar att övervakad inlärning kan ge bättre kluster än oövervakad inlärning. Om man tittar på NMI-poängen uppnår den övervakade inlärningsmetoden som består av att träna ett neuralt nätverk med Margin Ranking Loss och tillämpa Kruskal en något bättre poäng på 0,771 jämfört med 0,693 för den föreslagna oövervakade inlärningsmetoden, men om man tittar på ARI-poängen är skillnaden mer relevant. HDBSCAN uppnår en lägre poäng på 0,112 jämfört med den övervakade inlärningsmetoden med Margin Ranking Loss (0,296), vilket innebär att de kluster som bildas av HDBSCAN kan sakna meningsfull struktur eller uppvisa slumpmässighet. Baserat på utvärderingsmetrikerna visar studien att övervakad inlärning som använder Margin Ranking Loss överträffar tekniker för oövervakad inlärning när det gäller klusternoggrannhet. När den tränas med en BCEförlustfunktion ger den dock mindre exakta kluster (NMI: 0,473, ARI: 0,108), vilket belyser att de oövervakade algoritmerna överträffar denna speciella övervakade inlärningsmetod.
|
62 |
Real-Time Continuous Euclidean Distance Fields for Large Indoor EnvironmentsWarberg, Erik January 2023 (has links)
Real-time spatial awareness is essential in areas such as robotics and autonomous navigation. However, as environments expand and become increasingly complex, maintaining both a low computational load and high mapping accuracy remains a significant challenge. This thesis addresses these challenges by proposing a novel method for real-time construction of continuous Euclidean distance fields (EDF) using Gaussian process (GP) regression, hereafter referred to as GP-EDF, tailored specifically for large indoor environments. The proposed approach focuses on leveraging the inherent structural information of indoor spaces by partitioning them into rooms and constructing a local GP-EDF model for each, reducing the computational cost tied to large matrix operations in GPs. By also exploiting the geometric regularities commonly found in indoor spaces it detects walls and represents them as line segments. This information is integrated into the models’ priors to both improve accuracy and further reduce the computational expense. Comparison with two baselines demonstrated the proposed approach’s effectiveness. It maintained low computation times despite increasing amounts of sensor data, signifying a significant improvement in scalability. Results also confirmed that the EDF quality remains high and isn’t affected by partitioning the GP-EDF into local models. The method also reduced the influence of sensor noise on the EDF’s accuracy when incorporating the line segments into the model. Additionally, the proposed room segmentation method proved to be efficient and generated accurately partitioned rooms, with a high degree of independence between them. In conclusion, the proposed approach offers a scalable, accurate and efficient solution for real-time construction of EDFs, demonstrating significant potential in aiding autonomous navigation within large indoor spaces. / Realtidsrumslig medvetenhet är avgörande inom områden som robotik och autonom navigering. Emellertid, när miljöer expanderar och blir alltmer komplexa, kvarstår det en betydande utmaning att bibehålla både en låg beräkningsbelastning och hög kartläggningsnoggrannhet. Denna avhandling bemöter dessa utmaningar genom att föreslå en ny metod för realtidskonstruktion av kontinuerliga euklidiska avståndsfält (EDF) med hjälp av regression via gaussiska processer (GP), hädanefter benämnd GP-EDF, specifikt anpassad för stora inomhusmiljöer. Den föreslagna metoden fokuserar på att utnyttja den inneboende strukturella informationen i inomhusmiljöer genom att dela upp dem i rum och konstruera en lokal GP-EDF-modell för varje rum, vilket minskar den beräkningsbelastning som är kopplad till stora matrisoperationer i GP:er. Genom att även utnyttja de geometriska regelbundenheter som vanligtvis finns i inomhusutrymmen, detekterar den väggar och representerar dem som linjesegment. Denna information integreras sedan i modellernas a priori-fördelningar, både för att förbättra noggrannheten och ytterligare minska den beräkningsmässiga kostnaden. Jämförelse med två baslinjemodeller demonstrerade den föreslagna metodens effektivitet. Den bibehöll låga beräkningstider trots ökande mängder sensordata, vilket indikerar en betydande förbättring av skalbarheten. Resultaten bekräftade även att kvaliteten på EDF:en förblir hög och påverkas inte av uppdelningen av GP-EDF:en i lokala modeller. Metoden minskade även sensorbrusets inverkan på EDF:ens noggrannhet vid integrering av linjesegment i modellen. Dessutom visade sig den föreslagna rumsegmenteringsmetoden vara effektiv och genererade korrekt uppdelade rum, med en hög grad av oberoende mellan dem. Sammanfattningsvis erbjuder den föreslagna metoden en skalbar och effektiv lösning för realtidskonstruktion av EDF:er, och visar på betydande potential att underlätta autonom navigering inom stora inomhusutrymmen.
|
63 |
It’s a Match: Predicting Potential Buyers of Commercial Real Estate Using Machine LearningHellsing, Edvin, Klingberg, Joel January 2021 (has links)
This thesis has explored the development and potential effects of an intelligent decision support system (IDSS) to predict potential buyers for commercial real estate property. The overarching need for an IDSS of this type has been identified exists due to information overload, which the IDSS aims to reduce. By shortening the time needed to process data, time can be allocated to make sense of the environment with colleagues. The system architecture explored consisted of clustering commercial real estate buyers into groups based on their characteristics, and training a prediction model on historical transaction data from the Swedish market from the cadastral and land registration authority. The prediction model was trained to predict which out of the cluster groups most likely will buy a given property. For the clustering, three different clustering algorithms were used and evaluated, one density based, one centroid based and one hierarchical based. The best performing clustering model was the centroid based (K-means). For the predictions, three supervised Machine learning algorithms were used and evaluated. The different algorithms used were Naive Bayes, Random Forests and Support Vector Machines. The model based on Random Forests performed the best, with an accuracy of 99.9%. / Denna uppsats har undersökt utvecklingen av och potentiella effekter med ett intelligent beslutsstödssystem (IDSS) för att prediktera potentiella köpare av kommersiella fastigheter. Det övergripande behovet av ett sådant system har identifierats existerar på grund av informtaionsöverflöd, vilket systemet avser att reducera. Genom att förkorta bearbetningstiden av data kan tid allokeras till att skapa förståelse av omvärlden med kollegor. Systemarkitekturen som undersöktes bestod av att gruppera köpare av kommersiella fastigheter i kluster baserat på deras köparegenskaper, och sedan träna en prediktionsmodell på historiska transkationsdata från den svenska fastighetsmarknaden från Lantmäteriet. Prediktionsmodellen tränades på att prediktera vilken av grupperna som mest sannolikt kommer köpa en given fastighet. Tre olika klusteralgoritmer användes och utvärderades för grupperingen, en densitetsbaserad, en centroidbaserad och en hierarkiskt baserad. Den som presterade bäst var var den centroidbaserade (K-means). Tre övervakade maskininlärningsalgoritmer användes och utvärderades för prediktionerna. Dessa var Naive Bayes, Random Forests och Support Vector Machines. Modellen baserad p ̊a Random Forests presterade bäst, med en noggrannhet om 99,9%.
|
64 |
Incorporating Scene Depth in Discriminative Correlation Filters for Visual TrackingStynsberg, John January 2018 (has links)
Visual tracking is a computer vision problem where the task is to follow a targetthrough a video sequence. Tracking has many important real-world applications in several fields such as autonomous vehicles and robot-vision. Since visual tracking does not assume any prior knowledge about the target, it faces different challenges such occlusion, appearance change, background clutter and scale change. In this thesis we try to improve the capabilities of tracking frameworks using discriminative correlation filters by incorporating scene depth information. We utilize scene depth information on three main levels. First, we use raw depth information to segment the target from its surroundings enabling occlusion detection and scale estimation. Second, we investigate different visual features calculated from depth data to decide which features are good at encoding geometric information available solely in depth data. Third, we investigate handling missing data in the depth maps using a modified version of the normalized convolution framework. Finally, we introduce a novel approach for parameter search using genetic algorithms to find the best hyperparameters for our tracking framework. Experiments show that depth data can be used to estimate scale changes and handle occlusions. In addition, visual features calculated from depth are more representative if they were combined with color features. It is also shown that utilizing normalized convolution improves the overall performance in some cases. Lastly, the usage of genetic algorithms for hyperparameter search leads to accuracy gains as well as some insights on the performance of different components within the framework.
|
Page generated in 0.0608 seconds