Spelling suggestions: "subject:"uppmärksamhetsmekanism"" "subject:"uppmärksamhetsmekanismen""
1 |
Matching Trades with Confirmations via Contrastive Learning : Asymmetric Contrastive Learning on Text Data / Applicering av kontrastinlärningsmetoder för att para ihop affärer med konfirmationerHector, Markus January 2023 (has links)
In the banking world trades of securities are finalized every day, on behalf of the banks themselves or of their clients. When the trades have been booked by the front office the confirmations sent by the counterparty have to be checked and connected to the correct trade by hand, posing the question whether this process could not be automated using machine learning techniques. There is no straightforward solution to this problem since the confirmations differ between counterparties, and can contain different enriched information or even be in different formats. This thesis addresses the problem of matching trades with their corresponding confirmations via deep learning methods. A model is trained using contrastive learning methods on generated pairs of trades and confirmations, with the goal of matching the pairs in the latent space by using nearest neighbor classification. Accuracy is measured by dividing the correctly classified samples by the total number of samples in a testing batch. The model achieves an accuracy as high as 97.8% over 100 trade-confirmation samples with a 30-dimensional latent space, and it is shown that similar contrastive methods can indeed be used in order to solve this problem. / Banker handlar varje dag med värdpapper av olika slag, antingen för sin egen vinning eller för sina kunders. När en affär har blivit beslutad mellan två parter så bokförs denna i bägge parternas interna system. En konfirmation kommer sedan skickas från den andra parten som manuellt måste paras ihop med affären vilket väcker frågan om huruvida detta inte kan automatiseras med hjälp av maskininlärning. Det finns inte en uppenbar lösning på detta problemet då konfirmationsmeddelandena kan skiljer sig åt mellan olika parter och kan innehålla olika tillagd information eller till och med vara i olika format. En model tränas genom att använda kontrast-inlärning på genererade par av affärer och konfirmationer av affärer för att kunna para ihop paren i det latenta rummet genom att se vilka grannar som ligger närmast. Nogrannheten mäts genom att dela antalet korrekt klassificerade exempel med det totala antalet par i en grupp test-par. Modellen uppnår en noggrannhet så hög som 97.8% på 100 affärs-konfirmationspar med ett 30-dimensionellt latent rum, och det visas att kontrast-inlärning kan användas för att lösa problemet. Det är dock svårt att säga mycket om hur väl modellen kan generalisera de inlärda kunskaperna eftersom träningsdatan behövde genereras och därför saknar en del av komplexiteten av ett äkte data set.
|
2 |
Exploring the Use of Attention for Generation Z Fashion Style Recognition with User Annotations as Labels / Undersökande av uppmärksamhet för igenkänning av Generation Z:s klädstilar med användarannoteringar som träningsetiketterSamakovlis, Niki January 2023 (has links)
As e-commerce and online shopping have increased worldwide, the interest and research of intelligent fashion systems have expanded. Given the competitive nature of the fashion market business, digital marketplaces depend on determining customer preferences. The fashion preferences of the next generation of consumers, Generation Z, are highly discovered on social media, where new fashion styles have emerged. For digital marketplaces to gain the attraction of Generation Z consumers, an understanding of their fashion style preferences may be crucial. However, fashion style recognition remains challenging due to the subjective nature of fashion styles. Previous research has approached the task by fine-tuning pre-trained convolutional neural networks (CNNs). The disadvantage of this approach is that a CNN leveraged on its own fails to find subtle visual differences between clothing items. Hence, this thesis seeks to approach the clothing style recognition task as a fine-grained image recognition task by incorporating a component that allows the model to focus on specific parts of the input images, referred to as an attention mechanism, into the network. Specifically, a convolutional block attention module (CBAM) is added to a CNN. Based on the results, it is concluded that the fine-tuned CNN without the attention module achieves superior performance. In contrast, qualitative analysis conducted on GradCAM visualizations shows that the attention mechanism aids the CNN in capturing discriminative features, while the network without the attention module tends to make predictions based on dataset bias. For a fair comparison, future work should involve extending this research by refining the dataset or using an additional dataset. / I takt med att e-handel har ökat världen över har intresset och forskningen för intelligenta modesystem ökat. Modemarknadens konkurrenskraft har gjort digitala marknadsplatser beroende av att bestämma deras kunders preferenser. Modepreferenserna för nästa generations konsumenter, Generation Z, upptäcks ofta på sociala medier, där nya klädstilar har skapats. För att digitala marknadsplatser ska kunna locka Generation Z kan en förståelse för deras klädstilpreferenser vara avgörande. Igenkänning av klädstilar är dock fortfarande svårt på grund av klädtilars subjektiva natur. Tidigare forskning har finjusterat faltningsnätverk. Nackdelen med detta tillvägagångssätt är att ett faltningsnätverk som utnyttjas på egen hand inte lyckas hitta dem subtila visuella skillnader mellan klädesplagg. Därför definierar denna avhandling problemet som finkornig bildigenkänning genom att addera en komponent som gör att modellen kan fokusera på specifika delar av bilderna, kallad en uppmärksamhetsmekanism, i nätverket. Specifikt läggs en convolutional block attention module (CBAM) till i arkitekturen av ett faltningsnätverk. Baserat på resultaten dras slutsatsen att det finjusterade faltningsnätverket utan uppmärksamhetsmekanismen uppnår överlägsen prestanda. Däremot visar kvalitativ analys utförd på Grad-CAMvisualiseringar att uppmärksamhetsmekanismen hjälper faltningsnätverket att fokusera på de diskriminerande egenskaperna, medan nätverket utan uppmärksamhetsmekanismen tenderar att klassificera baserat på bias i inputdatan. För en rättvis jämförelse bör framtida arbete innebära ett förfinande av datamängden eller använda en ytterligare datamängd.
|
3 |
Biodiversity Monitoring Using Machine Learning for Animal Detection and Tracking / Övervakning av biologisk mångfald med hjälp av maskininlärning för upptäckt och spårning av djurZhou, Qian January 2023 (has links)
As an important indicator of biodiversity and ecological environment in a region, the number and distribution of animals has been given more and more attention by agencies such as nature reserves, wetland parks, and animal protection supervision departments. To protect biodiversity, we need to be able to detect and track the movement of animals to understand which animals are visiting the space. This thesis uses the improved You Only Look Once Version 5 (YOLOv5) target detection algorithm and Simple online and real-time tracking with a deep association metric (DeepSORT) tracking algorithm to provide technical support for bird monitoring, identification and tracking. Specifically, the thesis tries different improvement methods based on YOLOv5 to solve the problem that small targets in images are difficult to detect. In the backbone network, different attention modules are added to enhance the network feature extraction ability; in the neck network part, the Bi-Directional Feature Pyramid Network (BiFPN) structure is used to replace the Path Aggregation Network (PAN) structure to strengthen the utilization of underlying features; in the detection head part, a high-resolution detection head is added to improve the detection ability of tiny targets. In addition, a better loss function has been used to improve the algorithm’s performance on small birds. The improved algorithms in this paper have been used in multiple comparative experiments on the VisDrone data set and a data set of bird flight images, and the results show that compared with the baseline using YOLOv5, for VisDrone data set, Spatial-to-Depth (SPD)-Convolutional stride-free (Conv) gets the highest training mean Average Precision (mAP) of all methods with an increase from 0.325 to 0.419; for the bird data set, the best result of training mAP that could be achieved is adding a P2 layer, which reaches an improvement from 0.701 to 0.724. After combining the You Only Look Once (YOLO) with DeepSORT to implement the tracking function, the improved method makes the final tracking effect better. / Som en viktig indikator på biologisk mångfald och ekologisk miljö i en region har antal och utbredning av djur uppmärksammats mer och mer av organisationer som som naturreservat, våtmarksparker och djurskyddsmyndigheter. För att skydda den biologiska mångfalden måste vi kunna upptäcka och spåra djurs rörelser för att förstå vilka djur som besöker ett område. Uppsatsen använder den förbättrade YOLOv5-måldetektionsalgoritmen och DeepSORT-spårningsalgoritmen för fågelövervakning, identifiering och spårning. Specifikt undersöks olika förbättringsmetoder baserade på YOLOv5 för att lösa problemet med att små mål i bilder är svåra att upptäcka. I den första delen av nätverket läggs olika uppmärksamhetsmoduler till; i nästa används BiFPN-strukturen för att ersätta PAN-strukturen; i detektionsdelen läggs ett högupplöst detektionshuvud till för att förbättra detekteringsförmågan för små föremål. Dessutom har en bättre förlustfunktion använts för att förbättra algoritmens prestanda för små fåglar och andra djur. De förbättrade algoritmerna har testats flera jämförande experiment på VisDronedatamängden och en datamängd av bilder av flygande fåglar. Resultaten visar att jämfört med baslinjen med YOLOv5s, för VisDrone-datamängden får SPD-Conv det högsta tränings-mAP med en ökning från 0,325 till 0,419; för fågeldatamängden nås det bästa resultatet genom att lägga till ett P2-lager, vilket ger en förbättring från 0,701 till 0,724 av mAP. Efter att ha kombinerat YOLO med DeepSORT för att implementera spårningsfunktionen, blir den slutliga spårningseffekten bättre.
|
4 |
Hierarchical Fusion Approaches for Enhancing Multimodal Emotion Recognition in Dialogue-Based Systems : A Systematic Study of Multimodal Emotion Recognition Fusion Strategy / Hierarkiska fusionsmetoder för att förbättra multimodal känslomässig igenkänning i dialogbaserade system : En systematisk studie av fusionsstrategier för multimodal känslomässig igenkänningLiu, Yuqi January 2023 (has links)
Multimodal Emotion Recognition (MER) has gained increasing attention due to its exceptional performance. In this thesis, we evaluate feature-level fusion, decision-level fusion, and two proposed hierarchical fusion methods for MER systems using a dialogue-based dataset. The first hierarchical approach integrates abstract features across different temporal levels by employing RNN-based and transformer-based context modeling techniques to capture nearby and global context respectively. The second hierarchical strategy incorporates shared information between modalities by facilitating modality interactions through attention mechanisms. Results reveal that RNN-based hierarchical fusion surpasses the baseline by 2%, while transformer-based context modeling and modality interaction methods improve accuracy by 0.5% and 0.6%, respectively. These findings underscore the significance of capturing meaningful emotional cues in nearby context and emotional invariants in dialogue MER systems. We also emphasize the crucial role of text modality. Overall, our research highlights the potential of hierarchical fusion approaches for enhancing MER system performance, presenting systematic strategies supported by empirical evidence. / Multimodal Emotion Recognition (MER) har fått ökad uppmärksamhet på grund av dess exceptionella prestanda. I denna avhandling utvärderar vi feature-level fusion, decision-level fusion och två föreslagna hierarkiska fusion-metoder för MER-system med hjälp av en dialogbaserad dataset. Den första hierarkiska metoden integrerar abstrakta funktioner över olika tidsnivåer genom att använda RNN-baserade och transformer-baserade tekniker för kontextmodellering för att fånga närliggande och globala kontexter, respektive. Den andra hierarkiska strategin innefattar delad information mellan modaliteter genom att underlätta modalitetsinteraktioner genom uppmärksamhetsmekanismer. Resultaten visar att RNN-baserad hierarkisk fusion överträffar baslinjen med 2%, medan transformer-baserad kontextmodellering och modellering av modalitetsinteraktion ökar noggrannheten med 0.5% respektive 0.6%. Dessa resultat understryker betydelsen av att fånga meningsfulla känslomässiga ledtrådar i närliggande sammanhang och emotionella invarianter i dialog MER-system. Vi betonar också den avgörande rollen som textmodalitet spelar. Övergripande betonar vår forskning potentialen för hierarkiska fusion-metoder för att förbättra prestandan i MER-system, genom att presentera systematiska strategier som stöds av empirisk evidens.
|
Page generated in 0.0768 seconds