• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 4
  • 3
  • 1
  • 1
  • Tagged with
  • 88
  • 55
  • 52
  • 38
  • 34
  • 19
  • 15
  • 14
  • 13
  • 13
  • 12
  • 11
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Méthodes ensembliste pour des problèmes de classification multi-vues et multi-classes avec déséquilibres / Tackling the uneven views problem with cooperation based ensemble learning methods

Koco, Sokol 16 December 2013 (has links)
De nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d'attributs, appelés des vues. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche ; en classification multi-classes, chaque vue peut s'avérer forte pour reconnaître une classe, et faible pour reconnaître d’autres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'apprentissage supervisé et ont pour but de traiter les questions d'apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées. La première contribution de cette thèse est un algorithme d'apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. La seconde partie de cette thèse concerne la mise en place d'un cadre général pour les méthodes d'apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Dans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Afin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d'appels téléphoniques, qui a fait l'objet du projet ANR DECODA. Ainsi chaque partie traite différentes facettes du problème. / Nowadays, in many fields, such as bioinformatics or multimedia, data may be described using different sets of features, also called views. For a given classification task, we distinguish two types of views:strong views, which are suited for the task, and weak views suited for a (small) part of the task; in multi-class learning, a view can be strong with respect to some (few) classes and weak for the rest of the classes: these are imbalanced views. The works presented in this thesis fall in the supervised learning setting and their aim is to address the problem of multi-view learning under strong, weak and imbalanced views, regrouped under the notion of uneven views. The first contribution of this thesis is a multi-view learning algorithm based on the same framework as AdaBoost.MM. The second part of this thesis proposes a unifying framework for imbalanced classes supervised methods (some of the classes are more represented than others). In the third part of this thesis, we tackle the uneven views problem through the combination of the imbalanced classes framework and the between-views cooperation used to take advantage of the multiple views. In order to test the proposed methods on real-world data, we consider the task of phone calls classifications, which constitutes the subject of the ANR DECODA project. Each part of this thesis deals with different aspects of the problem.
82

Klasifikace na nevyvážených datech / Classification on unbalanced data

Hlosta, Martin Unknown Date (has links)
Tématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.
83

Personalizing the post-purchase experience in online sales using machine learning. / Personalisering av efterköpsupplevelsen inom onlineförsäljning med hjälp av maskininlärning.

Kamau, Nganga, Dehoky, Dylan January 2021 (has links)
Advances in machine learning, together with an abundance of available data has lead to an explosion in personalized offerings and being able to predict what consumers want, and need without them having to ask for it. During the last decade, it has become a multi billion dollar industry, and a capability upon many of the leading tech companies rely on in their business model. Indeed, in today's business world, it is not only a capability for competitive advantage, but in many cases a matter of survival. This thesis aims to create a machine learning model able to predict customers interested in an upselling opportunity of changing their payment method after completing a purchase with the Swedish payment solutions company, Klarna Bank. Hence, the overall aim is to personalize the customer experience on the confirmation page. Two gradient boosting methods and one deep learning method were trained, evaluated and compared for this task. A logistic regression model was also trained and used as a baseline model. The results showed that all models performed better than the baseline model, with the gradient boosting methods showing the best performance. All of the models were also able to outperform the current solution with no personalization, with the best model reducing the amount of false positives by 50%. / Tillgång till stora datamängder har tillsammans med framsteg inom maskininlärning resulterat i en explotionsartad ökning i personifierade erbjudanden och möjligheter att förutspå kunders behov. Det har under det senaste decenniet utvecklats till en multimiljardindustri och en förmåga som många av de ledande techbolagen i världen förlitar sig på i sina verksamheter. I många fall är det till och med en förutsättning för att överleva i dagens industrilandskap. Det här examensarbetet ämnar att skapa en maskininlärningsmodell som är kapabel till att förutspå kunders intresse för att "uppgradera" sin betalmetod efter ett slutfört köp med den svenska betallösningsföretaget Klarna Bank. Konceptet att erbjuda en kund att uppgradera en redan vald produkt eller tjänst är på engelska känt som upselling. Det övergripande syftet för detta projekt är därför att skapa en personifierad kundupplevelse på Klarnas bekräftelsesida. Följaktligen implementerades och utvärderades två så kallade gradient boosting - metoder samt en djupinlärningsmetod. Vidare implementerades även en logistisk regressionsmodell som basmodell för att jämföra de övriga modeller med. Resultaten visar hur alla modeller överträffade den tillämpade basmodellen, där gradient boosting-metoderna påvisade bättre resultat än djupinlärningsmetoden. Därtill visar alla modeller en förbättring i jämförelse med dagens lösning på Klarnas bekräftelssesida, utan personifiering, där den bästa modellen förbättrade utfallet med 50%.
84

Consensus Control for Power Sharing in an Islanded Microgrid Using an Adaptive Virtual Impedance Approach

Alsafran, Ahmed Sulaiman, . January 2020 (has links)
No description available.
85

Unauthorised Session Detection with RNN-LSTM Models and Topological Data Analysis / Obehörig Sessionsdetektering med RNN-LSTM-Modeller och Topologisk Dataanalys

Maksymchuk Netterström, Nazar January 2023 (has links)
This thesis explores the possibility of using session-based customers data from Svenska Handelsbanken AB to detect fraudulent sessions. Tools within Topological Data Analysis are employed to analyse customers behavior and examine topological properties such as homology and stable rank at the individual level. Furthermore, a RNN-LSTM model is, on a general behaviour level, trained to predict the customers next event and investigate its potential to detect anomalous behavior. The results indicate that simplicial complexes and their corresponding stable rank can be utilized to describe differences between genuine and fraudulent sessions on individual level. The use of a neural network suggests that there are deviant behaviors on general level concerning the difference between fraudulent and genuine sessions. The fact that this project was done without internal bank knowledge of fraudulent behaviour or historical knowledge of general suspicious activity and solely by data handling and anomaly detection shows great potential in session-based detection. Thus, this study concludes that the use of Topological Data Analysis and Neural Networks for detecting fraud and anomalous events provide valuable insight and opens the door for future research in the field. Further analysis must be done to see how effectively one could detect fraud mid-session. / I följande uppsats undersöks möjligheten att använda sessionbaserad kunddata från Svenska Handelsbanken AB för att detektera bedrägliga sessioner. Verktyg inom Topologisk Dataanalys används för att analysera kunders beteende och undersöka topologiska egenskaper såsom homologi och stabil rang på individnivå. Dessutom tränas en RNN-LSTM modell på en generell beteende nivå för att förutsäga kundens nästa händelse och undersöka dess potential att upptäcka avvikande beteende. Resultaten visar att simpliciella komplex och deras motsvarande stabil rang kan användas för att beskriva skillnader mellan genuina och bedrägliga sessioner på individnivå. Användningen av ett neuralt nätverk antyder att det finns avvikande beteenden på en generell nivå avseende skillnaden mellan bedrägliga och genuina sessioner. Det faktum att detta projekt genomfördes utan intern bankkännedom om bedrägerier eller historisk kunskap om allmäna misstänksamma aktiviteter och enbart genom datahantering och anomalidetektion visar stor potential för sessionbaserad detektion. Därmed drar denna studie slutsatsen att användningen av topologisk dataanalys och neurala nätverk för att upptäcka bedrägerier och avvikande händelser ger värdefulla insikter och öppnar dörren för framtida fortsätta studier inom området. Vidare analyser måste göras för att se hur effektivt man kan upptäcka bedrägerier mitt i sessioner.
86

Performance comparison of data mining algorithms for imbalanced and high-dimensional data

Rubio Adeva, Daniel January 2023 (has links)
Artificial intelligence techniques, such as artificial neural networks, random forests, or support vector machines, have been used to address a variety of problems in numerous industries. However, in many cases, models have to deal with issues such as imbalanced data or high multi-dimensionality. This thesis implements and compares the performance of support vector machines, random forests, and neural networks for a new bank account fraud detection, a use case defined by imbalanced data and high multi-dimensionality. The neural network achieved both the best AUC-ROC (0.889) and the best average precision (0.192). However, the results of the study indicate that the difference between the models’ performance is not statistically significant to reject the initial hypothesis that assumed equal model performances. / Artificiell intelligens, som artificiella neurala nätverk, random forests eller support vector machines, har använts för att lösa en mängd olika problem inom många branscher. I många fall måste dock modellerna hantera problem som obalanserade data eller hög flerdimensionalitet. Denna avhandling implementerar och jämför prestandan hos support vector machines, random forests och neurala nätverk för att upptäcka bedrägerier med nya bankkonton, ett användningsfall som definieras av obalanserade data och hög flerdimensionalitet. Det neurala nätverket uppnådde både den bästa AUC-ROC (0,889) och den bästa genomsnittliga precisionen (0,192). Resultaten av studien visar dock att skillnaden mellan modellernas prestanda inte är statistiskt signifikant för att förkasta den ursprungliga hypotesen som antog lika modellprestanda.
87

Convolutional neural network based object detection in a fish ladder : Positional and class imbalance problems using YOLOv3 / Objektdetektering i en fisktrappa baserat på convolutional neural networks : Positionell och kategorisk obalans vid användning av YOLOv3

Ekman, Patrik January 2021 (has links)
Hydropower plants create blockages in fish migration routes. Fish ladders can serve as alternative routes but are complex to install and follow up to help adapt and develop them further. In this study, computer vision tools are considered in this regard. More specifically, object detection is applied to images collected in a hydropower plant fish ladder to localise and classify wild, farmed and unknown fish labelled according to the presence, absence or uncertainty of an adipose fin. Fish migration patterns are not deterministic, making it a challenge to collect representative and balanced data to train a model that is resilient to changing conditions. In this study, two data imbalances are addressed by modifying a YOLOv3 baseline model: foreground-foreground class imbalance is targeted using hard and soft resampling and positional imbalance using translation augmentation. YOLOv3 is a convolutional neural network predicting bounding box coordinates, class probabilities and confidence scores simultaneously. It divides images into grids and makes predictions based on grid cell locations and anchor box offsets. Performance is estimated across 10 random data splits and different bounding box overlap thresholds, using (mean) average precision as well as recall, precision and F1 score estimated at optimal validation set confidence thresholds. The Wilcoxon signed-ranks test is used for determining statistical significance. In experiments, the best performance was observed on wild and farmed fish, with F1 scores reaching 94.8 and 89.0 percent respectively. The inconsistent appearance of unknown fish appears harder to generalise to, with a corresponding F1 score of 65.7 percent. Soft sampling but especially translation augmentation contributed to enhanced performance and reduced variance, implying that the baseline model is particularly sensitive to positional imbalance. Spatial dependencies introduced by YOLOv3’s grid cell strategy likely produce local bias or overfitting. An experimental evaluation highlight the importance of not relying on a single data split when evaluating performance on a moderately large or custom dataset. A key challenge observed in experiments is the choice of a suitable confidence threshold, influencing the dynamics of the results. / Vattenkraftverk blockerar fiskars vandringsvägar. Fisktrappor kan skapa alternativa vägar men är komplexa att installera och följa upp för vidare anpassning och utveckling. I denna studie betraktas datorseende i detta avseende. Mer specifikt appliceras objektdetektering på bilder samlade i en fisktrappa i anslutning till ett vattenkraftverk, med målet att lokalisera och klassificera vilda, odlade och okända fiskar baserat på förekomsten, avsaknaden eller osäkerheten av en fett-fena. Fiskars migrationsmönster är inte deterministiska vilket gör det svårt att samla representativ och balanserad data för att trana en modell som kan hantera förändrade förutsättningar. I denna studie addresseras två obalanser i datan genom modifikation av en YOLOv3 baslinjemodell: klass-obalans genom hård och mjuk återanvändning av data och positionell obalans genom translation av bilder innan träning. YOLOv3 är ett convolutional neural network som simultant förutsäger avgränsnings-lådor, klass-sannolikheter och prediktions-säkerhet. Bilder delas upp i rutnätceller och prediktioner görs baserat på cellers position samt modifikation av fördefinierade avgränsningslådor. Resultat beräknas på 10 slumpmässiga uppdelningar av datan och för olika tröskelvärden för avgränsningslådors överlappning. På detta beräknas (mean) average precision, liksom recall, precision och F1 score med tröskelvärden för prediktions-säkerhet beräknat på valideringsdata. Wilcoxon signed-ranks test används för att avgöra statistisk signifikans. Bäst resultat observeras på vilda och odlade fiskar, med F1 scores som når 94.8 respektive 89.0 procent. Okända fiskars inkonsekventa utseenden verkar svårare att generalisera till, med en motsvarande F1 score på 65.7 procent. Mjuk återanvändning av data men speciellt translation bidrar till förbättrad prestanda och minskad varians, vilket pekar på att baslinjemodellen är särskilt känslig för positionell obalans. Spatiala beroenden skapade av YOLOv3s rutnäts-strategi producerar troligen lokal partiskhet eller överträning. I en experimentell utvärdering understryks vikten av multipel uppdelning av datan vid evaluering på ett måttligt stort eller egenskapat dataset. Att välja tröskelvärdet för prediktions-säkerhet anses utmanande och påverkar resultatens dynamik.
88

Instance Segmentation of Multiclass Litter and Imbalanced Dataset Handling : A Deep Learning Model Comparison / Instanssegmentering av kategoriserat skräp samt hantering av obalanserat dataset

Sievert, Rolf January 2021 (has links)
Instance segmentation has a great potential for improving the current state of littering by autonomously detecting and segmenting different categories of litter. With this information, litter could, for example, be geotagged to aid litter pickers or to give precise locational information to unmanned vehicles for autonomous litter collection. Land-based litter instance segmentation is a relatively unexplored field, and this study aims to give a comparison of the instance segmentation models Mask R-CNN and DetectoRS using the multiclass litter dataset called Trash Annotations in Context (TACO) in conjunction with the Common Objects in Context precision and recall scores. TACO is an imbalanced dataset, and therefore imbalanced data-handling is addressed, exercising a second-order relation iterative stratified split, and additionally oversampling when training Mask R-CNN. Mask R-CNN without oversampling resulted in a segmentation of 0.127 mAP, and with oversampling 0.163 mAP. DetectoRS achieved 0.167 segmentation mAP, and improves the segmentation mAP of small objects most noticeably, with a factor of at least 2, which is important within the litter domain since small objects such as cigarettes are overrepresented. In contrast, oversampling with Mask R-CNN does not seem to improve the general precision of small and medium objects, but only improves the detection of large objects. It is concluded that DetectoRS improves results compared to Mask R-CNN, as well does oversampling. However, using a dataset that cannot have an all-class representation for train, validation, and test splits, together with an iterative stratification that does not guarantee all-class representations, makes it hard for future works to do exact comparisons to this study. Results are therefore approximate considering using all categories since 12 categories are missing from the test set, where 4 of those were impossible to split into train, validation, and test set. Further image collection and annotation to mitigate the imbalance would most noticeably improve results since results depend on class-averaged values. Doing oversampling with DetectoRS would also help improve results. There is also the option to combine the two datasets TACO and MJU-Waste to enforce training of more categories.

Page generated in 0.0442 seconds