Global ETD Search

1	Identifiera löv i skogar – Att lära en dator känna igen löv med ImageAI Nordqvist, My January 2019 (has links) A current field of research today is machine learning because it can simplify everyday life for human beings. A functioning system that has learned specific tasks can make it easier for companies in both cost and time. A company who want to use machine learning is SCA, who owns and manages forests to produce products. They have a need to automate forest classification. In order to evaluate forests, and to plan forestry measures, the proportion of leafy tree that is not used in production must be determined. Today, manual work is required of people who have to investigate aerial photos to classify the tree types. This study investigates whether it is possible, through machine learning, to teach a computer to determine whether it is leaf or not in photographs. A program is constructed with the library ImageAI which receives methods for training and predicting information in images. It examines how the choice of neural network and the number of images affects the safety of the models and how reliable the models can be. Exercise time and hardware are also two factors that are investigated. The result shows that the neural network ResNet delivers the safest results and the more images the computer exercises, the safer the result. The final model is a ResNet model that has trained on 20,000 images and has 79,0 percent security. Based on 50 samples, the mean value for safety is 90,5 percent and the median is 99,6 percent. / Maskininlärning är idag ett aktuellt forskningsområde som kan förenkla vardagen för oss människor. Ett fungerande system som har lärt sig specifika uppgifter kan underlätta för företag i både kostnad och tid. Ett företag som vill använda maskininlärning är SCA, som äger och förvaltar skog för att producera produkter. De har behov av att automatisera klassificering av skog. För att värdera skogar, samt planera skogsåtgärder, måste andelen lövträd som inte används i produktionen bestämmas. Idag krävs det manuellt arbete av personer som måste undersöka flygfoton för att klassificera trädtyperna. Denna studie undersöker om det är möjligt, via maskininlärning, att lära en dator avgöra om det är löv eller inte i ortofoton. Ett program konstrueras med biblioteket ImageAI som erhåller metoder för att träna och förutsäga information i bilder. Det undersöks hur valet av neuralt nätverk och antalet bilder påverkar säkerheten för modellerna samt hur tillförlitlig modellerna kan bli. Träningstid och hårdvara är också två faktorer som studeras. Resultatet visar att neurala nätverket ResNet levererar säkrast resultat och desto fler bilder datorn tränar på, desto säkrare blir resultatet. Den slutgiltiga modellen är en ResNet-modell som tränat på 20 000 bilder och har 79,0 procents säkerhet. Utifrån 50 stickprov är medelvärdet för säkerheten 90,5 procent och medianen 99,6 procent. SCA Machine learning Neural networks Deep learning Forest classification Leaf Orthophoto Python TensorFlow ImageAI SCA Maskininlärning Neurala nätverk Djuplärning Klassificering av skog Löv Ortofoton Python TensorFlow ImageAI Software Engineering Programvaruteknik
2	Customer churn prediction in a slow fashion e-commerce context : An analysis of the effect of static data in customer churn prediction Colasanti, Luca January 2023 (has links) Survival analysis is a subfield of statistics where the goal is to analyse and model the data where the outcome is the time until the occurrence of an event of interest. Because of the intrinsic temporal nature of the analysis, the employment of more recently developed sequential models (Recurrent Neural Network (RNN) and Long Short Term Memory (LSTM)) has been paired with the use of dynamic temporal features, in contrast with the past reliance on static ones. Such an abrupt shift of policy has left open the challenge of understanding how those two kinds of features influence the predictive capabilities of models. This thesis aims at assessing the effect of combining static and dynamic features on the most commonly used models in survival analysis. In doing so, we compare the error measurements of such models with dataset composed of purely dynamic features or a combination of static and dynamic ones. Empirical measurements have shown that models respond differently to the addition of static features to the analysis, with more complex, sequential models like the LSTM struggling to deal with the added data complexity (with a 12% increase in error), while non sequential models see reductions of up to 14.7% in error. The thesis also includes a clusterization task aimed at aiding the interpretation of survival analysis outcomes. / Överlevnadsanalys är ett delområde inom statistiken där målet är att analysera och modellera data där utfallet är tiden fram till dess att en händelse av intresse inträffar. På grund av analysens inneboende tidsmässiga karaktär har användningen av mer nyligen utvecklade sekventiella modeller (RNN och LSTM) kombinerats med användningen av dynamiska tidsmässiga egenskaper, i motsats till den tidigare förlitningen på statiska sådana. En sådan drastisk förändring av ansatsen har lämnat öppet för utmaningen att förstå hur dessa två typer av egenskaper påverkar modellernas förutsägande förmåga. Syftet med denna uppsats är att bedöma effekten av att kombinera statiska och dynamiska egenskaper på de vanligaste modellerna för överlevnadsanalys. I detta syfte jämför vi felmätningar av sådana modeller med dataset som består av rent dynamiska egenskaper eller en kombination av statiska och dynamiska egenskaper. Empiriska mätningar har visat att modellerna reagerar olika på tillägget av statiska egenskaper till analysen, där mer komplexa, sekventiella modeller som LSTM kämpar för att hantera den ökade datakomplexiteten (med en ökning av felet med 12 %), medan icke-sekventiella modeller ser en minskning av felet med upp till 14,7 %. Uppsatsen innehåller också en klusteruppgift som syftar till att underlätta tolkningen av resultaten av överlevnadsanalyser. / L’analisi della sopravvivenza è una branca della statistica il cui obiettivo è l’analisi e la modellazione di dati il cui risultato è il tempo che intercorre fino al verificarsi di un evento di interesse. A causa dell’intrinseca natura temporale dell’analisi, l’impiego di modelli sequenziali di più recente sviluppo (RNN e LSTM) è stato abbinato all’uso di attributi temporali dinamici, a differenza dell’uso più diffuso in passato di attributi statici. Questo brusco cambiamento ha lasciato aperta la sfida di capire come questi due tipi di attributi influenzino le capacità predittive dei modelli. Questa tesi si propone di valutare l’effetto della combinazione di attributi statici e dinamici sui modelli più comunemente utilizzati nell’analisi della sopravvivenza. A tal fine, confrontiamo le misure di errore di tali modelli con set di dati composti da attributi puramente dinamici o da una combinazione di statici e dinamici. I risultati empirici hanno mostrato che i modelli rispondono in modo diverso all’aggiunta di attrbiuti statici, con i modelli sequenziali più complessi, come l’LSTM, che faticano a gestire la complessità dei dati aggiunti (con un aumento dell’errore del 12%), mentre i modelli non sequenziali registrano riduzioni dell’errore fino al 14,7%. La tesi comprende anche una clusterizzazione volta a facilitare l’interpretazione dei risultati dell’analisi di sopravvivenza. Survival Analysis Time To Event prediction Churn retention Machine Learning Deep Learning Customer Clustering E-commerce Analisi di sopravvivenza Previsione del tempo a evento Ritenzione dall’abbandono dei clienti Apprendimento automatico Apprendimento profondo Segmentazione della clientela Commercio elettronico Överlevnadsanalys Tid till händelseförutsägelse Churn Prediction Maskininlärning Djuplärning Kundkluster E-handel Computer and Information Sciences Data- och informationsvetenskap
3	Training a Neural Network using Synthetically Generated Data / Att träna ett neuronnät med syntetisktgenererad data Diffner, Fredrik, Manjikian, Hovig January 2020 (has links) A major challenge in training machine learning models is the gathering and labeling of a sufficiently large training data set. A common solution is the use of synthetically generated data set to expand or replace a real data set. This paper examines the performance of a machine learning model trained on synthetic data set versus the same model trained on real data. This approach was applied to the problem of character recognition using a machine learning model that implements convolutional neural networks. A synthetic data set of 1’240’000 images and two real data sets, Char74k and ICDAR 2003, were used. The result was that the model trained on the synthetic data set achieved an accuracy that was about 50% better than the accuracy of the same model trained on the real data set. / Vid utvecklandet av maskininlärningsmodeller kan avsaknaden av ett tillräckligt stort dataset för träning utgöra ett problem. En vanlig lösning är att använda syntetiskt genererad data för att antingen utöka eller helt ersätta ett dataset med verklig data. Denna uppsats undersöker prestationen av en maskininlärningsmodell tränad på syntetisk data jämfört med samma modell tränad på verklig data. Detta applicerades på problemet att använda ett konvolutionärt neuralt nätverk för att tyda tecken i bilder från ”naturliga” miljöer. Ett syntetiskt dataset bestående av 1’240’000 samt två stycken dataset med tecken från bilder, Char74K och ICDAR2003, användes. Resultatet visar att en modell tränad på det syntetiska datasetet presterade ca 50% bättre än samma modell tränad på Char74K. Synthetic data set Generating synthetic data set Machine learning Deep Learning Convolutional Neural Networks Machine learning model Character recognition in natural images Char74k ICDAR2003. Syntetiskt dataset Generera syntetiskt data Maskininlärning Maskininlärningsmodell Djuplärning Konvolutionära neurala nätverk teckenigenkänning i bilder Char74k ICDAR2003 Computer Sciences Datavetenskap (datalogi)

1

Page generated in 0.0587 seconds