Spelling suggestions: "subject:"övervaka""
1 |
Cyklisters upplevda otrygghet i urban miljö – En studie med klusteranalysPersson Masud, Alexander, Olsson, Viktor January 2019 (has links)
Lunds kommun har som mål att vara en ledande kommun i Sverige när det kommer till att främja användandet av cykeln som transportmedel. Genom maskininlärningstypen klusteranalys undersöker vi om det är möjligt att analysera data generad av cyklister i Lund, för att kartlägga cyklisters upplevda otrygghet i trafiken. Syftet med att utföra klusteranalysen är att kostnadseffektivare kunna vidareutveckla en säker miljö för cyklister. Detta gör vi genom att baserat på algoritmen k-means utvecklat två olika ansatser. Dels en ansats baserad på euklidisk distans och en ansats som är punktbaserad. Dessa ansatser kontrollerar storleken på kluster för att matcha de geografiska ytor som vi arbetade med. Den euklidiska ansatsen genererar kluster baserat på storlek i meter medans den punktbaserade ansatsen genererar kluster efter antalet punkter i ett kluster. I våra experiment pekar resultaten på att den euklidiska ansatsen är bättre lämpad för klusteranalyser. Vi anser även att användbarheten av att utföra klusteranalyser med våra ansatser inte är tillräcklig för att klusteranalyser ska bli mer användbart än icke maskininlärningsbaserade analyser. Genom att komplettera ytterligare variabler i datamängden och jämföra klusteranalyser över tid så anser vi att klusteranalys kan få ett mervärde. / The municipality of Lund strives to be a leading municipality in Sweden regarding bicycle usage as a means of transportation. With the machine learning type cluster analysis, we want to examine the possibility of analysing data generated by cyclist in Lund in order to understand cyclists perceived insecurity in traffic. The purpose of performing cluster analysis was to more cost efficiently further enhance a safer environment for cyclists. We perform our analysis based on the K-means algorithm and further develop two different methods. The first method is based on Euclidian distance and the second method is based on the amount of datapoints in a given cluster. These methods control for the size of a cluster in order to match the geographical space we are working with such as roads and crossings. The Euclidian method generates clusters based on size in meters and the other method generates clusters based on amount of datapoints. In our experiment the result shows that the Euclidian method is more suited for cluster analysis. We also believe that the usability of cluster analysis with our methods isn't sufficient in order for us to believe that cluster analysis is more usable than none machine learning analysis. By adding additional variables to the data collection and comparing cluster analyses over time we believe that cluster analysis could be of more value.
|
2 |
Semi-Supervised Plant Leaf Detection and Stress Recognition / Semi-övervakad detektering av växtblad och möjlig stressigenkänningAntal Csizmadia, Márk January 2022 (has links)
One of the main limitations of training deep learning-based object detection models is the availability of large amounts of data annotations. When annotations are scarce, semi-supervised learning provides frameworks to improve object detection performance by utilising unlabelled data. This is particularly useful in plant leaf detection and possible leaf stress recognition, where data annotations are expensive to obtain due to the need for specialised domain knowledge. This project aims to investigate the feasibility of the Unbiased Teacher, a semi-supervised object detection algorithm, for detecting plant leaves and recognising possible leaf stress in experimental settings where few annotations are available during training. We build an annotated data set for this task and implement the Unbiased Teacher algorithm. We optimise the Unbiased Teacher algorithm and compare its performance to that of a baseline model. Finally, we investigate which hyperparameters of the Unbiased Teacher algorithm most significantly affect its performance and its ability to utilise unlabelled images. We find that the Unbiased Teacher algorithm outperforms the baseline model in the experimental settings when limited annotated data are available during training. Amongst the hyperparameters we consider, we identify the confidence threshold as having the most effect on the algorithm’s performance and ability to leverage unlabelled data. Ultimately, we demonstrate the feasibility of improving object detection performance with the Unbiased Teacher algorithm in plant leaf detection and possible stress recognition when few annotations are available. The improved performance reduces the amount of annotated data required for this task, reducing annotation costs and thereby increasing usage for real-world tasks. / En av huvudbegränsningarna med att träna djupinlärningsbaserade objektdetekteringsmodeller är tillgången på stora mängder annoterad data. Vid små mängder av tillgänglig data kan semi-övervakad inlärning erbjuda ett ramverk för att förbättra objektdetekteringsprestanda genom att använda icke-annoterad data. Detta är särskilt användbart vid detektering av växtblad och möjlig igenkänning av stressymptom hos bladen, där kostnaden för annotering av data är hög på grund av behovet av specialiserad kunskap inom området. Detta projekt syftar till att undersöka genomförbarheten av Opartiska Läraren (eng. ”Unbiased Teacher”), en semi-övervakad objektdetekteringsalgoritm, för att upptäcka växtblad och känna igen möjliga stressymptom hos blad i experimentella miljöer när endast en liten mängd annoterad data finns tillgänglig under träning. För att åstadkomma detta bygger vi ett annoterat dataset och implementerar Opartiska Läraren. Vi optimerar Opartiska Läraren och jämför dess prestanda med en baslinjemodell. Slutligen undersöker vi de hyperparametrar som mest påverkar Opartiska Lärarens prestanda och dess förmåga att använda icke-annoterade bilder. Vi finner att Opartiska Läraren överträffar baslinjemodellen i de experimentella inställningarna när det finns en begränsad mängd annoterad data under träningen. Bland hyperparametrarna vi överväger identifierar vi konfidensgränsen som har störst effekt på algoritmens prestanda och dess förmåga att utnyttja icke-annoterad data. Vi demonstrerar möjligheten att förbättra objektdetekteringsprestandan med Opartiska Läraren i växtbladsdetektering och möjlig stressigenkänning när få anteckningar finns tillgängliga. Den förbättrade prestandan minskar mängden annoterad data som krävs, vilket minskar anteckningskostnaderna och ökar därmed användbarheten för användning inom mer praktiska områden.
|
3 |
Övervakad namntaggning med domänspecifik träningsdata / Supervised named-entity recognition with domain-specific training dataPersson, Adam January 2016 (has links)
Övervakad maskininlärning har gett goda resultat för automatisk namntaggning. Detta kräver dock manuellt annoterad träningsdata, vilket är krävande att ta fram. Studier har visat att likhet mellan träningsdata och testdata är viktigt för att uppnå bra resultat, men normalt sett tränas system alltid med så mycket data som möjligt, utan hänsyn till dess relevans. Syftet med denna studie är att undersöka om bättre namntaggning kan uppnås genom att utesluta de delar av träningsdatan som inte tillhör samma textdomän som testdatan. För att genomföra detta konstrueras ett system med multinomial logistisk regression som tränas och testas på Stockholm-Umeå Corpus enligt både traditionell och föreslagen metod. Undersökningen visar en liten men signifikant försämring vid användning av enbart domänspecifik träningsdata, ett resultat som dock inte är genomgående för alla delar av undersökningen. Den stora fördelen av att reducera träningsdatan är dock att det ökar maskininlärningens hastighet. För att kunna utnyttja detta föreslås att namntaggning föregås av textklassificering.
|
4 |
Anomaly Detection in Riding Behaviours : Using Unsupervised Machine Learning Methods on Time Series Data from Micromobility ServicesHansson, Indra, Congreve Lifh, Julia January 2022 (has links)
The global micromobility market is a fast growing market valued at USD 40.19 Billion in 2020. As the market grows, it is of great importance for companies to gain market shares in order to stay competitive and be the first choice within micromobility services. This can be achieved by, e.g., offering a safe micromobility service, for both riders and other road users. With state-of-the-art technology, accident prevention and preventing misuse of scooters and cities’ infrastructure is achievable. This study is conducted in collaboration with Voi Technology, a Swedish micromobility company that is committed to eliminate all serious injuries and fatalities in their value chain by 2030. Given such an ambition, the aim of the thesis is to evaluate the possibility of using unsupervised machine learning for anomaly detection with sensor data, to distinguish abnormal and normal riding behaviours. The study evaluates two machine learning algorithms; isolation forest and artificial neural networks, namely autoencoders. Beyond assessing the models ability to detect abnormal riding behaviours in general, they are evaluated based on their ability to find certain behaviours. By simulating different abnormal riding behaviours, model evaluation can be performed. The data preparation performed for the models include transforming the time series data into non-overlapping windows of a specific size containing descriptive statistics. The result obtained shows that finding a one-size-fits all type of anomaly detection model did not work as desired for either the isolation forest or the autoencoder. Further, the result indicate that one of the abnormal riding behaviours appears to be easier to distinguish, which motivates evaluating models created with the aim of distinguishing that specific behaviour. Hence, a simple moving average is also implemented to explore the performance of a very basic forecasting method. For this method, a similar data transformation as previously described is not performed as it utilises a sliding window of specific size, which is run on a single feature corresponding to an entire scooter ride. The result show that it is possible to isolate one type of abnormal riding behaviour using the autoencoder model. Additionally, the simple moving average model can also be utilised to detect the behaviour in question. Out of the two models, it is recommended to deploy a simple moving average due to its simplicity. / Den globala mikromobilitetsmarknaden är en snabbt växande marknad som år 2020 värderades till 40,19 miljarder USD. I takt med att marknaden växer så ökar också kraven bland företag att erbjuda produkter och tjänster av hög kvalitet, för att erhålla en stark position på marknaden, vara konkurrenskraftiga och förbli ett förstahandsval hos sina kunder. Detta kan uppnås genom att bland annat erbjuda mikromobilitetstjänster som är säkra, för både föraren och andra trafikanter. Med hjälp av den senaste tekniken kan olyckor förebyggas och skadligt bruk av skotrar och städers infrastruktur förhindras. Följande studie utförs i samarbete med Voi Technology, ett svenskt mikromobilitetsföretag som har åtagit sig ansvaret att eliminera samtliga allvarliga skador och dödsfall i deras värdekedja till och med år 2030. I linje med en sådan ambition, är syftet med avhandlingen att utvärdera möjligheten att använda oövervakad maskininlärning för anomalidetektering bland sensordata, för att särskilja onormala och normala körbeteenden. Studien utvärderar två maskininlärningsalgoritmer; isolation forest och artificiella neurala nätverk, mer specifikt autoencoders. Utöver att bedöma modellernas förmåga att upptäcka onormala körbeteenden i allmänhet, utvärderas modellerna utifrån deras förmåga att hitta särskilda körbeteenden. Genom att simulera olika onormala körbeteenden kan modellerna evalueras. Dataförberedelsen som utförs för modellerna inkluderar omvandling av den råa tidsseriedatan till icke överlappande fönster av specifik storlek, bestående av beskrivande statistik. Det erhållna resultatet visar att varken isolation forest eller autoencodern presterar som förväntat samt att önskan om att hitta en generell modell som klarar av att detektera anomalier av olika karaktär inte verkar uppfyllas. Vidare indikerar resultatet på att ett visst onormalt körbeteende verkar enklare att särskilja än resterande, vilket motiverar att utvärdera modeller skapade i syfte att detektera det specifika beteendet. Följaktligen implementeras därför ett glidande medelvärde för att utforska prestandan hos en mycket grundläggande prediktionsmetod. För denna metod utförs inte den tidigare nämnda datatransformationen eftersom metoden använder ett glidande medelvärde som appliceras på en variabel tillhörande en fullständig åktur. Följande analys visar att autoencoder modellen klarar av att urskilja denna typ av onormalt körbeteende. Resultatet visar även att ett glidande medelvärde klarar av att detektera körbeteendet i fråga. Av de två modellerna rekommenderas en implementering av ett glidande medelvärdet på grund av dess enkelhet.
|
5 |
Using AI for Evaluating and Classifying E-mails with Limited Data SetsMalm, Daniel January 2022 (has links)
Denna rapport utvärderar olika metoder för att klassificera och kategorisera email. Mångamail anländer hos människors inkorg varje dag. När tiden går och antalet email ökar blir detsvårare att hitta specifika email. På HDAB arbetar de som konsulter och vill dela upp email iolika mappar beroende på vilket projekt det tillhör. Idag fungerar det genom ett ord-regelbaseratsystem som sorterar email I olika mappar med en precision på cirka 85%. HDAB villta reda på om det går att använda maskininlärning för det nuvarande systemet. Denna rapportpresenterar fyra maskininlärningsalgorimer, beslutsträd, random forest beslutsträd, k-nearestneighbor och naive bayes, som användas för att utvärdera om det är möjligt att kategoriseraemailen.Datan som används till rapporten kommer från HDABs mailserver och är redan kategoriseradtill rätt kaegori. / This report will evaluate methods for classifying e-mails into different categories. A lot ofemails are received in peoples inboxes every day. When the time passes and the amount ofemails increases the ability to find specific emails gets harder. At HDAB they are workingwith consulting and want to separate different emails from different project into separate folders.This is achieved today by using a word based rule system that sorts emails into differentfolders and has a precision about 85%. HDAB wants to know if it is possible to use machinelearning to automatically sort the emails into different folders instead of the current solution.This report presents four machine learning algorithms, decision tree, random forest decisiontree, k-nearest neighbor and naive bayes, which are being used for evaluation of the possibilityto categorize the emails.The data used for the report will be data gathered from HDAB’s mail server and are alreadypre-labeled into their respectively categories.
|
6 |
Comparative Study of the Combined Performance of Learning Algorithms and Preprocessing Techniques for Text ClassificationGrancharova, Mila, Jangefalk, Michaela January 2018 (has links)
With the development in the area of machine learning, society has become more dependent on applications that build on machine learning techniques. Despite this, there are extensive classification tasks which are still performed by humans. This is time costly and often results in errors. One application in machine learning is text classification which has been researched a lot the past twenty years. Text classification tasks can be automated through the machine learning technique supervised learning which can lead to increased performance compared to manual classification. When handling text data, the data often has to be preprocessed in different ways to assure a good classification. Preprocessing techniques have been shown to increase performance of text classification through supervised learning. Different processing techniques affect the performance differently depending on the choice of learning algorithm and characteristics of the data set. This thesis investigates how classification accuracy is affected by different learning algorithms and different preprocessing techniques for a specific customer feedback data set. The researched algorithms are Naïve Bayes, Support Vector Machine and Decision Tree. The research is done by experiments with dependency on algorithm and combinations of preprocessing techniques. The results show that spelling correction and removing stop words increase the accuracy for all classifiers while stemming lowers the accuracy for all classifiers. Furthermore, Decision Tree was most positively affected by preprocessing while Support Vector Machine was most negatively affected. A deeper study on why the preprocessing techniques affected the algorithms in such a way is recommended for future work. / I och med utvecklingen inom området maskininlärning har samhället blivit mer beroende av applikationer som bygger på maskininlärningstekniker. Trots detta finns omfattande klassificeringsuppgifter som fortfarande utförs av människor. Detta är tidskrävande och resulterar ofta i olika typer av fel. En uppgift inom maskininlärning är textklassificering som har forskats mycket i de senaste tjugo åren. Textklassificering kan automatiseras genom övervakad maskininlärningsteknik vilket kan leda till effektiviseringar jämfört med manuell klassificering. Ofta måste textdata förbehandlas på olika sätt för att säkerställa en god klassificering. Förbehandlingstekniker har visat sig öka textklassificeringens prestanda genom övervakad inlärning. Olika förbetningstekniker påverkar prestandan olika beroende på valet av inlärningsalgoritm och egenskaper hos datamängden. Denna avhandling undersöker hur klassificeringsnoggrannheten påverkas av olika inlärningsalgoritmer och olika förbehandlingstekniker för en specifik datamängd som utgörs av kunddata. De undersökta algoritmerna är naïve Bayes, supportvektormaskin och beslutsträd. Undersökningen görs genom experiment med beroende av algoritm och kombinationer av förbehandlingstekniker. Resultaten visar att stavningskorrektion och borttagning av stoppord ökar noggrannheten för alla klassificerare medan stämming sänker noggrannheten för alla. Decision Tree var dessutom mest positivt påverkad av de olika förbehandlingsmetoderna medan Support Vector Machine påverkades mest negativt. En djupare studie om varför förbehandlingsresultaten påverkat algoritmerna på ett sådant sätt rekommenderas för framtida arbete.
|
7 |
A semi-supervised approach to dialogue act classification using K-Means+HMM / En delvis övervakad metod för klassificering av dialoghandlingar: K-Means+HMMSigova, Elizaveta January 2016 (has links)
Dialogue act (DA) classification is an important step in the process of developing dialog systems. DA classification is a problem usually solved by supervised machine learning (ML) approaches that all require hand labeled data. Since hand labeling data is a resource-intensive task, many have proposed to focus on unsupervised or semi-supervised ML approaches to solve the problem of DA classification. This master’s thesis explores a novel method for semi-supervised approach to DA classification: K-Means+HMM. The method combines K- Means and Hidden Markov Model (HMM) modeling in addition to abstracting away the words in the utterances to their part-of-speech (POS) tags and the utterances to their cluster labels produced by K-Means prior to HMM training. The focus are the following hypotheses: H1) incorporating context of the utterances leads to better results (HMM is a method specifically used for sequential data and thus incorporates context, while K-Means does not); H2) increasing the number of clusters in K-Means+HMM leads to better results; H3) increasing the number of examples of cluster labels and hand labeled DAs pairs in K-Means+HMM leads to better results (the examples of pairs are used to create the emission probabilities used to define the HMM). One of the conclusions is that K-Means performs better than K-Means+HMM (the result for K-Means measured with one-to-one accuracy is 35.0%, while the result for K-Means+HMM is 31.6%) given 14 clusters and one example pair. However, when the number of examples is increased to 15 the result is 40.5% for K-Means+HMM; the biggest improvement is when the number of examples is increased to 20 resulting in 44% one-to-one accuracy. That is, K-Means+HMM outperforms K-Means provided that a certain number of examples is given. Another conclusion is that the number of examples has a much larger impact on the results - compared to the number of clusters - thus perhaps concluding that the statement “there is no data like labeled data” holds. / Klassificering av dialoghandlingar är ett viktigt steg i processen för utveckling av dialogsystem. Klassificering av dialoghandlingar är ett problem som vanligtvis löses med hjälp av övervakade maskininlärningsmetoder som alla behöver uppmärkt data. Eftersom uppmärkning av data är en resurskrävande uppgift har många föreslagit att fokusera på oövervakade eller delvis övervakade maskininlärningsmetoder för att lösa problemet av klassificering av dialoghandlingar. Denna masteruppsats utforskar en ny delvis övervakad maskininläningsmetod för klassificering av dialoghandlingar: K-Means+HMM. Föru- tom att metoden kombinerar K-Means och Hidden Markiv Model (HMM) modellering, abstraheras orden i yttranden till deras ordklasstaggar och yttranden till deras klusteretiketter som produceras av K-Means före HMM träningen. Projektets fokus är följande tre hypoteser: H1) en intergration av yttrandenas kontext leder till ett bättre resultat (HMM är en metod som används specifikt för sekventiell data och den integrerar således kontexten, medan K-Means gör inte det); H2) ökning av antalet kluster i K- Means+HMM leder till bättre resultat; H3) ökning av antalet exempel av par av klusteretiketter och dialoghandligar uppmärkta för hand i K- Means+HMM leder till bättre resultat (parexemplen används för att skapa emissionssannolikheter som definierar HMM). En av slutsatserna är att K-Means presterar bättre än K-Means+HMM (resultatet för K-means mätt med en-till-en noggrannhet är 35,0%, medan resultatet för K-Means+HMM är 31,6%) givet 14 kluster och ett exempelpar. Däremot, när antalet av exempelpar ökar till 15 ökar resultatet för K-Means+HMM till 40,5%. Den största ökningen är när antalet exempelpar är 20, vilket ger ett resulat på 44% en-till-en noggrannhet. Med andra ord, presterar K-Means+HMM bätre än K-Means då att ett visst antal exempelpar är tillgängligt. En annan slutsats är att antalet av exempelpar har en mycket större effekt på resultaten jämfört med antalet kluster, vilket då möjligtvis leder till slutsatsen att “det finns ingen bättre data än uppmärkt data”.
|
8 |
Sjöars potential för återhämtning post gruvpåverkan : En fallstudie av Hornträskets förmåga till naturlig självrening från metallföroreningar / Lakes' potential for post-mining recovery : A case study of the Hornträsket's capacity for natural attenuation from metal pollutionKolpakova, Marina January 2024 (has links)
Detta examensarbete utforskar hur övervakad naturlig självrening (ÖNS), en metod som utnyttjar naturens egna processer, kan användas i limniska miljöer för att minska toxiciteten och spridningen av metallföroreningar och därmed bidra till att förbättra ekosystemens hälsa. Fokus ligger på naturliga processer som kontrollerar metallföroreningar genom sorption eller sedimentering.Arbetet inleds med en presentation av en konceptuell modell för ÖNS som förklarar de viktigaste geokemiska processerna som påverkar metallers spridning i vattenmiljöer och betonar behovet av starka bevis på processernas effektivitet för att metoden ska kunna accepteras av både myndigheter och verksamhetsutövare.I studiens andra del redovisas en fallstudie på sjön Hornträsket, där historiska gruvaktiviteter har orsakat långvarig miljöpåverkan. Kemiska analyser av zink (Zn), kadmium (Cd) och koppar (Cu) i olika kontaktmedier (vatten, porvatten, sediment och sedimentfällor), tillhandahållna av Boliden Mineral AB, har undersökts för att bedöma sjöns kemiska tillstånd. Resultaten har även använts för modellering av framtida koncentrationsnivåer baserat på trender i metallhalter från 2014 till 2023. Sedan följer utvärdering av processer som avgör metallers spridning och ackumulation i sjön med hjälp av termodynamiska beräkningar i Phreeqc och Visual Minteq.Resultaten av denna studie visar att det halterna av Zn, Cd och Cu i sjövattnet minskar, men att halterna idag ändå överskrider miljökvalitetsnormerna för vattenförekomsten. Statistiska prognoser för halterna av zink och koppar indikerar en stabilisering för Zn och en potentiell minskning av halterna av Cd och Cu under de kommande åren. Metallhalterna i fallande sediment i sjön är lägre jämfört med övre sedimentlager, med en märkbar minskning av kopparnivåer i den norra delen av sjön. Baserat på resultaten från studien är det svårt att avgöra om metallerna kommer från sjöns naturliga avrinningsområde eller från tidigare gruvverksamhet, eller möjligen en kombination av båda källorna.Studien understryker att i Hornträsket, som generellt har ett genomsnittligt pH på 6,8 och övervägande oxiderande förhållanden, är adsorption en primär mekanism för att minska metallkoncentrationerna i sjövattnet. Närvaron av järn-, aluminium- och manganhydroxider och sekundära silikater kan främja adsorption av Zn och Cu, och i mindre grad Cd. Dessa resultat indikerar att den naturliga reningskapaciteten, även om den effektivt kan binda metaller i sediment, är en långsam process och det kan dröja innan den omfattande föroreningsbelastningen i sjövattnet minskar. ÖNS bör dock övervägas som en långsiktig underhållsstrategi ifall den kvarstående risken för återkontaminering av metaller från de förorenade sedimenten till vattenpelaren minimeras. På grund av osäkerheter i beslutsunderlaget och den komplexa inverkan från naturlig mineralisering krävs fortsatta undersökningar för att säkerställa ÖNS effektivitet och tillförlitlighet. / This thesis explores how monitored natural attenuation (MNA), a method that utilizes nature's own processes, can be applied in limnic environments to reduce the toxicity and spread of metal contaminants, thereby contributing to the improvement of ecosystem health. The focus is on natural processes that control metal pollution through sorption or sedimentation.The work begins with the presentation of a conceptual model for MNA, explaining the key geochemical processes influencing the distribution of metals in aquatic environments. It emphasizes the need for strong evidence of the processes' effectiveness for the method to be accepted by both authorities and operators.The second part of the study presents a case study of Lake Hornträsket, where historical mining activities have caused long-term environmental impact. Chemical analyses of zinc (Zn), cadmium (Cd), and copper (Cu) in various contact media (water, pore water, sediment, and sediment traps), provided by Boliden Mineral AB, were examined to assess the lake's chemical status. The results were also used to model future concentration levels based on trends in metal concentrations from 2014 to 2023. This is followed by an evaluation of processes determining the distribution and accumulation of metals in the lake using thermodynamic calculations in Phreeqc and Visual Minteq.The results of this study show that the levels of Zn, Cd, and Cu in the lake water are decreasing, but still exceed the environmental quality standards for the water body. Statistical forecasts for the levels of zinc and copper indicate stabilization for Zn and a potential decrease in the levels of Cd and Cu in the coming years. The metal levels in the falling sediment in the lake are lower compared to the upper sediment layers, with a noticeable reduction in copper levels in the northern part of the lake. Based on the study results, it is difficult to determine whether the metals originate from the lake's natural catchment area or from previous mining activities, or possibly a combination of both sources.The study emphasizes that in Lake Hornträsket, which generally has an average pH of 6.8 and predominantly oxidizing conditions, adsorption is a primary mechanism for reducing metal concentrations in the lake water. The presence of iron, aluminum, and manganese hydroxides and secondary silicates can promote the adsorption of Zn and Cu, and to a lesser extent Cd. These results indicate that the natural purification capacity, although effectively binding metals in the sediment, is a slow process, and it may take time before the extensive pollution load in the lake water decreases. However, MNA should be considered as a long-term maintenance strategy if the remaining risk of recontamination of metals from the contaminated sediments to the water column is minimized. Due to uncertainties in the decision-making basis and the complex impact of natural mineralization, further investigations are required to ensure the effectiveness and reliability of MNA.
|
9 |
Semi-supervised anomaly detection in mask writer servo logs : An investigation of semi-supervised deep learning approaches for anomaly detection in servo logs of photomask writers / Semiövervakad anomalidetektion i maskritares servologgar : En undersökning av semi-övervakade djupinlärningsmetoder för anomalidetektion i servologgar av fotomaskritareLiiv, Toomas January 2023 (has links)
Semi-supervised anomaly detection is the setting, where in addition to a set of nominal samples, predominantly normal, a small set of labeled anomalies is available at training. In contrast to supervised defect classification, these methods do not learn the anomaly class directly and should have better generalization capability as new kinds of anomalies are introduced at test time. This is applied in an industrial defect detection context in the logs of photomask writers. Four methods are compared: two semi-supervised one-class anomaly detection methods: Deep Semi-Supervised Anomaly Detection (DeepSAD), hypersphere classifier (HSC) and two baselines, a reconstructive GAN method based on the Dual Autoencoder GAN (DAGAN) and a non-learned distance method based on the Kullback-Leibler divergence. Results show that semi-supervision increases performance, as measured by ROC AUC and PRO AUC, of DeepSAD and HSC, but at the tested supervision levels, do not surpass the performance of DAGAN. Furthermore, it is found that autoencoder pretraining increases performance of HSC similarly to as it does for DeepSAD, even though only the latter is recommended in literature. Lastly, soft labels are utilized for HSC, but results show that this has no or negative effect on the performance. / Inom semiövervakad anomalidetektion finns det förutom en mängd nominella datapunkter (huvudsakligen normala), även en liten mängd märkta anomalier tillgängliga vid träning. I motsats till övervakad defektklassifikation lär sig dessa metoder inte att känna igen anomaliklassen direkt och bör ha större generaliseringsförmåga när nya sorters anomalier introduceras vid testning. Detta appliceras inom industriell defektdetektion i loggarna för fotomaskritare. Fyra metoder jämförs: Djup Semiövervakad Anomalidetektion (DeepSAD), hypersfärklassificerare (HSC) och två basnivåer, en rekonstruktiv GAN-metod baserad på Dual Autoencoder GAN (DAGAN) och en ickke-lärd avståndsmetod baserad på Kullback-Leibler-divergens. Resultaten visar att semiöervakning förbättrar prestationen, mätt med hjälp av ROC AUC och PRO AUC, för DeepSAD och HSC. Däremot överträffar det inte, för de testade övervakningsnivåerna, prestationen för DAGAN. Vidare kan det ses att autokodningsförträning förbättrar prestationen för HSC på ett liknande sätt som det gör för DeepSAD, trots att bara det senare rekommenderas i litteraturen. Slutligen används mjuka märkningar för HSC, men resultaten visar att detta har liten eller till och med negativ påverkan på resultatet.
|
10 |
A study about Active Semi-Supervised Learning for Generative Models / En studie om Aktivt Semi-Övervakat Lärande för Generativa ModellerFernandes de Almeida Quintino, Elisio January 2023 (has links)
In many relevant scenarios, there is an imbalance between abundant unlabeled data and scarce labeled data to train predictive models. Semi-Supervised Learning and Active Learning are two distinct approaches to deal with this issue. The first one directly uses the unlabeled data to improve model parameter learning, while the second performs a smart choice of unlabeled points to be sent to an annotator, or oracle, which can label these points and increase the labeled training set. In this context, Generative Models are highly appropriate, since they internally represent the data generating process, naturally benefiting from data samples independently of the presence of labels. This Thesis proposes Expectation-Maximization with Density-Weighted Entropy, a novel active semi-supervised learning framework tailored towards generative models. The method is theoretically explored and experiments are conducted to evaluate its application to Gaussian Mixture Models and Multinomial Mixture Models. Based on its partial success, several questions are raised and discussed as to identify possible improvements and decide which shortcomings need to be dealt with before the method is considered robust and generally applicable. / I många relevanta scenarier finns det en obalans mellan god tillgång på oannoterad data och sämre tillgång på annoterad data för att träna prediktiva modeller. Semi-Övervakad Inlärning och Aktiv Inlärning är två distinkta metoder för att hantera denna fråga. Den första använder direkt oannoterad data för att förbättra inlärningen av modellparametrar, medan den andra utför ett smart val av oannoterade punkter som ska skickas till en annoterare eller ett orakel, som kan annotera dessa punkter och öka det annoterade träningssetet. I detta sammanhang är Generativa Modeller mycket lämpliga eftersom de internt representerar data-genereringsprocessen och naturligt gynnas av dataexempel oberoende av närvaron av etiketter. Denna Masteruppsats föreslår Expectation-Maximization med Density-Weighted Entropy, en ny aktiv semi-övervakad inlärningsmetod som är skräddarsydd för generativa modeller. Metoden utforskas teoretiskt och experiment genomförs för att utvärdera dess tillämpning på Gaussiska Mixturmodeller och Multinomiala Mixturmodeller. Baserat på dess partiella framgång ställs och diskuteras flera frågor för att identifiera möjliga förbättringar och avgöra vilka brister som måste hanteras innan metoden anses robust och allmänt tillämplig.
|
Page generated in 0.0503 seconds