301 |
Rozpoznání ručně psaných číslic / Recognition of Handwritten DigitsŠtrba, Miroslav January 2010 (has links)
Recognition of handwritten digits is a problem, which could serve as model task for multiclass recognition of image patterns. This thesis studies different kinds of algoritms (Self-Organizing Maps, Randomized tree and AdaBoost) and methods for increasing accuracy using fusion (majority voting, averaging log likelihood ratio, linear logistic regression). Fusion methods were used for combine classifiers with indentical train parameters, with different training methods and with multiscale input.
|
302 |
Approaches based on tree-structures classifiers to protein fold predictionMauricio-Sanchez, David, de Andrade Lopes, Alneu, higuihara Juarez Pedro Nelson 08 1900 (has links)
El texto completo de este trabajo no está disponible en el Repositorio Académico UPC por restricciones de la casa editorial donde ha sido publicado. / Protein fold recognition is an important task in the biological area. Different machine learning methods such as multiclass classifiers, one-vs-all and ensemble nested dichotomies were applied to this task and, in most of the cases, multiclass approaches were used. In this paper, we compare classifiers organized in tree structures to classify folds. We used a benchmark dataset containing 125 features to predict folds, comparing different supervised methods and achieving 54% of accuracy. An approach related to tree-structure of classifiers obtained better results in comparison with a hierarchical approach. / Revisión por pares
|
303 |
Probabilistic Diagnostic Model for Handling Classifier Degradation in Machine LearningGustavo A. Valencia-Zapata (8082655) 04 December 2019 (has links)
Several studies point out different causes of performance degradation in supervised machine learning. Problems such as class imbalance, overlapping, small-disjuncts, noisy labels, and sparseness limit accuracy in classification algorithms. Even though a number of approaches either in the form of a methodology or an algorithm try to minimize performance degradation, they have been isolated efforts with limited scope. This research consists of three main parts: In the first part, a novel probabilistic diagnostic model based on identifying signs and symptoms of each problem is presented. Secondly, the behavior and performance of several supervised algorithms are studied when training sets have such problems. Therefore, prediction of success for treatments can be estimated across classifiers. Finally, a probabilistic sampling technique based on training set diagnosis for avoiding classifier degradation is proposed<br>
|
304 |
High-Dimensional Classification Models with Applications to Email Targeting / Högdimensionella klassificeringsmetoder med tillämpning på målgruppsinriktning för e-mejlPettersson, Anders January 2015 (has links)
Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization. / Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
|
305 |
Comparative analysis for filtering toxic messages using machine learning models / Jämförande analys för filtrering av olämpliga meddelanden med maskininlärningsmodellerMurman, Mats-Hjalmar, Lundin, Jacob January 2022 (has links)
Online communication has become prevalent within today’s society. The issue with such platforms is that people are allowed to express what they want without repercussion. Consequently, toxicity on these platforms becomes common. One approach to limit such inappropriate messages could be using a filtering method. The thesis will discuss how to create a toxicity filter using machine learning along with an API for filtering messages by using the models created. The study also analyse which models perform the best in terms of three metrics: accuracy, precision and recall. The results indicate that KNN had the best result for predicting multiple variables while SVC and Logistic Regression worked best on single variable. Thus, making machine learning a viable method for filtering toxic messages. / Online kommunikation har blivit allmänt förekommande i dagens sammhälle. Ett problem som har uppstått är att man kan säga vad som helst utan åtanke. En konsekvens av detta blir att opassande medelanden förekommer i stor grad. För att begränsa olämpliga meddelanden kan ett filter användas. Rapporten kommer att disktuera hur ett sådant filter kan göras med hjälp av maskininlärning och sedan implementera till ett API. Denna rapport kommer även att analysera vilken model som fungerar bäst inom noggrannhet, precision, och återkallelse. Resultaten av denna rapport visar att KNN hade bästa resultat för flera variabler men Logistic Regression var bäst på en enskild variabel.
|
306 |
Automatic Feature Extraction for Human Activity Recognitionon the EdgeCleve, Oscar, Gustafsson, Sara January 2019 (has links)
This thesis evaluates two methods for automatic feature extraction to classify the accelerometer data of periodic and sporadic human activities. The first method selects features using individual hypothesis tests and the second one is using a random forest classifier as an embedded feature selector. The hypothesis test was combined with a correlation filter in this study. Both methods used the same initial pool of automatically generated time series features. A decision tree classifier was used to perform the human activity recognition task for both methods.The possibility of running the developed model on a processor with limited computing power was taken into consideration when selecting methods for evaluation. The classification results showed that the random forest method was good at prioritizing among features. With 23 features selected it had a macro average F1 score of 0.84 and a weighted average F1 score of 0.93. The first method, however, only had a macro average F1 score of 0.40 and a weighted average F1 score of 0.63 when using the same number of features. In addition to the classification performance this thesis studies the potential business benefits that automation of feature extractioncan result in. / Denna studie utvärderar två metoder som automatiskt extraherar features för att klassificera accelerometerdata från periodiska och sporadiska mänskliga aktiviteter. Den första metoden väljer features genom att använda individuella hypotestester och den andra metoden använder en random forest-klassificerare som en inbäddad feature-väljare. Hypotestestmetoden kombinerades med ett korrelationsfilter i denna studie. Båda metoderna använde samma initiala samling av automatiskt genererade features. En decision tree-klassificerare användes för att utföra klassificeringen av de mänskliga aktiviteterna för båda metoderna. Möjligheten att använda den slutliga modellen på en processor med begränsad hårdvarukapacitet togs i beaktning då studiens metoder valdes. Klassificeringsresultaten visade att random forest-metoden hade god förmåga att prioritera bland features. Med 23 utvalda features erhölls ett makromedelvärde av F1 score på 0,84 och ett viktat medelvärde av F1 score på 0,93. Hypotestestmetoden resulterade i ett makromedelvärde av F1 score på 0,40 och ett viktat medelvärde av F1 score på 0,63 då lika många features valdes ut. Utöver resultat kopplade till klassificeringsproblemet undersöker denna studie även potentiella affärsmässiga fördelar kopplade till automatisk extrahering av features.
|
307 |
Non-Invasive Skin Cancer Classification from Surface Scanned Lesion ImagesDhinagar, Nikhil J. 12 June 2013 (has links)
No description available.
|
308 |
Machine Learning Methods for Segmentation of Complex Metal Microstructure FeaturesFredriksson, Daniel January 2022 (has links)
Machine learning is a growing topic with possibilities that seems endless with growing areas of applications. The field of metallography today is highly dependent on the operators’ knowledge and technical equipment to perform segmentation and analysis of the microstructure. Having expert dependents is both costly and very time-consuming. Some automatic segmentation is possible using SEM but not for all materials and only having to depend on one machine will create a bottleneck. In this thesis, a traditional supervised machine learning model has been built with a Random Forest (RF) classifier. The model performs automatic segmentation of complex microstructure features from images taken using light optical- and scanning electron microscopes. Two types of material, High-Strength-Low-Alloy (HSLA) steel with in-grain carbides and grain boundary carbides, and nitrocarburized steel with different amounts of porosity were analyzed in this work. Using a bank of feature extractors together with labeled ground truth data one model for each material was trained and used for the segmentation of new data. The model trained for the HSLA steel was able to effectively segment and analyze the carbides with a small amount of training. The model could separate the two types of carbides which is not possible with traditional thresholding. However, the model trained on nitrocarburized steel showcased difficulties in detecting the porosity. The result was however improved with a different approach to the labeling. The result implies that further development can be made to improve the model. / Maskininlärning är ett växande område där möjligheterna verkar oändliga med växande applikationsområden. Området för metallografi är idag till stor utsträckning beroende av operatörens kunskap och de tekniska instrumenten som finns tillgängliga för att genomföra segmentering och analys av mikrostrukturen. Viss automatisk segmentering är möjlig genom att använda SEM, men det är inte möjligt för alla material samt att behöva vara beroende av endast en maskin kommer skapa en flaskhals. I denna uppsats har en traditionell övervakad maskininlärnings modell skapats med en Random Forest klassificerare. Modellen genomför automatisk segmentering av komplexa mikrostrukturer på bilder från både ljusoptiskt- och svepelektron-mikroskop. Två olika typer av material, Hög-Styrka-Låg-Legerat (HSLA) stål med karbider och korngräns karbider, samt nitrokarburerat stål med varierande mängd porositet analyserades i detta arbete. Genom användningen av en särdragsextraktions bank tillsammans med annoterad grundsannings data tränades en modell för vartdera materialet och användes för segmentering av ny bild data. Modellen som tränades för HSLA stålet kunde effektivt segmentera och analysera karbiderna med en liten mängd träning. Modellen kunde separera de två typerna av karbider vilket inte varit möjligt med traditionellt tröskelvärde. Den modell som tränades för det nitrokarburerade stålet visade emellertid upp svårigheter i att detektera porositeten. Resultatet kunde dock förbättras genom ett annorlunda tillvägagångssätt för annoteringen. Resultatet vittnar om att vidareutveckling kan göras för att förbättra slutresultatet.
|
309 |
Automating rule creation in a Smart Home prototype with Learning Classifier SystemAnderzén, Anton, Winroth, Markus January 2018 (has links)
The name ”smart homes” gives a promise of intelligent behavior. Today automation of the home environment is a manual task, with the creation of rules controlling devices relying on the user. For smart homes this tedious manual task can be automated. The purpose of this thesis is development of a prototype that will help users in smart homes create rules. The rules should be automatically created by the use of a machine learning solution. A learning classifier system algorithm is found as a suitable machine learning solution. A learning classifier system is used to find and create rules from sensor data. In the prototype a Raspberry Pi is used to collect the data. This data is processedby the learning classifier system, generating a set of rules. These rules predict actions for controlling a smart lighting system. The rules are continuously updated with new sensory information from the environment constantly reevaluating the previous found rules. The learning classifier system prototype solves the problem of how rules can be generated automatically by the use of machine learning. / Uttrycket ”smarta hem” utlovar ett intelligent beteende. Idag är automatiseringen av hemmiljön en manuell uppgift, där användaren formulerar regler som styr systemet. I smarta hem kan denna uppgift bli automatiserad. Syftet med denna kandidatuppsats är att utveckla en prototyp som ska hjälpa användare i smarta hem att skapa regler. Reglerna ska skapas automatiskt med hjälp av en maskininlärningslösning. Ett självlärande klassificeringssystem bedöms uppfylla den kravställning som görs. Det självlärande klassificeringssystemet används för att skapa regler från sensordata. I prototypen används en Raspberry Pi för att samla in data. Insamlad data behandlas av det självlärande klassificeringssystem som genererar en uppsättning regler. Dessa regler används för att kontrollera ett smart ljussystem. Reglerna uppdateras kontinuerligt med ny sensorinformation från omgivningen och utvärderar de tidigare funna reglerna. Den självlärande klassificeringssystemprototypen löser problemet om hur regler kan skapas automatiskt med hjälp av maskininlärning.
|
310 |
Statistical Modeling of Dynamic Risk in Security Systems / Statistisk modellering av dynamisk risk i säkerhetssystemSingh, Gurpreet January 2020 (has links)
Big data has been used regularly in finance and business to build forecasting models. It is, however, a relatively new concept in the security industry. This study predicts technology related alarm codes that will sound in the coming 7 days at location $L$ by observing the past 7 days. Logistic regression and neural networks are applied to solve this problem. Due to the problem being of a multi-labeled nature logistic regression is applied in combination with binary relevance and classifier chains. The models are trained on data that has been labeled with two separate methods, the first method labels the data by only observing location $L$. The second considers $L$ and $L$'s surroundings. As the problem is multi-labeled the labels are likely to be unbalanced, thus a resampling technique, SMOTE, and random over-sampling is applied to increase the frequency of the minority labels. Recall, precision, and F1-score are calculated to evaluate the models. The results show that the second labeling method performs better for all models and that the classifier chains and binary relevance model performed similarly. Resampling the data with the SMOTE technique increases the macro average F1-scores for the binary relevance and classifier chains models, however, the neural networks performance decreases. The SMOTE resampling technique also performs better than random over-sampling. The neural networks model outperforms the other two models on all methods and achieves the highest F1-score. / Big data har använts regelbundet inom ekonomi för att bygga prognosmodeller, det är dock ett relativt nytt koncept inom säkerhetsbranschen. Denna studie förutsäger vilka larmkoder som kommer att låta under de kommande 7 dagarna på plats $L$ genom att observera de senaste 7 dagarna. Logistisk regression och neurala nätverk används för att lösa detta problem. Eftersom att problemet är av en multi-label natur tillämpas logistisk regression i kombination med binary relevance och classifier chains. Modellerna tränas på data som har annoterats med två separata metoder. Den första metoden annoterar datan genom att endast observera plats $L$ och den andra metoden betraktar $L$ och $L$:s omgivning. Eftersom problemet är multi-labeled kommer annoteringen sannolikt att vara obalanserad och därför används resamplings metoden, SMOTE, och random over-sampling för att öka frekvensen av minority labels. Recall, precision och F1-score mättes för att utvärdera modellerna. Resultaten visar att den andra annoterings metoden presterade bättre för alla modeller och att classifier chains och binary relevance presterade likartat. Binary relevance och classifier chains modellerna som tränades på datan som använts sig av resamplings metoden SMOTE gav ett högre macro average F1-score, dock sjönk prestationen för neurala nätverk. Resamplings metoden SMOTE presterade även bättre än random over-sampling. Neurala nätverksmodellen överträffade de andra två modellerna på alla metoder och uppnådde högsta F1-score.
|
Page generated in 0.0233 seconds