Global ETD Search

101	Byggdelsklassificering av installationer : En fallstudie i hur BSAB-systemet kan utvecklas / Classification of HVAC components in the construction industry : A case study on how the BSAB system can be developed Lindell, Oscar, Ström, David January 2014 (has links) Building Information Modelling (BIM) medför ett helt nytt sätt att arbeta där objektsbaserade 3D-modeller är den huvudsakliga informationskällan. Modellerna kan bära på stora mängder information i jämförelse med den traditionella pappersritningen som är begränsad till text, symboler och en 2D-visualisering av byggnaden. Att arbeta med BIM ställer helt nya krav på hur information ska struktureras för att säkerställa att den tolkas på samma sätt av alla aktörer i ett projekt och all den programvara som används för att hantera informationen. Den här rapporten behandlar installationer specifikt och klassifikationen av byggdelar som är grunden för att identifiera objekt i en modell. Vi har utrett BSAB 96 som är ett väletablerat system för klassifikation av byggdelar men i sin nuvarande utformning täcker det inte behovet för att kunna användas i BIM. Detta är en nyckelfaktor för att kunna koppla rätt information till BIM-objekten så att en obruten informationskedja kan erhållas. Vi förklarar teorin bakom klassifikationssystem, BSAB 96 i synnerhet, och hur de appliceras på BIM. De problemområden och utvecklingsbehov som finns ringas in och i en fallstudie föreslås två konkreta förslag på utvidgning av byggdelstabellen för installationer i BSAB 96; ett för praktisk tillämpning idag och ett baserat på en fullt integrerad datoriserad process. / Building Information Modelling (BIM) represents a completely new way of working where object-based 3D models are the main source of information. The models can carry large amounts of information in comparison with the traditional paper drawing which is limited to text, symbols, and a 2D visualization of the building. Working with BIM creates new requirements on how information should be structured to ensure that it is interpreted in the same manner by all participants in a project and all the software that is being used to handle it. This report deals with HVAC especially and the classification of construction elements which is the basis for identifying objects in the model. We have investigated BSAB 96 which is a well-established system for classification of construction elements but in its current state it does not cover the needs for use in BIM. This is a key factor to be able to connect the right information to BIM objects. We explain the theory behind classification systems, BSAB 96 in particular, and how they are applied to BIM. The problem areas and development needs are highlighted and in a case study two concrete suggestions are proposed for expanding the classification table for HVAC construction elements in BSAB 96; one for practical used today and one based on a fully integrated computerized process. BIM BSAB classification building process design HVAC building installations BIM BSAB klassificering byggprocess projektering VVS installationer Civil Engineering Samhällsbyggnadsteknik
102	Classification Storage : A practical solution to file classification for information security / Classification Storage : En praktisk lösning till fil klassificering för informationssäkerhet Sloof, Joël January 2021 (has links) In the information age we currently live in, data has become the most valuable resource in the world. These data resources are high value targets for cyber criminals and digital warfare. To mitigate these threats, information security, laws and legislation is required. It can be challenging for organisations to have control over their data, to comply with laws and legislation that require data classification. Data classification is often required to determine appropriate security measured for storing sensitive data. The goal of this thesis is to create a system that makes it easy for organisations to handle file classifications, and raise information security awareness among users. In this thesis, the Classification Storage system is designed, implemented and evaluated. The Classification Storage system is a Client--Server solution that together create a virtual filesystem. The virtual filesystem is presented as one network drive, while data is stored separately, based on the classifications that are set by users. Evaluating the Classification Storage system is realised through a usability study. The study shows that users find the Classification Storage system to be intuitive, easy to use and users become more information security aware by using the system. / I dagens informationsålder har data blivit den mest värdefulla tillgången i världen. Datatillgångar har blivit högt prioriterade mål för cyberkriminella och digital krigsföring. För att minska dessa hot, finns det ett behov av informationssäkerhet, lagar och lagstiftning. Det kan vara utmanande för organisationer att ha kontroll över sitt data för att följa lagar som kräver data klassificering för att lagra känsligt data. Målet med avhandlingen är att skapa ett system som gör det lättare för organisationer att hantera filklassificering och som ökar informationssäkerhets medvetande bland användare. Classification Storage systemet har designats, implementerats och evaluerats i avhandlingen. Classification Storage systemet är en Klient--Server lösning som tillsammans skapar ett virtuellt filsystem. Det virtuella filsystemet är presenterad som en nätverksenhet, där data lagras separat, beroende på den klassificeringen användare sätter. Classification Storage systemet är evaluerat genom en användbarhetsstudie. Studien visar att användare tycker att Classification Storage systemet är intuitivt, lätt att använda och användare blir mer informationssäkerhets medveten genom att använda systemet. Data Classification Information Classification UserDriven Classification Information Security Awareness Dataklassificering Informationsklassificering Användardriven Klassificering Informationssäkerhet Medvetenhet Computer Sciences Datavetenskap (datalogi)
103	Detektering av phishing : En litteraturstudie om automatisk detektering av phishing med artificiell intelligens (AI) / Detection of phishing : A litterature study about automatic detection of phishing with artificial intelligence (AI) Ameri, Haydar January 2020 (has links) Det ökade antalet mejlanvändare idag har lett till en upptrappning och ytterligare problem som är relaterade till phishing. Phishing är ett stort samhällsproblem idag som drabbar både individer och organisationer. Sedan den första attacken kom 1996, verkar phishing vara ett olöst mysterium än idag. Utvecklingen av artificiell intelligens (AI) och maskininlärning (ML) har pågått länge, men i samband med introduceringen av djupinlärning (DL) 2010 så har nya innovativa lösningar tillämpats inom flera problemområden. Det här arbetet undersöker ett av dessa, nämligen automatisk detektering av phishing baserad på AI. Arbetet presenterar en överblick av AI-utveckling men också lyfter fram viktiga aspekter som är av betydelse för framtida forskning. Arbetet ger bidrag i termer av nya idéer och ny kunskap till ett nystartat projekt vid högskolan i Skövde där målet är att utveckla ett verktyg som kan varna användaren när den befinner sig i en phishing situation. Vidare har olika lösningar identifierats och presenterats med avseende på skydd åt organisationer mot phishing. Det är dock fortfarande oklart om utmaningen med phishing är löst, eftersom merparten av lösningarna inte har implementerats i verkliga miljöer. Baserat på nuvarande forskning pekar de framstegen som har gjorts inom AI att en lösning av utmaningen kan komma inom en snar framtid. / The increased number of email users today has led to an escalation and additional problems related to phishing. Phishing is a major problem for society affecting both individuals and organizations. Since the first attack came in 1996, phishing still seems to be an unsolved challenge to this day. The development of artificial intelligence (AI) and machine learning (ML) has been going on for a long time, but in connection with the introduction of deep learning (DL) in 2010, new innovative solutions have been applied in several problem areas. This thesis examines one of these, namely automatic detection of phishing based on AI. The thesis presents an overview of the developments in this area, but also highlights important aspects that are of importance for future research. The work contributes in terms of new ideas and knowledge to a newly started project at the University of Skövde where the goal is to develop a tool that can alert the user when in a phishing situation. In addition, various solutions have been identified and presented with regard to protection for organizations against phishing. However, it is still unclear if the challenge of phishing has been solved, since most of these solutions have not been implemented in realworld environments. Based on current research, advances made in the area of AI indicates that a solution to the challenge of phishing may come in the near future. Artificial intelligence phishing classification mail URL Artificiell intelligens phishing klassificering mail URL Information Systems
104	Biomechanical differences between elite able-bodied kayakers and elite para-kayakers during paddling : The second and third step of creating the new Paralympic classification system / Biomekaniska skillnader mellan elit kanotister utan funktionsnedsättning och elit para-kanotister vid paddling : Det andra och tredje steget av utvecklingen av det nya Paralympiska klassificeringssystemet för Parakanot Rosén, Johanna January 2015 (has links) Aim The aim of the study was to examine the differences between able-bodied athletes (AB) and three para-athlete (PA) classes in three-dimensional range of motion (RoM) for the major joints of the body, and to define which joint angles are correlated with power output during paddling on a kayak ergometer. An additional aim was to validate three new classification tests used in classification of Paracanoe athletes. This study was an integral part of developing a new evidence-based classification system for Paracanoe which was accepted by the International Paralympic Committee in 2015. Method 41 PA (13 F and 28 M; 35 ± 9.0 years, 70.6 ± 12.5 kg, 1.74 ± 0.12 m) and 10 AB (4 F and 6 M; 22 ± 3.5 years, 78.3 ± 10.2 kg, 1.79 ± 0.06 m) participated in the study. Three-dimensional kinematic data was recorded using an optoelectronic system containing 12 infrared cameras capturing reflective markers placed on the participants, the paddle and on the force transducers. Force was measured at the paddle to enable calculations of power output. The kinematic and kinetic data were collected during paddling on the kayak ergometer at incremental intensities starting at a low intensity level (50 W). The athletes then increased intensity with 50 W up to a high intensity level which was defined as the highest level the athlete could maintain with good technique for 20 stroke cycles. The athletes were then asked to paddle at a maximal level. The kinematic and kinetic data were imported into Visual 3D and MATLAB where all calculations were made. Results There were significant differences between the AB and the three PA classes for joint angles in the shoulder (e.g. flexion/extension and internal/external rotation, AB>PA), trunk (trunk rotation and trunk flexion, AB>PA) and leg (hip, knee and ankle flexion AB>PA) during paddling. Significant positive correlations were seen for both men and women between power output and trunk rotation RoM, hip, knee and ankle flexion RoM and in maximal trunk flexion during paddling. A positive correlation was also seen between the newly developed classification tests and the RoM values and power output. Conclusion This study showed that the RoM of the trunk and legs are positively correlated with power output during paddling on a kayak ergometer and that there is a significant difference between the AB and the PA classes in trunk and leg RoM. The results also showed that the newly developed classification tests are valid tests to use in classification of Paracanoe athletes. / Syfte och frågeställningar Syftet med studien var att undersöka skillnaderna mellan icke funktionsnedsatta idrottare (AB) och tre klasser av funktionsnedsatta idrottare (PA) i tredimensionellt rörelseomfång (RoM) i samtliga större leder i kroppen, och att definiera vilka leder som korrelerade med power output vid paddling på kajak ergometer. Ett ytterligare syfte var att validera tre nya klassificeringstester för klassificering i Parakanot. Denna studie var en viktig del vid utvecklingen av ett nytt evidensbaserat klassificeringssystem för Parakanot vilket blev accepterat av Internationella Paralympiska Kommitteen under 2015. Metod 41 PA (13 K och 28 M; 35 ± 9.0 år, 70.6 ± 12.5 kg, 1.74 ± 0.12 m) och 10 AB (4 K och 6 M; 22 ± 3.5 år, 78.3 ± 10.2 kg, 1.79 ± 0.06 m) deltog i studien. Tredimensionell kinematisk data samlades in med ett optoelektroniskt system innehållandes 12 infraröda kameror som registrerade reflekterande markörer som var fäst på försökspersonerna, på paddeln och på kraftgivarna. Kraft mättes vid paddeln vilket möjliggjorde beräkning av power output. Den kinematiska och kinetiska datan samlades in vid paddling på kajak ergometer på olika intensitetsnivåer och idrottarna startade på en låg intensitetsnivå (50 W). Idrottarna ökade sedan intensitet med 50 W upp till en hög intensitet vilket definierades som den högsta nivån som idrottarna kunde paddla stabilt på med bra teknik i 20 drag cykler. Idrottarna paddlade sedan på en maximal nivå. Den kinematiska och kinetiska datan importerades sedan till Visual3D och MATLAB där alla beräkningar utfördes. Resultat Det fanns en signifikanta skillnader mellan AB och de tre PA klasserna för ledvinklarna i skuldran (flexion/extension och inåt/utåt rotation, AB>PA), bålen (bål rotation och bål flexion, AB>PA) och i benen (höft, knä och ankel flexion, AB>PA) vid paddling. Det fanns en signifikant positiv korrelation för både män och kvinnor mellan power output och RoM i bål rotation, höft, knä och ankel flexion och i maximal bål flexion vid paddling. En positiv korrelation fanns även mellan de nyutvecklade klassificeringstesterna och RoM värdena samt power output. Slutsats Studien visade att bål- och benrörelsen är positivt korrelerat med power output vid paddling på kajak ergometer och att det är en signifikant skillnad mellan AB och PA klasserna i bål och ben RoM. Resultaten visade också att de nyutvecklade klassificeringstesterna är valida tester för användning inom klassificering av Parakanotister. / <p>Kursen Projektarbete.</p> kinematics kinetics Paralympics disability 3D analysis classification kinematik kinetik Paralympics funktionshinder 3D analys klassificering Sport and Fitness Sciences Idrottsvetenskap
105	The impact of missing data imputation on HCC survival prediction : Exploring the combination of missing data imputation with data-level methods such as clustering and oversampling Dalla Torre, Kevin, Abdul Jalil, Walid January 2018 (has links) The area of data imputation, which is the process of replacing missing data with substituted values, has been covered quite extensively in recent years. The literature on the practical impact of data imputation however, remains scarce. This thesis explores the impact of some of the state of the art data imputation methods on HCC survival prediction and classification in combination with data-level methods such as oversampling. More specifically, it explores imputation methods for mixed-type datasets and their impact on a particular HCC dataset. Previous research has shown that, the newer, more sophisticated imputation methods outperform simpler ones when evaluated with normalized root mean square error (NRMSE). Contrary to intuition however, the results of this study show that when combined with other data-level methods such as clustering and oversampling, the differences in imputation performance does not always impact classification in any meaningful way. This might be explained by the noise that is introduced when generating synthetic data points in the oversampling process. The results also show that one of the more sophisticated imputation methods, namely MICE, is highly dependent on prior assumptions about the underlying distributions of the dataset. When those assumptions are incorrect, the imputation method performs poorly and has a considerable negative impact on classification. / Forskningen kring data imputation, processen där man ersätter saknade data med substituerade värden, har varit omfattande de senaste åren. Litteraturen om den praktiska inverkan som data imputation metoder har på klassificering är dock otillräcklig. Det här kandidatexamensarbetet utforskar den inverkan som de nyare imputation metoderna har på HCC överlevnads klassificering i kombination med andra data-nivå metoder så som översampling. Mer specifikt, så utforskar denna studie imputations metoder för heterogena dataset och deras inverkan på ett specifikt HCC dataset. Tidigare forskning har visat att de nyare, mer sofistikerade imputations metoderna presterar bättre än de mer enkla metoderna när de utvärderas med normalized root mean square error (NRMSE). I motsats till intuition, så visar resultaten i denna studie att när imputation kombineras med andra data-nivå metoder så som översampling och klustring, så påverkas inte klassificeringen alltid på ett meningsfullt sätt. Detta kan förklaras med att brus introduceras i datasetet när syntetiska punkter genereras i översampling processen. Resultaten visar också att en av de mer sofistikerade imputation metoderna, nämligen MICE, är starkt beroende på tidigare antaganden som görs om de underliggande fördelningarna i datasetet. När dessa antaganden är inkorrekta så presterar imputations metoden dåligt och har en negativ inverkan på klassificering. missing data imputation HCC survival prediction oversampling saknade data imputation HCC överlevnads klassificering översampling Engineering and Technology Teknik och teknologier
106	Optimizing the Performance of Text Classification Models by Improving the Isotropy of the Embeddings using a Joint Loss Function Attieh, Joseph January 2022 (has links) Recent studies show that the spatial distribution of the sentence representations generated from pre-trained language models is highly anisotropic, meaning that the representations are not uniformly distributed among the directions of the embedding space. Thus, the expressiveness of the embedding space is limited, as the embeddings are less distinguishable and less diverse. This results in a degradation in the performance of the models on the downstream task. Most methods that define the state-of-the-art in this area proceed by improving the isotropy of the sentence embeddings by refining the corresponding contextual word representations, then deriving the sentence embeddings from these refined representations. In this thesis, we propose to improve the quality and distribution of the sentence embeddings extracted from the [CLS] token of the pre-trained language models by improving the isotropy of the embeddings. We add one feed-forward layer, referred to as the Isotropy Layer, between the model and the downstream task layers. We train this layer using a novel joint loss function that optimizes an isotropy quality measure and the downstream task loss. This joint loss pushes the embeddings outputted by the Isotropy Layer to be more isotropic, and it also retains the semantics needed to perform the downstream task. The proposed approach results in transformed embeddings with better isotropy, that generalize better on the downstream task. Furthermore, the approach requires training one feed-forward layer, instead of retraining the whole network. We quantify and evaluate the isotropy through multiple metrics, mainly the Explained Variance and the IsoScore. Experimental results on 3 GLUE datasets with classification as the downstream task show that our proposed method is on par with the state-of-the-art, as it achieves performance gains of around 2-3% on the downstream tasks compared to the baseline. We also present a small case study on one language abuse detection dataset, then interpret some of the findings in light of the results. / Nya studier visar att den rumsliga fördelningen av de meningsrepresentationer som ge- nereras från förtränade språkmodeller är mycket anisotropisk, vilket innebär att representationerna mellan riktningarna i inbäddningsutrymmet inte är jämnt fördelade. Inbäddningsutrymmets uttrycksförmåga är således begränsad, eftersom inbäddningarna är mindre särskiljbara och mindre varierande. Detta leder till att modellernas prestanda försämras i nedströmsuppgiften. De flesta metoder som definierar den senaste tekniken på detta område går ut på att förbättra isotropin hos inbäddningarna av meningar genom att förädla motsvarande kontextuella ordrepresentationer och sedan härleda inbäddningarna av meningar från dessa förädlade representationer. I den här avhandlingen föreslår vi att kvaliteten och fördelningen av de inbäddningar av meningar som utvinns från [CLS]-tokenet i de förtränade språkmodellerna förbättras genom inbäddningarnas isotropi. Vi lägger till ett feed-forward-skikt, kallat det isotropa skiktet, mellan modellen och de nedströms liggande uppgiftsskikten. Detta lager tränas med hjälp av en ny gemensam förlustfunktion som optimerar ett kvalitetsmått för isotropi och förlusten av nedströmsuppgiften. Den gemensamma förlusten resulterar i att de inbäddningar som produceras av det isotropa lagret blir mer isotropa, samtidigt som den semantik som behövs för att utföra den nedströms liggande uppgiften bibehålls. Det föreslagna tillvägagångssättet resulterar i transformerade inbäddningar med bättre isotropi, som generaliseras bättre för den efterföljande uppgiften. Dessutom kräver tillvägagångssättet träning av ett feed-forward-skikt, i stället för omskolning av hela nätverket. Vi kvantifierar och utvärderar isotropin med hjälp av flera mått, främst Förklarad Varians och IsoScore. Experimentella resultat på tre GLUE-dataset visar att vår föreslagna metod är likvärdig med den senaste tekniken, eftersom den uppnår prestandaökningar på cirka 2-3 % på nedströmsuppgifterna jämfört med baslinjen. Vi presenterar även en liten fallstudie på ett dataset för upptäckt av språkmissbruk och tolkar sedan några av resultaten mot bakgrund av dessa. Text Classification Isotropy Embeddings BERT IsoScore Klassificering av Text Isotropi Inbäddningar BERT IsoScore Computer and Information Sciences Data- och informationsvetenskap
107	Åldersuppskattning med maskininlärning Rashed, Wissam, Alkilani, Rawand January 2022 (has links) Machine Learning (ML) is a research area in artificial intelligence (AI) and computer science. ML focuses on the use of data and algorithms to identify patterns in data without direct instruction. This is done with the help of ML algorithms that learn to make predictions by finding rules and drawing conclusions based on training data. ML can be used to perform tasks such as estimating human's age based on facial images, which can be used to control or restrict access to a website based on the user's age.Age estimation from facial images can be described as a regression problem or a classification problem. Estimating the exact age is a regression problem, while estimating the age group is a classification problem. A regression problem can be converted to a classification problem to determine the age group from the estimated age. This is done by dividing the total age range into different age groups, after which it is decided which group the age estimate belongs to. This study aims to answer how ML models can be used to estimate different age groups from facial images. This is done by exploring and evaluating two classification models that directly estimate the age group, in comparison with determining the age group from the exact age estimate by converting the regression problem into a classification problem. In this work, facial images are used to train and test ML algorithms by combining facial images from various open research databases. A delimitation was made in this study to only explore the use of Convolutional Neural Networks (CNN) to create different ML models that can estimate the age or the age group. CNN are used to perform tasks that require image interpretation, which in this case means that facial images are interpreted to make predictions. The results show that one of two classification models in this study achieves an accuracy of 75.9%. The second classification model, which estimates other age groups, achieves an accuracy of 62.88%. However, the outcome of two converted classification problems from a regression model shows an accuracy of 68.85% and 70.68%, respectively. The estimation model that achieves the highest accuracy when estimating the age group is a classification model with 75.90% accuracy. The work indicates that the choice of age group interval and facial images within each age group determine how the estimation models perform in relation to each other. / Machine Learning (ML) är ett forskningsområde inom artificiell intelligens (AI) och datavetenskap. ML fokuserar på användningen av data och algoritmer för att identifiera mönster i data utan direkt instruktion. Detta sker med hjälp av ML-algoritmer som lär sig att göra förutsägelser genom att hitta regler och dra slutsatser utifrån träningsdata. ML kan användas för att utföra uppgifter som att uppskatta människors ålder utifrån ansiktsbilder, vilket kan användas för att kontrollera eller begränsa åtkomsten till en webbplats baserat på användarens ålder. Åldersuppskattning från ansiktsbilder kan beskrivas som ett regressionsproblem eller ett klassificeringsproblem. Att uppskatta den exakta åldern är ett regressionsproblem, medan att uppskatta åldersgruppen är ett klassificeringsproblem. Ett regressionsproblem kan konverteras till ett klassificeringsproblem för att bestämma åldersgruppen från den uppskattade åldern. Detta utförs genom att dela upp det totala åldersintervallet i olika åldersgrupper, varefter det avgörs vilken grupp åldersuppskattningen tillhör. Denna studie ämnar svara på hur ML-modeller kan användas för att uppskatta olika åldersgrupper från ansiktsbilder. Detta sker genom att utforska och utvärdera två klassificeringsmodeller som direkt uppskattar åldersgruppen, i jämförelse med att bestämma åldersgruppen från den exakta åldersuppskattningen genom att konvertera regressionsproblemet till ett klassificeringsproblem. I detta arbete används ansiktsbilder för att träna och testa ML-algoritmer genom att kombinera ansiktsbilder från olika öppna forskningsdatabaser. En avgränsning gjordes i denna studie för att endast undersöka användningen av Convolutional Neural Networks (CNN) för att skapa olika ML-modeller som kan uppskatta åldern eller åldersgruppen. CNN används för att utföra uppgifter som kräver bildtolkning, vilket i det här fallet innebär att ansiktsbilder tolkas för att göra förutsägelser. Resultaten visar att en av två klassificeringsmodeller i denna studie uppnår en noggrannhet på 75,9%. Den andra klassificeringsmodellen, som uppskattar andra åldersgrupper, uppnår en noggrannhet på 62,88%. Däremot visar utfallet av två konverterade klassificeringsproblem från en regressionsmodell en noggrannhet på 68,85% respektive 70,68%. Den uppskattningsmodell som uppnår högsta noggrannhet vid uppskattning av åldersgruppen är en klassificeringsmodell med 75,90% noggrannhet. Arbetet tyder på att valet av åldergruppintervallet samt ansiktsbilder inom varje åldersgrupp avgör hur uppskattningsmodellerna presterar i förhållande till varandra. Machine Learning Age estimation Facial images Regression Classification. Maskininlärning Åldersuppskattning Ansiktsbilder Regression Klassificering. Computer Sciences Datavetenskap (datalogi)
108	Fuzzer Test Log Analysis Using Machine Learning : Framework to analyze logs and provide feedback to guide the fuzzer Yadav, Jyoti January 2018 (has links) In this modern world machine learning and deep learning have become popular choice for analysis and identifying various patterns on data in large volumes. The focus of the thesis work has been on the design of the alternative strategies using machine learning to guide the fuzzer in selecting the most promising test cases. Thesis work mainly focuses on the analysis of the data by using machine learning techniques. A detailed analysis study and work is carried out in multiple phases. First phase is targeted to convert the data into suitable format(pre-processing) so that necessary features can be extracted and fed as input to the unsupervised machine learning algorithms. Machine learning algorithms accepts the input data in form of matrices which represents the dimensionality of the extracted features. Several experiments and run time benchmarks have been conducted to choose most efficient algorithm based on execution time and results accuracy. Finally, the best choice has been implanted to get the desired result. The second phase of the work deals with applying supervised learning over clustering results. The final phase describes how an incremental learning model is built to score the test case logs and return their score in near real time which can act as feedback to guide the fuzzer. / I denna moderna värld har maskininlärning och djup inlärning blivit populärt val för analys och identifiering av olika mönster på data i stora volymer. Uppsatsen har fokuserat på utformningen av de alternativa strategierna med maskininlärning för att styra fuzzer i valet av de mest lovande testfallen. Examensarbete fokuserar huvudsakligen på analys av data med hjälp av maskininlärningsteknik. En detaljerad analysstudie och arbete utförs i flera faser. Första fasen är inriktad på att konvertera data till lämpligt format (förbehandling) så att nödvändiga funktioner kan extraheras och matas som inmatning till de oövervakade maskininlärningsalgoritmerna. Maskininlärningsalgoritmer accepterar ingångsdata i form av matriser som representerar dimensionen av de extraherade funktionerna. Flera experiment och körtider har genomförts för att välja den mest effektiva algoritmen baserat på exekveringstid och resultatnoggrannhet. Slutligen har det bästa valet implanterats för att få önskat resultat. Den andra fasen av arbetet handlar om att tillämpa övervakat lärande över klusterresultat. Slutfasen beskriver hur en inkrementell inlärningsmodell är uppbyggd för att få poäng i testfallsloggarna och returnera poängen i nära realtid vilket kan fungera som feedback för att styra fuzzer. Computer and Information Sciences Data- och informationsvetenskap
109	A Benchmark of Prevalent Feature Selection Algorithms on a Diverse Set of Classification Problems Anette, Kniberg, Nokto, David January 2018 (has links) Feature selection is the process of automatically selecting important features from data. It is an essential part of machine learning, artificial intelligence, data mining, and modelling in general. There are many feature selection algorithms available and the appropriate choice can be difficult. The aim of this thesis was to compare feature selection algorithms in order to provide an experimental basis for which algorithm to choose. The first phase involved assessing which algorithms are most common in the scientific community, through a systematic literature study in the two largest reference databases: Scopus and Web of Science. The second phase involved constructing and implementing a benchmark pipeline to compare 31 algorithms’ performance on 50 data sets.The selected features were used to construct classification models and their predictive performances were compared, as well as the runtime of the selection process. The results show a small overall superiority of embedded type algorithms, especially types that involve Decision Trees. However, there is no algorithm that is significantly superior in every case. The pipeline and data from the experiments can be used by practitioners in determining which algorithms to apply to their respective problems. / Variabelselektion är en process där relevanta variabler automatiskt selekteras i data. Det är en essentiell del av maskininlärning, artificiell intelligens, datautvinning och modellering i allmänhet. Den stora mängden variabelselektionsalgoritmer kan göra det svårt att avgöra vilken algoritm som ska användas. Målet med detta examensarbete är att jämföra variabelselektionsalgoritmer för att ge en experimentell bas för valet av algoritm. I första fasen avgjordes vilka algoritmer som är mest förekommande i vetenskapen, via en systematisk litteraturstudie i de två största referensdatabaserna: Scopus och Web of Science. Den andra fasen bestod av att konstruera och implementera en experimentell mjukvara för att jämföra algoritmernas prestanda på 50 data set. De valda variablerna användes för att konstruera klassificeringsmodeller vars prediktiva prestanda, samt selektionsprocessens körningstid, jämfördes. Resultatet visar att inbäddade algoritmer i viss grad är överlägsna, framför allt typer som bygger på beslutsträd. Det finns dock ingen algoritm som är signifikant överlägsen i varje sammanhang. Programmet och datan från experimenten kan användas av utövare för att avgöra vilken algoritm som bör appliceras på deras respektive problem. feature selection variable selection attribute selection machine learning data mining benchmark classification variabelselektion maskininlärning datautvinning klassificering Medical Engineering Medicinteknik
110	Performance metrics and velocity influence for point cloud registration in autonomous vehicles / Prestandamätningar och hastighetseffekter på punktmolnsinriktning i autonoma fordon Poveda Ruiz, Óscar January 2023 (has links) Autonomous vehicles are currently under study and one of the critical parts is the localization of the vehicle in the environment. Different localization methods have been studied over the years, such as the GPS sensor, commonly fused with other sensors such as the IMU. However, situations where the vehicle crosses a tunnel, a bridge, or there is simply traffic congestion, can cause the vehicle to get lost. Therefore, other methods such as point cloud registration have been used, where two point clouds are aligned, thus finding the pose of the vehicle on a precomputed map. Point cloud alignment, although a useful and functional method, is not free from errors that can lead to vehicle mislocalization. The intention of this work is to develop and compare different metrics capable of measuring in real time the performance of the point cloud alignment algorithm used, in this case Normal Distribution Transform (NDT). Therefore, it is important first of all to know if the position obtained meets the minimum requirements defined, just by knowing the input and output parameters of the algorithm. In addition to classifying the positioning as good or bad, the objective is to have a quality parameter that allows estimating the error committed in a complex environment where the uncertainty is very high. In addition, the influence of vehicle speed on the error made by the point cloud alignment algorithm will also be studied to determine whether there is any significant correlation between them. For this purpose, four different metrics have been studied, two of them being new contributions to this algorithm, called Error Propagation and CorAl, while the ones called Hessian and Score are obtained from the alignment algorithm itself. Data used was previously recorded and corrected, therefore obtaining ground truth data. Once the metrics were implemented, all of them were subjected to the same experiments, thus obtaining for each instant a quality measure that allowed a fair comparison to be made. These experiments were carried out on two different routes, being simulated 5 times each. In addition, from these simulations the speed was recorded, allowing the influence study to be carried out. The results show that the best performing metrics in terms of classification and estimation were the Error Propagation and the Hessian, while being impossible to determine a threshold value for the case of CorAl. Furthermore, they show that despite being functional, the error estimation is still far from perfect. It has also been shown that the error estimation of the lateral axis of the vehicle is more complex than in the case of the longitudinal axis. Finally, a strong and positive relationship between the vehicle speed and the error made by the alignment algorithm has been found. / Autonoma fordon studeras för närvarande och en av de kritiska delarna är lokaliseringen av fordonet i omgivningen. Olika lokaliseringsmetoder har studerats genom åren, t.ex. GPS-sensorn som ofta kombineras med andra sensorer, t.ex. IMU. Situationer där fordonet korsar en tunnel, en bro eller där det helt enkelt är trafikstockningar kan leda till att fordonet tappar uppfattningen om sin position. Därför har andra metoder utvecklats, t.ex. registrering av punktmoln, där två punktmoln justeras för att hitta fordonets position på en förinställd karta. Även om punktmolnsjustering är en användbar och funktionell metod, är den inte fri från fel som kan leda till felaktig lokalisering av fordonet. Syftet med detta arbete är att utveckla och jämföra olika mätmetoder som i realtid kan mätaprestandan hos den algoritm för punktmolnsjustering som används, i detta fall Normal DistributionTransform (NDT). Därför är det viktigt att först och främst veta om den erhållna tjänsten uppfyllerde fastställda minimikraven, bara genom att känna till algoritmens in- och utgångsparametrar.Förutom att klassificera positioneringen som bra eller dålig är målet att ha en kvalitetsparametersom gör det möjligt att uppskatta det fel som begåtts i en komplex miljö där osäkerheten är myckethög. Dessutom kommer fordonshastighetens inverkan på felet som görs av algoritmen för justeringav punktmoln också att studeras för att avgöra om det finns någon signifikant korrelation mellandem. För detta ändamål har fyra olika mått studerats, varav två är nya bidrag till denna algoritm, kallade Error Propagation och CorAl, medan de som kallas Hessian och Score erhålls från själva anpassningsalgoritmen. Data har tidigare registrerats och korrigerats, vilket ger sanningsdata. När mätvärdena hade implementerats utsattes de alla för samma experiment, så att man för varje ögonblick fick ett kvalitetsmått som gjorde det möjligt att göra en rättvis jämförelse. Dessa experiment utfördes på två olika rutter, som simulerades 5 gånger vardera. Dessutom registrerades hastigheten från dessa simuleringar, vilket gjorde det möjligt att genomföra en påverkansstudie. Resultaten visar att de bäst presterande mätvärdena när det gäller klassificering och uppskattning var Error Propagation och Hessian. Dessutom visar de att feluppskattningen fortfarande är långt ifrån perfekt. Det har också visats att feluppskattningen av fordonets sidoaxel är mer komplex än i fallet med den längsgående axeln. Slutligen har ett starkt och positivt samband mellan fordonshastigheten och felet som görs av inriktningsalgoritmen hittats. autonomous vehicle localization registration metrics error classification estimation autonomt fordon lokalisering registrering mätvärden fel klassificering uppskattning Engineering and Technology Teknik och teknologier

Search results