Spelling suggestions: "subject:"datamängd"" "subject:"datamängds""
1 |
Klustring och presentation i transportsektorn / Clustering and presentation in the transport sectorWestberg, Andreas, Dahlberg, Johan January 2013 (has links)
I dagens samhälle finns många företag som hanterar stora mängder information varje dag. Dessa företag har svårt att manuellt överblicka all information. Den stora mängden data kräver automatiserade processer för att utvinna intressanta mönster som människor sedan kan tolka och använda som underlag för vidare analys. En sådan process är klusteranalys vars syfte är att dela upp datamängden i olika segment för att kunna få en djupare förståelse för hur olika faktorer påverkar. Det ställs höga krav på att presentationen kan förmedla informationen på ett effektivt och enkelt sätt ifall de ska kunna användas av människor som, inte själva kommer i kontakt med arbetet med utan, bara använder resultaten som ett underlag i sin yrkesroll. Det är klusteranalysens stora styrka är då det kombinerar modern beräkningskraft med en presentation som med hjälp av varierande färg, form och storlek bidrar till att det blir enklare att urskilja resultatet med det mänskliga ögat.Huvudfrågan “Hur kan ett dataintensivt företag använda sig av klusteranalys som verktyg för att presentera data?” besvaras genom två delfrågor:● Hur kan klustring av göras inom transportsektorn?● Hur kan klustringsresultat presenteras för att underlätta för dem som skall använda resultaten?Studien bedrivs med en kvalitativ ansats och den övergripande forskningsstrategin var en kvalitativ kartläggning som följdes av en komparativ analys av teorin och empirin. De framtagna presentationsteknikerna användes som underlag i halv strukturerade intervjuer som sedan analyserades utifrån teorin för att leda fram till slutsatsen.Studiens slutsatser är att K-means kan användas som klusteringsalgoritm. Antalet naturliga kluster kan uppskattas med knäböjsmetoden och normalisering kan göras med Z-score.Klustringsresultat inom dataintensiva företag presenteras bäst genom parallella koordinater eller spridningsdiagram beroende på om syftet är att presentera läget eller ta fram beslutsunderlag.Studiens bidrag och konsekvens är att dataintensiva företag kan använda de slutsatser som dragits i denna studie som riktlinjer för hur de skall komma igång med klusteranalys. En liknande studie på ett dataintensivt företag inom transportsektorn är sällsynt och därför är det signifikant och originellt bidrag för dataintensiva företag som exempelvis inom transportsektorn. / Program: Systemarkitekturutbildningen
|
2 |
Performance of the relational and non-relational databases / Prestanda för de relationella och icke-relationella databasernaAlkhalaf, Ahmed, Al-Zubeidi, Hasan January 2023 (has links)
There are many types of databases, but the most common are relational and non-relational. These databases have different structures, and that affects their performance. Many studies examine the differences between relational and non-relational databases and compare them regarding performance. However, it lacks a study that collects the results from different sources and makes them available to software professionals, so they can choose a suitable database effortlessly. This thesis examines and analyzes several studies investigating the performance of relational and non-relational databases. The analysis examines the performance of typical database operations, insert, delete, update, and select, on different numbers of records. The results of this study show that the non-relational databases perform better, regardless of the number of records in the database. However, there are some cases where the relational databases perform better. The findings are based on an analysis of seven studies, encompassing databases MSSQL, MySQL, PostgreSQL, Oracle, and MongoDB. / Det finns flera typer av databaser, men de vanligaste är relationella och icke-relationella. Dessa databaser har olika strukturer, vilket påverkar deras prestanda. Många studier undersöker skillnaderna mellan relationella och icke-relationella databaser och jämför deras prestanda. Dock saknas en studie som samlar resultaten från olika källor och gör dem tillgängliga för mjukvaruproffs, för att underlätta valet av en lämplig databas. Denna examensarbete undersöker och analyserar flera studier som utforskar prestandan hos relationella och icke-relationella databaser. Analysen fokuserar på prestandan för vanliga databasoperationer, såsom infogning, borttagning, uppdatering och val, för olika antal poster. Resultaten av denna studie visar att icke-relationella databaser presterar bättre oavsett antalet poster i databasen. Det finns dock vissa fall där relationella databaser fungerar bättre. Resultaten baseras på en analys av sju studier som omfattar MSSQL, MySQL, PostgreSQL, Oracle och MongoDB-databaserna.
|
3 |
An empirical study on synthetic image generation techniques for object detectorsArcidiacono, Claudio Salvatore January 2018 (has links)
Convolutional Neural Networks are a very powerful machine learning tool that outperformed other techniques in image recognition tasks. The biggest drawback of this method is the massive amount of training data required, since producing training data for image recognition tasks is very labor intensive. To tackle this issue, different techniques have been proposed to generate synthetic training data automatically. These synthetic data generation techniques can be grouped in two categories: the first category generates synthetic images using computer graphic software and CAD models of the objects to recognize; the second category generates synthetic images by cutting the object from an image and pasting it on another image. Since both techniques have their pros and cons, it would be interesting for industries to investigate more in depth the two approaches. A common use case in industrial scenarios is detecting and classifying objects inside an image. Different objects appertaining to classes relevant in industrial scenarios are often undistinguishable (for example, they all the same component). For these reasons, this thesis work aims to answer the research question “Among the CAD model generation techniques, the Cut-paste generation techniques and a combination of the two techniques, which technique is more suitable for generating images for training object detectors in industrial scenarios”. In order to answer the research question, two synthetic image generation techniques appertaining to the two categories are proposed.The proposed techniques are tailored for applications where all the objects appertaining to the same class are indistinguishable, but they can also be extended to other applications. The two synthetic image generation techniques are compared measuring the performances of an object detector trained using synthetic images on a test dataset of real images. The performances of the two synthetic data generation techniques used for data augmentation have been also measured. The empirical results show that the CAD models generation technique works significantly better than the Cut-Paste generation technique where synthetic images are the only source of training data (61% better),whereas the two generation techniques perform equally good as data augmentation techniques. Moreover, the empirical results show that the models trained using only synthetic images performs almost as good as the model trained using real images (7,4% worse) and that augmenting the dataset of real images using synthetic images improves the performances of the model (9,5% better). / Konvolutionella neurala nätverk är ett mycket kraftfullt verktyg för maskininlärning som överträffade andra tekniker inom bildigenkänning. Den största nackdelen med denna metod är den massiva mängd träningsdata som krävs, eftersom det är mycket arbetsintensivt att producera träningsdata för bildigenkänningsuppgifter. För att ta itu med detta problem har olika tekniker föreslagits för att generera syntetiska träningsdata automatiskt. Dessa syntetiska datagenererande tekniker kan grupperas i två kategorier: den första kategorin genererar syntetiska bilder med hjälp av datorgrafikprogram och CAD-modeller av objekten att känna igen; Den andra kategorin genererar syntetiska bilder genom att klippa objektet från en bild och klistra in det på en annan bild. Eftersom båda teknikerna har sina fördelar och nackdelar, skulle det vara intressant för industrier att undersöka mer ingående de båda metoderna. Ett vanligt fall i industriella scenarier är att upptäcka och klassificera objekt i en bild. Olika föremål som hänför sig till klasser som är relevanta i industriella scenarier är ofta oskiljbara (till exempel de är alla samma komponent). Av dessa skäl syftar detta avhandlingsarbete till att svara på frågan “Bland CAD-genereringsteknikerna, Cut-paste generationsteknikerna och en kombination av de två teknikerna, vilken teknik är mer lämplig för att generera bilder för träningsobjektdetektorer i industriellascenarier”. För att svara på forskningsfrågan föreslås två syntetiska bildgenereringstekniker som hänför sig till de två kategorierna. De föreslagna teknikerna är skräddarsydda för applikationer där alla föremål som tillhör samma klass är oskiljbara, men de kan också utökas till andra applikationer. De två syntetiska bildgenereringsteknikerna jämförs med att mäta prestanda hos en objektdetektor som utbildas med hjälp av syntetiska bilder på en testdataset med riktiga bilder. Föreställningarna för de två syntetiska datagenererande teknikerna som används för dataförökning har också uppmätts. De empiriska resultaten visar att CAD-modelleringstekniken fungerar väsentligt bättre än Cut-Paste-genereringstekniken, där syntetiska bilder är den enda källan till träningsdata (61% bättre), medan de två generationsteknikerna fungerar lika bra som dataförstoringstekniker. Dessutom visar de empiriska resultaten att modellerna som utbildats med bara syntetiska bilder utför nästan lika bra som modellen som utbildats med hjälp av riktiga bilder (7,4% sämre) och att förstora datasetet med riktiga bilder med hjälp av syntetiska bilder förbättrar modellens prestanda (9,5% bättre).
|
4 |
Experimental Research on a Continuous Integrating pipeline with a Machine Learning approach : Master Thesis done in collaboration with Electronic ArtsSigurdardóttir, Sigrún Arna January 2021 (has links)
Time-consuming code builds within the Continuous Integration pipeline is a common problem in today’s software industry. With fast-evolving trends and technologies, Machine Learning has become a more popular approach to tackle and solve real problems within the software industry. It has been shown to be successful to train Machine Learning models that can classify whether a code change is likely to be successful or fail during a code build. Reducing the time it takes to run code builds within the Continuous Integration pipeline can lead to higher productivity in software development, faster feedback for developers, and lower the cost of hardware resources used to run the builds. To answer the research question: How accurate can success or failure in code build be predicted by using Machine Learning techniques on the historical data collection? The important factor is the historical data available and understanding the data. Thorough data analysis was conducted on the historical data and a data cleaning process to create a dataset suitable for feeding the Machine Learning models. The dataset was imbalanced, favouring the successful builds, and to balance the dataset the SMOTE method was used to create synthetic samples. Binary classification and supervised learning comparison of four Machine Learning models were performed; Random Forest, Logistic Regression, Support Vector Machine, and Neural Network. The performance metrics used to measure the performance of the models were recall, precision, specificity, f1-score, ROC curve, and AUC score. To reduce the dimensionality of the features the PCA method was used. The outcome of the Machine Learning models revealed that historical data can be used to accurately predict if a code change will result in a code build success or failure. / Den tidskrävande koden bygger inom pipeline för kontinuerlig integration är en vanlig faktor i dagens mjukvaruindustri. Med trender och teknologier som utvecklas snabbt har maskininlärning blivit ett mer populärt tillvägagångssätt för att ta itu med och lösa verkliga problem inom programvaruindustrin. Det har visat sig vara framgångsrikt att träna maskininlärningsmodeller som kan klassificeras om en kodändring sannolikt kommer att lyckas eller misslyckas under en kodbyggnad. Genom att förbättra och minska den tid det tar att köra kodbyggnader i den kontinuerliga integrationsrörledningen kan det leda till högre produktivitet inom mjukvaruutveckling och snabbare feedback för utvecklare. För att svara på forskningsfrågan: Hur korrekt kan förutsäga framgång eller misslyckande i kodbyggnad med hjälp av Machine Learning-tekniker för historisk datainsamling? Den viktiga faktorn är den tillgängliga historiska informationen och förståelsen för data. Noggrann dataanalys utfördes på historiska data och en datarengöringsprocess för att skapa en datamängd lämplig för matning av maskininlärningsmodellerna. Datauppsättningen var obalanserad och för att balansera användes uppsättningen SMOTE-metoden. Med binär klassificering och övervakad inlärningsjämförelse gjordes fyra maskininlärningsmodeller, Random Forest, Logistic Regression, Support Vector Machine och Neural Network. Prestandamätvärdena som används för att mäta prestandan hos modellerna är återkallelse, precision, f1-poäng och genomsnittlig ROCAUC-poäng. För att minska dimensionaliteten hos funktionerna användes PCA-metoden. Resultatet av modellerna avslöjar att de med god noggrannhet kan klassificeras om en kodändring misslyckas eller lyckas baserat på den datamängd som skapats från historiska data som används för att träna modellerna.
|
5 |
En jämförelse av Deep Learning-modeller för Image Super-Resolution / A Comparison of Deep Learning Models for Image Super-ResolutionBechara, Rafael, Israelsson, Max January 2023 (has links)
Image Super-Resolution (ISR) is a technology that aims to increase image resolution while preserving as much content and detail as possible. In this study, we evaluate four different Deep Learning models (EDSR, LapSRN, ESPCN, and FSRCNN) to determine their effectiveness in increasing the resolution of lowresolution images. The study builds on previous research in the field as well as the results of the comparison between the different deep learning models. The problem statement for this study is: “Which of the four Deep Learning-based models, EDSR, LapSRN, ESPCN, and FSRCNN, generates an upscaled image with the best quality from a low-resolution image on a dataset of Abyssinian cats, with a factor of four, based on quantitative results?” The study utilizes a dataset consisting of pictures of Abyssinian cats to evaluate the performance and results of these different models. Based on the quantitative results obtained from RMSE, PSNR, and Structural Similarity (SSIM) measurements, our study concludes that EDSR is the most effective Deep Learning-based model. / Bildsuperupplösning (ISR) är en teknik som syftar till att öka bildupplösningen samtidigt som så mycket innehåll och detaljer som möjligt bevaras. I denna studie utvärderar vi fyra olika Deep Learning modeller (EDSR, LapSRN, ESPCN och FSRCNN) för att bestämma deras effektivitet när det gäller att öka upplösningen på lågupplösta bilder. Studien bygger på tidigare forskning inom området samt resultatjämförelser mellan olika djupinlärningsmodeller. Problemet som studien tar upp är: “Vilken av de fyra Deep Learning-baserade modellerna, EDSR, LapSRN, ESPCN och FSRCNN generarar en uppskalad bild med bäst kvalité, från en lågupplöst bild på ett dataset med abessinierkatter, med skalningsfaktor fyra, baserat på kvantitativa resultat?” Studien använder en dataset av bilder på abyssinierkatter för att utvärdera prestandan och resultaten för dessa olika modeller. Baserat på de kvantitativa resultaten som erhölls från RMSE, PSNR och Structural Similarity (SSIM) mätningar, drar vår studie slutsatsen att EDSR är den mest effektiva djupinlärningsmodellen.
|
Page generated in 0.0434 seconds