Global ETD Search

61	Syntetisering av tabulär data: En systematisk litteraturstudie om verktyg för att skapa syntetiska dataset Allergren, Erik, Hildebrand, Clara January 2023 (has links) De senaste åren har efterfrågan på stora mängder data för att träna maskininläringsalgoritmer ökat. Algoritmerna kan användas för att lösa stora som små samhällsfrågor och utmaningar. Ett sätt att möta efterfrågan är att generera syntetisk data som bibehåller statistiska värden och egenskaper från verklig data. Den syntetiska datan möjliggör generering av stora mängder data men är också bra då den minimerar risken för att personlig integritet röjd och medför att data kan tillgängliggöras för forskning utan att identiteter röjs. I denna studie var det övergripande syftet att undersöka och sammanställa vilka verktyg för syntetisering av tabulär data som finns beskrivna i vetenskapliga publiceringar på engelska. Studien genomfördes genom att följa de åtta stegen i en systematisk litteraturstudie med tydligt definierade kriterier för vilka artiklar som skulle inkluderas eller exkluderas. De främsta kraven för artiklarna var att de beskrivna verktygen existerar i form av kod eller program, alltså inte enbart i teorin, samt var generella och applicerbara på olika tabulära dataset. Verktygen fick därmed inte bara fungera eller vara anpassad till ett specifikt dataset eller situation. De verktyg som fanns beskrivna i de återstående artiklarna efter genomförd sökning och därmed representeras i resultatet är (a) Synthpop, ett verktyg som togs fram i ett projekt för UK Longitudinal Studies för att kunna hantera känslig data och personuppgifter; (b) Gretel, ett kommersiellt och open-source verktyg som uppkommit för att möta det ökade behovet av träningsdata; (c) UniformGAN, en ny variant av GAN (Generative Adversarial Network) som genererar syntetiska tabulära dataset medan sekretess säkerställs samt; (d) Synthia, ett open-source paket för Python som är gjort för att generera syntetisk data med en eller flera variabler, univariat och multivariat data. Resultatet visade att verktygen använder sig av olika metoder och modeller för att framställa syntetisk data samt har olika grad av tillgänglighet. Gretel framträdde mest från verktygen, då den är mer kommersiell med fler tjänster samt erbjuder möjligheten att generera syntetiskt data utan att ha goda kunskaper i programmering. / During the last years the demand for big amounts of data to train machine learning algorithms has increased. The algorithms can be used to solve real world problems and challenges. A way to meet the demand is to generate synthetic data that preserve the statistical values and characteristics from real data. The synthetic data makes it possible to obtain large amounts of data, but is also good since it minimizes the risk for privacy issues in micro data. In that way, this type of data can be made accessible for important research without disclosure and potentially harming personal integrity. In this study, the overall aim was to examine and compile which tools for generation of synthetic data are described in scientific articles written in English. The study was conducted by following the eight steps of systematic literature reviews with clearly defined requirements for which articles to include or exclude. The primary requirements for the articles were that the described tools where existing in the form of accessible code or program and that they could be used for general tabular datasets. Thus the tools could not be made just for a specific dataset or situation. The tools that were described in the remaining articles after the search, and consequently included in the result of the study, was (a) Synthpop, a tool developed within the UK Longitudinal Studies to handle sensitive data containing personal information; (b) Gretel, a commercial and open source tool that was created to meet the demand for training data; (c) UniformGAN, a new Generative Adversarial Network that generates synthetic data while preserving privacy and (d) Synthia, a Python open-source package made to generate synthetic univariate and multivariate data. The result showed that the tools use different methods and models to generate synthetic data and have different degrees of accessibility. Gretel is distinguished from the other tools, since it is more commercial with several services and offers the possibility to generate synthetic data without good knowledge in programming. Synthetic data statistical disclosure control machine learning tabular data Syntetisk data statistisk röjandekontroll maskininlärning tabulär data Information Systems
62	An empirical study on synthetic image generation techniques for object detectors Arcidiacono, Claudio Salvatore January 2018 (has links) Convolutional Neural Networks are a very powerful machine learning tool that outperformed other techniques in image recognition tasks. The biggest drawback of this method is the massive amount of training data required, since producing training data for image recognition tasks is very labor intensive. To tackle this issue, different techniques have been proposed to generate synthetic training data automatically. These synthetic data generation techniques can be grouped in two categories: the first category generates synthetic images using computer graphic software and CAD models of the objects to recognize; the second category generates synthetic images by cutting the object from an image and pasting it on another image. Since both techniques have their pros and cons, it would be interesting for industries to investigate more in depth the two approaches. A common use case in industrial scenarios is detecting and classifying objects inside an image. Different objects appertaining to classes relevant in industrial scenarios are often undistinguishable (for example, they all the same component). For these reasons, this thesis work aims to answer the research question “Among the CAD model generation techniques, the Cut-paste generation techniques and a combination of the two techniques, which technique is more suitable for generating images for training object detectors in industrial scenarios”. In order to answer the research question, two synthetic image generation techniques appertaining to the two categories are proposed.The proposed techniques are tailored for applications where all the objects appertaining to the same class are indistinguishable, but they can also be extended to other applications. The two synthetic image generation techniques are compared measuring the performances of an object detector trained using synthetic images on a test dataset of real images. The performances of the two synthetic data generation techniques used for data augmentation have been also measured. The empirical results show that the CAD models generation technique works significantly better than the Cut-Paste generation technique where synthetic images are the only source of training data (61% better),whereas the two generation techniques perform equally good as data augmentation techniques. Moreover, the empirical results show that the models trained using only synthetic images performs almost as good as the model trained using real images (7,4% worse) and that augmenting the dataset of real images using synthetic images improves the performances of the model (9,5% better). / Konvolutionella neurala nätverk är ett mycket kraftfullt verktyg för maskininlärning som överträffade andra tekniker inom bildigenkänning. Den största nackdelen med denna metod är den massiva mängd träningsdata som krävs, eftersom det är mycket arbetsintensivt att producera träningsdata för bildigenkänningsuppgifter. För att ta itu med detta problem har olika tekniker föreslagits för att generera syntetiska träningsdata automatiskt. Dessa syntetiska datagenererande tekniker kan grupperas i två kategorier: den första kategorin genererar syntetiska bilder med hjälp av datorgrafikprogram och CAD-modeller av objekten att känna igen; Den andra kategorin genererar syntetiska bilder genom att klippa objektet från en bild och klistra in det på en annan bild. Eftersom båda teknikerna har sina fördelar och nackdelar, skulle det vara intressant för industrier att undersöka mer ingående de båda metoderna. Ett vanligt fall i industriella scenarier är att upptäcka och klassificera objekt i en bild. Olika föremål som hänför sig till klasser som är relevanta i industriella scenarier är ofta oskiljbara (till exempel de är alla samma komponent). Av dessa skäl syftar detta avhandlingsarbete till att svara på frågan “Bland CAD-genereringsteknikerna, Cut-paste generationsteknikerna och en kombination av de två teknikerna, vilken teknik är mer lämplig för att generera bilder för träningsobjektdetektorer i industriellascenarier”. För att svara på forskningsfrågan föreslås två syntetiska bildgenereringstekniker som hänför sig till de två kategorierna. De föreslagna teknikerna är skräddarsydda för applikationer där alla föremål som tillhör samma klass är oskiljbara, men de kan också utökas till andra applikationer. De två syntetiska bildgenereringsteknikerna jämförs med att mäta prestanda hos en objektdetektor som utbildas med hjälp av syntetiska bilder på en testdataset med riktiga bilder. Föreställningarna för de två syntetiska datagenererande teknikerna som används för dataförökning har också uppmätts. De empiriska resultaten visar att CAD-modelleringstekniken fungerar väsentligt bättre än Cut-Paste-genereringstekniken, där syntetiska bilder är den enda källan till träningsdata (61% bättre), medan de två generationsteknikerna fungerar lika bra som dataförstoringstekniker. Dessutom visar de empiriska resultaten att modellerna som utbildats med bara syntetiska bilder utför nästan lika bra som modellen som utbildats med hjälp av riktiga bilder (7,4% sämre) och att förstora datasetet med riktiga bilder med hjälp av syntetiska bilder förbättrar modellens prestanda (9,5% bättre). Computer and Information Sciences Data- och informationsvetenskap
63	Synthetic Innovation and Hidden Problems: Qualitative Insights on Open Innovation for Hidden Problems in Sweden / Syntetisk Innovation och Dolda Problem Assarsson, Fabian January 2018 (has links) Huvudsyftet med denna uppsats är att analysera hur svenska organisationer arbetar med öppen innovation, i vilka former de gör det och vilken typ av innovationer de producerar. Uppsatsen definierar även uttryckligen begreppet "dolda problem" inom organisationer och kopplar sedan det till innovationsteori. Definitionen av öppen innovation har utvecklats tillsammans med förståelsen för begreppet, vilket i sig utgör en övertygande teori för både organisationer och forskare i strävan efter teknisk utveckling. De befintliga modeller som beskriver öppen innovation är emellertid inte förenliga med hur definitionen av termen har utvecklats. Genom att kartlägga nuvarande litteratur och innovationsteori, föreslås i denna uppsats en förening av två befintliga öppna innovationsmodeller som bättre passar den nuvarande definitionen. I uppsatsen föreslås också att syntetisk innovation - ett begrepp beskrivet i denna avhandling - är den primära typen av innovation som produceras inom en öppen innovationsram. Resultaten, analysen och diskussionerna baseras på en litteraturstudie, en handlingsstudie och fyra fallstudier av innovationsinitiativ i Sverige. Analyserade genom den föreslagna ramen visar resultaten att resurstypen som delas mellan firmor i ett öppet samarbete är mer empiriskt viktig än indikerat från befintliga innovationsmodeller. Det indikeras också att företagens permeabilitet förändrar vilken typ av innovation de producerar. Arbetet indikerar också att dolda problem empiriskt löses genom syntetisk innovation som särskilt kan uppnås i en öppen innovationsmiljö. / The primary purpose of this thesis is to analyze how Swedish organizations work with Open Innovation, in what forms they do so, and what type of innovations they produce. Secondarily, it explicitly defines the notion of "hidden problems" within organizations and subsequently links it to innovation theory. The definition of Open Innovation has evolved alongside the understanding of Open Innovation itself, and it constitutes a compelling theory for organizations and researchers alike in the pursuit of technological advancement. The incumbent models that describe Open Innovation, however, are not compliant with the definition of the term. By surveying the current literature on Open Innovation, and Innovation theory, this thesis proposes a unification of two incumbent Open Innovation models that better fit with the definition of Open Innovation itself. It also suggests that Synthetic Innovation as defined in this thesis is the primary type of innovation produced under an Open Innovation framework. The results, analysis, and discussions are based on a literature review, an action study, and four case studies of innovation initiatives in Sweden. Analyzed through the proposed framework, the results from this thesis indicate that resource type is more empirically important than evident from incumbent innovation models. It also suggests that the permeability of firms, created in an Open Innovation environment, alters the type of innovation they produce. The research shows a need to update the early, yet fashionable, models of Open Innovation to better map against the current definitions. It also indicates that hidden problems result in a particular type of Synthetic Innovation that is especially achievable through Open Innovation. Innovation Theory Open Innovation Synthetic Innovation Innovation Strategy Strategy Management Innovationsteori Öppen Innovation Syntetisk Innovation Innovationsstrategi strategi Management Computer and Information Sciences Data- och informationsvetenskap
64	Inferring 3D trajectory from monocular data using deep learning / Inferens av 3D bana utifrån 2D data med djupa arkitekturer Sellstedt, Victor January 2021 (has links) Trajectory estimation, with regards to reconstructing a 3D trajectory from a 2D trajectory, is commonly achieved using stereo or multi camera setups. Although projections from 3D to 2D suffer significant information loss, some methods approach this problem from a monocular perspective to address limitations of multi camera systems, such as requiring points in to be observed by more than one camera. This report explores how deep learning methodology can be applied to estimation of golf balls’ 3D trajectories using features from synthetically generated monocular data. Three neural network architectures for times series analysis, Long Short-Term Memory (LSTM), Bidirectional LSTM(BLSTM), and Temporal Convolutional Network (TCN); are compared to a simpler Multi Layer Perceptron (MLP) baseline and theoretical stereo error. The results show the models’ performances are varied with median performances often significantly better than average, caused by some predictions with very large errors. Overall the BLSTM performed best of all models both quantitatively and qualitatively, for some ranges with a lower error than a stereo estimate with an estimated disparity error of 1. Although the performance of the proposed monocular approaches do not outperform a stereo system with a lower disparity error, the proposed approaches could be good alternatives where stereo solutions might not be possible. / Lösningar för inferens av 3D banor utifrån 2D sekvenser använder sig ofta av två eller fler kameror som datakällor. Trots att mycket information förloras i projektionen till kamerabilden använder sig vissa lösningar sig av endast en kamera. En sådan monokulär lösning kan vara mer fördelaktiga än multikamera lösningar i vissa fall, såsom när ett objekt endast är synligt av ena kamera. Denna rapport undersöker hur metoder baserade på djupa arkitekturer kan användas för att uppskatta golfbollars 3D banor med variabler som skapas utifrån syntetiskt genererad monokulär data. Tre olika arkitekturer för tidsserieanalys Long Short-Term Memory (LSTM), Bidirectional LSTM (BLSTM) och Temporal Convolutional Neural Network (TCN) jämförs mot en enklare Multi Layer Perceptron (MLP) och teoretiska stereo-fel. Resultaten visar att modellerna har en varierad prestation med median resultaten ofta mycket bättre än medelvärdena, på grund av några förutsägelser med stora fel. Överlag var den bästa modellen BLSTM:en både kvantitativt och kvalitativt samt bättre än stereo lösningen med högre fel för vissa intervall. Resultaten visar dock på att modellerna är tydligt sämre en stereo systemet med lägre fel. Trots detta kan de föreslagna metoderna utgöra bra alternativ för lösningar där stereo system inte kan användas. Deep Learning Monocular trajectory estimation Time series prediction Synthetic data Djupinlärning Inferens från monkulära sekvenser Tidsserieanalys Syntetisk data Computer and Information Sciences Data- och informationsvetenskap
65	Interaction between cobalt nanoparticles and DPPC at pulmonary conditions / Växelverkan mellan koboltnanopartiklar och DPPC vid pulmonära förhållanden Sommer, Paula January 2021 (has links) Nanomaterial produceras och används alltmer i tekniska lösningar för att förbättra t.ex. materialegenskaper. Eftersom ett materials egenskaper förändras när det är i nanoskala så påverkas även dess toxikologiska egenskaper. För närvarande finns det ett flertal rapporter om oavsiktligt bildande av metalliska nanopartiklar, Me NPs, vid byggarbetsplatser, vilket riskerar att byggarbetarna exponeras för att andas in dessa partiklar. På grund av nanomaterialens storleksberoende egenskaper så är inte dagens toxikologiska utvärderingsmetoder sällan anpassade för dessa typer av material. Att undersöka växelverkan mellan Me NPs och pulmonella biomolekyler och utveckla metoder för analys därför av hög prioritet. I detta examensarbete har en metod för upplösning av det pulmonellt ytaktiva ämnet fosfolipid 1,2-dipalmitoylfosfatidylkolin, DPPC, baserat på sonikering i vattenbad testats och utvärderats. Den simulerade lungvätskan Gambles lösning har testats och utvärderats som en möjlig lösning för att studera växelverkan mellan DPPC och Co NPs. Växelverkan mellan dess komponenter och Co NPs har studerats med hjälp av PCCS, NTA samt ATR-FTIR. Då examensarbetet genomfördes under den pågående Covid-19 pandemin har anpassningar i det experimentella arbetet gjorts med hänsyn till det rådande läget. PCCS visade att vid upplösning av DPPC i lösningen så minskade sonikering omfattningen av sedimentationen och den resulterande storleken på liposomerna låg inom intervallet mellan 50 och 70 nm i ultrarent vatten och mellan 30 och 40 nm i Gamble’s lösning. Skillnaden i liposomstorlek tros bero av växelverkan mellan komponenterna i Gamble’s lösning och DPPC, vilket även observerades med FTIR och överensstämmande med litteraturen. Den relativa skillnaden i liposomstorlek i de olika lösningarna observerades också med NTA, men experimentella problem kan ha påverkat resultaten. Gamble’s lösning hade en inverkan på Co NPs i lösningen, bland annat genom att uppmätta partikelkoncentrationer bestämde med hjälp av PCCS och NTA var mindre än hälften av motsvarande koncentration initialt i ultrarent vatten (vid 0 h). En trolig förklaring är att den högre jonstyrkan hos Gamble’s lösning orsakar snabb sedimentation och/eller snabb upplösning av Co NPs. Tillsättning av DPPC till en lösning av Co NPs i Gamble’s lösning släckte ut effekten, vilket indikerar en växelverkan mellan Co NPs och komponenter i Gamble’s lösning. Jämförelse av normaliserade integraler från ATR-FTIR med DPPC i Gamble’s lösning utan Co NPs och när lösningen exponerades för en Co NP film visade en signifikant skillnad efter 90 min och vid sköljning. Baserat på projektets resultat så föreslås Gamble’s lösning att bytas ut på grund av dess växelverkan med de olika komponenterna samt att liposomstorleken studeras mer i detalj. Framtida studier uppmuntras omfatta en upprepning av ATR-FTIR- mätningarna samt en frisättningsstudie av Co NPs i olika lösningar. / Nanomaterials, NMs, are increasingly produced and applied in technical applications to enhance, e.g. material properties. Since material properties change when in nanoscale, they influence their toxicological properties. There are also numerous reports of incidental formation of metallic nanoparticles, Me NPs, at construction sites, which may place workers at risk of occupational exposure by inhaling these materials. However, because of NMs size-dependent properties, current standard toxicological evaluation methods are not always well suited to these types of materials. Investigations into interactions between Me NPs and pulmonary biomolecules and method development for analysis of these interactions are therefore of high priority. In this master thesis, a description on how to dissolve the pulmonary surface active phospholipid 1,2-dipalmitoylphosphatidylcholine, DPPC, via water bath sonification has been elaborated and evaluated. The simulated lung fluid, Gamble’s solution, has been tested and evaluated as a possible medium to study interactions between DPPC and cobalt (Co) NPs under more realistic laboratory conditions. Interactions between the sample components have been studied using Photon cross-correlation spectroscopy, PCCS, Nanoparticle Tracking Analysis, NTA, and Attenuated Total Reflection Fourier Transform Infrared Spectroscopy, ATR-FTIR. Since the master thesis study was conducted during the onset of the Covid-19 pandemic, adjustments related to experimental work had to be made. PCCS showed that sonication of the DPPC solution reduced the extent of sedimentation, and the resulting size range of liposomes in solution was in the range between 50 and 70 nm in ultrapure water and between 30 and 40 nm in Gamble’s solution. Observed differences in liposome size are believed to be due to the interaction between the components of Gamble’s solution and the DPPC. This was also observed in the IR- spectra and comparable with literature findings. NTA measurements similarly visualize the relative difference in the size of the liposomes in the different media, but difficulties with the experiments may have affected the results. Gamble’s solution affected the Co NPs, such that measured particle concentrations of the NPs by means of PCCS and NTA were approximately less than half of the initial observations in ultrapure water (at 0 h). A likely explanation is that the high ionic strength of Gamble’s solution induces either fast sedimentation and/or rapid dissolution of the Co NPs. The addition of DPPC to Co NPs in Gamble’s solution cancelled this effect and suggest interactions between Co NPs and Gamble’s solution. Comparison of the normalized integrals of the ATR-FTIR- spectra of DPPC in Gamble’s solution with and without exposure to a Co NP film showed a significant difference after 90 min and upon rinsing the flow cell. Based on these results, an alternative to Gamble’s solution is suggested due to its interaction with other experimental components and that DPPC is used at a lower concentration investigation on liposome sizes are made in more detail. In addition, the ATR-FTIR measurements should be repeated, and dissolution studies of Co NPs in different synthetic media are encouraged in future studies. metallic nanoparticles lipids lung surfactants adsorption pulmonary fluid metalliska nanopartiklar lipider lungtensider adsorption syntetisk lungvätska Physical Chemistry Fysikalisk kemi Other Chemistry Topics Annan kemi
66	Synthetic Data Generation for the Financial Industry Using Generative Adversarial Networks / Generering av Syntetisk Data för Finansbranchen med Generativa Motstridande Nätverk Ljung, Mikael January 2021 (has links) Following the introduction of new laws and regulations to ensure data protection in GDPR and PIPEDA, interests in technologies to protect data privacy have increased. A promising research trajectory in this area is found in Generative Adversarial Networks (GAN), an architecture trained to produce data that reflects the statistical properties of its underlying dataset without compromising the integrity of the data subjects. Despite the technology’s young age, prior research has made significant progress in the generation process of so-called synthetic data, and the current models can generate images with high-quality. Due to the architecture’s success with images, it has been adapted to new domains, and this study examines its potential to synthesize financial tabular data. The study investigates a state-of-the-art model within tabular GANs, called CTGAN, together with two proposed ideas to enhance its generative ability. The results indicate that a modified training dynamic and a novel early stopping strategy improve the architecture’s capacity to synthesize data. The generated data presents realistic features with clear influences from its underlying dataset, and the inferred conclusions on subsequent analyses are similar to those based on the original data. Thus, the conclusion is that GANs has great potential to generate tabular data that can be considered a substitute for sensitive data, which could enable organizations to have more generous data sharing policies. / Med striktare förhållningsregler till hur data ska hanteras genom GDPR och PIPEDA har intresset för anonymiseringsmetoder för att censurera känslig data aktualliserats. En lovande teknik inom området återfinns i Generativa Motstridande Nätverk, en arkitektur som syftar till att generera data som återspeglar de statiska egenskaperna i dess underliggande dataset utan att äventyra datasubjektens integritet. Trots forskningsfältet unga ålder har man gjort stora framsteg i genereringsprocessen av så kallad syntetisk data, och numera finns det modeller som kan generera bilder av hög realistisk karaktär. Som ett steg framåt i forskningen har arkitekturen adopterats till nya domäner, och den här studien syftar till att undersöka dess förmåga att syntatisera finansiell tabelldata. I studien undersöks en framträdande modell inom forskningsfältet, CTGAN, tillsammans med två föreslagna idéer i syfte att förbättra dess generativa förmåga. Resultaten indikerar att en förändrad träningsdynamik och en ny optimeringsstrategi förbättrar arkitekturens förmåga att generera syntetisk data. Den genererade datan håller i sin tur hög kvalité med tydliga influenser från dess underliggande dataset, och resultat på efterföljande analyser mellan datakällorna är av jämförbar karaktär. Slutsatsen är således att GANs har stor potential att generera tabulär data som kan betrakatas som substitut till känslig data, vilket möjliggör för en mer frikostig delningspolitik av data inom organisationer. Deep Learning Generative Models GAN CTGAN Synthetic Data Financial Industry Djupinlärning generativ modellering GAN CTGAN Syntetisk Data Finansindustrin Computer and Information Sciences Data- och informationsvetenskap
67	Toward prototyping metabolic pathways in cyanobacteria using cell extracts Bensabra, Amina January 2022 (has links) Cyanobakterier är intressanta mikroorganismer för produktion av biobränslen från solljus, vatten och atmosfärisk koldioxid och anses därför vara potentiella mikrobiella cellfabriker. Men på grund av långsam tillväxt och låg produktion är genteknologi processen intensiv och tidskrävande för cyanobakterier. En alternativ metod till prototypteknik för metabola vägar är att använda cellfri metabolisk teknik där cellysat av överuttryckta enzymer används. I detta projekt försökte vi utveckla en metod för cellfri metabolisk ingenjörsteknik för cyanobakterien Synechocystis PCC 6803 med hjälp av den övre mevalonatvägen som exempelreaktionsväg. Vi började med att utveckla tre fluorescensbaserade metoder för att detektera proteinöveruttryck med hjälp av de tre enzymerna från mevalonatreaktionsvägen. Dessa metoder använde fusering av YFP-proteinet till målproteinet, en delad GFP-reporterprotein eller translationskoppling. Ett av de överuttryckta enzymerna verkade vara giftigt för Synechocystis-celler så flera inducerbara promotorer användes för att försöka uttrycka enzymet. Den högst uttryckande konstruktionen för varje gen valdes ut och proteiner extraherades och blandades i en cellfri metabolisk ingenjörsreaktion. Även om inget mevalonat kunde detekteras med hjälp av gaskromatografi i detta projekt, berodde detta sannolikt på otillräckligt högt proteinöveruttryck av mevalonatgenerna. / Cyanobacteria are desirable microorganisms for the production of biofuels from sunlight, water and atmospheric carbon dioxide, and are therefore considered potential microbial cell factories. But due to slow growth rate and low production rates, the engineering processes for bioproduction is labour intensive and time consuming. An alternative method to prototype metabolic pathway engineering is to use cell-free metabolic engineering, where cell lysates of enriched enzymes are used. In this project, we attempted to develop a method for cell-free metabolic engineering for the cyanobacterium Synechocystis PCC 6803 using the upper mevalonate pathway as an example pathway. We started by developing three fluorescence-based methods for detecting protein overexpression using the three enzymes from the mevalonate pathway. These methods used YFP fusion to target proteins, a split GFP reporter tag or translation coupling. One of the overexpressed enzymes appeared to be toxic to Synechocystis cells so several inducible promoters were used to try and express the enzyme. The highest expressing construct for each gene was selected and proteins were extracted and mixed in a cell free metabolic engineering reaction. Although no mevalonate could be detected using gas chromatography in this project, this was likely due to insufficiently high protein overexpression of the mevalonate pathway genes. cyanobacteria metabolic engineering cell-free metabolic engineering enzymes sustainability cyanobakterier metabolisk genteknik syntetisk biologi enzymer hållbar bioproduktion Biochemistry and Molecular Biology Biokemi och molekylärbiologi
68	Evaluation of a change detection approach to map global flood extents using Sentinel-1 / Utvärdering av översvämningskartering genom att upptäcka skillnader i satellitbilder från Sentinel-1 Risling, Axel January 2022 (has links) Floods are the most frequent disaster in the world and flood exposure is increasing globally. Flood mapping of past events can be a useful aid in not only disaster risk management, but also in evaluating and validating global flood models (GFMs) which are being used to assess and predict these floods. There are however numerous ways of mapping floods, and it is uncertain how well these perform as validation data. In this paper, a change detection approach based on a combination of synthetic aperture radar (SAR) and cloud-computing to map past flood events is evaluated (hereinafter CD- SAR). Eight flood events were chosen over a wide range of hydroclimatic conditions, regions, and flood types. These eight events were mapped with CD-SAR and compared to four GFM outputs and two flood maps of past events from two commonly used databases. The spatial agreement between CD-SAR and the GFMs showed a considerable variation between regions and models. The agreement was however shown to share a similar interval to previous validation studies, albeit in the lower portion. CD-SAR also showed similar performance to the comparison between the GFMs and the outputs from the databases of mapped past flood events. The results were also analysed for how the flood extent and flood-edge distribution of CD-SAR compare to both the GFMs and the database outputs. The results showed a similar variation in distribution as the spatial agreement but did not follow the same trend for all regions. The flexibility and high resolution of CD-SAR allow it to cover events over a wider range of regions and of any size and it can be a viable tool to map past flood events and could be used to evaluate GFMs. However, CD-SAR needs further evaluation as uncertainties still exist due to the inherent characteristics of SAR and the revisit times of the satellites using SAR. / Översvämningsrelaterade katastrofer är de mest förekommande i världen och exponeringen för översvämningar ökar globalt. Kartläggningar av tidigare översvämningshändelser kan vara ett användbart verktyg för katastrofriskhantering samt för att utvärdera och validera globala översvämningsmodeller som används för att uppskatta och förutse översvämningar. Det finns ett flertal sätt att kartlägga översvämningar men det är osäkert hur bra de fungerar som valideringsdata. Denna studie utvärderar en metod för att kartlägga översvämningar genom förändringsdetektering i syntetiska aperturradarbilder (SAR) med hjälp av molntjänster (härefter CD-SAR). Åtta översvämningshändelser valdes över en rad hydroklimatiska förhållanden, regioner och översvämningstyper. De här översvämningshändelserna kartlades med hjälp av CD-SAR och jämfördes med fyra globala översvämningsmodeller och två översvämningskartor från två väl använda databaser. CD-SAR och de fyra globala översvämningsmodellerna visade betydliga skillnader i överenstämmelse mellan både regioner och modeller. Överenstämmelsen var dock inom samma intervall som påvisats i tidigare studier om än något lägre. CD-SAR visade sig också ha en liknande överensstämmelse som jämförelsen mellan modellerna och databaserna. En analys av CD- SAR jämfört med modellerna och databaserna genomfördes över utbredningen av översvämningarna och dess fördelningar. Resultaten visade en liknande variation som överenstämmelsen men följde inte samma trender för alla regioner. CD-SAR:s flexibilitet och dess höga upplösning gör att den kan omfatta ett stort antal översvämningshändelser över en rad olika regioner. Det gör det möjligt för CD- SAR att genomföra översvämningskartläggningar och för att utvärdera globala översvämningsmodeller. CD-SAR behöver dock utvärderas ytterligare då metoden fortfarande innehar vissa osäkerheter. Osäkerheterna är till mestadels på grund av de inneboende egenskaperna hos SAR samt täckningen för satelliterna som använder SAR. Flood mapping global flood models synthetic aperture radar cloud-computing change detection Översvämningskartering globala översvämningsmodeller syntetisk aperturradar molntjänster förändringsdetektering Engineering and Technology Teknik och teknologier
69	Lärares val av läsmetod i den inledande läsutvecklingen- En kvalitativ intervjustudie / Teachers' choice of reading method in the initial stages of reading development- A qualitative interview study Denneberg, Isabelle, Städe, Johanna January 2024 (has links) Syftet med studien är att bidra med en ökad förståelse för hur några lärare verksamma i årskurs F-3 resonerar om olika läsmetoder vid den inledande läsutvecklingen. Mer specifikt undersöks hur några lärare beskriver att de arbetar med läsmetoder, vilka beslut som ligger till grund för val av läsmetod samt hur väl deras beskrivning av sin kunskapssyn överensstämmer med val av läsmetod. En kvalitativ studie genomförs och data samlas in med hjälp av semistrukturerade intervjuer. I studien deltar sex verksamma lågstadielärare från Skåne och Gotland. Data tolkas utifrån en tematisk analys med hjälp av de teoretiska perspektiven: Behaviorismen, Kognitivismen, Syntetisk metod, Analytisk metod samt Yttre och Inre motivation. Internationell och nationell forskning om läsundervisning, läsmetoders effektivitet och lärares uppfattningar om sin läsundervisning bearbetas samt redovisas och ställs i relation till resultatet i vår studie. Resultatet visar att fem av de totalt sex lärarna använder sig av en syntetisk läsmetod i den inledande läsutvecklingen. Vidare framkommer det att majoriteten av lärarna grundar sitt val av läsmetod på yttre motivation, i form av vad ledning eller specialpedagoger förespråkar. Slutligen framgår det att lärarnas kunskapssyn enbart till viss del går att härleda till vald läsmetod. Analytisk metod behavioristisk teori inre motivation kognitivistisk teori läsmetod läsutveckling kunskapssyn syntetisk metod yttre motivation Social Sciences Samhällsvetenskap Educational Sciences Utbildningsvetenskap Learning Lärande Pedagogical Work Pedagogiskt arbete
70	Measuring the Utility of Synthetic Data : An Empirical Evaluation of Population Fidelity Measures as Indicators of Synthetic Data Utility in Classification Tasks / Mätning av Användbarheten hos Syntetiska Data : En Empirisk Utvärdering av Population Fidelity mätvärden som Indikatorer på Syntetiska Datas Användbarhet i Klassifikationsuppgifter Florean, Alexander January 2024 (has links) In the era of data-driven decision-making and innovation, synthetic data serves as a promising tool that bridges the need for vast datasets in machine learning (ML) and the imperative necessity of data privacy. By simulating real-world data while preserving privacy, synthetic data generators have become more prevalent instruments in AI and ML development. A key challenge with synthetic data lies in accurately estimating its utility. For such purpose, Population Fidelity (PF) measures have shown to be good candidates, a category of metrics that evaluates how well the synthetic data mimics the general distribution of the original data. With this setting, we aim to answer: "How well are different population fidelity measures able to indicate the utility of synthetic data for machine learning based classification models?" We designed a reusable six-step experiment framework to examine the correlation between nine PF measures and the performance of four ML for training classification models over five datasets. The six-step approach includes data preparation, training, testing on original and synthetic datasets, and PF measures computation. The study reveals non-linear relationships between the PF measures and synthetic data utility. The general analysis, meaning the monotonic relationship between the PF measure and performance over all models, yielded at most moderate correlations, where the Cluster measure showed the strongest correlation. In the more granular model-specific analysis, Random Forest showed strong correlations with three PF measures. The findings show that no PF measure shows a consistently high correlation over all models to be considered a universal estimator for model performance.This highlights the importance of context-aware application of PF measures and sets the stage for future research to expand the scope, including support for a wider range of types of data and integrating privacy evaluations in synthetic data assessment. Ultimately, this study contributes to the effective and reliable use of synthetic data, particularly in sensitive fields where data quality is vital. / I eran av datadriven beslutsfattning och innovation, fungerar syntetiska data som ett lovande verktyg som bryggar behovet av omfattande dataset inom maskininlärning (ML) och nödvändigheten för dataintegritet. Genom att simulera verklig data samtidigt som man bevarar integriteten, har generatorer av syntetiska data blivit allt vanligare verktyg inom AI och ML-utveckling. En viktig utmaning med syntetiska data är att noggrant uppskatta dess användbarhet. För detta ändamål har mått under kategorin Populations Fidelity (PF) visat sig vara goda kandidater, det är mätvärden som utvärderar hur väl syntetiska datan efterliknar den generella distributionen av den ursprungliga datan. Med detta i åtanke strävar vi att svara på följande: Hur väl kan olika population fidelity mätvärden indikera användbarheten av syntetisk data för maskininlärnings baserade klassifikationsmodeller? För att besvara frågan har vi designat ett återanvändbart sex-stegs experiment ramverk, för att undersöka korrelationen mellan nio PF-mått och prestandan hos fyra ML klassificeringsmodeller, på fem dataset. Sex-stegs strategin inkluderar datatillredning, träning, testning på både ursprungliga och syntetiska dataset samt beräkning av PF-mått. Studien avslöjar förekommandet av icke-linjära relationer mellan PF-måtten och användbarheten av syntetiska data. Den generella analysen, det vill säga den monotona relationen mellan PF-måttet och prestanda över alla modeller, visade som mest medelmåttiga korrelationer, där Cluster-måttet visade den starkaste korrelationen. I den mer detaljerade, modell-specifika analysen visade Random Forest starka korrelationer med tre PF-mått. Resultaten visar att inget PF-mått visar konsekvent hög korrelation över alla modeller för att betraktas som en universell indikator för modellprestanda. Detta understryker vikten av kontextmedveten tillämpning av PF-mått och banar väg för framtida forskning för att utöka omfånget, inklusive stöd för ett bredare utbud för data av olika typer och integrering av integritetsutvärderingar i bedömningen av syntetiska data. Därav, så bidrar denna studie till effektiv och tillförlitlig användning av syntetiska data, särskilt inom känsliga områden där datakvalitet är avgörande. Synthetic Data Machine Learning Population Fidelity Measures Utility Metrics Synthetic Data Quality Evaluation Classification Algorithms Utility Estimation Data Privacy Artificial Intelligence Experiment Framework Model Performance Assessment Syntetisk Data Maskininlärning Population Fidelity Mätvärden Användbarhetsmätvärden Kvalitetsutvärdering av Syntetisk Data Klassificeringsalgoritmer Användbarhetsutvärdering Dataintegritet Artificiell Intelligens AI Experiment Ramverk Utvärdering av Modellprestanda Computer Sciences Datavetenskap (datalogi)

Search results