201 |
ETL-processen : teori kontra praktikZitoun, Isabel, Josefsson, Ann January 2010 (has links)
Abstract Nowadays, companies and organizations manage large amounts of data to be used as support in decision making. A good solution for data management is in the form of data warehouses. A data warehouse is used to gather information from multiple sources within a company and arrange the information in a way that makes it easy to retrieve and analyze. Designing a data warehouse is not a simple task. The study herein will focus on what a data warehouse is and how the ETL process is used for data storage in the data warehouse. ETL stands for Extract, Transform and Load and is the process that retrieves data, transforms it and finally loads it into the data warehouse. In addition to gathering information from literature we have also conducted an interview with data architect Rasmus Lindén with Know IT AB. During this interview Lindén described how Know IT AB had constructed a data warehouse for Upplands Lokaltrafik, with primary focus on how they used the ETL process to treat data to be stored in UL’s data warehouse. The purpose of this paper is to examine the theory behind the ETL process and subsequently investigate how it may be applied by comparing the theory and how the company Know IT AB has applied it when designing data warehouses. One of the observations we made is that the theory we have studied fails to mention or illustrate some factors we during our interview found were considered important in designing data warehouses. / Sammanfattning Företag och organisationer hanterar idag stora mängder data som används som beslutsunderlag. För att hantera all data kan ett datalager vara en bra lösning. Ett datalagers uppgift är att samla information från flera olika källor inom företaget och ordna informationen så att den senare är lätt att ta fram och analysera. Att konstruera ett datalager är ingen enkel uppgift. Den här studien kommer att fokusera på vad ett datalager är och hur ETL-processen används för att lagra data i datalagret. ETL står för ”Extract” ”Transform” och ”Load” och är den process som hämtar data, transformerar och slutligen laddar in det i datalagret. Förutom att ha samlat information från litteratur har vi även gjort en intervju med dataarkitekten Rasmus Lindén på Know IT AB. Under intervjun beskrev Lindén hur Know IT AB hade konstruerat ett datalager åt Upplands Lokaltrafik och fokus låg på hur de använde ETL-processen för att behandla den data som skulle lagras i UL:s datalager. Syftet med uppsatsen är att undersöka hur ETL-processen ser ut i teorin och att därefter undersöka hur det kan se ut i praktiken, genom att jämföra hur företaget Know IT AB har tillämpar det när de bygger datalager. Något vi upptäckte i våra jämförelser är att den teorin som vi har tagit del av inte nämner eller belyser vissa saker som vi under vår intervju fann var viktiga då man byggde ett datalager.
|
202 |
Efficient and exact computation of inclusion dependencies for data integrationBauckmann, Jana, Leser, Ulf, Naumann, Felix January 2010 (has links)
Data obtained from foreign data sources often come with only superficial structural information, such as relation names and attribute names. Other types of metadata that are important for effective integration and meaningful querying of such data sets are missing. In particular, relationships among attributes, such as foreign keys, are crucial metadata for understanding the structure of an unknown database. The discovery of such relationships is difficult, because in principle for each pair of attributes in the database each pair of data values must be compared.
A precondition for a foreign key is an inclusion dependency (IND) between the key and the foreign key attributes. We present with Spider an algorithm that efficiently finds all INDs in a given relational database. It leverages the sorting facilities of DBMS but performs the actual comparisons outside of the database to save computation. Spider analyzes very large databases up to an order of magnitude faster than previous approaches. We also evaluate in detail the effectiveness of several heuristics to reduce the number of necessary comparisons. Furthermore, we generalize Spider to find composite INDs covering multiple attributes, and partial INDs, which are true INDs for all but a certain number of values. This last type is particularly relevant when integrating dirty data as is often the case in the life sciences domain - our driving motivation.
|
203 |
Um estudo acerca dos recursos audiovisuais no contexto do Linked Data / A study of audiovisual resources in the context of Linked DataGrisoto, Ana Paula [UNESP] 29 April 2016 (has links)
Submitted by ANA PAULA GRISOTO null (apaulamori7@gmail.com) on 2016-05-31T18:30:18Z
No. of bitstreams: 1
grisoto_ap_me_mar_int.pdf: 162981 bytes, checksum: 1afb836961a5df05866fd539d345056a (MD5) / Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2016-05-31T18:35:20Z (GMT) No. of bitstreams: 2
grisoto_ap_me_mar_int.pdf: 162981 bytes, checksum: 1afb836961a5df05866fd539d345056a (MD5)
grisoto_ap_me_mar_par.pdf: 162981 bytes, checksum: 1afb836961a5df05866fd539d345056a (MD5) / Made available in DSpace on 2016-05-31T18:35:20Z (GMT). No. of bitstreams: 2
grisoto_ap_me_mar_int.pdf: 162981 bytes, checksum: 1afb836961a5df05866fd539d345056a (MD5)
grisoto_ap_me_mar_par.pdf: 162981 bytes, checksum: 1afb836961a5df05866fd539d345056a (MD5)
Previous issue date: 2016-04-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O aumento dos fluxos de informação na Web, devido a difusão e utilização cada vez maior das Tecnologias de Informação e Comunicação (TIC), tornam substancial a criação de tecnologias capazes de otimizar o acesso aos recursos informacionais e à informação. O recurso audiovisual que cresce desordenadamente requer soluções concernentes à estruturação, representação, interoperabilidade e à sua recuperação, gerando discussões muito necessárias na área da Ciência da Informação. A Web Semântica se propõe a possibilitar estruturação e a significação dos conteúdos na Web, para que computadores possam processar e interpretar o conteúdo para uma recuperação de informações mais eficiente, apresenta-se como o universo adequado para muitos estudos e pesquisas. Nesse contexto, o projeto Linked Data prevê melhores práticas para disponibilizar dados facilitando a interoperabilidade e a recuperação de informações. O objetivo deste trabalho consiste em identificar e analisar os conjuntos de dados sobre recursos audiovisuais no contexto do Linked Data, buscando verificar como a estrutura dos padrões de descrição pode contribuir para o ambiente informacional digital na representação de recursos e na interoperabilidade. O método utilizado foi o descritivo e exploratório, que consistiu no levantamento e documentação bibliográfica sobre os temas centrais da pesquisa e no estudo de ontologias e de padrões de metadados para descrição de recursos audiovisuais. A etapa exploratória consistiu na análise dos conjuntos de dados sobre recurso audiovisual disponíveis em Linked Data. Conclui-se que ainda há um longo caminho a percorrer para que as informações disponibilizadas na Web sejam construídas fundamentadas nos conceitos e tecnologias da Web Semântica e para que as melhores práticas sugeridas pela iniciativa do Linked Data sejam efetivas. Destacam-se algumas iniciativas, especialmente a Europeana. / The increase in Web information flows due to diffusion and increasing use Technologies of Information and Communication (TIC) make substantial creating technologies that optimize access to information resources and information. The audiovisual resource that grows inordinately requires solutions concerning the structure, representation, interoperability and recovery, generating much needed discussions in the area of Information Science. The Semantic Web aims to enable the structuring and the significance of the content on the Web, so that computers can process and interpret the content for more efficient information retrieval, is presented as the appropriate universe for many studies and research. In this context, the project Linked Data provides best practices to provide data to facilitate interoperability and information retrieval. The objective of this work is to identify and analyze the data sets of audiovisual resources in the context of Linked Data, in order to verify the structure of the description of patterns may contribute to the digital information environment in the representation of resources and interoperability. The method used was descriptive and exploratory, which consisted of the survey and scientific literature on the central themes of research and study of ontologies and metadata standards for describing audio-visual resources. The exploratory phase consisted in the analysis of data sets audiovisual feature available in Linked Data. It is concluded that there is still a long way to go to make the information available on the Web are built based on the concepts and Semantic Web technologies and the best practices suggested by the Linked Data initiative are effective. It highlights some initiatives, especially Europeana.
|
204 |
The role of metadata in managing knowledgeApostolou, Christina January 2009 (has links)
Organisations make use of a variety of knowledge management systems (KMS) in order to facilitate the creation, storage, transfer and reuse of organisational knowledge. Metadata is used to describe knowledge by its attributes and to provide the context, quality, condition or other characteristics of knowledge assets. This thesis explores the way in which metadata is being used in KMS. It provides an analysis of the types of metadata used for the descriptIon of knowledge documents at the semantic level and complements other research on the evaluation of KMS by focusing on the use of metadata, adopting a user perspective. The empirical work was carried out through case study research in two highly knowledge-intensive companies, a motorsport engineering company and a pharmaceutical company. Data collection tools included field visits, documentation, surveys and interviews. The findings demonstrate the level of users' satisfaction with the KMS and metadata and their readiness to create metadata when contributing a knowledge document to the KMS. Demographic factors, such as gender, age, qualifications, and years working with the company, are analysed in conjunction with attitudes towards the KMS and metadata The two metadata schemes used in each company are mapped semantically to the widely used Dublin Core Metadata Element Set (DCMI), in order to identify good practice in designing a metadata scheme for a KMS From the mapping, the basis of a metadata framework is created, intended to be used as a checklist for the development of comprehensive metadata schemes for the description of knowledge documents. The metadata management processes of the two companies are analysed to propose guidelines for the development of a metadata management strategy.
|
205 |
Metadata in Digital Preservation and Exchange of Electronic Healthcare Records.Gotis, Georgos, Nagibin, Ilya January 2017 (has links)
The Swedish National Archives are in charge of the management of Common Specifications (CS). CS are genericmetadata specifications that provides structure and markup when transferring digital information betweeninformation systems and to electronic archives. As of now there is no CS for electronic healthcare records (EHR).Organizations around Sweden have developed their own specifications for transferring healthcare information. Inaddition to that, there are comprehensive international EHR metadata standards established. The Swedish NationalArchives have commissioned a study of EHR metadata specifications and standards to aid in the development of theCS.A Delphi study was conducted, including respondents from major archiving organizations in Sweden, to identifynecessary metadata categories when exchanging EHRs. The data was analyzed considering the international EHRmetadata standards HL7 CDA2 and CEN/ISO EN13606, as well as digital preservation metadata categories. Theresults were a set of metadata categories necessary to include in a CS. In addition, a subset of suggested mandatorymetadata categories is proposed and a list of implications for practice. Clinical codes, auditing, and separatingmetadata related to different contexts are a sample size of the implications.The results were evaluated in an interview with the Swedish National Archives, as well as Sydarkivera. Three criteriafor evaluating the results were proposed, being that the results had to consider a common terminology as well as bebased on a metadata standard and Swedish metadata specifications for EHRs. The interview revealed that the resultssatisfied these criterions, except for requiring a study on one additional user environment of EHRs.
|
206 |
Repository Mining : Användbarheten av Repository Mining för effektivisering av mjukvaruutvecklingEngblom Sandin, John January 2022 (has links)
Mjukvaruföretag idag söker alltid nya metoder för att effektivisera sin utveckling och att förbättra sin produkt. Denna studie undersöker användbarheten av en sådan ny metod kallad repository mining. Inom mjukvaruutveckling är repository mining en metod av kodanalys som utförs för att få ut metadata från ett versionshanteringssystem. Processen utförs med hjälp av ett kodanalysverktyg som i denna studie är verktyget CodeScene. Målet med denna fallstudie är att undersöka vad det finns för användningsfall för repository mining i ett utvecklingssyfte. Studiens syfte är att få förståelse för vilka typer av metadata som är relevanta och vad för faktorer det finns som kan påverka eventuella resultat. Syftet är även att studera om hur repository mining kan hjälpa företag i deras arbete med att öka eller upprätthålla kvaliteten på deras system. Studien utförs i samband med företaget Sandvik Coromant och deras avdelning Machining Foresight för att analysera deras kodbas. Kodbasen analyseras med hjälp av kodanalysverktyget CodeScene för att utvinna metadata som sedan presenteras till utvecklare inom Machining Foresight. Sedan utförs en kvalitativ studie som består av intervjuer och gruppdiskussioner i syfte av att få utvecklarnas reflektioner och tankegångar angående användbarheten av repository mining. Resultatet visar på att det finns användningsfall hos repository mining men dessa kräver att vissa faktorer är bestämda. Första användningsfallet är en analys på ändring i kodkomplexitet som hjälper att förutspå framtida refaktoreringar. Det andra användningsfallet är en analys på författarskap inom systemet för att hitta möjliga platser känsliga för kunskapsförlust, därmed hjälpa i planering av kunskapsdelning. Detta är dock en fallstudie och dessa resultat ska inte användas för att dra generella slutsatser om repository mining i sin helhet. Resultaten ska endast tas som vägriktning och indikation för framtida studier.
|
207 |
Algoritm för automatiserad generering av metadata / Algorithm for Automated Generation of MetadataKarlsson, Fredrik, Berg, Fredrik January 2015 (has links)
Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. / Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords.
|
208 |
A Method for Automatic Generation of MetadataFawzy Kamel, Menatalla Ashraf January 2014 (has links)
The thesis introduces a study about the different ways of generating metadata and implementing them in web pages. Metadata are often called data about data. In web pages, metadata holds the information that might include keywords, a description, author, and other information that helps the user to describe and explain an information resource in order to use, manage and retrieve data easily. Since web pages depend significantly on metadata to increase the traffic in search engines, studying the different methods of generation of metadata is an important issue. Generation of metadata can be made both manually and automatically. The aim of the research is to show the results of applying different methods including a new proposed method of generating automatic metadata using a qualitative study. The goal of the research is to show the enhancement achieved by applying the new proposed method of generating metadata automatically that are implemented in web pages. / Uppsatsen presenterar en studie om olika sätt att generera metadata och genomföra dem på webbsidor. Metadata kallas ofta data om data eller information om information som innehåller den information som hjälper användaren att beskriva, förklara och hitta en informationskälla för att kunna använda, hantera och hämta data enkelt. Eftersom webbsidor är märkbart beroende av metadata för att öka trafiken i sökmotorer, att studera olika metoder för skapandet av metadata är en viktig fråga. Skapande av metadata kan ske både manuellt och automatiskt. Syftet med forskningen är att visa resultaten av tillämpningen av olika metoder inklusive en ny föreslagen metod för att generera automatiska metadata med hjälp av en kvalitativ studie. Målet med forskningen är att visa förbättringen som uppnås genom den nya föreslagna metoden för att generera metadata automatisk som genomförs på webbsidor.
|
209 |
Metod för automatiserad sammanfattning och nyckelordsgenerering / Method for automated summary and keyword generatorBjörkvall, Dennis, Ploug, Martin January 2016 (has links)
Företaget Widespace hanterar hundratals ärenden i veckan vilket kräver stor överblick för varje an-ställd att sätta sig in i varje enskilt ärende. På grund av denna kvantitet blir uppgiften att skapa över-blicken ett stort problem. För att lösa detta problem krävs en mer konsekvent användning av meta-data och därför har en litteraturstudie om metadata, automatiserad sammanfattning och nyckelords-generering utförts. Arbetet gick ut på att utveckla en prototyp som automatisk kan generera en sammanfattning av texten från ett ärende, samt generera en lista av nyckelord och ge en indikation om vilket språk texten är skriven i. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och metoder som kan användas för att lösa denna uppgift. Två egenutvecklade prototyper, MkOne och MkTwo, jämfördes med varandra och utvärderades därefter. Metoderna som använts bygger på både statistiska och lingvistiska processer. En analys av resultaten gjordes och visade att prototypen MkOne levererade bäst resultat för sammanfattningen och att nyckelordlistan tillhandahöll nyckelord av hög precision och en bred täckning. / The company Widespace handles hundreds of tasks (tickets) per week, which requires great overview by each employee. Because of this quantity, creating a clear view becomes a major problem. To solve this problem, a more consistent use of metadata is required, therefore, a study of metadata, automated summary and key words generation has been performed. The task was to develop a prototype that can automatically generate a summary, a list of keywords and give an indication of what language the text is written in. It was also included in the work to make a survey of earlier works to see which systems and methods that can be used for this task. Two prototypes were developed, compared with each other and evaluated. The methods used were based on both statistical and linguistic processes. Analysis of the results was done and showed that the prototype MkOne delivered the best results for the summary. The keyword list contained many precise keywords with high precision and a wide coverage.
|
210 |
Indexing file metadata using a distributed search engine for searching files on a public cloud storageHabtu, Simon January 2018 (has links)
Visma Labs AB or Visma wanted to conduct experiments to see if file metadata could be indexed for searching files on a public cloud storage. Given that storing files in a public cloud storage is cheaper than the current storage solution, the implementation could save Visma money otherwise spent on expensive storage costs. The thesis is therefore to find and evaluate an approach chosen for indexing file metadata and searching files on a public cloud storage with the chosen distributed search engine Elasticsearch. The architecture of the proposed solution is similar to a file service and was implemented using several containerized services for it to function. The results show that the file service solution is indeed feasible but would need further tuning and more resources to function according to the demands of Visma. / Visma Labs AB eller Visma ville genomföra experiment för att se om filmetadata skulle kunna indexeras för att söka efter filer på ett publikt moln. Med tanke på att lagring av filer på ett publikt moln är billigare än den nuvarande lagringslösningen, kan implementeringen spara Visma pengar som spenderas på dyra lagringskostnader. Denna studie är därför till för att hitta och utvärdera ett tillvägagångssätt valt för att indexera filmetadata och söka filer på ett offentligt molnlagring med den utvalda distribuerade sökmotorn Elasticsearch. Arkitekturen för den föreslagna lösningen har likenelser av en filtjänst och implementerades med flera containeriserade tjänster för att den ska fungera. Resultaten visar att filservicelösningen verkligen är möjlig men skulle behöva ytterligare modifikationer och fler resurser att fungera enligt Vismas krav.
|
Page generated in 0.0651 seconds