1 |
[en] A FRAMEWORK FOR THE CONSTRUCTION OF MEDIATORS OFFERING DEDUPLICATION / [pt] UM FRAMEWORK PARA A CONSTRUÇÃO DE MEDIADORES OFERECENDO ELIMINAÇÃO DE DUPLICATASGUSTAVO LOPES MOURAD 24 January 2011 (has links)
[pt] À medida em que aplicações web que combinam dados de
diferentes fontes ganham importância, soluções para a
detecção online de dados duplicados tornam-se centrais. A
maioria das técnicas existentes são baseadas em algoritmos de
aprendizado de máquina, que dependem do uso de bases de
treino criadas manualmente. Estas soluções não são adequadas
no caso da Deep Web onde, de modo geral, existe pouca
informação acerca do tamanho das fontes de dados, da
volatilidade dos mesmos e do fato de que a obtenção de um
conjunto de dados relevante para o treinamento é uma tarefa
difícil. Nesta dissertação propomos uma estratégia para
extração (scraping), detecção de duplicatas e incorporação de
dados resultantes de consultas realizadas em bancos de dados
na Deep Web. Nossa abordagem não requer o uso de conjuntos
de testes previamente definidos, mas utiliza uma combinação
de um classificador baseado no Vector Space Model, com
funções de cálculo de similaridade para prover uma solução
viável. Para ilustrar nossa proposta, nós apresentamos um
estudo de caso onde o framework é instanciado para uma
aplicação do domínio dos vinhos. / [en] As Web applications that obtain data from different sources
(Mashups) grow in importance, timely solutions to the
duplicate detection problem become central. Most existing
techniques, however, are based on machine learning
algorithms, that heavily rely on the use of relevant, manually
labeled, training datasets. Such solutions are not adequate
when talking about data sources on the Deep Web, as there is
often little information regarding the size, volatility and
hardly any access to relevant samples to be used for training.
In this thesis we propose a strategy to aid in the extraction
(scraping), duplicate detection and integration of data that
resulted from querying Deep Web resources. Our approach
does not require the use of pre-defined training sets , but rather
uses a combination of a Vector Space Model classifier with
similarity functions, in order to provide a viable solution. To
illustrate our approach, we present a case study where the
proposed framework was instantiated for an application in the
wine industry domain.
|
2 |
[en] IT STRATEGIES FOR THE ELECTRONIC INTEGRATION OF INFORMATION: A STUDY OF THE STATE OF THE ART AND THE PRACTICE / [pt] ESTRATÉGIAS DE TI PARA A INTEGRAÇÃO ELETRÔNICA DA INFORMAÇÃO: UM ESTUDO SOBRE O ESTADO DA ARTE E DA PRÁTICADANIEL VALENTE SERMAN 03 March 2008 (has links)
[pt] A informação passou a ser vista ao longo do tempo como um
insumo
importante para a tomada de decisão e para a obtenção de
vantagens competitivas
pelas empresas. A tecnologia passou a fazer parte do
cotidiano das empresas para
melhor administrá-la e disseminá-la.
Entretanto, nem sempre as organizações adotaram esse
caminho de forma
planejada. Percebe-se uma confusão no uso de conceitos e
de soluções em TI, que
se estende para o tema da integração eletrônica da
informação.
O trabalho consistiu em uma revisão da literatura sobre a
integração de
sistemas e de dados, verificando-se os conceitos mais
comuns, as soluções mais
utilizadas e as promessas encontradas. Além disso,
realizou-se uma pesquisa de
campo, na qual gestores expuseram em entrevistas
qualitativas o que acontece na
prática sobre o assunto, aludindo a benefícios, problemas
e requisitos para o
desenvolvimento e adoção de soluções de integração. / [en] Organizations began to see information like an important
component for
decision making and obtaining above average profits, when
well used.
Computational tools and communication technologies became
common on the
quotidian of these organizations.
However, those tools and technologies weren`t always
adopted through the
right way. We notice confusion on the use of concepts and
the adoption of
solutions on IT and that problem extends to information
integration.
This work consisted on an intense review of the literature
about systems and
data integration, verifying most common concepts, most
utilized solutions and
promises about them. Besides, a field research was
realized, which manages
showed on qualitative interviews what actually happens
about this subject,
referring to benefits, problems and requisites for the
development and adoption of
integration solutions.
|
3 |
[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIASSANDRA APARECIDA DIAS 16 October 2006 (has links)
[pt] O advento da WEB propiciou a disseminação de bases de
dados distribuídas
e heterogêneas. Por vezes, a resposta a uma consulta
demanda o uso de várias
destas bases. É necessário, então, algum nível de
integração destas. A publicação
dessas bases nem sempre segue um padrão semântico. Em
função disso parece ser
essencial existir um meio de relacionar os diferentes
dados para satisfazer tais
consultas. Este processo é comumente denominado de
integração de dados. A
comunidade de Banco de Dados tem conhecimento de métodos
para dar conta
desta integração no contexto de federações de Bancos de
Dados heterogêneos. No
entanto, atualmente existem descrições mais ricas e com
mais possibilidades de
semântica, tais como aquelas induzidas pelo conceito de
ontologia. A comunidade
de Banco de Dados tem considerado ontologias na solução do
problema da
integração de Banco de Dados. O alinhamento ou merge de
ontologias são
algumas das propostas conhecidas da comunidade de WEB
semântica. Este
trabalho propõe o uso de métodos de merge de ontologias
como solução ao
problema da construção de uma federação de ontologias como
método integrador
de fontes de dados. O trabalho inclui a implementação de
um estudo de caso na
ferramenta Protegé. Este estudo de caso permite discutir
aspectos de
escalabilidade e de aplicabilidade da proposta como uma
solução
tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous
distributed databases.
Sometimes, the answer to a query demands the use of more
than one database.
Some level of integration among these databases is
desired. However, frequently,
the bases were not designed according a unique semantic
pattern. Thus, it seems
essential to relate the different data, in the respective
base, in order to provide an
adequate answer to the query. The process of building this
relationship is often
called data integration. The Data Base community has
acquired enough
knowledge to deal with this in the context of Data Base
Heterogeneous
Federation. Nowadays, there are more expressive model
descriptions, namely
ontologies. The Data Base community has also considered
ontologies as a tool to
contribute as part of a solution to the data integration
problem. The Semantic
WEB community defined alignment or merge of ontologies as
one of the possible
solutions to the some of this integration problem. This
work has the aim of using
merge of ontologies methods as a mean to define the
construction of a
Federation of ontologies as a mean to integrate source of
data. The dissertation
includes a case study written in the Protegé tool. From
this case study, a
discussion follows on the scalability and applicability of
the proposal as a feasible
technological solution for data integration.
|
4 |
[pt] AGRUPAMENTO FUZZY APLICADO À INTEGRAÇÃO DE DADOS MULTI-ÔMICOS / [en] FUZZY CLUSTERING APPLIED TO MULTI-OMICS DATASARAH HANNAH LUCIUS LACERDA DE GOES TELLES CARVALHO ALVES 05 October 2021 (has links)
[pt] Os avanços nas tecnologias de obtenção de dados multi-ômicos têm disponibilizado diferentes níveis de informação molecular que aumentam progressivamente em volume e variedade. Neste estudo, propõem-se uma metodologia de integração de dados clínicos e multi-ômicos, com o objetivo de identificar subtipos de câncer por agrupamento fuzzy, representando assim as gradações entre os diferentes perfis moleculares. Uma melhor caracterização de tumores em subtipos moleculares pode contribuir para uma medicina mais
personalizada e assertiva. Os conjuntos de dados ômicos a serem integrados são definidos utilizando um classificador com classe-alvo definida por resultados da literatura. Na sequência, é realizado o pré-processamento dos conjuntos de dados para reduzir a alta dimensionalidade. Os dados selecionados são
integrados e em seguida agrupados. Optou-se pelo algoritmo fuzzy C-means pela sua capacidade de considerar a possibilidade dos pacientes terem características de diferentes grupos, o que não é possível com métodos clássicos de agrupamento. Como estudo de caso, utilizou-se dados de câncer colorretal
(CCR). O CCR tem a quarta maior incidência na população mundial e a terceira maior no Brasil. Foram extraídos dados de metilação, expressão de miRNA e mRNA do portal do projeto The Cancer Genome Atlas (TCGA). Observou-se que a adição dos dados de expressão de miRNA e metilação a um classificador de expressão de mRNA da literatura aumentou a acurácia deste em 5 pontos percentuais. Assim, foram usados dados de metilação, expressão de miRNA e mRNA neste trabalho. Os atributos de cada conjunto de dados foram selecionados, obtendo-se redução significativa do número de atributos. A identificação dos grupos foi realizada com o algoritmo fuzzy C-means. A variação dos hiperparâmetros deste algoritmo, número de grupos e parâmetro de fuzzificação, permitiu a escolha da combinação de melhor desempenho. A escolha da melhor configuração considerou o efeito da variação dos parâmetros nas características biológicas, em especial na sobrevida global dos pacientes. Observou-se que o agrupamento gerado permitiu identificar que as amostras consideradas não agrupadas têm características biológicas compartilhadas entre grupos de diferentes prognósticos. Os resultados obtidos com a combinação de dados clínicos e ômicos mostraram-se promissores para melhor predizer o fenótipo. / [en] The advances in technologies for obtaining multi-omic data provide different levels of molecular information that progressively increase in volume and variety. This study proposes a methodology for integrating clinical and multiomic data, which aim is the identification of cancer subtypes using fuzzy clustering
algorithm, representing the different degrees between molecular profiles. A better characterization of tumors in molecular subtypes can contribute to a more personalized and assertive medicine. A classifier that uses a target class from literature results indicates which omic data sets should be integrated.
Next, data sets are pre-processed to reduce high dimensionality. The selected data is integrated and then clustered. The fuzzy C-means algorithm was chosen due to its ability to consider the shared patients characteristics between different groups. As a case study, colorectal cancer (CRC) data were used. CCR has
the fourth highest incidence in the world population and the third highest in Brazil. Methylation, miRNA and mRNA expression data were extracted from The Cancer Genome Atlas (TCGA) project portal. It was observed that the addition of miRNA expression and methylation data to a literature mRNA expression classifier increased its accuracy by 5 percentage points. Therefore, methylation, miRNA and mRNA expression data were used in this work. The attributes of each data set were pre-selected, obtaining a significant reduction in the number of attributes. Groups were identified using the fuzzy C-means
algorithm. The variation of the hyperparameters of this algorithm, number of groups and membership degree, indicated the best performance combination. This choice considered the effect of parameters variation on biological characteristics, especially on the overall survival of patients. Clusters showed that patients considered not grouped had biological characteristics shared between groups of different prognoses. The combination of clinical and omic data to better predict the phenotype revealed promissing results.
|
5 |
[en] INTEGRATION OF REPOSITORIES OF DIGITAL LIBRARY SYSTEMS AND LEARNING MANAGEMENT SYSTEMS / [pt] INTEGRAÇÃO DE REPOSITÓRIOS DE SISTEMAS DE BIBLIOTECAS DIGITAIS E SISTEMAS DE APRENDIZAGEMGEORGIA REGINA RODRIGUES GOMES 18 May 2007 (has links)
[pt] Com o uso generalizado das tecnologias de informação no
apoio ao ensino,
é comum disponibilizar conteúdos digitais, seja através de
Sistemas de Bibliotecas
Digitais (DLMS) ou de Sistemas de Gerência de Aprendizagem
(LMS). No
entanto, estes sistemas funcionam de forma independente,
têm características
diferentes e manipulam tipos diferentes de materiais,
sendo seus repositórios com
dados e metadados heterogêneos e distribuídos. Os
conteúdos destes repositórios
seriam melhor aproveitados se estivessem integrados a um
ambiente comum, ou
fossem acessados de modo integrado a partir dos ambientes
de de DLMS e LMS.
Nesta tese é apresentada uma visão homogênea dos conteúdos
de DLMS e LMS.
Para esta homogeneização utilizou-se uma extensão da
arquitetura de mediadores
e tradutores que trata a integração de metadados, assim
como ontologias para
tratamento semântico. Foram consideradas ontologias locais
para descrever os
metadados de cada repositório e uma ontologia global para
a integração. No
entanto, os documentos dos repositórios dos DLMS tendem a
ser monolíticos e
não têm um enfoque na reutilização( reuso). Assim, foram
definidas regras para
extração dos conteúdos mais importantes destes documentos,
o que possibilita a
reutilização. Esta extração envolve técnicas de mineração
de texto e utiliza regras
para descobrir as definições contidas nos documentos. Foi
desenvolvido um
protótipo que demonstra a viabilidade do processo. Para
facilitar o entendimento
do trabalho, é apresentado um estudo de caso que utiliza a
técnica proposta e o
protótipo desenvolvido. O trabalho facilita e enriquece o
desenvolvimento de
materiais de aprendizagem, uma vez que torna os conteúdos
de documentos das
bibliotecas digitais reutilizáveis e integrados aos
Objetos de Aprendizagem (LO)
existentes. / [en] With the widespread use of Information Technology for
teaching support, it
is usual to made digital content available through Digital
Library Systems
(DLMS) or Learning Management Systems (LMS).These systems,
however, work
independently, have different characteristics and
manipulate different types of
materials, and their data and metadata repositories are
heterogeneous and
distributed. The content of repositories would be better
used if it was integrated in
the same environment or accessed in an integrated way from
DLMS and LMS.
This thesis presents a homogeneous view of DLMS and LMS
content. In order to
provide such homogenization, it is proposed an extension
of the mediator and
wrapper architecture for dealing with metadata integration
and ontologies for
treating semantics. Local ontologies are used for
describing each metadata
repository, and a global ontology for the integration. As
documents of DLMS
repositories tend to be monolithic and not to follow a
reuse approach, rules for
extracting the most important content from these documents
were developed in
order to make them reusable. This extraction includes text
mining techniques as
well as rules for discovering definitions embedded in the
documents. A prototype
was developed which implements the extraction and proves
the feasibility of this
approach. In order to make the work easier to understand,
it is presented a case
study that uses the proposed technique and the prototype.
The work described in
this thesis facilitates and enriches the development of
learning material by making
the content of digital library documents reusable and
integrated to existing
learning objects.
|
6 |
[en] AN ARCHITECTURE BASED ON MEDIATORS AND WEB SERVICES FOR INTEGRATING LEARNING OBJECTS REPOSITORIES / [pt] UMA ARQUITETURA PARA INTEGRAÇÃO DE REPOSITÓRIOS DE OBJETOS DE APRENDIZAGEM BASEADA EM MEDIADORES E SERVIÇOS WEBSIMONE LEAL DE MOURA 10 March 2006 (has links)
[pt] Na educação baseada na Web há uma grande preocupação em
relação ao
compartilhamento de materiais instrucionais devido à
complexidade do processo
de desenvolvimento de materiais com boa qualidade. Isto
leva a uma tendência
em adotar a abordagem de orientação a objetos no
desenvolvimento destes
materiais, originando os chamados Objetos de
Aprendizagem.
Além disto,
instituições e empresas interessadas na educação baseada
na Web vêm formando
parcerias no sentido de promover o compartilhamento de
tais objetos. De modo a
contribuir para estes esforços desenvolvemos uma
arquitetura de mediadores e
tradutores enriquecidos pelo uso de ontologias, que é
implementada como
serviços Web de modo a permitir a autonomia local com
uma
visão integrada. O
uso de mediadores possibilita que uma consulta seja
redefinida em sub-consultas
que são distribuídas às fontes de dados e o resultado
integrado. Os tradutores
permitem que as sub-consultas sejam entendidas pelas
fontes de dados e as
respectivas respostas sejam entendidas pelo mediador. A
implementação dos
componentes da arquitetura como serviços Web possibilita
uma maior
flexibilidade e interoperabilidade entre os
participantes
da rede. O tratamento da
heterogeneidade semântica faz uso do formalismo de
ontologias para descrever
os conceitos existentes nos metadados de cada
repositório
participante na rede e
encontrar as possíveis equivalências entre eles. Desta
forma, o desenvolvimento
desta arquitetura resultou em LORIS, um sistema de
integração de repositórios
de objetos de aprendizagem. O LORIS está sendo aplicado
no
PGL, um projeto
de cooperação internacional entre instituições de ensino
e
pesquisa para
promover a educação baseada na Web. / [en] In web-based education there is an emphasis on reusing and
sharing
instructional content due to the complexity of the
development process of highquality
learning materials. It leads to the learning objects
orientation as well as to
partnerships among institutions to promote sharing of
these objects. In order to
contribute to these efforts, we proposed an architecture
based on the mediators
and wrappers for integrating learning objects
repositories. The components of
this architecture were implemented by the use of web-
services and the
integration processes were enriched by ontologies. The use
of mediators allows a
query to be redefined as sub-queries that are distributed
to the data sources and
the results to be integrated. The wrappers allow the data
sources to understand
the sub-queries and the mediator to understand the
respective answers. The
implementation of the architecture components as web
services allows more
flexibility and interoperability among the participants of
the community. The
formalism of ontologies is used to deal with the semantic
heterogeneity as the
metadata concepts of each repository are described and the
equivalences are
established. The development of this architecture is
called LORIS, an integration
system of learning objects` repositories. LORIS is being
adopted by PGL, an
international partnership project for promoting web-based
education.
|
7 |
[en] EDUCO: MODELING EDUCATIONAL CONTENT / [pt] EDUCO: MODELANDO CONTEÚDO EDUCACIONALSEAN WOLFGAND MATSUI SIQUEIRA 04 May 2005 (has links)
[pt] No contexto de e-learning, o desenvolvimento de material de
aprendizagem é um fator de sucesso. Entretanto, estes
processos são caros e
demorados de modo que se procura promover o reuso de
materiais e estabelecer
parcerias entre instituições para compartilhar conteúdo e
serviços. Assim, o uso
conjunto de Objetos de Aprendizagem (LOs) e respectivos
metadados tem sido
amplamente adotado. Entretanto, apesar do uso de padrões de
descritores para
LOs tornar sua aceitação mais ampla, muitos desenvolvedores
demonstram uma
grande dificuldade em usar e reusar LOs. Portanto, continua
a haver interesse em
prover meios que promovam o reuso destes LOs e a tendência
atual é que estes
LOs se tornem cada vez menores, estruturados conforme uma
hierarquia de nós
interconectados. Algumas abordagens atuais consideram o uso
de mapas de
tópicos (topic maps), ontologias e bases de conhecimento
para trabalhar com os
conteúdos contidos nos materiais educacionais. Esta tese
apresenta um modelo
para estruturar e representar o conteúdo contido nos
materiais educacionais a
partir dos tipos de informações e de unidades conceituais
envolvidas. Além da
proposta de modelagem é também apresentada uma arquitetura
que possibilita a
implantação dos diferentes níveis semânticos de informação
a serem
considerados em um ambiente de e-learning. Esta arquitetura
se baseia em
trabalhos relacionados a integração de dados e estabelece
um contexto para a
utilização do modelo proposto para a representação do
conteúdo educacional,
contribuindo para a sua adoção. / [en] In e-learning, the development of multimedia educational
content material
has been a success factor. However, as these processes are
expensive and timeconsuming,
there is a need for making the content reuse easier and
institutions
are establishing partnerships in order to share content and
services. In this
context, Learning Objects (LO) and standard metadata have
been grown in
acceptance. In spite of this, several developers have found
it difficult to use and
reuse LOs. Then there is still a need for providing
mechanisms that promote LO
reuse. The current trend is on making these LO even
smaller, structured
according to a hierarchy of interconnected nodes. Some
recent approaches are
based on the use of topic maps, ontology and knowledge
bases in order to work
with the content that are embedded into the educational
material. This thesis
presents a model for structuring and representing this
content according to the
involved information and conceptual unities. In addition,
we also present an
architecture that allows the different semantic levels of
information to be
considered in an e-learning environment. This architecture
is based on related
work on data integration and it establishes a context for
the proposed modeling
approach for representing educational content and therefore
contributes for its
acceptance and use by the e-learning community.
|
8 |
[en] EXTENSION OF AN INTEGRATION SYSTEM OF LEARNING OBJECTS REPOSITORIES AIMING AT PERSONALIZING QUERIES WITH FOCUS ON ACCESSIBILITY / [pt] EXTENSÃO DE UM SISTEMA DE INTEGRAÇÃO DE REPOSITÓRIOS DE OBJETOS DE APRENDIZAGEM VISANDO A PERSONALIZAÇÃO DAS CONSULTAS COM ENFOQUE EM ACESSIBILIDADERAPHAEL GHELMAN 16 October 2006 (has links)
[pt] Hoje em dia e-learning está se tornando mais importante
por possibilitar a
disseminação de conhecimento e informação através da
internet de uma forma
mais rápida e menos dispendiosa. Consequentemente, de modo
a filtrar o que é
mais relevante e/ou de interesse do usuário, arquiteturas
e técnicas de
personalização vêm sendo abordadas. Dentre as muitas
possibilidades de
personalização existentes, a que lida com acessibilidade
está se tornando
essencial, pois garante que uma grande variedade de
usuários possa ter acesso à
informação conforme suas necessidades e características.
Acessibilidade não é
apenas garantir que pessoas com alguma deficiência, ou
dificuldade, possam ter
acesso à informação, apesar de ser importante e
eventualmente ser uma exigência
legal. Acessibilidade é também garantir que uma larga
variedade de usuários e
interfaces possam obter acesso à informação, maximizando
assim a audiência
potencial. Esta dissertação apresenta uma extensão do
LORIS, um sistema de
integração de repositórios de objetos de aprendizagem,
descrevendo as alterações
na sua arquitetura para ser capaz de lidar com
acessibilidade e reconhecer
diferentes versões de um mesmo objeto de aprendizagem,
permitindo assim que
um usuário execute uma consulta considerando seu perfil e
preferências. Foi
desenvolvido um protótipo dos serviços descritos na
arquitetura utilizando
serviços Web e navegação facetada, bem como padrões web,
de e-learning e de
acessibilidade. O uso de serviços Web e de padrões visa
promover flexibilidade e
interoperabilidade, enquanto a navegação facetada, como
implementada, permite
que o usuário aplique múltiplos filtros aos resultados da
consulta sem a
necessidade de re-submetê-la. / [en] Nowadays e-learning is becoming more important as it makes
possible the
dissemination of knowledge and information through the
internet in a faster and
costless way. Consequently, in order to filter what is
more relevant and/or of
users interest, architectures and personalization
techniques have been raised.
Among the many existing possibilities of personalization,
the one that deals with
accessibility is becoming essential because it guarantees
that a wide variety of
users may have access to the information according to
their preferences and needs.
Accessibility is not just about ensuring that disabled
people can access
information, although this is important and may be a legal
requirement. It is also
about ensuring that the wide variety of users and devices
can all gain access to
information, thereby maximizing the potential audience.
This dissertation presents
an extension of LORIS, an integration system of learning
object repositories,
describing the changes on its architecture to make it able
to deal with accessibility
and to recognize different versions of the same learning
object, thus allowing a
user to execute a query considering his/her preferences
and needs. A prototype of
the services that are described in the architecture was
developed using web
services and faceted navigation, as well as e-learning and
accessibility standards.
The use of web services and standards aims at providing
flexibility and
interoperability, while the faceted navigation, as
implemented, allows the user to
apply multiple filters to the query results without the
need to resubmit it.
|
9 |
[en] OLAP2DATACUBE: AN ON-DEMAND TRANSFORMATION FRAMEWORK FROM OLAP TO RDF DATA CUBES / [pt] OLAP2DATACUBE: UM FRAMEWORK PARA TRANSFORMAÇÕES EM TEMPO DE EXECUÇÃO DE OLAP PARA CUBOS DE DADOS EM RDFPERCY ENRIQUE RIVERA SALAS 13 April 2016 (has links)
[pt] Dados estatísticos são uma das mais importantes fontes de informações,
relevantes para um grande número de partes interessadas nos domínios governamentais, científicos e de negócios. Um conjunto de dados estatísticos compreende uma coleção de observações feitas em alguns pontos através de um espaço lógico e muitas vezes é organizado como cubos de dados. A definição
adequada de cubos de dados, especialmente das suas dimensões, ajuda a processar
as observações e, mais importante, ajuda a combinar observações de
diferentes cubos de dados. Neste contexto, os princípios de Linked Data podem
ser proveitosamente aplicados na definição de cubos de dados, no sentido de
que os princípios oferecem uma estratégia para fornecer a semântica ausentes
nas dimensões, incluindo os seus valores. Nesta tese, descrevemos o processo e
a implementação de uma arquitetura de mediação, chamada OLAP2DataCube
On Demand Framework, que ajuda a descrever e consumir dados estatísticos,
expostos como triplas RDF, mas armazenados em bancos de dados relacionais.
O Framework possui um catálogo de descrições de Linked Data Cubes, criado
de acordo com os princípios de Linked Data. O catálogo tem uma descrição
padronizada para cada cubo de dados armazenado em bancos de dados (relacionais)
estatísticos conhecidos pelo Framework. O Framework oferece uma interface
para navegar pelas descrições dos Linked Data Cubes e para exportar os
cubos de dados como triplas RDF geradas por demanda a partir das fontes de
dados subjacentes. Também discutimos a implementação de operações sofisticadas
de busca de metadados, operações OLAP em cubo de dados, tais como
slice e dice, e operações de mashup sofisticadas de cubo de dados que criam
novos cubos através da combinação de outros cubos. / [en] Statistical data is one of the most important sources of information,
relevant to a large number of stakeholders in the governmental, scientific
and business domains alike. A statistical data set comprises a collection of
observations made at some points across a logical space and is often organized
as what is called a data cube. The proper definition of the data cubes,
especially of their dimensions, helps processing the observations and, more
importantly, helps combining observations from different data cubes. In this
context, the Linked Data principles can be profitably applied to the definition
of data cubes, in the sense that the principles offer a strategy to provide the
missing semantics of the dimensions, including their values. In this thesis we
describe the process and the implementation of a mediation architecture, called
OLAP2DataCube On Demand, which helps describe and consume statistical
data, exposed as RDF triples, but stored in relational databases. The tool
features a catalogue of Linked Data Cube descriptions, created according to the
Linked Data principles. The catalogue has a standardized description for each
data cube actually stored in each statistical (relational) database known to the
tool. The tool offers an interface to browse the linked data cube descriptions
and to export the data cubes as RDF triples, generated on demand from the
underlying data sources. We also discuss the implementation of sophisticated
metadata search operations, OLAP data cube operations, such as slice and
dice, and data cube mashup operations that create new cubes by combining
other cubes.
|
10 |
[en] TOWARDS A WELL-INTERLINKED WEB THROUGH MATCHING AND INTERLINKING APPROACHES / [pt] INTERLIGANDO RECURSOS NA WEB ATRAVÉS DE ABORDAGENS DE MATCHING E INTERLINKINGBERNARDO PEREIRA NUNES 07 January 2016 (has links)
[pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes
desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a
Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de
forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes
de dados, com recursos em comum ou relacionados, são publicados por diferentes
editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro
desafio advindo da Linked Data está na criação de um grafo denso de dados na
Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas
também dos recursos relacionadas na Web, provê ao consumidor (data consumer)
uma representação mais rica dos dados e a possibilidade de exploração dos recursos
conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas
de integração, consolidação e interligação de dados. Nossa primeira abordagem
combina técnicas de informação mútua e programação genética para solucionar o
problema de alinhamento complexo entre fontes de dados, um problema raramente
abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos
uma métrica utilizada em teoria de redes sociais para enfrentar o problema de
consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web
chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação
de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas
abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais
demonstram que as nossas abordagens superam abordagens consideradas como
estado da arte. / [en] With the emergence of Linked (Open) Data, a number of novel and notable
research challenges have been raised. The openness that often characterises Linked
Data offers an opportunity to homogeneously integrate and connect heterogeneous
data sources on the Web. As disparate data sources with overlapping or related resources
are provided by different data publishers, their integration and consolidation
becomes a real challenge. An additional challenge of Linked Data lies in the creation
of a well-interlinked graph of Web data. Identifying and linking not only identical
Web resources, but also lateral Web resources, provides the data consumer with
richer representation of the data and the possibility of exploiting connected resources.
In this thesis, we present three approaches that tackle data integration, consolidation
and linkage problems. Our first approach combines mutual information and genetic
programming techniques for complex datatype property matching, a rarely addressed
problem in the literature. In the second and third approaches, we adopt and extend a
measure from social network theory to address data consolidation and interlinking.
Furthermore, we present a Web-based application named Cite4Me that provides
a new perspective on search and retrieval of Linked Open Data sets, as well as
the benefits of using our approaches. Finally, we validate our approaches through
extensive evaluations using real-world datasets, reporting results that outperform
state of the art approaches.
|
Page generated in 0.3664 seconds