Spelling suggestions: "subject:"peer data management systems"" "subject:"meer data management systems""
1 |
Ontology-based clustering in a Peer Data Management SystemPires, Carlos Eduardo Santos 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:49:23Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Faculdade de Amparo à Ciência e Tecnologia do Estado de Pernambuco / Os Sistemas P2P de Gerenciamento de Dados (PDMS) são aplicações P2P
avançadas que permitem aos usuários consultar, de forma transparente, várias
fontes de dados distribuídas, heterogêneas e autônomas. Cada peer representa
uma fonte de dados e exporta seu esquema de dados completo ou apenas uma
parte dele. Tal esquema, denominado esquema exportado, representa os dados a
serem compartilhados com outros peers no sistema e é comumente descrito por
uma ontologia.
Os dois aspectos mais estudados sobre gerenciamento de dados em PDMS
estão relacionados com mapeamentos entre esquemas e processamento de
consultas. Estes aspectos podem ser melhorados se os peers estiverem
eficientemente dispostos na rede overlay de acordo com uma abordagem
baseada em semântica. Nesse contexto, a noção de comunidade semântica de
peers é bastante importante visto que permite aproximar logicamente peers com
interesses comuns sobre um tópico específico. Entretanto, devido ao
comportamento dinâmico dos peers, a criação e manutenção de comunidades
semânticas é um aspecto desafiador no estágio atual de desenvolvimento dos
PDMS.
O objetivo principal desta tese é propor um processo baseado em
semântica para agrupar, de modo incremental, peers semanticamente similares
que compõem comunidades em um PDMS. Nesse processo, os peers são
agrupados de acordo com o respectivo esquema exportado (uma ontologia) e
processos de gerenciamento de ontologias (por exemplo, matching e
sumarização) são utilizados para auxiliar a conexão dos peers. Uma arquitetura
de PDMS é proposta para facilitar a organização semântica dos peers na rede
overlay. Para obter a similaridade semântica entre duas ontologias de peers,
propomos uma medida de similaridade global como saída de um processo de
ontology matching. Para otimizar o matching entre ontologias, um processo
automático para sumarização de ontologias também é proposto. Um simulador
foi desenvolvido de acordo com a arquitetura do PDMS. Os processos de
gerenciamento de ontologias propostos também foram desenvolvidos e incluídos no simulador. Experimentações de cada processo no contexto do
PDMS assim como os resultados obtidos a partir dos experimentos são apresentadas
|
2 |
Efficient query answering in peer data management systemsRoth, Armin 12 March 2012 (has links)
Peer-Daten-Management-Systeme (PDMS) bestehen aus einer hochdynamischen Menge heterogener, autonomer Peers. Die Peers beantworten Anfragen einerseits gegen lokal gespeicherte Daten und reichen sie andererseits nach einer Umschreibung anhand von Schema-Mappings an benachbarte Peers weiter. Solche aufgrund fehlender zentraler Komponenten eigentlich hoch- flexiblen Systeme leiden bei zunehmender Anzahl von Peers unter erheblichen Effi- zienzproblemen. Die Gründe hierfür liegen in der massiven Redundanz der Pfade im Netzwerk der Peers und im Informationsverlust aufgrund von Projektionen entlang von Mapping-Pfaden. Anwender akzeptieren in hochskalierten Umgebungen zum Datenaustausch in vielen Anwendungsszenarien Konzessionen an die Vollständigkeit der Anfrageergebnisse. Unser Ansatz sieht in der Vollständigkeit ein Optimierungsziel und verfolgt einen Kompromiß zwischen Nutzen und Kosten der Anfragebearbeitung. Hierzu schlagen wir mehrere Strategien für Peers vor, um zu entscheiden, an welche Nachbar-Peers Anfragen weitergeleitet werden. Peers schließen dabei Mappings von der Anfragebearbeitung aus, von denen sie ein geringes Verhältnis von Ergebnisgröße zu Kosten, also geringe Effizienz erwarten. Als Basis dieser Schätzungen wenden wir selbstadaptive Histogramme über die Ergebniskardinalität an und weisen nach, daß diese in dieser hochdynamischen Umgebung ausreichende Genauigkeit aufweisen. Wir schlagen einen Kompromiß zwischen der Nutzung von Anfrageergebnissen zur Anpassung dieser Metadaten-Statistiken und der Beschneidung von Anfrageplänen vor, um den entsprechenden Zielkonflikt aufzulösen. Für eine Optimierungsstrategie, die das für die Anfragebearbeitung verwendete Zeit-Budget limitiert, untersuchen wir mehrere Varianten hinsichtlich des Effizienzsteigerungspotentials. Darüber hinaus nutzen wir mehrdimensionale Histogramme über die Überlappung zweier Datenquellen zur gezielten Verminderung der Redundanz in der Anfragebearbeitung. / Peer data management systems (PDMS) consist of a highly dynamic set of autonomous, heterogeneous peers connected with schema mappings. Queries submitted at a peer are answered with data residing at that peer and by passing the queries to neighboring peers. PDMS are the most general architecture for distributed integrated information systems. With no need for central coordination, PDMS are highly flexible. However, due to the typical massive redundancy in mapping paths, PDMS tend to be very inefficient in computing the complete query result as the number of peers increases. Additionally, information loss is cumulated along mapping paths due to selections and projections in the mappings. Users usually accept concessions on the completeness of query answers in large-scale data sharing settings. Our approach turns completeness into an optimization goal and thus trades off benefit and cost of query answering. To this end, we propose several strategies that guide peers in their decision to which neighbors rewritten queries should be sent. In effect, the peers prune mappings that are expected to contribute few data. We propose a query optimization strategy that limits resource consumption and show that it can drastically increase efficiency while still yielding satisfying completeness of the query result. To estimate the potential data contribution of mappings, we adopted self-tuning histograms for cardinality estimation. We developed techniques that ensure sufficient query feedback to adapt these statistics to massive changes in a PDMS. Additionally, histograms can serve to maintain statistics on data overlap between alternative mapping paths. Building on them, redundant query processing is reduced by avoiding overlapping areas of the multi-dimensional data space.
|
Page generated in 0.1223 seconds