1 |
On the dynamics of active documents for distributed data management / Etude de la dynamique des documents actifs pour la gestion d'information distribuéesBourhis, Pierre 11 February 2011 (has links)
L'un des principaux problèmes que les applications Webs doivent gérer aujourd'hui est l'évolutivité des données. Dans cette thèse, nous considérons ce problème et plus précisément l'évolution des documents actifs. Les documents actifs sont documents XML pouvant évolués grâce à l'activation d'appel de services Web. Ce formalisme a déjà été utilisé dans le cadre de la gestion d'information distribuée. Les principales contributions de cette thèse sont l'étude théorique de différentes notions pour l'implémentation de deux systèmes gérant des applications manipulant des flux de données et des applications de type workflow. Dans un premier temps, nous étudions des notions reliées à la maintenance de vues sur des documents actifs. Ces notions sont utilisées dans l'implémentation d'un processeur de flux de données appelé Axlog widget manipulant des flux à travers un document actif. La deuxième contribution porte sur l'expressivité de différents formalismes pour contraindre le séquencement des activations d'un document actif. Cette étude a été motivée par l'implémentation d'un système gérant des workflows focalisés sur les données utilisant les documents actifs, appelé Axart. / One of the major issues faced by Web applications is the management of evolving of data. In this thesis, we consider this problem and in particular the evolution of active documents. Active documents is a formalism describing the evolution of XML documents by activating Web services calls included in the document. It has already been used in the context of the management of distributed data \cite{axml}. The main contributions of this thesis are theoretical studies motivated by two systems for managing respectively stream applications and workflow applications. In a first contribution, we study the problem of view maintenance over active documents. The results served as the basis for an implementation of stream processors based on active documents called Axlog widgets. In a second one, we see active documents as the core of data centric workflows and consider various ways of expressing constraints on the evolution of documents. The implementation, called Axart, validated the approach of a data centric workflow system based on active documents. The hidden Web (also known as deep or invisible Web), that is, the partof the Web not directly accessible through hyperlinks, but through HTMLforms or Web services, is of great value, but difficult to exploit. Wediscuss a process for the fully automatic discovery, syntacticand semantic analysis, and querying of hidden-Web services. We proposefirst a general architecture that relies on a semi-structured warehouseof imprecise (probabilistic) content. We provide a detailed complexityanalysis of the underlying probabilistic tree model. We describe how wecan use a combination of heuristics and probing to understand thestructure of an HTML form. We present an original use of a supervisedmachine-learning method, namely conditional random fields,in an unsupervised manner, on an automatic, imperfect, andimprecise, annotation based on domain knowledge, in order to extractrelevant information from HTML result pages. So as to obtainsemantic relations between inputs and outputs of a hidden-Web service, weinvestigate the complexity of deriving a schema mapping between databaseinstances, solely relying on the presence of constants in the twoinstances. We finally describe a model for the semantic representationand intensional indexing of hidden-Web sources, and discuss how toprocess a user's high-level query using such descriptions.
|
Page generated in 0.0786 seconds