Spelling suggestions: "subject:"schéma XML""
1 |
Induction de requêtes guidée par schéma / Schema-Guided Query InductionChampavère, Jérôme 10 September 2010 (has links)
La plupart des outils existants pour définir des requêtes de sélection de nœuds sur les documents XML présupposent des connaissances techniques de la part de l'utilisateur. L'induction de requêtes supervisée est un moyen d'élaborer des tâches d'extraction d'information sans ces prérequis. Dans un tel système, une interface graphique permet à l'utilisateur d'annoter des documents qui servent d'exemples. Un algorithme d'apprentissage est alors utilisé pour inférer la requête. Dans cette thèse, nous proposons d'utiliser les connaissances fournies par le schéma XML dans les algorithmes d'induction de requêtes basés sur une technique d'inférence grammaticale. En tant que langages réguliers d'arbres, les schémas peuvent être facilement représentés par des automates d'arbres. Leur utilisation dans des algorithmes d'inférence d'automates apparaît donc particulièrement appropriée. Nous en distinguons deux.- La première est de contraindre la requête inférée à être consistante avec le schéma. Pour cela, nous avons mis au point un test d'inclusion efficace dans les automates d'arbres factorisés déterministes, un nouveau modèle d'automates permettant de représenter les DTD de façon compacte.- La seconde est que les informations contenues dans le schéma peuvent être précieuses pour les heuristiques d'élagage, nécessaires en pratique. Nous caractérisons la classe de requêtes apprenables à partir d'un ensemble d'arbres annotés élagués, à savoir les requêtes stables.Nous avons implémenté et testé nos algorithmes d'induction de requêtes guidée par schéma. Les résultats de nos expériences montrent que l'usage du schéma permet d'améliorer l'apprentissage. / Most existing tools for defining node-selecting queries over XML documents require technical skills from the user. Inductive query learning is a way of designing information extraction tasks without any prior knowledge. In such a system, the user annotates some example documents with a graphical interface. A learning algorithm is then used in order to infer the query.In this thesis, we suggest to use the knowledge provided by XML schemas into query induction algorithms based on grammatical inferencetechniques. As regular tree languages, schemas can be easily represented by tree automata. Thus their use is especially appropriate to automata inference algorithms. We distinguish two of them.- The first idea is to constrain inferred queries to be consistent with the schema. For this purpose, we have designed an efficient inclusion test in deterministic factorized tree automata, a model of automata we have defined in order to represent DTDs in a compact manner.- The second idea is that information contained in XML schemas might be useful for tree pruning heuristics, which are necessary in practice. We characterize the class of queries that can be learned from a sample of pruned annotated trees, namely stable queries.We have implemented and tested our schema-guided query induction algorithms. The results of our experiments show that schema-guidance improves the learning process.
|
2 |
Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingueMANGEOT, Mathieu 27 September 2001 (has links) (PDF)
Les besoins croissants en ressources lexicales et le succès des projets de développement coopératif comme LINUX convergent vers l'idée d'accumuler des données lexicales multilingues de grande taille et de grande richesse par construction coopérative sur la Toile et utilisation "mutualisée". Les contributeurs fourniraient eux-mêmes ces informations sous une forme standardisée grâce à un environnement adapté. L'étude du contexte actuel de la dictionnairique nous a conduit à l'identification de problèmes difficiles tels que la structuration et la manipulation de données hétérogènes, la visualisation d'une grande quantité de données lexicales multilingues et la construction en coopération par des personnes aux compétences diverses. Des prototypages et des expérimentations portant sur la consultation de ressources hétérogènes, l'enrichissement et personnalisation du résultat, la construction de ressources en ligne et la rédaction d'articles avec un éditeur standard nous ont permis de résoudre séparément ces problèmes. Cela nous a permis de concevoir un environnement complet de "bases lexicales" répondant à tous ces problèmes se plaçant au dessus des SGBD utilisés pour le stockage et intégrant un serveur pour la construction coopérative. Son noyau inclut un formalisme générique de définition de structures lexicales inspiré de SUBLIM de G. Sérasset, mais complété et réexprimé en XML. Cet environnement est actuellement appliqué au projet Papillon de développement par des bénévoles sur Internet d'une base lexicale comprenant cinq langues. L'architecture de la base est constituée d'un dictionnaire monolingue pour chaque langue et d'un dictionnaire pivot d'acceptions interlingues reliant les articles monolingues (lexies) dont la structure provient de la lexicologie combinatoire. Enfin, l'architecture du serveur assez générique devrait être réutilisée dans d'autres contextes (mémoires de traduction, outils pour traducteurs, communication et RI multilingue, annotations multimédia).
|
3 |
Induction de requêtes guidée par schémaChampavère, Jérôme 10 September 2010 (has links) (PDF)
XML est un langage générique de description de données destiné à l'origine au stockage, au traitement et à l'échange d'informations sur Internet ; il s'agit aujourd'hui d'un format standard pour les communautés bases de données, documents ou technologies Web, qui est utilisé dans de nombreuses applications. Le format des données traitées par celles-ci est généralement spécifié par un schéma XML. Il s'agit d'une méta-description permettant de contraindre la structure et le type des données des documents XML qui le respectent.<br/><br/> Interroger les documents afin d'en extraire des informations est une tâche essentielle en informatique. Les requêtes de sélection de nœuds sont ainsi à la base de la transformation de documents XML. Cependant, la plupart des outils existants pour définir des requêtes sur les documents XML présupposent des connaissances techniques de la part de l'utilisateur. L'induction de requêtes supervisée est au contraire un moyen d'élaborer des tâches d'extraction d'information sans prérequis. Dans un tel système, une interface graphique permet à l'utilisateur d'annoter des documents qui servent d'exemples. Un algorithme d'apprentissage est alors utilisé pour inférer la requête.<br/><br/> Dans cette thèse, nous proposons d'utiliser les connaissances fournies par le schéma XML dans les algorithmes d'induction de requêtes basés sur une technique d'inférence grammaticale. En tant que langages réguliers d'arbres, les schémas peuvent être facilement représentés par des automates d'arbres. Leur utilisation dans des algorithmes d'inférence d'automates apparaît donc particulièrement appropriée. Nous en avons distingué deux.<br/><br/> 1. La première idée est de contraindre la requête inférée à être consistante avec le schéma. Pour cela, nous avons mis au point un test d'inclusion efficace dans les automates d'arbres factorisés déterministes, un modèle d'automates permettant de représenter les DTD de façon compacte que nous avons introduit.<br/><br/> 2. La seconde idée est que les informations contenues dans le schéma peuvent être précieuses pour élaguer les arbres correspondants à des documents annotés. L'élagage est nécessaire lorsque les documents traités sont gros et/ou annotés partiellement. En contrepartie, il n'est plus possible d'inférer toutes les requêtes régulières. Nous donnons une caractérisation de la classe de requêtes apprenables à partir d'un ensemble d'arbres annotés élagués, à savoir les requêtes stables.<br/><br/> Nous avons implémenté et testé nos algorithmes d'induction de requêtes guidée par schéma. Le système développé permet de simuler le comportement d'un utilisateur lors de la définition d'une nouvelle requête. Les résultats de nos expériences soutiennent la pertinence de notre approche. Ils montrent en effet que l'usage du schéma permet d'améliorer l'apprentissage.
|
Page generated in 0.0422 seconds