Global ETD Search

1	Transformation de documents structurés, une combinaison des approches explicite et automatique Bonhomme, Stéphane 21 December 1998 (has links) (PDF) Les travaux présentés dans cette thèse ont pour thème la transformation des documents structurés. Un document structuré est une collection d'éléments typés organisée par un ensemble de relations logiques définissant une structure hiérarchique. Ces relations sont définies par des grammaires hors-contexte qui décrivent des classes de documents. L'utilisation des documents structurés permet d'automatiser une partie des traitements effectués sur les documents et contribue également à améliorer leur portabilité en proposant une syntaxe commune définie par des normes (SGML, XML). Les applications utilisant cette représentation souffrent néanmoins de limites liées aux contraintes impliquées par la structuration des documents. L'objectif de ce travail est de répondre à ces limites par des techniques de transformation. Ces techniques ont pour but de modifier la structure d'un ensemble d'éléments typés pour le conformer à d'autres types ou à une nouvelle classe de documents. Cette thèse est articulée en trois parties : 1. Une étude des applications de traitement de documents identifiant les besoins de transformation, plus particulièrement dans le domaine de l'édition interactive. 2. Une évaluation des techniques et outils existant conduisant à une classific- ation des approches (filtres, transformation explicite ou automatique). Chaque classe fait l'objet d'une étude théorique, d'une étude des systèmes disponibles et d'une expérimentation. 3. Une proposition de méthode de transformation combinant les différentes techniques pour tirer parti de leurs points forts et répondre aux limitations de chacune. Cette méthode est fondée sur un algorithme de transformation automatique paramétré à l'aide de pré-couples explicites. Ce travail a conduit au développement des systèmes de transformation aujourd'h- ui intégrés dans des logiciels du projet Opéra (Thot, Byzance) et du consortiu- m W3C (Amaya). [INFO:INFO_OH] Computer Science/Other DOCUMENT STRUCTURÉ MODÈLE DE DOCUMENTS XML TRANSFORMATION DE TYPES ARBRE TYPE LANGAGE DE TRANSFORMATION
2	DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES Djemal, Karim 03 June 2010 (has links) (PDF) Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures. [INFO] Computer Science Modèle de documents documents multistructurés classification distance structurelle recherche de documents analyse multidimensionnelle

Search results

Transformation de documents structurés, une combinaison des approches explicite et automatique

DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES