1 |
Transformation de documents structurés, une combinaison des approches explicite et automatiqueBonhomme, Stéphane 21 December 1998 (has links) (PDF)
Les travaux présentés dans cette thèse ont pour thème la transformation des documents structurés. Un document structuré est une collection d'éléments typés organisée par un ensemble de relations logiques définissant une structure hiérarchique. Ces relations sont définies par des grammaires hors-contexte qui décrivent des classes de documents. L'utilisation des documents structurés permet d'automatiser une partie des traitements effectués sur les documents et contribue également à améliorer leur portabilité en proposant une syntaxe commune définie par des normes (SGML, XML). Les applications utilisant cette représentation souffrent néanmoins de limites liées aux contraintes impliquées par la structuration des documents. L'objectif de ce travail est de répondre à ces limites par des techniques de transformation. Ces techniques ont pour but de modifier la structure d'un ensemble d'éléments typés pour le conformer à d'autres types ou à une nouvelle classe de documents. Cette thèse est articulée en trois parties : 1. Une étude des applications de traitement de documents identifiant les besoins de transformation, plus particulièrement dans le domaine de l'édition interactive. 2. Une évaluation des techniques et outils existant conduisant à une classific- ation des approches (filtres, transformation explicite ou automatique). Chaque classe fait l'objet d'une étude théorique, d'une étude des systèmes disponibles et d'une expérimentation. 3. Une proposition de méthode de transformation combinant les différentes techniques pour tirer parti de leurs points forts et répondre aux limitations de chacune. Cette méthode est fondée sur un algorithme de transformation automatique paramétré à l'aide de pré-couples explicites. Ce travail a conduit au développement des systèmes de transformation aujourd'h- ui intégrés dans des logiciels du projet Opéra (Thot, Byzance) et du consortiu- m W3C (Amaya).
|
2 |
Documents structurés multimédiaRoisin, Cécile 22 September 1999 (has links) (PDF)
Ce mémoire décrit les activités de recherche que j'ai menées depuis ma thèse et plus particulièrement celles que j'effectue dans le projet Opéra (outils pour les documents électroniques : recherche et applications) de l'INRIA sur les documents structurés multimédia. Ce document tente d'inscrire les différents travaux réalisés dans un cadre plus large qui comprend d'une part la modélisation des documents et d'autre part les applications de traitement de documents. Les principales contributions sont les suivantes : - Représentation abstraite des types de documents de façon à permettre de transformer les structures de documents. - Représentation de la structure logique et de la structure spatiale, ou comment intégrer des structures spatiales et logiques de façon à formater les documents structurés selon des modèles de pages complexes. - Représentation de l'information temporelle des documents multimédia qui s'intègre aux représentations logiques et spatiales et qui soit adaptée à la construction d'environnements d'édition.
|
3 |
An XML document representation method based on structure and content : application in technical document classification / An XML document representation method based on structure and content : application in technical document classificationChagheri, Samaneh 27 September 2012 (has links)
L’amélioration rapide du nombre de documents stockés électroniquement représente un défi pour la classification automatique de documents. Les systèmes de classification traditionnels traitent les documents en tant que texte plat, mais les documents sont de plus en plus structurés. Par exemple, XML est la norme plus connue et plus utilisée pour la représentation de documents structurés. Ce type des documents comprend des informations complémentaires sur l'organisation du contenu représentées par différents éléments comme les titres, les sections, les légendes etc. Pour tenir compte des informations stockées dans la structure logique, nous proposons une approche de représentation des documents structurés basée à la fois sur la structure logique du document et son contenu textuel. Notre approche étend le modèle traditionnel de représentation du document appelé modèle vectoriel. Nous avons essayé d'utiliser d'information structurelle dans toutes les phases de la représentation du document: -procédure d'extraction de caractéristiques, -La sélection des caractéristiques, -Pondération des caractéristiques. Notre deuxième contribution concerne d’appliquer notre approche générique à un domaine réel : classification des documents techniques. Nous désirons mettre en œuvre notre proposition sur une collection de documents techniques sauvegardés électroniquement dans la société CONTINEW spécialisée dans l'audit de documents techniques. Ces documents sont en format représentations où la structure logique est non accessible. Nous proposons une solution d’interprétation de documents pour détecter la structure logique des documents à partir de leur présentation physique. Ainsi une collection hétérogène en différents formats de stockage est transformée en une collection homogène de documents XML contenant le même schéma logique. Cette contribution est basée sur un apprentissage supervisé. En conclusion, notre proposition prend en charge l'ensemble de flux de traitements des documents partant du format original jusqu’à la détermination de la ses classe Dans notre système l’algorithme de classification utilisé est SVM. / Rapid improvement in the number of documents stored electronically presents a challenge for automatic classification of documents. Traditional classification systems consider documents as a plain text; however documents are becoming more and more structured. For example, XML is the most known and used standard for structured document representation. These documents include supplementary information on content organization represented by different elements such as title, section, caption etc. We propose an approach on structured document classification based on both document logical structure and its content in order to take into account the information present in logical structure. Our approach extends the traditional document representation model called Vector Space Model (VSM). We have tried to integrate structural information in all phases of document representation construction: -Feature extraction procedure, -Feature selection, -Feature weighting. Our second contribution concerns to apply our generic approach to a real domain of technical documentation. We desire to use our proposition for classifying technical documents electronically saved in CONTINEW; society specialized in technical document audit. These documents are in legacy format in which logical structure is inaccessible. Then we propose an approach for document understanding in order to extract documents logical structure from their presentation layout. Thus a collection of heterogeneous documents in different physical presentations and formats is transformed to a homogenous XML collection sharing the same logical structure. Our contribution is based on learning approach where each logical element is described by its physical characteristics. Therefore, our proposal supports whole document transformation workflow from document’s original format to being classified. In our system SVM has been used as classification algorithm.
|
Page generated in 0.0259 seconds