Return to search

Contribution à l'analyse complexe de documents anciens, application aux lettrines / Complex analysis of historical documents, application to lettrines

De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l’historique des livres. Cette thèse s’inscrit dans le projet Navidomass (ANR-06-MDCA-012) qui a pour but de valoriser le patrimoine écrit français de la Renaissance, en proposant d’identifier ses images pour les indexer. Dans le cadre de cette thèse, nous nous sommes particulièrement intéressés aux images graphiques. Ces documents,qui sont apparus avec le début de l’imprimerie, sont composées d’images complexes puisque composées de différentes couches d’informations (images de traits).Afin de répondre à ce problème, nous proposons un modèle ontologique d’analyse complexe d’images de documents anciens. Ce modèle permet d’intégrer dans une même base les connaissances propres aux historiens, et les connaissances extraites par des traitements d’images. De par la nature complexe de ces images, les méthodes habituelles d’analyse d’images et d’extraction automatique de connaissances sont inopérantes. Nous proposons donc une nouvelle approche d’analyse des images de documents anciens qui permet de les caractériser à partir de leurs spécificités. Cette approche commence par simplifier les images en les séparant en différentes couches d’informations (formes et traits). Puis, pour chaque couche, nous venons extraire des motifs utilisés pour décrire les images. Ainsi, les images sont caractérisées à l’aide de sacs de motifs fréquents, et de sacs de traits. Pour ces deux couches d’informations, nous venons également extraire des graphes de régions qui permettent d’extraire une connaissance structurelle des images. La complexification de ces deux descriptions est insérée dans la base de connaissances, pour permettre des requêtes complexes. Le but de cette base est de proposer à l’utilisateur de rechercher une image en indiquant soit un exemple d’images recherchées, soit des éléments caractéristiques des images. / In the general context of cultural heritage preservation campaigns, many digitization projects are being conducted in France and Europe to save the contents of thousands of ancient documents. Images of these documents are used by historians to identify the history of books. This thesis was led into the Navidomass project (ANR-06-MDCA-012) which aims at promoting the written heritage of the documents from the Renaissance, by proposing to identify its images. As part of this thesis, we are particularly interested in graphical images, and more specifically to dropcaps. These graphical images, which emerged with the beginning of printing, are complex images which can be seen as composed of different layers of information (images composed of strokes). To address this problem, we propose an ontological model of complex analysis of images of old documents. This model allows to integrate the knowledge specific to historians, and the knowledge extracted by image processing, into a single database. Due to the complex nature of these images, the usual methods of image analysis and automatic extraction of knowledge are inefficient. We therefore propose a new approach for analyzing images of old documents that can be characterized on their features basis. This approach begins by simplifying the images, separated in different layers of information (shapes and lines). Then, for each layer, we extract patterns used to describe the images. Thus, images are described with most common bags of patterns, and bags of stroke. For these two layers of information, we have also extracted graphs of regions that allow extracting a more structural knowledge of the images. A more complex description is then inserted into the knowledge base in order to allow complex queries. The purpose of this database is to offer the possiblity to make either query by example, or query by specific features of the images, to user.

Identiferoai:union.ndltd.org:theses.fr/2011LAROS333
Date20 October 2011
CreatorsCoustaty, Mickaël
ContributorsLa Rochelle, Ogier, Jean-Marc
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0015 seconds