Global ETD Search

1	Contribution à l'analyse complexe de documents anciens, application aux lettrines / Complex analysis of historical documents, application to lettrines Coustaty, Mickaël 20 October 2011 (has links) De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l’historique des livres. Cette thèse s’inscrit dans le projet Navidomass (ANR-06-MDCA-012) qui a pour but de valoriser le patrimoine écrit français de la Renaissance, en proposant d’identifier ses images pour les indexer. Dans le cadre de cette thèse, nous nous sommes particulièrement intéressés aux images graphiques. Ces documents,qui sont apparus avec le début de l’imprimerie, sont composées d’images complexes puisque composées de différentes couches d’informations (images de traits).Afin de répondre à ce problème, nous proposons un modèle ontologique d’analyse complexe d’images de documents anciens. Ce modèle permet d’intégrer dans une même base les connaissances propres aux historiens, et les connaissances extraites par des traitements d’images. De par la nature complexe de ces images, les méthodes habituelles d’analyse d’images et d’extraction automatique de connaissances sont inopérantes. Nous proposons donc une nouvelle approche d’analyse des images de documents anciens qui permet de les caractériser à partir de leurs spécificités. Cette approche commence par simplifier les images en les séparant en différentes couches d’informations (formes et traits). Puis, pour chaque couche, nous venons extraire des motifs utilisés pour décrire les images. Ainsi, les images sont caractérisées à l’aide de sacs de motifs fréquents, et de sacs de traits. Pour ces deux couches d’informations, nous venons également extraire des graphes de régions qui permettent d’extraire une connaissance structurelle des images. La complexification de ces deux descriptions est insérée dans la base de connaissances, pour permettre des requêtes complexes. Le but de cette base est de proposer à l’utilisateur de rechercher une image en indiquant soit un exemple d’images recherchées, soit des éléments caractéristiques des images. / In the general context of cultural heritage preservation campaigns, many digitization projects are being conducted in France and Europe to save the contents of thousands of ancient documents. Images of these documents are used by historians to identify the history of books. This thesis was led into the Navidomass project (ANR-06-MDCA-012) which aims at promoting the written heritage of the documents from the Renaissance, by proposing to identify its images. As part of this thesis, we are particularly interested in graphical images, and more specifically to dropcaps. These graphical images, which emerged with the beginning of printing, are complex images which can be seen as composed of different layers of information (images composed of strokes). To address this problem, we propose an ontological model of complex analysis of images of old documents. This model allows to integrate the knowledge specific to historians, and the knowledge extracted by image processing, into a single database. Due to the complex nature of these images, the usual methods of image analysis and automatic extraction of knowledge are inefficient. We therefore propose a new approach for analyzing images of old documents that can be characterized on their features basis. This approach begins by simplifying the images, separated in different layers of information (shapes and lines). Then, for each layer, we extract patterns used to describe the images. Thus, images are described with most common bags of patterns, and bags of stroke. For these two layers of information, we have also extracted graphs of regions that allow extracting a more structural knowledge of the images. A more complex description is then inserted into the knowledge base in order to allow complex queries. The purpose of this database is to offer the possiblity to make either query by example, or query by specific features of the images, to user. Documents anciens Analyse complexe d'images Indexation Ontologies Old documents Complex image analysis Indexing Ontologies
2	Contribution à l'analyse complexe de documents anciens, application aux lettrines Coustaty, Mickaël 20 October 2011 (has links) (PDF) De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l'historique des livres. Cette thèse s'inscrit dans le projet Navidomass (ANR-06-MDCA-012) qui a pour but de valoriser le patrimoine écrit français de la Renaissance, en proposant d'identifier ses images pour les indexer. Dans le cadre de cette thèse, nous nous sommes particulièrement intéressés aux images graphiques. Ces documents,qui sont apparus avec le début de l'imprimerie, sont composées d'images complexes puisque composées de différentes couches d'informations (images de traits).Afin de répondre à ce problème, nous proposons un modèle ontologique d'analyse complexe d'images de documents anciens. Ce modèle permet d'intégrer dans une même base les connaissances propres aux historiens, et les connaissances extraites par des traitements d'images. De par la nature complexe de ces images, les méthodes habituelles d'analyse d'images et d'extraction automatique de connaissances sont inopérantes. Nous proposons donc une nouvelle approche d'analyse des images de documents anciens qui permet de les caractériser à partir de leurs spécificités. Cette approche commence par simplifier les images en les séparant en différentes couches d'informations (formes et traits). Puis, pour chaque couche, nous venons extraire des motifs utilisés pour décrire les images. Ainsi, les images sont caractérisées à l'aide de sacs de motifs fréquents, et de sacs de traits. Pour ces deux couches d'informations, nous venons également extraire des graphes de régions qui permettent d'extraire une connaissance structurelle des images. La complexification de ces deux descriptions est insérée dans la base de connaissances, pour permettre des requêtes complexes. Le but de cette base est de proposer à l'utilisateur de rechercher une image en indiquant soit un exemple d'images recherchées, soit des éléments caractéristiques des images. [INFO:INFO_OH] Computer Science/Other Documents anciens Analyse complexe d'images Indexation Ontologies
3	Évaluation de la qualité des documents anciens numérisés Rabeux, Vincent 06 March 2013 (has links) (PDF) Les travaux de recherche présentés dans ce manuscrit décrivent plusieurs apports au thème de l'évaluation de la qualité d'images de documents numérisés. Pour cela nous proposons de nouveaux descripteurs permettant de quantifier les dégradations les plus couramment rencontrées sur les images de documents numérisés. Nous proposons également une méthodologie s'appuyant sur le calcul de ces descripteurs et permettant de prédire les performances d'algorithmes de traitement et d'analyse d'images de documents. Les descripteurs sont définis en analysant l'influence des dégradations sur les performances de différents algorithmes, puis utilisés pour créer des modèles de prédiction à l'aide de régresseurs statistiques. La pertinence, des descripteurs proposés et de la méthodologie de prédiction, est validée de plusieurs façons. Premièrement, par la prédiction des performances de onze algorithmes de binarisation. Deuxièmement par la création d'un processus automatique de sélection de l'algorithme de binarisation le plus performant pour chaque image. Puis pour finir, par la prédiction des performances de deux OCRs en fonction de l'importance du défaut de transparence (diffusion de l'encre du recto sur le verso d'un document). Ce travail sur la prédiction des performances d'algorithmes est aussi l'occasion d'aborder les problèmes scientifiques liés à la création de vérités-terrains et d'évaluation de performances. [INFO:INFO_OH] Computer Science/Other Images de documents anciens Évaluation de la qualité Modèles de prédiction Descripteurs images Binarisation Reconnaissance de caractères Évaluation de performances Génération de documents synthétiques Création de vérité-terrains Régression linéaire
4	Contributions a l'indexation et a la reconnaissance des manuscrits Syriaques Bilane, P. 23 June 2010 (has links) (PDF) CETTE THESE EST DEDIEE A L'EXPLORATION INFORMATIQUE DE MANUSCRITS SYRIAQUES, C'EST LA PREMIERE ETUDE DE CE TYPE MISE EN ŒUVRE. LE SYRIAQUE EST UNE LANGUE QUI S'EST DEVELOPPE A L'EST DU BASSIN MEDITERRANEEN, IL Y A PLUS DE VINGT SIECLES ET QUI AUJOURD'HUI EST ENCORE PRATIQUEE. LA PRESENTATION DE L'HISTOIRE DU DEVELOPPEMENT DE CETTE LANGUE FAIT L'OBJECT DU PREMIER CHAPITRE. LE SYRIAQUE S'ECRIT DE DROITE A GAUCHE, AVEC UN ASPECT TRES SINGULIER, UN PENCHE D'UN ANGLE D'ENVIRON 45° QUI REND LES ALGORITHMES DE TRAITEMENT ET D'ANALYSE DE DOCUMENTS DEVELOPPES POUR LES AUTRES ECRITURES INOPERANTS. DANS LE SECOND CHAPITRE, APRES NOUS ETRE INTERESSES A LA DESCRIPTION ET L'EXTRACTION DES STRUCTURES DES DOCUMENTS, NOUS AVONS ELABORE UNE METHODE DE SEGMENTATION DES MOTS QUI PREND EN COMPTE CE PENCHE; ELLE NOUS CONDUIT A UNE TRENTAINE DE FORMES STABLES QUI SONT DES LETTRES INDIVIDUELLES VERTICALES ET DES "N-GRAMMES" CONSTITUES PAR DES LETTRES PENCHEES. DANS LA DEUXIEME PARTIE DE LA THESE, NOUS NOUS SOMMES INTERESSES AU CONTENU DES DOCUMENTS POUR DES FINS D'INDEXATION. NOUS AVONS DEVELOPPE UNE METHODE DE REPERAGE DE MOTS QUI PERMET DE RETROUVER, DANS IN DOCUMENT, TOUTES LES OCCURRENCES D'UN MOT SELON PLUSIEUS MODES DE REQUETES (WORD SPOTTING, WORD RETRIEVAL). ELLE REPOSE SUR UNE SIMILARITE DE FORME EVALUEE A PARTIR D'UNE ANALYSE TRES FINE DE L'ORIENTATION DU TRACE DE L'ECRITURE. LE DERNIER CHAPITRE EST UNE PREMIERE CONTRIBUTION A LA TRANSCRIPTION ASSISTEE DES MANUSCRITS SYRIAQUES QUI REPOSE SUR LA SEGMENTATION DES MOTS DECRITE CI-DESSUS. NOUS MONTRONS QUE LA TRANSCRIPTION, QUI S'APPUIE SUR L'INTERACTION, EST EN RUPTURE AVES LES TRADITIONNELLES DEMARCHES DE RECONNAISSANCE PAR O. C. R. MANUSCRITS SYRIAQUES ANALYSE DE DOCUMENTS ANCIENS SEGMENTATION OBLIQUE RECONNAISSANCE DE TEXTE TRANSCRIPTION ASSISTEE
5	Modèle de dégradation d’images de documents anciens pour la génération de données semi-synthétiques / Semi-synthetic ancient document image generation by using document degradation models Kieu, Van Cuong 25 November 2014 (has links) Le nombre important de campagnes de numérisation mises en place ces deux dernières décennies a entraîné une effervescence scientifique ayant mené à la création de nombreuses méthodes pour traiter et/ou analyser ces images de documents (reconnaissance d’écriture, analyse de la structure de documents, détection/indexation et recherche d’éléments graphiques, etc.). Un bon nombre de ces approches est basé sur un apprentissage (supervisé, semi supervisé ou non supervisé). Afin de pouvoir entraîner les algorithmes correspondants et en comparer les performances, la communauté scientifique a un fort besoin de bases publiques d’images de documents avec la vérité-terrain correspondante, et suffisamment exhaustive pour contenir des exemples représentatifs du contenu des documents à traiter ou analyser. La constitution de bases d’images de documents réels nécessite d’annoter les données (constituer la vérité terrain). Les performances des approches récentes d’annotation automatique étant très liées à la qualité et à l’exhaustivité des données d’apprentissage, ce processus d’annotation reste très largement manuel. Ce processus peut s’avérer complexe, subjectif et fastidieux. Afin de tenter de pallier à ces difficultés, plusieurs initiatives de crowdsourcing ont vu le jour ces dernières années, certaines sous la forme de jeux pour les rendre plus attractives. Si ce type d’initiatives permet effectivement de réduire le coût et la subjectivité des annotations, reste un certain nombre de difficultés techniques difficiles à résoudre de manière complètement automatique, par exemple l’alignement de la transcription et des lignes de texte automatiquement extraites des images. Une alternative à la création systématique de bases d’images de documents étiquetées manuellement a été imaginée dès le début des années 90. Cette alternative consiste à générer des images semi-synthétiques imitant les images réelles. La génération d’images de documents semi-synthétiques permet de constituer rapidement un volume de données important et varié, répondant ainsi aux besoins de la communauté pour l’apprentissage et l’évaluation de performances de leurs algorithmes. Dans la cadre du projet DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) financé par l’ANR (Agence Nationale de la Recherche), nous avons mené des travaux de recherche relatifs à la génération d’images de documents anciens semi-synthétiques. Le premier apport majeur de nos travaux réside dans la création de plusieurs modèles de dégradation permettant de reproduire de manière synthétique des déformations couramment rencontrées dans les images de documents anciens (dégradation de l’encre, déformation du papier, apparition de la transparence, etc.). Le second apport majeur de ces travaux de recherche est la mise en place de plusieurs bases d’images semi-synthétiques utilisées dans des campagnes de test (compétition ICDAR2013, GREC2013) ou pour améliorer par ré-apprentissage les résultats de méthodes de reconnaissance de caractères, de segmentation ou de binarisation. Ces travaux ont abouti sur plusieurs collaborations nationales et internationales, qui se sont soldées en particulier par plusieurs publications communes. Notre but est de valider de manière la plus objective possible, et en collaboration avec la communauté scientifique concernée, l’intérêt des images de documents anciens semi-synthétiques générées pour l’évaluation de performances et le ré-apprentissage. / In the last two decades, the increase in document image digitization projects results in scientific effervescence for conceiving document image processing and analysis algorithms (handwritten recognition, structure document analysis, spotting and indexing / retrieval graphical elements, etc.). A number of successful algorithms are based on learning (supervised, semi-supervised or unsupervised). In order to train such algorithms and to compare their performances, the scientific community on document image analysis needs many publicly available annotated document image databases. Their contents must be exhaustive enough to be representative of the possible variations in the documents to process / analyze. To create real document image databases, one needs an automatic or a manual annotation process. The performance of an automatic annotation process is proportional to the quality and completeness of these databases, and therefore annotation remains largely manual. Regarding the manual process, it is complicated, subjective, and tedious. To overcome such difficulties, several crowd-sourcing initiatives have been proposed, and some of them being modelled as a game to be more attractive. Such processes reduce significantly the price andsubjectivity of annotation, but difficulties still exist. For example, transcription and textline alignment have to be carried out manually. Since the 1990s, alternative document image generation approaches have been proposed including in generating semi-synthetic document images mimicking real ones. Semi-synthetic document image generation allows creating rapidly and cheaply benchmarking databases for evaluating the performances and trainingdocument processing and analysis algorithms. In the context of the project DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) funded by ANR (Agence Nationale de la Recherche), we focus on semi-synthetic document image generation adapted to ancient documents. First, we investigate new degradation models or adapt existing degradation models to ancient documents such as bleed-through model, distortion model, character degradation model, etc. Second, we apply such degradation models to generate semi-synthetic document image databases for performance evaluation (e.g the competition ICDAR2013, GREC2013) or for performance improvement (by re-training a handwritten recognition system, a segmentation system, and a binarisation system). This research work raises many collaboration opportunities with other researchers to share our experimental results with our scientific community. This collaborative work also helps us to validate our degradation models and to prove the efficiency of semi-synthetic document images for performance evaluation and re-training. Modèle de dégradation Évaluation de performance Re-apprentissage Analyse d’images de documents anciens Document degradation model Document image generation Performance evaluation Re-training Ancient document image analysis
6	Évaluation de la qualité des documents anciens numérisés Rabeux, Vincent 06 March 2013 (has links) Les travaux de recherche présentés dans ce manuscrit décrivent plusieurs apports au thème de l’évaluation de la qualité d’images de documents numérisés. Pour cela nous proposons de nouveaux descripteurs permettant de quantifier les dégradations les plus couramment rencontrées sur les images de documents numérisés. Nous proposons également une méthodologie s’appuyant sur le calcul de ces descripteurs et permettant de prédire les performances d’algorithmes de traitement et d’analyse d’images de documents. Les descripteurs sont définis en analysant l’influence des dégradations sur les performances de différents algorithmes, puis utilisés pour créer des modèles de prédiction à l’aide de régresseurs statistiques. La pertinence, des descripteurs proposés et de la méthodologie de prédiction, est validée de plusieurs façons. Premièrement, par la prédiction des performances de onze algorithmes de binarisation. Deuxièmement par la création d’un processus automatique de sélection de l’algorithme de binarisation le plus performant pour chaque image. Puis pour finir, par la prédiction des performances de deux OCRs en fonction de l’importance du défaut de transparence (diffusion de l’encre du recto sur le verso d’un document). Ce travail sur la prédiction des performances d’algorithmes est aussi l’occasion d’aborder les problèmes scientifiques liés à la création de vérités-terrains et d’évaluation de performances. / This PhD. thesis deals with quality evaluation of digitized document images. In order to measure the quality of a document image, we propose to create new features dedicated to the characterization of most commons degradations. We also propose to use these features to create prediction models able to predict the performances of different types of document analysis algorithms. The features are defined by analyzing the impact of a specific degradation on the results of an algorithm and then used to create statistical regressors.The relevance of the proposed features and predictions models, is analyzed in several experimentations. The first one aims to predict the performance of different binarization methods. The second experiment aims to create an automatic procedure able to select the best binarization method for each image. At last, the third experiment aims to create a prediction model for two commonly used OCRs. This work on performance prediction algorithms is also an opportunity to discuss the scientific problems of creating ground-truth for performance evaluation. Images de documents anciens Évaluation de la qualité Modèles de prédiction Descripteurs images Binarisation Reconnaissance de caractères Évaluation de performances Génération de documents synthétiques Création de vérité-terrains Régression linéaire Ancient document images Quality evaluation Image features Optical character recognition Performance evaluation Synthetic document image generation Ground-truth creation

1

Page generated in 0.0809 seconds