Global ETD Search

Évaluation de la qualité des documents anciens numérisés

Les travaux de recherche présentés dans ce manuscrit décrivent plusieurs apports au thème de l’évaluation de la qualité d’images de documents numérisés. Pour cela nous proposons de nouveaux descripteurs permettant de quantifier les dégradations les plus couramment rencontrées sur les images de documents numérisés. Nous proposons également une méthodologie s’appuyant sur le calcul de ces descripteurs et permettant de prédire les performances d’algorithmes de traitement et d’analyse d’images de documents. Les descripteurs sont définis en analysant l’influence des dégradations sur les performances de différents algorithmes, puis utilisés pour créer des modèles de prédiction à l’aide de régresseurs statistiques. La pertinence, des descripteurs proposés et de la méthodologie de prédiction, est validée de plusieurs façons. Premièrement, par la prédiction des performances de onze algorithmes de binarisation. Deuxièmement par la création d’un processus automatique de sélection de l’algorithme de binarisation le plus performant pour chaque image. Puis pour finir, par la prédiction des performances de deux OCRs en fonction de l’importance du défaut de transparence (diffusion de l’encre du recto sur le verso d’un document). Ce travail sur la prédiction des performances d’algorithmes est aussi l’occasion d’aborder les problèmes scientifiques liés à la création de vérités-terrains et d’évaluation de performances. / This PhD. thesis deals with quality evaluation of digitized document images. In order to measure the quality of a document image, we propose to create new features dedicated to the characterization of most commons degradations. We also propose to use these features to create prediction models able to predict the performances of different types of document analysis algorithms. The features are defined by analyzing the impact of a specific degradation on the results of an algorithm and then used to create statistical regressors.The relevance of the proposed features and predictions models, is analyzed in several experimentations. The first one aims to predict the performance of different binarization methods. The second experiment aims to create an automatic procedure able to select the best binarization method for each image. At last, the third experiment aims to create a prediction model for two commonly used OCRs. This work on performance prediction algorithms is also an opportunity to discuss the scientific problems of creating ground-truth for performance evaluation.

http://www.theses.fr/2013BOR14770/document

Images de documents anciens

Évaluation de la qualité

Modèles de prédiction

Descripteurs images

Binarisation

Reconnaissance de caractères

Évaluation de performances

Génération de documents synthétiques

Création de vérité-terrains

Régression linéaire

Ancient document images

Quality evaluation

Image features

Optical character recognition

Performance evaluation

Synthetic document image generation

Ground-truth creation

Identifer	oai:union.ndltd.org:theses.fr/2013BOR14770
Date	06 March 2013
Creators	Rabeux, Vincent
Contributors	Bordeaux 1, Domenger, Jean-Philippe, Journet, Nicholas
Source Sets	Dépôt national des thèses électroniques françaises
Language	French
Detected Language	French
Type	Electronic Thesis or Dissertation, Text

Page generated in 0.003 seconds

Évaluation de la qualité des documents anciens numérisés

Description

Links & Downloads

Tags

Additional Fields