Mes travaux de thèse s'inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d'étude et dedéchiffrage des écritures.L'objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l'Institut de Recherche en Histoire des Textes (IRHT - Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l'évolutiondes formes de l'écriture par la mise en place de méthodes efficaces d'accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j'ai choisi d'étudier la dynamique del'élément le plus basique de l'écriture appelé le ductus2 et qui d'après les paléographes apportebeaucoup d'informations sur le style d'écriture et l'époque d'élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l'information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d'une méthodologie complète de suivi de traits à partir del'extraction d'un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l'application des règlesfondamentales d'exécution des traits d'écriture, enseignées aux copistes du Moyen Age. Il s'agitd'information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l'écriture d'unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l'utilisation d'un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d'obtenir la meilleure représentation d'un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L'ensemble de ces contributions a été testé à partir d'une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d'Oxford et manuscrits de l'IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d'identification de scripteurs d'ICDAR 2011. L'exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l'identification d'écritures etétudier son pouvoir de généralisation à d'autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00834687 |
Date | 22 November 2012 |
Creators | Daher, Hani |
Publisher | Université René Descartes - Paris V |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0025 seconds