1 |
Linear Combination of multiresolution descriptors: Application to Graphics RecognitionRamos Terrades, Oriol 17 October 2006 (has links) (PDF)
Dans le domaine de l'analyse de documents on voudrait être capable de traiter automatiquement n'importe quel genre de documents numériques et d'extraire l' information la plus importante. Plus précisément, on voudrait connaître la configuration du document,identifier chacune de ses parties et reconnaître ses contenus, pour faire des requêtes par le contenu du document lui-même mais aussi, parmi des documents différents. Ceci est une problème difficile qui a suscité un nombre important de travaux à différents niveaux. On a développé un ensemble de techniques destinés à pré-traiter les images numériques afin d'augmenter leurs qualités, en réduisant le bruit provenant des systèmes d'acquisition et en minimisant les effets de la dégradation des documents. On trouve aussi, beaucoup de travaux destinés à la segmentation de zones d'intérêts du fond du document. Finalement, depuis les années 60 à aujourd'hui un nombre important des descripteurs on été proposé pour représenter ces zones d'intérêts.<br /><br />Dans ce thèse, nous avons travaillé sur la description des formes et la fusion de classificateurs pour les appliquer à la reconnaissance de graphiques. Dans la reconnaissance de formes, beaucoup d'applications sont confrontées au problème de description de grands ensembles de formes complexes pour les reconnaître, mais aussi pour les identifier dans des grandes bases de données. En plus du nombre important de formes on doit également faire face aux problèmes de similitude des formes ou de variabilité des classes des symboles. Dans ces cas, un point clé dans le processus de la reconnaissance des formes est la définition de descripteurs ayant une grande capacité de discrimination. Malheureusement, un seul descripteur ne suffit pas pour obtenir des résultats satisfaisants et donc, nous devons combiner l'information provenant de différentes sources pour améliorer le comportement global du système de reconnaissance. Cette combinaison est réalisée par un mécanisme de fusion des classificateurs.<br /><br />Par rapport aux descriptions des formes, traditionnellement les symboles graphiques ont été représentés par des descripteurs structurelles, construits à partir d'une représentation vectorielle. Les méthodes de vectorisation sont sensibles aux bruits et aux distorsions des symboles ébauchés. On peut essayer de contourner ce problème en définissant une grammaire de descripteurs ou en construisant des modèles déformables des symboles. Une autre possibilité, celle poursuivie dans ce mémoire, est d'utiliser des descripteurs que n'ont pas besoin d'une représentation vectorielle. Dans le contexte de la description des formes on a proposé un descripteur basé sur la transformation de ridgelets qu'on peut définir comme: multiresolution, polaire, en 2D et qui préserve l'information d'invariance aux similitudes. D'un autre coté, malgré qu'on puisse considérer ce descripteur comme un seul, il nous offre une représentation des formes permettant de la décomposer en groupes de coefficients de ridgelets qui sont chacun définis comme un descripteur. De cette manière, pour chaque descripteur, nous avons entraîné des classifieurs qui sont combinés linéairement en utilisant des règles de combinaison: IN (Indépendant et Normale) et DN (Dépendant et Normal), que minimisent l'erreur de classification pour ces classifieurs par rapport à un ensemble de contraintes. <br /><br />Ces développements théoriques ont été validés à partir d'un ensemble de résultats expérimentaux. Les descripteurs ridgelets décrivent mieux les symboles que d'autres descripteurs plus classiques. Les règles de fusion IN et DN réduisent l'erreur de classification par rapport aux autres méthodes de références. Enfin, la méthode IN appliquée aux descripteurs de ridgelets, en combinaison avec des classificateurs du genre "boosting", aboutie à un taux de reconnaissance d'environ 100% sur la base de données définies au workshop GREC'03.
|
Page generated in 0.1021 seconds