La escritura es una de las formas más importantes de comunicación y durante siglos ha sido el
método ma ́s fiable para preservar conocimiento. Sin embargo, a pesar del reciente desarrollo de las
imprentas y dispositivos, la escritura manuscrita todavía se utiliza ampliamente para tomar notas,
hacer anotaciones, o dibujar bocetos. Con el fin de hacerlos fácilmente accesibles, hay una enorme
cantidad de documentos escritos a mano, algunos de ellos con un valor cultural incalculable, que
han sido recientemente digitalizados. Esto ha hecho necesario el desarrollo de métodos capaces de
extraer información de este tipo de imágenes.
Transferir a los ordenadores la capacidad de comprender y reconocer texto y formas escritas a mano
ha sido el objetivo de muchos investigadores debido a su gran importancia para muchos campos
diferentes. Sin embargo, el diseño de buenas representaciones para lidiar con formas manuscritas es
un problema muy difícil debido a la gran variabilidad en este tipo de formas. Una de las
consecuencias de trabajar con formas escritas a mano es que necesitamos representaciones que sean
robustas, es decir, capaces de adaptarse a la gran variabilidad interna de la clase. Necesitamos
representaciones que sean discriminativas, es decir, capaces de aprender cuáles son las diferencias
entre las clases. Y necesitamos representaciones que sean eficientes, es decir, capaces de ser
calculadas y comparadas con rapidez. Desafortunadamente, las técnicas actuales de representación
de formas manuscritas para la recuperación y el reconocimiento no cumplen todos o algunos de
estos requisitos.
En esta tesis nos centramos en el problema de aprender a representar formas manuscritas dirigido a
tareas de recuperación y reconocimiento. En concreto, en la primera parte de la tesis, nos centramos
en el problema general de la representación de formas manuscritas para clasificación y
reconocimiento. Primero presentamos un descriptor de forma basado en una rejilla deformable que
se adapta a grandes deformaciones y donde las celdas de la cuadrícula se utilizan para extraer
diferentes características. Seguidamente, proponemos utilizar este descriptor para aprender modelos
estadísticos basados en el Active Appearance Model, que aprende de forma conjunta la variabilidad
en la estructura y la textura de una determinada clase. En la segunda parte nos centramos en una
aplicación concreta, el problema de word spotting, donde el objetivo es encontrar todas las
instancias de una palabra dada en un conjunto de imágenes. En primer lugar, abordamos el
problema sin segmentación previa y proponemos un enfoque no supervisado, basado en ventana
deslizante que supera el estado del arte en dos datasets públicos. En segundo lugar, se aborda el
problema de word spotting con varios escritores, donde la variabilidad de palabras aumenta
exponencialmente. Se describe un método en el que las imágenes de texto y cadenas de texto se
proyectan en un subespacio vectorial común, y donde aquellos vectores que representan la misma
palabra están más próximos. Esto se logra gracias a una combinación de label embedding y
aprendizaje de atributos, y una regresión a subespacio común. Evaluamos nuestro método en bases
de datos públicas de documentos manuscritos e imágenes naturales que muestran resultados
comparables o mejores que el estado del arte en tareas de búsqueda y reconocimiento. / Writing is one of the most important forms of communication and for centuries, handwriting had
been the most reliable way to preserve knowledge. However, despite the recent development of
printing houses and electronic devices, handwriting is still broadly used for taking notes, doing
annotations, or sketching ideas. In order to be easily accessed, there is a huge amount of
handwritten documents, some of them with uncountable cultural value, that have been recently
digitized. This has made necessary the development of methods able to extract information from
these document images.
Transferring the ability of understanding handwritten text or recognizing handwritten shapes to
computers has been the goal of many researches due to its huge importance for many different
fields. However, designing good representations to deal with handwritten shapes, e.g. symbols or
words, is a very challenging problem due to the large variability of these kinds of shapes. One of the
consequences of working with handwritten shapes is that we need representations to be robust, i.e.,
able to adapt to large intra-class variability. We need representations to be discriminative, i.e., able
to learn what are the differences between classes. And, we need representations to be efficient, i.e.,
able to be rapidly computed and compared. Unfortunately, current techniques of handwritten shape
representation for matching and recognition do not fulfill some or all of these requirements.
Through this thesis we focus on the problem of learning to represent handwritten shapes aimed at
retrieval and recognition tasks. Specifically, on the first part of the thesis, we focus on the general
problem of representing handwritten shapes for classification and matching. We first present a novel
shape descriptor based on a deformable grid that deals with large deformations by adapting to the
shape and where the cells of the grid can be used to ex- tract different features. Then, we propose to
use this descriptor to learn statistical models, based on the Active Appearance Model, that jointly
learns the variability in structure and texture of a given shape class. Then, on the second part, we
focus on a concrete application, the problem of word spotting, where the goal is to find all instances
of a query word in a dataset of images. First, we address the segmentation-free problem and propose
an unsupervised, sliding-window-based approach that achieves state-of-the-art results in two public
datasets. Second, we address the more challenging multi-writer problem, where the variability in
words exponentially increases. We describe an approach in which both word images and text strings
are embedded in a common vectorial subspace, and where those that represent the same word are
close together. This is achieved by a combination of label embedding and attributes learning, and a
common subspace regression. This leads to a low- dimensional, unified representation of word
images and strings, resulting in a method that allows one to perform either image and text searches,
as well as image transcription, in a unified framework. We test our approach on four public datasets
of both handwritten documents and natural images showing results comparable or better than the
state-of-the-art on spotting and recognition tasks
Identifer | oai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/284246 |
Date | 21 November 2014 |
Creators | Almazán, Jon |
Contributors | Fornés Bisquerra, Alicia, Valveny Llobet, Ernest, Universitat Autònoma de Barcelona. Departament d'Informàtica |
Publisher | Universitat Autònoma de Barcelona |
Source Sets | Universitat Autònoma de Barcelona |
Language | English |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | 109 p., application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/, info:eu-repo/semantics/openAccess |
Page generated in 0.003 seconds