Return to search

Exploiting similarity hierarchies for multi-script scene text understanding

En aquesta tesi s'aborda el problema de la comprensió de text automàtic en condicions sense restriccions. En particular, abordem les tasques de detecció, el seguiment, i el reconeixement de text multi-idioma amb orientació arbitrària en imatges i vídeos d'escena natural. Per a això s'ha desenvolupat un conjunt de mètodes genèrics que es basen de la premissa bàsica que el text té sempre algunes característiques claus visuals que són independents de la llengua o escriptura en el qual està escrit.

Les metodologies d'extracció de text en escena es basen generalment en la classificació de regions o regions individuals, utilitzant el coneixement a priori d'un script o llenguatge determinat. La percepció humana de text, per contra, es basa en l'organització perceptiva a través del qual el text apareix com un grup perceptualment rellevant d'objectes atòmics. En aquesta tesi, s'argumenta que el problema de l'extracció de text pot ser plantejat com a detecció de grups significatius de regions de la imatge.

Ens ocupem del problema de la segmentació del text en escenes naturals des d'una perspectiva jeràrquica, fent ús explícit de l'estructura del text, enfocant directament la detecció d'agrupacions de regions que corresponen a elements de text dins d'una jerarquia produïda per un procés d'aglomeració per similitud sobre les regions individuals. Proposem una manera òptima per construir aquesta jerarquia de manera que s'estableix un espai de característiques dissenyat per produir hipòtesis de grup de text, i una regla de detenció que combina un classificador discriminatiu i una mesura probabilística de rellevancia dels grups amb base en l'organització perceptiva.

Proposem un nou algoritme de propostes d'objecte que està dissenyat específicament per a detectar text, i el comparem amb altres mètodes genèrics en l'estat de la tècnica. Alhora, s'estudia en quina mesura els mètodes existents de propostes d'objectes genèrics poden ser útils per a la detecció de text d'escena.

A continuació, presentem un algoritme híbrid per a la detecció i seguiment de text d'escena en el qual la noció de groups de regions també juga paper central. Un mòdul d'extracció de text escena basada en MSER ​​s'utilitza per detectar el text de forma asíncrona, mentre que paral·lelament els objectes de text detectates són seguits per propagació de MSER. La cooperació d'aquests dos mòduls va més enllà del seguiment per detecció en termes d'optimització de temps, i pot oferir processament de vídeo en temps real fins i tot en dispositius de baixos recursos.

Finalment, ens centrem en el problema de la identificació de l'escriptura en imatges de text d'escena per tal de construir un sistema de lectura d'extrem a extrem en escenris multi-idioma. Afrontar aquest problema amb classificadors CNN no és una tasca senzilla, ja que aquests no tenen en compte una característica clau de les instàncies de text d'escena: la seva relació d'aspecte es extremadament variable. En lloc de canviar la mida d'imatges d'entrada a una mida fixa, com en l'ús típic dels classificadors CNN holístics, proposem un marc de classificació basat en caracteristiques locals amb la finalitat de preservar les parts discriminatives de la imatge que són característiques de la seva classe. Es descriu un nou mètode basat en l'ús de conjunts de xarxes unides per aprendre conjuntament representacions discriminatives de regions locals de la imatge i alhora la seva importància relativa en un esquema de classificació global. Els nostres experiments amb aquest procediment d'aprenentatge demostren la viabilitat d'identificació d'alfabet en imatges d'escena natural, aplanant el camí cap als sistemes de comprensió de text d'escena d'extrem a extrem en diversos idiomes. / En esta tesis se aborda el problema de la comprensión de texto automático en condiciones sin restricciones. En particular, abordamos las tareas de detección, seguimiento, y el reconocimiento de texto multi-idioma con orientación arbitraria en imágenes y vídeos de escena natural. Para ello se ha desarrollado un conjunto de métodos genéricos que se basan de la premisa básica de que el texto tiene siempre algunas características claves visuales que son independientes de la lengua o escritura en el que está escrito.

Las metodologías de extracción de texto en escena se basan generalmente en la clasificación de regiones o regiones individuales, utilizando el conocimiento a priori de un script o lenguaje determinado. La percepción humana de texto, por el contrario, se basa en la organización perceptiva a través del cual el texto aparece como un grupo perceptualmente relevante de objetos atómicos. En esta tesis, se argumenta que el problema de la extracción de texto puede ser planteado como detección grupos significativos de regiones de la imagen.

Nos ocupamos del problema de la segmentación del texto en escenas naturales desde una perspectiva jerárquica, haciendo uso explícito de la estructura del texto, enfocando directamente la detección de agrupaciones de regiones que corresponden a elementos de texto dentro de una jerarquía producida por un proceso de aglomeración por similitud sobre las regiones individuales. Proponemos una manera óptima para construir esta jerarquía de modo que se establece un espacio de características diseñado para producir hipótesis de grupo de texto, y una regla de detención que combina un clasificador discriminativo y una medida probabilística de relevancia de los grupos con base en el organización perceptiva.

Proponemos un nuevo algoritmo de propuestas de objeto que está diseñado específicamente para detectar texto, y lo comparamos con otros métodos genéricos en el estado de la técnica. Asimismo, se estudia en qué medida los métodos existentes de propuestas de objetos genéricos pueden ser útiles para la detección de texto de escena.

A continuación, presentamos un algoritmo híbrido para la detección y seguimiento de texto de escena en el que la noción de groups de regiones también juega papel central. Un módulo de extracción de texto escena basada en MSER utiliza para detectar el texto de forma asíncrona, mientras que paralelamente los objetos de texto detectados son seguidos por propagación de MSER. La cooperación de estos dos módulos va más allá del seguimiento para detección en términos de optimización de tiempo, y puede ofrecer procesamiento de vídeo en tiempo real incluso en dispositivos de bajos recursos.

Finalmente, nos centramos en el problema de la identificación de la escritura en imágenes de texto de escena para construir un sistema de lectura de extremo a extremo en escenris multi-idioma. Afrontar este problema con clasificadores CNN no es una tarea sencilla, ya que estos no tienen en cuenta una característica clave de las instancias de texto de escena: su relación de aspecto es extremadamente variable. En lugar de cambiar el tamaño de imágenes de entrada a un tamaño fijo, como en el uso típico de los clasificadores CNN holísticos, proponemos un marco de clasificación basado en características locales con el fin de preservar las partes discriminativas de la imagen que son características de su clase. Se describe un nuevo método basado en el uso de conjuntos de redes unidas para aprender conjuntamente representaciones discriminativas de regiones locales de la imagen y al mismo tiempo su importancia relativa en un esquema de clasificación global. Nuestros experimentos con este procedimiento de aprendizaje demuestran la viabilidad de identificación de alfabeto en imágenes de escena natural, allanando el camino hacia los sistemas de comprensión de texto de escena de extremo a extremo en varios idiomas. / This thesis addresses the problem of automatic scene text understanding in unconstrained conditions. In particular, we tackle the tasks of multi-language and arbitrary-oriented text detection, tracking, and recognition in natural scene images and videos. For this we have developed a set of generic methods that build on top of the basic assumption that text has always some visual key characteristics that are independent of the language or script in which it is written.

Scene text extraction methodologies are usually based in classification of individual regions or patches, using a priori knowledge for a given script or language. Human perception of text, on the other hand, is based on perceptual organisation through which text emerges as a perceptually significant group of atomic objects. In this thesis, we argue that the text extraction problem could be posed as the detection of meaningful groups of regions.

We address the problem of text segmentation in natural scenes from a hierarchical perspective, making explicit use of text structure, aiming directly to the detection of region groupings corresponding to text within a hierarchy produced by an agglomerative similarity clustering process over individual regions. We propose an optimal way to construct such an hierarchy introducing a feature space designed to produce text group hypotheses with high recall and a novel stopping rule combining a discriminative classifier and a probabilistic measure of group meaningfulness based in perceptual organization.

We propose a new Object Proposals algorithm that is specifically designed for text and compare it with other generic methods in the state of the art. At the same time we study to what extent the existing generic Object Proposals methods may be useful for scene text understanding.

Then, we present a hybrid algorithm for detection and tracking of scene text where the notion of region grouppings plays also central role. A scene text extraction module based on Maximally Stable Extremal Regions (MSER) is used to detect text asynchronously, while in parallel detected text objects are tracked by MSER propagation. The cooperation of these two modules goes beyond the full-detection approaches in terms of time performance optimization, and yields real-time video processing at high frame rates even on low-resource devices.

Finally, we focus on the problem of script identification in scene text images in order to build a multi-language end-to-end reading system. Facing this problem with state of the art CNN classifiers is not straightforward, as they fail to address a key characteristic of scene text instances: their extremely variable aspect ratio. Instead of resizing input images to a fixed size as in the typical use of holistic CNN classifiers, we propose a patch-based classification framework in order to preserve discriminative parts of the image that are characteristic of its class. We describe a novel method based on the use of ensembles of conjoined networks to jointly learn discriminative stroke-parts representations and their relative importance in a patch-based classification scheme. Our experiments with this learning procedure demonstrate the viability of script identification in natural scene images, paving the road towards true multi-lingual end-to-end scene text understanding.

Identiferoai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/379828
Date08 April 2016
CreatorsGómez-Bigordà, Lluís
ContributorsKaratzas, Dimosthenis, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
PublisherUniversitat Autònoma de Barcelona
Source SetsUniversitat Autònoma de Barcelona
LanguageEnglish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format126 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
RightsL'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/, info:eu-repo/semantics/openAccess

Page generated in 0.0179 seconds