• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 142
  • 45
  • 19
  • Tagged with
  • 205
  • 202
  • 202
  • 184
  • 183
  • 183
  • 183
  • 183
  • 183
  • 183
  • 56
  • 50
  • 34
  • 30
  • 29
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Mobile agent systems and trust, a combined view toward secure sea-of-data applications

Robles, Sergi 22 July 2002 (has links)
La tecnología de agentes permite, sin lugar a dudas, el diseño de nuevos tipos de aplicaciones distribuidas. Los agentes móviles aun van más allá en esta dirección siendo la única alternativa para hacer posible ciertos tipos de aplicaciones, como las basadas en Mar de Datos o aplicaciones específicas de computación penetrante.Las ventajas que aportan las nuevas características de esta tecnología tienen su contrapartida en los nuevos problemas de seguridad que comportan. La complejidad del diseño de soluciones de seguridad usando agentes móviles es extremadamente alta, especialmente para aplicaciones basadas en mar de datos. A lo largo de este trabajo puede encontrarse un estudio del problema de la seguridad en la tecnología de agentes móbiles. No existe una plataforma de desarrollo de agentes móviles en la que se puedan implementar este nuevo tipo de aplicaciones, ofreciendo seguridad al mismo tiempo y facilidad de programación. Presentamos en este trabajo el comienzo del diseño y del desarrollo de MARISM-A, una plataforma segura para agentes móviles con itinerario recursivo y migración segura. La plataforma cumple con los principales estándares en agentes: FIPA y MASIF. A la vez, ofrece flexibilidad para la implementación de cualquier tipo de aplicaciones, incluyendo las basadas en mar de datos, y permite ser extendida con nuevos mecanismos de seguridad.Encontrar los requerimientos de seguridad de estas nuevas aplicaciones, y soluciones para ellos, no es una tarea fácil. Los mecanismos habituales no son válidos en estos nuevos escenarios. Presentamos tambien en esta tesis un nuevo enfoque basado en un modelo de confianza y en una metodología, para determinar estos requerimientos de seguridad y las soluciones más convenientes. En la tesis también puede verse cómo nuestra propuesta se utiliza en la práctica proporcionando un ejemplo basado en un escenario de una aplicacion típica de mar de datos en MARISM-A. / Agent technology is clearly an important enabler of new distributed applications. Mobile agents provide a further step in this direction and make possible new types of applications, such as sea-of-data applications or specific pervasive (ubiquitous) computing.The main drawback of the new capabilities featuring this technology is the arising of new branches of security issues. It results hard to design security solutions for applications using mobile agents, especially in sea-of-data applications. In this work we will analise the problem of security in mobile agent systems. There is not a definitive platform in which implement these applications and still offering security and ease to program. We present the start of the development of MARISM-A, an Architecture for Mobile Agents with Recursive Itinerary and Secure Migration. This platform intends to observe commonly accepted agent standards FIPA and MASIF. At the same time it provides flexibility to design any type of application, including sea-of-data applications, and allows to be extended with new security solutions.Finding out the security requirements of these new applications is not an easy task. Traditional approaches are not valid in these new scenarios. We present in this thesis a new approach based on a trust model and a methodology to find out security requirements and solutions. In this work we show how our approach can be used providing an example based on a scenario of a typical sea-of-data application in MARISM-A.
72

Human sequence evaluation: the key-frame approach

Gonzàlez i Sabaté, Jordi 29 October 2004 (has links)
L'anàlisi de seqüències d'imatges on apareixen éssers humans permet desenvolupar múltiples aplicacions, però també comporta moltes dificultats. Aquest àmbit de recerca tan complexe s'anonema Human Sequence Evaluation (HSE). Un sistema HSE genèric transforma dades d'imatges en descripcions d'alt nivell, i viceversa. Per a assolir aquesta abstracció, descrivim una arquitectura modular per desenvolupar sistemes HSE, on cada mòdul es correspon amb un pas d'abstracció. Les contribucions de la investigació que es presenta a continuació s'emmarquen dins d'aquesta arquitectura. Per això s'estableix una taxonomia de moviment humà que guiï el disseny de models intermedis que permetin entendre els canvis produïts en una escena. Aquesta taxonomia inclou el concepte d'"acció", que es defineix com una seqüència predeterminada de postures humanes.En aquesta Tesi es proposa un nou model d'accions humanes que s'utilitza en aplicacions on es requereix representar el moviment humà. Les dades d'aprenentatge es corresponen amb postures humanes, on cada postura es defineix a partir d'un nou model del cos humà. Utilitzem moltes execucions d'una mateixa acció per construir un espai d'accions humanes, anomenat aSpace, on cada execució es representa mitjançant una corba paramètrica. Un cop calculada la mitjana de totes les execucions apreses, les postures més característiques de l'acció, anomenades key-frames, són seleccionades automàticament d'entre totes les postures que hi pertanyen. Els key-frames s'utilitzen per a construir el model final d'acció humana, anomenat p-action. El p-action és una corba que modelitza l'evolució temporal de la postura del cos durant l'execució prototípica d'una acció i s'utilitza per a implementar algorismes de reconeixement i síntesi d'accions humanes, així com per a analitzar execucions particulars d'accions. Així doncs, en primer lloc, describim un procediment de reconeixement d'accions humanes utilitzant els key-frames de cada model d'acció. En segon lloc, presentem un mètode per a realitzar la síntesi d'accions humanes. Donada únicament la durada de l'acció a sintetitzar, obtenim un moviment humà suau i realista. Per a això, el model p-action es descriu a partir de la longitud d'arc per tal d'assolir independència respecte a la velocitat d'execució. A més a més, la representació d'accions humanes permet modelitzar les postures que es corresponen a les transicions entre accions, sintetitzant així activitats. Per últim, establim un entorn de comparació per a analitzar les diferències entre execucions d'una mateixa acció. En concret, utilitzem l'aSpace per a establir una caracterització de l'estil de caminar a partir del gènere dels agents.Per a concloure aquesta Tesi, afrontem la tasca d'incloure el nostre model d'accions humanes dins de l'entorn de treball del HSE. Per a això, utilitzem els Situation Graph Trees (SGTs) per modelitzar el coneixement necessari que ens permet representar el comportament humà. Adaptant el nostre model d'acció dins de la metodologia SGT, aconseguim generar descripcions conceptuals sobre el comportament d'un agent a partir de la informació quantitativa que s'obté de seqüències d'imatges. Finalment, exemplifiquem com obtenir una descripció del comportament humà dins d'una escena, així com la creació de comportaments sintètics per a agents virtuals. / The analysis of image sequences involving human agents allows to develop multiple applications, but it implies also lots of difficulties. This challenging domain is referred here as Human Sequence Evaluation (HSE). A generic HSE system transforms image data into conceptual descriptions, and vice versa. This abstraction process is addressed by describing the HSE framework as a modular scheme, each module concerned to a specific task domain. The contributions of this investigation are discussed within this framework, and a human motion taxonomy is established to reflect the minimal abstraction steps required for HSE. This taxonomy includes the "action" term which denotes a learnt sequence of human postures.This Thesis proposes a novel human action model used in different applications which require a representation for human movements. Several performances of a given action constitute the training data which is represented as a sequence of human postures. The learning postures are described using a novel human body model, and they are used to build a human action space, called aSpace, within which each human performance is represented as a parametric manifold. As each manifold is parameterized by the (normalized) temporal variation of the posture, the mean performance can be computed. Subsequently, the most characteristic postures for such an action, called key-frames, are selected automatically from the postures belonging to the mean performance. Key-frames are used to build the human action model, called p-action. A p-action represents the time evolution of the human body posture during the prototypical performance of a particular action, and is exploited to perform human action recognition and synthesis, and performance analysis. Firstly, we describe a human action recognition procedure by considering the key-frame set of each action model. Secondly, an algorithm for human action synthesis is presented. Realistic and smooth human motion is generated given only the temporal duration of the synthesized action. For this purpose, p-actions are parameterized by arc-length to achieve invariance to speed. Moreover, our proposed model for human actions is enhanced to represent postures corresponding to action transitions, thus allowing to synthesize human activities. Lastly, a comparison framework is established to analyse the differences between performances of the same action. Specifically, the aSpace representation is used to derive a proper characterization of the walking style in terms of the gender of the walker.To conclude this investigation, we confront the task of embedding our human action model within the HSE framework. For this purpose, Situation Graph Trees (SGTs) are used to model the knowledge required for human activity and behavior representation. By adapting our action model to the SGT methodology, we derive semantic primitives based on the quantitative information obtained from image sequences, and we also generate synthetic sequences based on the conceptual information embedded in activity and behavior models. We show examples of SGTs which infer the behavior of actors within a scene, and which generate synthetic behavior for virtual human agents.
73

Model-Based Visual Localisation Of Contours And Vehicles

Ponsa Mussarra, Daniel 29 June 2007 (has links)
El treball d'aquesta tesi es centra en l'anàlisi de seqüències de vídeo, aplicant tècniques basades en models per extreure'n informació quantitativa. En concret, es realitzen diferents propostes en dues àrees d'aplicació: el seguiment de formes basat en models de contorns, i la detecció i seguiment de vehicles en imatges proveïdes per una camera instal·lada en una plataforma mòbil.El treball dedicat al seguiment de formes s'enquadra en el paradigma de contorns actius, del qual presentem una revisió de les diferents propostes existents. En primer lloc, mesurem el rendiment obtingut pels algorismes de seguiment més comuns (filtres basats en Kalman i filtres de partícules), i en segon lloc avaluem diferents aspectes de la seva implementació en un extens treball experimental on es consideren múltiples seqüències sintètiques, distorsionades amb diferents graus de soroll. Així, mitjançant aquest estudi determinem la millor manera d'implementar a la pràctica els algorismes de seguiment clàssics, i identifiquem els seus pros i contres.Seguidament, el treball s'orienta cap a la millora dels algoritmes de seguiment de contorns basats en filtres de partícules. Aquest algorismes aconsegueixen bons resultats sempre que el número de partícules utilitzades sigui suficient, però malauradament la quantitat de partícules requerides creix exponencialment amb el número de paràmetres a estimar. Per tant, i en el context del seguiment de contorns, presentem tres variants del filtre de partícules clàssic, corresponents a tres noves estratègies per tractar aquest problema. En primer lloc, proposem millorar el seguiment de contorns mirant de propagar més acuradament les partícules emprades per l'algorisme d'una imatge a la següent. Això ho duem a terme utilitzant una aproximació lineal de la funció de propagació òptima. La segona estratègia proposada es basa en estimar part dels paràmetres de manera analítica. Així, es pretén fer un ús més productiu de les partícules emprades, reduint la part dels paràmetres del model que s'han d'estimar amb elles. El tercer mètode proposat té com a objectiu treure profit del fet de que, en aplicacions de seguiment de contorns, sovint els paràmetres relatius a la transformació rígida es poden estimar prou acuradament independentment de la deformació local que el contorn presenti. Això s'utilitza per realitzar una millor propagació de les partícules, concentrant-les més densament en la zona on el contorn seguit es troba. Aquestes tres propostes es validen de manera extensiva en seqüències amb diferents nivells de soroll, amb les que es mesura la millora aconseguida.A continuació proposem tractar directament l'origen del problema anterior mitjançant la reducció del nombre de paràmetres a estimar per tal de seguir una determinada forma d'interès. Per aconseguir això, proposem modelar aquesta forma usant múltiples models, on cadascun requereix una quantitat de paràmetres inferior a la requerida per un únic model. Es proposa un nou mètode per aprendre aquests models a partir d'un conjunt d'entrenament, així com un nou algorisme per emprar-los en el seguiment dels contorns. Els resultats experimentals certifiquen la validesa d'aquesta proposta.Finalment, la tesi es centra en el desenvolupament d'un sistema de detecció i seguiment de vehicles. Les propostes realitzades comprenen: un mòdul de detecció de vehicles, un mòdul dedicat a determinar la posició i velocitat 3D dels vehicles detectats, i un mòdul de seguiment per actualitzar la localització dels vehicles a la carretera de manera precisa i eficient. Es realitzen diverses aportacions originals en aquests tres temes, i se n'avalua el rendiment. / This thesis focuses the analysis of video sequences, applying model-based techniques for extracting quantitative information. In particular, we make several proposals in two application areas: shape tracking based on contour models, and detection and tracking of vehicles in images acquired by a camera installed on a mobile platform.The work devoted to shape tracking follows the paradigm of active contours, from which we present a review of the existent approaches. First, we measure the performance of the most common algorithms (Kalman based filters and particle filters), and then we evaluate its implementation aspects trough an extensive experimental study, where several synthetic sequences are considered, distorted with different degrees of noise. Thus, we determine the best way to implement in practice these classical tracking algorithms, and we identify its benefits and drawbacks.Next, the work is oriented towards the improvement of contour tracking algorithms based on particle filters. These algorithms reach good results provided that the number of particles is high enough, but unfortunately the required number of particles grows exponentially with the number of parameters to be estimated. Therefore, and in the context of contour tracking, we present three variants of the classical particle filter, corresponding to three new strategies to deal with this problem. First, we propose to improve the contour tracking by propagating more accurately the particles from one image to the next one. This is done by using a linear approximation of the optimal propagation function. The second proposed strategy is based in estimating part of the parameters analytically. Thus, we aim to do a more productive use of the particles, reducing the amount of model parameters that must be estimated through them. The third proposed method aims to exploit the fact that, in contour tracking applications, the parameters related to the rigid transform can be estimated accurately enough independently from the local deformation presented by the contour. This is used to perform a better propagation of the particles, concentrating them more densely in the zone where the tracked contour is located. These three proposals are validated extensively in sequences with different noise levels, on which the reached improvement is evaluated.After this study, we propose to deal directly with the origin of the previous problem by reducing the number of parameters to be estimated in order to follow a given shape of interest. To reach that, we propose to model the shape using multiple models, where each one requires a lower quantity of parameters than when using a unique model. We propose a new method to learn these models from a training set, and a new algorithm to use the obtained models for tracking the contours. The experimental results certify the validity of this proposal.Finally, the thesis focuses on the development of a system for the detection and tracking of vehicles. The proposals include: a vehicle detection module, a module devoted to the determination of the three-dimensional position and velocity of the detected vehicles, and a tracking module for updating the location of vehicles on the road in a precise and efficient manner. Several original contributions are done in these three subjects, and their performance is evaluated empirically.
74

Modeling Human Behavior for Image Sequence Understanding and Generation

Baiget Arasanz, Pau 13 July 2009 (has links)
La comprensió del comportament dels animals, i en especial dels humans, és un dels problemes més antics i estudiats al llarg de la història, quasi des del inici de la civilització. La quantitat de factors diferents que actuen alhora de determinar les accions d'una persona requereixen la participació de diferents disciplines, com la psicologia, biologia, o sociologia. En els darrers anys l'anàlisi del comportament humà ha esdevingut també un tema molt interessant per a la comunitat científica de visió per computador, gràcies als darrers avenços en l'adquisició de dades sobre el moviment humà a partir de seqüències d'imatges. Malgrat la creixent disponibilitat d'aquestes dades, existeix encara una barrera per obtenir una representació conceptual de les observacions obtingudes. L'avaluació del comportament humà en seqüències d'imatges està basat en una interpretació qualitativa dels resultats, i per tant l'assignació de conceptes a les dades quantitatives obtingudes està lligada a una certa ambigüitat. Aquesta Tesi confronta el problema d'obtenir una representació correcta del comportament humà en els contexts de la visió i animació per computador. En primer lloc, un bon model de comportament ha de permetre reconèixer i descriure l'activitat observada en seqüències d'imatges. D'altra banda, el model ha de permetre generar sintèticament noves instàncies, que permetin modelar el comportament d'agents virtuals.En primer lloc, proposem mètodes per aprendre els models directament de les observacions. A partir de les dades obtingudes mitjançant l'anàlisi de seqüències d'imatges, construïm models de comportament normal dins l'escenari. Això ens proporciona una eina per determinar la normalitat o anormalitat de futures observacions. Tanmateix, els mètodes d'aprenentatge automàtic son incapaços de proveir una descripció semàntica de les observacions. Aquesta problema és tractat mitjançant un nou mètode que incorpora un coneixement a--priori sobre l'escena i els comportaments esperats. Aquesta estructura, formada pel motor de raonament difús FMTL i l'eina de modelatge SGT, permet obtenir descripcions conceptuals del contingut de noves seqüències de vídeo. Finalment, l'estructura FMTL + SGT ens permet simular comportament sintètic i introduir agents virtuals dins d'escenes reals que interactuen amb els agents reals existents, construint d'aquesta manera seqüències de realitat augmentada. El conjunt de mètodes presentats en aquesta Tesi tenen un conjunt potencial d'aplicacions cada cop més gran. Per un costat, el reconeixement i descripció de comportament en seqüències d'imatges té com a principal aplicació la vídeo--vigilància intel·ligent, permetent detectar comportaments delictius o perillosos. Altres aplicacions inclouen la transcripció d'esdeveniments esportius, monitorització de centres geriàtrics, anàlisi de tràfic en carreteres i la construcció de buscadors de vídeo basats en conceptes semàntics. D'altra banda, l'animació d'agents virtuals amb comportaments complexes permet obtenir simulacions acurades de situacions reals, com per exemple incendis o multituds. A més, la inclusió d'agents virtuals en entorns reals té forta implantació en els mons dels videojocs i el cinema. / The comprehension of animal behavior, especially human behavior, is one of the most ancient and studied problems since the beginning of civilization. The big list of factors that interact to determine a person action require the collaboration of different disciplines, such as psichology, biology, or sociology. In the last years the analysis of human behavior has received great attention also from the computer vision community, given the latest advances in the acquisition of human motion data from image sequences.Despite the increasing availability of that data, there still exists a gap towards obtaining a conceptual representation of the obtained observations. Human behavior analysis is based on a qualitative interpretation of the results, and therefore the assignment of concepts to quantitative data is linked to a certain ambiguity. This Thesis tackles the problem of obtaining a proper representation of human behavior in the contexts of computer vision and animation. On the one hand, a good behavior model should permit the recognition and explanation the observed activity in image sequences. On the other hand, such a model must allow the generation of new synthetic instances, which model the behavior of virtual agents. First, we propose methods to automatically learn the models from observations. Given a set of quantitative results output by a vision system, a normal behavior model is learnt. This result provides a tool to determine the normality or abnormality of future observations. However, machine learning methods are unable to provide a richer description of the observations. We confront this problem by means of a new method that incorporates prior knowledge about the environment and about the expected behaviors. This framework, formed by the reasoning engine FMTL and the modeling tool SGT allows the generation of conceptual descriptions of activity in new image sequences. Finally, we demonstrate the suitability of the proposed framework to simulate behavior of virtual agents, which are introduced into real image sequences and interact with observed real agents, thereby easing the generation of augmented reality sequences.The set of approaches presented in this Thesis has a growing set of potential applications. The analysis and description of behavior in image sequences has its principal application in the domain of smart video--surveillance, in order to detect suspicious or dangerous behaviors. Other applications include automatic sport commentaries, elderly monitoring, road traffic analysis, and the development of semantic video search engines. Alternatively, behavioral virtual agents allow to simulate accurate real situations, such as fires or crowds. Moreover, the inclusion of virtual agents into real image sequences has been widely deployed in the games and cinema industries.
75

Motion Priors for Efficient Bayesian Tracking In Iluman Sequence Evaluation

Rius Ferrer, Ignasi 06 July 2010 (has links)
La reconstrucció del moviment huma mitjançant l'analisi visual és una area de recerca de la visió per computador plena de reptes amb moltes aplicacions potencials. Els enfocs de seguiment basat en models, i en particular els fltres de partícules, formulen el problema com una tasca d'inferencia Bayesiana l'objectiu de la qual és estimar seqüencialment la distribució sobre els parametres d'un model del cos huma al llarg del temps. Aquests enfocs depenen en gran mesuta d'emprar bons models dinamics i d'observació per tal de predir i actualitzar les confguracions del cos huma en base a mesures extretes de les dades d'imatge. No obstant, resulta molt difícil dissenyar models d'observació, i en especial pel cas de seguiment a partir d'una sola vista, que siguin capaços d'extreure informació útil de les seqüencies d'imatges de manera robusta. Per tant, per tal de superar aquestes limitacions és necessari emprar un fort coneixement a priori sobre el moviment huma i guiar així l'exploració de l'espai d'estats. El treball presentat en aquesta Tesis esta enfocat a recuperar els parametres de moviment 3D d'un model del cos huma a partir de mesures incompletes i sorolloses d'una seqüencia d'imatges monocular. Aquestes mesures consisteixen en les posicions 2D d'un conjunt redult d'articulacions en el pla d'imatge. Amb aquesta fnalitat, proposem un nou model de moviment huma específc per cada acció, que és entrenat a partir de bases de dades de captures de moviment que contenen varies execucions d'una acció en particular, i que és utilitzat com a coneixement a priori en un esquema de fltratge de partícules. Les postures del cos es representen emprant un model articulat simple i compacte que fa ús dels cosinus directors per tal de representar la direcció de les parts del cos en l'espai Cartesia 3D. Llavors, donada una acció, s'aplica l'Analisis de Components Principals (PCA) sobre les dades d'entrenament per tal d'aplicar reducció de dimensionalitat sobre les dades d'entrada altament correlacionades. Previament al pas d'entrenament del model d'acció, les seqüencies de moviment d'entrada són sincronitzades mitjançant un nou algoritme d'adaptació dens basat en Programació Dinamica. L'algoritme sincronitza totes les seqüencies de moviment d'una mateixa classe d'acció i és capa¡ de trobar una solució óptima en temps real. Aleshores, s'apren un model d'acció probabilístic a partir dels exemples de movi¬ment sincronitzats que captura la variabilitat i l'evolució temporal del moviment del cos sencer durant una acció concreta. En particular, per cada acció, els parametres apresos són: una varietat representativa de l'acció que consisteix en l'execució mitjana de la mateixa, la desviació estandard de l'execució mitjana, els vectors de direcció mitjans de cada subseqüencia de moviment d'una llargada donada i l'error esperat en un instant de temps donat. A continuació, s'utilitza el model específc per cada acció com a coneixement a priori sobre moviment huma que millora l'efciencia i robustesa de tot l'enfoc de seguiment basat en fltratge de partícules. En primer lloc, el model dinamic guia les partícules segons situacions similars apreses previament. A continuació, es restringeix l'espai d'estats per tal que tan sols les postures humanes més factibles siguin acceptades com a solucions valides a cada instant de temps. En conseqüencia, l'espai d'estats és explorat de manera més efcient ja que el conjunt de partícules cobreix les postures del cos més probables. Finalment, es duen a terme experiments emprant seqüencies de test de varies bases de dades. Els resultats assenyalen que el nostre esquema de seguiment és capa d'estimar la confguració 3D aproximada d'un model de cos sencer, a partir tan sols de les posicions 2D d'un conjunt redult d'articulacions. També s'inclouen proves separades sobre el metode de sincronització de seqüencies i de la tecnica de comparació probabilística de les subseqüencies de moviment. / Recovering human motion by visual analysis is a challenging computer vision research area with a lot of potential applications. Model based tracking approaches, and in particular particle flters, formulate the problem as a Bayesian inference task whose aim is to sequentially estimate the distribution of the parameters of a human body model over time. These approaches strongly rely on good dynamical and observation models to predict and update confgurations of the human body according to mea surements from the image data. However, it is very difcult to design observation models which extract useful and reliable information from image sequences robustly. This results specially challenging in monocular tracking given that only one viewpoint from the scene is available. Therefore, to overcome these limitations strong motion priors are needed to guide the exploration of the state space. The work presented in this Thesis is aimed to retrieve the 3D motion parameters of a human body model from incomplete and noisy measurements of a monocular image sequence. These measurements consist of the 2D positions of a reduced set of joints in the image plane. Towards this end, we present a novel action specifc model of human motion which is trained from several databases of real motion captured performances of an action, and is used as a priori knowledge within a particle fltering scheme. Body postures are represented by means of a simple and compact stick fgure model which uses direction cosines to represent the direction of body limbs in the 3D Cartesian space. Then, for a given action, Principal Component Analysis is applied to the training data to perform dimensionality reduction over the highly correlated input data. Before the learning stage of the action model, the input motion performances are synchronized by means of a novel dense matching algorithm based on Dynamic Programming. The algorithm synchronizes all the motion sequences of the same action class, fnding an optimal solution in real time. Then, a probabilistic action model is learnt, based on the synchronized motion examples, which captures the variability and temporal evolution of full body motion within a specifc action. In particular, for each action, the parameters learnt are: a representative manifold for the action consisting of its mean performance, the stan dard deviation from the mean performance, the mean observed direction vectors from each motion subsequence of a given length and the expected error at a given time instant. Subsequently, the action specifc model is used as a priori knowledge on human motion which improves the efciency and robustness of the overall particle fltering tracking framework. First, the dynamic model guides the particles according to similar situations previously learnt. Then, the state space is constrained so only feasible human postures are accepted as valid solutions at each time step. As a result, the state space is explored more efciently as the particle set covers the most probable body postures. Finally, experiments are carried out using test sequences from several motion databases. Results point out that our tracker scheme is able to estimate the rough 3D confguration of a full body model providing only the 2D positions of a reduced set of joints. Separate tests on the sequence synchronization method and the subsequence probabilistic matching technique are also provided. Keywords: Human Motion Modeling; Particle fltering; Monocular Full Body 3D Tracking. Topics: Image Processing; Computer Vision; Scene Understanding; Machine Intelligence; Machine Vision Applications; Video-Sequence Evaluation
76

Tolerancia a fallos en la capa de sistema basada en la arquitectura RADIC

Castro León, Marcela 30 May 2013 (has links)
La demanda de major rendiment de les aplicacions cient ques es satisf a incrementant la quantitat de components. No obstant aix o, un major nombre de components implica una major probabilitat de fallada. L'abrupta caiguda dels temps mitjans entre fallades en els sistemes actuals impulsa la investigaci o de mecanismes de toler ancia a fallades per garantir l'execuci o d'una aplicaci o a un cost raonable. Message-Passing Interface (MPI), l'est andard de programaci o m es utilitzat per les aplicacions cient ques, t e un comportament fail-stop, realitzant una parada segura de tots els processos en cas de detectar una fallada en qualsevol dels nodes del cl uster. Com a consequ encia, es perd l'execuci o que s'hagu es fet en tots els nodes de processament. Els sistemes de c omput d'altes prestacions, han anat implementat mecanismes per a garantir el servei, normalment basades en t ecniques de rollback-recovery mitjan cant l' us de Checkpoint/Restart. Aquestes solucions s'han implementat a nivell d'aplicaci o, la qual cosa no es transparent, o b e, a nivell de llibreria, la qual cosa no es generalitzable a altres llibreries i es deixen fora del camp de soluci o a un divers nombre d'aplicacions. Es proposa un sistema de toler ancia a fallades transparent i autom atic per l'aplicaci o paral lela de manera que pugui utilitzar-se sense modi car l'aplicaci o i amb la llibrer a de pas de missatge que prefereixi l'usuari. Es basa en detectar els errors en las comunicacions de sockets causats per les fallades de nodes i recon gurar-los en forma autom atica per a comunicar-se amb la nova adre ca a on es migra el proc es. Funciona en conjunt amb un sistema que protegeix l'estat de c omput dels processos i, en cas de fallades, els recupera en un altre node de c omput mitjan cant t ecniques de rollback-recovery. S'ha realitzat una validaci o experimental utilitzant aplicacions Master/Worker i Single Program Multipla Data (SPMD) amb comunicacions basades en sockets i en pas de missatges Message Passing Interface (MPI). Les execucions es van realitzar en un cl uster multicore, obtenint els nivells desitjats de funcionalitat i prestacions. / La demanda de mayor rendimiento de las aplicaciones cient cas se satisface incrementando la cantidad de componentes. Sin embargo, un mayor n umero de componentes implica una mayor probabilidad de fallo. La abrupta ca da de los tiempos medios entre fallos en los sistemas actuales de altas prestaciones impulsa la investigaci on de mecanismos de tolerancia a fallos para garantizar la ejecuci on de una aplicaci on a un coste razonable. Message-Passing Interface (MPI), el est andar de programaci on m as utilizado por las aplicaciones cient cas, tiene un comportamiento fail-stop, realizando una parada segura de todos los procesos si se detecta un fallo en un nodo del cl uster. Como consecuencia, se pierde la ejecuci on que se hubiera hecho en todos los nodos de procesamiento. Los sistemas de c omputo de altas prestaciones han implementado mecanismos para garantizar el servicio, normalmente basados en t ecnicas de rollback-recovery mediante uso de Checkpoint/Restart. Estas soluciones se han implementado a nivel de aplicaci on lo cual no es transparente, o bien, a nivel de librer a, lo cual no es generalizable a otras librer as y dejan fuera del campo de soluci on a un n umero diverso de aplicaciones. Se propone un sistema de tolerancia a fallos transparente y autom atico de modo que pueda utilizarse sin modi car la aplicaci on y con la librer a de paso de mensaje que pre era el usuario. Se basa en detectar los errores en las comunicaciones de socket causados por fallos de nodos y recon gurarlos en forma autom atica para comunicarse con la nueva direcci on a donde se migra el proceso. Funciona en conjunto con un sistema que protege el estado de c omputo de los procesos y en caso de fallos, los recupera en otro nodo de c omputo por medio de t ecnicas de rollback-recovery. Se ha realizado una validaci on experimental utilizando aplicaciones Master/Worker y Single Program Multipla Data (SPMD), con comunicaciones basadas en sockets y en paso de mensajes Message Passing Interface (MPI). Las ejecuciones se realizaron en un cluster multicore, obteniendo los niveles deseados de funcionalidad y de prestaciones. / The demand of more performance of scienti c applications is achieved by increasing the amount of components. However, a growing number of components implies that the probability of failure increases as well. The remarkable decrease of average times between failures in the current High Performance Computing systems encourages the investigation of mechanisms of fault tolerance suitable for new architectures which allow to guarantee the execution of an application at a reasonable cost. Message Passing Interface (MPI), the standard of programming more used by scienti c application, has a fail-stop behavior, by carrying out a safe stop of all the processes in case of detecting a failure in any of the nodes of the cluster. As a consequence, the execution which could have been done in all the processing nodes until that moment is lost. High Performance Computing has implemented mechanisms in order to guarantee service, usually based on techniques of rollback-recovery by using the Checkpoint/Restart. Those solutions have been implemented at an application level which is not transparent, or, at library level, which is not extended to other libraries and leave out several applications. A transparent and automatic fault tolerance system in proposed in this thesis, in such a way that the application can be used without being modi ed and with the message passing library preferred by the user. It is based on detecting failures in the communications of the socket caused by failures of nodes and recon gure them in an automatic way to communicate with the new direction where the process is migrated. This method works along with a system which protects the status of computation of the processes and in the case of failure, they are recovered in other node of computation by using techniques of rollback-recovery. An experimental validation has been carried out by using applications Master/Worker and Single Program Multipla Data (SPMD), with communications based on sockets and on Message Passing Interface (MPI). The executions were made in a multicore cluster, obtaining the desirable levels of functionality and performance.The demand of more performance of scienti c applications is achieved by increasing the amount of components. However, a growing number of components implies that the probability of failure increases as well. The remarkable decrease of average times between failures in the current High Performance Computing systems encourages the investigation of mechanisms of fault tolerance suitable for new architectures which allow to guarantee the execution of an application at a reasonable cost. Message Passing Interface (MPI), the standard of programming more used by scienti c application, has a fail-stop behavior, by carrying out a safe stop of all the processes in case of detecting a failure in any of the nodes of the cluster. As a consequence, the execution which could have been done in all the processing nodes until that moment is lost. High Performance Computing has implemented mechanisms in order to guarantee service, usually based on techniques of rollback-recovery by using the Checkpoint/Restart. Those solutions have been implemented at an application level which is not transparent, or, at library level, which is not extended to other libraries and leave out several applications. A transparent and automatic fault tolerance system in proposed in this thesis, in such a way that the application can be used without being modi ed and with the message passing library preferred by the user. It is based on detecting failures in the communications of the socket caused by failures of nodes and recon gure them in an automatic way to communicate with the new direction where the process is migrated. This method works along with a system which protects the status of computation of the processes and in the case of failure, they are recovered in other node of computation by using techniques of rollback-recovery. An experimental validation has been carried out by using applications Master/Worker and Single Program Multipla Data (SPMD), with communications based on sockets and on Message Passing Interface (MPI). The executions were made in a multicore cluster, obtaining the desirable levels of functionality and performance.The demand of more performance of scienti c applications is achieved by increasing the amount of components. However, a growing number of components implies that the probability of failure increases as well. The remarkable decrease of average times between failures in the current High Performance Computing systems encourages the investigation of mechanisms of fault tolerance suitable for new architectures which allow to guarantee the execution of an application at a reasonable cost. Message Passing Interface (MPI), the standard of programming more used by scienti c application, has a fail-stop behavior, by carrying out a safe stop of all the processes in case of detecting a failure in any of the nodes of the cluster. As a consequence, the execution which could have been done in all the processing nodes until that moment is lost. High Performance Computing has implemented mechanisms in order to guarantee service, usually based on techniques of rollback-recovery by using the Checkpoint/Restart. Those solutions have been implemented at an application level which is not transparent, or, at library level, which is not extended to other libraries and leave out several applications. A transparent and automatic fault tolerance system in proposed in this thesis, in such a way that the application can be used without being modi ed and with the message passing library preferred by the user. It is based on detecting failures in the communications of the socket caused by failures of nodes and recon gure them in an automatic way to communicate with the new direction where the process is migrated. This method works along with a system which protects the status of computation of the processes and in the case of failure, they are recovered in other node of computation by using techniques of rollback-recovery. An experimental validation has been carried out by using applications Master/Worker and Single Program Multipla Data (SPMD), with communications based on sockets and on Message Passing Interface (MPI). The executions were made in a multicore cluster, obtaining the desirable levels of functionality and performance.
77

Design and validation of a structural health monitoring system for aeronautical structures.

Tibaduiza Burgos, Diego Alexander 18 January 2013 (has links)
Structural Health Monitoring (SHM) is an area where the main objective is the verification of the state or the health of the structures in order to ensure proper performance and maintenance cost savings using a sensor network attached to the structure, continuous monitoring and algorithms. Different benefits are derived from the implementation of SHM, some of them are: knowledge about the behavior of the structure under different loads and different environmental changes, knowledge of the current state in order to verify the integrity of the structure and determine whether a structure can work properly or whether it needs to be maintained or replaced and, therefore, to reduce maintenance costs. The paradigm of damage identification (comparison between the data collected from the structure without damages and the current structure in orderto determine if there are any changes) can be tackled as a pattern recognition problem. Some statistical techniques as Principal Component Analysis (PCA) or Independent Component Analysis (ICA) are very useful for this purpose because they allow obtaining the most relevant information from a large amount of variables. This thesis uses an active piezoelectric system to develop statistical data driven approaches for the detection, localization and classification of damages in structures. This active piezoelectric system is permanently attached to the surface of the structure under test in order to apply vibrational excitations and sensing the dynamical responses propagated through the structure at different points. As pattern recognition technique, PCA is used to perform the main task of the proposed methodology: to build a base-line model of the structure without damage and subsequentlyto compare the data from the current structure (under test) with this model. Moreover, different damage indices are calculated to detect abnormalities in the structure under test. Besides, the localization of the damage can be determined by means of the contribution of each sensor to each index. This contribution is calculated by several different methods and their comparison is performed. To classify different damages, the damage detection methodology is extended using a Self-Organizing Map (SOM), which is properly trained and validated to build a pattern baseline model using projections of the data onto the PCAmodel and damage detection indices. This baseline is further used as a reference for blind diagnosis tests of structures. Additionally, PCA is replaced by ICAas pattern recognition technique. A comparison between the two methodologies is performed highlighting advantages and disadvantages. In order to study the performance of the damage classification methodology under different scenarios, the methodology is tested using data from a structure under several different temperatures. The methodologies developed in this work are tested and validated using different structures, in particular an aircraft turbine blade, an aircraft wing skeleton, an aircraft fuselage,some aluminium plates and some composite matarials plates. / La monitorización de daños en estructuras (SHM por sus siglas en inglés) es un área que tiene como principal objetivo la verificación del estado o la salud de la estructura con el fin de asegurar el correcto funcionamiento de esta y ahorrar costos de mantenimiento. Para esto se hace uso de sensores que son adheridos a la estructura, monitorización continua y algoritmos. Diferentes beneficios se obtienen de la aplicación de SHM, algunos de ellos son: el conocimiento sobre el desempeño de la estructura cuando esta es sometida a diversas cargas y cambios ambientales, el conocimiento del estado actual de la estructura con el fin de determinar la integridad de la estructura y definir si esta puede trabajar adecuadamente o si por el contrario debe ser reparada o reemplazada con el correspondiente beneficio del ahorro de gastos de mantenimiento. El paradigma de la identificación de daños (comparación entre los datos obtenidos de la estructura sin daños y la estructura en un estado posterior para determinar cambios) puede ser abordado como un problema de reconocimiento de patrones. Algunas técnicas estadísticas tales como Análisis de Componentes Principales (PCA por sus siglas en inglés) o Análisis de Componentes Independientes (ICA por sus siglas en ingles) son muy útiles para este propósito puesto que permiten obtener la información más relevante de una gran cantidad de variables. Esta tesis hace uso de un sistema piezoeléctrico activo para el desarrollo de algoritmos estadísticos de manejo de datos para la detección, localización y clasificación de daños en estructuras. Este sistema piezoeléctrico activo está permanentemente adherido a la superficie de la estructura bajo prueba con el objeto de aplicar señales vibracionales de excitación y recoger las respuestas dinámicas propagadas a través de la estructura en diferentes puntos. Como técnica de reconocimiento de patrones se usa Análisis de Componentes Principales para realizar la tarea principal de la metodología propuesta: construir un modelo PCA base de la estructura sin daño y posteriormente compararlo con los datos de la estructura bajo prueba. Adicionalmente, algunos índices de daños son calculados para detectar anormalidades en la estructura bajo prueba. Para la localización de daños se usan las contribuciones de cada sensor a cada índice, las cuales son calculadas mediante varios métodos de contribución y comparadas para mostrar sus ventajas y desventajas. Para la clasificación de daños, se amplia la metodología de detección añadiendo el uso de Mapas auto-organizados, los cuales son adecuadamente entrenados y validados para construir un modelo patrón base usando proyecciones de los datos sobre el modelo PCA base e índices de detección de daños. Este patrón es usado como referencia para realizar un diagnóstico ciego de la estructura. Adicionalmente, dentro de la metodología propuesta, se utiliza ICA en lugar de PCA como técnica de reconocimiento de patrones. Se incluye también una comparación entre la aplicación de las dos técnicas para mostrar las ventajas y desventajas. Para estudiar el desempeño de la metodología de clasificación de daños bajo diferentes escenarios, esta se prueba usando datos obtenidos de una estructura sometida a diferentes temperaturas. Las metodologías desarrolladas en este trabajo fueron probadas y validadas usando diferentes estructuras, en particular un álabe de turbina, un esqueleto de ala y un fuselaje de avión, así como algunas placas de aluminio y de material compuesto
78

Lógica difusa aplicada a conjuntos imbalanceados: aplicación a la detección del Síndrome de Down

Soler Ruiz, Vicenç 23 January 2007 (has links)
El problema a resolver en esta Tesis Doctoral consiste en hallar una solución que mejore la clasificación que se consigue actualmente para el problema de la detección precoz del síndrome de Down en fetos, durante el segundo trimestre de embarazo, con técnicas no invasivas.El conjunto de datos usado para la detección del síndrome de Down es de dos clases y de tipo imbalanceado, es decir, que hay una gran diferencia entre el número de casos correspondientes a fetos que no son afectados por el síndrome de Down y los que sí lo son.Para tratar de mejorar la clasificación que se logra en la actualidad, se ha desarrollado un nuevo método de Soft Computing basado en Lógica Difusa diseñado para trabajar con conjuntos de datos imbalanceados. Este método permite, no sólo hallar una buena solución, sino también extraer el conocimiento adquirido.El método desarrollado se denomina FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) y se basa en la idea de que la solución generalice lo máximo posible, para evitar el efecto de sobreaprendizaje ("overfitting") que se produce en la mayoría de métodos al tratar de trabajar con un conjunto de datos imbalanceado. Para proporcionar las herramientas necesarias al método para que generalice, se ha desarrollado un algoritmo llamado ReRecBF, que forma parte del método FLAGID. Este algoritmo transforma las funciones de pertenencia obtenidas a partir de los datos por otro algoritmo ya existente llamado DDA/RecBF. Esta transformación consiste en convertir las funciones de pertenencia generadas a partir de los casos de la clase-menor en funciones triangulares, dejar como funciones trapezoidales las funciones de pertenencia de la clase-mayor y dividir las funciones de pertenencia que se solapen. Finalmente, debido a que se generan nuevas funciones de pertenencia, un algoritmo genético es usado simplemente para hallar las reglas que más se ajusten a las nuevas funciones.Los resultados obtenidos han mejorado la tasa de falsos positivos en el conjunto de datos del síndrome de Down hasta el 4%, con una tasa de verdaderos positivos del 60%. Esta es la primera vez que un método consigue bajar del 5% de falsos positivos con esa tasa de aciertos en los verdaderos positivos. Además, se ha extraído el conocimiento del resultado, y éste ha coincidido, en su mayoría, con el conocimiento existente en el campo de la medicina. Otro hecho remarcable es que se ha comprobado que el método también es útil para trabajar con conjuntos de datos imbalanceados.Finalmente, los resultados de este trabajo realizan aportaciones nuevas en el campo de la medicina, como son la importancia de la edad gestacional del feto en la detección de los casos positivos y que el peso de la madre tiene más importancia que simplemente el calibrar los dos indicadores hormonales AFP y hCG. / The problem to solve in this PhD Thesis consists of finding a solution that improves the classification that is obtained at the moment for the problem of the detection of the Down syndrome in fetuses, during the second trimester of pregnancy, with non-invasive techniques.The dataset used for the detection of the Down syndrome is imbalanced and two classes type, that is, that there are a great difference between the number of cases corresponding to fetuses that are not affected by the Down syndrome and those that are affected.In order to try to improve the classification that is obtained at the present time, a new method of Soft Computing has been developed based on Fuzzy Logic and designed to work with imbalanced datasets. This method allows, not only to find a good solution, but also to extract the acquired knowledge. The developed method is called FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) and it is based on the idea that the solution tries to generalize at maximum, avoiding the overfitting effect that takes place in most of methods when trying to work with an imbalanced dataset. In order to provide the necessary tools to the method that allows it to generalize, an algorithm called ReRecBF has been developed, which is a part of method FLAGID. This algorithm transforms the membership functions obtained from the data by another existing algorithm, called DDA/RecBF. This transformation consists of turning the membership functions generated from the cases of the minor-class in triangular functions, leaving like trapezoidal functions the membership functions of the major-class, dividing the membership functions that are overlapped. Finally, because new membership functions are generated, a genetic algorithm is used simply to find the rules that adjust more to the new functions.The results obtained have improved the rate of false positives in the data set of the Down syndrome until 4%, with a rate of true positives of 60%. This is the first time that a method is able to achieve a lower rate of 5% of false positives with that rate of successes in the true positives. In addition, the knowledge of the result has been extracted, and this one has agreed, in its majority, with the existing knowledge in the field of the medicine. Another remarkable fact is that it has been verified that the method also is useful to work with imbalanced datasets. Finally, the results of this work make new contributions in the field of the medicine, like the importance of the gestational age of the fetus in the detection of the positive cases and that the weight of the mother has more indicating importance than simply calibrating both hormonal AFP and hCG.
79

Color for Object Detection and Action Recognition

Anwer, Rao Muhammad 30 April 2013 (has links)
Detectar objetos en imágenes es un problema central en el campo de la visión por computador. El marco de detección basado en modelos de partes deformable es actualmente el más eficaz. Generalmente, HOG es el descriptor de imágenes a partir del cual se construyen esos modelos. El reconocimiento de acciones humanas es otro de los tópicos de más interés actualmente en el campo de la visión por computador. En este caso, los modelos usados siguen la idea de conjuntos de palabras (visuales), en inglés bag-of-words, en este caso siendo SIFT uno de los descriptor de imágenes más usados para dar soporte a la formación de esos modelos. En este contexto hay una información muy relevante para el sistema visual humano que normalmente está infrautilizada tanto en la detección de objetos como en el reconocimiento de acciones, hablamos del color. Es decir, tanto HOG como SIFT suelen ser aplicados al canal de luminancia o algún tipo de proyección de los canales de color que también lo desechan. Globalmente esta tesis se centra en incorporar color como fuente de información adicional para mejorar tanto la detección objetos como el reconocimiento de acciones. En primer lugar la tesis analiza el problema de la detección de personas en fotografías. En particular nos centramos en analizar la aportación del color a los métodos del estado del arte. A continuación damos el salto al problema de la detección de objetos en general, no solo personas. Además, en lugar de introducir el color en el nivel más bajo de la representación de la imagen, lo cual incrementa la dimensión de la representación provocando un mayor coste computacional y la necesidad de más ejemplos de aprendizaje, en esta tesis nos centramos en introducir el color en un nivel más alto de la representación. Esto no es trivial ya que el sistema en desarrollo tiene que aprender una serie de atributos de color que sean lo suficientemente discriminativos para cada tarea. En particular, en esta tesis combinamos esos atributos de color con los tradicionales atributos de forma y lo aplicamos de forma que mejoramos el estado del arte de la detección de objetos. Finalmente, nos centramos en llevar las ideas incorporadas para la tarea de detección a la tarea de reconocimiento de acciones. En este caso también demostramos cómo la incorporación del color, tal y como proponemos en esta tesis, permite mejorar el estado del arte. / Recognizing object categories in real world images is a challenging problem in computer vision. The deformable part based framework is currently the most successful approach for object detection. Generally, HOG are used for image representation within the part-based framework. For action recognition, the bag-of-word framework has shown to provide promising results. Within the bag-of-words framework, local image patches are described by SIFT descriptor. Contrary to object detection and action recognition, combining color and shape has shown to provide the best performance for object and scene recognition. In the first part of this thesis, we analyze the problem of person detection in still images. Standard person detection approaches rely on intensity based features for image representation while ignoring the color. Channel based descriptors is one of the most commonly used approaches in object recognition. This inspires us to evaluate incorporating color information using the channel based fusion approach for the task of person detection. In the second part of the thesis, we investigate the problem of object detection in still images. Due to high dimensionality, channel based fusion increases the computational cost. Moreover, channel based fusion has been found to obtain inferior results for object category where one of the visual varies significantly. On the other hand, late fusion is known to provide improved results for a wide range of object categories. A consequence of late fusion strategy is the need of a pure color descriptor. Therefore, we propose to use Color attributes as an explicit color representation for object detection. Color attributes are compact and computationally efficient. Consequently color attributes are combined with traditional shape features providing excellent results for object detection task. Finally, we focus on the problem of action detection and classification in still images. We investigate the potential of color for action classification and detection in still images. We also evaluate different fusion approaches for combining color and shape information for action recognition. Additionally, an analysis is performed to validate the contribution of color for action recognition. Our results clearly demonstrate that combining color and shape information significantly improve the performance of both action classification and detection in still images.
80

Learning to represent handwritten shapes and words for matching and recognition

Almazán, Jon 21 November 2014 (has links)
La escritura es una de las formas más importantes de comunicación y durante siglos ha sido el método ma ́s fiable para preservar conocimiento. Sin embargo, a pesar del reciente desarrollo de las imprentas y dispositivos, la escritura manuscrita todavía se utiliza ampliamente para tomar notas, hacer anotaciones, o dibujar bocetos. Con el fin de hacerlos fácilmente accesibles, hay una enorme cantidad de documentos escritos a mano, algunos de ellos con un valor cultural incalculable, que han sido recientemente digitalizados. Esto ha hecho necesario el desarrollo de métodos capaces de extraer información de este tipo de imágenes. Transferir a los ordenadores la capacidad de comprender y reconocer texto y formas escritas a mano ha sido el objetivo de muchos investigadores debido a su gran importancia para muchos campos diferentes. Sin embargo, el diseño de buenas representaciones para lidiar con formas manuscritas es un problema muy difícil debido a la gran variabilidad en este tipo de formas. Una de las consecuencias de trabajar con formas escritas a mano es que necesitamos representaciones que sean robustas, es decir, capaces de adaptarse a la gran variabilidad interna de la clase. Necesitamos representaciones que sean discriminativas, es decir, capaces de aprender cuáles son las diferencias entre las clases. Y necesitamos representaciones que sean eficientes, es decir, capaces de ser calculadas y comparadas con rapidez. Desafortunadamente, las técnicas actuales de representación de formas manuscritas para la recuperación y el reconocimiento no cumplen todos o algunos de estos requisitos. En esta tesis nos centramos en el problema de aprender a representar formas manuscritas dirigido a tareas de recuperación y reconocimiento. En concreto, en la primera parte de la tesis, nos centramos en el problema general de la representación de formas manuscritas para clasificación y reconocimiento. Primero presentamos un descriptor de forma basado en una rejilla deformable que se adapta a grandes deformaciones y donde las celdas de la cuadrícula se utilizan para extraer diferentes características. Seguidamente, proponemos utilizar este descriptor para aprender modelos estadísticos basados en el Active Appearance Model, que aprende de forma conjunta la variabilidad en la estructura y la textura de una determinada clase. En la segunda parte nos centramos en una aplicación concreta, el problema de word spotting, donde el objetivo es encontrar todas las instancias de una palabra dada en un conjunto de imágenes. En primer lugar, abordamos el problema sin segmentación previa y proponemos un enfoque no supervisado, basado en ventana deslizante que supera el estado del arte en dos datasets públicos. En segundo lugar, se aborda el problema de word spotting con varios escritores, donde la variabilidad de palabras aumenta exponencialmente. Se describe un método en el que las imágenes de texto y cadenas de texto se proyectan en un subespacio vectorial común, y donde aquellos vectores que representan la misma palabra están más próximos. Esto se logra gracias a una combinación de label embedding y aprendizaje de atributos, y una regresión a subespacio común. Evaluamos nuestro método en bases de datos públicas de documentos manuscritos e imágenes naturales que muestran resultados comparables o mejores que el estado del arte en tareas de búsqueda y reconocimiento. / Writing is one of the most important forms of communication and for centuries, handwriting had been the most reliable way to preserve knowledge. However, despite the recent development of printing houses and electronic devices, handwriting is still broadly used for taking notes, doing annotations, or sketching ideas. In order to be easily accessed, there is a huge amount of handwritten documents, some of them with uncountable cultural value, that have been recently digitized. This has made necessary the development of methods able to extract information from these document images. Transferring the ability of understanding handwritten text or recognizing handwritten shapes to computers has been the goal of many researches due to its huge importance for many different fields. However, designing good representations to deal with handwritten shapes, e.g. symbols or words, is a very challenging problem due to the large variability of these kinds of shapes. One of the consequences of working with handwritten shapes is that we need representations to be robust, i.e., able to adapt to large intra-class variability. We need representations to be discriminative, i.e., able to learn what are the differences between classes. And, we need representations to be efficient, i.e., able to be rapidly computed and compared. Unfortunately, current techniques of handwritten shape representation for matching and recognition do not fulfill some or all of these requirements. Through this thesis we focus on the problem of learning to represent handwritten shapes aimed at retrieval and recognition tasks. Specifically, on the first part of the thesis, we focus on the general problem of representing handwritten shapes for classification and matching. We first present a novel shape descriptor based on a deformable grid that deals with large deformations by adapting to the shape and where the cells of the grid can be used to ex- tract different features. Then, we propose to use this descriptor to learn statistical models, based on the Active Appearance Model, that jointly learns the variability in structure and texture of a given shape class. Then, on the second part, we focus on a concrete application, the problem of word spotting, where the goal is to find all instances of a query word in a dataset of images. First, we address the segmentation-free problem and propose an unsupervised, sliding-window-based approach that achieves state-of-the-art results in two public datasets. Second, we address the more challenging multi-writer problem, where the variability in words exponentially increases. We describe an approach in which both word images and text strings are embedded in a common vectorial subspace, and where those that represent the same word are close together. This is achieved by a combination of label embedding and attributes learning, and a common subspace regression. This leads to a low- dimensional, unified representation of word images and strings, resulting in a method that allows one to perform either image and text searches, as well as image transcription, in a unified framework. We test our approach on four public datasets of both handwritten documents and natural images showing results comparable or better than the state-of-the-art on spotting and recognition tasks

Page generated in 0.0807 seconds