L'anàlisi de seqüències d'imatges on apareixen éssers humans permet desenvolupar múltiples aplicacions, però també comporta moltes dificultats. Aquest àmbit de recerca tan complexe s'anonema Human Sequence Evaluation (HSE). Un sistema HSE genèric transforma dades d'imatges en descripcions d'alt nivell, i viceversa. Per a assolir aquesta abstracció, descrivim una arquitectura modular per desenvolupar sistemes HSE, on cada mòdul es correspon amb un pas d'abstracció. Les contribucions de la investigació que es presenta a continuació s'emmarquen dins d'aquesta arquitectura. Per això s'estableix una taxonomia de moviment humà que guiï el disseny de models intermedis que permetin entendre els canvis produïts en una escena. Aquesta taxonomia inclou el concepte d'"acció", que es defineix com una seqüència predeterminada de postures humanes.En aquesta Tesi es proposa un nou model d'accions humanes que s'utilitza en aplicacions on es requereix representar el moviment humà. Les dades d'aprenentatge es corresponen amb postures humanes, on cada postura es defineix a partir d'un nou model del cos humà. Utilitzem moltes execucions d'una mateixa acció per construir un espai d'accions humanes, anomenat aSpace, on cada execució es representa mitjançant una corba paramètrica. Un cop calculada la mitjana de totes les execucions apreses, les postures més característiques de l'acció, anomenades key-frames, són seleccionades automàticament d'entre totes les postures que hi pertanyen. Els key-frames s'utilitzen per a construir el model final d'acció humana, anomenat p-action. El p-action és una corba que modelitza l'evolució temporal de la postura del cos durant l'execució prototípica d'una acció i s'utilitza per a implementar algorismes de reconeixement i síntesi d'accions humanes, així com per a analitzar execucions particulars d'accions. Així doncs, en primer lloc, describim un procediment de reconeixement d'accions humanes utilitzant els key-frames de cada model d'acció. En segon lloc, presentem un mètode per a realitzar la síntesi d'accions humanes. Donada únicament la durada de l'acció a sintetitzar, obtenim un moviment humà suau i realista. Per a això, el model p-action es descriu a partir de la longitud d'arc per tal d'assolir independència respecte a la velocitat d'execució. A més a més, la representació d'accions humanes permet modelitzar les postures que es corresponen a les transicions entre accions, sintetitzant així activitats. Per últim, establim un entorn de comparació per a analitzar les diferències entre execucions d'una mateixa acció. En concret, utilitzem l'aSpace per a establir una caracterització de l'estil de caminar a partir del gènere dels agents.Per a concloure aquesta Tesi, afrontem la tasca d'incloure el nostre model d'accions humanes dins de l'entorn de treball del HSE. Per a això, utilitzem els Situation Graph Trees (SGTs) per modelitzar el coneixement necessari que ens permet representar el comportament humà. Adaptant el nostre model d'acció dins de la metodologia SGT, aconseguim generar descripcions conceptuals sobre el comportament d'un agent a partir de la informació quantitativa que s'obté de seqüències d'imatges. Finalment, exemplifiquem com obtenir una descripció del comportament humà dins d'una escena, així com la creació de comportaments sintètics per a agents virtuals. / The analysis of image sequences involving human agents allows to develop multiple applications, but it implies also lots of difficulties. This challenging domain is referred here as Human Sequence Evaluation (HSE). A generic HSE system transforms image data into conceptual descriptions, and vice versa. This abstraction process is addressed by describing the HSE framework as a modular scheme, each module concerned to a specific task domain. The contributions of this investigation are discussed within this framework, and a human motion taxonomy is established to reflect the minimal abstraction steps required for HSE. This taxonomy includes the "action" term which denotes a learnt sequence of human postures.This Thesis proposes a novel human action model used in different applications which require a representation for human movements. Several performances of a given action constitute the training data which is represented as a sequence of human postures. The learning postures are described using a novel human body model, and they are used to build a human action space, called aSpace, within which each human performance is represented as a parametric manifold. As each manifold is parameterized by the (normalized) temporal variation of the posture, the mean performance can be computed. Subsequently, the most characteristic postures for such an action, called key-frames, are selected automatically from the postures belonging to the mean performance. Key-frames are used to build the human action model, called p-action. A p-action represents the time evolution of the human body posture during the prototypical performance of a particular action, and is exploited to perform human action recognition and synthesis, and performance analysis. Firstly, we describe a human action recognition procedure by considering the key-frame set of each action model. Secondly, an algorithm for human action synthesis is presented. Realistic and smooth human motion is generated given only the temporal duration of the synthesized action. For this purpose, p-actions are parameterized by arc-length to achieve invariance to speed. Moreover, our proposed model for human actions is enhanced to represent postures corresponding to action transitions, thus allowing to synthesize human activities. Lastly, a comparison framework is established to analyse the differences between performances of the same action. Specifically, the aSpace representation is used to derive a proper characterization of the walking style in terms of the gender of the walker.To conclude this investigation, we confront the task of embedding our human action model within the HSE framework. For this purpose, Situation Graph Trees (SGTs) are used to model the knowledge required for human activity and behavior representation. By adapting our action model to the SGT methodology, we derive semantic primitives based on the quantitative information obtained from image sequences, and we also generate synthetic sequences based on the conceptual information embedded in activity and behavior models. We show examples of SGTs which infer the behavior of actors within a scene, and which generate synthetic behavior for virtual human agents.
Identifer | oai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/3048 |
Date | 29 October 2004 |
Creators | Gonzàlez i Sabaté, Jordi |
Contributors | Roca i Marvà, Francesc Xavier, Varona Gómez, Javier, Universitat Autònoma de Barcelona. Departament d'Informàtica |
Publisher | Universitat Autònoma de Barcelona |
Source Sets | Universitat Autònoma de Barcelona |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs., info:eu-repo/semantics/openAccess |
Page generated in 0.0026 seconds