Spelling suggestions: "subject:"tecnologia"" "subject:"atecnologia""
131 |
Looking at Faces: Detection, Tracking and Pose EstimationAl Haj, Murad 22 February 2013 (has links)
Els éssers humans podem percebre molt fàcilment les cares, les podem seguir en l’espai i temps, així com descodificar el seu contingut, com la seva postura, identitat o expressió. No obstant això, tot i moltes dècades d’investigació per desenvolupar un sistema amb percepció automàtica de cares, segueix sent difícil d’aconseguir una solució completa en àrees com la detecció de cares, el reconeixement de l’expressió facial, la estimació de la posició o el reconeixement de la cara. Això és degut a que la percepció facial automàtica abasta moltes àrees importants i difícils de la visió per computador: les aplicacions finals abasten una gamma molt àmplia com la vídeo vigilància, interacció humà-ordinador, la indexació i recuperació del contingut d’imatges, la identificació biomètrica , la codificació de vídeo i el reconeixement de l’edat i / o sexe. En particular, aquesta tesi està dedicada a tres grans problemes en la percepció automàtica de cares: la detecció de rostres, el seguiment de cares i l’estimació de la posició facial.
En el camp de la detecció de rostres, es presenta un model que utilitza múltiples heurístiques senzilles ad-hoc basades en píxels per detectar les regions de la imatge corresponents a pell humana. A més, s’han estudiat diferents espais de color per determinar si hi ha alguna transformació d’espai de color que pugui millorar la detecció del color de la pell. Els resultats experimentals mostren que la separabilitat no augmenta gaire en altres espais de color en comparació amb l’obtinguda en l’espai RGB. A partir del millor espai de color trobat, s’ha dissenyat un detector de cares capaç de generalitzar amb èxit en diferentes escenes.
Com a segona aportació, s’ha desenvolupat un algorisme per al seguiment robust i precís de la cara, dins d’un marc unificat que combina l’estimació dels paràmetres facials amb el control d’una càmera activa, per al seguiment de cares mitjançant una càmera Pa- Tilt-Zoom. Un filtre de Kalman estès permet estimar conjuntament les coordenades món dels objectes i la posició de la càmera. La sortida s’utilitza per accionar un controlador PID per tal de realitzar un seguiment reactiu del rostre, generant les accions de control correctes no només per mantenir un zoom-in a la cara per maximitzar la mida, sinó també per poder allunyar i reduir el risc de perdre l’objectiu. Encara que aquest treball està principalment motivat per fer un seguiment de cares, es pot aplicar fàcilment com ajuda d’un detector d’objectes per rastrejar una escena amb una càmera activa. L’aplicabilitat del mètode s’ha demostrat tant en entorns simulats com a escenaris reals.
S’ha dedicat l’última i més important part d’aquesta tesi a l’estimació de la posició del cap. En la majoria de treballs previs per a l’estimació de la posició del cap, s’especifiquen les cares manualment. Per tant, els resultats detallats no tenen en compte una possible desalineació de la cara, encara que tant en regressió com en classificació, els algoritmes són generalment sensibles a un error en localització: si l’objecte no està ben alineat amb el model après, la comparació entre les característiques de l’objecte en la imatge i les del model condueix a errors. En aquest últim capítol, es proposa un mètode basat en regressió per mínims quadrats parcials per estimar la posició i a més resoldre simultàniament l’alineació de la cara. Les contribucions en aquesta part són de dos tipus: 1) es mostra que el mètode proposat assoleix millors resultats que l’estat de l’art i 2) es desenvolupa una tècnica per reduir la desalineació basat en factors PLS que milloren l’aprenentatge basat en múltiples instàncies sense la necessitat de tornar a aprendre o d’haver d’incloure mostres mal alineades, ambdós pasos normalment necessaris en l’aprenentatge basat en múltiples instàncies. / Los seres humanos pueden percibir muy fácilmente las caras, las pueden seguir en el espacio y tiempo, así como decodificar su contenido, como su postura, identidad y expresión. Sin embargo, a pesar de muchas décadas de investigación para desarrollar un sistema con percepción automática de caras, una solución completa sigue siendo difícil de alcanzar en áreas como la detección de caras, el reconocimiento de la expresión facial, la estimación de la posición o el reconocimiento del rostro. Esto es debido a que la percepción facial automática involucra muchas áreas importantes y difíciles de la visión por computador, cuyas aplicaciones finales abarcan una gama muy amplia como la video vigilancia, interacción humano-computadora, la indexación y recuperación del contenido de imágenes, la identificación biométrica, la codificación de vídeo y el reconocimiento de la edad y/o sexo. En particular, esta tesis está dedicada a tres grandes problemas en la percepción automática de caras: la detección de rostros, el seguimiento de caras y la estimación de la posición facial.
En el campo de la detección de rostros, se presenta un modelo que utiliza múltiples heurísticas sencillas ad-hoc basadas en píxeles para detectar las regiones de la imagen correspondientes a piel humana. Además, se han estudiado diferentes espacios de color para determinar si existe alguna transformación de espacio de color que puede mejorar la detección del color de la piel. Los resultados experimentales muestran que la separabilidad no aumenta demasiado en otros espacios de color en comparación con la obtenida en el espacio RGB. A partir del mejor espacio de color, se ha diseñado un detector de caras capaz de generalizar en diferentes escenarios con éxito.
Como segunda aportación, se ha desarrollado un algoritmo para el seguimiento robusto y preciso de la cara, dentro de un marco unificado que combina la estimación de los parámetros faciales con el control de una cámara activa, para el seguimiento de caras mediante una cámara Pan-Tilt-Zoom. Un filtro de Kalman extendido permite estimar conjuntamente las coordenadas mundo de los objetos así como la posición de la cámara. La salida se utiliza para accionar un controlador PID con el fin de realizar un seguimiento reactivo del rostro, generando las acciones de control correctas no solo para mantener un zoom-in en la cara para maximizar el tamaño, sino también para poder alejarse y reducir el riesgo de perder el objetivo. Aunque este trabajo está principalmente motivado para realizar un seguimiento de caras, se puede aplicar fácilmente como ayuda de un detector de objetos para rastrear una escena con una cámara activa. La aplicabilidad del método se ha demostrado tanto en entornos simulados como en escenarios reales.
Se ha dedicado la última y más importante parte de esta tesis a la estimación de la postura de la cabeza. En la mayoría de trabajos previos para la estimación de la posición de la cabeza, se especifica manualmente las caras. Por tanto, los resultados detallados no tienen en cuenta una posible desalineación de la cara, aunque tanto en regresión como en clasificación, los algoritmos son generalmente sensibles a este error en localización: si el objeto no está bien alineado con el modelo aprendido, la comparación entre las características del objeto en la imagen y las del modelo conduce a errores. En este último capítulo, se propone un método basado en regresión por mínimos cuadrados parciales para estimar la postura y además resolver la alineación de la cara simultáneamente. Las contribuciones en esta parte son de dos tipos: 1) se muestra que el método propuesto alcanza mejores resultados que el estado del arte y 2) se desarrolla una técnica para reducir la desalineación basado en factores PLS que mejoran el aprendizaje basado en múltiples instancias sin la necesidad de re-aprender o tener que incluir muestras mal alineadas, ambos normalmente necesarios en el aprendizaje basado en múltiples instancias. / Humans can effortlessly perceive faces, follow them over space and time, and decode their rich content, such as pose, identity and expression. However, despite many decades of research on automatic facial perception in areas like face detection, expression recognition, pose estimation and face recognition, and despite many successes, a complete solution remains elusive. Automatic facial perception encompasses many important and challenging areas of computer vision and its applications span a very wide range; these applications include video surveillance, human-computer interaction, content-based image retrieval, biometric identification, video coding and age/gender recognition. This thesis is dedicated to three problems in automatic face perception, namely face detection, face tracking and pose estimation.
In face detection, an initial simple model is presented that uses pixel-based heuristics to segment skin locations and hand-crafted rules to return the locations of the faces present in the image. Different colorspaces are studied to judge whether a colorspace transformation can aid skin color detection. Experimental results show that the separability does not increase in other colorspaces when compared to the RGB space. The output of this study is used in the design of a more complex face detector that is able to successfully generalize to different scenarios.
In face tracking, we present a framework that combines estimation and control in a joint scheme to track a face with a single pan-tilt-zoom camera. An extended Kalman filter is used to jointly estimate the object world-coordinates and the camera position. The output of the filter is used to drive a PID controller in order to reactively track a face, taking correct decisions when to zoom-in on the face to maximize the size and when to zoom-out to reduce the risk of losing the target. While this work is mainly motivated by tracking faces, it can be easily applied atop of any detector to track different objects. The applicability of this method is demonstrated on simulated as well as real-life scenarios.
The last and most important part of this thesis is dedicate to monocular head pose estimation. In most prior work on heads pose estimation, the positions of the faces on which the pose is to be estimated are specified manually. Therefore, the results are reported without studying the effect of misalignment. Regression, as well as classification, algorithms are generally sensitive to localization error. If the object is not accurately registered with the learned model, the comparison between the object features and the model features leads to errors. In this chapter, we propose a method based on partial least squares regression to estimate pose and solve the alignment problem simultaneously. The contributions of this part are two-fold: 1) we show that the proposed method achieves better than state-of-the-art results on the estimation problem and 2) we develop a technique to reduce misalignment based on the learned PLS factors that outperform multiple instance learning (MIL) without the need for any re-training or the inclusion of misaligned samples in the training process, as normally done in MIL.
|
132 |
Estrategias de control para sistemas bilineales aplicadas a los convertidores de potencia DD-DCGarcía Esteban, Mauricio 16 March 2001 (has links)
En este trabajo se presenta, por medio del procedimiento sistemático de selección, definición y adecuación de estrategias generales del control no--lineal, seis diferentes algoritmos propuestos que permiten efectuar el análisis y diseño del control retroalimentado para la regulación de los circuitos convertidores DC--DC, y sus modelos derivados, atendiendo a sus características intrínsecas de estructuras dinámicas no--lineales, con parámetros de valores inciertos y además de presentar, respuesta de fase no--mínima en la regulación directa del voltaje de salida. Proceso que dio como resultado diversos aportes teóricos en la línea de investigación de los convertidores DC--DC, y del control no--lineal.Al realizar al análisis del sistema y diseño del control, de los modelos promedio obtenidos vía PWM (ver capítulo II), existe un aporte con las siguientes estrategias adaptables en línea: Primero, para la regulación directa del voltaje de salida, se combina el método del vector sobreparametrizado, con la propuesta necesaria de realizar el desarrollo de reinicios en el controlador sobre un ajuste "seudo--deslizante". Segundo, se efectúa la regulación indirecta del voltaje de salida con el método de diseño del control denominado "salto atrás" (backstepping), aportando una nueva Forma Canónica de control generada a partir del sistema transformado de imperfecciones en variables de fase generalizadas, definida al linealizar el sistema. Ambas estrategias permiten el ajuste de los parámetros constantes pero inciertos en el modelo del controlador, con la característica de estar desarrollados sobre la base de una linealización nominalmente exacta.Igualmente se analiza, demuestra y se aporta el hecho que los modelos de estado promedio, o modelados de frecuencia de conmutación infinita, de los circuitos convertidores de corriente continua, coinciden con los que se obtienen en este trabajo con técnicas que describen a los sistemas Euler--Lagrange. A partir de estos modelos se aporta una metodología para llevar ha cabo la regulación indirecta del voltaje de salida en los circuitos convertidores. Posteriormente, nuevamente existe una aportación al realizar la estrategia de diseño de controladores adaptativos basados en pasividad he inclusive se extiende la metodología para proponer un algoritmo de control adaptable que solvente la estabilización en una versión de tres convertidores "boost" en cascada. Ambas estrategias aprovechan las restricciones físicas del sistema, y en particular sus propiedades energéticas. Alternativamente se innova al analizar y diseñar el sistema de control para la estabilización y seguimiento de señales de los convertidores derivados, sobre la base de modelos en tiempo discreto sustentados mediante una discretización exacta de la corriente muestreada en el inductor. / A variety of nonlinear feedback controllers, or duty ratio synthesizers, they are derived for the stabilization and reference signal tracking problems, strategies of regulation based in the stabilization of the average input current via the Pulse Width Modulation (PWM), in Dc to Dc power supplies, of the buck, boost and buck-boost types. First contribution, is that the adaptive controllers designed are Euler_Lagrange systems, and they correspond reasonably to a set of average Euler_Lagrange parameters. This procedure, generate useful connections of the associated pasivity based controllers with those of the differential flatness and sliding mode controllers. The second contribution, rather different a adaptive feedback strategy is adopted by resorting to an approach inspired by adaptive backstepping controller design methodology. Finally an exact nonlinear model in discrete time is derived for the dc to dc converters, and stabilization problem are solved on the basis of the steady state considerations about the input current "ripple". Through computer simulations, all of the feedback controllers proposed, they showed robustness with respect to unmodelled stochastic perturbation inputs affecting the value of the external voltage source.
|
133 |
Illumination and Object Reflectance ModelingBeigpour, Shida 05 April 2013 (has links)
El modelado de la reflectancia de las superficies es una clave importante para la comprensión de escenas. Un modelo de reflectancia preciso, basado en las leyes de la física, nos permite alcanzar resultados realísticos y físicamente plausibles. Además, el uso de tal modelo nos permite establecer un conocimiento más profundo acerca de la interacción de la luz con las superficies de los objetos, y resulta crucial para una variedad de aplicaciones de visión por computador. Debido a la alta complejidad de los modelos de reflectancia, la gran mayoría de las aplicaciones existentes de visión por computador basan sus métodos en suposiciones simplificadoras, tales como la reflectancia lambertiana o la iluminación uniforme para ser capaz de resolver sus problemas.
Sin embargo, en escenas del mundo real, los objetos tienden a exhibir reflexiones más complejas (difusas y especulares), y además se ven afectados por las características y la cromaticidad de los iluminantes. En esta tesis, se incorpora un modelo de reflexión más realista para aplicaciones de visión por computador.
Para abordar tal fenómeno físico complejo, extendemos los modelos de reflectancia de los objetos del estado-del-arte mediante la introducción de un Modelo de Reflexión Dicromático Multi-Iluminante (MIDR). Usando MIDR somos capaces de modelar y descomponer la reflectancia de un objeto con especularidades complejas bajo múltiples iluminantes que presentan sombras e interreflexiones. Se demuestra que este modelo nos permite realizar una recolorización realista de los objetos iluminados por luces de colores y múltiples iluminantes.
Además se propone un método "local" de estimación del iluminante para modelar las escenas con iluminación no uniforme (por ejemplo, una escena al aire libre con un cielo azul y un sol amarillo, una escena interior con iluminación combinada con la iluminación al aire libre a través de una ventana, o cualquier otro caso en el que dos o más luces con diferentes colores iluminan diferentes partes de la escena). El método propuesto aprovecha un modelo probabilístico basado en grafos y resuelve el problema rededefiniendo la estimación como un problema de minimización de energía. Este método nos proporciona estimaciones locales del iluminante que mejoran en gran medida a los métodos del estado-del-arte en constancia de color.
Por otra parte, hemos capturado nuestro propia base de datos multi-iluminante, que consiste de escenas complejas y condiciones de iluminación al aire libre o de laboratorio. Con ésta se demuestra la mejora lograda usando nuestro método con respecto a los métodos del estado-del-arte para la estimación automática del iluminante local.
Se demuestra que tener un modelo más realista y preciso de la iluminación de la escena y la reflectancia de los objetos, mejora en gran medida la calidad en muchas tareas de visión por ordenador y gráficos por computador. Mostramos ejemplos de mejora en el balance automático de blanco, reiluminación de escenas y en la recolorización de objetos. La teoría propuesta se puede emplear también para mejorar la denominación automática de colores, la detección de objetos, el reconocimiento y la segmentación, que están entre las tendencias más populares de la visión por computador. / Surface reflectance modeling is an important key to scene understanding. An accurate reflectance model which is based on the laws of physics allows us to achieve realistic and physically plausible results. Using such model, a more profound knowledge about the interaction of light with objects surfaces can be established which proves crucial to variety of computer vision application. Due to high complexity of the reflectance model, the vast majority of the existing computer vision applications base their methods on simplifying assumptions such as Lambertian reflectance or uniform illumination to be able to solve their problem.
However, in real world scenes, objects tend to exhibit more complex reflections (diffuse and specular) and are furthermore affected by the characteristics and chromaticity of the illuminants. In this thesis, we incorporate a more realistic reflection model in computer vision applications.
To address such complex physical phenomenon, we extend the state-of-the-art object reflectance models by introducing a Multi-Illuminant Dichromatic Reflection model (MIDR). Using MIDR we are able to model and decompose the reflectance of an object with complex specularities under multiple illuminants presenting shadows and inter-reflections. We show that this permits us to perform realistic re-coloring of objects lit by colored lights, and multiple illuminants.
Furthermore, we propose a “local” illuminant estimation method in order to model the scenes with non-uniform illumination (e.g., an outdoor scene with a blue sky and a yellow sun, a scene with indoor lighting combined with outdoor lighting through a window, or any other case in which two or more lights with distinct colors illuminating different parts of the scene). The proposed method takes advantage of a probabilistic and graph-based model and solves the problem by re-defining the estimation problem as an energy minimization. This method provides us with local illuminant estimations which improve greatly over state-of-the-art color constancy methods.
Moreover, we captured our own multi-illuminant dataset which consists of complex scenes and illumination conditions both outdoor and in laboratory conditions. We show improvement achieved using our method over state-of-the-art methods for local illuminant estimation.
We demonstrate that having a more realistic and accurate model of the scene illumination and object reflectance greatly improves the quality of many computer vision and computer graphics tasks. We show examples of improved automatic white balance, scene relighting, and object re-coloring. The proposed theory can be employed in order to improve color naming, object detection, recognition, and segmentation which are among the most popular computer vision trends.
|
134 |
Case-based diagnosis of batch processes based on latent structuresBerjaga Moliné, Xavier 14 November 2013 (has links)
The aim of this thesis is to present a methodological approach for the automatic monitoring of batch processes based on a combination of statistical models and machine learning methods. The former is used to model the process based on the relationships among the different monitored variables throughout time, while the latter is used to improve the diagnosis capabilities of the system. Statistical methods do not relate faulty observations with its root cause (they only list the subset of variables whose behaviour has been altered) and they lack of learning capabilities. By using case-based reasoning (CBR) for the diagnosis, faulty observations can be associated with more significant information (like causes). Statistical models also provide a new representation of the observations, on an orthogonal basis, that improves the use of the distance-based approaches of the CBR, giving a better performance / L'objectiu d'aquesta tesi és la de presentar un mètode automàtic per al monitoratge dels processos per lots basat en la combinació de models estadístics i mètodes d'aprenentatge automàtic. El primer s'utilitza per modelar el procés mitjançant les relacions més significatives entre les variables mesurades al llarg del temps, mentre que el segon s'utilitza per millorar la capacitat de diagnosi del sistema. Els mètodes estadístics no relacionen una observació amb falla amb l'origen d'aquesta al mateix temps que no tenen capacitat d'aprenentatge. El fet d'utilitzar raonament basat en casos per a la diagnosi permet relacionar les observacions amb falla amb informació més significativa (com seria la causa de la falla). Els models estadístics també proporcionen una nova representació de les observacions, en una base ortogonal, que facilita l'aplicabilitat dels mètodes basats en distàncies del raonament basat en casos, tot millorant-ne els resultats obtinguts
|
135 |
A Global Approach to Vision-Based Pedestrian Detection for Advanced Driver Assistance SystemsGerónimo Gómez, David 12 February 2010 (has links)
A començaments del segle XXI, els accidents de tràfic han esdevingut un greu problema no només pels països desenvolupats sino també pels emergents. Com en altres àrees científiques on la Intel·ligència Artificial s'ha transformat en un actor principal, els sistemes avançats d'assistència al conductor, i concretament els sistemes de protecció de vianants basats en Visió per Computador, han esdevingut una important línia d'investigació adressada a millorar la seguretat dels vianants. Tanmateix, el repte és d'una complexitat considerable donada la variabilitat dels humans (p.e., roba, mida, relació d'aspecte, forma, etc.), la naturalesa dinàmica dels sistemes d'abord i els entorns no estructurats en moviment que representen els escenaris urbans. A més, els requeriments de rendiment son rigorosos en termes de cost computacional i d'indexos de detecció. En aquesta tesi, en comptes de centrar-nos en millorar tasques específiques com sol ser freqüent a la literatura, presentem una aproximació global al problema. Aquesta visió global comença per la proposta d'una arquitectura genèrica pensada per a ser utilitzada com a marc tant per a la revisió de la literatura com per a organitzar les tècniques estudiades al llarg de la tesi. A continuació enfoquem la recerca en tasques com la segmentació dels objectes en primer pla, la classificació d'objectes i el refinament tot seguint una visió general i explorant aspectes que normalment no son analitzats. A l'hora de fer els experiments, també presentem una nova base de dades que consisteix en tres subconjunts, cadascun adressat a l'evaluació de les diferents tasques del sistema. Els resultats presentats en aquesta tesi no només finalitzen amb la proposta d'un sistema de detecció de vianants sino que van un pas més enllà indicant noves idees, formalitzant algoritmes proposats i ja existents, introduïnt noves tècniques i evaluant el seu rendiment, el qual esperem que aporti nous fonaments per a la futura investigació en aquesta àrea. / At the beginning of the 21th century, traffic accidents have become a major problem not only for developed countries but also for emerging ones. As in other scientific areas in which Artificial Intelligence is becoming a key actor, advanced driver assistance systems, and concretely pedestrian protection systems based on Computer Vision, are becoming a strong topic of research aimed at improving the safety of pedestrians. However, the challenge is of considerable complexity due to the varying appearance of humans (e.g., clothes, size, aspect ratio, shape, etc.), the dynamic nature of on-board systems and the unstructured moving environments that urban scenarios represent. In addition, the required performance is demanding both in terms of computational time and detection rates. In this thesis, instead of focusing on improving specific tasks as it is frequent in the literature, we present a global approach to the problem. Such a global overview starts by the proposal of a generic architecture to be used as a framework both to review the literature and to organize the studied techniques along the thesis. We then focus the research on tasks such as foreground segmentation, object classification and refinement following a general viewpoint and exploring aspects that are not usually analyzed. In order to perform the experiments, we also present a novel pedestrian dataset that consists of three subsets, each one addressed to the evaluation of a different specific task in the system. The results presented in this thesis not only end with a proposal of a pedestrian detection system but also go one step beyond by pointing out new insights, formalizing existing and proposed algorithms, introducing new techniques and evaluating their performance, which we hope will provide new foundations for future research in the area.
|
136 |
Real-time multimedia on off-the-shelf operating systems: from timeliness dataflow models to pattern languagesArumí Albó, Pau 30 June 2009 (has links)
Els sistemes multimèdia basats en programari capaços de processar àudio, vídeo i gràfics a temps-real són omnipresents avui en dia. Els trobem no només a les estacions de treball de sobre-taula sinó també als dispositius ultra-lleugers com els telèfons mòbils. Degut a que la majoria de processament es realitza mitjançant programari, usant abstraccions del maquinari i els serveis oferts pel sistema operatiu i les piles de llibreries que hi ha per sota, el desenvolupament ràpid d'aplicacions esdevé possible. A més d'aquesta immediatesa i exibilitat (comparat amb les plataformes orientades al maquinari), aquests plataformes també ofereixen capacitats d'operar en temps-real amb uns límits de latència apropiats. Malgrat tot això, els experts en el domini dels multimèdia s'enfronten a un desafiament seriós: les funcionalitats i complexitat de les seves aplicacions creixen ràpidament; mentrestant, els requeriments de temps-real (com ara la baixa latència) i els estàndards de fiabilitat augmenten. La present tesi es centra en l'objectiu de proporcionar una caixa d'eines als experts en el domini que els permeti modelar i prototipar sistemes de processament multimèdia. Aquestes eines contenen plataformes i construccions que reecteixen els requeriments del domini i de l'aplicació, i no de propietats accidentals de la implementació (com ara la sincronització entre threads i manegament de buffers). En aquest context ataquem dos problemes diferents però relacionats:la manca de models de computació adequats pel processament de fluxos multimèdia en temps-real, i la manca d'abstraccions apropiades i mètodes sistemàtics de desenvolupament de programari que suportin els esmentats models. Existeixen molts models de computació orientats-a-l'actor i ofereixen millors abstraccions que les tècniques d'enginyeria del programari dominants, per construir sistemes multimèdia de temps-real. La família de les Process Networks i els models Dataflow basades en xarxes d'actors de processat del senyal interconnectats són els més adequats pel processament de fluxos continus. Aquests models permeten expressar els dissenys de forma propera al domini del problema (en comptes de centrar-se en detalls de la implementació), i possibiliten una millor modularització i composició jeràrquica del sistema. Això és possible perquè el model no sobreespecifica com els actors s'han d'executar, sinó que només imposa dependències de dades en un estil de llenguatge declaratiu. Aquests models admeten el processat multi-freqüència i, per tant, planificacions complexes de les execucions dels actors. Però tenen un problema: els models no incorporen el concepte de temps d'una forma útil i, en conseqüència, les planifiacions periòdiques no garanteixen un comportament de temps-real i de baixa latència. Aquesta dissertació soluciona aquesta limitació a base de descriure formalment un nou model que hem anomenat Time-Triggered Synchronous Dataflow (TTSDF). En aquest nou model les planificacions periòdiques són intercalades per vàries "activacions" temporalment-disparades (time-triggered) de forma que les entrades i sortides de la xarxa de processat poden ser servides de forma regular. El model TTSDF té la mateixa expressivitat (o, en altres paraules, té computabilitat equivalent) que el model Synchronous Dataow (SDF). Però a més, té l'avantatge que garanteix la operativitat en temps-real, amb mínima latència i absència de forats i des-sincronitzacions a la sortida. Finalment, permet el balancejat de la càrrega en temps d'execució entre diferents activacions de callbacks i la paralel·lització dels actors. Els models orientats-a-l'actor no són solucions directament aplicables; no són suficients per construir sistemes multimèdia amb una metodologia sistemàtica i pròpia d'una enginyeria. També afrontem aquest problema i, per solucionar-lo, proposem un catàleg de patrons de disseny específics del domini organitzats en un llenguatge de patrons. Aquest llenguatge de patrons permet el refús del disseny, posant una especial atenció al context en el qual el disseny-solució és aplicable, les forces enfrontades que necessita balancejar i les implicacions de la seva aplicació. Els patrons proposats es centren en com: organitzar diferents tipus de connexions entre els actors, transferir dades entre els actors, habilitar la comunicació dels humans amb l'enginy del dataflow, i finalment, prototipar de forma ràpida interfícies gràfiques d'usuari per sobre de l'enginy del dataflow, creant aplicacions completes i extensibles. Com a cas d'estudi, presentem un entorn de desenvolupament (framework) orientat-a-objectes (CLAM), i aplicacions específiques construïdes al seu damunt, que fan ús extensiu del model TTSDF i els patrons contribuïts en aquesta tesi. / Software-based multimedia systems that deal with real-time audio, video and graphics processing are pervasive today, not only in desktop workstations but also in ultra-light devices such as smart-phones. The fact that most of the processing is done in software, using the high-level hardware abstractions and services offered by the underlying operating systems and library stacks, enables for quick application development. Added to this exibility and immediacy (compared to hardware oriented platforms), such platforms also offer soft real-time capabilities with appropriate latency bounds. Nevertheless, experts in the multimedia domain face a serious challenge: the features and complexity of their applications are growing rapidly; meanwhile, real-time requirements (such as low latency) and reliability standards increase. This thesis focus on providing multimedia domain experts with workbench of tools they can use to model and prototype multimedia processing systems. Such tools contain platforms and constructs that reect the requirements of the domain and application, and not accidental properties of the implementation (such as thread synchronization and buffers management). In this context, we address two distinct but related problems: the lack of models of computation that can deal with continuous multimedia streams processing in real-time, and the lack of appropriate abstractions and systematic development methods that support such models. Many actor-oriented models of computation exist and they offer better abstractions than prevailing software engineering techniques (such as object-orientation) for building real-time multimedia systems. The family of Process Networks and Dataow models based on networks of connected processing actors are the most suited for continuous stream processing. Such models allow to express designs close to the problem domain (instead of focusing in implementation details such as threads synchronization), and enable better modularization and hierarchical composition. This is possible because the model does not over-specify how the actors must run, but only imposes data dependencies in a declarative language fashion. These models deal with multi-rate processing and hence complex periodic actor's execution schedulings. The problem is that the models do not incorporate the concept of time in a useful way and, hence, the periodic schedules do not guarantee real-time and low latency requirements. This dissertation overcomes this shortcoming by formally describing a new model that we named Time-Triggered Synchronous Dataow (TTSDF), whose periodic schedules can be interleaved by several time-triggered activations" so that inputs and outputs of the processing graph are regularly serviced. The TTSDF model has the same expressiveness (or equivalent computability) than the Synchronous Dataow (SDF) model, with the advantage that it guarantees minimum latency and absence of gaps and jitter in the output. Additionally, it enables run-time load balancing between callback activations and parallelization. Actor-oriented models are not off-the-shelf solutions and do not suffice for building multimedia systems in a systematic and engineering approach. We address this problem by proposing a catalog of domain-speciffic design patterns organized in a pattern language. This pattern language provides design reuse paying special attention to the context in which a design solution is applicable, the competing forces it needs to balance and the implications of its application. The proposed patterns focus on how to: organize different kinds of actors connections, transfer tokens between actors, enable human interaction with the dataow engine, and finally, rapid prototype user interfaces on top of the dataow engine, creating complete and extensible applications. As a case study, we present an object-oriented framework (CLAM), and speciffic applications built upon it, that makes extensive use of the contributed TTSDF model and patterns.
|
137 |
Modelos QSPR/QSAR/QSTR basados en sistemas neuronales cognitivosEspinosa Porragas, Gabriela 16 September 2002 (has links)
Un área sumamente interesante dentro del modelado molecular es el diseño de nuevos compuestos. Con sus propiedades definidas antes de ser sintetizados. Los métodos QSPR/QSAR han demostrado que las relaciones entre la estructura molecular y las propiedades físico químicas o actividades biológicas de los compuestos se pueden cuantificar matemáticamente a partir de parámetros estructurales simples. Las redes neuronales (ANN) constituyen una alternativa para el desarrollo de algoritmos predictivos aplicados en diversos campos como: análisis masivo de bases de datos, para subsanar los obstáculos derivados de la selección o la multicolinealidad de variables, así como la sensibilidad de los modelos a la presencia de ruido en los datos de entrada al sistema neuronal. En la mayoría de los casos, las redes neuronales han dado mejores resultados que los métodos de regresión multilineal (MLR), el análisis de componentes principales (PCA), o los métodos de mínimos cuadrados parciales (PLS) debido a la no linealidad inherente en los modelos de redes. En los últimos años el interés por los modelos QSPR/QSAR basados en redes neuronales se ha incrementado. La principal ventaja de los modelos de redes recae en el hecho que un modelo QSAR/QSPR puede desarrollarse sin especificar a priori la forma analítica del modelo. Las redes neuronales son especialmente útiles para establecer las complejas relaciones existentes entre la salida del modelo (propiedades físico químicas o biológicas) y la entrada del modelo (descriptores moleculares). Además, permiten clasificar los compuestos de acuerdo a sus descriptores moleculares y usar esta información para seleccionar el conjunto de índices capaz de caracterizar mejor al conjunto de moléculas. Los modelos QSPR basados en redes usan principalmente algoritmos del tipo backpropagation. Backpropagation es un sistema basado en un aprendizaje por minimización del error. Sin embargo, ya que los compuestos químicos pueden clasificarse en grupos de acuerdo a su similitud molecular, es factible usar un clasificador cognitivo como fuzzy ARTMAP para crear una representación simultánea de la estructura y de la propiedad objetivo. Este tipo de sistema cognitivo usa un aprendizaje competitivo, en el cual hay una activa búsqueda de la categoría o la hipótesis cuyos prototipos provean una mejor representación de los datos de entrada (estructura química).En el presente trabajo se propone y se estudia una metodología que integra dos sistemas cognitivos SOM y fuzzy ARTMAP para obtener modelos QSAR/QSPR. Los modelos estiman diferentes propiedades como las temperaturas de transición de fase (temperatura de ebullición, temperatura de fusión) y propiedades críticas (temperatura y presión), así como la actividad biológica de compuestos orgánicos diversos (indicadores de toxicidad). Dentro de este contexto, se comparan la selección de variables realizados por métodos tradicionales (PCA, o métodos combinatorios) con la realizada usando mapas auto-organizados (SOM).El conjunto de descriptores moleculares más factible se obtiene escogiendo un representante de cada categoría de índices, en particular aquel índice con la correlación más alta con respecto a la propiedad objetivo. El proceso continúa añadiendo índices en orden decreciente de correlación. Este proceso concluye cuando una medida de disimilitud entre mapas para los diferentes conjuntos de descriptores alcanza un valor mínimo, lo cual indica que el añadir descriptores adicionales no provee información complementaria a la clasificación de los compuestos estudiados. El conjunto de descriptores seleccionados se usa como vector de entrada a la red fuzzy ARTMAP modificada para poder predecir. Los modelos propuestos QSPR/QSAR para predecir propiedades tanto físico químicas como actividades biológicas predice mejor que los modelos obtenidos con métodos como backpropagation o métodos de contribución de grupos en los casos en los que se apliquen dichos métodos. / One of the most attractive applications of computer-aided techniques in molecular modeling stands on the possibility of assessing certain molecular properties before the molecule is synthesized. The field of Quantitative Structure Activity/Property Relationships (QSAR/QSPR) has demonstrated that the biological activity and the physical properties of a set of compounds can be mathematically related to some "simple" molecular structure parameters. Artificial neural network (ANN) approaches provide an alternative to established predictive algorithms for analyzing massive chemical databases, potentially overcoming obstacles arising from variable selection, multicollinearity, specification of important parameters, and sensitivy to erroneous values. In most instances, ANN's have proven to be better than MLR, PCA or PLS because of their ability to handle non-linear associations. In the last years there has been a growing interest in the application of neural networks to the development of QSAR/QSPR. The mayor advantage of ANN lies in the fact QSAR/QSPR can be developed without having to a priori specify an analytical form for the correlation model. The NN approach is especially suited for mapping complex non-linear relationships that exists between model output (physicochemical or biological properties) and input model (molecular descriptors). The NN approach could also be used to classify chemicals according to their chemical descriptors and used this information to select the most suitable indices capable of characterize the set of molecules. Existing neural networks based QSAR/QSPR for estimating properties of chemicals have relied primarily on backpropagation architecture. Backpropagation are an error based learning system in which adaptive weights are dynamically revised so as to minimize estimation errors of target values. However, since chemical compounds can be classified into various structural categories, it is also feasible to use cognitive classifiers such as fuzzy ARTMAP cognitive system, for unsupervised learning of categories, which represent structure and properties simultaneously. This class of neural networks uses a match-based learning, in that it actively searches for recognition categories or hypotheses whose prototype provides an acceptable match to input data. The current study have been proposed a new QSAR/QSPR fuzzy ARTMAP neural network based models for predicting diverse physical properties such as phase transition temperatures (boiling and melting points) and critical properties (temperature and pressure) and the biological activities (toxicity indicators) of diverse set of compounds. In addition, traditional pre-screening methods to determine de minimum set of inputs parameters have been compared with novel methodology based in self organized maps algorithms. The most suitable set of molecular descriptor was obtained by choosing a representative from each cluster, in particular the index that presented the highest correlation with the target variable, and additional indices afterwards in order of decreasing correlation. The selection process ended when a dissimilarity measure between the maps for the different sets of descriptors reached a minimum valued, indicating that the inclusion of more descriptors did not add supplementary information. The optimal subset of descriptors was finally used as input to a fuzzy ARTMAP architecture modified to effect predictive capabilities. The proposed QSPR/QSAR model predicted physicochemical or biological activities significantly better than backpropagation neural networks or traditional approaches such as group contribution methods when they applied.
|
138 |
Variational methods for exemplar-based image inpainting and gradient-domain video editingArias Martínez, Pablo 18 October 2013 (has links)
In this thesis we tackle two problems which deal with filling-in the information in a region of an image or a video, where the data is either missing or has to be replaced. These problems have applications in the context of image and video editing. The first is image inpainting, and aims at obtaining a visually plausible completion in a region in which data is missing due to damage or occlusion. The second problem concerns the propagation of an editing performed by a user in one or two reference frames of a video, throughout the rest of the video. Both problems are of theoretical interest since their analysis involves an understanding of the self-similarity in natural images and videos. At a high level, the common theme in both problems, is the exploitation and imposition of a model of redundancy (or
self-similarity) to fill-in missing parts of a signal. / En esta tesis consideramos dos problemas que tratan el completado de una
imagen o un video en una región en la que los datos o bien faltan (por
ejemplo porque han sido dañados) o bien tienen que ser sustituídos. Estos
problemas tienen aplicación en el contexto de edición de imagen y video. El
primero de estos problemas es el de inpainting de imágenes, cuyo objetivo
es dar una completación plausible en la región en la que faltan datos. El
segundo problema consiste en la propagación de una edición proporcionada
por un usuario en un cuadro de un video, a los demás cuadros. Además
de su aplicación práctica, ambos problemas son de interés teórico, ya que
su análisis requiere una compresión de la estructura de auto-similitud de
las imagenes y videos naturales. De hecho, a nivel conceptual ambos temas
tienen en común el cómo aprovechar e imponer la redundancia de una señal
para completar partes faltantes.
|
139 |
Disseny de hardware específic per a l'extracció de característiques i comparació d'empremtes dactilars.Cañellas Alberich, Nicolau 01 December 2006 (has links)
El mètode d'identificació mitjançant empremta dactilar és un dels més fiables que es coneixen i un seriós candidat a ser incorporat a les activitats diàries. En els darrers anys la biometria d'empremta dactilar s'ha anat acostant al gran públic i ja no és estranya la utilització de sistemes automàtics de verificació dactilar per a l'accés a certes instal·lacions.El mercat es dirigeix cap a un tipus de targetes personals que integren un sensor d'empremta dactilar junt a un dispositiu en el que es facin totes les etapes de l'algorisme biomètric. Dins d'aquest context, la tesi busca la integració de sistemes biomètrics y targetes intel·ligents amb l'objectiu d'implementar un "embedded security system" capaç d'evitar possibles usos fraudulents mitjançant la verificació de la identitat del titular a partir de la utilització de la biometria d'empremta dactilar.Tradicionalment, els algorismes utilitzats per a fer l'extracció de característiques d'empremtes dactilars es basen en la successiva aplicació de complexes funcions de processat d'imatge. El desenvolupament d'aquests algorismes es fa pensant en la correcta extracció de les característiques, però fins ara no s'ha pensat en una optimització del cost o de la portabilitat; els sistemes s'han desenvolupat sobre una plataforma amb un ordenador personal, o utilitzant un microprocessador d'elevades prestacions (i cost), o fins i tot fent servir un processador digital de senyal (DSP) específic.En el marc d'aquesta tesi s'ha desenvolupat un algorisme per a l'extracció de les característiques físiques de les empremtes dactilars; el processat, que es fa directament sobre la imatge de l'empremta en escala de grisos, no precisa de multiplicadors ni divisors, ni realitza operacions en coma flotant. Com que la correcta estimació de les direccions de les línies de l'empremta acostuma a ser la part més crítica, i computacionalment més costosa, dels algorismes d'extracció de característiques, també s'ha dissenyat un algorisme específic per a dur a terme aquesta operació.Amb la finalitat d'obtenir un sistema d'extracció en temps real apte per a ser implementat en microprocessadors de baix cost, s'ha fet el codisseny d'un sistema hardware - software. Així, s'han implementat els coprocessadors corresponents a la realització per hardware tant dels algorismes d'estimació de direcció com de la resta de itasques crítiques; aquestes s'han identificat analitzant el perfil d'execució dels algorismes dissenyats.El mètode d'estimació de la direcció que s'ha dissenyat incorpora una novadora optimització de càlcul, que s'adapta a les necessitats específiques de precisió i evita la realització d'operacions d'alt cost computacional. A la orientació calculada se li associa un valor numèric, indicatiu de la fiabilitat de l'estimació, que facilitarà la realització d'una fase prèvia de segmentació de l'empremta, un punt important en el procés d'extracció, i que, habitualment, s'ha estudiat de forma separada al procés d'extracció.Totes aquestes modificacions ens permetran fer un dispositiu electrònic (hardware + software) de dimensions petites, baix cost i alta qualitat en els resultats, tenint-se així la possibilitat d'utilitzar la identificació o l'autentificació d'empremtes dactilars en nous camps d'aplicació. / El método de identificación mediante huella dactilar es uno de los más fiables que se conocen y un serio candidato a ser incorporado a la vida cotidiana. En los últimos años la biometría de huella dactilar se ha ido acercando al gran público y ya no es extraña la utilización de sistemas automáticos de verificación dactilar para el acceso a algunas instalaciones.El mercado se encamina hacia un tipo de tarjetas personales que integren un sensor de huella dactilar junto a un dispositivo en el que se lleven a cabo todos los pasos del algoritmo biométrico. Dentro de este contexto, la tesis persigue la integración de sistemas biométricos y tarjetas inteligentes con el objetivo de implementar un "embedded security system" capaz de evitar posibles usos fraudulentos mediante la verificación de la identidad del titular a partir de la utilización de la biometría de huella dactilar.Tradicionalmente, los algoritmos utilizados para realizar la extracción de características de huellas dactilares se basan en la sucesiva aplicación de complicadas funciones de procesado de imagen. El desarrollo de estos algoritmos se realiza pensando en la correcta extracción de las características, pero hasta la fecha no se ha pensado en una optimización del coste o de la portabilidad; los sistemas se han desarrollado sobre una plataforma con un ordenador personal, o empleando un microprocesador de altas prestaciones (y coste), cuando no un procesador digital de señal (DSP) específico.En el marco de esta tesis se ha desarrollado un algoritmo para la extracción de las características físicas de las huellas dactilares; el procesado, que se realiza directamente sobre la imagen de la huella en escala de grises, no precisa de productos ni divisiones ni operaciones en coma flotante. Puesto que la correcta estimación de las direcciones de las líneas de la huella suele ser la parte más crítica, y computacionalmente más costosa, de los algoritmos de extracción de características, también se ha desarrollado un algoritmo específico para realizar esta operación.Con objeto de disponer de un sistema de extracción en tiempo real apto para ser implementado en microprocesadores de bajo coste, se ha realizado el codiseño de un sistema hardware - software. Así, se han implementado los coprocesadores correspondientes a la realización mediante hardware de los algoritmos de estimación de iiidirección así como del resto de tareas críticas; éstas se han identificado analizando el perfil de ejecución de los algoritmos diseñados.El método de estimación de la dirección diseñado incorpora una novedosa optimización de cálculo, que se adapta a las necesidades específicas de precisión y evita la realización de operaciones de elevado coste computacional. A la orientación calculada se le asocia un valor numérico, indicativo de la fiabilidad en la estimación, que va a facilitar la realización de una fase previa de segmentación de la huella, un punto importante en el proceso de extracción, y que, habitualmente, se ha venido estudiando de forma separada al proceso de extracción.Todas estas modificaciones nos permitirán realizar un dispositivo electrónico (hardware + software) de pequeñas dimensiones, bajo coste y alta calidad en los resultados, obteniendo así la posibilidad de la utilización de la identificación o autentificación de huellas dactilares en nuevos campos de aplicación. / Fingerprint-based biometrics is one of the more reliable identification methods, and a serious candidate for being used in the daily life. In recent years a lot of new devices incorporate fingerprint biometrics and it is not strange the utilization of automatic fingerprint identification systems for monitoring the access into restricted areas.The society is evolving towards a new kind of smart cards, joining a fingerprint sensor together with a device capable of performing all of the biometric identification steps. In this framework, the thesis focuses in the integration of biometric systems and smart cards; the target is the implementation of an embedded security system, based in fingerprint biometrics, in order to avoid fraudulent accesses by means of identity verification.Traditionally, the algorithms used in fingerprint features extraction have been based in the recursive iteration of complex image processing functions. These algorithms have been designed looking only for the correct feature extraction but, until now, there is not any algorithm designed bearing in mind a cost or a portability optimization; the systems have been developed over a personal computer based platform, or using a high feature (and cost) microprocessor, or over an specific digital signal processing (DSP) device.This work develops a new algorithm for the extraction of the fingerprint physical details (minutiae) directly from a grey scale image; the algorithm does not need any product or division and neither any floating point operation. As the correct estimation of the ridge lines direction usually becomes the most critical step, and computationally most expensive, of the minutiae extraction algorithms, it has also been developed a specific algorithm for this specific task.In order to develop an real-time automatic identification system, fitted to be implemented in low cost microprocessors, it has been carried out the co-design of a hardware - software system. So, the respective coprocessors have been designed: the one related to the hardware implementation of the ridge lines directions estimation and other dedicated to the rest of critical tasks; these have been identified executing the software version of the algorithm and analyzing execution profile.The ridge orientation estimation method introduces an original computing method, which is adapted to the specific precision needs and saves the use of high computational cost operations. A numerical value, indicative of the estimation reliability, is associated to the computed orientation. This value will be used to simplify the execution of a fingerprint segmentation step, previous to the feature extraction. Usually this step has been carried out as an independent part of the process with the consequent increase in the total computational cost.With the presented set of functions and algorithms, and their hardware counterparts (hardware software co-design), it is developed an electronic device with little size, low cost, and high quality results. As a result, the thesis brings new application fields for the personal identification based in fingerprint biometry.
|
140 |
From music similarity to music recommendation : computational approaches based on audio features and metadataBogdanov, Dmitry 06 September 2013 (has links)
Aquest treball es centra en el modelatge d'usuari per la recomanació musical i desenvolupa algoritmes per la comprensió automàtica i visualització de preferències musicals. Primer, es proposa un model d'usuari construït a partir d'un conjunt de peces musicals. En segon lloc, s'estudien mètodes d’estimació de similitud musical, treballant exclusivament en el contingut d'àudio. Es proposen noves mètriques basades en la informació tímbrica, temporal, tonal i semàntica. En tercer lloc, es proposen diversos mètodes de recomanació musical que utilitzen aquestes mètriques i que milloren amb un filtratge addicional basat en metadades. També es proposa un mètode senzill basat en metadades editorials. En quart lloc, es presenten els predictors de preferència rellevants a nivell acústic i semàntic. Finalment, es presenta un mètode de visualització de preferències que millora l'experiència d'usuari en sistemes de recomanació. / In this work we focus on user modeling for music recommendation and develop algorithms for computational understanding and visualization of music preferences. Firstly, we propose a user model starting from an explicit set of music tracks provided by the user as evidence of his/her preferences. Secondly, we study approaches to music similarity, working solely on audio content and propose a number of novel measures working with timbral, temporal, tonal, and semantic information about music. Thirdly, we propose distance-based and probabilistic recommendation approaches working with explicitly given preference examples. We employ content-based music similarity measures and propose filtering by metadata to improve results of purely content-based recommenders. Moreover, we propose a lightweight approach working exclusively on editorial metadata. Fourthly, we demonstrate important predictors of preference from both acoustical and semantic perspectives. Finally, we demonstrate a preference visualization approach which allows to enhance user experience in recommender systems.
|
Page generated in 0.0748 seconds