Los sistemas de reconocimiento biométrico utilizan ciertas características humanas como la voz, los rasgos faciales, la huella dactilar, el iris o la geometría de la mano para identificar a un individuo o verificar su identidad. Dichos sistemas se han desarrollado de forma individual para cada una de estas modalidades biométricas hasta llegar a obtener unos niveles notables de rendimiento.
Los sistemas biométricos multimodales combinan diversas modalidades en un sistema de reconocimiento único. La fusión multimodal permite mejorar los resultados obtenidos por una sola característica biométrica y hacen el sistema más robusto a ruidos e interferencias y más resistente a posibles ataques. La fusión se puede realizar a nivel de las señales adquiridas por los distintos sensores, de los parámetros obtenidos para cada modalidad, de las puntuaciones proporcionadas por expertos unimodales o de la decisión tomada por dichos expertos.
En la fusión a nivel de parámetros o puntuaciones es necesario homogeneizar las características provenientes de las diferentes modalidades biométricas de manera previa al proceso de fusión. A este proceso de homogeneización se le denomina normalización y se ha demostrado determinante en la obtención de buenos resultados de reconocimiento en los sistemas multimodales.
En esta tesis, se presentan diversos métodos de normalización que modifican la estadística de parámetros o puntuaciones. En primer lugar, se propone la normalización de la media y la varianza de las puntuaciones unimodales por medio de transformaciones afines que tienen en cuenta las estadísticas separadas de las puntuaciones de clientes e impostores. En este ámbito se presenta la normalización conjunta de medias, que iguala las medias de las puntuaciones de clientes e impostores para todas las modalidades biométricas.
También se han propuesto técnicas que minimizan la suma de las varianzas de las puntuaciones multimodales de clientes e impostores. Estas técnicas han obtenido buenos resultados en un sistema bimodal de fusión de puntuaciones de espectro de voz e imágenes faciales y se ha demostrado que una reducción de las varianzas multimodales puede comportar un mejor resultado de reconocimiento.
Por otro lado, se ha utilizado la ecualización de histograma, un método ampliamente utilizado en el tratamiento de imágenes, como técnica de normalización. Para ello, se han ecualizado los histogramas de las características unimodales sobre diversas funciones de referencia. En primer lugar, se ha utilizado el histograma de las puntuaciones de una de las modalidades biométricas como referencia en el proceso de ecualización. Esta técnica se ha mostrado especialmente efectiva al combinarla con métodos de fusión basados en la ponderación de las puntuaciones unimodales.
En una segunda aproximación, se han ecualizado las características biométricas a funciones previamente establecidas, en concreto, a una gaussiana y a una doble gaussiana. La ecualización a gaussiana ha obtenido buenos resultados como normalización en sistemas de fusión de parámetros. La ecualización de doble gaussiana se ha diseñado específicamente para la normalización de puntuaciones. Las dos gaussianas representan los lóbulos de las puntuaciones de clientes e impostores que se pueden observar en los histogramas unimodales. Se han probado diferentes variantes para determinar las varianzas de dichas gaussianas.
Las técnicas de normalización estadística presentadas en esta tesis se han probado utilizando diferentes estrategias y técnicas para la fusión, tanto para bases de datos quiméricas como para una base de datos multimodal. Además, la fusión se ha realizado a diferentes niveles, en concreto, a nivel de puntuaciones para diferentes escenarios multimodales incluyendo características de espectro voz, prosodia y caras, y a los niveles de parámetros, puntuaciones y decisión en el entorno del proyecto Agatha.
Identifer | oai:union.ndltd.org:TDX_UPC/oai:www.tdx.cat:10803/22662 |
Date | 17 March 2011 |
Creators | Ejarque Monserrate, Pascual |
Contributors | Hernando Pericás, Francisco Javier, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
Publisher | Universitat Politècnica de Catalunya |
Source Sets | Universitat Politècnica de Catalunya |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | 151 p., application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | info:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs. |
Page generated in 0.0029 seconds