Return to search

Modelos de Selección de Atributos para Support Vector Machines

Doctor de Sistemas de Ingeniería / Recientemente los datos se han incrementado en todas las áreas del conocimiento, tanto en el
número de instancias como en el de atributos. Bases de datos actuales pueden contar con decenas
e incluso cientos de miles de variables con un alto grado de información tanto irrelevante como
redundante. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de
datos en términos de escalabilidad y rendimiento. Dentro de las áreas de investigación en selección
de atributos se incluyen el análisis de chips de ADN, procesamiento de documentos provenientes
de internet y modelos de administración de riesgo en el sector financiero. El objetivo de esta tarea
es triple: mejorar el desempeño predictivo de los modelos, implementar soluciones más rápidas y
menos costosas, y proveer de un mejor entendimiento del proceso subyacente que generó los datos.
Dentro de las técnicas de minería de datos, el método llamado Support Vector Machines (SVMs)
ha ganado popularidad gracias a su capacidad de generalización frente a nuevos objetos y de construir
complejas funciones no lineales. Estas características permiten obtener mejores resultados que
otros métodos predictivos. Sin embargo, una limitación de este método es que no está diseñado para
identificar los atributos importantes para construir la regla discriminante. El presente trabajo tiene
como objetivo desarrollar técnicas que permitan incorporar la selección de atributos en la formulación
de SVMs no lineal, aportando eficiencia y comprensibilidad al método. Se desarrollaron dos
metodologías: un algoritmo wrapper (HO-SVM) que utiliza el número de errores en un conjunto
de validación como medida para decidir qué atributo eliminar en cada iteración, y un método
embedded (KP-SVM) que optimiza la forma de un kernel Gaussiano no isotrópico, penalizando la
utilización de atributos en la función de clasificación.
Los algoritmos propuestos fueron probados en bases de datos de de diversa dimensionalidad,
que van desde decenas a miles de atributos, y en problemas reales de asignación de créditos para
entidades financieras nacionales. De los resultados se obtiene que SVMs no lineal con kernel Gaussiano
muestra un mejor desempeño que con las funciones de kernel lineal y polinomial. Asimismo,
los métodos de selección de atributos propuestos permiten mantener o incluso mejorar el desempeño
predictivo de SVMs no lineal, logrando además una reducción significativa en la utilización de
atributos. Para las bases de mayor dimensionalidad se reduce de miles a decenas de atributos seleccionados,
logrando un desempeño predictivo significativamente mejor que los enfoques alternativos
de selección de atributos para SVMs. Se concluye que los enfoques presentados representan la alternativa
más efectiva dentro de las estudiadas para resolver el problema de selección de atributos en
modelos de aprendizaje computacional. Como trabajo futuro se propone adaptar las metodologías
propuestas para problemas con desbalance de clases, donde se requiere una evaluación distinta del
desempeño del modelo considerando costos por error de clasificación asimétricos, una problemática
común en aplicaciones como detección de fuga y riesgo crediticio.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/102533
Date January 2011
CreatorsMaldonado Alarcón, Sebastián Alejandro
ContributorsWeber Haas, Richard, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Industrial, Carrizosa P., Emilio, Gouet Bañares, Raúl, Montoya Moreira, Ricardo, Soto A., Álvaro
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0027 seconds