Spelling suggestions: "subject:"selección dde atributos"" "subject:"selección dee atributos""
1 |
Utilización de Support Vector Machines No Lineal y Selección de Atributos para Credit ScoringMaldonado Alarcón, Sebastián Alejandro January 2007 (has links)
No description available.
|
2 |
Clustering Difuso con Selección de AtributosBeca Cofre, Sebastián January 2007 (has links)
No description available.
|
3 |
Modelos de Selección de Atributos para Support Vector MachinesMaldonado Alarcón, Sebastián Alejandro January 2011 (has links)
Doctor de Sistemas de Ingeniería / Recientemente los datos se han incrementado en todas las áreas del conocimiento, tanto en el
número de instancias como en el de atributos. Bases de datos actuales pueden contar con decenas
e incluso cientos de miles de variables con un alto grado de información tanto irrelevante como
redundante. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de
datos en términos de escalabilidad y rendimiento. Dentro de las áreas de investigación en selección
de atributos se incluyen el análisis de chips de ADN, procesamiento de documentos provenientes
de internet y modelos de administración de riesgo en el sector financiero. El objetivo de esta tarea
es triple: mejorar el desempeño predictivo de los modelos, implementar soluciones más rápidas y
menos costosas, y proveer de un mejor entendimiento del proceso subyacente que generó los datos.
Dentro de las técnicas de minería de datos, el método llamado Support Vector Machines (SVMs)
ha ganado popularidad gracias a su capacidad de generalización frente a nuevos objetos y de construir
complejas funciones no lineales. Estas características permiten obtener mejores resultados que
otros métodos predictivos. Sin embargo, una limitación de este método es que no está diseñado para
identificar los atributos importantes para construir la regla discriminante. El presente trabajo tiene
como objetivo desarrollar técnicas que permitan incorporar la selección de atributos en la formulación
de SVMs no lineal, aportando eficiencia y comprensibilidad al método. Se desarrollaron dos
metodologías: un algoritmo wrapper (HO-SVM) que utiliza el número de errores en un conjunto
de validación como medida para decidir qué atributo eliminar en cada iteración, y un método
embedded (KP-SVM) que optimiza la forma de un kernel Gaussiano no isotrópico, penalizando la
utilización de atributos en la función de clasificación.
Los algoritmos propuestos fueron probados en bases de datos de de diversa dimensionalidad,
que van desde decenas a miles de atributos, y en problemas reales de asignación de créditos para
entidades financieras nacionales. De los resultados se obtiene que SVMs no lineal con kernel Gaussiano
muestra un mejor desempeño que con las funciones de kernel lineal y polinomial. Asimismo,
los métodos de selección de atributos propuestos permiten mantener o incluso mejorar el desempeño
predictivo de SVMs no lineal, logrando además una reducción significativa en la utilización de
atributos. Para las bases de mayor dimensionalidad se reduce de miles a decenas de atributos seleccionados,
logrando un desempeño predictivo significativamente mejor que los enfoques alternativos
de selección de atributos para SVMs. Se concluye que los enfoques presentados representan la alternativa
más efectiva dentro de las estudiadas para resolver el problema de selección de atributos en
modelos de aprendizaje computacional. Como trabajo futuro se propone adaptar las metodologías
propuestas para problemas con desbalance de clases, donde se requiere una evaluación distinta del
desempeño del modelo considerando costos por error de clasificación asimétricos, una problemática
común en aplicaciones como detección de fuga y riesgo crediticio.
|
4 |
Metodología de clasificación dinámica utilizando Support Vector MachineSandoval Rodríguez, Rodrigo Antonio January 2007 (has links)
Esta investigación se centra en el problema de clasificación, por medio de confeccionar una metodología que permita detectar y modelar cambios en los patrones que definen la clasificación en el tiempo, en otras palabras, clasificación dinámica.
La metodología desarrollada propone utilizar los resultados obtenidos en un periodo de tiempo para la construcción del modelo al siguiente periodo. Para ello se utilizaron dos modelos de clasificación distintos; el primero de ellos es Support Vector Machine (SVM) con el objetivo de confeccionar la metodología dinámica, que denominaremos Dynamic Support Vector Machine (D-SVM) y el segundo modelo de clasificación es Linear Penalizad SVM (LP-SVM) con la finalidad de que la metodología construida permita la selección de atributos dinámicamente. Los parámetros utilizados en el modelo de clasificación son; las ventanas de tiempo, ponderadores de relevancia, penalización de los errores y la penalización de los atributos (sólo para el modelo con selección de atributos). De los resultados obtenidos, se utiliza la ventana de tiempo que define el mejor modelo de un periodo y junto a los nuevos datos que se obtengan generan el del próximo.
Esta metodología luego fue aplicada a un caso real en una institución gubernamental chilena (INDAP), en el problema de predicción de comportamiento de pago (credit scoring). Para ello se analizaron 4 instancias de tiempo con 9 atributos para el modelo sin selección de atributos y 18 atributos para el modelo con selección. Luego ambos modelos fueron comparados con uno de clasificación estática, es decir, que las 4 instancias de tiempo son unidas como si fuese una data.
Los resultados obtenidos en esta aplicación son levemente superiores a la metodología estática correspondiente y en el caso de la selección de atributos el modelo utiliza una mayor cantidad.
Las conclusiones de esta investigación son que presenta la ventaja de utilizar una menor cantidad de datos a los disponibles, lo que genera modelos más rápidos y que se van adaptando a los cambios de comportamiento que se producen en el tiempo, al descartar los datos más antiguos en la construcción del nuevo modelo. Con respecto al método con selección de atributos, se destaca que no utiliza un modelo exógeno para seleccionar los atributos sino que el modelo estima los atributos necesarios para cada periodo de tiempo, por lo que se tiene un modelo más estable y generalizado; además se logra obtener información de cómo la relevancia de los atributos cambia en el tiempo. Sobre los resultados se concluye que la metodología D-SVM con y sin selección de atributos es al menos tan buena como los métodos actuales de clasificación.
|
5 |
La deserción en cursos universitariosFormia, Sonia 17 March 2014 (has links)
El objetivo general de esta tesis es abordar el estudio del fenómeno de deserción estudiantil universitaria mediante un proceso de extracción de conocimiento a partir de datos. En el camino hacia la concreción del objetivo de máxima, predecir la deserción, se pueden encontrar otras metas que aporten información no trivial y de utilidad para la toma de decisiones, por ejemplo, describir o caracterizar a los estudiantes de la UNRN a través de perfiles que ayuden a orientar la implementación de medidas a los estratos en los que las mismas pueden ejercer más influencia positiva. El objetivo específico de esta tesis es caracterizar a los estudiantes de la UNRN que abandonan la carrera en los primeros años. Se busca establecer perfiles que permitan realizar recomendaciones tendientes a revertir esta situación.
<i>(Párrafo extraído del texto a modo de resumen)</i> / Asesor académico: Waldo Hasperué.
|
6 |
A computational approach to rhythm description - Audio features for the computation of rhythm periodicity functions and their use in tempo induction and music content processingGouyon, Fabien 30 November 2005 (has links)
Aquesta dissertació tracta del ritme musical. Més exactamente, tracta de programes informàtics que extreuen automàticament descripcions rítmiques a partir de senyals musicals d'àudio.Presentem nous algorismes per a la inducció del tempo, la estimació del "tatum," la determinació del compàs, la estimació de "swing," transformacions de "swing" i la classificació d'estils de música de ball. Aquests algorismes processen directament gravacions digitalitzades de senyals acústiques de música. La base d'aquests algorismes son funcions de periodicitat rítmica: es a dir, funcions que mesuren la importància d'una pulsació rítmica en funció del període (o la freqüència) de la mateixa, calculades a partir d'atributs físics instantanis seleccionats per a posar en evidència aspectes rítmics del só. Aquests atributs es calculen amb una freqüència de mostreig constant sobre segments curts de la senyal d'àudio. Els nostres algorismes determinen el tempo i el "tatum" de música de diferents estils musicals, amb tempo constant, amb una precisió de més del 80% si no insistim en trobar el nivell mètric específic. Indentifiquen el compàs amb una precisió del 90%, si es coneixen nivells mètrics més ràpits. Classifiquen música de ball en 8 categories amb una precisió del 80% tenint en compte únicament aspectes rítmics de la música. Finalment, afegeixen (o substreuen) el "swing" de senyals musicals d'àudio de manera automàtica, conservant una alta qualitat de só.Des d'un punt de vista més general, aquesta dissertació contribueix de manera significativa al camp de la descripció computacional del ritme a) en proposar un entorn unificador d'analisi funcional; b) en revisar l'arquitectura de molts sistemes existent respecte els blocs funcionals d'aquest entorn; c) en organitzar la primera evaluació pública d'algorismes d'inducció de tempo; i d) en identificar direccions de recerca prometedores, particularment respecte a la selecció d'atributs instantanis més adients per al càlcul de funcions de periodicitat rítmica útils i l'estrategia per a combinar i processar multiples fonts d'informació rítmica. / Esta disertación trata del ritmo musical. Más precisamente, trata de programas informáticos que extraen automáticamente descripciones rítmicas a partir de señales musicales de audio.Presentamos nuevos algoritmos para la inducción del tempo, la estimación del "tatum," la determinación del compás, la estimación del "swing," transformaciones de "swing" y la clasificación de estilos de música de baile. Estos algoritmos procesan directamente grabaciones digitalizadas de señales acústicas de música. La base de estos algoritmos son funciones de periodicidad rítmica: funciones que miden la importancia de una pulsación rítmica en función del periodo (o la frecuencia) de la misma, calculadas a partir de atributos físicos instantáneos seleccionados para poner en evidencia aspectos rítmicos del sonido. Estos atributos se calculan con una frecuencia de muestreo constante sobre segmentos cortos de la señal de audio.Nuestros algoritmos determinan el tempo y el "tatum" de música de diferentes géneros, con tempo casi constante, con una precisión de más de 80% si no insistimos en encontrar un nivel métrico específico. Identifican el compás con una precisión de 90%, si se conocen niveles métricos más rápidos. Clasifican música de baile en 8 categorías con una precisión de 80% tomando en cuenta solamente aspectos rítmicos de la música. Finalmente, añaden (o sustraen) el "swing" de señales musicales de audio de manera automática, conservando una cualidad de sonido muy buena.De un punto de vista más general, está disertación contribuye de manera significativa al campo de la descripción computacional del ritmo a) en proponer un entorno unificador de análisis funcional; b) en revisar la arquitectura de muchos sistemas existentes respecto a los bloques funcionales de este entorno; c) en organizar la primera evaluación pública de algoritmos de inducción del tempo; y d) en identificar direcciones de investigación prometedoras, particularmente respecto a la selección de los mejores atributos instantáneos para el cálculo de funciones de periodicidad rítmica útiles y la estrategia para combinar y procesar múltiples fuentes de información rítmica.
|
Page generated in 0.0677 seconds