Uno de los problemas esenciales en la predicción computacional de la estructura
tridimensional de proteínas corresponde a la evaluación de la calidad de un modelo
proteico generado computacionalmente, esto es, clasificar cada modelo proteico en
correcto o incorrecto. Este problema toma especial importancia cuando los modelos son
generados por software automatizados a gran escala.
La mayoría de los métodos existentes para la evaluación de los modelos proteicos están
basados en variables únicas que actúan como los clasificadores. La variable consistente
en la energía libre total del sistema es aquella de mejor rendimiento cuando se le
compara a otras variables o atributos del modelo proteico. Sin embargo, clasificadores
multivariables basados en una serie de propiedades físicas, geométricas y estadísticas
pueden mostrar un rendimiento significativamente mayor con respecto a los
clasificadores de una variable, sobre todo para los casos más difíciles que corresponden
a proteínas pequeñas y cuyo modelo obtenido computacionalmente es incompleto.
En el presente trabajo de tesis, se calcularon un total de 31 variables sobre un conjunto
de modelos proteicos correctos e incorrectos generados con la técnica de modelado
comparativo. Estas variables corresponden a propiedades del alineamiento secuenciaestructura
entre la secuencia a modelar y la estructura molde, propiedades del modelo
proteico generado, propiedades de la región del molde efectivamente utilizada para
generar el modelo, y propiedades del molde completo utilizado para generar el modelo
proteico. El conjunto de datos se dividió en conjuntos de entrenamiento, validación y de
prueba. Se aplicaron distintos métodos de ranking, selección y extracción de variables
para filtrar redundancia y maximizar la relevancia de las variables con respecto a la
clase respuesta.
Luego, se aplicaron diferentes algoritmos de aprendizaje tales como redes bayesianas,
máquinas de vectores de soporte, perceptrón multicapa y algoritmos genéticos con el fin
de obtener clasificadores multivariables para el problema de la clasificación de un
modelo en correcto e incorrecto. El rendimiento de cada clasificador multivariable, así
como el rendimiento de cada variable única utilizada como clasificador, fue comparado
con el rendimiento de los otros clasificadores con el fin de declarar a uno de ellos como
aquél óptimo para el problema de la evaluación de la calidad de modelos proteicos
generados computacionalmente.
El clasificador óptimo obtenido en este trabajo, generado con el algoritmo de
aprendizaje de máquinas de vectores de soporte, presenta un aumento en el rendimiento
de un 13% con respecto a los mejores clasificadores univariables.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/103015 |
Date | January 2008 |
Creators | Vergara Correa, Ismael Alfonso |
Contributors | Navarro Badino, Gonzalo, Melo Ledermann, Francisco, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ciencias de la Computación, Hurtado Larraín, Carlos, Caballero Ruíz, Julio |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0021 seconds