Return to search

Mejoramiento de la clasificación funcional de enzimas usando aprendizaje de máquinas

Ingeniero Civil Eléctrico / Los avances tecnológicos han permitido secuenciar el ADN de un organismo de manera mucho más accesible que en el pasado. Esto ha generado grandes volúmenes de información; en particular, de los principales productos génicos, las proteínas. Sin embargo, solo se ha logrado asignar funcionalidad a una centésima parte de las proteínas disponibles, ya que ello se realiza de forma experimental, lo cual es muy laborioso y lento. Es por ello que se han desarrollado un gran número de métodos computacionales que buscan predecir la funcionalidad de las proteínas. Dentro de ellos, BLAST (Basic Local Alignment Search Tool) ha sido el más usado, el cual asigna funcionalidad basándose en la noción de homología: proteínas con secuencias aminoacídicas similares tendrían funciones similares. Sin embargo se ha visto que proteínas con secuencias muy distintas pueden tener la misma funcionalidad, y variaciones en la secuencia de una proteína pueden tener grandes impactos en su función.
Debido a las limitaciones de la inferencia de funcionalidad basado en homología, numerosos acercamientos basados en aprendizaje de máquinas han sido propuestos como alternativas. CAFA (Critical Assesment of Functional Annotation) es una competencia que busca evaluar las distintas alternativas que han surgido. Este desafío ha arrojado que no existe un método que sobrepase claramente a los demás, además de probar que si bien las alternativas propuestas sobrepasan el rendimiento de BLAST, este último aún sigue teniendo efectividad.
En el presente trabajo se propone BLAST-KNN: un algoritmo que ensambla técnicas de aprendizaje de máquinas junto a BLAST para mejorar el proceso de clasificación funcional en enzimas, un subconjunto de las proteínas, utilizando la nomenclatura de los números EC (Enzyme Commission) como etiquetas. De esta manera se aprovecha la efectividad de BLAST y se intentan corregir aquellas clases en que este no tiene un rendimiento perfecto. Se incorpora el uso del programa InterProScan como extractor de características para representar las proteínas, lo que entrega la ventaja de tener información basada no solo en homología. Se seleccionan las características más relevantes usando técnicas de teoría de la información. Usando los datos disponible en SwissProt que cuentan con sus cuatro dígitos EC asignados, se logran mejorar 835 clases en términos del puntaje F1 obtenido solo por BLAST, lo que representa el 55.48% de las clases en que BLAST no tiene un rendimiento perfecto. Además, se muestra un predominio de BLAST-KNN frente a BLAST al evaluar clases con más de un número EC asignado, mejorando el 60.3% de los casos. Por otro lado, se valida PANTHER, CDD y los descriptores propios de InterPro (IPR) como fuente importante de información al momento de predecir números EC a nuevas enzimas.
Las limitantes del algoritmo propuesto están en la poca información por clase disponible, teniendo una distribución no uniforme en el número de muestras por etiquetas, lo que fuerza a utilizar algoritmos simples para clasificar. Se propone mejorar la representación de las enzimas incorporando nuevas características, así como extender el clasificador a uno que considere enzimas que no tengan los cuatro dígitos EC asignados. / Este trabajo ha sido parcialmente financiado por Conicyt 11150107

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/148595
Date January 2017
CreatorsGómez Padilla, David Ignacio
ContributorsNilo Poyanco, Ricardo, Tobar Henríquez, Felipe, Caba Rutte, Andrés
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0018 seconds