Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-04-22T19:31:30Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE André Câmara Alves do Nascimentos.pdf: 4823168 bytes, checksum: 2c30ae331ec29f390824052ea069109b (MD5) / Made available in DSpace on 2016-04-22T19:31:30Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE André Câmara Alves do Nascimentos.pdf: 4823168 bytes, checksum: 2c30ae331ec29f390824052ea069109b (MD5)
Previous issue date: 2015-11-09 / CAPES / Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância
para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas
para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em
uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel.
Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na
forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas
de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos
parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente,
a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para
solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar
apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a
considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único
kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione
os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas
como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos,
as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de
interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente.
Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação
não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto
permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas
interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método
proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos
que indiquem a sua importância na predição de interações droga-proteína na rede em questão.
A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que
o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados.
Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por
cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso
do método em identificar automaticamente fontes de informação biológica relevantes. Nossas
análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade
das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar
informações relevantes para a tarefa. / Drug-target networks are receiving a lot of attention in late years, given its relevance
for pharmaceutical innovation and drug lead discovery. Many different in silico approaches for
the identification of new drug-target interactions have been proposed, many of them based on a
particular class of machine learning algorithms called kernel methods. These pattern classification
algorithms are able to incorporate previous knowledge in the form of similarity functions, i.e.,
a kernel, and it has been successful in a wide range of supervised learning problems. The
selection of the right kernel function and its respective parameters can have a large influence
on the performance of the classifier. Recently, Multiple Kernel Learning algorithms have been
introduced to address this problem, enabling one to use multiple kernels instead of a single one
for a given task. The main motivation for such approach is similar to the one considered in
ensemble methods: instead of being restricted to only one kernel, it is preferrable to use a set
of distinct kernels, and let the algorithm choose the best ones, or its combination. The MKL
approach can also be seen as a data integration strategy. Despite technical advances in the latest
years, previous approaches are not able to cope with large drug-target interaction spaces and
integrate multiple sources of biological information simultaneously. In this work, we propose a
new multiple kernel learning algorithm for the non-sparse combination of kernels in bipartite link
prediction on drug-target networks. This method allows the integration of multiple heterogeneous
information sources for the identification of new interactions, and can also work with networks
of arbitrary size. Moreover, our method can also automatically select the more relevant kernels,
returning weights indicating their importance in the drug-target prediction at hand. Empirical
analysis on four data sets, using twenty distinct kernels indicates that our method has higher or
comparable predictive performance than all evaluated methods. Moreover, the predicted weights
reflect the predictive quality of each kernel on exhaustive pairwise experiments, which indicates
the success of the method to automatically indicate relevant biological information sources. Our
analysis show that the proposed data integration strategy is able to improve the quality of the
predicted interactions, and can speed up the identification of new drug-target interactions as well
as identify relevant information for the task
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/16781 |
Date | 09 November 2015 |
Creators | NASCIMENTO, André Câmara Alves do |
Contributors | PRUDÊNCIO, Ricardo Bastos Cavalcante, COSTA FILHO, Ivan Gesteira |
Publisher | Universidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.0109 seconds