Spelling suggestions: "subject:"backward search"" "subject:"ackward search""
1 |
Inexact Mapping of Short Biological Sequences in High Performance Computational EnvironmentsSalavert Torres, José 30 October 2014 (has links)
La bioinformática es la aplicación de las ciencias computacionales a la gestión y análisis de datos biológicos. A partir de 2005, con la aparición de los secuenciadores de ADN de nueva generación surge lo que se conoce como Next Generation Sequencing
o NGS.
Un único experimento biológico puesto en marcha en una máquina de secuenciación NGS puede producir fácilmente cientos de gigabytes o incluso terabytes de datos. Dependiendo de la técnica elegida este proceso puede realizarse en unas pocas horas o días.
La disponibilidad de recursos locales asequibles, tales como los procesadores multinúcleo o las nuevas tarjetas gráfi cas preparadas para el cálculo de propósito general GPGPU (General Purpose Graphic Processing Unit ), constituye una gran oportunidad para hacer frente a estos problemas.
En la actualidad, un tema abordado con frecuencia es el alineamiento de secuencias de ADN. En bioinformática, el alineamiento permite comparar dos o más secuencias de ADN, ARN, o estructuras primarias proteicas, resaltando sus zonas de similitud. Dichas similitudes podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Además, la existencia de similitudes entre las secuencias de un individuo paciente y de otro individuo con una enfermedad genética detectada podría utilizarse de manera efectiva en el campo de la medicina diagnóstica.
El problema en torno al que gira el desarrollo de la tesis doctoral consiste en la localización de fragmentos de secuencia cortos dentro del ADN. Esto se conoce bajo el sobrenombre de mapeo de secuencia o sequence mapping.
Dicho mapeo debe permitir errores, pudiendo mapear secuencias incluso existiendo variabilidad genética o errores de lectura en el mapeo.
Existen diversas técnicas para abordar el mapeo, pero desde la aparición de la NGS destaca la búsqueda por pre jos indexados y agrupados mediante la transformada de Burrows-Wheeler [28] (o BWT en lo sucesivo). Dicha transformada se empleó originalmente en técnicas de compresión de datos, como es el caso del algoritmo bzip2. Su utilización como herramienta para la indización y búsqueda posterior de información es más reciente [22]. La ventaja es que su complejidad computacional depende únicamente de la longitud de la secuencia a mapear.
Por otra parte, una gran cantidad de técnicas de alineamiento se basan en algoritmos de programación dinámica, ya sea Smith-Watterman o modelos ocultos de Markov. Estos proporcionan mayor sensibilidad, permitiendo mayor cantidad de errores, pero su coste computacional es mayor y depende del tamaño de la secuencia multiplicado por el de la cadena de referencia.
Muchas herramientas combinan una primera fase de búsqueda con la BWT de regiones candidatas al alineamiento y una segunda fase de alineamiento local en la que se mapean cadenas con Smith-Watterman o HMM. Cuando estamos mapeando permitiendo pocos errores, una segunda fase con un algoritmo de programación dinámica resulta demasiado costosa, por lo que una búsqueda inexacta basada en BWT puede resultar más e ficiente.
La principal motivación de la tesis doctoral es la implementación de un algoritmo de búsqueda inexacta basado únicamente en la BWT, adaptándolo a las arquitecturas paralelas modernas, tanto en CPU como en GPGPU. El algoritmo constituirá un método nuevo de rami cación y poda adaptado a la información genómica.
Durante el periodo de estancia se estudiarán los Modelos ocultos de Markov y se realizará una implementación sobre modelos de computación funcional GTA (Aggregate o Test o Generate), así como la paralelización en memoria compartida y distribuida de dicha plataforma de programación funcional. / Salavert Torres, J. (2014). Inexact Mapping of Short Biological Sequences in High Performance Computational Environments [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/43721 Read more
|
2 |
[pt] ESTRATÉGIAS PARA ENTENDER A CONECTIVIDADE DE PARES DE ENTIDADES EM BASES DE CONHECIMENTO / [en] STRATEGIES TO UNDERSTAND THE CONNECTIVITY OF ENTITY PAIRS IN KNOWLEDGE BASESJAVIER GUILLOT JIMENEZ 04 November 2021 (has links)
[pt] O problema do relacionamento de entidades refere-se à questão de
explorar uma base de conhecimento, representada como um grafo RDF, para
descobrir e entender como duas entidades estão conectadas. Esta questão pode
ser resolvida implementando-se uma estratégia de busca de caminhos que
combina uma medida de similaridade de entidades, um limite para o grau das
entidades, e um limite de expansão para reduzir o espaço de busca de caminhos,
e uma medida de ranqueamento de caminhos para ordenar os caminhos
relevantes entre um determinado par de entidades no grafo RDF. Esta tese
inicialmente apresenta um framework, chamado CoEPinKB, juntamente com
uma implementação, para experimentar estratégias de busca de caminhos. O
framework apresenta como pontos de flexibilização a medida de similaridade
entre entidades, o limite máximo do grau das entidades, o limite de expansão,
a medida de classificação de caminhos, e a base de conhecimento. Em seguida,
a tese apresenta uma avaliação de desempenho de nove estratégias de busca de
caminhos usando um benchmark envolvendo dois domínios de entretenimento
sobre o OpenLink Virtuoso SPARQL protocol endpoint da DBpedia. Por fim, a
tese apresenta o DCoEPinKB, uma versão distribuída do framework baseado
em Apache Spark, que suporta a avaliação empírica de estratégias de busca de
caminhos, e apresenta uma avaliação de seis estratégias de busca de caminhos
em dois domínios de entretenimento sobre dados reais coletados da DBpedia.
Os resultados fornecem intuições sobre o desempenho das estratégias de busca
de caminhos e sugerem que a implementação do framework, instanciado com
o par de medidas de melhor desempenho, pode ser usado, por exemplo, para
expandir os resultados dos motores de busca em bases de conhecimento para
incluir entidades relacionadas. / [en] The entity relatedness problem refers to the question of exploring a
knowledge base, represented as an RDF graph, to discover and understand how
two entities are connected. This question can be addressed by implementing a
path search strategy that combines an entity similarity measure with an entity
degree limit and an expansion limit to reduce the path search space and a path
ranking measure to order the relevant paths between a given pair of entities in
the RDF graph. This thesis first introduces a framework, called CoEPinKB,
together with an implementation, to experiment with path search strategies.
The framework features as hot spots the entity similarity measure, the entity
degree limit, the expansion limit, the path ranking measure, and the knowledge
base. The thesis moves on to present a performance evaluation of nine path
search strategies using a benchmark from two entertainment domains over
the OpenLink Virtuoso SPARQL protocol endpoint of the DBpedia. The
thesis then introduces DCoEPinKB, a distributed version of the framework
based on Apache Spark, that supports the empirical evaluation of path
search strategies, and presents an evaluation of six path search strategies
over two entertainment domains over real-data collected from DBpedia. The
results provide insights about the performance of the path search strategies
and suggest that the framework implementation, instantiated with the best performing pair of measures, can be used, for example, to expand the results
of search engines over knowledge bases to include related entities. Read more
|
Page generated in 0.0502 seconds