1 |
Desarrollo de métodos analíticos y de predicción para informática molecular basados en técnicas de aprendizaje automático y visualizaciónMartínez, María Jimena 06 July 2017 (has links)
Los distintos procesos involucrados en la industria química deben ser estudiados cuidadosamente con el fin de obtener productos de calidad al menor costo y causando el mínimo daño al medio ambiente (ej. industria de polímeros sintéticos y diseño racional de fármacos). Hace ya varios años que distintos métodos computacionales son utilizados en la industria química con el fin de lograr esos objetivos. En particular, el modelado QSAR/QSPR es una técnica de gran interés dentro del área de la informática molecular, ya que permite correlacionar de manera cuantitativa características estructurales de una entidad química con una determinada propiedad físico-química o actividad biológica.
El objetivo de esa tesis fue desarrollar distintas metodologías para asistir a expertos en informática molecular en el proceso de predicción de propiedades fisicoquímicas o de actividad biológica. Más específicamente, las técnicas desarrolladas se enfocan en incorporar al proceso de modelado predictivo QSAR/QSPR, el conocimiento del experto en el dominio. De esta manera se logran mejorar ciertas características de los modelos, tales como su interpretación en términos físicos-químicos, las cuales permite aumentar la generalidad del modelo. Al respecto, se ha implementado una herramienta de analítica visual, denominada VIDEAN, que combina métodos estadísticos con visualizaciones interactivas para elegir un conjunto de descriptores que predigan una determinada propiedad objetivo. Otro de los aportes de esta tesis está relacionado con el dominio de aplicación de un modelo QSAR/QSPR. En este sentido, se ha implementado una técnica para determinar el dominio de aplicación de modelos de clasificación. Esto representa una novedad dado que la mayoría de las técnicas desarrolladas para este fin apuntan exclusivamente a los modelos de regresión.
Los métodos implementados han sido evaluados mediante el estudio de propiedades de relevancia para tres campos de aplicación: el diseño racional de fármacos, el diseño de materiales poliméricos (plásticos) y las ciencias ambientales. Con este fin, se han desarrollado numerosos modelos predictivos de regresión y clasificación. En el área de diseño racional de fármacos, las propiedades que se estudiaron están relacionadas con el comportamiento ADMET (absorción, distribución, metabolismo, excreción y toxicidad) de los mismos: absorción intestinal humana (Human Intestinal Absorption, HIA) y el pasaje de la barrera hemato-encefálica (Blood-Brain Barrier, BBB), ambas esenciales para el desarrollo de nuevos fármacos. En el campo de los materiales poliméricos, se exploraron varias propiedades mecánicas, que proporcionan información relacionada con la ductilidad, resistencia y rigidez del material polimérico; y que, junto con otras propiedades, definen su perfil de aplicación estructural. Estas propiedades son: elongación a la rotura (elongation at break), resistencia a tensión en la rotura (tensile strength at break) y módulo elástico (tensile modulus). En el área de medioambiente, la propiedad que se estudió fue el coeficiente de distribución sangre-hígado (log Pliver) en compuestos orgánicos volátiles (VOCs), que son gases que se emiten de ciertos sólidos o líquidos y que son ampliamente utilizados como ingredientes en productos para el hogar (pinturas, los barnices, productos de limpieza, desinfección, cosmética, entre otros). Los resultados de estudios de este tipo de propiedades brindan un panorama de cómo se distribuyen estos tipos de compuestos en el organismo y pueden emplearse para la evaluación de riesgos y toma de decisiones en materia de salud pública. / The various processes involved in the chemical industry must be carefully studied in order to obtain quality products at the lowest cost and causing the least damage to the environment (e.g. synthetic polymer industry and rational drug design). During the last two decades, different computational methods have been used in the chemical industry in order to achieve these objectives. In particular, QSAR/QSPR modeling is a technique of great interest in the area of molecular informatics, since it allows to quantitatively correlate structural characteristics of a chemical entity with a given physical-chemical or biological activity.
The objective of this thesis was to develop different methodologies to assist molecular computing experts in the process of predicting physicochemical or biological activity properties. More specifically, the techniques developed focus on incorporating domain expert's knowledge into the traditional automated predictive modeling process. In this way, certain characteristics of the models can be improved, such as their interpretation in physical-chemical terms, which allow to increase the generality on the model. In this sense, a visual analytics tool, called VIDEAN, has been implemented to combine statistical methods with interactive visualizations to choose a set of molecular descriptors that predict a specific target property. Another contribution of this thesis focuses on the implementation of a technique to determine the applicability domain of QSAR/QSPR classification models. In this regard, a technique has been implemented to determine the applicability domain of classification models. This represents a novelty given that most of the techniques developed for this purpose are exclusively intended for regression models.
Implemented methods have been evaluated using target properties of relevance in three application areas: rational drug design, design of polymeric materials (plastics) and environmental sciences. To this end, different predictive regression and classification models were proposed that overcome in performance and interpretability to other traditional models have been developed. To this end, numerous regression and classification models have been developed. In rational drug design, the properties that were studied are related to the ADMET behavior (absorption, distribution, metabolism, excretion and toxicity): Human Intestinal Absorption (HIA) and Blood-brain barrier (BBB), both essential for the development of new drugs. In the field of polymeric materials, various mechanical properties, which provide information related to the ductility, strength and rigidity of the polymeric material were explored, and which, along with other properties define its structural application profile. These properties are: elongation at break, tensile strength at break and tensile modulus. In environment area, the property studied was the blood - liver distribution coefficient (log Pliver) in volatile organic compounds (VOCs), which are gases that are emitted from certain solids or liquids and are widely used as ingredients in products for the home (paints, varnishes, cleaning products, disinfection, cosmetics, among others). The results obtained from this studies provide an overview of how these types of compounds are distributed in the body and can be used for risk assessment and public health decision making.
|
2 |
Estrategias de aprendizaje profundo aplicadas al descubrimiento de fármacos : representación molecular, modelado de bioactividad y analítica visual para cribado virtualSabando, Vir January 2024 (has links)
El desarrollo de nuevos fármacos constituye un área de investigación fundamental en la medicina moderna. Más allá de los vertiginosos avances científicos en informática molecular y bioquímica que abonan a su mejora continua, la inversión en tiempo y recursos es sumamente elevada, en contraste a su exigua tasa de éxito. Las estrategias computacionales juegan un rol clave en la optimización y eficiencia de las múltiples tareas involucradas en el desarrollo de medicamentos, que abarcan desde la representación molecular y el modelado predictivo de bioactividad hasta el cribado virtual de fármacos y el diseño de nuevas estructuras químicas.
El objetivo de esta tesis se centró en el desarrollo y aplicación de estrategias computacionales novedosas basadas en aprendizaje profundo para contribuir a la optimización de las diversas etapas del descubrimiento de nuevos medicamentos. Las contribuciones de la presente tesis parten de un análisis crítico y permanente del estado del arte en informática molecular e involucran el diseño de nuevas estrategias aplicando conceptos y desarrollos de vanguardia en aprendizaje profundo. Como resultado de este trabajo, se lograron propuestas novedosas alineadas en tres ejes fundamentales del proceso de desarrollo de fármacos: representaciones moleculares, modelado predictivo de bioactividad, y analítica visual aplicada a cribado virtual de fármacos.
En materia de modelado predictivo de bioactividad, desarrollamos enfoques de modelado QSAR capaces de alcanzar rendimientos predictivos superiores a los previamente reportados para un gran número de propiedades de relevancia en el área, sin necesidad de realizar selección de características. Propusimos un enfoque de definición del dominio de aplicabilidad químico para dichos modelos eficaz en la determinación del rango de confiabilidad de las predicciones, y desarrollamos una estrategia para brindar interpretabilidad a modelos QSAR basados en redes neuronales. Además, experimentamos con aprendizaje profundo multi-tarea, logrando un enfoque pionero para el modelado de mutagenicidad de Ames, que permite el aprendizaje conjunto de información de diferentes blancos farmacológicos, superando en rendimiento a los resultados previamente publicados.
En el área de representación molecular, desarrollamos un riguroso trabajo de investigación y análisis comparativo de diversas estrategias de representación molecular tradicionales y basadas
en aprendizaje profundo. Propusimos un diseño experimental para la comparación y evaluación del desempeño de dichas representaciones en modelado QSAR, cuyos resultados evidenciaron la importancia de la selección cuidadosa de la representación elegida y proporcionan un marco de referencia para posteriores estudios similares. Por último, presentamos una herramienta integral de analítica visual para cribado virtual que integra diferentes fuentes de información química y representaciones moleculares complementarias. Esta herramienta interactiva demostró ser eficaz en la asistencia a expertxs de química medicinal para la exploración visual de patrones de similitud estructural en grandes conjuntos de datos químicos y para el diseño de nuevos compuestos candidatos. / The development of new drugs constitutes a fundamental research area in modern medicine. Beyond the rapid scientific advances in molecular informatics and biochemistry, which contribute to its continuous improvement, the investment in time and resources is extremely high, in contrast to its limited success rate. Computational strategies play a key role in optimizing and streamlining the multiple tasks involved in drug development, ranging from molecular representation and predictive modeling of bioactivity profiles, to virtual drug screening and the design of novel chemical structures.
The goal of this thesis focused on the development and application of novel computational strategies based on deep learning to contribute to the optimization of the many stages involved
in the drug discovery process. The contributions of this thesis stem from a critical and ongoing analysis of the state of the art in molecular informatics and involve the design of new strategies by
applying recent concepts and developments in deep learning. As a result of this work, we achieved a series of innovative proposals which align to three fundamental cornerstones of the drug development process: molecular representation, predictive modeling of bioactivity profiles, and visual analytics applied to virtual drug screening.
In the field of predictive bioactivity modeling, we developed QSAR modeling approaches that achieved higher predictive performances than those previously reported for numerous relevant
biochemical properties, while at the same time overcoming the need for a feature selection step. We proposed an approach to define the chemical applicability domain for these models, effectively determining the reliability range of predictions, and developed a strategy to provide interpretability to QSAR models based on neural networks. Additionally, we experimented with multi-task deep learning, achieving a pioneering approach for modeling Ames mutagenicity that allows the joint learning of information from different pharmacological targets, which outperformed previously published results.
In the field of molecular representation, we conducted a rigorous research and comparative analysis of various traditional and deep learning-based molecular representation strategies. We proposed an experimental design for the comparison and evaluation of the performance of these representations in QSAR modeling, and the results highlighted the importance of carefully selecting the molecular representation for each task, while also providing a reference framework for subsequent similar studies. Finally, we introduced a comprehensive visual analytics tool for virtual screening that integrates different sources of chemical information and complementary molecular representations. This interactive tool proved to be effective in assisting medicinal chemistry experts in visually exploring structural similarity patterns in large chemical datasets and in the design of new candidate compounds.
|
3 |
Lineamientos para la integración de minería de procesos y visualización de datos / Guidelines for the integration of process mining and data visualizationChise Teran, Bryhan, Hurtado Bravo, Jimmy Manuel 04 December 2020 (has links)
Process mining es una disciplina que ha tomado mayor relevancia en los últimos años; prueba de ello es un estudio realizado por la consultora italiana HSPI en el 2018, donde se indica un crecimiento del 72% de casos de estudio aplicados sobre process mining con respecto al año 2017. Así mismo, un reporte publicado en el mismo año por BPTrends, firma especializada en procesos de negocio, afirma que las organizaciones tienen como prioridad en sus proyectos estratégicos el rediseño y automatización de sus principales procesos de negocio. La evolución de esta disciplina ha permitido superar varios de los retos que se identificaron en un manifiesto [1] realizado por los miembros de la IEEE Task Force on Process Mining en el 2012. En este sentido, y apoyados en el desafío número 11 de este manifiesto, el objetivo de este proyecto es integrar las disciplinas de process mining y data visualization a través de un modelo de interacción de lineamientos que permitan mejorar el entendimiento de los usuarios no expertos1 en los resultados gráficos de proyectos de process mining, a fin de optimizar los procesos de negocio en las organizaciones.
Nuestro aporte tiene como objetivo mejorar el entendimiento de los usuarios no expertos en el campo de process mining. Por ello, nos apoyamos de las técnicas de data visualization y de la psicología del color para proponer un modelo de interacción de lineamientos que permita guiar a los especialistas en process mining a diseñar gráficos que transmitan de forma clara y comprensible. Con ello, se busca comprender de mejor forma los resultados de los proyectos de process mining, permitiéndonos tomar mejores decisiones sobre el desempeño de los procesos de negocio en las organizaciones.
El modelo de interacción generado en nuestra investigación se validó con un grupo de usuarios relacionados a procesos críticos de diversas organizaciones del país. Esta validación se realizó a través de una encuesta donde se muestran casos a dichos usuarios a fin de constatar las 5 variables que se definieron para medir de forma cualitativa el nivel de mejora en la compresión de los gráficos al aplicar los lineamientos del modelo de interacción. Los resultados obtenidos demostraron que 4 de las 5 variables tuvieron un impacto positivo en la percepción de los usuarios según el caso que se propuso en forma de pregunta. / Process mining is a discipline that has become more relevant in recent years; proof of this is a study carried out by the Italian consultancy HSPI in 2018, where a growth of 72% of case studies applied on process mining is indicated compared to 2017. Likewise, a report published in the same year by BPTrends, a firm specialized in business processes, affirms that organizations have as a priority in their strategic projects the redesign and automation of their main business processes. The evolution of this discipline has made it possible to overcome several of the challenges that were identified in a manifesto [1] made by the members of the IEEE Task Force on Process Mining in 2012. In this sense, and supported by challenge number 11 of this manifesto, the objective of this project is to integrate the disciplines of process mining and data visualization through an interaction model of guidelines that allow to improve the understanding of non-expert users in the graphical results of process mining projects, in order to optimize the business processes in organizations.
Our contribution aims to improve the understanding of non-expert users in the field of process mining. For this reason, we rely on data visualization techniques and color psychology to propose an interaction model of guidelines that allows us to guide process mining specialists to design graphics that convey clearly and understandably. With this, it seeks to better understand the results of process mining projects, allowing us to make better decisions about the performance of business processes in organizations.
The interaction model generated in our research was validated with a group of users related to critical processes from various organizations in the country. This validation was carried out through a survey where cases are shown to these users in order to verify the 5 variables that were defined to qualitatively measure the level of improvement in the compression of the graphs when applying the guidelines of the interaction model. The results obtained showed that 4 of the 5 variables had a positive impact on the perception of users according to the case that was proposed in the form of a question. / Tesis
|
Page generated in 0.0687 seconds