Spelling suggestions: "subject:"ciencias dde lla computación"" "subject:"ciencias dde lla computaciónn""
51 |
Representación del conocimiento de redes sociales y su dinámicaGallo, Fabio Rafael 25 November 2019 (has links)
Esta tesis se enfoca en el estudio de la dinámica del conocimiento que se presenta en
el contexto de las redes sociales. Acorde con la literatura, este tipo de redes puede ser
representada como una red compleja, la cual permite representar tanto a los miembros de
la red como las relaciones (con distintos grados de fortalezas) entre los mismos; sin embargo,
en los modelos clásicos no se hace explícita la representación del conocimiento. Como
primer aporte de esta tesis, se presenta un modelo denominado Base de Conocimiento de
Red (BCR), el cual permite representar este contexto como una red compleja multi-capa,
que también permite representar el conocimiento individual de cada miembro. Además,
el modelo posibilita establecer un conjunto de restricciones sobre la parte estructural y
sobre la parte epistémica de la red para poder caracterizar dominios más específicos. Asimismo,
se propone una manera de representar el contenido que
uye por la red mediante
elementos denominados ítems de noticia.
En contextos sociales, debido a la cantidad de información que puede ser generada en
un breve lapso y a la velocidad con que puede
fluir en la red, la integración de ésta con los
conocimientos previos de un agente no es una tarea sencilla. Basándose en la literatura
preexistente, se podría pensar en realizar dicha integración con operadores de revisión de
creencias clásicos; sin embargo, luego de analizarlos se concluyó que los mismos no son
adecuados ya que éstos no son capaces de manejar la riqueza de las entradas epistémicas
provenientes de las plataformas sociales. Por lo tanto, uno de los principales aportes de
esta tesis es la definición de tres familias de operadores específicos para revisar la base
de conocimiento local de un usuario: mesurado, débilmente mesurado y social. Tales
operadores fueron definidos agrupando distintos subconjuntos de postulados planteados
con el fin de representar distintas actitudes que puede tener un usuario para integrar el
conocimiento social. La definición de estos postulados fue informada por una evaluación
empírica realizada sobre un vasto conjunto de datos reales compuesto de publicaciones de
la red social Twitter. Además, para los primeros dos operadores se propone una construcción algorítmica, denominada revisión mesurada, la cual construye la KB local revisada
identificando las posibles operaciones a partir de órdenes parciales estrictos.
Como última contribución, se reporta el resultado de una segunda evaluación empírica
cuyo objetivo es implementar una aplicación de una versión simplificada del modelo de
BCR. Ésta demuestra que, junto con algoritmos de Machine Learning, el modelo puede
utilizarse para predecir comportamientos básicos de usuarios en Twitter. / In this thesis we focus on the knowledge dynamics that takes place in social media
contexts. According to the literature, this type of network can be represented as a complex
network that allows representing both the network's members as well as the relations
among them, considering the possibility for different strength levels; however, in the classical
models, knowledge representation is not considered explicitly. The first contribution
of this thesis is the definition of a model called Network Knowledge Base (NKB), which
allows to represent social contexts as a complex multi-layer network, in which individual
knowledge can be maintained. Additionally, in this model the notion of network is enriched
with a set of constraints that conditions both the structural part of the network and
the individual users' knowledge bases|thus, different types of domains and applications
can be characterized. Furthermore, the concept of news item is proposed as a means to
represent the information that
ows through the network.
In social contexts, given that the volume of information that can be generated in
a very short time and the speed with which it can spread over the network, the task
of integrating this information with the agents' previous knowledge is not easy. Based
on existing literature, it is possible to consider approaching the knowledge integration
task via classical belief revision operators; however, after analyzing this possibility, it was
concluded that such operators are not appropriate since classical operators are not capable
of managing the richness of the epistemic inputs produced by social platforms. Therefore,
one of the main contribution of this work is the definition of three novel belief revision
operator families specifically conceived for revising local knowledge base: restrained, weakly
restrained, and social. These operators are defined based on the satisfaction of different
subsets of postulates specified for the purpose of representing different attitudes that a
user can have when integrating social knowledge. The definition of such postulates were
informed by an empirical evaluation over a real-world dataset from the Twitter social
network. Moreover, an algorithmic construction is proposed for the first two operator
families called revise for restrained, whose output is generated by considering all valid
operations over a KB based on strict partial orders.
As a final contribution, results are reported on a second empirical evaluation, which
has the objective of implementing an application of a simplified version of the NKB model.
This experiment demonstrates that, leveraging Machine Learning algorithms, the model
can be used to predict basic user behaviors in Twitter.
|
52 |
Caracterización formal y análisis empírico de mecanismos incrementales de búsqueda basados en contextoLorenzetti, Carlos M. 18 March 2011 (has links)
LaWeb se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recupe-ración de información que ayuda al usuario a recuperar infor-mación relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuen-tran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación
del método propuesto se desarrolló un marco teórico de eva-luación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar
las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrolla-ron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algorit-mos desarrollados a la largo de esta tesis evolucionan con-sultas de alta calidad, permitiendo recuperar recursos relevan-tes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles. / The Web has become a potentially infinite information resour-ce, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the users current thematic context. In order to evaluate
the proposed method, a theoretical framework for the evalua-tion of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework
that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The experimental evidence indicates that the methods proposed in this thesis present significant improvements over previously published techniques. In addition the evaluation framework was equipped with novel evaluation metrics that favor the exploration of novel material and incorporates a semantic relationship metric between documents. The algorithms developed in this thesis evolve high quality queries, which have the capability of retrieving results that are relevant to the user context. These results have a positive impact on
the way users interact with available resources.
|
53 |
Desarrollo de técnicas de aprendizaje automático y computación evolutiva multiobjetivo para la inferencia de redes de asociación entre vías biológicasDussaut, Julieta Sol 14 March 2016 (has links)
En la biología de sistemas, una ruta biológica representa una secuencia de reacciones o interacciones entre un grupo de genes expresados que participan en un proceso biológico. Durante la última década, el análisis de las rutas biológicas se ha convertido en una estrategia clave para la comprensión de los significados biológicos de experimentos de alto rendimiento sobre un grupo de genes. Detrás de la idea del análisis de estas rutas existe el supuesto de que, para muchos fenómenos celulares complejos, resulta muy difícil encontrar una explicación mediante estudios que sólo se centran en una mirada al nivel de los genes.
En particular esta tesis se centra en la investigación de técnicas de análisis de diafonía (cross-talk) entre rutas biológicas (pathways), enriqueciendo esta información por datos de experimentos de microarray mediante biclustering. De esta forma, se busca proveer una metodología bioinformática que identifique relaciones entre rutas biológicas y las explique, proporcionando información útil para asistir a expertos en biología molecular.
Para cumplir este objetivo se desarrollaron métodos computacionales para el análisis tanto topológico como de enriquecimiento a nivel de rutas biológicas. Una de las herramientas desarrolladas, BAT(Gallo, Dussaut, Carballido, & Ponzoni, 2010), plantea la ejecución del algoritmo BiHEA(Gallo, Carballido, & Ponzoni, 2009), que realiza biclustering sobre los datos. Esto permite la identificación de grupos de genes co-expresados bajo ciertos subconjuntos de condiciones experimentales. Esta herramienta es utilizada en conjunto con otra, denominada PET, diseñada para utilizar datos topológicos relevantes a nivel de genes y proyectarlos a nivel de rutas biológicas para una mejor comprensión de los mecanismos de señalización que coordinan distintos procesos celulares. Se estudiaron y validaron estos métodos con datos de la enfermedad de Alzheimer, contrastando los resultados con los obtenidos por otros métodos publicados recientemente. De este modo, se puso en evidencia la relevancia de combinar técnicas de análisis topológico con enriquecimiento basado en datos de expresión y detección de sincronización entre rutas biológicas mediante el uso de métodos de biclustering como una estrategia integral para la identificación de diafonía entre procesos biológicos. / In systems biology, a pathway represents a sequence of reactions or interactions between a group of expressed genes involved in a biological process. During the last decade, the analysis of biological pathways has become a key strategy for the understanding of biological meanings in high throughput experiments on a group of genes. Behind the idea of the analysis of these pathways there is the assumption that, for many complex cellular phenomena, it is very difficult to find an explanation through studies that focus only at a gene level.
In particular, this thesis focuses on the investigation of cross-talk analysis techniques between biological pathways, also enriching this information by microarray experiments data usingbiclustering. By means of this combination, the idea is to count with a bioinformatics approach that identifies and explains relationships between biological pathways thus providing useful information to assist experts in molecular biology information.
To meet this objective, computational methods for analysis of biological pathways, including enrichment analysis, and analysis at a topological level,has been developed. One of the tools developed, BAT (Gallo, Dussaut, Carballido, & Ponzoni, 2010)raises the algorithm execution BiHEA (Gallo, Carballido, & Ponzoni, 2009), which is a biclustering multi-objective algorithm. This allows the identification of clusters of co-expressed subsets of genes under certain experimental conditions. This tool is used in conjunction with other, called PET, designed to use topological data relevant at gene level and project biological pathways for better understanding of the signaling mechanisms that coordinate various cellular processes.
We studied these methods and validated them with data from Alzheimer's disease, contrasting results with those of other recently published methods. Thus, is highlighted the importance of combining topological analysis techniques with enrichment expression data based on detection and synchronization between biological pathways using methods of biclustering as a comprehensive strategy for identifying crosstalk between biological processes.
|
54 |
Marcos argumentativos etiquetadosBudán, Maximiliano Celmo David 16 December 2015 (has links)
El área de la representación del conocimiento y el razonamiento rebatible en Inteligencia
Artificial se especializa en modelar el proceso de razonamiento humano de manera tal
de establecer qué conclusiones son aceptables en un contexto de desacuerdo. En términos
generales, las teorías de la argumentación se ocupan de analizar las interacciones entre los
argumentos que están a favor o en contra de una determinada conclusión, para finalmente
establecer su aceptabilidad.
El objetivo principal del presente trabajo es expandir la capacidad de representación
de los marcos argumentativos permitiendo representar las características especiales de lo
argumentos, y analizar cómo éstas se ven afectadas por las relaciones de soporte, agregación y ataque que se establecen entre los argumentos de un modelo que representa una
determinada discusión argumentativa. Para ello, añadiremos un meta-nivel de información
a los argumentos en la forma de etiquetas extendiendo así sus capacidades de representación, y brindaremos las herramientas necesarias para propagar y combinar las etiquetas en
el dominio de la argumentación. Finalmente, utilizaremos la información proporcionada
por las etiquetas para optimizar el proceso de aceptabilidad de los argumentos y brindar
así resultados más refinados. / The area of Artificial Intelligence known as knowledge representation and defeasible
reasoning specializes in modeling the human reasoning process so as to establish what
conclusions are acceptable in a disagreement context. Generally speaking, argumentation
theories deal with the interactions between arguments in favor and against a particular
conclusion to establish their acceptability.
The main objective of this work is to expand the representation capabilities of argumentative
frameworks allowing to represent special characteristics of the arguments,
and analyze how they are affected by the relations of support, aggregation and attack
established between arguments. To do this, we will add meta-level of information to the
arguments in the form of labels extending their representation capabilities, and we provide
the necessary tools to propagate and combine the labels in the argumentation domain.
Finally, we will use the information provided by the labels to optimize the acceptability
determination process, and to provide more refined results.
|
55 |
Tolerancia a fallas y gestión de carga en entornos federadosEchaiz, Javier 00 December 2012 (has links)
Existe una creciente demanda de sistemas online, especial-mente de aquellos que requieren procesamiento de informa-ción. Esta demanda sumada a las nuevas tecnologías de monitoreo (como por ejemplo las redes de sensores) impulsaron un nuevo tipo de aplicación que requiere bajas latencias y procesamiento continuo de grandes volúmenes de datos (los cuales arriban en forma de streams). El proce-samiento de streams constituye un paradigma de cómputo
relacionado con SIMD que permite que algunos tipos de apli-caciones puedan explotar una forma de procesamiento para-lelo y puede emplearse en diferentes dominios, como por e-jemplo para la implementación de sistemas financieros, moni-toreo basado en sensores, sistemas militares, monitoreo de red, etc. Si bien los sistemas de gestión de bases de datos (DBMS) pueden utilizarse para implementar este tipo de apli-caciones, las restricciones de bajas latencias de procesa-miento y grandes volúmenes de datos a procesar los vuelve inadecuados. Una mejor alternativa son los sistemas de ges-tión de streams de datos, usualmente sistemas distribuidos de gestión de streams de datos (DSMS por su sigla en inglés) de-bido a que estas aplicaciones son inherentemente distribuidas y por lo tanto las soluciones distribuidas son naturales y
proveen mejoras en cuanto a escalabilidad y performance.
Esta tesis se enfoca en dos aspectos desafiantes pertenecien-tes al campo de los sistemas distribuidos en general y al de los DSMS en particular: (1) tolerancia a fallas capaz de re-sistir fallas a nivel de nodos y de red y (2) gestión de carga en sistemas federados. Nuestro enfoque al problema de la to-lerancia a fallas se basa en replicación capaz de enmascarar tanto las fallas a nivel de los nodos como a nivel de las redes. Nuestroprotocolo, denominado Disponibilidad y Consistencia Ajustable a las Aplicaciones (DCAA) puede manejar adecua-damente la relación entre disponibilidad y consistencia, man-teniendo (si es posible) la disponibilidad especificada por el usuario o la aplicación, pero produciendo (eventualmente) los resultados correctos. Al mismo tiempo, DCAA también trata de producir el menor número de resultados incorrectos (impre-cisos) que luego deberían requerir corrección. La principal diferencia entre DCAA y enfoques previos sobre tolerancia a fallas en el campo de los DSMS es que DCAA soporta al mismo tiempo diferentes restricciones en las aplicaciones, esto
quiere decir que cada aplicación puede potencialmente tener distintas preferencias de disponibilidad y consistencia. Por otro lado presentaremos un nuevo protocolo de gestion de carga denominado Mecanismo de Precio Acotado (MPA), el cual permite que nodos autonomos (participantes colabora-tivos) compartan su carga sin la necesidad de contar con recursos suficientes para la operación durante picos de carga. MPA es un protocolo basado en contratos donde cada nodo practica una negociación offline y los participantes migran carga en tiempo de ejecución únicamente a nodos (pares) con los cuales mantienen un contrato (y pagan mutuamente de acuerdo al precio contratado). Este protocolo de gestión de carga ofrece incentivos que promueven la participación
de los nodos y produce una buena distribución de carga (a nivel global del sistema). Los aportes mas importantes de nuestro enfoque por sobre trabajos previos basados en economías de cómputo son su estabilidad, predecibilidad, baja carga de procesamiento, privacidad y promoción de relaciones entre participantes, posibilitando que los mismos pueden crear y explotar estas relaciones privilegiadas. El protocolo MPA es general y por lo tanto puede utilizarse para la gestión de carga
de cualquier entorno federado y no sólo bajo DSMS. Más aún, este nuevo protocolo de gestión de carga debe no sólo traba-jar en los típicos entornos colaborativos sino que también debe ser capaz de solucionar escenarios más reales, donde cada nodo (probablemente parte de diferentes organizaciones autónomas) juega bajo distintas reglas, tratando de maximi-zar su propia ganancia sin cooperar necesariamente con sus pares. Además de los modelos económicos existen varios tra-bjos basados en SLA (Service Level Agreements) para solucio-nar el problema de la gestión de carga cuando el entorno no es colaborativo. Mostraremos que los modelos SLA no proveen
una solucion completa y que los acuerdos entre pares usual-mente proveen mejores resultados. Si bien esta tesis parece tener dos focos en lugar de uno, es importante notar que ata-caremos especialmente el problema de la gestión de carga en sistemas distribuidos federados. La relación entre este enfo-que y la tolerancia a fallas radica en los contratos negocia-dos: además de precio y tareas (carga), los contratos pueden incluir disponibilidad, característica que vuelve especialmente importante la tolerancia a fallas. / There is an increased demand for online systems,especially those requiring information processing. This demand added to new monitoring technologies (like sensors networks) have motivated a new type of application that requires low latency and continuous processing of large volumes of data
(arriving as streams). Stream processing is a computer programming paradigm, related to SIMD, that allows some applications to more easily exploit a form of parallel pro-cessing and it can be employed in many different domains, such as financial systems, sensor based monitoring, milita-ry systems, network monitoring, etc. Even when traditional database management systems (DBMS) can be used to handle these applications, the low latency and high volume pro-cessing constrains make them not suitable. A much better alternative are the data stream management systems,
usually distributed data stream management systems (DSMS) because these are inherently distributed applications so distributed solutions are natural and providers of scalabi-lity and performance improvements. This thesis focuses on two challenges faced by distributed systems in general and
DSMS in particular: (1) fault tolerance able to resist node and network failures and (2) load management in fede-rated systems. The fault tolerance approach is based on re-plication and our protocol can resist most node and net-work failures. It is called Disponibilidad y Consistencia Ajustable a las Aplicaciones (DCAA) and addresses the availability/consistency relation by maintaining (if possi-ble), the availability specified by the user or the appli-cation but (eventually) producing correct results. At the same time, DCAA also attempts to produce the minimum number of incorrect (inaccurate) results that will need
correction. The main difference of DCAA over previous approaches for fault tolerance in DSMS is that DCAA supports at the same time different application constrains,
this means that each application can potentially choose a different preference of availability and consistency. Our load management protocol, called Mecanismo de Precio Acota-do (MPA) enable autonomous nodes (collaborative participa-nts) to share their load without having the required re-sources for peak load work. MPA is a contract based proto-col where nodes practice an offline negotiation and parti-cipants migrate load at execution time only to peers with whom they hold a contract (and pay each other according to the contracted price). This load management protocol offers incentives that promote participation and produces a good (system wide level) load distribution. The key differences of our approach over previous works based on computational economies are its stability, predictability, lightweight, privacy, and promotion of the relationships among participants, enabling them to create and exploit these privileged relationships. The MPA protocol is gene-ral, so it can be used to manage load in any federated en-vironment, and not only DSMS. Moreover, this new load ma-nagement protocol should not only work under the typical collaborative environment, but also should be able to address the more realistic scenery where each node (proba-bly part of different and autonomous organizations) plays under different rules trying to maximize their own gain, without necessarily cooperating with their partners. Besi-des economic models there are various works based on SLA (service level agreements) to solve the load management problem when the environment is not a collaborative one. We will show that SLA models do not provide a complete
solution and that peer agreements usually provide better results. Although this thesis seems to have two focuses instead of one, it is important to notice that we espe-cially address the load management problem under federated
distributed systems. The relation among this focus and fault tolerance is in the negotiated contracts: besides price and tasks (load), contracts can include availability,
which raises the importance of fault tolerance.
|
56 |
Modelado predictivo de sistemas complejos para informática molecular : desarrollo de métodos de selección y aprendizaje de características en presencia de incertidumbreCravero, Fiorella 13 March 2020 (has links)
En la actualidad existe una necesidad creciente de guiar el descubrimiento in silico de nuevos polímeros industriales mediante enfoques de Aprendizaje Maquinal supervisado que identifiquen correlaciones estructura-propiedad a partir de la información contenida en bases de datos de materiales, donde cada uno de estos está caracterizado mediante Descriptores Moleculares (DMs). Estas correlaciones se conocen como Modelos de Relación Cuantitativa Estructura-Actividad/Propiedad (QSAR/QSPR, por las siglas en inglés de Quantitative Structure-Activity/Property Relationship) y pueden ser empleadas para predecir propiedades de interés previo a la etapa de síntesis química, contribuyendo de este modo a acelerar el diseño de nuevos materiales y reducir sus costos de desarrollo.
El modelado QSAR/QSPR ya ha sido ampliamente empleado en Informática Molecular para el Diseño Racional de Fármacos asistido por computadoras. Sin embargo, los materiales poliméricos son significativamente más complejos que las moléculas pequeñas como las drogas, dado que están integrados por colecciones de macromoléculas compuestas por miles de cadenas que, a su vez, se forman por la unión de cientos de miles de Unidades Repetitivas Estructurales (UREs). Estas cadenas poseen diferentes pesos moleculares (o largos de cadena) y, a su vez, aparecen con distintas frecuencias dentro de cada material. Este fenómeno, conocido como polidispersión, es la principal razón de que muchas aproximaciones informáticas desarrolladas para el diseño racional de fármacos no sean directamente aplicables, ni lo suficientemente efectivas, en el ámbito de la Informática de Polímeros.
El objetivo general de esta tesis es contribuir con soluciones para distintas cuestiones relativas a la representación computacional y algoritmia que surgen durante el modelado QSPR de propiedades de polímeros polidispersos de alto peso molecular, con especial énfasis en el tratamiento del problema de selección de descriptores moleculares. Las variaciones en la frecuencia de las cadenas de diferentes largos hacen que la descripción de la estructura de un material polimérico contenga incertidumbre, en contraste con lo que sucede en la caracterización estructural típica de una molécula pequeña. No obstante esto, debido a la complejidad de modelar esta incertidumbre, la mayoría de los estudios QSAR/QSPR han utilizado hasta ahora modelos moleculares simples y univaluados, es decir, calculan los descriptores moleculares para una única instancia de peso, de entre todas las posibles cadenas que conforman un material. En particular, la casi totalidad de estos estudios usan descriptores calculados sobre una única URE, sin tener en cuenta la polidispersión. En tal sentido, esta tesis propone investigar
distintas alternativas de selección y aprendizaje de características para modelado QSPR con incertidumbre, que exploren la efectividad de otras representaciones computacionales más realistas para los materiales poliméricos.
En primer lugar, se presenta una metodología híbrida que emplea tanto algoritmos de Selección de Características como de Aprendizaje de Características, a fin de evaluar la máxima capacidad predictiva que se puede alcanzar con la tradicional representación univaluada URE. En segundo lugar, se proponen nuevas representaciones univaluadas, basadas en pesos moleculares promedios, denominadas como modelos moleculares Mn y Mw, cuyas capacidades para inferir modelos QSPR son contrastadas con el modelo molecular URE.
La siguiente alternativa propuesta estudia una representación computacional trivaluada, basada en la integración de los modelos moleculares univaluados URE, Mn y Mw en una única base de datos, la cual permite capturar parcialmente el fenómeno de la polidispersión. Esta caracterización computacional logra mejorar la generalizabilidad de los modelos QSPR obtenidos durante el proceso aprendizaje supervisado, en comparación con los inferidos mediante enfoques de representación univaluados. Sin embargo, esta nueva representación sigue sin contemplar las frecuencias de aparición de los distintos largos de cadena dentro de un material.
Por último, como contribución final de esta tesis se propone una representación computacional multivaluada, basada en el perfil polidisperso real de un material, donde cada descriptor queda caracterizado por una distribución probabilística discreta. En este contexto, las técnicas de selección de características empleadas para representaciones univaluadas ya no resultan aplicables, y surge la necesidad de contar con algoritmos que permitan operar sobre este nuevo modelo molecular. Como consecuencia de esto, se presenta el diseño e implementación de un algoritmo para selección de características multivaluadas. Este nuevo método, FS4RVDD (como sigla de su nombre en inglés Feature Selection for Random Variables with Discrete Distribution), logra un desempeño prometedor en todos los escenarios experimentales ensayados en estas investigaciones. / Nowadays, there is an increasing need to lead the in silico discovery of new industrial polymers through supervised Machine Learning approaches that identify structure-property correlations from the information contained in material databases, where each of them is characterized by Molecular Descriptors (MDs). These correlations are known as Quantitative Structure-Activity/Property Relationship models (QSAR/QSPR). They can be used to predict desirable properties of new materials before the synthesis stage, contributing to accelerate the design of new materials and to reduce the associated development costs.
QSAR/QSPR modeling is widely used in Molecular Informatics for Computer-Aided Drug Design. However, polymeric materials are significantly more complex than small molecules such as drugs, since they are collections of macromolecules that consist of a large number of structural repetitive units (SRUs) linked together in thousands of chain-like structures. These chains have different molecular weights (or lengths) and, in turn, they appear with different frequencies within each material. This phenomenon, known as polydispersity, is the main reason why many approaches developed for rational drug design are neither directly applicable nor sufficiently effective in the field of Polymer Informatics.
The main objective of this thesis is to contribute with solutions for various issues related to computational representation and algorithm development that arise during the QSPR modeling of properties of high molecular weight polydisperse polymers, with special emphasis on the Feature Selection problem. Because of frequency variations in the different chain lengths, the characterization of the polymeric material structure contains uncertainty, in contrast with the typical structural characterization of a small molecule. However, to deal with the uncertainty that introduces the polydispersity of polymeric materials, most of the QSAR/QSPR studies, until now, have used simple and univalued molecular models, that is, they calculate the molecular descriptors for a single instance of weight among all the possible chains that constitute a material. In particular, most QSPR studies use descriptors calculated on a single SRU, regardless of polydispersity. In this context, the present thesis proposes to investigate different alternatives of Feature Selection and Feature Learning for QSPR modeling with uncertainty that explore the effectiveness of more realistic computational representations for polymeric materials.
First, a hybrid methodology that uses MDs from both Feature Selection and Feature Learning algorithms is presented to evaluate the maximum predictive capability the traditional univalued representation (URE) can achieved. Then, new univalued representations based on average molecular weights are proposed, called Mn molecular model and Mw molecular model, whose capabilities to infer QSPR models are contrasted with the URE molecular model ones.
The other alternative computational representation proposes is trivalued MDs, based on the integration of URE, Mn, and Mw univalued molecular models into a single database. This representation partially captures the polydispersity inherent to polymers. This computational characterization improves the generalizability of QSPR models obtained during the supervised learning process, compared to those inferred through univalued representation approaches. However, this new trivalued representation still does not contemplate the frequencies of appearance of the different chain lengths within a material.
Finally, this thesis contributes with a multivalued computational representation based on the actual polydisperse profile of a material, in which each descriptor is characterized by a probabilistic discrete distribution. In this context, the Feature Selection techniques used for univalued representations are no longer applicable, and there is a need for algorithms to deal with this new multivalued molecular model. To face this need, both the design and implementation of an algorithm for the selection of multivalued features are presented here. This new method is called Feature Selection for Random Variables with Discrete Distribution (FS4RVDD), and it achieves a promising performance in all the experimental scenarios tested in these investigations.
|
57 |
Integración de minería de datos y blended learning para el abordaje del proceso educativo universitarioSosa, Marcelo Omar Diógenes 18 March 2022 (has links)
El análisis de los datos que se generan durante el proceso educativo en el
nivel universitario, especialmente cuando se desarrolla con la implementación de
la modalidad blended learning (B-learning en adelante), representa un desafío
para su procesamiento y una oportunidad para la extracción de información que
puede orientar en la toma de decisiones que debe realizar el docente.
El estudio de aspectos como: la identificación de preferencias, patrones y distintos comportamiento de los estudiantes en la modalidad B-learning representan
elementos que permiten la comprensión de cómo los estudiantes desarrollan sus
competencias educativas en diferentes áreas del conocimiento.
Este tipo de modalidad se caracteriza por combinar actividades presenciales
y virtuales utilizando como soporte tecnológico a Internet dentro de las características de una red social educativa. El proceso educativo así desarrollado genera
un gran volumen de datos el cual representa un campo propicio para la aplicación de técnicas de data mining o minería de datos (vocablos que se utilizarán
alternativamente).
El conocimiento que se obtiene al procesar estos datos educativos utilizando
el data mining, representa otra alternativa para el docente en la toma de decisiones
relacionadas con el correcto diseño del proceso, secuenciación de actividades y
elección de materiales. Permitiendo además realizar ajustes ,si son necesarios,
para solucionar desviaciones y encontrar nuevas estrategias en el marco curricular
que aseguren el logro de los objetivos planteados.
En el trabajo de investigación desarrollado en la tesis, se tomaron datos de
estudiantes pertenecientes a la Facultad de Ciencias Exactas y Naturales de la
Universidad Nacional de Catamarca (UNCA) y se realizaron experimentaciones
con diferentes técnicas de data mining utilizando una herramienta de software .
Del estudio de los resultados obtenidos de las experimentaciones y del análisis de las características surgidas del proceso de integración de la minería de
datos y el proceso educativo en modalidad B-learning, posibilitaron tanto el dise
ño de un framework de data mining como así también el desarrollo de un modelo
general de implementación.
Éste último, representa la manera de aplicar el data mining para garantizar
su integración con el proceso educativo y así lograr la adaptación de este último
a las necesidades de los estudiantes actuales.
Esta adaptación es el resultado de las decisiones tomadas por el docente
las cuales , en su mayoría, podrán basarse en resultados científicos provenientes
desde el data mining.
Por otro lado, es necesario aclarar que muchas de las opciones seleccionadas
en el estudio se relacionan con la aspiración de que la tesis represente un material de referencia para docentes, investigadores y personas en general que deseen
iniciarse en el área de data mining. / The analysis of the data generated during the educational process in the
university level, especially when developed with the implementation of the blended learning modality (B-learning from now on) represents a challenge for its
processing and an opportunity for the extraction of information that It can guide
the decision-making that the teacher must make.
The study of aspects such as: the identification of preferences, patterns and
diferent behavior of students in the B-learning modality represent elements that
allow the understanding of how students develop their educational competences
in diferent areas of knowledge. This type of modality is characterized by combining face-to-face activities and virtual ones using the Internet as a technological
support within the characteristics of an educational social network. The educational process thus developed generates a large volume of data which represents a
suitable field for the application of data mining techniques or data mining (words
that will be used alternatively).
The knowledge that is obtained by processing this educational data using
data mining represents another alternative for the teacher in decision-making
related to the correct design of the process, sequencing of activities and choice
of materials. Also allowing adjustments, if necessary, to solve deviations and find
new strategies in the curricular framework that ensure the achievement of the
objectives set.
In the research work developed in the thesis, data was taken from students
belonging to the Faculty of Exact and Natural Sciences of the National University
of Catamarca (UNCA) and experiments were carried out with diferent data
mining techniques using a software tool. From the study of the results obtained
from the experiments and the analysis of the characteristics arising from the
integration process of the mining of data and the educational process in B-learning
mode, made possible both the design of a data mining framework as well as the
development of a model general implementation.
The latter represents the way to apply data mining to guarantee its integration with the educational process and thus achieve the adaptation of the latterto
the needs of today's students. This adaptation is the result of the decisions made
by the teacher which, for the most part, may be based on scienti c results from
from data mining.
On the other hand, it is necessary to clarify that many of the selected options
in the study are related to the aspiration that the thesis represents a reference
material for teachers, researchers and people in general who wish to get started
in the data mining area.
|
58 |
Modelos computacionales de movimiento ocularBiondi, Juan Andrés 10 February 2021 (has links)
El análisis de los movimientos oculares constituye un importante desafío dada la gran
cantidad de información presente en los mismos. Estos movimientos proveen numerosas
claves para estudiar diversos procesos cognitivos considerando, entre otros aspectos, el
modo y el tiempo en que se codi fica la información y qué parte de los datos obtenidos
se usan o se ignoran.
Avanzar en el entendimiento de los procesos involucrados en tareas de alta carga
cognitiva puede ayudar en la detección temprana de enfermedades neurodegenerativas
tales como el mal de Alzheimer o el de Parkinson. A su vez, la comprensión de estos
procesos puede ampliar el abordaje de una gran variedad de temas vinculados con el
modelado y control del sistema oculomotor humano.
Durante el desarrollo de esta Tesis Doctoral se llevaron a cabo tres experimentos que
utilizan técnicas de deep-learning y modelos lineales de efecto mixto a n de identi car
patrones de movimiento ocular a partir del estudio de situaciones controladas.
La primera experiencia tiene como objetivo diferenciar adultos mayores sanos de
adultos mayores con posible enfermedad de Alzheimer, utilizando deep-learning con
denoise-sparse-autoencoders y un clasifi cador, a partir de información del movimiento
ocular durante la lectura. Los resultados obtenidos, con un 89;8% de efectividad en
la clasi ficación por oración y 100% por sujeto, son satisfactorios. Esto sugiere que el uso
de esta técnica es una alternativa factible para esta tarea.
La segunda experiencia tiene como objetivo demostrar la factibilidad de la utilización
de la dilatación de la pupila como un marcador cognitivo, en este caso mediante modelos
lineales de efecto mixto. Los resultados indican que la dilatación se ve influenciada por
la carga cognitiva, la semántica y las características específi cas de la oración, por lo que
representa una alternativa viable para el análisis cognitivo.
El tercero y último experimento tiene como objetivo comprobar la efectividad de la
utilización de redes neuronales recurrentes, con unidades LSTM, para lograr una clasifi cación efectiva en rangos etarios correspondientes a jóvenes sanos y adultos mayores
sanos, a partir del análisis de la dinámica de la pupila. Los resultados obtenidos demuestran
que la utilización de esta técnica tiene un alto potencial en este campo logrando
clasifi car jóvenes vs. adultos mayores con una efectividad media por oración de 76;99%
y una efectividad media por sujeto del 90;24 %, utilizando información del ojo derecho
o información binocular.
Los resultados de estos estudios permiten afi rmar que la utilización de técnicas de
deep learning, que no han sido exploradas para resolver problemas como los planteados
utilizando eye-tracking, constituyen un gran área de interés. / TEXTO PARCIAL en período de teletrabajo
|
59 |
El método del gradiente espectral proyectado acelerado mediante paralelismo : aplicaciones a ingeniería de procesosArdenghi, Juan Ignacio 20 May 2014 (has links)
En el área de Ingeniería de Procesos abundan los problemas de
optimización no lineales. En busca de formulaciones más realistas ha aumentado la
exigencia de un modelado riguroso. Como complejidades incorporadas, al aumento de
la cantidad de variables continuas y restricciones no lineales se le suman la presencia de
variables binarias. En muchos casos los problemas se resuelven mediante la relajación
de variables y condiciones, así generando subproblemas no lineales cuya resolución se
realiza a través de aproximaciones lineales y cuadráticas. La pregunta formulada en
esta tesis es la siguiente ¿Podemos lograr eficiencia sin tener que relajar el problema?
Es decir ¿podemos conseguir soluciones del modelo original en tiempos razonables? En
esta tesis proponemos explotar el Método del Gradiente Espectral Proyectado (SPG)
mediante su refundación a partir del paradigma paralelo.
El SPG es un método de optimización global no monótono para problemas de
programación no lineal, con características diferentes a las exhibidas por los métodos
clásicos de gradiente proyectado. La no monotonicidad y una elección particular de
la longitud del paso permiten aprovechar situaciones especiales que se presentan en
muchos problemas, acelerando la convergencia con mínimos costos de almacenamiento
de datos. Entre sus características más atractivas aparece su bajo costo en operaciones:
SPG no calcula matrices hessianas ni resuelve sistemas lineales. SPG sólo utiliza
productos matriz vector y una estrategia de búsqueda lineal no monótona para garantizar
convergencia global. Combinado con un esquema de Lagrangiano Aumentado, el método
se muestra como una herramienta muy prometedora para el abordaje de problemas
muy exigentes en cuanto a esfuerzo computacional y eficiencia. Sus puntos débiles se
encuentran en el requerimiento de muchas búsquedas lineales para obtener un nuevo
iterado, y en la necesidad de una buena aproximación del gradiente cuando éste no
está disponible en forma analítica. En problemas de aplicaciones industriales estos dos
aspectos pueden devenir en verdaderos cuellos de botella del algoritmo. En consecuencia,
el bajo costo aritmético por iteración no se ve reflejado en el tiempo total de resolución.
El auge del desarrollo en la programación en paralelo hace que este paradigma
se presente como un recurso que ofrece una gran oportunidad para superar estos
inconvenientes. El objetivo de esta tesis fue el desarrollo y análisis del desempeño de una
versión eficiente del algoritmo SPG programado en paralelo, asumiendo desconocimiento
de expresiones analíticas de la función objetivo o de los gradientes. Este escenario a
menudo se presenta en los problemas de optimización en ingeniería de procesos con gran
cantidad de variables y restricciones no lineales. La nueva versión del algoritmo SPG
genera una sucesión de iterados que es alternativa a la que genera la versión secuencial
lo que lo hace más competitivo, pero manteniendo la robustez de convergencia que posee
el método SPG original.
Se desarrollaron e implementaron dos versiones del algoritmo paralelo: una fue
concebida para ejecutarse eficientemente sobre una arquitectura distribuida mediante
pasaje de mensajes sobre una red de área local estándar, y la otra fue diseñada para
ejecutarse sobre una arquitectura de memoria local compartida. La experimentación
numérica se realizó sobre un cluster de 8 procesadores y en una computadora multicore
de 12 núcleos. Se demostró en forma teórica la eficiencia esperada. Además, hemos
contrastado estos desarrollos teóricos con resultados empíricos obtenidos en algunos
problemas de diseño relacionados a plantas de procesos industriales, ubicando así a este
resolvedor paralelo como una herramienta competitiva frente a los resolvedores clásicos
de paquetes comerciales. / There are many nonlinear optimization problems in the area of Process
Engineering. In the search of more realistic formulations the need of more rigorous
modeling has grown. The presence of binary variables, the increasing amount
of continuous variables and nonlinear constraints count among the incorporated
complexities. In many cases the problems are solved by relaxing variables and conditions,
thus generating nonlinear subproblems whose resolution is carried out through linear and
quadratic approximations. The question posed in this thesis is the following: Can we
achieve efficiency without having to relax the problem? I mean: Can we get the original
model solutions in reasonable time? In this thesis we propose to exploit the Spectral
Projected Gradient method (SPG) by its relaunching from the parallel paradigm.
SPG is a non-monotone global optimization method for nonlinear programming
problems, its features being different from those exhibited by the classical projectedgradient
methods. The non-monotonicity and a particular choice of the step length allow
to exploit special situations that arise in many problems, accelerating the convergence
with minimal data-storage costs. Its low operating cost features among its most
attractive attributes SPG neither calculates Hessian matrices nor solves linear systems.
SPG just performs matrix vector products and a non-monotone line-search strategy in
order to ensure global convergence. When combined with an Augmented Lagrangian
scheme, the method looks like a promising tool for addressing demanding problems in
terms of computational effort and efficiency. Its weaknesses lie in the requirement of too
many line-searches for a new iterate, and in the need for a good approximation of the
gradient when it is not available in analytical form. In industrial application these two
mentioned aspects may become real bottlenecks in the algorithm. In consequence, the
low arithmetic cost per iteration is not reflected in the total elapsed time of resolution.
The boom development in parallel programming presents this paradigm as a resource
that provides a great opportunity to overcome these drawbacks. The goal of this thesis
was the development and analysis of the performance of an efficient version of the SPG
algorithm programmed in parallel, assuming lack of knowledge about the analytical
expressions of the objective function or gradients. This scenario often appears in process
engineering optimization problems with many variables and non-linear constraints. The
new version of the SPG algorithm generates a sequence of iterates that is alternative to
the one generated by the sequential version. In this way, the proposed version becomes
more competitive, while maintaining the robustness of the original method.
Two versions of the parallel algorithm were developed and implemented: one of them
was conceived to run efficiently on a distributed architecture by using message passing
on a standard local area network, and another one was designed to run on a shared
local-memory architecture. The numerical experiments were performed on a cluster of
8 processors and a 12-core multicore computer. We have proved the expected efficiency
theoretically. Besides, we have contrasted these theoretical developments with empirical
results in some design problems related to industrial plants processes. thus placing this
parallel solver as a competitive tool against classical commercial packages.
|
60 |
Metodologías y herramientas visuales para Ingeniería OntológicaBraun, Germán Alejandro 26 March 2019 (has links)
El objetivo principal de esta tesis es estudiar la retroalimentación entre los
sistemas de representación visual de conocimiento y los formalismos lógicos,
y definir la teoría subyacente a esta interacción, mediante la manipulación de
ontologías gráficas basadas en Lógicas Descriptivas (DLs) y las características
principales de los ambientes de ingeniería ontológica que la soporten.
Las tecnologías semánticas son cada vez más preponderantes en la integración de datos e interoperabilidad de sistemas de información y, en este
contexto, las ontologías son centrales para la definición de vocabularios compartidos
y modelos conceptuales. De esta manera, proveer ambientes para
el desarrollo de ontologías de calidad es esencial, potenciando la integración
del conocimiento de los expertos de dominio con la semántica formal de los
lenguajes de ontologías.
En esta Tesis se presentan la formalización de los sistemas de manipulación de ontologías gráficas, a los cuales notamos como GOMS, y de un
proceso de visualización de conocimiento basado en ontologías, que articula
esta teoría junto con aspectos de visualización en el contexto de herramientas
gráficas. A partir de los resultados obtenidos, se diseño y documentó una
arquitectura de referencia web y se implementó una herramienta concreta,
llamada crowd, para tareas de ingeniería ontológica, por medio de representaciones
gráficas de dominios y sus reconstrucciones en DL.
Esta infraestructura ha sido concebida como un sistema visual integrando
fuertemente los modelos gráficos con sus representaciones lógicas, interfaces
con multiples razonadores lógicos para validarlos y cumplimiento con
estándares relevantes de la W3C. Asimismo, se incorporó la gestión de espacios
de nombres para obtener modelos ontológicos listos para documentar y
publicar.
Evaluaciones basadas en experiencias de usuarios y en la formalización de
un sistema para visualización de contenido semántico, son también presentadas
y han sido ejecutadas sobre la implementación de crowd, actualmente
en linea en http://crowd.fi.uncoma.edu.ar. / The aim of this thesis is to study how both knowledge representation visual
systems and logic-based formalisms feed each other, theorise about this
interaction through manipulating graphical ontologies based on Description
Logics (DLs), and thus de ning the main requirements of ontology engineering
environments to support them.
Semantics technologies are increasingly important in data integration and
information system interoperability. In this sense, ontologies are key for shared
vocabularies and conceptual models. Thus, providing environments for
high quality ontologies becomes an essential issue, empowering the integration
of domain experts' knowledge with the semantics of ontology languages.
In this thesis, we formalise a system for manipulating graphical ontologies,
named as GOMS, and an ontology-based knowledge visualisation process,
which orchestate the theoretical and visualisation aspects in the context
of visual tools. From these results, we have designed and documented a reference
web architecture. Moreover, we have implemented a concrete tool,
named crowd, for ontology engineering tasks based on visual representations
of domains and their logic-based reconstructions.
This infrastructure has been conceived as a visual system intragrating
closely visual models and their logical representations, interfacing with diverse
reasoning tools to validate them and compliancing to all relevant W3C
recommendations. The tool also support namespaces de nition in order to
get ontologies ready to be documented and published.
Evaluations based on user experiences and the formalisation as a system
for visualising semantic content are also presented, which have been run on
the current implementation of crowd, hosted at http://crowd.fi.uncoma.
edu.ar.
|
Page generated in 0.1143 seconds