Global ETD Search

51	Representación del conocimiento de redes sociales y su dinámica Gallo, Fabio Rafael 25 November 2019 (has links) Esta tesis se enfoca en el estudio de la dinámica del conocimiento que se presenta en el contexto de las redes sociales. Acorde con la literatura, este tipo de redes puede ser representada como una red compleja, la cual permite representar tanto a los miembros de la red como las relaciones (con distintos grados de fortalezas) entre los mismos; sin embargo, en los modelos clásicos no se hace explícita la representación del conocimiento. Como primer aporte de esta tesis, se presenta un modelo denominado Base de Conocimiento de Red (BCR), el cual permite representar este contexto como una red compleja multi-capa, que también permite representar el conocimiento individual de cada miembro. Además, el modelo posibilita establecer un conjunto de restricciones sobre la parte estructural y sobre la parte epistémica de la red para poder caracterizar dominios más específicos. Asimismo, se propone una manera de representar el contenido que uye por la red mediante elementos denominados ítems de noticia. En contextos sociales, debido a la cantidad de información que puede ser generada en un breve lapso y a la velocidad con que puede fluir en la red, la integración de ésta con los conocimientos previos de un agente no es una tarea sencilla. Basándose en la literatura preexistente, se podría pensar en realizar dicha integración con operadores de revisión de creencias clásicos; sin embargo, luego de analizarlos se concluyó que los mismos no son adecuados ya que éstos no son capaces de manejar la riqueza de las entradas epistémicas provenientes de las plataformas sociales. Por lo tanto, uno de los principales aportes de esta tesis es la definición de tres familias de operadores específicos para revisar la base de conocimiento local de un usuario: mesurado, débilmente mesurado y social. Tales operadores fueron definidos agrupando distintos subconjuntos de postulados planteados con el fin de representar distintas actitudes que puede tener un usuario para integrar el conocimiento social. La definición de estos postulados fue informada por una evaluación empírica realizada sobre un vasto conjunto de datos reales compuesto de publicaciones de la red social Twitter. Además, para los primeros dos operadores se propone una construcción algorítmica, denominada revisión mesurada, la cual construye la KB local revisada identificando las posibles operaciones a partir de órdenes parciales estrictos. Como última contribución, se reporta el resultado de una segunda evaluación empírica cuyo objetivo es implementar una aplicación de una versión simplificada del modelo de BCR. Ésta demuestra que, junto con algoritmos de Machine Learning, el modelo puede utilizarse para predecir comportamientos básicos de usuarios en Twitter. / In this thesis we focus on the knowledge dynamics that takes place in social media contexts. According to the literature, this type of network can be represented as a complex network that allows representing both the network's members as well as the relations among them, considering the possibility for different strength levels; however, in the classical models, knowledge representation is not considered explicitly. The first contribution of this thesis is the definition of a model called Network Knowledge Base (NKB), which allows to represent social contexts as a complex multi-layer network, in which individual knowledge can be maintained. Additionally, in this model the notion of network is enriched with a set of constraints that conditions both the structural part of the network and the individual users' knowledge bases\|thus, different types of domains and applications can be characterized. Furthermore, the concept of news item is proposed as a means to represent the information that ows through the network. In social contexts, given that the volume of information that can be generated in a very short time and the speed with which it can spread over the network, the task of integrating this information with the agents' previous knowledge is not easy. Based on existing literature, it is possible to consider approaching the knowledge integration task via classical belief revision operators; however, after analyzing this possibility, it was concluded that such operators are not appropriate since classical operators are not capable of managing the richness of the epistemic inputs produced by social platforms. Therefore, one of the main contribution of this work is the definition of three novel belief revision operator families specifically conceived for revising local knowledge base: restrained, weakly restrained, and social. These operators are defined based on the satisfaction of different subsets of postulates specified for the purpose of representing different attitudes that a user can have when integrating social knowledge. The definition of such postulates were informed by an empirical evaluation over a real-world dataset from the Twitter social network. Moreover, an algorithmic construction is proposed for the first two operator families called revise for restrained, whose output is generated by considering all valid operations over a KB based on strict partial orders. As a final contribution, results are reported on a second empirical evaluation, which has the objective of implementing an application of a simplified version of the NKB model. This experiment demonstrates that, leveraging Machine Learning algorithms, the model can be used to predict basic user behaviors in Twitter. Ciencias de la computación Redes sociales en Internet Representación del conocimiento
52	Caracterización formal y análisis empírico de mecanismos incrementales de búsqueda basados en contexto Lorenzetti, Carlos M. 18 March 2011 (has links) LaWeb se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recupe-ración de información que ayuda al usuario a recuperar infor-mación relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuen-tran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación del método propuesto se desarrolló un marco teórico de eva-luación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrolla-ron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algorit-mos desarrollados a la largo de esta tesis evolucionan con-sultas de alta calidad, permitiendo recuperar recursos relevan-tes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles. / The Web has become a potentially infinite information resour-ce, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the users current thematic context. In order to evaluate the proposed method, a theoretical framework for the evalua-tion of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The experimental evidence indicates that the methods proposed in this thesis present significant improvements over previously published techniques. In addition the evaluation framework was equipped with novel evaluation metrics that favor the exploration of novel material and incorporates a semantic relationship metric between documents. The algorithms developed in this thesis evolve high quality queries, which have the capability of retrieving results that are relevant to the user context. These results have a positive impact on the way users interact with available resources. Recuperación de información Búsqueda web Inteligencia artificial Ciencias de la computación
53	Desarrollo de técnicas de aprendizaje automático y computación evolutiva multiobjetivo para la inferencia de redes de asociación entre vías biológicas Dussaut, Julieta Sol 14 March 2016 (has links) En la biología de sistemas, una ruta biológica representa una secuencia de reacciones o interacciones entre un grupo de genes expresados que participan en un proceso biológico. Durante la última década, el análisis de las rutas biológicas se ha convertido en una estrategia clave para la comprensión de los significados biológicos de experimentos de alto rendimiento sobre un grupo de genes. Detrás de la idea del análisis de estas rutas existe el supuesto de que, para muchos fenómenos celulares complejos, resulta muy difícil encontrar una explicación mediante estudios que sólo se centran en una mirada al nivel de los genes. En particular esta tesis se centra en la investigación de técnicas de análisis de diafonía (cross-talk) entre rutas biológicas (pathways), enriqueciendo esta información por datos de experimentos de microarray mediante biclustering. De esta forma, se busca proveer una metodología bioinformática que identifique relaciones entre rutas biológicas y las explique, proporcionando información útil para asistir a expertos en biología molecular. Para cumplir este objetivo se desarrollaron métodos computacionales para el análisis tanto topológico como de enriquecimiento a nivel de rutas biológicas. Una de las herramientas desarrolladas, BAT(Gallo, Dussaut, Carballido, & Ponzoni, 2010), plantea la ejecución del algoritmo BiHEA(Gallo, Carballido, & Ponzoni, 2009), que realiza biclustering sobre los datos. Esto permite la identificación de grupos de genes co-expresados bajo ciertos subconjuntos de condiciones experimentales. Esta herramienta es utilizada en conjunto con otra, denominada PET, diseñada para utilizar datos topológicos relevantes a nivel de genes y proyectarlos a nivel de rutas biológicas para una mejor comprensión de los mecanismos de señalización que coordinan distintos procesos celulares. Se estudiaron y validaron estos métodos con datos de la enfermedad de Alzheimer, contrastando los resultados con los obtenidos por otros métodos publicados recientemente. De este modo, se puso en evidencia la relevancia de combinar técnicas de análisis topológico con enriquecimiento basado en datos de expresión y detección de sincronización entre rutas biológicas mediante el uso de métodos de biclustering como una estrategia integral para la identificación de diafonía entre procesos biológicos. / In systems biology, a pathway represents a sequence of reactions or interactions between a group of expressed genes involved in a biological process. During the last decade, the analysis of biological pathways has become a key strategy for the understanding of biological meanings in high throughput experiments on a group of genes. Behind the idea of the analysis of these pathways there is the assumption that, for many complex cellular phenomena, it is very difficult to find an explanation through studies that focus only at a gene level. In particular, this thesis focuses on the investigation of cross-talk analysis techniques between biological pathways, also enriching this information by microarray experiments data usingbiclustering. By means of this combination, the idea is to count with a bioinformatics approach that identifies and explains relationships between biological pathways thus providing useful information to assist experts in molecular biology information. To meet this objective, computational methods for analysis of biological pathways, including enrichment analysis, and analysis at a topological level,has been developed. One of the tools developed, BAT (Gallo, Dussaut, Carballido, & Ponzoni, 2010)raises the algorithm execution BiHEA (Gallo, Carballido, & Ponzoni, 2009), which is a biclustering multi-objective algorithm. This allows the identification of clusters of co-expressed subsets of genes under certain experimental conditions. This tool is used in conjunction with other, called PET, designed to use topological data relevant at gene level and project biological pathways for better understanding of the signaling mechanisms that coordinate various cellular processes. We studied these methods and validated them with data from Alzheimer's disease, contrasting results with those of other recently published methods. Thus, is highlighted the importance of combining topological analysis techniques with enrichment expression data based on detection and synchronization between biological pathways using methods of biclustering as a comprehensive strategy for identifying crosstalk between biological processes. Ciencias de la computación Bioinformática Algoritmo evolutivo Aprendizaje automático Biclustering Vía biológica
54	Marcos argumentativos etiquetados Budán, Maximiliano Celmo David 16 December 2015 (has links) El área de la representación del conocimiento y el razonamiento rebatible en Inteligencia Artificial se especializa en modelar el proceso de razonamiento humano de manera tal de establecer qué conclusiones son aceptables en un contexto de desacuerdo. En términos generales, las teorías de la argumentación se ocupan de analizar las interacciones entre los argumentos que están a favor o en contra de una determinada conclusión, para finalmente establecer su aceptabilidad. El objetivo principal del presente trabajo es expandir la capacidad de representación de los marcos argumentativos permitiendo representar las características especiales de lo argumentos, y analizar cómo éstas se ven afectadas por las relaciones de soporte, agregación y ataque que se establecen entre los argumentos de un modelo que representa una determinada discusión argumentativa. Para ello, añadiremos un meta-nivel de información a los argumentos en la forma de etiquetas extendiendo así sus capacidades de representación, y brindaremos las herramientas necesarias para propagar y combinar las etiquetas en el dominio de la argumentación. Finalmente, utilizaremos la información proporcionada por las etiquetas para optimizar el proceso de aceptabilidad de los argumentos y brindar así resultados más refinados. / The area of Artificial Intelligence known as knowledge representation and defeasible reasoning specializes in modeling the human reasoning process so as to establish what conclusions are acceptable in a disagreement context. Generally speaking, argumentation theories deal with the interactions between arguments in favor and against a particular conclusion to establish their acceptability. The main objective of this work is to expand the representation capabilities of argumentative frameworks allowing to represent special characteristics of the arguments, and analyze how they are affected by the relations of support, aggregation and attack established between arguments. To do this, we will add meta-level of information to the arguments in the form of labels extending their representation capabilities, and we provide the necessary tools to propagate and combine the labels in the argumentation domain. Finally, we will use the information provided by the labels to optimize the acceptability determination process, and to provide more refined results. Ciencias de la computación Argumentación Sistemas argumentativos etiquetados Meta nivel de información
55	Tolerancia a fallas y gestión de carga en entornos federados Echaiz, Javier 00 December 2012 (has links) Existe una creciente demanda de sistemas online, especial-mente de aquellos que requieren procesamiento de informa-ción. Esta demanda sumada a las nuevas tecnologías de monitoreo (como por ejemplo las redes de sensores) impulsaron un nuevo tipo de aplicación que requiere bajas latencias y procesamiento continuo de grandes volúmenes de datos (los cuales arriban en forma de streams). El proce-samiento de streams constituye un paradigma de cómputo relacionado con SIMD que permite que algunos tipos de apli-caciones puedan explotar una forma de procesamiento para-lelo y puede emplearse en diferentes dominios, como por e-jemplo para la implementación de sistemas financieros, moni-toreo basado en sensores, sistemas militares, monitoreo de red, etc. Si bien los sistemas de gestión de bases de datos (DBMS) pueden utilizarse para implementar este tipo de apli-caciones, las restricciones de bajas latencias de procesa-miento y grandes volúmenes de datos a procesar los vuelve inadecuados. Una mejor alternativa son los sistemas de ges-tión de streams de datos, usualmente sistemas distribuidos de gestión de streams de datos (DSMS por su sigla en inglés) de-bido a que estas aplicaciones son inherentemente distribuidas y por lo tanto las soluciones distribuidas son naturales y proveen mejoras en cuanto a escalabilidad y performance. Esta tesis se enfoca en dos aspectos desafiantes pertenecien-tes al campo de los sistemas distribuidos en general y al de los DSMS en particular: (1) tolerancia a fallas capaz de re-sistir fallas a nivel de nodos y de red y (2) gestión de carga en sistemas federados. Nuestro enfoque al problema de la to-lerancia a fallas se basa en replicación capaz de enmascarar tanto las fallas a nivel de los nodos como a nivel de las redes. Nuestroprotocolo, denominado Disponibilidad y Consistencia Ajustable a las Aplicaciones (DCAA) puede manejar adecua-damente la relación entre disponibilidad y consistencia, man-teniendo (si es posible) la disponibilidad especificada por el usuario o la aplicación, pero produciendo (eventualmente) los resultados correctos. Al mismo tiempo, DCAA también trata de producir el menor número de resultados incorrectos (impre-cisos) que luego deberían requerir corrección. La principal diferencia entre DCAA y enfoques previos sobre tolerancia a fallas en el campo de los DSMS es que DCAA soporta al mismo tiempo diferentes restricciones en las aplicaciones, esto quiere decir que cada aplicación puede potencialmente tener distintas preferencias de disponibilidad y consistencia. Por otro lado presentaremos un nuevo protocolo de gestion de carga denominado Mecanismo de Precio Acotado (MPA), el cual permite que nodos autonomos (participantes colabora-tivos) compartan su carga sin la necesidad de contar con recursos suficientes para la operación durante picos de carga. MPA es un protocolo basado en contratos donde cada nodo practica una negociación offline y los participantes migran carga en tiempo de ejecución únicamente a nodos (pares) con los cuales mantienen un contrato (y pagan mutuamente de acuerdo al precio contratado). Este protocolo de gestión de carga ofrece incentivos que promueven la participación de los nodos y produce una buena distribución de carga (a nivel global del sistema). Los aportes mas importantes de nuestro enfoque por sobre trabajos previos basados en economías de cómputo son su estabilidad, predecibilidad, baja carga de procesamiento, privacidad y promoción de relaciones entre participantes, posibilitando que los mismos pueden crear y explotar estas relaciones privilegiadas. El protocolo MPA es general y por lo tanto puede utilizarse para la gestión de carga de cualquier entorno federado y no sólo bajo DSMS. Más aún, este nuevo protocolo de gestión de carga debe no sólo traba-jar en los típicos entornos colaborativos sino que también debe ser capaz de solucionar escenarios más reales, donde cada nodo (probablemente parte de diferentes organizaciones autónomas) juega bajo distintas reglas, tratando de maximi-zar su propia ganancia sin cooperar necesariamente con sus pares. Además de los modelos económicos existen varios tra-bjos basados en SLA (Service Level Agreements) para solucio-nar el problema de la gestión de carga cuando el entorno no es colaborativo. Mostraremos que los modelos SLA no proveen una solucion completa y que los acuerdos entre pares usual-mente proveen mejores resultados. Si bien esta tesis parece tener dos focos en lugar de uno, es importante notar que ata-caremos especialmente el problema de la gestión de carga en sistemas distribuidos federados. La relación entre este enfo-que y la tolerancia a fallas radica en los contratos negocia-dos: además de precio y tareas (carga), los contratos pueden incluir disponibilidad, característica que vuelve especialmente importante la tolerancia a fallas. / There is an increased demand for online systems,especially those requiring information processing. This demand added to new monitoring technologies (like sensors networks) have motivated a new type of application that requires low latency and continuous processing of large volumes of data (arriving as streams). Stream processing is a computer programming paradigm, related to SIMD, that allows some applications to more easily exploit a form of parallel pro-cessing and it can be employed in many different domains, such as financial systems, sensor based monitoring, milita-ry systems, network monitoring, etc. Even when traditional database management systems (DBMS) can be used to handle these applications, the low latency and high volume pro-cessing constrains make them not suitable. A much better alternative are the data stream management systems, usually distributed data stream management systems (DSMS) because these are inherently distributed applications so distributed solutions are natural and providers of scalabi-lity and performance improvements. This thesis focuses on two challenges faced by distributed systems in general and DSMS in particular: (1) fault tolerance able to resist node and network failures and (2) load management in fede-rated systems. The fault tolerance approach is based on re-plication and our protocol can resist most node and net-work failures. It is called Disponibilidad y Consistencia Ajustable a las Aplicaciones (DCAA) and addresses the availability/consistency relation by maintaining (if possi-ble), the availability specified by the user or the appli-cation but (eventually) producing correct results. At the same time, DCAA also attempts to produce the minimum number of incorrect (inaccurate) results that will need correction. The main difference of DCAA over previous approaches for fault tolerance in DSMS is that DCAA supports at the same time different application constrains, this means that each application can potentially choose a different preference of availability and consistency. Our load management protocol, called Mecanismo de Precio Acota-do (MPA) enable autonomous nodes (collaborative participa-nts) to share their load without having the required re-sources for peak load work. MPA is a contract based proto-col where nodes practice an offline negotiation and parti-cipants migrate load at execution time only to peers with whom they hold a contract (and pay each other according to the contracted price). This load management protocol offers incentives that promote participation and produces a good (system wide level) load distribution. The key differences of our approach over previous works based on computational economies are its stability, predictability, lightweight, privacy, and promotion of the relationships among participants, enabling them to create and exploit these privileged relationships. The MPA protocol is gene-ral, so it can be used to manage load in any federated en-vironment, and not only DSMS. Moreover, this new load ma-nagement protocol should not only work under the typical collaborative environment, but also should be able to address the more realistic scenery where each node (proba-bly part of different and autonomous organizations) plays under different rules trying to maximize their own gain, without necessarily cooperating with their partners. Besi-des economic models there are various works based on SLA (service level agreements) to solve the load management problem when the environment is not a collaborative one. We will show that SLA models do not provide a complete solution and that peer agreements usually provide better results. Although this thesis seems to have two focuses instead of one, it is important to notice that we espe-cially address the load management problem under federated distributed systems. The relation among this focus and fault tolerance is in the negotiated contracts: besides price and tasks (load), contracts can include availability, which raises the importance of fault tolerance. Ciencias de la computación Sistemas distribuidos Gestión de carga Tolerancia a fallas DSMS
56	Modelado predictivo de sistemas complejos para informática molecular : desarrollo de métodos de selección y aprendizaje de características en presencia de incertidumbre Cravero, Fiorella 13 March 2020 (has links) En la actualidad existe una necesidad creciente de guiar el descubrimiento in silico de nuevos polímeros industriales mediante enfoques de Aprendizaje Maquinal supervisado que identifiquen correlaciones estructura-propiedad a partir de la información contenida en bases de datos de materiales, donde cada uno de estos está caracterizado mediante Descriptores Moleculares (DMs). Estas correlaciones se conocen como Modelos de Relación Cuantitativa Estructura-Actividad/Propiedad (QSAR/QSPR, por las siglas en inglés de Quantitative Structure-Activity/Property Relationship) y pueden ser empleadas para predecir propiedades de interés previo a la etapa de síntesis química, contribuyendo de este modo a acelerar el diseño de nuevos materiales y reducir sus costos de desarrollo. El modelado QSAR/QSPR ya ha sido ampliamente empleado en Informática Molecular para el Diseño Racional de Fármacos asistido por computadoras. Sin embargo, los materiales poliméricos son significativamente más complejos que las moléculas pequeñas como las drogas, dado que están integrados por colecciones de macromoléculas compuestas por miles de cadenas que, a su vez, se forman por la unión de cientos de miles de Unidades Repetitivas Estructurales (UREs). Estas cadenas poseen diferentes pesos moleculares (o largos de cadena) y, a su vez, aparecen con distintas frecuencias dentro de cada material. Este fenómeno, conocido como polidispersión, es la principal razón de que muchas aproximaciones informáticas desarrolladas para el diseño racional de fármacos no sean directamente aplicables, ni lo suficientemente efectivas, en el ámbito de la Informática de Polímeros. El objetivo general de esta tesis es contribuir con soluciones para distintas cuestiones relativas a la representación computacional y algoritmia que surgen durante el modelado QSPR de propiedades de polímeros polidispersos de alto peso molecular, con especial énfasis en el tratamiento del problema de selección de descriptores moleculares. Las variaciones en la frecuencia de las cadenas de diferentes largos hacen que la descripción de la estructura de un material polimérico contenga incertidumbre, en contraste con lo que sucede en la caracterización estructural típica de una molécula pequeña. No obstante esto, debido a la complejidad de modelar esta incertidumbre, la mayoría de los estudios QSAR/QSPR han utilizado hasta ahora modelos moleculares simples y univaluados, es decir, calculan los descriptores moleculares para una única instancia de peso, de entre todas las posibles cadenas que conforman un material. En particular, la casi totalidad de estos estudios usan descriptores calculados sobre una única URE, sin tener en cuenta la polidispersión. En tal sentido, esta tesis propone investigar distintas alternativas de selección y aprendizaje de características para modelado QSPR con incertidumbre, que exploren la efectividad de otras representaciones computacionales más realistas para los materiales poliméricos. En primer lugar, se presenta una metodología híbrida que emplea tanto algoritmos de Selección de Características como de Aprendizaje de Características, a fin de evaluar la máxima capacidad predictiva que se puede alcanzar con la tradicional representación univaluada URE. En segundo lugar, se proponen nuevas representaciones univaluadas, basadas en pesos moleculares promedios, denominadas como modelos moleculares Mn y Mw, cuyas capacidades para inferir modelos QSPR son contrastadas con el modelo molecular URE. La siguiente alternativa propuesta estudia una representación computacional trivaluada, basada en la integración de los modelos moleculares univaluados URE, Mn y Mw en una única base de datos, la cual permite capturar parcialmente el fenómeno de la polidispersión. Esta caracterización computacional logra mejorar la generalizabilidad de los modelos QSPR obtenidos durante el proceso aprendizaje supervisado, en comparación con los inferidos mediante enfoques de representación univaluados. Sin embargo, esta nueva representación sigue sin contemplar las frecuencias de aparición de los distintos largos de cadena dentro de un material. Por último, como contribución final de esta tesis se propone una representación computacional multivaluada, basada en el perfil polidisperso real de un material, donde cada descriptor queda caracterizado por una distribución probabilística discreta. En este contexto, las técnicas de selección de características empleadas para representaciones univaluadas ya no resultan aplicables, y surge la necesidad de contar con algoritmos que permitan operar sobre este nuevo modelo molecular. Como consecuencia de esto, se presenta el diseño e implementación de un algoritmo para selección de características multivaluadas. Este nuevo método, FS4RVDD (como sigla de su nombre en inglés Feature Selection for Random Variables with Discrete Distribution), logra un desempeño prometedor en todos los escenarios experimentales ensayados en estas investigaciones. / Nowadays, there is an increasing need to lead the in silico discovery of new industrial polymers through supervised Machine Learning approaches that identify structure-property correlations from the information contained in material databases, where each of them is characterized by Molecular Descriptors (MDs). These correlations are known as Quantitative Structure-Activity/Property Relationship models (QSAR/QSPR). They can be used to predict desirable properties of new materials before the synthesis stage, contributing to accelerate the design of new materials and to reduce the associated development costs. QSAR/QSPR modeling is widely used in Molecular Informatics for Computer-Aided Drug Design. However, polymeric materials are significantly more complex than small molecules such as drugs, since they are collections of macromolecules that consist of a large number of structural repetitive units (SRUs) linked together in thousands of chain-like structures. These chains have different molecular weights (or lengths) and, in turn, they appear with different frequencies within each material. This phenomenon, known as polydispersity, is the main reason why many approaches developed for rational drug design are neither directly applicable nor sufficiently effective in the field of Polymer Informatics. The main objective of this thesis is to contribute with solutions for various issues related to computational representation and algorithm development that arise during the QSPR modeling of properties of high molecular weight polydisperse polymers, with special emphasis on the Feature Selection problem. Because of frequency variations in the different chain lengths, the characterization of the polymeric material structure contains uncertainty, in contrast with the typical structural characterization of a small molecule. However, to deal with the uncertainty that introduces the polydispersity of polymeric materials, most of the QSAR/QSPR studies, until now, have used simple and univalued molecular models, that is, they calculate the molecular descriptors for a single instance of weight among all the possible chains that constitute a material. In particular, most QSPR studies use descriptors calculated on a single SRU, regardless of polydispersity. In this context, the present thesis proposes to investigate different alternatives of Feature Selection and Feature Learning for QSPR modeling with uncertainty that explore the effectiveness of more realistic computational representations for polymeric materials. First, a hybrid methodology that uses MDs from both Feature Selection and Feature Learning algorithms is presented to evaluate the maximum predictive capability the traditional univalued representation (URE) can achieved. Then, new univalued representations based on average molecular weights are proposed, called Mn molecular model and Mw molecular model, whose capabilities to infer QSPR models are contrasted with the URE molecular model ones. The other alternative computational representation proposes is trivalued MDs, based on the integration of URE, Mn, and Mw univalued molecular models into a single database. This representation partially captures the polydispersity inherent to polymers. This computational characterization improves the generalizability of QSPR models obtained during the supervised learning process, compared to those inferred through univalued representation approaches. However, this new trivalued representation still does not contemplate the frequencies of appearance of the different chain lengths within a material. Finally, this thesis contributes with a multivalued computational representation based on the actual polydisperse profile of a material, in which each descriptor is characterized by a probabilistic discrete distribution. In this context, the Feature Selection techniques used for univalued representations are no longer applicable, and there is a need for algorithms to deal with this new multivalued molecular model. To face this need, both the design and implementation of an algorithm for the selection of multivalued features are presented here. This new method is called Feature Selection for Random Variables with Discrete Distribution (FS4RVDD), and it achieves a promising performance in all the experimental scenarios tested in these investigations. Ciencias de la Computación Informática de polímeros Modelado predictivo Modelos QSPR Polidispersión
57	Integración de minería de datos y blended learning para el abordaje del proceso educativo universitario Sosa, Marcelo Omar Diógenes 18 March 2022 (has links) El análisis de los datos que se generan durante el proceso educativo en el nivel universitario, especialmente cuando se desarrolla con la implementación de la modalidad blended learning (B-learning en adelante), representa un desafío para su procesamiento y una oportunidad para la extracción de información que puede orientar en la toma de decisiones que debe realizar el docente. El estudio de aspectos como: la identificación de preferencias, patrones y distintos comportamiento de los estudiantes en la modalidad B-learning representan elementos que permiten la comprensión de cómo los estudiantes desarrollan sus competencias educativas en diferentes áreas del conocimiento. Este tipo de modalidad se caracteriza por combinar actividades presenciales y virtuales utilizando como soporte tecnológico a Internet dentro de las características de una red social educativa. El proceso educativo así desarrollado genera un gran volumen de datos el cual representa un campo propicio para la aplicación de técnicas de data mining o minería de datos (vocablos que se utilizarán alternativamente). El conocimiento que se obtiene al procesar estos datos educativos utilizando el data mining, representa otra alternativa para el docente en la toma de decisiones relacionadas con el correcto diseño del proceso, secuenciación de actividades y elección de materiales. Permitiendo además realizar ajustes ,si son necesarios, para solucionar desviaciones y encontrar nuevas estrategias en el marco curricular que aseguren el logro de los objetivos planteados. En el trabajo de investigación desarrollado en la tesis, se tomaron datos de estudiantes pertenecientes a la Facultad de Ciencias Exactas y Naturales de la Universidad Nacional de Catamarca (UNCA) y se realizaron experimentaciones con diferentes técnicas de data mining utilizando una herramienta de software . Del estudio de los resultados obtenidos de las experimentaciones y del análisis de las características surgidas del proceso de integración de la minería de datos y el proceso educativo en modalidad B-learning, posibilitaron tanto el dise ño de un framework de data mining como así también el desarrollo de un modelo general de implementación. Éste último, representa la manera de aplicar el data mining para garantizar su integración con el proceso educativo y así lograr la adaptación de este último a las necesidades de los estudiantes actuales. Esta adaptación es el resultado de las decisiones tomadas por el docente las cuales , en su mayoría, podrán basarse en resultados científicos provenientes desde el data mining. Por otro lado, es necesario aclarar que muchas de las opciones seleccionadas en el estudio se relacionan con la aspiración de que la tesis represente un material de referencia para docentes, investigadores y personas en general que deseen iniciarse en el área de data mining. / The analysis of the data generated during the educational process in the university level, especially when developed with the implementation of the blended learning modality (B-learning from now on) represents a challenge for its processing and an opportunity for the extraction of information that It can guide the decision-making that the teacher must make. The study of aspects such as: the identification of preferences, patterns and diferent behavior of students in the B-learning modality represent elements that allow the understanding of how students develop their educational competences in diferent areas of knowledge. This type of modality is characterized by combining face-to-face activities and virtual ones using the Internet as a technological support within the characteristics of an educational social network. The educational process thus developed generates a large volume of data which represents a suitable field for the application of data mining techniques or data mining (words that will be used alternatively). The knowledge that is obtained by processing this educational data using data mining represents another alternative for the teacher in decision-making related to the correct design of the process, sequencing of activities and choice of materials. Also allowing adjustments, if necessary, to solve deviations and find new strategies in the curricular framework that ensure the achievement of the objectives set. In the research work developed in the thesis, data was taken from students belonging to the Faculty of Exact and Natural Sciences of the National University of Catamarca (UNCA) and experiments were carried out with diferent data mining techniques using a software tool. From the study of the results obtained from the experiments and the analysis of the characteristics arising from the integration process of the mining of data and the educational process in B-learning mode, made possible both the design of a data mining framework as well as the development of a model general implementation. The latter represents the way to apply data mining to guarantee its integration with the educational process and thus achieve the adaptation of the latterto the needs of today's students. This adaptation is the result of the decisions made by the teacher which, for the most part, may be based on scienti c results from from data mining. On the other hand, it is necessary to clarify that many of the selected options in the study are related to the aspiration that the thesis represents a reference material for teachers, researchers and people in general who wish to get started in the data mining area. Ciencias de la computación Data mining Blended Learning Proceso educativo universitario
58	Modelos computacionales de movimiento ocular Biondi, Juan Andrés 10 February 2021 (has links) El análisis de los movimientos oculares constituye un importante desafío dada la gran cantidad de información presente en los mismos. Estos movimientos proveen numerosas claves para estudiar diversos procesos cognitivos considerando, entre otros aspectos, el modo y el tiempo en que se codi fica la información y qué parte de los datos obtenidos se usan o se ignoran. Avanzar en el entendimiento de los procesos involucrados en tareas de alta carga cognitiva puede ayudar en la detección temprana de enfermedades neurodegenerativas tales como el mal de Alzheimer o el de Parkinson. A su vez, la comprensión de estos procesos puede ampliar el abordaje de una gran variedad de temas vinculados con el modelado y control del sistema oculomotor humano. Durante el desarrollo de esta Tesis Doctoral se llevaron a cabo tres experimentos que utilizan técnicas de deep-learning y modelos lineales de efecto mixto a n de identi car patrones de movimiento ocular a partir del estudio de situaciones controladas. La primera experiencia tiene como objetivo diferenciar adultos mayores sanos de adultos mayores con posible enfermedad de Alzheimer, utilizando deep-learning con denoise-sparse-autoencoders y un clasifi cador, a partir de información del movimiento ocular durante la lectura. Los resultados obtenidos, con un 89;8% de efectividad en la clasi ficación por oración y 100% por sujeto, son satisfactorios. Esto sugiere que el uso de esta técnica es una alternativa factible para esta tarea. La segunda experiencia tiene como objetivo demostrar la factibilidad de la utilización de la dilatación de la pupila como un marcador cognitivo, en este caso mediante modelos lineales de efecto mixto. Los resultados indican que la dilatación se ve influenciada por la carga cognitiva, la semántica y las características específi cas de la oración, por lo que representa una alternativa viable para el análisis cognitivo. El tercero y último experimento tiene como objetivo comprobar la efectividad de la utilización de redes neuronales recurrentes, con unidades LSTM, para lograr una clasifi cación efectiva en rangos etarios correspondientes a jóvenes sanos y adultos mayores sanos, a partir del análisis de la dinámica de la pupila. Los resultados obtenidos demuestran que la utilización de esta técnica tiene un alto potencial en este campo logrando clasifi car jóvenes vs. adultos mayores con una efectividad media por oración de 76;99% y una efectividad media por sujeto del 90;24 %, utilizando información del ojo derecho o información binocular. Los resultados de estos estudios permiten afi rmar que la utilización de técnicas de deep learning, que no han sido exploradas para resolver problemas como los planteados utilizando eye-tracking, constituyen un gran área de interés. / TEXTO PARCIAL en período de teletrabajo Inteligencia artificial Ciencias de la computación Movimiento ocular Deep-learning
59	El método del gradiente espectral proyectado acelerado mediante paralelismo : aplicaciones a ingeniería de procesos Ardenghi, Juan Ignacio 20 May 2014 (has links) En el área de Ingeniería de Procesos abundan los problemas de optimización no lineales. En busca de formulaciones más realistas ha aumentado la exigencia de un modelado riguroso. Como complejidades incorporadas, al aumento de la cantidad de variables continuas y restricciones no lineales se le suman la presencia de variables binarias. En muchos casos los problemas se resuelven mediante la relajación de variables y condiciones, así generando subproblemas no lineales cuya resolución se realiza a través de aproximaciones lineales y cuadráticas. La pregunta formulada en esta tesis es la siguiente ¿Podemos lograr eficiencia sin tener que relajar el problema? Es decir ¿podemos conseguir soluciones del modelo original en tiempos razonables? En esta tesis proponemos explotar el Método del Gradiente Espectral Proyectado (SPG) mediante su refundación a partir del paradigma paralelo. El SPG es un método de optimización global no monótono para problemas de programación no lineal, con características diferentes a las exhibidas por los métodos clásicos de gradiente proyectado. La no monotonicidad y una elección particular de la longitud del paso permiten aprovechar situaciones especiales que se presentan en muchos problemas, acelerando la convergencia con mínimos costos de almacenamiento de datos. Entre sus características más atractivas aparece su bajo costo en operaciones: SPG no calcula matrices hessianas ni resuelve sistemas lineales. SPG sólo utiliza productos matriz vector y una estrategia de búsqueda lineal no monótona para garantizar convergencia global. Combinado con un esquema de Lagrangiano Aumentado, el método se muestra como una herramienta muy prometedora para el abordaje de problemas muy exigentes en cuanto a esfuerzo computacional y eficiencia. Sus puntos débiles se encuentran en el requerimiento de muchas búsquedas lineales para obtener un nuevo iterado, y en la necesidad de una buena aproximación del gradiente cuando éste no está disponible en forma analítica. En problemas de aplicaciones industriales estos dos aspectos pueden devenir en verdaderos cuellos de botella del algoritmo. En consecuencia, el bajo costo aritmético por iteración no se ve reflejado en el tiempo total de resolución. El auge del desarrollo en la programación en paralelo hace que este paradigma se presente como un recurso que ofrece una gran oportunidad para superar estos inconvenientes. El objetivo de esta tesis fue el desarrollo y análisis del desempeño de una versión eficiente del algoritmo SPG programado en paralelo, asumiendo desconocimiento de expresiones analíticas de la función objetivo o de los gradientes. Este escenario a menudo se presenta en los problemas de optimización en ingeniería de procesos con gran cantidad de variables y restricciones no lineales. La nueva versión del algoritmo SPG genera una sucesión de iterados que es alternativa a la que genera la versión secuencial lo que lo hace más competitivo, pero manteniendo la robustez de convergencia que posee el método SPG original. Se desarrollaron e implementaron dos versiones del algoritmo paralelo: una fue concebida para ejecutarse eficientemente sobre una arquitectura distribuida mediante pasaje de mensajes sobre una red de área local estándar, y la otra fue diseñada para ejecutarse sobre una arquitectura de memoria local compartida. La experimentación numérica se realizó sobre un cluster de 8 procesadores y en una computadora multicore de 12 núcleos. Se demostró en forma teórica la eficiencia esperada. Además, hemos contrastado estos desarrollos teóricos con resultados empíricos obtenidos en algunos problemas de diseño relacionados a plantas de procesos industriales, ubicando así a este resolvedor paralelo como una herramienta competitiva frente a los resolvedores clásicos de paquetes comerciales. / There are many nonlinear optimization problems in the area of Process Engineering. In the search of more realistic formulations the need of more rigorous modeling has grown. The presence of binary variables, the increasing amount of continuous variables and nonlinear constraints count among the incorporated complexities. In many cases the problems are solved by relaxing variables and conditions, thus generating nonlinear subproblems whose resolution is carried out through linear and quadratic approximations. The question posed in this thesis is the following: Can we achieve efficiency without having to relax the problem? I mean: Can we get the original model solutions in reasonable time? In this thesis we propose to exploit the Spectral Projected Gradient method (SPG) by its relaunching from the parallel paradigm. SPG is a non-monotone global optimization method for nonlinear programming problems, its features being different from those exhibited by the classical projectedgradient methods. The non-monotonicity and a particular choice of the step length allow to exploit special situations that arise in many problems, accelerating the convergence with minimal data-storage costs. Its low operating cost features among its most attractive attributes SPG neither calculates Hessian matrices nor solves linear systems. SPG just performs matrix vector products and a non-monotone line-search strategy in order to ensure global convergence. When combined with an Augmented Lagrangian scheme, the method looks like a promising tool for addressing demanding problems in terms of computational effort and efficiency. Its weaknesses lie in the requirement of too many line-searches for a new iterate, and in the need for a good approximation of the gradient when it is not available in analytical form. In industrial application these two mentioned aspects may become real bottlenecks in the algorithm. In consequence, the low arithmetic cost per iteration is not reflected in the total elapsed time of resolution. The boom development in parallel programming presents this paradigm as a resource that provides a great opportunity to overcome these drawbacks. The goal of this thesis was the development and analysis of the performance of an efficient version of the SPG algorithm programmed in parallel, assuming lack of knowledge about the analytical expressions of the objective function or gradients. This scenario often appears in process engineering optimization problems with many variables and non-linear constraints. The new version of the SPG algorithm generates a sequence of iterates that is alternative to the one generated by the sequential version. In this way, the proposed version becomes more competitive, while maintaining the robustness of the original method. Two versions of the parallel algorithm were developed and implemented: one of them was conceived to run efficiently on a distributed architecture by using message passing on a standard local area network, and another one was designed to run on a shared local-memory architecture. The numerical experiments were performed on a cluster of 8 processors and a 12-core multicore computer. We have proved the expected efficiency theoretically. Besides, we have contrasted these theoretical developments with empirical results in some design problems related to industrial plants processes. thus placing this parallel solver as a competitive tool against classical commercial packages. Ciencias de la computación Programación no lineal Paralelismo Ingeniería de procesos
60	Metodologías y herramientas visuales para Ingeniería Ontológica Braun, Germán Alejandro 26 March 2019 (has links) El objetivo principal de esta tesis es estudiar la retroalimentación entre los sistemas de representación visual de conocimiento y los formalismos lógicos, y definir la teoría subyacente a esta interacción, mediante la manipulación de ontologías gráficas basadas en Lógicas Descriptivas (DLs) y las características principales de los ambientes de ingeniería ontológica que la soporten. Las tecnologías semánticas son cada vez más preponderantes en la integración de datos e interoperabilidad de sistemas de información y, en este contexto, las ontologías son centrales para la definición de vocabularios compartidos y modelos conceptuales. De esta manera, proveer ambientes para el desarrollo de ontologías de calidad es esencial, potenciando la integración del conocimiento de los expertos de dominio con la semántica formal de los lenguajes de ontologías. En esta Tesis se presentan la formalización de los sistemas de manipulación de ontologías gráficas, a los cuales notamos como GOMS, y de un proceso de visualización de conocimiento basado en ontologías, que articula esta teoría junto con aspectos de visualización en el contexto de herramientas gráficas. A partir de los resultados obtenidos, se diseño y documentó una arquitectura de referencia web y se implementó una herramienta concreta, llamada crowd, para tareas de ingeniería ontológica, por medio de representaciones gráficas de dominios y sus reconstrucciones en DL. Esta infraestructura ha sido concebida como un sistema visual integrando fuertemente los modelos gráficos con sus representaciones lógicas, interfaces con multiples razonadores lógicos para validarlos y cumplimiento con estándares relevantes de la W3C. Asimismo, se incorporó la gestión de espacios de nombres para obtener modelos ontológicos listos para documentar y publicar. Evaluaciones basadas en experiencias de usuarios y en la formalización de un sistema para visualización de contenido semántico, son también presentadas y han sido ejecutadas sobre la implementación de crowd, actualmente en linea en http://crowd.fi.uncoma.edu.ar. / The aim of this thesis is to study how both knowledge representation visual systems and logic-based formalisms feed each other, theorise about this interaction through manipulating graphical ontologies based on Description Logics (DLs), and thus de ning the main requirements of ontology engineering environments to support them. Semantics technologies are increasingly important in data integration and information system interoperability. In this sense, ontologies are key for shared vocabularies and conceptual models. Thus, providing environments for high quality ontologies becomes an essential issue, empowering the integration of domain experts' knowledge with the semantics of ontology languages. In this thesis, we formalise a system for manipulating graphical ontologies, named as GOMS, and an ontology-based knowledge visualisation process, which orchestate the theoretical and visualisation aspects in the context of visual tools. From these results, we have designed and documented a reference web architecture. Moreover, we have implemented a concrete tool, named crowd, for ontology engineering tasks based on visual representations of domains and their logic-based reconstructions. This infrastructure has been conceived as a visual system intragrating closely visual models and their logical representations, interfacing with diverse reasoning tools to validate them and compliancing to all relevant W3C recommendations. The tool also support namespaces de nition in order to get ontologies ready to be documented and published. Evaluations based on user experiences and the formalisation as a system for visualising semantic content are also presented, which have been run on the current implementation of crowd, hosted at http://crowd.fi.uncoma. edu.ar. Ciencias de la computación Inteligencia artificial Ontologías Ingeniería Ontológica Herramientas

Search results