Global ETD Search

1	Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares Pilaluisa, José 19 January 2023 (has links) Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado. Procesamiento del lenguaje natural Modelos de lenguaje Recuperación de información Integración de datos Creación de corpus
2	Diseño y Desarrollo de un Sistema de Información para la Gestión de Información sobre Cáncer de Mama Burriel Coll, Verónica 01 September 2017 (has links) Diagnosis, treatment and research about such complex diseases as breast cancer is an increasingly complex task due to the big quantity and diversity of involved data and the need of relating them properly to obtain relevant conclusions. Clinical data generation has to be followed by an efficient data management. So, the use of advanced information system technologies is essential to ensure a correct storage, management and exploitation of data. Following a deep study of domain and technologies used to store and manage clinical and biological data about the disease, the main goal of this thesis is to provide a methodological basis to design and implement software systems to manage breast cancer data in a trustable and efficient way. Using Conceptual Modelling techniques in an environment where their use is not as common as it should be, allows to create information systems perfectly adapted to the studied domain. Under this approach, in this thesis some tasks have been carried out among which are conceptual modelling of diagnosis, treatment and research of breast cancer's domain; archetypes' designing under ISO13606 standard to allow systems interoperability; breast cancer data integration from different data sources in a unified database; and designing a prototype of tool for managing and analysing clinical and genic expression data. In order to validate the proposal, a validation process in a real environment as Research Foundation INCLIVA in Valencia has been carried out. During this process, medical and biological researchers have use and assess the efficiency of solution proposed in this doctoral thesis. / El diagnóstico, tratamiento e investigación sobre enfermedades tan complejas como el cáncer de mama es una tarea cada vez más complicada por la gran cantidad y diversidad de datos implicados y por la necesidad de relacionarlos adecuadamente para obtener conclusiones relevantes. La generación de los datos clínicos tiene que estar acompañada de una gestión eficiente de los mismos. Ello hace imprescindible la utilización de tecnologías avanzadas de Sistemas de Información que aseguren un correcto almacenamiento, gestión y explotación de los datos. Tras un profundo estudio del dominio y de las tecnologías utilizadas para el almacenamiento y gestión de datos clínicos y biológicos sobre la enfermedad, el objetivo principal de esta tesis es ofrecer una base metodológica que permita diseñar y desarrollar sistemas software para la manipulación eficiente y fiable de la información sobre el cáncer de mama. La utilización de técnicas de Modelado Conceptual en un entorno donde su uso no es tan habitual como debiera ser, permitirá disponer de un sistema de información perfectamente adaptado al dominio de aplicación. Bajo este planteamiento, en esta tesis se ha llevado a cabo el modelado conceptual del dominio del diagnóstico, tratamiento e investigación del cáncer de mama, el diseño de arquetipos bajo el estándar ISO13606 para ofrecer interoperabilidad entre sistemas, la integración de datos de distintos orígenes relacionados con el cáncer de mama en una base de datos unificadora y el diseño de un prototipo de herramienta de gestión y análisis de datos clínicos y de expresión génica. Para validar la idoneidad de esta propuesta, se ha llevado a cabo un proceso de validación en un entorno real como es la Fundación de Investigación INCLIVA de Valencia, donde investigadores clínicos y biólogos han probado y valorado la eficiencia de la solución planteada en esta tesis doctoral. / El diagnòstic, tractament i investigació sobre malalties tan complexes com ara el càncer de mama és una tasca cada vegada més complexa per la gran quantitat i diversitat de dades implicades i per la necessitat de relacionar-les adequadament per a obtenir conclusions rellevants. La generació de dades clíniques ha d'estar acompanyada d'una gestió eficient de les mateixes. Açò fa imprescindible la utilització de tecnologies avançades de Sistemes d'Informació que asseguren un correcte emmagatzematge, gestió i explotació de les dades. Després d'un profund estudi del domini i de les tecnologies utilitzades per l'emmagatzematge i gestió de dades clíniques i biològiques sobre la malaltia, el principal objectiu d'aquesta tesi és oferir una base metodològica que permeta dissenyar i desenvolupar sistemes programaris per a la manipulació eficient i fiable de la informació sobre el càncer de mama. La utilització de tècniques de Modelat Conceptual en un entorn on el seu ús no és tan habitual com deuria ser, permetrà disposar d'un sistema d'informació perfectament adaptat al domini d'aplicació. Baix aquest plantejament, en aquesta tesi s'ha dut a terme el modelat conceptual del domini del diagnòstic, tractament i investigació del càncer de mama, el disseny d'arquetips baix l'estàndard ISO13606 per oferir interoperabilitat entre sistemes, la integració de dades de distints orígens sobre el càncer de mama en una base de dades unificadora i el disseny d'un prototip d'eina de gestió i anàlisi de dades clíniques i d'expressió gènica. Per a validar la idoneïtat d'aquesta proposta, s'ha dut a terme un procés de validació en un entorn real com és la Fundació d'Investigació INCLIVA de València, on investigadors clínics i biòlegs han provat i valorat l'eficiència de la solució plantejada en aquesta tesi doctoral. / Burriel Coll, V. (2017). Diseño y Desarrollo de un Sistema de Información para la Gestión de Información sobre Cáncer de Mama [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86158 sistema de información modelado conceptual cáncer de mama integración de datos datos clínicos datos genómicos arquetipos LENGUAJES Y SISTEMAS INFORMATICOS
3	Data Integration with XML and Semantic Web Technologies Tous Liesa, Rubén 04 October 2006 (has links) En general, la integració de múltiples bases de dades heterogènies té com a objectiu oferir una visió unificada sobre un conjunt de dades preexistent. Aquesta tesi contribueix a diferents aspectes del disseny de sistemes de integració de dades moderns en el context de la World Wide Web. Per un costat, la tesi contribueix a la línia de recerca de la Integració Semàntica, que fa referència al problema de reconciliar dades de fonts autònomes mitjançant l'ús d'ontologies i altres eines semàntiques. La tesi suggereix una nova solució a la integració semàntica XML-RDF, i també contribueix al problema de l'Alineació d'Ontologies, definint una mesura de similitud semàntica rigorosa i escalable per grafs etiquetats i dirigits RDF. Per un altre costat, la tesi suggereix una nova solució al problema de traduir una consulta d'un usuari (dirigida a un esquema lògic intermediari), en consultes sobre un conjunt de fonts de dades autònomes, provistes de interfícies web restringides. / En general, la integración de múltiples bases de datos heterogenias tiene como objetivo ofrecer una visión unificada sobre un conjunto de datos preexistente. Esta tesis contribuye a diferentes aspectos del diseño de sistemas de integración de datos modernos en el contexto de la World Wide Web. Por un lado, la tesis contribuye a la línea de investigación de la Integración Semántica, que hace referencia al problema de reconciliar datos de fuentes autónomas mediante el uso de ontologías i otras herramientas semánticas. La tesis sugiere una nueva solución a la integración semántica XML-RDF, y también contribuye al problema de la Alineación de Ontologías, definiendo una medida de similitud semántica rigurosa i escalable para grafos etiquetados y dirigidos RDF. Por otro lado, la tesis sugiere una nueva solución al problema de traducir una consulta de un usuario (dirigida a un esquema lógico intermediario), en consultas sobre un conjunto de fuentes de datos autónomas, provistas de interfaces web restringidas. / In general, integration of multiple heterogeneous databases aims at giving a unified view over a set of pre-existent data. This thesis contributes to different aspects of the design of modern data integration systems in the context of the World Wide Web. On one hand, this thesis contributes to the Semantic Integration research trend, which refers to the problem of reconciling data from autonomous sources using ontologies and other semantic-based tools. The thesis suggests a novel solution to XML-RDF semantic integration and also contributes to the problem of Ontology Alignment, defining a rigorous and scalable semantic similarity measure for RDF labelled directed graphs. On the other hand, this thesis suggests a novel solution to the problem of translating a user query (targeting a logical mediated schema), into queries over a set of autonomous data sources provided with restricted web interfaces. data integration semantic web alineación de ontologías ontología web semántica RDF integración de datos XML ontologia alineació d'ontologies web semàntica world wide web integració de dades ontology ontology alignment 004
4	Un sistema para el mantenimiento de almacenes de datos García Gerardo, Clemente 04 July 2008 (has links) Un almacén de datos es una base de datos diseñada para dar soporte al proceso de toma de decisiones en una organización. Un sistema de almacén de datos integra en un único repositorio, información histórica procedente de distintas fuentes de datos operacionales de la organización o externas a ella. Para que el almacén de datos sea en todo momento un reflejo fiel de la organización a la que sirve, debe ser actualizado periódicamente. Este proceso puede consumir muchos recursos, y en algunos casos inhabilitar el almacén de datos para los usuarios. En organizaciones donde el sistema debe estar disponible para los analistas en todo momento, el mantenimiento del almacén se convierte en un punto crítico del sistema. Por este motivo la investigación en estrategias eficientes de mantenimiento de almacenes de datos ha recibido la atención de los investigadores desde la aparición de esta tecnología. El mantenimiento de un almacén de datos se realiza en tres fases: extracción de datos de las fuentes, transformación de los datos y actualización del almacén. En este trabajo de tesis se han abordado, las fases de transformación y principalmente la fase de actualización. Para la fase de transformación se ha desarrollado un sistema que permite realizar tareas de limpieza moderada de los datos, integración de formato e integración semántica. Pero, el trabajo principal se ha centrado en la fase de actualización, para ella se han definido e implementado dos algoritmos que permiten realizar la actualización del almacén de datos de forma incremental y en línea, es decir evitando inhabilitar el almacén de datos durante el mantenimiento. Los algoritmos se basan en una estrategia multiversión, que permite mantener un número ilimitado de versiones de los datos actualizados, permitiendo de esta manera que los usuarios accedan a una misma versión del almacén mientras éste se está actualizando. / García Gerardo, C. (2008). Un sistema para el mantenimiento de almacenes de datos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/2505 Almacenes de datos Mantenimiento de almacenes de datos Integración de datos Actualización de almacenes de datos Vistas materializadas LENGUAJES Y SISTEMAS INFORMATICOS 1203 - Ciencia de los ordenadores 12 - Matemáticas
5	Development and application of computational methdologies for Integrated Molecular Systems Biology Karathia, Hiren Mahendrabhai 30 November 2012 (has links) L'objectiu del treball presentat en aquesta tesi va ser el desenvolupament i l'aplicació de metodologies computacionals que integren l’anàlisis de informació sobre seqüències proteiques, informació funcional i genòmica per a la reconstrucció, anotació i organització de proteomes complets, de manera que els resultats es poden comparar entre qualsevol nombre d'organismes amb genomes completament seqüenciats. Metodològicament, m'he centrat en la identificació de l'organització molecular dins d'un proteoma complet d'un organisme de referència i comparació amb proteomes d'altres organismes, en espacial, estructural i funcional, el teixit cel • lular de desenvolupament, o els nivells de la fisiologia. La metodologia es va aplicar per abordar la qüestió de la identificació de organismes model adequats per a estudiar diferents fenòmens biològics. Això es va fer mitjançant la comparació d’un conjunt de proteines involucrades en diferents fenòmens biològics en Saccharomyces cerevisiae i Homo sapiens amb els conjunts corresponents d'altres organismes amb genomes. La tesi conclou amb la presentació d'un servidor web, Homol-MetReS, en què s'implementa la metodologia. Homol-MetReS proporciona un entorn de codi obert a la comunitat científica en què es poden realitzar múltiples nivells de comparació i anàlisi de proteomes. / El objetivo del trabajo presentado en esta tesis fue el desarrollo y la aplicación de metodologías computacionales que integran el análisis de la secuencia y de la información funcional y genómica, con el objetivo de reconstruir, anotar y organizar proteomas completos, de tal manera que estos proteomas se puedan comparar entre cualquier número de organismos con genomas completamente secuenciados. Metodológicamente, I centrado en la identificación de organización molecular dentro de un proteoma completo de un organismo de referencia, vinculando cada proteína en que proteoma a las proteínas de otros organismos, de tal manera que cualquiera puede comparar los dos proteomas en espacial, estructural, funcional tejido, celular, el desarrollo o los niveles de la fisiología. La metodología se aplicó para abordar la cuestión de la identificación de organismos modelo adecuados para estudiar diferentes fenómenos biológicos. Esto se hizo comparando conjuntos de proteínas involucradas en diferentes fenómenos biológicos en Saccharomyces cerevisiae y Homo sapiens con los conjuntos correspondientes de otros organismos con genomas completamente secuenciados. La tesis concluye con la presentación de un servidor web, Homol-MetReS, en el que se implementa la metodología. Homol-MetReS proporciona un entorno de código abierto a la comunidad científica en la que se pueden realizar múltiples niveles de comparación y análisis de proteomas. / The aim of the work presented in this thesis was the development and application of computational methodologies that integrate sequence, functional, and genomic information to provide tools for the reconstruction, annotation and organization of complete proteomes in such a way that the results can be compared between any number of organisms with fully sequenced genomes. Methodologically, I focused on identifying molecular organization within a complete proteome of a reference organism and comparing with proteomes of other organisms at spatial, structural, functional, cellular tissue, development or physiology levels. The methodology was applied to address the issue of identifying appropriate model organisms to study different biological phenomena. This was done by comparing the protein sets involved in different biological phenomena in Saccharomyces cerevisiae and Homo sapiens. This thesis concludes by presenting a web server, Homol-MetReS, on which the methodology is implemented. It provides an open source environment to the scientific community on which they can perform multi-level comparison and analysis of proteomes. Sistemes de Biologia Molecular Integració de dades biològiques Biologia Computacional Anàlisi de la seqüència Sistemas de Biología Molecular Integración de datos biológicos Biología Computacional Molecular Systems Biology Proteome Computational Biology Bioquímica i Biologia Molecular 573
6	Digital Twin Knowledge Graphs for IoT Platforms : Towards a Virtual Model for Real-Time Knowledge Representation in IoT Platforms / Digital Twin Kunskapsgrafer för IoT-Plattformar : Mot en Virtuell Modell för Kunskapsrepresentation i Realtid i IoT-Plattformar Jarabo Peñas, Alejandro January 2023 (has links) This thesis presents the design and prototype implementation of a digital twin based on a knowledge graph for Internet of Things (IoT) platforms. The digital twin is a virtual representation of a physical object or system that must continually integrate and update knowledge in rapidly changing environments. The proposed knowledge graph is designed to store and efficiently query a large number of IoT devices in a complex logical structure, use rule-based reasoning to infer new facts, and integrate unanticipated devices into the existing logical structure in order to adapt to changing environments. The digital twin is implemented using the open-source TypeDB knowledge graph and tested in a simplified automobile production line environment. The main focus of the work is on the integration of unanticipated devices, for which a similarity metric is implemented to identify similar existing devices and determine the appropriate integration into the knowledge graph. The proposed digital twin knowledge graph is a promising solution for managing and integrating knowledge in rapidly changing IoT environments, providing valuable insights and support for decision-making. / I den här avhandlingen presenteras utformningen och prototypimplementeringen av en digital tvilling baserad på en kunskapsgraf för IoT-plattformar (Internet of Things). Den digitala tvillingen är en virtuell representation av ett fysiskt objekt eller system som måste integrera och uppdatera kunskap i snabbt föränderliga miljöer. Den föreslagna kunskapsgrafen är utformad för att lagra och effektivt söka efter en stor uppsättning IoT-enheter i en komplex logisk struktur, använda regelbaserade resonemang för att härleda nya fakta och integrera oväntade enheter i den befintliga logiska strukturen för att anpassa sig till föränderliga miljöer. Den digitala tvillingen genomförs med hjälp av kunskapsgrafen TypeDB med öppen källkod och testas i en förenklad miljö för bilproduktion. Huvudfokus ligger på integrationen av oväntade enheter, för vilka ett likhetsmått implementeras för att identifiera liknande befintliga enheter och bestämma lämplig integration i kunskapsgrafen. Den föreslagna kunskapsgrafen för digitala tvillingar är en lovande lösning för att hantera och integrera kunskap i snabbt föränderliga IoT-miljöer, vilket ger värdefulla insikter och stöd för beslutsfattande. / Esta tesis presenta el diseño e implementación de un prototipo de gemelo digital basado en un grafo de conocimiento para plataformas de Internet de las Cosas (IoT). El gemelo digital es una representación virtual de un objeto o sistema físico que debe integrar y actualizar continuamente el conocimiento en entornos que cambian rápidamente. El grafo de conocimiento propuesto está diseñado para almacenar y consultar eficientemente un gran número de dispositivos IoT en una estructura lógica compleja, utilizar el razonamiento basado en reglas para inferir nuevos hechos e integrar dispositivos imprevistos en la estructura lógica existente para adaptarse a los cambios del entorno. El gemelo digital se implementa utilizando el grafo de conocimiento de código abierto TypeDB y se prueba en un entorno simplificado basado en una línea de producción de automóviles. El objetivo principal del trabajo es la integración de dispositivos no previstos, para lo cual se implementa una métrica de similitud para identificar dispositivos existentes similares y determinar la integración adecuada en el grafo de conocimiento. El grafo de conocimiento propuesto es una solución prometedora para la gestión del conocimiento y la integración en entornos IoT que cambian rápidamente, proporcionando información valiosa y apoyo a la toma de decisiones. Internet of Things Digital Twin Knowledge Graph Similarity Metric Semantic Data Integration Internet of Things Digital Twin Kunskapsgraf Likhetmetrik Integrering av Semantiska Data Internet of Things Gemelo Digital Grafo de Conocimiento Métrica de Similitud Integración de Datos Semánticos. Elektroteknik och elektronik
7	Integrative approaches to investigate the molecular basis of diseases and adverse drug reactions: from multivariate statistical analysis to systems biology Bauer-Mehren, Anna 08 November 2010 (has links) Despite some great success, many human diseases cannot be effectively treated, prevented or cured, yet. Moreover, prescribed drugs are often not very efficient and cause undesired side effects. Hence, there is a need to investigate the molecular basis of diseases and adverse drug reactions in more detail. For this purpose, relevant biomedical data needs to be gathered, integrated and analysed in a meaningful way. In this regard, we have developed novel integrative analysis approaches based on both perspectives, classical multivariate statistics and systems biology. A novel multilevel statistical method has been developed for exploiting molecular and pharmacological information for a set of drugs in order to investigate undesired side effects. Systems biology approaches have been used to study the genetic basis of human diseases at a global scale. For this purpose, we have developed an integrated gene-disease association database and tools for user-friendly access and analysis. We showed that modularity applies for mendelian, complex and environmental diseases and identified disease-related core biological processes. We have constructed a workflow to investigate adverse drug reactions using our gene-disease association database. A detailed study of currently available pathway data has been performed to evaluate its applicability to build network models. Finally, a strategy to integrate information about sequence variations with biological pathways has been implemented to study the effect of the sequence variations onto biological processes. In summary, the developed methods are of immense practical value for other biomedical researchers and can aid to improve the understanding of the molecular basis of diseases and adverse drug reactions.A pesar de que existen tratamientos eficaces para las enfermedades, no hay todavía una cura o un tratamiento efectivo para muchas de ellas. Asimismo los medicamentos pueden ser ineficaces o causar efectos secundarios indeseables. Por lo tanto, es necesario investigar en profundidad las bases moleculares de las enfermedades y de los efectos secundarios de los medicamentos. Para ello, es necesario identificar y analizar de forma integrada los datos biomédicos relevantes. En este sentido, hemos desarrollado nuevos métodos de análisis e integración de datos biomédicos que van desde el análisis estadístico multivariante a la biología de sistemas. En primer lugar, hemos desarrollado un nuevo método estadístico multinivel para la explotación de la información molecular y farmacológica de un conjunto de drogas a fin de investigar efectos secundarios no deseados. Luego, hemos usado métodos de biología de sistemas para estudiar las bases genéticas de enfermedades humanas a escala global. Para ello, hemos integrado en una base de datos asociaciones entre genes y enfermedades y hemos desarrollado herramientas para el fácil acceso y análisis de los datos. Mostramos que las enfermedades mendelianas, complejas y ambientales presentan modularidad e identificamos los procesos biológicos relacionados con dichas enfermedades. Hemos construido una herramienta para investigar las reacciones adversas a los medicamentos basada en nuestra base de datos de asociaciones entre genes y enfermedades. Realizamos un estudio detallado de los datos disponibles sobre los procesos biológicos para evaluar su aplicabilidad en la construcción de modelos dinámicos. Por último, desarrollamos una estrategia para integrar la información sobre las variaciones de secuencia de genes con los procesos biológicos para estudiar el efecto de dichas variaciones en los procesos biológicos. En resumen, los métodos presentados en esta tesis constituyen una herramienta valiosa para otros investigadores y pueden ayudar a mejorar la comprensión de las bases moleculares de las enfermedades y de las reacciones adversas a los medicamentos. redes biológicas procesos biológicos análisis de redes asociaciones entre genes y enfermedades efectos adversos a medicamentos análisis estadístico multivariante investigación biomédica biología de enfermedades biología de sistemas integración de datos biología computacional bioinformática drug safety signal genetic origin of disease network biology biological pathway gene-disease associations multivariate statistical analysis adverse drug reactions disease biology biomedical research systems biology data integration computational biology bioinformatics 57

1

Page generated in 0.0566 seconds