Global ETD Search

171	Una aproximación lexicológica al inglés de la fotografía Mykytka, Iryna 15 November 2018 (has links) La intención de la presente tesis doctoral ha sido describir el léxico del inglés de la fotografía como lenguaje específico. En concreto ha pretendido identificar los términos fotográficos, describir los rasgos del registro fotográfico, analizar los diferentes mecanismos de creación de palabras, estudiar los préstamos léxicos y las metáforas, clasificar los términos según los diferentes grados de especialización (desde términos muy técnicos hasta términos ligeramente técnicos) y elaborar un glosario de la terminología fotográfica en lengua inglesa. Para llevar a cabo estos objetivos se ha compilado un corpus textual de aproximadamente 900.000 palabras utilizando como fuentes blogs especializados de fotografía y siguiendo los criterios de representatividad, actualidad, y accesibilidad. Como resultado, se han recogido 1.144 términos fotográficos de nuestra muestra. Por un lado, se han clasificado según los diferentes grados de tecnicidad: términos muy técnicos (Categoría 1) (por ej. Bayer filter, cold shoe, daguerreotype, HDR), técnicos (Categoría 2) (por ej. blind, banding, crop, clipping), moderadamente técnicos (Categoría 3) (por ej. álbum, autofocus, lens, flash), y ligeramente técnicos (Categoría 4) (por ej. amateur, brightness, colour, landscape). La mayoría (84%) son palabras con significado opaco, pertenecientes a las Categorías 1 y 2, únicamente conocidos por los expertos, cuando tan solo un 16%, pertenecientes a las Categorías 3 y 4, poseen un significado accesible por el público general. Por otro lado, los términos localizados se han estudiado según los mecanismos de formación de palabras identificando palabras compuestas (por ej. accent light, lens cap, photowalk, shutter speed), neoclásicas (por ej. monopod, photograph, pentamirror), derivadas (por ej. oversharpen, retouch, postproduction), acortadas (por ej. cam, pic, comp, tog), los cruces léxicos (por ej. gobo, memcrad, digicam), la conversión (focus, vignette, gel, frame, backlight), las abreviaturas y siglas (mm, Mk, ISO, Lomo). El mecanismo más productivo en el lenguaje analizado es la composición que ha dado lugar a 571 formaciones (50% de la muestra), seguida de la derivación en segundo lugar con 145 términos (13% del total), las abreviaturas y siglas en el tercer puesto con 103 términos (9%), la conversión en el cuarto que ha formado 74 términos (6%) y los compuestos neoclásicos en el quinto con 42 términos (3% de la muestra), siendo los acortamientos y los cruces léxicos los menos productivos con 21 (2%) y 10 términos (1%) respectivamente. De igual forma, en este estudio se ha confirmado que el lenguaje fotográfico hace uso de palabras prestadas de otros idiomas. Los más comunes, como es de esperar, son las lenguas clásicas (por ej. aberration, saturation, digital) y el francés (por ej. blue hour, boudoir, diopter), aunque también existen casos de japonés (bokeh), italiano (paparazzi), español (lasso), alemán (film), sueco (tungsten), y chino (Holga). Asimismo, se ha detectado el uso de metáforas en el discurso fotográfico. Por una parte, se han distinguido metáforas lingüísticas como mecanismo de formación de palabras, esto es, palabras existentes que han adquirido significados propios dentro del contexto fotográfico (por ej. shutter, body, barrel, hood, plate), y, por otra parte, se ha localizado el uso de metáforas conceptuales, es decir, la fotografía proyectada a otros dominios usando palabras de esos dominios (por ej. FOTOGRAFÍA ES UNA GUERRA, FOTOGRAFÍA ES UNA CAZA). Por último, se ha de señalar que el léxico de la fotografía demuestra gran diversidad, desde los términos técnicos, cuyo número crece constantemente gracias a los avances científico-tecnológicos, pasando por el vocabulario artístico, proveniente de una relación cercana entre la fotografía y el arte, especialmente la pintura, hasta el vocabulario usado diariamente. A nivel estilístico el léxico fotográfico también presenta variedad ya que, en nuestra muestra, se han localizado diferentes versiones de los mismos conceptos, i.e palabras coloquiales (por ej. photographer/photog). A nivel semántico, parece que estamos, en cierta medida, ante un lenguaje agresivo (por ej. shoot, capture), cuyos orígenes se remontan a la evolución de una cámara fotográfica, y la aparición de los fotógrafos aficionados, sobre todo. Además, se trata de un léxico con un alto grado de términos abstractos, debido, por un lado, a su relación con el arte, la ciencia, y la tecnología, y por el otro, a que la fotografía es un dominio visual, siendo la mayoría de las fotografías algo abstracto, en formato digital; además muchos términos definen ideas abstractas, desde las numerosas herramientas de Photoshop (por ej. Sponge Tool, Selection Tool, Adjustment Tool) hasta las diferentes técnicas usadas por los fotógrafos (por ej. lightpainting, dragging the shutter). Igualmente, el léxico de la fotografía presenta un alto uso de sinestesia, es decir, la transposición de los sentidos (por ej. warm colours). Para terminar, la presente tesis ha pretendido arrojar luz sobre algunos aspectos lingüísticos del inglés de la fotografía y contribuir al estudio de los lenguajes de especialidad o, más concretamente, el Inglés para Fines Específicos. Cabría apuntar que el lenguaje de la fotografía presenta una gran variedad y riqueza lingüística, que todavía ofrece mucho para explorar dado que este es un estudio limitado, mayoritariamente enfocado hacia los mecanismos de formación de palabras, basado en una muestra particular. Léxico Lenguajes específicos Inglés para Fines Específicos Terminología Mecanismos de formación de palabras Fotografía Filología Inglesa
172	A Hybrid Infrastructure of Enterprise Architecture and Business Intelligence & Analytics to Empower Knowledge Management in Education Moscoso-Zea, Oswaldo 09 May 2019 (has links) The large volumes of data (Big Data) that are generated on a global scale and within organizations along with the knowledge that resides in people and in business processes makes organizational knowledge management (KM) very complex. A right KM can be a source of opportunities and competitive advantage for organizations that use their data intelligently and subsequently generate knowledge with them. Two of the fields that support KM and that have had accelerated growth in recent years are business intelligence (BI) and enterprise architecture (EA). On the one hand, BI allows taking advantage of the information stored in data warehouses using different operations such as slice, dice, roll-up, and drill-down. This information is obtained from the operational databases through an extraction, transformation, and loading (ETL) process. On the other hand, EA allows institutions to establish methods that support the creation, sharing and transfer of knowledge that resides in people and processes through the use of blueprints and models. One of the objectives of KM is to create a culture where tacit knowledge (knowledge that resides in a person) stays in an organization when qualified and expert personnel leave the institution or when changes are required in the organizational structure, in computer applications or in the technological infrastructure. In higher education institutions (HEIs) not having an adequate KM approach to handle data is even a greater problem due to the nature of this industry. Generally, HEIs have very little interdependence between departments and faculties. In other words, there is low standardization, redundancy of information, and constant duplicity of applications and functionalities in the different departments which causes inefficient organizations. That is why the research performed within this dissertation has focused on finding an adequate KM method and researching on the right technological infrastructure that supports the management of information of all the knowledge dimensions such as people, processes and technology. All of this with the objective to discover innovative mechanisms to improve education and the service that HEIs offer to their students and teachers by improving their processes. Despite the existence of some initiatives, and papers on KM frameworks, we were not able to find a standard framework that supports or guides KM initiatives. In addition, KM frameworks found in the literature do not present practical mechanisms to gather and analyze all the knowledge dimensions to facilitate the implementation of KM projects. The core contribution of this thesis is a hybrid infrastructure of KM based on EA and BI that was developed from research using an empirical approach and taking as reference the framework developed for KM. The proposed infrastructure will help HEIs to improve education in a general way by analyzing reliable and cleaned data and integrating analytics from the perspective of EA. EA analytics takes into account the interdependence between the objects that make up the organization: people, processes, applications, and technology. Through the presented infrastructure, the doors are opened for the realization of different research projects that increment the type of knowledge that is generated by integrating the information of the applications found in the data warehouses together with the information of the people and the organizational processes that are found in the EA repositories. In order to validate the proposal, a case study was carried out within a university with promising initial results. As future works, it is planned that different HEIs' activities can be automated through a software development methodology based on EA models. In addition, it is desired to develop a KM system that allows the generation of different and new types of analytics, which would be impossible to obtain with only transactional or multidimensional databases. Enterprise Architecture Business Intelligence Data Analytics Knowledge Management Lenguajes y Sistemas Informáticos
173	Marco de referencia para la publicación de datos abiertos comprensibles basado en estándares de calidad Cadena-Vela, Susana 20 November 2019 (has links) Los portales donde se publican datos abiertos son una oportunidad para democratizar el acceso a la información generada por las instituciones del sector público, así como potenciar su reutilización. Esta reutilización de datos abiertos permite el desarrollo de nuevos productos y servicios digitales, creando oportunidades de desarrollo social y económico. Sin embargo, la reutilización de estos datos se enfrenta con diversas barreras en su expansión, debido a diversos problemas relacionados con la calidad de datos que van desde la incompletitud de los datos hasta la falta de actualización de los mismos. En concreto, un criterio relevante de calidad de datos abiertos es la comprensibilidad, ya que un proceso de interpretación errónea de los datos abiertos provocará ambigüedades o malentendidos que desmotivará su reutilización. Por esta razón, un aspecto importante en el acceso a los datos abiertos son sus metadatos, es decir aquellos datos que describen el contenido del conjunto de datos abiertos, cuya finalidad es facilitar su comprensión. Con el fin de mejorar la comprensibilidad de los datos abiertos, las propuestas actuales se centran en la evaluación de los datos ya publicados, no existiendo propuestas que evalúen cómo se puede mejorar la comprensibilidad de los datos abiertos desde los sistemas de información de origen del dato. Esta tesis doctoral revisa y analiza los trabajos de investigación en datos abiertos mediante el desarrollo de un mapeo sistemático, incluyendo un análisis de barreras en la reutilización de datos abiertos, así como buenas prácticas y estándares aplicables al proceso de publicación de datos en formatos abiertos. Este análisis sistemático de trabajos previos de investigación ha servido como punto de partida para la definición de un marco de referencia que permita la publicación de datos abiertos comprensibles. En este marco de referencia se considera la comprensibilidad de los datos abiertos mediante la gestión de los metadatos desde las mismas fuentes de datos en los sistemas de información de origen, incluyendo el concepto de fichero de datos maestros de apertura. Finalmente, cabe destacar que, a través de la aplicación del método de investigación-acción, se ha validado el marco de referencia, utilizando entrevistas y grupos de discusión con varios administradores de portales de datos abiertos. Datos abiertos Comprensibilidad Calidad de datos Gestión de datos maestros Lenguajes y Sistemas Informáticos
174	Resolución y generación de la anáfora pronominal en español e inglés en un sistema interlingua de traducción automática Peral, Jesús 30 November 2001 (has links) No description available. Traducción automática Interlingua Lenguajes y Sistemas Informáticos
175	Diseño causal de sistema piramidal para aprendizaje colaborativo de los lenguajes de programación Rosa de Rivera, Verónica Idalia 21 July 2021 (has links) Esta tesis doctoral ha provocado un cambio de actitud y mentalidad; porque la forma de realizar investigación hasta el momento había sido basada en resultados, es decir, primero se piensa cual será el resultado que se obtendrá o hacia donde se debe llegar, que es lo que se va a producir, utilizando en este caso el método de abajo hacia arriba (bottom up). Sin embargo, este informe se ha realizado bajo una metodología causal, es decir, interesa conocer primeramente cual será el modelo para luego contestar preguntas ¿qué es? y ¿para qué es?, debido a que así se decide un modelo que servirá de marco a la solución y se concretan los objetivos, ya sin ambigüedad, que se persigue alcanzar. Posteriormente se irán contestando las preguntas de ¿cómo?, ¿cuándo? y ¿quién lo hará? Porque así se establece la estructura de la solución, la tecnología que la soportará, y el contexto. Por esa razón, este trabajo aborda aspectos diferentes a las formas tradicionales de resolver un problema en particular, sobre el cual ya se conocen otras soluciones. El método bottom-up puede utilizarse cuando se conoce de antemano la solución por otros casos parecidos; y el top-down es el método general cuando no se tiene mayor conocimiento previo sobre cuál puede ser la solución. De allí que para esta investigación se ha hecho uso del método top-down. Por lo tanto, el grado de Doctora permitirá, resolver problemas haciendo uso de método científico, procurando evitar incorporar arbitrariedad o reduciendo esta a su mínima expresión y, con ello, garantizando la calidad de la solución. Se persigue producir un avance en el estado del conocimiento, en el caso particular de la educación piramidal en el que se ha trabajado bajo un enfoque colaborativo jerarquizado, para la enseñanza de los lenguajes de programación, a través de una plataforma didáctica virtual, en la cual personas con un nivel de educación superior pueden tutorar a otros de nivel educativo inferior para, de esa manera, poder mejorar el proceso de enseñanza-aprendizaje en la Universidad Tecnológica de El Salvador, aunque cabe mencionar que este proyecto podrá ser aplicado a cualquier institución educativa ya sea formal o informal. El objetivo principal es que mediante la educación piramidal y por medio del uso de una plataforma virtual, se pueda dar apoyo en el aprendizaje de cualquier área del conocimiento, que en el caso particular se abordarán los lenguajes de programación, por ser parte fundamental de las carreras de Informática y del área de competencia docente de la autora. Metodología causal Educación piramidal Top down Bottom up Lenguajes de programación
176	A Discourse-Aware Macroplanning Approach for Text Generation and Beyond Vicente, Marta 16 December 2021 (has links) El trabajo presentado en esta tesis se ha desarrollado dentro del área de generación de lenguaje natural (GLN), disciplina dedicada a investigar e implementar aplicaciones capaces de producir textos coherentes y comprensibles. Al estudiar el contexto de la disciplina, detectamos una carencia de enfoques que, sin requerir excesivos recursos, incorporasen mecanismos apropiados tanto para aprehender mejor el significado de la entrada, como para proporcionar un resultado más consistente y coherente, cuando la entrada del proceso es un texto conformado como discurso. Nuestra investigación se planteó como una propuesta orientada a subsanar este déficit, de modo que la idea de contribuir a la creación de sistemas de generación más adaptables ha constituido el motor del presente trabajo que, estando profundamente arraigado en el ámbito de la GLN, pretende también beneficiar a otras tareas más orientadas a la comprensión del lenguaje. Dado que el campo de GLN es extremadamente amplio, decidimos abordar un aspecto específico del proceso de generación. Nos centramos principalmente en una parte del proceso responsable de seleccionar y organizar el contenido que debe aparecer en la salida del sistema. Esta fase se conoce generalmente como macroplanificación. El núcleo de esta investigación se basa en la idea de que el proceso de generación debe estar estrechamente ligado, condicionado por el significado que emerge del texto como discurso. Así pues nuestro objetivo principal se centró en la definición de una metodología para la etapa de macroplanificación que, en primer lugar, aprovechara la información semántica y estructural del texto concebido como discurso y, en segundo lugar, permitiera su adaptación a múltiples escenarios (aplicaciones, dominios) sin un requisito elevado de recursos. Siguiendo este planteamiento, la hipótesis inicial de esta investigación establece que la explotación de la información semántica, también determinada por la estructura del discurso, tomada como base para diseñar una metodología de macroplanificación basada en datos (esto es, aprovechando las técnicas estadísticas), puede conducir a sistemas más flexibles, adaptables, equipados adecuadamente para proporcionar textos más coherentes y significativos. Nos alineamos en este sentido con una corriente de investigación que defiende que la incorporación del conocimiento estructural que procede del discurso deviene en una representación del discurso más completa y efectiva. Para lograr nuestro propósito, estudiamos y aplicamos una metodología basada en un tipo de modelos de lenguaje designados como modelos de lenguaje posicionales, capaces de capturar tanto información relevante como posicional. Mediante una serie de experimentos, analizamos su comportamiento y estudiamos cómo variaciones en su configuración nos permitían ejercer cierto control sobre la complejidad estructural de los resultados. Adaptamos la metodología a diferentes dominios y tareas dentro del campo de la GLN: generación de cuentos, creación de resúmenes extractivos y producción de titulares de noticias desde un enfoque abstractivo, con resultados positivos considerando tanto evaluaciones intrínsecas como extrínsecas, humanas y automáticas. Más aún, alejándonos del ámbito de la GLN, en línea con nuestros objetivos iniciales, quisimos comprobar que nuestro enfoque puede contribuir también a otras tareas del ámbito del procesamiento de lenguaje natural. Para ello, adaptamos nuestra metodología a un sistema destinado a detectar y clasificar titulares engañosos, con resultados que demuestran la conveniencia de emplear los principios establecidos a lo largo de la tesis para la resolución de la tarea de detección de postura o posicionamiento. Las posibilidades de aplicación de nuestro planteamiento son muy diversas y entrañan diferentes niveles de complejidad. Y si bien en el transcurso de nuestra investigación hemos detectado un número de limitaciones, también hemos identificado potenciales desarrollos. Ambos aspectos constituyen el núcleo de esta tesis y conforman la semilla de nuestros planes futuros, pues señalan nuevas fronteras para nuestro trabajo incluyendo, entre otras, la aplicación del enfoque presentado a diferentes lenguajes, la profundización en la dimensión pragmática del discurso y su incorporación, la hibridación de los modelos de lenguaje empleados con técnicas basadas en aprendizaje profundo o la incorporación de la metodología a otras tareas de comprensión del lenguaje, como la inferencia, la implicación textual o la búsqueda de respuestas. / Esta tesis ha sido financiada por la Generalitat Valenciana a través del contrato ACIF/2016/501 y la ayuda BEFPI/2018/070, así como los proyectos PROMETEOII/2014/001 y PROMETEO/2018/089. También ha participado en su financiación el Gobierno de España a través de los proyectos TIN2015-65100-R y RTI2018-094649-B-I00. Procesamiento de lenguaje natural Generación de lenguaje natural Discurso Semántica Macroplanificación Resúmenes automáticos Lenguajes y Sistemas Informáticos
177	Descubrimiento Automático de Flujos de Aprendizaje de Máquina basado en Gramáticas Probabilı́sticas Estévez-Velarde, Suilan 02 December 2021 (has links) El aprendizaje de máquinas ha ganado terreno utilizándose en casi todas las áreas de la vida cotidiana, ayudando a tomar decisiones en las finanzas, la medicina, el comercio y el entretenimiento. El desarrollo continuo de nuevos algoritmos y técnicas de aprendizaje automático, y la amplia gama de herramientas y conjuntos de datos disponibles han traído nuevas oportunidades y desafíos para investigadores y profesionales tanto del mundo académico como de la industria. Seleccionar la mejor estrategia posible para resolver un problema de aprendizaje automático es cada vez más difícil, en parte porque requiere largos tiempos de experimentación y profundos conocimientos técnicos. En este escenario, el campo de investigación Automated Machine Learning (AutoML) ha ganado protagonismo, proponiendo estrategias para automatizar progresivamente tareas usuales durante el desarrollo de aplicaciones de aprendizaje de máquina. Las herramientas de AutoML más comunes permiten seleccionar automáticamente dentro de un conjunto restringido de algoritmos y parámetros la mejor estrategia para cierto conjunto de datos. Sin embargo, los problemas prácticos a menudo requieren combinar y comparar algoritmos heterogéneos implementados con diferentes tecnologías subyacentes. Un ejemplo es el procesamiento del lenguaje natural, un escenario donde varía el espacio de posibles técnicas a aplicar ampliamente entre diferentes tareas, desde el preprocesamiento hasta la representación y clasificación de textos. Realizar AutoML en un escenario heterogéneo como este es complejo porque la solución necesaria podría incluir herramientas y bibliotecas no compatibles entre sí. Esto requeriría que todos los algoritmos acuerden un protocolo común que permita la salida de un algoritmo para ser compartida como entradas a cualquier otro. En esta investigación se diseña e implementa un sistema de AutoML que utiliza técnicas heterogéneas. A diferencia de los enfoques de AutoML existentes, nuestra contribución puede combinar técnicas y algoritmos de diferentes bibliotecas y tecnologías, incluidos algoritmos de aprendizaje de máquina clásicos, extracción de características, herramientas de procesamiento de lenguaje natural y diversas arquitecturas de redes neuronales. Definimos el problema heterogéneo de optimización de AutoML como la búsqueda de la mejor secuencia de algoritmos que transforme datos de entrada específicos en la salida deseada. Esto proporciona un enfoque teórico y práctico novedoso para AutoML. Nuestra propuesta se evalúa experimentalmente en diversos problemas de aprendizaje automático y se compara con enfoques alternativos, lo que demuestra que es competitiva con otras alternativas de AutoML en los puntos de referencia estándar. Además, se puede aplicar a escenarios novedosos, como varias tareas de procesamiento de lenguaje natural, donde las alternativas existentes no se pueden implementar directamente. El sistema está disponible de forma gratuita e incluye compatibilidad incorporada con una gran cantidad de marcos de aprendizaje automático populares, lo que hace que nuestro enfoque sea útil para resolver problemas prácticos con relativa facilidad y esfuerzo. El uso de la herramienta propuesta en esta investigación permite a los investigadores y profesionales desarrollar rápidamente algoritmos de referencia optimizados en diversos problemas de aprendizaje automático. En algunos escenarios, la solución proporcionada por nuestro sistema podría ser suficiente. Sin embargo, los sistemas AutoML no deben intentar reemplazar a los expertos humanos, sino servir como herramientas complementarias que permitan a los investigadores obtener rápidamente mejores prototipos y conocimientos sobre las estrategias más prometedoras en un problema concreto. Las técnicas de AutoML abren las puertas a revolucionar la forma en que se realiza la investigación y el desarrollo del aprendizaje automático en la academia y la industria. AutoML Aprendizaje Automático Algoritmos evolutivos Gramática Tecnologías del Lenguaje Humano Lenguajes y Sistemas Informáticos
178	El modelo GOLD: un modelo conceptual orientado a objetos para el diseño de aplicaciones OLAP Trujillo, Juan 21 June 2001 (has links) No description available. Aplicaciones OLAP Modelado multidimensional Modelo GOLD Bases de datos Modelado conceptual Orientado a objetos Lenguajes y Sistemas Informáticos
179	Ecosistema para el Descubrimiento de Conocimiento en Lenguaje Natural Piad-Morffis, Alejandro 16 December 2021 (has links) La creciente cantidad de información publicada en línea presenta un reto significativo para la comunidad científica. La disponibilidad de estos recursos permite acelerar las investigaciones en múltiples ramas de la ciencia, al conectar resultados de diferentes grupos de investigadores. Sin embargo, el volumen de información producido es imposible de procesar por humanos en su totalidad, por lo que la comunidad científica desperdicia tiempo y recursos en redescubrir los mismos resultados, debido a la falta de comunicación. La aplicación de técnicas de inteligencia artificial permite construir sistemas computacionales que ayuden a los investigadores a buscar, analizar y conectar la información existente en grandes volúmenes de datos. Este proceso se denomina descubrimiento automático de conocimiento y es una rama de investigación con un creciente interés. El dominio de la salud es uno de los escenarios en los que el descubrimiento de conocimiento automático puede producir un mayor impacto en beneficio de la sociedad. La reciente pandemia de COVID-19 es un ejemplo donde la producción de artículos científicos ha superado con creces la capacidad de la comunidad científica para asimilarlos. Para mitigar este fenómeno se han publicado recursos lingüísticos que permitan construir sistemas de descubrimiento automático de conocimiento. Sin embargo, el descubrimiento de conocimiento requiere no solo de recursos lingüísticos, sino que necesita recursos computacionales e infraestructura disponibles para evaluar los resultados sistemáticamente y comparar objetivamente enfoques alternativos. Este trabajo describe un ecosistema que facilita la investigación y el desarrollo en el descubrimiento de conocimiento en el dominio biomédico, específicamente en idioma español, aunque puede ser extendido a otros dominios e idiomas. Con este fin, se desarrollan y comparten varios recursos con la comunidad investigadora, incluido un nuevo modelo de anotación semántica, cuatro corpus con más de 3000 oraciones y 40,000 anotaciones semánticas realizadas manualmente, así como recursos computacionales para construir y evaluar técnicas de descubrimiento automático de conocimiento. Entre estos recursos se ofrecen implementaciones baseline de algoritmos de descubrimiento de conocimiento que sirvan de base para construir soluciones más avanzadas. Además, se define una tarea de investigación con criterios de evaluación objetivos y se configura y mantiene un entorno de evaluación en línea que permite a los investigadores interesados en esta tarea obtener retroalimentación inmediata y comparar sus resultados con el estado del arte. Como caso de estudio, se analizan los resultados de varios equipos de investigadores en cuatro ediciones consecutivas de un desafío competitivo organizado en base a estos recursos. A partir de las experiencias obtenidas durante el proceso de anotación manual se diseña una estrategia de anotación asistida que permite reducir considerablemente el tiempo de anotación humano. El enfoque ayuda a los anotadores humanos seleccionando inteligentemente las oraciones más informativas para anotar y luego pre-anotarlas con algunas entidades y relaciones semánticas altamente precisas. Esta estrategia se evalúa en los corpus desarrollados en esta investigación, y se publica en forma de una herramienta computacional disponible para la comunidad científica. El ecosistema construido proporciona un entorno de aprendizaje y evaluación eficaz para fomentar la investigación en el descubrimiento de conocimientos tanto en documentos de contenido biomédico como en otros dominios. Los corpus anotados pueden ser utilizados para entrenar y evaluar sistemas computacionales de descubrimiento de conocimiento, y compararse con el estado del arte de forma automática. Así mismo, las herramientas computacionales desarrolladas pueden servir para construir nuevos sistemas y para crear nuevos recursos lingüísticos en otros idiomas o dominios. Todos los recursos desarrollados en esta investigación están disponibles públicamente para su uso por la comunidad científica (https://ehealthkd.github.io). Procesamiento de Lenguaje Natural Corpus Ontologías Aprendizaje Automático Descubrimiento de Conocimiento Lenguajes y Sistemas Informáticos
180	SILE: A Method for the Efficient Management of Smart Genomic Information León Palacio, Ana 25 November 2019 (has links) [ES] A lo largo de las últimas dos décadas, los datos generados por las tecnologías de secuenciación de nueva generación han revolucionado nuestro entendimiento de la biología humana. Es más, nos han permitido desarrollar y mejorar nuestro conocimiento sobre cómo los cambios (variaciones) en el ADN pueden estar relacionados con el riesgo de sufrir determinadas enfermedades. Actualmente, hay una gran cantidad de datos genómicos disponibles de forma pública, que son consultados con frecuencia por la comunidad científica para extraer conclusiones significativas sobre las asociaciones entre los genes de riesgo y los mecanismos que producen las enfermedades. Sin embargo, el manejo de esta cantidad de datos que crece de forma exponencial se ha convertido en un reto. Los investigadores se ven obligados a sumergirse en un lago de datos muy complejos que están dispersos en más de mil repositorios heterogéneos, representados en múltiples formatos y con diferentes niveles de calidad. Además, cuando se trata de resolver una tarea en concreto sólo una pequeña parte de la gran cantidad de datos disponibles es realmente significativa. Estos son los que nosotros denominamos datos "inteligentes". El principal objetivo de esta tesis es proponer un enfoque sistemático para el manejo eficiente de datos genómicos inteligentes mediante el uso de técnicas de modelado conceptual y evaluación de calidad de los datos. Este enfoque está dirigido a poblar un sistema de información con datos que sean lo suficientemente accesibles, informativos y útiles para la extracción de conocimiento de valor. / [CA] Al llarg de les últimes dues dècades, les dades generades per les tecnologies de secuenciació de nova generació han revolucionat el nostre coneixement sobre la biologia humana. És mes, ens han permès desenvolupar i millorar el nostre coneixement sobre com els canvis (variacions) en l'ADN poden estar relacionats amb el risc de patir determinades malalties. Actualment, hi ha una gran quantitat de dades genòmiques disponibles de forma pública i que són consultats amb freqüència per la comunitat científica per a extraure conclusions significatives sobre les associacions entre gens de risc i els mecanismes que produeixen les malalties. No obstant això, el maneig d'aquesta quantitat de dades que creix de forma exponencial s'ha convertit en un repte i els investigadors es veuen obligats a submergir-se en un llac de dades molt complexes que estan dispersos en mes de mil repositoris heterogenis, representats en múltiples formats i amb diferents nivells de qualitat. A m\és, quan es tracta de resoldre una tasca en concret només una petita part de la gran quantitat de dades disponibles és realment significativa. Aquests són els que nosaltres anomenem dades "intel·ligents". El principal objectiu d'aquesta tesi és proposar un enfocament sistemàtic per al maneig eficient de dades genòmiques intel·ligents mitjançant l'ús de tècniques de modelatge conceptual i avaluació de la qualitat de les dades. Aquest enfocament està dirigit a poblar un sistema d'informació amb dades que siguen accessibles, informatius i útils per a l'extracció de coneixement de valor. / [EN] In the last two decades, the data generated by the Next Generation Sequencing Technologies have revolutionized our understanding about the human biology. Furthermore, they have allowed us to develop and improve our knowledge about how changes (variants) in the DNA can be related to the risk of developing certain diseases. Currently, a large amount of genomic data is publicly available and frequently used by the research community, in order to extract meaningful and reliable associations among risk genes and the mechanisms of disease. However, the management of this exponential growth of data has become a challenge and the researchers are forced to delve into a lake of complex data spread in over thousand heterogeneous repositories, represented in multiple formats and with different levels of quality. Nevertheless, when these data are used to solve a concrete problem only a small part of them is really significant. This is what we call "smart" data. The main goal of this thesis is to provide a systematic approach to efficiently manage smart genomic data, by using conceptual modeling techniques and the principles of data quality assessment. The aim of this approach is to populate an Information System with data that are accessible, informative and actionable enough to extract valuable knowledge. / This thesis was supported by the Research and Development Aid Program (PAID-01-16) under the FPI grant 2137. / León Palacio, A. (2019). SILE: A Method for the Efficient Management of Smart Genomic Information [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/131698 / TESIS / Premios Extraordinarios de tesis doctorales Information Systems Smart Data SILE Conceptual Modeling Data Quality LENGUAJES Y SISTEMAS INFORMATICOS

Search results