Global ETD Search

371	Prisma: aspect-oriented software architectures Pérez Benedí, Jenifer 07 May 2008 (has links) Hoy en día, la complejidad de los sistemas software y la gran relevancia que han adquirido los requisitos no funcionales son retos que han de abordarse durante el proceso de desarrollo software. En los últimos años, estas propiedades han provocado un gran incremento en el tiempo y el personal necesario para llevar a cabo los procesos de desarrollo y mantenimiento del software. Por ello, existe un gran interés en mejorar dichos procesos. Esta tesis presenta un nuevo enfoque de desarrollo para sistemas software complejos. Dicho enfoque, llamado PRISMA, da soporte a estos nuevos retos y permite satisfacer la elevada competitividad del mercado. El enfoque PRISMA se ha materializado en un marco de trabajo formado por un modelo, un lenguaje, una metodología y un prototipo de herramienta CASE (Computer-Aided Software Engineering). El modelo de PRISMA combina dos aproximaciones para definir arquitecturas software: el Desarrollo de Software Basado en Componentes (DSBC) y el Desarrollo de Software Orientado a Aspectos (DSOA). Las principales aportaciones del modelo es la manera en la que integra ambas aproximaciones para obtener sus ventajas y su lenguaje formal. PRISMA tiene en cuenta los requisitos no funcionales desde las primeras etapas del ciclo de vida software y mejora su reutilización y el mantenimiento. Todo ello gracias a la descomposición que realiza de los sistemas software utilizando dos conceptos diferentes: aspectos y elementos arquitectónicos (componentes y conectores). PRISMA proporciona un Lenguaje de Descripción de Arquitecturas Orientado a Aspectos (LDAOA) formal para la especificación de arquitecturas software orientadas a aspectos. El LDAOA de PRISMA es independiente de cualquier tecnología y está basado en lenguajes formales para evitar la ambigüedad y poder aplicar técnicas de generación automática de código. La metodología de PRISMA apuesta por el desarrollo de software siguiendo el Paradigma de la Prototipación Automática mediante la aplicación del e / Pérez Benedí, J. (2006). Prisma: aspect-oriented software architectures [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1928 / Palancia Desarrollo dirigido por modelos (MDD) Arquitecturas software Programación orientada a aspectos (POA) Generación automática de código Sistemas tele-operados LENGUAJES Y SISTEMAS INFORMATICOS 1203 - Ciencia de los ordenadores 120312 - Bancos de datos 12 - Matemáticas
372	Natural Language Processing using Deep Learning in Social Media Giménez Fayos, María Teresa 02 September 2021 (has links) [ES] En los últimos años, los modelos de aprendizaje automático profundo (AP) han revolucionado los sistemas de procesamiento de lenguaje natural (PLN). Hemos sido testigos de un avance formidable en las capacidades de estos sistemas y actualmente podemos encontrar sistemas que integran modelos PLN de manera ubicua. Algunos ejemplos de estos modelos con los que interaccionamos a diario incluyen modelos que determinan la intención de la persona que escribió un texto, el sentimiento que pretende comunicar un tweet o nuestra ideología política a partir de lo que compartimos en redes sociales. En esta tesis se han propuestos distintos modelos de PNL que abordan tareas que estudian el texto que se comparte en redes sociales. En concreto, este trabajo se centra en dos tareas fundamentalmente: el análisis de sentimientos y el reconocimiento de la personalidad de la persona autora de un texto. La tarea de analizar el sentimiento expresado en un texto es uno de los problemas principales en el PNL y consiste en determinar la polaridad que un texto pretende comunicar. Se trata por lo tanto de una tarea estudiada en profundidad de la cual disponemos de una vasta cantidad de recursos y modelos. Por el contrario, el problema del reconocimiento de personalidad es una tarea revolucionaria que tiene como objetivo determinar la personalidad de los usuarios considerando su estilo de escritura. El estudio de esta tarea es más marginal por lo que disponemos de menos recursos para abordarla pero que no obstante presenta un gran potencial. A pesar de que el enfoque principal de este trabajo fue el desarrollo de modelos de aprendizaje profundo, también hemos propuesto modelos basados en recursos lingüísticos y modelos clásicos del aprendizaje automático. Estos últimos modelos nos han permitido explorar las sutilezas de distintos elementos lingüísticos como por ejemplo el impacto que tienen las emociones en la clasificación correcta del sentimiento expresado en un texto. Posteriormente, tras estos trabajos iniciales se desarrollaron modelos AP, en particular, Redes neuronales convolucionales (RNC) que fueron aplicadas a las tareas previamente citadas. En el caso del reconocimiento de la personalidad, se han comparado modelos clásicos del aprendizaje automático con modelos de aprendizaje profundo, pudiendo establecer una comparativa bajo las mismas premisas. Cabe destacar que el PNL ha evolucionado drásticamente en los últimos años gracias al desarrollo de campañas de evaluación pública, donde múltiples equipos de investigación comparan las capacidades de los modelos que proponen en las mismas condiciones. La mayoría de los modelos presentados en esta tesis fueron o bien evaluados mediante campañas de evaluación públicas, o bien emplearon la configuración de una campaña pública previamente celebrada. Siendo conscientes, por lo tanto, de la importancia de estas campañas para el avance del PNL, desarrollamos una campaña de evaluación pública cuyo objetivo era clasificar el tema tratado en un tweet, para lo cual recogimos y etiquetamos un nuevo conjunto de datos. A medida que avanzabamos en el desarrollo del trabajo de esta tesis, decidimos estudiar en profundidad como las RNC se aplicaban a las tareas de PNL. En este sentido, se exploraron dos líneas de trabajo. En primer lugar, propusimos un método de relleno semántico para RNC, que plantea una nueva manera de representar el texto para resolver tareas de PNL. Y en segundo lugar, se introdujo un marco teórico para abordar una de las críticas más frecuentes del aprendizaje profundo, el cual es la falta de interpretabilidad. Este marco busca visualizar qué patrones léxicos, si los hay, han sido aprendidos por la red para clasificar un texto. / [CA] En els últims anys, els models d'aprenentatge automàtic profund (AP) han revolucionat els sistemes de processament de llenguatge natural (PLN). Hem estat testimonis d'un avanç formidable en les capacitats d'aquests sistemes i actualment podem trobar sistemes que integren models PLN de manera ubiqua. Alguns exemples d'aquests models amb els quals interaccionem diàriament inclouen models que determinen la intenció de la persona que va escriure un text, el sentiment que pretén comunicar un tweet o la nostra ideologia política a partir del que compartim en xarxes socials. En aquesta tesi s'han proposats diferents models de PNL que aborden tasques que estudien el text que es comparteix en xarxes socials. En concret, aquest treball se centra en dues tasques fonamentalment: l'anàlisi de sentiments i el reconeixement de la personalitat de la persona autora d'un text. La tasca d'analitzar el sentiment expressat en un text és un dels problemes principals en el PNL i consisteix a determinar la polaritat que un text pretén comunicar. Es tracta per tant d'una tasca estudiada en profunditat de la qual disposem d'una vasta quantitat de recursos i models. Per contra, el problema del reconeixement de la personalitat és una tasca revolucionària que té com a objectiu determinar la personalitat dels usuaris considerant el seu estil d'escriptura. L'estudi d'aquesta tasca és més marginal i en conseqüència disposem de menys recursos per abordar-la però no obstant i això presenta un gran potencial. Tot i que el fouc principal d'aquest treball va ser el desenvolupament de models d'aprenentatge profund, també hem proposat models basats en recursos lingüístics i models clàssics de l'aprenentatge automàtic. Aquests últims models ens han permès explorar les subtileses de diferents elements lingüístics com ara l'impacte que tenen les emocions en la classificació correcta del sentiment expressat en un text. Posteriorment, després d'aquests treballs inicials es van desenvolupar models AP, en particular, Xarxes neuronals convolucionals (XNC) que van ser aplicades a les tasques prèviament esmentades. En el cas de el reconeixement de la personalitat, s'han comparat models clàssics de l'aprenentatge automàtic amb models d'aprenentatge profund la qual cosa a permet establir una comparativa de les dos aproximacions sota les mateixes premisses. Cal remarcar que el PNL ha evolucionat dràsticament en els últims anys gràcies a el desenvolupament de campanyes d'avaluació pública on múltiples equips d'investigació comparen les capacitats dels models que proposen sota les mateixes condicions. La majoria dels models presentats en aquesta tesi van ser o bé avaluats mitjançant campanyes d'avaluació públiques, o bé s'ha emprat la configuració d'una campanya pública prèviament celebrada. Sent conscients, per tant, de la importància d'aquestes campanyes per a l'avanç del PNL, vam desenvolupar una campanya d'avaluació pública on l'objectiu era classificar el tema tractat en un tweet, per a la qual cosa vam recollir i etiquetar un nou conjunt de dades. A mesura que avançàvem en el desenvolupament del treball d'aquesta tesi, vam decidir estudiar en profunditat com les XNC s'apliquen a les tasques de PNL. En aquest sentit, es van explorar dues línies de treball.En primer lloc, vam proposar un mètode d'emplenament semàntic per RNC, que planteja una nova manera de representar el text per resoldre tasques de PNL. I en segon lloc, es va introduir un marc teòric per abordar una de les crítiques més freqüents de l'aprenentatge profund, el qual és la falta de interpretabilitat. Aquest marc cerca visualitzar quins patrons lèxics, si n'hi han, han estat apresos per la xarxa per classificar un text. / [EN] In the last years, Deep Learning (DL) has revolutionised the potential of automatic systems that handle Natural Language Processing (NLP) tasks. We have witnessed a tremendous advance in the performance of these systems. Nowadays, we found embedded systems ubiquitously, determining the intent of the text we write, the sentiment of our tweets or our political views, for citing some examples. In this thesis, we proposed several NLP models for addressing tasks that deal with social media text. Concretely, this work is focused mainly on Sentiment Analysis and Personality Recognition tasks. Sentiment Analysis is one of the leading problems in NLP, consists of determining the polarity of a text, and it is a well-known task where the number of resources and models proposed is vast. In contrast, Personality Recognition is a breakthrough task that aims to determine the users' personality using their writing style, but it is more a niche task with fewer resources designed ad-hoc but with great potential. Despite the fact that the principal focus of this work was on the development of Deep Learning models, we have also proposed models based on linguistic resources and classical Machine Learning models. Moreover, in this more straightforward setup, we have explored the nuances of different language devices, such as the impact of emotions in the correct classification of the sentiment expressed in a text. Afterwards, DL models were developed, particularly Convolutional Neural Networks (CNNs), to address previously described tasks. In the case of Personality Recognition, we explored the two approaches, which allowed us to compare the models under the same circumstances. Noteworthy, NLP has evolved dramatically in the last years through the development of public evaluation campaigns, where multiple research teams compare the performance of their approaches under the same conditions. Most of the models here presented were either assessed in an evaluation task or either used their setup. Recognising the importance of this effort, we curated and developed an evaluation campaign for classifying political tweets. In addition, as we advanced in the development of this work, we decided to study in-depth CNNs applied to NLP tasks. Two lines of work were explored in this regard. Firstly, we proposed a semantic-based padding method for CNNs, which addresses how to represent text more appropriately for solving NLP tasks. Secondly, a theoretical framework was introduced for tackling one of the most frequent critics of Deep Learning: interpretability. This framework seeks to visualise what lexical patterns, if any, the CNN is learning in order to classify a sentence. In summary, the main achievements presented in this thesis are: - The organisation of an evaluation campaign for Topic Classification from texts gathered from social media. - The proposal of several Machine Learning models tackling the Sentiment Analysis task from social media. Besides, a study of the impact of linguistic devices such as figurative language in the task is presented. - The development of a model for inferring the personality of a developer provided the source code that they have written. - The study of Personality Recognition tasks from social media following two different approaches, models based on machine learning algorithms and handcrafted features, and models based on CNNs were proposed and compared both approaches. - The introduction of new semantic-based paddings for optimising how the text was represented in CNNs. - The definition of a theoretical framework to provide interpretable information to what CNNs were learning internally. / Giménez Fayos, MT. (2021). Natural Language Processing using Deep Learning in Social Media [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172164 / TESIS Reconocimiento de personalidad Procesamiento del lenguaje natural (PNL) Análisis de los sentimientos Aprendizaje profundo Red neuronal convolucional (CNN) Deep learning Personality recognition Natural language processing (NLP) Sentiment Analysis Convolutional neural network (CNN) LENGUAJES Y SISTEMAS INFORMATICOS
373	Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization González Barba, José Ángel 02 September 2021 (has links) [ES] Hoy en día, la sociedad tiene acceso y posibilidad de contribuir a grandes cantidades de contenidos presentes en Internet, como redes sociales, periódicos online, foros, blogs o plataformas de contenido multimedia. Todo este tipo de medios han tenido, durante los últimos años, un impacto abrumador en el día a día de individuos y organizaciones, siendo actualmente medios predominantes para compartir, debatir y analizar contenidos online. Por este motivo, resulta de interés trabajar sobre este tipo de plataformas, desde diferentes puntos de vista, bajo el paraguas del Procesamiento del Lenguaje Natural. En esta tesis nos centramos en dos áreas amplias dentro de este campo, aplicadas al análisis de contenido en línea: análisis de texto en redes sociales y resumen automático. En paralelo, las redes neuronales también son un tema central de esta tesis, donde toda la experimentación se ha realizado utilizando enfoques de aprendizaje profundo, principalmente basados en mecanismos de atención. Además, trabajamos mayoritariamente con el idioma español, por ser un idioma poco explorado y de gran interés para los proyectos de investigación en los que participamos. Por un lado, para el análisis de texto en redes sociales, nos enfocamos en tareas de análisis afectivo, incluyendo análisis de sentimientos y detección de emociones, junto con el análisis de la ironía. En este sentido, se presenta un enfoque basado en Transformer Encoders, que consiste en contextualizar \textit{word embeddings} pre-entrenados con tweets en español, para abordar tareas de análisis de sentimiento y detección de ironía. También proponemos el uso de métricas de evaluación como funciones de pérdida, con el fin de entrenar redes neuronales, para reducir el impacto del desequilibrio de clases en tareas \textit{multi-class} y \textit{multi-label} de detección de emociones. Adicionalmente, se presenta una especialización de BERT tanto para el idioma español como para el dominio de Twitter, que tiene en cuenta la coherencia entre tweets en conversaciones de Twitter. El desempeño de todos estos enfoques ha sido probado con diferentes corpus, a partir de varios \textit{benchmarks} de referencia, mostrando resultados muy competitivos en todas las tareas abordadas. Por otro lado, nos centramos en el resumen extractivo de artículos periodísticos y de programas televisivos de debate. Con respecto al resumen de artículos, se presenta un marco teórico para el resumen extractivo, basado en redes jerárquicas siamesas con mecanismos de atención. También presentamos dos instancias de este marco: \textit{Siamese Hierarchical Attention Networks} y \textit{Siamese Hierarchical Transformer Encoders}. Estos sistemas han sido evaluados en los corpora CNN/DailyMail y NewsRoom, obteniendo resultados competitivos en comparación con otros enfoques extractivos coetáneos. Con respecto a los programas de debate, se ha propuesto una tarea que consiste en resumir las intervenciones transcritas de los ponentes, sobre un tema determinado, en el programa "La Noche en 24 Horas". Además, se propone un corpus de artículos periodísticos, recogidos de varios periódicos españoles en línea, con el fin de estudiar la transferibilidad de los enfoques propuestos, entre artículos e intervenciones de los participantes en los debates. Este enfoque muestra mejores resultados que otras técnicas extractivas, junto con una transferibilidad de dominio muy prometedora. / [CA] Avui en dia, la societat té accés i possibilitat de contribuir a grans quantitats de continguts presents a Internet, com xarxes socials, diaris online, fòrums, blocs o plataformes de contingut multimèdia. Tot aquest tipus de mitjans han tingut, durant els darrers anys, un impacte aclaparador en el dia a dia d'individus i organitzacions, sent actualment mitjans predominants per compartir, debatre i analitzar continguts en línia. Per aquest motiu, resulta d'interès treballar sobre aquest tipus de plataformes, des de diferents punts de vista, sota el paraigua de l'Processament de el Llenguatge Natural. En aquesta tesi ens centrem en dues àrees àmplies dins d'aquest camp, aplicades a l'anàlisi de contingut en línia: anàlisi de text en xarxes socials i resum automàtic. En paral·lel, les xarxes neuronals també són un tema central d'aquesta tesi, on tota l'experimentació s'ha realitzat utilitzant enfocaments d'aprenentatge profund, principalment basats en mecanismes d'atenció. A més, treballem majoritàriament amb l'idioma espanyol, per ser un idioma poc explorat i de gran interès per als projectes de recerca en els que participem. D'una banda, per a l'anàlisi de text en xarxes socials, ens enfoquem en tasques d'anàlisi afectiu, incloent anàlisi de sentiments i detecció d'emocions, juntament amb l'anàlisi de la ironia. En aquest sentit, es presenta una aproximació basada en Transformer Encoders, que consisteix en contextualitzar \textit{word embeddings} pre-entrenats amb tweets en espanyol, per abordar tasques d'anàlisi de sentiment i detecció d'ironia. També proposem l'ús de mètriques d'avaluació com a funcions de pèrdua, per tal d'entrenar xarxes neuronals, per reduir l'impacte de l'desequilibri de classes en tasques \textit{multi-class} i \textit{multi-label} de detecció d'emocions. Addicionalment, es presenta una especialització de BERT tant per l'idioma espanyol com per al domini de Twitter, que té en compte la coherència entre tweets en converses de Twitter. El comportament de tots aquests enfocaments s'ha provat amb diferents corpus, a partir de diversos \textit{benchmarks} de referència, mostrant resultats molt competitius en totes les tasques abordades. D'altra banda, ens centrem en el resum extractiu d'articles periodístics i de programes televisius de debat. Pel que fa a l'resum d'articles, es presenta un marc teòric per al resum extractiu, basat en xarxes jeràrquiques siameses amb mecanismes d'atenció. També presentem dues instàncies d'aquest marc: \textit{Siamese Hierarchical Attention Networks} i \textit{Siamese Hierarchical Transformer Encoders}. Aquests sistemes s'han avaluat en els corpora CNN/DailyMail i Newsroom, obtenint resultats competitius en comparació amb altres enfocaments extractius coetanis. Pel que fa als programes de debat, s'ha proposat una tasca que consisteix a resumir les intervencions transcrites dels ponents, sobre un tema determinat, al programa "La Noche en 24 Horas". A més, es proposa un corpus d'articles periodístics, recollits de diversos diaris espanyols en línia, per tal d'estudiar la transferibilitat dels enfocaments proposats, entre articles i intervencions dels participants en els debats. Aquesta aproximació mostra millors resultats que altres tècniques extractives, juntament amb una transferibilitat de domini molt prometedora. / [EN] Nowadays, society has access, and the possibility to contribute, to large amounts of the content present on the internet, such as social networks, online newspapers, forums, blogs, or multimedia content platforms. These platforms have had, during the last years, an overwhelming impact on the daily life of individuals and organizations, becoming the predominant ways for sharing, discussing, and analyzing online content. Therefore, it is very interesting to work with these platforms, from different points of view, under the umbrella of Natural Language Processing. In this thesis, we focus on two broad areas inside this field, applied to analyze online content: text analytics in social media and automatic summarization. Neural networks are also a central topic in this thesis, where all the experimentation has been performed by using deep learning approaches, mainly based on attention mechanisms. Besides, we mostly work with the Spanish language, due to it is an interesting and underexplored language with a great interest in the research projects we participated in. On the one hand, for text analytics in social media, we focused on affective analysis tasks, including sentiment analysis and emotion detection, along with the analysis of the irony. In this regard, an approach based on Transformer Encoders, based on contextualizing pretrained Spanish word embeddings from Twitter, to address sentiment analysis and irony detection tasks, is presented. We also propose the use of evaluation metrics as loss functions, in order to train neural networks for reducing the impact of the class imbalance in multi-class and multi-label emotion detection tasks. Additionally, a specialization of BERT both for the Spanish language and the Twitter domain, that takes into account inter-sentence coherence in Twitter conversation flows, is presented. The performance of all these approaches has been tested with different corpora, from several reference evaluation benchmarks, showing very competitive results in all the tasks addressed. On the other hand, we focused on extractive summarization of news articles and TV talk shows. Regarding the summarization of news articles, a theoretical framework for extractive summarization, based on siamese hierarchical networks with attention mechanisms, is presented. Also, we present two instantiations of this framework: Siamese Hierarchical Attention Networks and Siamese Hierarchical Transformer Encoders. These systems were evaluated on the CNN/DailyMail and the NewsRoom corpora, obtaining competitive results in comparison to other contemporary extractive approaches. Concerning the TV talk shows, we proposed a text summarization task, for summarizing the transcribed interventions of the speakers, about a given topic, in the Spanish TV talk shows of the ``La Noche en 24 Horas" program. In addition, a corpus of news articles, collected from several Spanish online newspapers, is proposed, in order to study the domain transferability of siamese hierarchical approaches, between news articles and interventions of debate participants. This approach shows better results than other extractive techniques, along with a very promising domain transferability. / González Barba, JÁ. (2021). Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172245 / TESIS Resumen automático Analítica de textos Medios de comunicación social Aprendizaje profundo Enfoques basados en la atención Text analytics Automatic summarization Social media Deep learning Attention-based approaches Resumen au LENGUAJES Y SISTEMAS INFORMATICOS
374	Definition of Descriptive and Diagnostic Measurements for Model Fragment Retrieval Ballarin Naya, Manuel 02 September 2021 (has links) Tesis por compendio / [ES] Hoy en día, el software existe en casi todo. Las empresas a menudo desarrollan y mantienen colecciones de sistemas de software personalizados que comparten algunas características entre ellos, pero que también tienen otras características particulares. Conforme el número de características y el número de variantes de un producto crece, el mantenimiento del software se vuelve cada vez más complejo. Para hacer frente a esta situación la Comunidad de Ingeniería del Software basada en Modelos está abordando una actividad clave: la Localización de Fragmentos de Modelo. Esta actividad consiste en la identificación de elementos del modelo que son relevantes para un requisito, una característica o un bug. Durante los últimos años se han propuesto muchos enfoques para abordar la identificación de los elementos del modelo que corresponden a una funcionalidad en particular. Sin embargo, existe una carencia a la hora de cómo se reportan las medidas del espacio de búsqueda, así como las medidas de la solución a encontrar. El objetivo de nuestra tesis radica en proporcionar a la comunidad dedicada a la actividad de localización de fragmentos de modelo una serie de medidas (tamaño, volumen, densidad, multiplicidad y dispersión) para reportar los problemas de localización de fragmentos de modelo. El uso de estas novedosas medidas ayuda a los investigadores durante la creación de nuevos enfoques, así como la mejora de aquellos enfoques ya existentes. Mediante el uso de dos casos de estudio reales e industriales, esta tesis pone en valor la importancia de estas medidas para comparar resultados de diferentes enfoques de una manera precisa. Los resultados de este trabajo han sido redactados y publicados en foros, conferencias y revistas especializadas en los temas y contexto de la investigación. Esta tesis se presenta como un compendio de artículos acorde a la regulación de la Universitat Politècnica de València. Este documento de tesis presenta los temas, el contexto y los objetivos de la investigación. Presenta las publicaciones académicas que se han publicado como resultado del trabajo y luego analiza los resultados de la investigación. / [CA] Hui en dia, el programari existix en quasi tot. Les empreses sovint desenrotllen i mantenen col·leccions de sistemes de programari personalitzats que compartixen algunes característiques entre ells, però que també tenen altres característiques particulars. Conforme el nombre de característiques i el nombre de variants d'un producte creix, el manteniment del programari es torna cada vegada més complex. Per a fer front a esta situació la Comunitat d'Enginyeria del Programari basada en Models està abordant una activitat clau: la Localització de Fragments de Model. Esta activitat consistix en la identificació d'elements del model que són rellevants per a un requisit, una característica o un bug. Durant els últims anys s'han proposat molts enfocaments per a abordar la identificació dels elements del model que corresponen a una funcionalitat en particular. No obstant això, hi ha una carència a l'hora de com es reporten les mesures de l'espai de busca, així com les mesures de la solució a trobar. L'objectiu de la nostra tesi radica a proporcionar a la comunitat dedicada a l'activitat de localització de fragments de model una sèrie de mesures (grandària, volum, densitat, multiplicitat i dispersió) per a reportar els problemes de localització de fragments de model. L'ús d'estes noves mesures ajuda als investigadors durant la creació de nous enfocaments, així com la millora d'aquells enfocaments ja existents. Per mitjà de l'ús de dos casos d'estudi reals i industrials, esta tesi posa en valor la importància d'estes mesures per a comparar resultats de diferents enfocaments d'una manera precisa. Els resultats d'este treball han sigut redactats i publicats en fòrums, conferències i revistes especialitzades en els temes i context de la investigació. Esta tesi es presenta com un compendi d'articles d'acord amb la regulació de la Universitat Politècnica de València. Este document de tesi presenta els temes, el context i els objectius de la investigació. Presenta les publicacions acadèmiques que s'han publicat com resultat del treball i després analitza els resultats de la investigació. / [EN] Nowadays, software exists in almost everything. Companies often develop and maintain a collection of custom-tailored software systems that share some common features but also support customer-specific ones. As the number of features and the number of product variants grows, software maintenance is becoming more and more complex. To keep pace with this situation, Model-Based Software Engineering Community is addressing a key-activity: Model Fragment Location (MFL). MFL aims at identifying model elements that are relevant to a requirement, feature, or bug. Many MFL approaches have been introduced in the last few years to address the identification of the model elements that correspond to a specific functionality. However, there is a lack of detail when the measurements about the search space (models) and the measurements about the solution to be found (model fragment) are reported. The goal of this thesis is to provide insights to MFL Research Community of how to improve the report of location problems. We propose using five measurements (size, volume, density, multiplicity, and dispersion) to report the location problems during MFL. The usage of these novel measurements support researchers during the creation of new MFL approaches and during the improvement of those existing ones. Using two different case studies, both real and industrial, we emphasize the importance of these measurements in order to compare results in a deeply way. The results of the research have been redacted and published in forums, conferences, and journals specialized in the topics and context of the research. This thesis is presented as compendium of articles according the regulations in Universitat Politècnica de València. This thesis document introduces the topics, context, and objectives of the research, presents the academic publications that have been published as a result of the work, and then discusses the outcomes of the investigation. / Ballarin Naya, M. (2021). Definition of Descriptive and Diagnostic Measurements for Model Fragment Retrieval [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/171604 / TESIS / Compendio Recuperación de fragmentos en modelos Ingeniería basada en modelos Ingeniería del software Recuperación de enlaces de trazabilidad Ubicación de errores Model Fragment Retrieval Model based software engineering Feature Location Model Fragment Location Bug Location Traceability Links Recovery LENGUAJES Y SISTEMAS INFORMATICOS
375	Un marco de soporte para el ciclo de vida de la eParticipación enriquecido con gestión de confianza Santamaría Philco, Alex Andrés 10 January 2021 (has links) [ES] La relevancia de la opinión de los ciudadanos ha aumentado en la última década. Hoy, muchas administraciones gubernamentales han establecido procesos de participación pública como uno más de los pilares necesarios para tomar una decisión sobre varios aspectos críticos de la gobernanza. Las iniciativas de participación electrónica facilitan a los ciudadanos el acceso a dichos procesos. En la actualidad, no existe una definición de campo clara y aceptada debido a la gran diversidad de propuestas teóricas y la naturaleza interdisciplinaria de las iniciativas. Se han propuesto varios marcos y aplicaciones de participación electrónica desarrollados ad-hoc para responder a una iniciativa específica. Sin embargo, todavía no se ha desarrollado una propuesta metodológica que cubra de forma integral todo el proceso de e-Participación y que, además, esté soportado por una herramienta software. Esta tesis revisa la literatura actual en el campo de la e-Participación mediante un mapeo sistemático del trabajo de investigación junto con algunas propuestas anteriores relevantes en el área, con el ánimo de proporcionar una guía conceptual de los componentes de la e-Participación. Esta revisión analiza los hallazgos y agrupa los resultados con el fin de estructurar un marco conceptual de e-Participación al que denominamos ePfw, un marco para ayudar a la definición e implementación de procesos e-Participación. ePfw modela todos los componentes, etapas, actividades y flujos de información que ocurren en un proceso de e-Participación. ePfw incorpora un metamodelo que muestra una perspectiva estructural en la que se especifican las propiedades de las entidades que participan en los procesos de e-Participación. Además, se presenta una evaluación de la completitud y funcionalidad de ePfwTool, una herramienta de soporte para el marco ePfw, la cual ha sido evaluada por usuarios expertos en e-Participación, mostrando los resultados obtenidos. Por otra parte, y dado que es necesario crear un entorno confiable para que los ciudadanos elijan participar en los procesos de e-Participación, esta tesis analiza los factores que influyen directamente en la confianza en las iniciativas de e-Participación a través de una investigación empírica. El estudio se realiza en los ciudadanos de la ciudad de Valencia (España) y analiza los factores predominantes que influyen en el procedimiento, la tecnología y el riesgo percibido o beneficios de la e-Participación electrónica. Los resultados obtenidos se exponen a través de modelos creados y sintetizados con la herramienta SmartPLS. Finalmente, se ha enriquecido marco ePfw con la incorporación de los factores de confianza analizados. / [CA] La rellevància de l'opinió dels ciutadans ha augmentat en l'última dècada. Avui, moltes administracions governamentals han establit processos de partici-pació pública com un més dels pilars necessaris per prendre una decisió sobre diversos aspectes crítics de la governança. Les iniciatives de participació elec-trònica faciliten als ciutadans l'accés a aquests processos. En l'actualitat, no existeix una definició de camp clara i acceptada causa de la gran diversitat de propostes teòriques i la naturalesa interdisciplinària de les iniciatives. S'han proposat diversos marcs i aplicacions de participació electrònica desenvolupats ad hoc per respondre a una iniciativa específica. No obstant això, encara no s'ha desenvolupat una proposta metodològica que cobrisca de forma integral tot el procés d'una d'e-Participació i que, a més, estigui suportat per una eina. Aquesta tesi revisa la literatura actual en el camp de la e-Participació mitjançant un mapatge sistemàtic de la feina d'investigació juntament amb algunes propostes anteriors rellevants en l'àrea, amb l'ànim de proporcionar una guia conceptual dels components de la e-Participació. Aquesta revisió analitza les troballes i agrupa els resultats que permeten estructurar un marc conceptual de e-Participació al qual denominem ePfw, un marc per ajudar a la definició i im-plementació de processos e-Participació. ePfw modela tots els components, etapes, activitats i fluxos d'informació que tenen lloc en un procés de e-Participació. ePfw incorpora un metamodel que mostra una perspectiva estructural en què s'especifiquen les propietats de les entitats que participen en els processos de e-Participació. A més, es presenta una avaluació de la completesa i funcionalitat de ePfwTool, una eina de suport per al marc ePfw, la qual ha sigut avaluada per usuaris experts en e-Participació, mostrant els resultats obtinguts. D'altra banda, i atés que és necessari crear un entorn de confiança perquè els ciutadans trien participar en els processos de e-Participació, aquesta tesi analitza els factors que influeixen directament en la confiança en les iniciatives de e-Participació a través d'una investigació empírica. L'estudi es realitza en els ciutadans de la ciutat de València (Espanya) i analitza els factors predominants que influeixen en el procediment, la tecnologia i el risc percebut o beneficis de la e-Participació. Els resultats obtinguts s'exposen a través de models creats i sintetitzats amb l'eina SmartPLS. Finalment, s'ha enriquit marc ePfw amb la incorporació dels factors de confiança analitzats. / [EN] The relevance of the opinion of citizens has increased in the last decade. Many government administrations have now introduced public participation processes as a necessary part of making decisions on critical aspects of governance. Although electronic participation initiatives provide citizens with access to these processes. Currently, there is no clear and accepted definition of the field due to the great diversity of theoretical proposals and the interdisciplinary nature of the initiatives. Various e-Participation frameworks and applications developed ad-hoc have been proposed to respond to a specific initiative. However, a methodological proposal has not yet been developed that covers the entire e-Participation process supported by a software tool. This thesis reviews the current literature in the field of e-Participation through a systematic mapping of the research work together with some previous relevant proposals for the area, with the aim of providing a conceptual guide to the components of e-Participation. This review analyzes the findings and groups the results in order to structure a conceptual framework for e-Participation which we call ePfw, a framework to assist in the definition and implementation of e-Participation processes. ePfw can model all the components, stages, activities and information flows that occur in an e-Participation process. ePfw incorporates a metamodel that shows a structural perspective in which the properties of the entities that participate in the e-Participation processes are specified. An assessment of the completeness and functionality of ePfwTool, a support tool for the ePfw framework, is also described and has been evaluated by various e-Participation experts, showing the results obtained. Given that there is a need to create a reliable environment for citizens to choose to participate in e-Participation processes, this thesis analyzes through empirical research the factors that directly influence trust in e-Participation initiatives. The study is carried out on the citizens in the city of Valencia (Spain) and analyzes the predominant factors that influence the procedure, the technology involved and the perceived risks and benefits of e-Participation. The results obtained are explained through models created and synthesized with the SmartPLS tool. Finally, the ePfw framework was improved by incorporating the trust factors analyzed. / Santamaría Philco, AA. (2020). Un marco de soporte para el ciclo de vida de la eParticipación enriquecido con gestión de confianza [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/158691 / TESIS ePfw Tool Metamodels ePfw framework Systematic mapping E-Participation framework Electronic participation E-participation Public participation Participación pública Participación electrónica E-Participación Marco de e-Participación Mapeo sistemático Marco ePfw Herramienta ePfwTool Confianza Metamodelos LENGUAJES Y SISTEMAS INFORMATICOS
376	Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turístico Bustamante Martínez, Alexander Armando 25 January 2021 (has links) [ES] Desde hace varias décadas vivimos en lo que los académicos e industriales han convenido llamar la era de la información y economía del conocimiento, ambas caracterizadas, entre otras cosas, por el rol preponderante que ocupan tanto la información como el conocimiento en el quehacer y en los procesos, tanto productivos como de gestión, de las organizaciones. La información y el conocimiento han pasado de ser un recurso más en las organizaciones a ser uno de los principales activos que éstas poseen y utilizan para tomar decisiones, mejorar sus procesos, comprender el entorno y obtener una ventaja competitiva. Pero, para disfrutar de todos estos beneficios, se hace necesario una gestión pro-activa e inteligente de los datos. Esta última se hace más necesaria en el contexto actual en donde la cantidad de datos disponibles sobrepasa la capacidad del hombre para analizarlos. Es en este contexto donde la Inteligencia de Negocios cobra especial importancia, ya que tiene como propósito tomar datos, generalmente, desde diferentes fuentes, integrarlos y procesarlos, dejándolos listos para posteriores tareas de análisis. Paralelo al lugar importante que ocupa la inteligencia de negocios, está la contribución de la Web 2.0 en la generación de nuevo contenido. La Web 2.0 ha sido uno de los desencadenantes en la producción de datos a través de la internet convirtiéndose así en una fuente valiosa de datos sobre lo que las personas hacen, sienten y desean. Tal es el caso de plataformas como Twitter, que permite a las personas expresar su opinión sobre cualquier tema de interés u OpenStreetMap, que facilita la creación y consulta de información geográfica de manera colaborativa, entre otras. Esta tesis gira en torno al uso de datos colaborativas y la utilización de la tecnología de la Inteligencia de Negocio para soportar el proceso de toma de decisiones, aplicado, concretamente, al sector turístico. Aunque el enfoque de tratamiento de los datos descrito en esta tesis puede ser utilizado, con ligeras adaptaciones, para trabajar en otros dominios, se seleccionó el turismo por ser uno de las principales actividades económicas a nivel mundial. Tomando como referencia el año 2019, este sector económico creció en un 3.5 % por encima de la economía global que creció un 2.5 %, generó 330 millones de empleos (1 de cada 10) y representó el 10.3 % del producto interno bruto global. En primer lugar, se realizó un análisis de las fuentes de datos colaborativas que pueden aportar conocimiento para el análisis de este sector y se seleccionaron cuatro fuentes de datos: OpenStreetMap y Twitter, ya nombradas y Tripadvisor y Airbnb para la información sobre alojamientos. Con las cuatro fuentes de datos colaborativas identificadas y utilizando la Inteligencia de Negocio como soporte tecnológico, se creó una plataforma responsable de todo el proceso, el cual abarca la extracción de datos de las diferentes fuentes, su integración en un formato consistente, su procesamiento y estructuración para ser utilizados en tareas de análisis y visualización de los resultados del análisis. La plataforma construida se denomina BITOUR. BITOUR integra la propuesta de un modelo de BI para manejar datos geoespaciales, abiertos, combinados con contenido de redes sociales (colaborativos) junto con la propuesta de una serie de algoritmos para la identificación de los turistas y residentes de los destinos, la detección de usuarios no reales y la asignación de los tuits a los lugares dentro de un destino. La integración de datos colaborativos, junto con los algoritmos, en una plataforma de Inteligencia de negocio representa una fuente potencial de valioso conocimiento que puede ser aprovechado en el sector turismo para conocer las actividades que realizan los turistas en un destino, las opiniones sobre un destino particular y sus atracciones, los periodos del año más frecuentados por los turistas según la nacionalidad, entre muchas otras preguntas. BITOUR permite definir, interactivamente, un destino a analizar, cargar datos desde diferentes tipos de fuentes (espaciales y de opinión, entre otras), ejecutar rutinas que asocian opiniones a lugares e identifican turistas entre los datos recopilados, así como visualizar los datos a través de la misma plataforma. BITOUR permite, entre otras cosas, la creación de tablas y gráficos dinámicos que posibilitan manipular los resultados de todos los cálculos que en la plataforma se han realizado. De esta manera, se pueden analizar tendencias de los turistas, tener un menor tiempo de respuesta frente a los eventos, enfocar mejor las campañas de mercadeo, etc. En definitiva, tener otra forma de acercarse a los turistas y comprenderlos. / [EN] For several decades we have lived what academics and entrepreneurs call the information age and knowledge economy, both characterized, among other things, by the preponderant role that both information and knowledge hold in the production and management work of the organizations. Information and knowledge have evolved from being one among the resources in organizations to being one of their main assets in order to make decisions, to improve their processes, to understand the environment and to obtain a competitive advantage. But, to enjoy all these benefits, a pro-active and intelligent data management is necessary. The latter is more necessary in the current context where the amount of available data exceeds human capacity to analyze it. It is in this context where Business Intelligence takes on special importance since its purpose is to take data, generally from different sources, integrate and process the data so as to leaving it ready for subsequent analysis tasks. Parallel to the relevant role of Business Intelligence, there is the contribution of Web 2.0 in the generation of new data. Web 2.0 has been one of the triggers in the production of data through internet, thus becoming a valuable source of information about what people do, feel and wish. This is the case of platforms such as Twitter, which allows people to express their opinion on any topic of interest or OpenStreetMap, which facilitates the creation and consultation of geographic information in a collaborative way, among others. This thesis revolves around the use of collaborative data and the use of Business Intelligence technology to support the decision-making process, specifically applied to the tourism sector. Although the data management approach described in this thesis can be used, with slight adaptations, to work in other domains, tourism was selected for being one of the main economic activities worldwide. Taking 2019 as a reference, this economic sector grew 3.5 % above the global economy, which grew 2.5 %, generated 330 million jobs (1 in 10) and represented 10.3 % of gross domestic product global. First, an analysis of the collaborative data sources that can provide knowledge for the analysis of this sector was carried out and four data sources were selected: OpenStreetMap and Twitter, already mentioned, and Tripadvisor and Airbnb for information on accommodations. With these four collaborative data sources identified and using Business Intelligence as technological support, a platform responsible for the entire process was created, which includes the extraction of data from the different sources, integration of data in a consistent format, processing and structuring data to be used in analysis tasks and visualization of the analysis results. The built platform is called BITOUR. BITOUR integrates the proposal of a BI model to handle open, geospatial data, combined with content from social networks (collaborative) together with the proposal of a series of algorithms for the identification of tourists and residents of the destinations, the detection of non-real users and the assignment of tweets to places within a destination. The integration of collaborative data in a Business Intelligence platform represents a potential source of valuable knowledge that can be used in the tourism sector to know the activities that tourists carry out in a destination, the opinions about a particular destination and its tourist attractions or the seasons most frequented by tourists according to nationality, among many other questions. BITOUR allows to interactively define a destination to be analyzed, to load data from different types of sources like spatial and opinion sources, to execute routines that associate opinions with places and to identify tourists among the collected data as well as visualize the data in the same platform. BITOUR allows for the creation of dynamic tables and graphics that make it possible to manipulate the results of all the calculations that have been performed on the platform. In this way, tourist trends can be analyzed to shorten response time to events, put the focus on marketing campaigns, etc. In short, having another way of approaching tourists and understanding them. / [CA] Des de fa diverses dècades vivim en el que els acadèmics i industrials han convingut dir la era de la informació i economia del coneixement, totes dues caracteritzades, entre altres coses, pel rol preponderant que ocupen tant la informació com el coneixement en el quefer i en els processos, tant productius com de gestió, de les organitzacions. La informació i el coneixement han passat de ser un recurs més en les organitzacions a ser un dels principals actius que aquestes posseeixen i utilitzen per a prendre decisions, millorar els seus processos, comprendre l'entorn i obtenir un avantatge competitiu. Però, per a gaudir de tots aquests beneficis, es fa necessari una gestió pro-activa i intel·ligent de les dades. Aquesta última es fa més necessària en el context actual on la quantitat de dades disponibles sobrepassa la capacitat de l'home per a analitzar-los. És en aquest context on la Intel·ligència de Negocis cobra especial importància, ja que té com a propòsit prendre dades, generalment, des de diferents fonts, integrar-los i processar-los, deixant-los llestos per a posteriors tasques d'anàlisis. Paral·lel al lloc important que ocupa la intel·ligència de negocis, està la contribució de la Web 2.0 en la generació de nou contingut. La Web 2.0 ha sigut un dels desencadenants en la producció de dades a través de la internet convertint-se així en una font valuosa d'informació sobre el que les persones fan, senten i desitgen. Tal és el cas de plataformes com Twitter, que permet a les persones expressar la seua opinió sobre qualsevol tema d'interès o OpenStreetMap, que facilita la creació i consulta d'informació geogràfica de manera col·laborativa, entre altres. Aquesta tesi gira entorn de l'ús de dades col·laboratives i la utilització de la tecnologia de la Intel·ligència de Negoci per a suportar el procés de presa de decisions, aplicat, concretament, al sector turístic. Encara que l'enfocament de tractament de les dades descrit en aquesta tesi pot ser utilitzat, amb lleugeres adaptacions, per a treballar en altres dominis, es va seleccionar el turisme per ser un de les principals activitats econòmiques a nivell mundial. Prenent com a referència l'any 2019, aquest sector econòmic va créixer en un 3.5 % per damunt de l'economia global que va créixer un 2.5 %, va generar 330 milions d'ocupacions (1 de cada 10) i va representar el 10.3 % del producte intern brut global. En primer lloc, es va realitzar una anàlisi de les fonts de dades col·laboratives que poden aportar coneixement per a l'anàlisi d'aquest sector i es van seleccionar quatre fonts de dades: OpenStreetMap i Twitter, ja nomenades i Tripadvisor i Airbnb per a la informació sobre allotjaments. Amb les quatre fonts de dades col·laboratives identificades i utilitzant la Intel·ligència de Negoci com a suport tecnològic, es va crear una plataforma responsable de tot el procés, el qual abasta l'extracció de dades de les diferents fonts, la seua integració en un format consistent, el seu processament i estructuració per a ser utilitzats en tasques d'anàlisis i visualització dels resultats de l'anàlisi. La plataforma construïda es denomina BITOUR. BITOUR integra la proposta d'un model de BI per a manejar dades geo-espacials, obertes, combinades amb contingut de xarxes socials (col·laboratius) juntament amb la proposta d'una sèrie d'algorismes per a: la identificació dels turistes i residents de les destinacions, la detecció d'usuaris no reals i l'assignació dels "tuits" als llocs dins d'una destinació. La integració de dades col·laboratives en una plataforma d’Intel·ligència de negoci representa una font potencial de valuós coneixement que pot ser aprofitat en el sector turisme per a conèixer les activitats que realitzen els turistes en una destinació, les opinions sobre una destinació particular i les seues atraccions, els períodes de l’any més freqüentats pels turistes segons la nacionalitat, entre moltes altres preguntes. BITOUR permet definir, interactivament, una destinació a analitzar, carregar dades des de diferents tipus de fonts (espacials i d’opinió, entre altres), executar rutines que associen opinions a llocs i identifiquen turistes entre les dades recopilades, així com visualitzar les dades a través de la mateixa plataforma. BITOUR permet, entre altres coses, la creació de taules i gràfics dinàmics que possibiliten manipular els resultats de tots els càlculs que en la plataforma s’han realitzat. D’aquesta manera, es poden analitzar tendències dels turistes, tenir un menor temps de resposta enfront dels esdeveniments, enfocar millor les campanyes de mercadeig, etc. En definitiva, tenir una altra manera d’acostar-se als turistes i comprendre’ls. / Bustamante Martínez, AA. (2020). Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turístico [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/160061 / TESIS Tourism Open data Collaborative Data Sources Data warehouse Business intelligence Almacén de Datos Datos Abiertos Fuentes Colaborativas Inteligencia de Negocios Turismo Dades Obertes Fonts col·laboratives Intel·ligència de negocis Magatzem de dades Turisme LENGUAJES Y SISTEMAS INFORMATICOS
377	Extraction of medical knowledge from clinical reports and chest x-rays using machine learning techniques Bustos, Aurelia 19 June 2019 (has links) This thesis addresses the extraction of medical knowledge from clinical text using deep learning techniques. In particular, the proposed methods focus on cancer clinical trial protocols and chest x-rays reports. The main results are a proof of concept of the capability of machine learning methods to discern which are regarded as inclusion or exclusion criteria in short free-text clinical notes, and a large scale chest x-ray image dataset labeled with radiological findings, diagnoses and anatomic locations. Clinical trials provide the evidence needed to determine the safety and effectiveness of new medical treatments. These trials are the basis employed for clinical practice guidelines and greatly assist clinicians in their daily practice when making decisions regarding treatment. However, the eligibility criteria used in oncology trials are too restrictive. Patients are often excluded on the basis of comorbidity, past or concomitant treatments and the fact they are over a certain age, and those patients that are selected do not, therefore, mimic clinical practice. This signifies that the results obtained in clinical trials cannot be extrapolated to patients if their clinical profiles were excluded from the clinical trial protocols. The efficacy and safety of new treatments for patients with these characteristics are not, therefore, defined. Given the clinical characteristics of particular patients, their type of cancer and the intended treatment, discovering whether or not they are represented in the corpus of available clinical trials requires the manual review of numerous eligibility criteria, which is impracticable for clinicians on a daily basis. In this thesis, a large medical corpora comprising all cancer clinical trials protocols in the last 18 years published by competent authorities was used to extract medical knowledge in order to help automatically learn patient’s eligibility in these trials. For this, a model is built to automatically predict whether short clinical statements were considered inclusion or exclusion criteria. A method based on deep neural networks is trained on a dataset of 6 million short free-texts to classify them between elegible or not elegible. For this, pretrained word embeddings were used as inputs in order to predict whether or not short free-text statements describing clinical information were considered eligible. The semantic reasoning of the word-embedding representations obtained was also analyzed, being able to identify equivalent treatments for a type of tumor in an analogy with the drugs used to treat other tumors. Results show that representation learning using deep neural networks can be successfully leveraged to extract the medical knowledge from clinical trial protocols and potentially assist practitioners when prescribing treatments. The second main task addressed in this thesis is related to knowledge extraction from medical reports associated with radiographs. Conventional radiology remains the most performed technique in radiodiagnosis services, with a percentage close to 75% (Radiología Médica, 2010). In particular, chest x-ray is the most common medical imaging exam with over 35 million taken every year in the US alone (Kamel et al., 2017). They allow for inexpensive screening of several pathologies including masses, pulmonary nodules, effusions, cardiac abnormalities and pneumothorax. For this task, all the chest-x rays that had been interpreted and reported by radiologists at the Hospital Universitario de San Juan (Alicante) from Jan 2009 to Dec 2017 were used to build a novel large-scale dataset in which each high-resolution radiograph is labeled with its corresponding metadata, radiological findings and pathologies. This dataset, named PadChest, includes more than 160,000 images obtained from 67,000 patients, covering six different position views and additional information on image acquisition and patient demography. The free text reports written in Spanish by radiologists were labeled with 174 different radiographic findings, 19 differential diagnoses and 104 anatomic locations organized as a hierarchical taxonomy and mapped onto standard Unified Medical Language System (UMLS) terminology. For this, a subset of the reports (a 27%) were manually annotated by trained physicians, whereas the remaining set was automatically labeled with deep supervised learning methods using attention mechanisms and fed with the text reports. The labels generated were then validated in an independent test set achieving a 0.93 Micro-F1 score. To the best of our knowledge, this is one of the largest public chest x-ray databases suitable for training supervised models concerning radiographs, and also the first to contain radiographic reports in Spanish. The PadChest dataset can be downloaded on request from http://bimcv.cipf.es/bimcv-projects/padchest/. PadChest is intended for training image classifiers based on deep learning techniques to extract medical knowledge from chest x-rays. It is essential that automatic radiology reporting methods could be integrated in a clinically validated manner in radiologists’ workflow in order to help specialists to improve their efficiency and enable safer and actionable reporting. Computer vision methods capable of identifying both the large spectrum of thoracic abnormalities (and also the normality) need to be trained on large-scale comprehensively labeled large-scale x-ray datasets such as PadChest. The development of these computer vision tools, once clinically validated, could serve to fulfill a broad range of unmet needs. Beyond implementing and obtaining results for both clinical trials and chest x-rays, this thesis studies the nature of the health data, the novelty of applying deep learning methods to obtain large-scale labeled medical datasets, and the relevance of its applications in medical research, which have contributed to its extramural diffusion and worldwide reach. This thesis describes this journey so that the reader is navigated across multiple disciplines, from engineering to medicine up to ethical considerations in artificial intelligence applied to medicine. Natural Language Processing Machine Learning Artificial Intelligence Neural Networks Deep Learning Computer Vision Multilabel Text Classifiers Clinical Research Radiology Chest X-Rays Medical Image Dataset Clinical Trials on Cancer Medical Text Lenguajes y Sistemas Informáticos
378	Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents Domingo Ballester, Miguel 28 February 2022 (has links) [ES] Los documentos históricos son una parte importante de nuestra herencia cultural. Sin embargo, debido a la barrera idiomática inherente en el lenguaje humano y a las propiedades lingüísticas de estos documentos, su accesibilidad está principalmente restringida a los académicos. Por un lado, el lenguaje humano evoluciona con el paso del tiempo. Por otro lado, las convenciones ortográficas no se crearon hasta hace poco y, por tanto, la ortografía cambia según el período temporal y el autor. Por estas razones, el trabajo de los académicos es necesario para que los no expertos puedan obtener una comprensión básica de un documento determinado. En esta tesis abordamos dos tareas relacionadas con el procesamiento de documentos históricos. La primera tarea es la modernización del lenguaje que, a fin de hacer que los documentos históricos estén más accesibles para los no expertos, tiene como objetivo reescribir un documento utilizando la versión moderna del idioma original del documento. La segunda tarea es la normalización ortográfica. Las propiedades lingüísticas de los documentos históricos mencionadas con anterioridad suponen un desafío adicional para la aplicación efectiva del procesado del lenguaje natural en estos documentos. Por lo tanto, esta tarea tiene como objetivo adaptar la ortografía de un documento a los estándares modernos a fin de lograr una consistencia ortográfica. Ambas tareas las afrontamos desde una perspectiva de traducción automática, considerando el idioma original de un documento como el idioma fuente, y su homólogo moderno/normalizado como el idioma objetivo. Proponemos varios enfoques basados en la traducción automática estadística y neuronal, y llevamos a cabo una amplia experimentación que ratifica el potencial de nuestras contribuciones -en donde los enfoques estadísticos arrojan resultados iguales o mejores que los enfoques neuronales para la mayoría de los casos-. En el caso de la tarea de modernización del lenguaje, esta experimentación incluye una evaluación humana realizada con la ayuda de académicos y un estudio con usuarios que verifica que nuestras propuestas pueden ayudar a los no expertos a obtener una comprensión básica de un documento histórico sin la intervención de un académico. Como ocurre con cualquier problema de traducción automática, nuestras aplicaciones no están libres de errores. Por lo tanto, para obtener modernizaciones/normalizaciones perfectas, un académico debe supervisar y corregir los errores. Este es un procedimiento común en la industria de la traducción. La metodología de traducción automática interactiva tiene como objetivo reducir el esfuerzo necesario para obtener traducciones de alta calidad uniendo al agente humano y al sistema de traducción en un proceso de corrección cooperativo. Sin embargo,la mayoría de los protocolos interactivos siguen una estrategia de izquierda a derecha. En esta tesis desarrollamos un nuevo protocolo interactivo que rompe con esta barrera de izquierda a derecha. Hemos evaluado este nuevo protocolo en un entorno de traducción automática, obteniendo grandes reducciones del esfuerzo humano. Finalmente, dado que este marco interactivo es de aplicación general a cualquier problema de traducción, lo hemos aplicado -nuestro nuevo protocolo junto con uno de los protocolos clásicos de izquierda a derecha- a la modernización del lenguaje y a la normalización ortográfica. Al igual que en traducción automática, el marco interactivo logra disminuir el esfuerzo requerido para corregir los resultados de un sistema automático. / [CA] Els documents històrics són una part important de la nostra herència cultural. No obstant això, degut a la barrera idiomàtica inherent en el llenguatge humà i a les propietats lingüístiques d'aquests documents, la seua accessibilitat està principalment restringida als acadèmics. D'una banda, el llenguatge humà evoluciona amb el pas del temps. D'altra banda, les convencions ortogràfiques no es van crear fins fa poc i, per tant, l'ortografia canvia segons el període temporal i l'autor. Per aquestes raons, el treball dels acadèmics és necessari perquè els no experts puguen obtindre una comprensió bàsica d'un document determinat. En aquesta tesi abordem dues tasques relacionades amb el processament de documents històrics. La primera tasca és la modernització del llenguatge que, a fi de fer que els documents històrics estiguen més accessibles per als no experts, té per objectiu reescriure un document utilitzant la versió moderna de l'idioma original del document. La segona tasca és la normalització ortogràfica. Les propietats lingüístiques dels documents històrics mencionades amb anterioritat suposen un desafiament addicional per a l'aplicació efectiva del processat del llenguatge natural en aquests documents. Per tant, aquesta tasca té per objectiu adaptar l'ortografia d'un document als estàndards moderns a fi d'aconseguir una consistència ortogràfica. Dues tasques les afrontem des d'una perspectiva de traducció automàtica, considerant l'idioma original d'un document com a l'idioma font, i el seu homòleg modern/normalitzat com a l'idioma objectiu. Proposem diversos enfocaments basats en la traducció automàtica estadística i neuronal, i portem a terme una àmplia experimentació que ratifica el potencial de les nostres contribucions -on els enfocaments estadístics obtenen resultats iguals o millors que els enfocaments neuronals per a la majoria dels casos-. En el cas de la tasca de modernització del llenguatge, aquesta experimentació inclou una avaluació humana realitzada amb l'ajuda d'acadèmics i un estudi amb usuaris que verifica que les nostres propostes poden ajudar als no experts a obtindre una comprensió bàsica d'un document històric sense la intervenció d'un acadèmic. Com ocurreix amb qualsevol problema de traducció automàtica, les nostres aplicacions no estan lliures d'errades. Per tant, per obtindre modernitzacions/normalitzacions perfectes, un acadèmic ha de supervisar i corregir les errades. Aquest és un procediment comú en la indústria de la traducció. La metodologia de traducció automàtica interactiva té per objectiu reduir l'esforç necessari per obtindre traduccions d'alta qualitat unint a l'agent humà i al sistema de traducció en un procés de correcció cooperatiu. Tot i això, la majoria dels protocols interactius segueixen una estratègia d'esquerra a dreta. En aquesta tesi desenvolupem un nou protocol interactiu que trenca amb aquesta barrera d'esquerra a dreta. Hem avaluat aquest nou protocol en un entorn de traducció automàtica, obtenint grans reduccions de l'esforç humà. Finalment, atès que aquest marc interactiu és d'aplicació general a qualsevol problema de traducció, l'hem aplicat -el nostre nou protocol junt amb un dels protocols clàssics d'esquerra a dreta- a la modernització del llenguatge i a la normalitzaciò ortogràfica. De la mateixa manera que en traducció automàtica, el marc interactiu aconsegueix disminuir l'esforç requerit per corregir els resultats d'un sistema automàtic. / [EN] Historical documents are an important part of our cultural heritage. However,due to the language barrier inherent in human language and the linguistic properties of these documents, their accessibility is mostly limited to scholars. On the one hand, human language evolves with the passage of time. On the other hand, spelling conventions were not created until recently and, thus, orthography changes depending on the time period and author. For these reasons, the work of scholars is needed for non-experts to gain a basic understanding of a given document. In this thesis, we tackle two tasks related with the processing of historical documents. The first task is language modernization which, in order to make historical documents more accessible to non-experts, aims to rewrite a document using the modern version of the document's original language. The second task is spelling normalization. The aforementioned linguistic properties of historical documents suppose an additional challenge for the effective natural language processing of these documents. Thus, this task aims to adapt a document's spelling to modern standards in order to achieve an orthography consistency. We affront both task from a machine translation perspective, considering a document's original language as the source language, and its modern/normalized counterpart as the target language. We propose several approaches based on statistical and neural machine translation, and carry out a wide experimentation that shows the potential of our contributions¿with the statistical approaches yielding equal or better results than the neural approaches in most of the cases. For the language modernization task, this experimentation includes a human evaluation conducted with the help of scholars and a user study that verifies that our proposals are able to help non-experts to gain a basic understanding of a historical document without the intervention of a scholar. As with any machine translation problem, our applications are not error-free. Thus, to obtain perfect modernizations/normalizations, a scholar needs to supervise and correct the errors. This is a common procedure in the translation industry. The interactive machine translation framework aims to reduce the effort needed for obtaining high quality translations by embedding the human agent and the translation system into a cooperative correction process. However, most interactive protocols follow a left-to-right strategy. In this thesis, we developed a new interactive protocol that breaks this left-to-right barrier. We evaluated this new protocol in a machine translation environment, obtaining large reductions of the human effort. Finally, since this interactive framework is of general application to any translation problem, we applied it¿our new protocol together with one of the classic left-to-right protocols¿to language modernization and spelling normalization. As with machine translation, the interactive framework diminished the effort required for correcting the outputs of an automatic system. / The research leading to this thesis has been partially funded by Ministerio de Economía y Competitividad (MINECO) under projects SmartWays (grant agreement RTC-2014-1466-4), CoMUN-HaT (grant agreement TIN2015-70924-C2-1-R) and MISMISFAKEnHATE (grant agreement PGC2018-096212-B-C31); Generalitat Valenciana under projects ALMAMATER (grant agreement PROMETEOII/2014/030) and DeepPattern (grant agreement PROMETEO/2019/121); the European Union through Programa Operativo del Fondo Europeo de Desarrollo Regional (FEDER) from Comunitat Valenciana (2014–2020) under project Sistemas de frabricación inteligentes para la indústria 4.0 (grant agreement ID-IFEDER/2018/025); and the PRHLT research center under the research line Machine Learning Applications. / Domingo Ballester, M. (2022). Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181231 / TESIS Traducción automática estadística Traducción automática Traducción automática neuronal Traducción automática interactiva Documentos históricos Normalización ortográfica Modernización lingüística Machine translation Statistical machine translation Neural machine translation Interactive machine translation Historical documents Spelling normalization Language modernization LENGUAJES Y SISTEMAS INFORMATICOS
379	Temporal Emotion Dynamics in Social Networks Naskar, Debashis 21 February 2022 (has links) [ES] El análisis de sentimientos en redes sociales se ha estudiado ampliamente durante la última década. A pesar de ello, las distintas categorías de sentimientos no se consideran adecuadamente en muchos casos, y el estudio de patrones de difusión de las emociones es limitado. Por lo tanto, comprender la importancia de emociones específicas será más beneficioso para diversas actividades de marketing, toma de decisiones empresariales y campañas políticas. Esta tesis doctoral se centra en el diseño de un marco teórico para analizar el amplio espectro de sentimientos y explicar cómo se propagan las emociones utilizando conceptos de redes temporales y multicapa. Particularmente, nuestro objetivo es proporcionar información sobre el modelado de la influencia de las emociones y como esta afecta a los problemas de estimación de las emociones y a la naturaleza dinámica temporal en la conversación social. Para mostrar la eficacia del modelo propuesto, se han recopilado publicaciones relacionadas con diferentes eventos de Twitter y hemos construido una estructura de red temporal sobre la conversación. En primer lugar, realizamos un análisis de sentimientos adoptando un enfoque basado en el léxico y en el modelo circunflejo de emociones de Russell que mejora la efectividad de la caracterización del sentimiento. A partir de este análisis investigamos la dinámica social de las emociones presente en las opiniones de los usuarios analizando diferentes características de influencia social. A continuación, diseñamos un modelo estocástico temporal basado en emociones para investigar el patrón de participación de los usuarios y predecir las emociones significativas. Nuestra contribución final es el desarrollo de un modelo de influencia secuencial basado en emociones mediante la utilización de redes neuronales recurrentes que permiten predecir emociones de una manera más completa. Finalmente, el documento presenta algunas conclusiones y también describe las direcciones de investigación futuras. / [CA] L'anàlisi de sentiments en xarxes socials s'ha estudiat àmpliament durant l'última dècada. Malgrat això, les diferents categories de sentiments no es consideren adequadament en molts casos, i l'estudi de patrons de difusió de les emocions és limitat. Per tant, comprendre la importància d'emocions específiques serà més beneficiós per a diverses activitats de màrqueting, presa de decisions empresarials i campanyes polítiques. Aquesta tesi doctoral se centra en el disseny d'un marc teòric per a analitzar l'ampli espectre de sentiments i explicar com es propaguen les emocions utilitzant conceptes de xarxes temporals i multicapa. Particularment, el nostre objectiu és proporcionar informació sobre el modelatge de la influència de les emocions i com aquesta afecta als problemes d'estimació de les emocions i a la naturalesa dinàmica temporal en la conversa social. Per a mostrar l'eficàcia del model proposat, s'han recopilat publicacions relacionades amb diferents esdeveniments de Twitter i hem construït una estructura de xarxa temporal sobre la conversa. En primer lloc, realitzem una anàlisi de sentiments adoptant un enfocament basat en el lèxic i en el model circumflex d'emocions de Russell que millora l'efectivitat de la caracterització del sentiment. A partir d'aquesta anàlisi investiguem la dinàmica social de les emocions present en les opinions dels usuaris analitzant diferents característiques d'influència social. A continuació, dissenyem un model estocàstic temporal basat en emocions per a investigar el patró de participació dels usuaris i predir les emocions significatives. La nostra contribució final és el desenvolupament d'un model d'influència seqüencial basat en emocions mitjançant la utilització de xarxes neuronals recurrents que permeten predir emocions d'una manera més completa. Finalment, el document presenta algunes conclusions i també descriu les direccions d'investigació futures. / [EN] Sentiment analysis in social networks has been widely analysed over the last decade. Despite the amount of research done in sentiment analysis in social networks, the distinct categories are not appropriately considered in many cases, and the study of dissemination patterns of emotions is limited. Therefore, understanding the significance of specific emotions will be more beneficial for various marketing activities, policy-making decisions and political campaigns. The current PhD thesis focuses on designing a theoretical framework for analyzing the broad spectrum of sentiments and explain how emotions are propagated using concepts from temporal and multilayer networks. More precisely, our goal is to provide insights into emotion influence modelling that solves emotion estimation problems and its temporal dynamics nature on social conversation. To exhibit the efficacy of the proposed model, we have collected posts related to different events from Twitter and build a temporal network structure over the conversation. Firstly, we perform sentiment analysis with the adaptation of a lexicon-based approach and the circumplex model of affect that enhances the effectiveness of the sentiment characterization. Subsequently, we investigate the social dynamics of emotion present in users' opinions by analyzing different social influential characteristics. Next, we design a temporal emotion-based stochastic model in order to investigate the engagement pattern and predict the significant emotions. Our ultimate contribution is the development of a sequential emotion-based influence model with the advancement of recurrent neural networks. It offers to predict emotions in a more comprehensive manner. Finally, the document presents some conclusions and also outlines future research directions. / Naskar, D. (2022). Temporal Emotion Dynamics in Social Networks [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/180997 / TESIS Análisis de los sentimientos Dinámica de las emociones Modelos de influencia Predicción afectiva Redes de propaganda Redes sociales Redes neuronales Sentiment analysis Emotion dynamics Influence model Emotion prediction Propaganda networks Social media Neural network LENGUAJES Y SISTEMAS INFORMATICOS
380	Enfoque Metodológico para la selección de controles de seguridad de la información Diéguez Rebolledo, Mauricio 18 February 2022 (has links) La gestión de la seguridad de la información es un desafío que ha ido cobrando cada vez más importancia. A medida que el número y gravedad de los ataques informáticos han crecido en el mundo, las empresas han comenzado a tomar conciencia de cuán importante es estar protegidos frente a acciones maliciosas que buscan vulnerar sus sistemas y acceder a sus activos de información. En particular, la automatización de los procesos y la digitalización de la información han expuesto a las organizaciones a ataques que buscan robar información o dañar sus sistemas. Cada vez es menos extraño escuchar noticias sobre un secuestro de información a través de los ransomware, o sobre ataques de denegación de servicio (DoS) para bloquear los accesos a dichos servicios. Estos ataques provocan cientos de millones de dólares en pérdidas en el mundo entero e incluso pueden llegar a detener la continuidad operacional de una organización. Frente a este escenario, es primordial que las organizaciones realicen una correcta gestión de la seguridad de la información, con el objetivo de proteger sus activos de información. Para ello, las organizaciones deben adoptar una actitud proactiva en lo referente a la seguridad, e implementar un conjunto de buenas prácticas en el quehacer de la organización que les permitan disminuir el riesgo de ser afectados por ataques informáticos. Con el fin de lograr este objetivo, existen estándares de seguridad en los que las organizaciones pueden apoyarse. Un estándar de seguridad de la información es una guía de implementación de buenas prácticas de seguridad, desde una perspectiva holística e integrada, que busca disminuir las vulnerabilidades de la organización a través de la implementación de un sistema de gestión de la seguridad de la información. Por tanto, a simple vista, la acción de protegerse es sencilla, ya que en teoría debería bastar con implementar el estándar para considerarse protegido. Sin embargo, la situación es algo más compleja, ya que se debe considerar que cada organización es un mundo aparte, con condiciones de operación y disponibilidad de recursos distintas. Lamentablemente el problema no consiste solo en implementar el estándar, sino que radica en determinar cuál es la mejor ruta de avance que puede tener una organización, considerando sus objetivos y condiciones particulares, así como su disponibilidad de recursos. Esto implica que cada definición de ruta es propia para cada organización. Desafortunadamente, hasta el momento no existe un modelo estándar que haya sistematizado el proceso de la definición de una ruta de avance de manera que pueda ser aplicada por cualquier organización. Actualmente la definición de una ruta de avance se traduce en la selección y planificación de la implementación de controles de un estándar de seguridad, y se basa principalmente en el juicio experto. Sin embargo, este proceder es subjetivo, ya que depende de la experiencia y visión del asesor, que no siempre considera las condiciones propias de la organización. Además, es un proceso que puede tomar bastante tiempo, ya que son múltiples las variables que se deben considerar. Otro problema es que este modo de definir la ruta de avance no asegura que la respuesta sea la óptima para la organización en base a sus condiciones, ya que, si bien se utilizan algunas técnicas como la gestión de riesgos, estas mayormente son de índole cualitativa. Por último, dado que el proceso de recomendación de la selección e implementación de controles de seguridad no está estandarizado ni es sistemático y dependen del asesor de seguridad, éste no es replicable, es decir, nada asegura que, de realizarse nuevamente, se obtendrían los mismos resultados. Esta tesis pretende paliar estos problemas, para lo cual plantea un enfoque metodológico para la selección y planificación de la implementación de controles de seguridad que estandarice y sistematice dicho proceso a través de la aplicación de modelos y técnicas de optimización. Estos modelos y técnicas permiten modelar la situación particular de la organización (Objetivos y restricciones) y aseguran una solución óptima para las condiciones representadas. La principal contribución de este trabajo es por tanto la propuesta de un proceso estándar y sistemático, pero que puede ser aplicado a cualquier organización, ajustándose a sus condiciones particulares, y que entrega la mejor solución para dichas condiciones. Este proceso se presenta como un apoyo útil para el asesor de seguridad a la hora de que éste realice sus recomendaciones de seguridad respecto de los controles que cada organización debe implementar para avanzar en el logro de un estándar de seguridad. Como contribuciones secundarias, se ha definido un marco conceptual de seguridad de la información que integra diversas visiones de las variables y relaciones que involucra la seguridad de la información. Es este marco conceptual el que apoya la modelación de los problemas de optimización que genera nuestra propuesta. Otro aporte es la identificación y categorización de los diversos problemas o escenarios que podrían considerarse para la modelación, es decir, basada en los diversos tipos de situaciones que una organización podría querer resolver. Esta categorización va más allá de los casos particulares de la industria que se suelen reportar en la literatura, y ha permitido identificar casos de las categorías más complejas que las que suelen encontrarse en dicha literatura. En esta línea, hemos desarrollado un ejemplo con una situación de una categoría compleja, lo que representa una contribución en sí misma. Un cuarto aporte es la generación de una herramienta informática que soporta el enfoque propuesto y apoya al asesor de seguridad en la aplicación de nuestra propuesta. La herramienta facilita, principalmente, la modelación y la resolución de dichos modelos, por lo que el asesor solo debe preocuparse del análisis de las respuestas. No hemos encontrado en otras propuestas descritas en la literatura herramientas que apoyen sus propuestas. Por último, el trabajo presenta una evaluación de la propuesta, a través de un estudio de adopción de métodos, con estudiantes de pregrado en un curso de auditoría informática. Este estudio evidenció una tendencia de los sujetos en estudio hacia la adopción de la propuesta, percibiéndola como un elemento útil y que se ajusta a su manera de trabajar. La principal debilidad de la propuesta se centró en la facilidad de uso, ya que la modelación y resolución del problema requiere de conocimientos avanzados de técnicas de optimización. En definitiva, la propuesta de este trabajo provee a la comunidad de la gestión de la seguridad de la información de un enfoque metodológico que permite sistematizar un proceso que hasta el momento solo se sustentaba en propuestas sobre casos particulares, por lo que no había sido estandarizado y su alcance era bastante limitado. Esto representa un avance en un ámbito que se encuentra en desarrollo y que aún no logra abarcar y solucionar todas las complejidades que presenta este problema. Creemos que la propuesta de esta tesis representa un avance en la dirección correcta, al definir lineamientos y soluciones sobre problemas que aún no habían sido enfrentados. Seguridad de la información Estándar de seguridad Control de seguridad Selección de controles de seguridad Evaluación del riesgo Enfoque metodológico Intención de adopción Utilidad Facilidad de Uso Compatibilidad Norma Subjetiva UMAM Herramienta informática Lenguajes y Sistemas Informáticos

Search results