181 |
Algoritmos de detección y filtrado de imágenes para arquitecturas multicore y manycoreSánchez Cervantes, María Guadalupe 15 May 2013 (has links)
En esta tesis se aborda la eliminaci'on de ruido impulsivo, gaussiano y
speckle en im'agenes a color y en escala de gises. Como caso particular
se puede mencionar la eliminaci'on de ruido en im'agenes m'edicas.
Algunos m'etodos de filtrado son costosos computacionalmente y m'as
a'un, si las im'agenes son de gran tama¿no. Con el fin de reducir el coste
computacional de dichos m'etodos, en esta tesis se utiliza hardware que
soporta procesamiento paralelo, como lo son los cores CPU con procesadores
multicore y GPUs con procesadores manycore.En las implementaciones
paralelas en CUDA, se configuran algunas caracter'¿sticas
con la finalidad de optimizar el procesamiento de la aplicaci'on en las
GPUs.
Esta tesis estudia por un lado, el rendimiento computacional obtenido
en el proceso de eliminaci'on de ruido impulsivo y uniforme. Por otro
lado, se eval'ua la calidad despu'es de realizar el proceso de filtrado.
El rendimiento computacional se ha obtenido con la paralelizaci'on de
los algoritmos en CPU y/o GPU. Para obtener buena calidad en la
imagen filtrada, primero se detectan los p'¿xeles corruptos y luego son
filtrados solo los p'¿xeles que se han detectado como corruptos. Por lo
que respecta a la eliminaci'on de ruido gaussiano y speckle, el an'alisis
del filtro difusivo no lineal ha demostrado ser eficaz para este caso.
Los algoritmos que se utilizan para eliminar el ruido impulsivo y uniforme
en las im'agenes, y sus implementaciones secuenciales y paralelas
se han evaluado experimentalmente en tiempo de ejecuci'on (speedup)
y eficiencia en tres equipos de c'omputo de altas prestaciones. Los resultados
han mostrado que las implementaciones paralelas disminuyen
considerablemente los tiempos de ejecuci'on secuenciales.
Finalmente, en esta tesis se propone un m'etodo para reducir eficientemente
el ruido en las im'agenes sin tener informaci'on inicial del tipo
de ruido contenido en ellas.
I / Sánchez Cervantes, MG. (2013). Algoritmos de detección y filtrado de imágenes para arquitecturas multicore y manycore [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/28854
|
182 |
Achieving Autonomic Web Service Compositions with Models at RuntimeAlférez Salinas, Germán Harvey 26 December 2013 (has links)
Over the last years, Web services have become increasingly popular. It is because they allow businesses to share data and business process (BP) logic through a programmatic interface across networks. In order to reach the full potential of
Web services, they can be combined to achieve specifi c functionalities.
Web services run in complex contexts where arising events may compromise the quality of the system (e.g. a sudden security attack). As a result, it is desirable to count on mechanisms to adapt Web service compositions (or simply
called service compositions) according to problematic events in the context. Since critical systems may require prompt responses, manual adaptations are unfeasible in large and intricate service compositions. Thus, it is suitable to
have autonomic mechanisms to guide their self-adaptation. One way to achieve this is by implementing variability constructs at the language level. However, this approach may become tedious, difficult to manage, and error-prone as the number of con figurations for the service composition grows.
The goal of this thesis is to provide a model-driven framework to guide autonomic adjustments of context-aware service compositions. This framework spans over design time and runtime to face arising known and unknown context events (i.e., foreseen and unforeseen at design time) in the close and open worlds respectively.
At design time, we propose a methodology for creating the models that guide autonomic changes. Since Service-Oriented Architecture (SOA) lacks support for systematic reuse of service operations, we represent service operations as Software Product Line (SPL) features in a variability model. As a result, our approach can support the construction of service composition families in mass production-environments. In order to reach optimum adaptations, the variability model and its possible con figurations are verifi ed at design time using Constraint Programming (CP).
At runtime, when problematic events arise in the context, the variability model is leveraged for guiding autonomic changes of the service composition. The activation and deactivation of features in the variability model result in changes in a composition model that abstracts the underlying service composition. Changes in the variability model are refl ected into the service composition by adding or removing fragments of Business Process Execution Language (WS-BPEL)
code, which are deployed at runtime. Model-driven strategies guide the safe migration of running service composition instances. Under the closed-world assumption, the possible context events are fully known at design time. These
events will eventually trigger the dynamic adaptation of the service composition. Nevertheless, it is diffi cult to foresee all the possible situations arising in uncertain contexts where service compositions run. Therefore, we extend our
framework to cover the dynamic evolution of service compositions to deal with unexpected events in the open world. If model adaptations cannot solve uncertainty, the supporting models self-evolve according to abstract tactics that
preserve expected requirements. / Alférez Salinas, GH. (2013). Achieving Autonomic Web Service Compositions with Models at Runtime [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/34672
|
183 |
Multimodal interactive structured predictionAlabau Gonzalvo, Vicente 27 January 2014 (has links)
This thesis presents scientific contributions to the field of multimodal interac-
tive structured prediction (MISP). The aim of MISP is to reduce the human
effort required to supervise an automatic output, in an efficient and ergonomic
way. Hence, this thesis focuses on the two aspects of MISP systems. The first
aspect, which refers to the interactive part of MISP, is the study of strate-
gies for efficient human¿computer collaboration to produce error-free outputs.
Multimodality, the second aspect, deals with other more ergonomic modalities
of communication with the computer rather than keyboard and mouse.
To begin with, in sequential interaction the user is assumed to supervise the
output from left-to-right so that errors are corrected in sequential order. We
study the problem under the decision theory framework and define an optimum
decoding algorithm. The optimum algorithm is compared to the usually ap-
plied, standard approach. Experimental results on several tasks suggests that
the optimum algorithm is slightly better than the standard algorithm.
In contrast to sequential interaction, in active interaction it is the system that
decides what should be given to the user for supervision. On the one hand, user
supervision can be reduced if the user is required to supervise only the outputs
that the system expects to be erroneous. In this respect, we define a strategy
that retrieves first the outputs with highest expected error first. Moreover, we
prove that this strategy is optimum under certain conditions, which is validated
by experimental results. On the other hand, if the goal is to reduce the number
of corrections, active interaction works by selecting elements, one by one, e.g.,
words of a given output to be supervised by the user. For this case, several
strategies are compared. Unlike the previous case, the strategy that performs
better is to choose the element with highest confidence, which coincides with
the findings of the optimum algorithm for sequential interaction. However, this
also suggests that minimizing effort and supervision are contradictory goals.
With respect to the multimodality aspect, this thesis delves into techniques to
make multimodal systems more robust. To achieve that, multimodal systems
are improved by providing contextual information of the application at hand.
First, we study how to integrate e-pen interaction in a machine translation
task. We contribute to the state-of-the-art by leveraging the information from the source sentence. Several strategies are compared basically grouped into two
approaches: inspired by word-based translation models and n-grams generated
from a phrase-based system. The experiments show that the former outper-
forms the latter for this task. Furthermore, the results present remarkable
improvements against not using contextual information. Second, similar ex-
periments are conducted on a speech-enabled interface for interactive machine
translation. The improvements over the baseline are also noticeable. How-
ever, in this case, phrase-based models perform much better than word-based
models. We attribute that to the fact that acoustic models are poorer estima-
tions than morphologic models and, thus, they benefit more from the language
model. Finally, similar techniques are proposed for dictation of handwritten
documents. The results show that speech and handwritten recognition can be
combined in an effective way.
Finally, an evaluation with real users is carried out to compare an interactive
machine translation prototype with a post-editing prototype. The results of
the study reveal that users are very sensitive to the usability aspects of the
user interface. Therefore, usability is a crucial aspect to consider in an human
evaluation that can hinder the real benefits of the technology being evaluated.
Hopefully, once usability problems are fixed, the evaluation indicates that users
are more favorable to work with the interactive machine translation system than
to the post-editing system. / Alabau Gonzalvo, V. (2014). Multimodal interactive structured prediction [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/35135 / Premios Extraordinarios de tesis doctorales
|
184 |
On the effective deployment of current machine translation technologyGonzález Rubio, Jesús 03 June 2014 (has links)
Machine translation is a fundamental technology that is gaining more importance
each day in our multilingual society. Companies and particulars are
turning their attention to machine translation since it dramatically cuts down
their expenses on translation and interpreting. However, the output of current
machine translation systems is still far from the quality of translations generated
by human experts. The overall goal of this thesis is to narrow down
this quality gap by developing new methodologies and tools that improve the
broader and more efficient deployment of machine translation technology.
We start by proposing a new technique to improve the quality of the
translations generated by fully-automatic machine translation systems. The
key insight of our approach is that different translation systems, implementing
different approaches and technologies, can exhibit different strengths and
limitations. Therefore, a proper combination of the outputs of such different
systems has the potential to produce translations of improved quality.
We present minimum Bayes¿ risk system combination, an automatic approach
that detects the best parts of the candidate translations and combines them
to generate a consensus translation that is optimal with respect to a particular
performance metric. We thoroughly describe the formalization of our
approach as a weighted ensemble of probability distributions and provide efficient
algorithms to obtain the optimal consensus translation according to the
widespread BLEU score. Empirical results show that the proposed approach
is indeed able to generate statistically better translations than the provided
candidates. Compared to other state-of-the-art systems combination methods,
our approach reports similar performance not requiring any additional data
but the candidate translations.
Then, we focus our attention on how to improve the utility of automatic
translations for the end-user of the system. Since automatic translations are
not perfect, a desirable feature of machine translation systems is the ability
to predict at run-time the quality of the generated translations. Quality estimation
is usually addressed as a regression problem where a quality score
is predicted from a set of features that represents the translation. However, although the concept of translation quality is intuitively clear, there is no
consensus on which are the features that actually account for it. As a consequence,
quality estimation systems for machine translation have to utilize
a large number of weak features to predict translation quality. This involves
several learning problems related to feature collinearity and ambiguity, and
due to the ¿curse¿ of dimensionality. We address these challenges by adopting
a two-step training methodology. First, a dimensionality reduction method
computes, from the original features, the reduced set of features that better
explains translation quality. Then, a prediction model is built from this
reduced set to finally predict the quality score. We study various reduction
methods previously used in the literature and propose two new ones based on
statistical multivariate analysis techniques. More specifically, the proposed dimensionality
reduction methods are based on partial least squares regression.
The results of a thorough experimentation show that the quality estimation
systems estimated following the proposed two-step methodology obtain better
prediction accuracy that systems estimated using all the original features.
Moreover, one of the proposed dimensionality reduction methods obtained the
best prediction accuracy with only a fraction of the original features. This
feature reduction ratio is important because it implies a dramatic reduction
of the operating times of the quality estimation system.
An alternative use of current machine translation systems is to embed them
within an interactive editing environment where the system and a human expert
collaborate to generate error-free translations. This interactive machine
translation approach have shown to reduce supervision effort of the user in
comparison to the conventional decoupled post-edition approach. However,
interactive machine translation considers the translation system as a passive
agent in the interaction process. In other words, the system only suggests translations
to the user, who then makes the necessary supervision decisions. As
a result, the user is bound to exhaustively supervise every suggested translation.
This passive approach ensures error-free translations but it also demands
a large amount of supervision effort from the user.
Finally, we study different techniques to improve the productivity of current
interactive machine translation systems. Specifically, we focus on the development
of alternative approaches where the system becomes an active agent
in the interaction process. We propose two different active approaches. On the
one hand, we describe an active interaction approach where the system informs
the user about the reliability of the suggested translations. The hope is that
this information may help the user to locate translation errors thus improving
the overall translation productivity. We propose different scores to measure translation reliability at the word and sentence levels and study the influence
of such information in the productivity of an interactive machine translation
system. Empirical results show that the proposed active interaction protocol
is able to achieve a large reduction in supervision effort while still generating
translations of very high quality. On the other hand, we study an active learning
framework for interactive machine translation. In this case, the system is
not only able to inform the user of which suggested translations should be
supervised, but it is also able to learn from the user-supervised translations to
improve its future suggestions. We develop a value-of-information criterion to
select which automatic translations undergo user supervision. However, given
its high computational complexity, in practice we study different selection
strategies that approximate this optimal criterion. Results of a large scale experimentation
show that the proposed active learning framework is able to
obtain better compromises between the quality of the generated translations
and the human effort required to obtain them. Moreover, in comparison to
a conventional interactive machine translation system, our proposal obtained
translations of twice the quality with the same supervision effort. / González Rubio, J. (2014). On the effective deployment of current machine translation technology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/37888
|
185 |
A Model-Driven Approach for the Design, Implementation, and Execution of Software Development MethodsCervera Úbeda, Mario 30 July 2015 (has links)
[EN] Software development projects are diverse in nature. For this reason, software companies are often forced to define their methods in-house. In order to define methods efficiently and effectively, software companies require systematic solutions that are built upon sound methodical foundations. Providing these solutions is the main goal of the Method Engineering discipline.
Method Engineering is the discipline to design, construct, and adapt methods, techniques, and tools for the development of information systems. Over the last two decades, a lot of research work has been performed in this area. However, despite its potential benefits, Method Engineering is not widely used in industrial settings. Some of the causes of this reality are the high theoretical complexity of Method Engineering and the lack of adequate software support.
In this thesis, we aim to mitigate some of the problems that affect Method Engineering by providing a novel methodological approach that is built upon Model-Driven Engineering (MDE) foundations. The use of MDE enables a rise in abstraction, automation, and reuse that allows us to alleviate the complexity of our Method Engineering approach. Furthermore, by leveraging MDE techniques (such
as metamodeling, model transformations, and models at runtime), our approach supports three phases of the Method Engineering lifecycle: design, implementation, and execution. This is unlike traditional Method Engineering approaches, which, in general, only support one of these phases.
In order to provide software support for our proposal, we developed a Computer-Aided Method Engineering (CAME) environment that is called MOSKitt4ME. To ensure that MOSKitt4ME offered the necessary functionality, we identified a set of functional requirements prior to developing the tool. Then, after these requirements were identified, we defined the architecture of our CAME environment, and, finally, we implemented the architecture in the context of Eclipse.
The thesis work was evaluated by means of a study that involved the participation of end users. In this study, MOSKitt4ME was assessed by means of the Technology Acceptance Model (TAM) and the Think Aloud method. While the TAM allowed us to measure usefulness and ease of use in a subjective manner, the Think Aloud method allowed us to analyze these measures objectively. Overall, the results were favorable. MOSKitt4ME was highly rated in perceived usefulness and ease of use; we also obtained positive results with respect to the users' actual performance and the difficulty experienced. / [ES] Los proyectos de desarrollo de software son diversos por naturaleza. Por este motivo, las compañías de software se ven forzadas frecuentemente a definir sus métodos de manera interna. Para poder definir métodos de forma efectiva y eficiente, las compañías necesitan soluciones sistemáticas que estén definidas sobre unos fundamentos metodológicos sólidos. Proporcionar estas soluciones es el principal objetivo de la Ingeniería de Métodos.
La Ingeniería de Métodos es la disciplina que aborda el diseño, la construcción y la adaptación de métodos, técnicas y herramientas para el desarrollo de sistemas de información. Durante las dos últimas décadas, se ha llevado a cabo mucho trabajo de investigación en esta área. Sin embargo, pese a sus potenciales beneficios, la Ingeniería de Métodos no se aplica ampliamente en contextos
industriales. Algunas de las principales causas de esta situación son la alta complejidad teórica de la Ingeniería de Métodos y la falta de un apropiado soporte software.
En esta tesis, pretendemos mitigar algunos de los problemas que afectan a la Ingeniería de Métodos proporcionando una propuesta metodológica innovadora que está basada en la Ingeniería Dirigida por Modelos (MDE). El uso de MDE permite elevar el nivel de abstracción, automatización y reuso, lo que posibilita una reducción de la complejidad de nuestra propuesta. Además, aprovechando técnicas de MDE (como por ejemplo el metamodelado, las transformaciones de modelos y los
modelos en tiempo de ejecución), nuestra aproximación da soporte a tres fases del ciclo de vida de la Ingeniería de Métodos: diseño, implementación y ejecución. Esto es a diferencia de las propuestas existentes, las cuales, por lo general, sólo dan soporte a una de estas fases.
Con el objetivo de proporcionar soporte software para nuestra propuesta, implementamos una herramienta CAME (Computer-Aided Method Engineering) llamada MOSKitt4ME. Para garantizar que MOSKitt4ME proporcionaba la funcionalidad necesaria, definimos un conjunto de requisitos funcionales como paso previo al desarrollo de la herramienta. Tras la definción de estos requisitos, definimos la arquitectura de la herramienta CAME y, finalmente, implementamos la arquitectura en el contexto de Eclipse.
El trabajo desarrollado en esta tesis se evaluó por medio de un estudio donde participaron usuarios finales. En este estudio, MOSKitt4ME se evaluó por medio del Technology Acceptance Model (TAM) y del método Think Aloud. Mientras que el TAM permitió medir utilidad y facilidad de uso de forma subjetiva, el método Think Aloud permitió analizar estas medidas objetivamente. En general, los
resultados obtenidos fueron favorables. MOSKitt4ME fue valorado de forma positiva en cuanto a utilidad y facilidad de uso percibida; además, obtuvimos resultados positivos en cuanto al rendimiento objetivo de los usuarios y la dificultad experimentada. / [CA] Els projectes de desenvolupament de programari són diversos per naturalesa. Per aquest motiu, les companyies es veuen forçades freqüenment a definir els seus mètodes de manera interna. Per poder definir mètodes de forma efectiva i eficient, les companyies necessiten solucions sistemàtiques que estiguin definides sobre uns fundaments metodològics sòlids. Proporcionar aquestes solucions és el principal objectiu de l'Enginyeria de Mètodes.
L'Enginyeria de Mètodes és la disciplina que aborda el diseny, la construcció i l'adaptació de mètodes, tècniques i eines per al desenvolupament de sistemes d'informació. Durant les dues últimes dècades, s'ha dut a terme molt de treball de recerca en aquesta àrea. No obstant, malgrat els seus potencials beneficis, l'Enginyeria de Mètodes no s'aplica àmpliament en contextes industrials. Algunes de les principals causes d'aquesta situació són l'alta complexitat
teòrica de l'Enginyeria de Mètodes i la falta d'un apropiat suport de programari.
En aquesta tesi, pretenem mitigar alguns dels problemes que afecten a l'Enginyeria de Mètodes proporcionant una proposta metodològica innovadora que està basada en l'Enginyeria Dirigida per Models (MDE). L'ús de MDE ens permet elevar el nivell d'abstracció, automatització i reutilització, possibilitant una reducció de la complexitat de la nostra proposta. A més a més, aprofitant
tècniques de MDE (com per exemple el metamodelat, les transformacions de models i els models en temps d'execució), la nostra aproximació suporta tres fases del cicle de vida de l'Enginyeria de Mètodes: diseny, implementació i execució. Açò és a diferència de les propostes existents, les quals, en general, només suporten una d'aquestes fases.
Amb l'objectiu de proporcionar suport de programari per a la nostra proposta, implementàrem una eina CAME (Computer-Aided Method Engineering) anomenada MOSKitt4ME. Per garantir que MOSKitt4ME oferia la funcionalitat necessària, definírem un conjunt de requisits funcionals com a pas previ al desenvolupament de l'eina. Després de la definició d'aquests requisits, definírem la
arquitectura de l'eina CAME i, finalment, implementàrem l'arquitectura en el contexte d'Eclipse.
El treball desenvolupat en aquesta tesi es va avaluar per mitjà d'un estudi on van participar usuaris finals. En aquest estudi, MOSKitt4ME es va avaluar per mitjà del Technology Acceptance Model (TAM) i el mètode Think Aloud. Mentre que el TAM va permetre mesurar utilitat i facilitat d'ús de manera subjectiva, el mètode Think Aloud va permetre analitzar aquestes mesures objectivament. En general, els resultats obtinguts van ser favorables. MOSKitt4ME va ser valorat de forma positiva pel que fa a utilitat i facilitat d'ús percebuda; a més a més, vam obtenir resultats positius pel que fa al rendiment objectiu dels usuaris i a la dificultat experimentada. / Cervera Úbeda, M. (2015). A Model-Driven Approach for the Design, Implementation, and Execution of Software Development Methods [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/53931
|
186 |
GenomIUm: Un Método Basado en Patrones para el Diseño de Interfaces de Usuario de Acceso a Datos GenómicosÍñiguez Jarrín, Carlos Efraín 27 January 2020 (has links)
[ES] La explosión de datos genómicos derivada de la secuenciación del ADN ha motivado el desarrollo de herramientas software que, a más de proveer la capacidad de almacenamiento y rendimiento para procesar los datos genómicos, incorporen interfaces de usuario que permitan a los investigadores (genetistas, analistas de bioinformática, médicos, biólogos) acceder a los datos genómicos almacenados y obtener conocimiento de ellos. La facilidad con la que los investigadores acceden a los datos genómicos depende en cierta medida de la facilidad con la que la interfaz de usuario (IU) puede ser usada. Es por eso por lo que, diseñar IUs intuitivas, eficaces y fáciles de usar es en un requisito indispensable para desarrolladores y diseñadores de IUs inmersos en proyectos de software en este dominio.
El "diseño conceptual" de la IU es un artefacto principal de la etapa de diseño del proceso de desarrollo de la IU, en el cual desarrolladores y diseñadores plasman las decisiones de diseño para obtener IUs intuitivas, efectivas y fáciles de usar. En el dominio genómico, producir el diseño conceptual no es trivial. Las pocas o inexistentes guías y soluciones de diseño para abordar las necesidades de interacción del dominio genómico hacen del diseño conceptual una tarea desafiante para desarrolladores y diseñadores, novatos o expertos.
Con el fin de contribuir en el desarrollo de IUs que faciliten el acceso a los datos genómicos, diseñamos el método GenomIUm para cubrir el diseño conceptual de la IU. Para esto, GenomIUm, basado en el enfoque de diseño dirigido por patrones, define un proceso para diseñar el concepto de la IU y un catálogo de patrones de diseño que soporta a cada etapa del proceso. Así, GenomIUm guía al desarrollador de software en el diseño del concepto de la IU.
Esta investigación está guiada por la metodología Design Science promulgada por Roel Wieringa. Su enfoque en proyectos de investigación en Ingeniería de Software y Sistemas de Información hace de Design Science una metodología idónea para nuestra investigación. La metodología provee el marco de trabajo, los métodos de investigación y directrices para llevar a cabo la investigación y su aplicación asegura el rigor y validez científica de nuestros resultados. Para facilidad del lector, el presente documento de Tesis está organizado siguiendo la estructura de la metodología: inicia con la investigación del problema, sigue con el diseño de la solución propuesta para solucionar el problema y termina con la validación de la solución propuesta.
Para validar que GenomIUm cumple con los requisitos para los que fue diseñado, hemos ejecutado dos experimentos, uno por cada componente del método: los patrones y el proceso de diseño. El primer experimento evalúa el impacto producido por los patrones en la usabilidad de las IUs. El segundo experimento evalúa la percepción de desarrolladores de IUs respecto al uso del proceso de diseño. Adicionalmente, para ilustrar el uso de GenomIUm, describimos nuestra experiencia aplicando GenomIUm en un ambiente real.
Como proyectos futuros, planteamos i) enriquecer el catálogo de patrones con nuevos patrones identificados en IUs de aplicaciones emergentes en el dominio genómico y ii) aplicar GenomIUm en diversos casos de estudio con el fin de generalizar los efectos positivos reportados en esta Tesis. / [CA] L'Explosió de dades genòmiques derivada de la seqüenciació de l'ADN ha motivat el desenvolupament de ferramentes de programari que a més a més de proporcionar la capacitat d'emmagatzemament i rendiment per processar les dades genòmiques, incorporen interfícies d'usuari que permeten als investigadors (genetistes, analistes de bioinformàtica, metges, biòlegs) accedir a les dades genòmiques emmagatzemats i obtindré coneixement d'ells. La facilitat en la que els investigadors accedeixen a les dades genòmiques depèn de la facilitat en la que la IU puga ser utilitzada. Es per això pel que dissenyar IUs intuïtives, eficaces i senzilles d'utilitzar es converteix en un requisit indispensable per desenvolupadors i dissenyadors d'IUs immersos en projectes de programari en aquest domini.
El "disseny conceptual" de la IU és un artefacte principal de l'etapa de disseny del procés de desenvolupament de la IU, en el qual desenvolupadors i dissenyadors plasmen les decisions de disseny per a obtindré una UI intuïtiva, efectiva i fàcil d'utilitzar. En el domini genòmic, produir el disseny conceptual no és trivial. Les poques o inexistents guies i solucions de disseny per abordar les necessitats d'interacció del domini genòmic fan del disseny conceptual una tasca desafiadora per als desenvolupadors i dissenyadors, novells o experts.
Amb el fi de contribuir en el desenvolupament de IUs que faciliten l'accés a les dades genòmiques, nosaltres hem dissenyat el mètode GenomIUm per cobrir el disseny conceptual de la IU. Així, GenomIU, basat en l'enfocament de disseny dirigit per patrons, defineix un procés per a dissenyar el concepte de la IU i un catàleg de patrons de disseny que suporta a cadascuna de les etapes del procés. Així, GenomIUm guia al desenvolupador de programari en el disseny del concepte de la IU.
Aquesta investigació està guiada per la metodologia Design Science promulgada per Roel Wieringa. La seua aplicació en projectes d'investigació en Enginyeria de Programari i Sistemes d'informació fa de Design Science una metodologia idònia per la nostra investigació. La metodologia proveeix el marc de treball, els mètodes d'investigació i directrius per portar a terme la investigació i la seua aplicació assegura el rigor i validesa científica dels nostres resultats. Per facilitar la lectura, el present document de tesi està organitzat seguint l'estructura de la metodologia: inicia amb la investigació del problema, segueix en el disseny de la solució proposta per solucionar el problema i termina amb la validació de la solució proposta.
Per validar que GenomIUm compleix amb els requisits pels que va ser dissenyat, hem executat dos experiments, un per cada component del mètode: els patrons i el procés de disseny. El primer experiment avalua l'impacte produït pels patrons en la usabilitat de les IUs. El segon experiment avalua la percepció dels desenvolupadors de IUs respecte al ús del procés de disseny. Addicionalment, per il·lustrar l'ús de GenomIUm, descrivim nostra experiència aplicant GenomIUm en un ambient real.
Com projectes futurs, plantegem i) enriquir el catàleg de patrons amb nous patrons identificats en IUs d'aplicacions genòmic emergents i ii) aplicar GenomUIm en diversos casos d'estudi per generalitzar els efectes positius reportats en aquesta tesi. / [EN] The explosion of genomic data derived from DNA sequencing has motivated the development of software tools that, in addition to providing the storage and performance to process genomic data, incorporate user interfaces that allow researchers (i.e., geneticists, analysts of bioinformatics, doctors, biologists) access to the stored genomic data and get knowledge of them. The ease with which researchers access genomic data depends to some extent on the ease with which the user interface (UI) can be used. That is why, designing intuitive, effective and easy-to-use UIs becomes an indispensable requirement for developers and designers who are involved in software projects in this domain.
The "conceptual design" of the UI is a main design artifact of the UI development process, in which developers and designers capture the design decisions to obtain intuitive, effective and easy-to-use UIs. In the genomic domain, producing the conceptual design is not trivial. The few or nonexistent guides and design solutions to address the interaction needs in the genomic domain make the conceptual design a challenging task for developers and designers, novice or experts.
In order to contribute to the development of UIs that facilitate access to genomic data, we design the GenomIUm method to cover the conceptual design of the UI. To do that, GenomIUm, based on the Pattern-Oriented Design approach, defines a process to design the UI concept and a catalog of design patterns that supports each stage of the process. Thus, GenomIUm guides the software developer in the design of the UI concept.
This research is guided by the Design Science methodology enacted by Roel Wieringa. Its focus on Software Engineering and Information Systems research projects makes Design Science an ideal methodology for our research. The methodology provides the methodological framework, research methods, and guidelines for carrying out our research. The application of Design Science ensures the rigor and scientific validity of our results. For the convenience of the reader, this thesis document is organized according to the methodology structure. First, we describe the problem investigation. Then, we describe the design of the proposed solution to the problem. Finally, we describe the validation of the proposed solution.
To validate that GenomIUm meets the requirements for which it was designed, we executed two experiments, one for each GenomIUm component: the patterns and the design process. The first experiment evaluates the impact produced by the patterns on the usability of the UIs. The second experiment assesses the perception of UI developers regarding the use of the design process. Additionally, to illustrate the use of GenomIUm, we describe our experience applying GenomIUm in a real environment.
As future projects, we propose i) to enrich the catalog of patterns with new patterns identified in UIs of emerging applications in the genomic domain and ii) apply GenomIUm in various case studies in order to generalize the positive effects reported in this thesis. / A la SENESCYT y Escuela Politécnica Nacional por la oportunidad y apoyo económico para cumplir este objetivo. / Íñiguez Jarrín, CE. (2019). GenomIUm: Un Método Basado en Patrones para el Diseño de Interfaces de Usuario de Acceso a Datos Genómicos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/135819
|
187 |
Un marco de soporte para el ciclo de vida de la eParticipación enriquecido con gestión de confianzaSantamaría Philco, Alex Andrés 10 January 2021 (has links)
[ES] La relevancia de la opinión de los ciudadanos ha aumentado en la última década. Hoy, muchas administraciones gubernamentales han establecido procesos de participación pública como uno más de los pilares necesarios para tomar una decisión sobre varios aspectos críticos de la gobernanza. Las iniciativas de participación electrónica facilitan a los ciudadanos el acceso a dichos procesos. En la actualidad, no existe una definición de campo clara y aceptada debido a la gran diversidad de propuestas teóricas y la naturaleza interdisciplinaria de las iniciativas. Se han propuesto varios marcos y aplicaciones de participación electrónica desarrollados ad-hoc para responder a una iniciativa específica. Sin embargo, todavía no se ha desarrollado una propuesta metodológica que cubra de forma integral todo el proceso de e-Participación y que, además, esté soportado por una herramienta software.
Esta tesis revisa la literatura actual en el campo de la e-Participación mediante un mapeo sistemático del trabajo de investigación junto con algunas propuestas anteriores relevantes en el área, con el ánimo de proporcionar una guía conceptual de los componentes de la e-Participación. Esta revisión analiza los hallazgos y agrupa los resultados con el fin de estructurar un marco conceptual de e-Participación al que denominamos ePfw, un marco para ayudar a la definición e implementación de procesos e-Participación. ePfw modela todos los componentes, etapas, actividades y flujos de información que ocurren en un proceso de e-Participación. ePfw incorpora un metamodelo que muestra una perspectiva estructural en la que se especifican las propiedades de las entidades que participan en los procesos de e-Participación. Además, se presenta una evaluación de la completitud y funcionalidad de ePfwTool, una herramienta de soporte para el marco ePfw, la cual ha sido evaluada por usuarios expertos en e-Participación, mostrando los resultados obtenidos. Por otra parte, y dado que es necesario crear un entorno confiable para que los ciudadanos elijan participar en los procesos de e-Participación, esta tesis analiza los factores que influyen directamente en la confianza en las iniciativas de e-Participación a través de una investigación empírica. El estudio se realiza en los ciudadanos de la ciudad de Valencia (España) y analiza los factores predominantes que influyen en el procedimiento, la tecnología y el riesgo percibido o beneficios de la e-Participación electrónica. Los resultados obtenidos se exponen a través de modelos creados y sintetizados con la herramienta SmartPLS. Finalmente, se ha enriquecido marco ePfw con la incorporación de los factores de confianza analizados. / [CA] La rellevància de l'opinió dels ciutadans ha augmentat en l'última dècada. Avui, moltes administracions governamentals han establit processos de partici-pació pública com un més dels pilars necessaris per prendre una decisió sobre diversos aspectes crítics de la governança. Les iniciatives de participació elec-trònica faciliten als ciutadans l'accés a aquests processos. En l'actualitat, no existeix una definició de camp clara i acceptada causa de la gran diversitat de propostes teòriques i la naturalesa interdisciplinària de les iniciatives. S'han proposat diversos marcs i aplicacions de participació electrònica desenvolupats ad hoc per respondre a una iniciativa específica. No obstant això, encara no s'ha desenvolupat una proposta metodològica que cobrisca de forma integral tot el procés d'una d'e-Participació i que, a més, estigui suportat per una eina.
Aquesta tesi revisa la literatura actual en el camp de la e-Participació mitjançant un mapatge sistemàtic de la feina d'investigació juntament amb algunes propostes anteriors rellevants en l'àrea, amb l'ànim de proporcionar una guia conceptual dels components de la e-Participació. Aquesta revisió analitza les troballes i agrupa els resultats que permeten estructurar un marc conceptual de e-Participació al qual denominem ePfw, un marc per ajudar a la definició i im-plementació de processos e-Participació. ePfw modela tots els components, etapes, activitats i fluxos d'informació que tenen lloc en un procés de e-Participació. ePfw incorpora un metamodel que mostra una perspectiva estructural en què s'especifiquen les propietats de les entitats que participen en els processos de e-Participació. A més, es presenta una avaluació de la completesa i funcionalitat de ePfwTool, una eina de suport per al marc ePfw, la qual ha sigut avaluada per usuaris experts en e-Participació, mostrant els resultats obtinguts.
D'altra banda, i atés que és necessari crear un entorn de confiança perquè els ciutadans trien participar en els processos de e-Participació, aquesta tesi analitza els factors que influeixen directament en la confiança en les iniciatives de e-Participació a través d'una investigació empírica. L'estudi es realitza en els ciutadans de la ciutat de València (Espanya) i analitza els factors predominants que influeixen en el procediment, la tecnologia i el risc percebut o beneficis de la e-Participació. Els resultats obtinguts s'exposen a través de models creats i sintetitzats amb l'eina SmartPLS. Finalment, s'ha enriquit marc ePfw amb la incorporació dels factors de confiança analitzats. / [EN] The relevance of the opinion of citizens has increased in the last decade. Many government administrations have now introduced public participation processes as a necessary part of making decisions on critical aspects of governance. Although electronic participation initiatives provide citizens with access to these processes. Currently, there is no clear and accepted definition of the field due to the great diversity of theoretical proposals and the interdisciplinary nature of the initiatives. Various e-Participation frameworks and applications developed ad-hoc have been proposed to respond to a specific initiative. However, a methodological proposal has not yet been developed that covers the entire e-Participation process supported by a software tool.
This thesis reviews the current literature in the field of e-Participation through a systematic mapping of the research work together with some previous relevant proposals for the area, with the aim of providing a conceptual guide to the components of e-Participation. This review analyzes the findings and groups the results in order to structure a conceptual framework for e-Participation which we call ePfw, a framework to assist in the definition and implementation of e-Participation processes. ePfw can model all the components, stages, activities and information flows that occur in an e-Participation process. ePfw incorporates a metamodel that shows a structural perspective in which the properties of the entities that participate in the e-Participation processes are specified. An assessment of the completeness and functionality of ePfwTool, a support tool for the ePfw framework, is also described and has been evaluated by various e-Participation experts, showing the results obtained.
Given that there is a need to create a reliable environment for citizens to choose to participate in e-Participation processes, this thesis analyzes through empirical research the factors that directly influence trust in e-Participation initiatives. The study is carried out on the citizens in the city of Valencia (Spain) and analyzes the predominant factors that influence the procedure, the technology involved and the perceived risks and benefits of e-Participation. The results obtained are explained through models created and synthesized with the SmartPLS tool. Finally, the ePfw framework was improved by incorporating the trust factors analyzed. / Santamaría Philco, AA. (2020). Un marco de soporte para el ciclo de vida de la eParticipación enriquecido con gestión de confianza [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/158691
|
188 |
Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turísticoBustamante Martínez, Alexander Armando 25 January 2021 (has links)
[ES] Desde hace varias décadas vivimos en lo que los académicos e industriales han convenido llamar la era de la información y economía del conocimiento, ambas caracterizadas, entre otras cosas, por el rol preponderante que ocupan tanto la información como el conocimiento en el quehacer y en los procesos, tanto productivos como de gestión, de las organizaciones. La información y el conocimiento han pasado de ser un recurso más en las organizaciones a ser uno de los principales activos que éstas poseen y utilizan para tomar decisiones, mejorar sus procesos, comprender el entorno y obtener una ventaja competitiva. Pero, para disfrutar de todos estos beneficios, se hace necesario una gestión pro-activa e inteligente de los datos.
Esta última se hace más necesaria en el contexto actual en donde la cantidad de datos disponibles sobrepasa la capacidad del hombre para analizarlos. Es en este contexto donde la Inteligencia de Negocios cobra especial importancia, ya que tiene como propósito tomar datos, generalmente, desde diferentes fuentes, integrarlos y procesarlos, dejándolos listos para posteriores tareas de análisis.
Paralelo al lugar importante que ocupa la inteligencia de negocios, está la contribución de la Web 2.0 en la generación de nuevo contenido. La Web 2.0 ha sido uno de los desencadenantes en la producción de datos a través de la internet convirtiéndose así en una fuente valiosa de datos sobre lo que las personas hacen, sienten y desean. Tal es el caso de plataformas como Twitter, que permite a las personas expresar su opinión sobre cualquier tema de interés u OpenStreetMap, que facilita la creación y consulta de información geográfica de manera colaborativa, entre otras.
Esta tesis gira en torno al uso de datos colaborativas y la utilización de la tecnología de la Inteligencia de Negocio para soportar el proceso de toma de decisiones, aplicado, concretamente, al sector turístico. Aunque el enfoque de tratamiento de los datos descrito en esta tesis puede ser utilizado, con ligeras adaptaciones, para trabajar en otros dominios, se seleccionó el turismo por ser uno de las principales actividades económicas a nivel mundial. Tomando como referencia el año 2019, este sector económico creció en un 3.5 % por encima de la economía global que creció un 2.5 %, generó 330 millones de empleos (1 de cada 10) y representó el 10.3 % del producto interno bruto global.
En primer lugar, se realizó un análisis de las fuentes de datos colaborativas que pueden aportar conocimiento para el análisis de este sector y se seleccionaron cuatro fuentes de datos: OpenStreetMap y Twitter, ya nombradas y Tripadvisor y Airbnb para la información sobre alojamientos. Con las cuatro fuentes de datos colaborativas identificadas y utilizando la Inteligencia de Negocio como soporte tecnológico, se creó una plataforma responsable de todo el proceso, el cual abarca la extracción de datos de las diferentes fuentes, su integración en un formato consistente, su procesamiento y estructuración para ser utilizados en tareas de análisis y visualización de los resultados del análisis. La plataforma construida se denomina BITOUR.
BITOUR integra la propuesta de un modelo de BI para manejar datos geoespaciales, abiertos, combinados con contenido de redes sociales (colaborativos) junto con la propuesta de una serie de algoritmos para la identificación de los turistas y residentes de los destinos, la detección de usuarios no reales y la asignación de los tuits a los lugares dentro de un destino.
La integración de datos colaborativos, junto con los algoritmos, en una plataforma de Inteligencia de negocio representa una fuente potencial de valioso conocimiento que puede ser aprovechado en el sector turismo para conocer las actividades que realizan los turistas en un destino, las opiniones sobre un destino particular y sus atracciones, los periodos del año más frecuentados por los turistas según la nacionalidad, entre muchas otras preguntas. BITOUR permite definir, interactivamente, un destino a analizar, cargar datos desde diferentes tipos de fuentes (espaciales y de opinión, entre otras), ejecutar
rutinas que asocian opiniones a lugares e identifican turistas entre los datos recopilados, así como visualizar los datos a través de la misma plataforma. BITOUR permite, entre otras cosas, la creación de tablas y gráficos dinámicos que posibilitan manipular los resultados de todos los cálculos que en la plataforma se han realizado. De esta manera, se pueden analizar tendencias de los turistas, tener un menor tiempo de respuesta frente a los eventos, enfocar mejor las campañas de
mercadeo, etc. En definitiva, tener otra forma de acercarse a los turistas y comprenderlos. / [EN] For several decades we have lived what academics and entrepreneurs call the information age and knowledge economy, both characterized, among other things, by the preponderant role that both information and knowledge hold in the production and management work of the organizations. Information and knowledge have evolved from being one among the resources in organizations to being one of their main assets in order to make decisions, to improve their processes, to understand the environment and to obtain a competitive advantage. But, to enjoy all these benefits, a pro-active and intelligent data management is necessary.
The latter is more necessary in the current context where the amount of available data exceeds human capacity to analyze it. It is in this context where Business Intelligence takes on special importance since its purpose is to take data, generally from different sources, integrate and process the data so as to leaving it ready for subsequent analysis tasks.
Parallel to the relevant role of Business Intelligence, there is the contribution of Web 2.0 in the generation of new data. Web 2.0 has been one of the triggers in the production of data through internet, thus becoming a valuable source of information about what people do, feel and wish. This is the case of platforms such as Twitter, which allows people to express their opinion on any topic of interest or OpenStreetMap, which facilitates the creation and consultation of geographic information in a collaborative way, among others.
This thesis revolves around the use of collaborative data and the use of Business Intelligence technology to support the decision-making process, specifically applied to the tourism sector. Although the data management approach described in this thesis can be used, with slight adaptations, to work in other domains, tourism was selected for being one of the main economic activities worldwide. Taking 2019 as a reference, this economic sector grew 3.5 % above the global economy, which grew 2.5 %, generated 330 million jobs (1 in 10) and represented 10.3 % of gross domestic product global.
First, an analysis of the collaborative data sources that can provide knowledge for the analysis of this sector was carried out and four data sources were selected: OpenStreetMap and Twitter, already mentioned, and Tripadvisor and Airbnb for information on accommodations. With these four collaborative data sources identified and using Business Intelligence as technological support, a platform responsible for the entire process was created, which includes the extraction of data from the different sources, integration of data in a consistent format, processing and structuring data to be used in analysis tasks and visualization of the analysis results. The built platform is called BITOUR.
BITOUR integrates the proposal of a BI model to handle open, geospatial data, combined with content from social networks (collaborative) together with the proposal of a series of algorithms for the identification of tourists and residents of the destinations, the detection of non-real users and the assignment of tweets to places within a destination.
The integration of collaborative data in a Business Intelligence platform represents a potential source of valuable knowledge that can be used in the tourism sector to know the activities that tourists carry out in a destination, the opinions about a particular destination and its tourist attractions or the seasons most frequented by tourists according to nationality, among many other questions. BITOUR allows to interactively define a destination to be analyzed, to load data from different types of sources like spatial and opinion sources, to execute routines that associate opinions with places and to identify tourists among the
collected data as well as visualize the data in the same platform. BITOUR allows for the creation of dynamic tables and graphics that make it possible to manipulate the results of all the calculations that have been performed on the platform. In this way, tourist trends can be analyzed to shorten response time to events, put the focus on marketing campaigns, etc. In short, having another way of approaching tourists and understanding them. / [CA] Des de fa diverses dècades vivim en el que els acadèmics i industrials han convingut dir la era de la informació i economia del coneixement, totes dues caracteritzades, entre altres coses, pel rol preponderant que ocupen tant la informació com el coneixement en el quefer i en els processos, tant productius com de gestió, de les organitzacions. La informació i el coneixement han passat de ser un recurs més en les organitzacions a ser un dels principals actius que aquestes posseeixen i utilitzen per a prendre decisions, millorar els seus processos, comprendre l'entorn i obtenir un avantatge competitiu. Però, per a gaudir de tots aquests beneficis, es fa necessari una gestió pro-activa i intel·ligent de les dades.
Aquesta última es fa més necessària en el context actual on la quantitat de dades disponibles sobrepassa la capacitat de l'home per a analitzar-los. És en aquest context on la Intel·ligència de Negocis cobra especial importància, ja que té com a propòsit prendre dades, generalment, des de diferents fonts, integrar-los i processar-los, deixant-los llestos per a posteriors tasques d'anàlisis.
Paral·lel al lloc important que ocupa la intel·ligència de negocis, està la contribució de la Web 2.0 en la generació de nou contingut. La Web 2.0 ha sigut un dels desencadenants en la producció de dades a través de la internet convertint-se així en una font valuosa d'informació sobre el que les persones fan, senten i desitgen. Tal és el cas de plataformes com Twitter, que permet a les persones expressar la seua opinió sobre qualsevol tema d'interès o OpenStreetMap, que facilita la creació i consulta d'informació geogràfica de manera col·laborativa, entre altres.
Aquesta tesi gira entorn de l'ús de dades col·laboratives i la utilització de la tecnologia de la Intel·ligència de Negoci per a suportar el procés de presa de decisions, aplicat, concretament, al sector turístic. Encara que l'enfocament de tractament de les dades descrit en aquesta tesi pot ser utilitzat, amb lleugeres adaptacions, per a treballar en altres dominis, es va seleccionar el turisme per ser un de les principals activitats econòmiques a nivell mundial. Prenent com a referència l'any 2019, aquest sector econòmic va créixer en un 3.5 % per damunt de l'economia global que va créixer un 2.5 %, va generar 330 milions d'ocupacions (1 de cada 10) i va representar el 10.3 % del producte intern brut global.
En primer lloc, es va realitzar una anàlisi de les fonts de dades col·laboratives que poden aportar coneixement per a l'anàlisi d'aquest sector i es van seleccionar quatre fonts de dades: OpenStreetMap i Twitter, ja nomenades i Tripadvisor i Airbnb per a la informació sobre allotjaments. Amb les quatre fonts de dades col·laboratives identificades i utilitzant la Intel·ligència de Negoci com a suport tecnològic, es va crear una plataforma responsable de tot el procés, el qual abasta l'extracció de dades de les diferents fonts, la seua integració en un format consistent, el seu processament i estructuració per a ser utilitzats en tasques d'anàlisis i visualització dels resultats de l'anàlisi. La plataforma construïda es denomina BITOUR.
BITOUR integra la proposta d'un model de BI per a manejar dades geo-espacials, obertes, combinades amb contingut de xarxes socials (col·laboratius) juntament amb la proposta d'una sèrie d'algorismes per a: la identificació dels turistes i residents de les destinacions, la detecció d'usuaris no reals i l'assignació dels "tuits" als llocs dins d'una destinació.
La integració de dades col·laboratives en una plataforma d’Intel·ligència de negoci representa una font potencial de valuós coneixement que pot ser aprofitat en el sector turisme per a conèixer les activitats que realitzen els turistes en una
destinació, les opinions sobre una destinació particular i les seues atraccions, els períodes de l’any més freqüentats pels turistes segons la nacionalitat, entre moltes altres preguntes. BITOUR permet definir, interactivament, una destinació a analitzar, carregar
dades des de diferents tipus de fonts (espacials i d’opinió, entre altres), executar rutines que associen opinions a llocs i identifiquen turistes entre les dades recopilades, així com visualitzar les dades a través de la mateixa plataforma. BITOUR
permet, entre altres coses, la creació de taules i gràfics dinàmics que possibiliten manipular els resultats de tots els càlculs que en la plataforma s’han realitzat. D’aquesta manera, es poden analitzar tendències dels turistes, tenir un menor temps de resposta enfront dels esdeveniments, enfocar millor les campanyes de mercadeig, etc. En definitiva, tenir una altra manera d’acostar-se als turistes i comprendre’ls. / Bustamante Martínez, AA. (2020). Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turístico [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/160061
|
189 |
Natural Language Processing using Deep Learning in Social MediaGiménez Fayos, María Teresa 02 September 2021 (has links)
[ES] En los últimos años, los modelos de aprendizaje automático profundo (AP) han revolucionado los sistemas de procesamiento de lenguaje natural (PLN).
Hemos sido testigos de un avance formidable en las capacidades de estos sistemas y actualmente podemos encontrar sistemas que integran modelos PLN de manera ubicua.
Algunos ejemplos de estos modelos con los que interaccionamos a diario incluyen modelos que determinan la intención de la persona que escribió un texto, el sentimiento que pretende comunicar un tweet o nuestra ideología política a partir de lo que compartimos en redes sociales.
En esta tesis se han propuestos distintos modelos de PNL que abordan tareas que estudian el texto que se comparte en redes sociales. En concreto, este trabajo se centra en dos tareas fundamentalmente: el análisis de sentimientos y el reconocimiento de la personalidad de la persona autora de un texto.
La tarea de analizar el sentimiento expresado en un texto es uno de los problemas principales en el PNL y consiste en determinar la polaridad que un texto pretende comunicar. Se trata por lo tanto de una tarea estudiada en profundidad de la cual disponemos de una vasta cantidad de recursos y modelos.
Por el contrario, el problema del reconocimiento de personalidad es una tarea revolucionaria que tiene como objetivo determinar la personalidad de los usuarios considerando su estilo de escritura. El estudio de esta tarea es más marginal por lo que disponemos de menos recursos para abordarla pero que no obstante presenta un gran potencial.
A pesar de que el enfoque principal de este trabajo fue el desarrollo de modelos de aprendizaje profundo, también hemos propuesto modelos basados en recursos lingüísticos y modelos clásicos del aprendizaje automático. Estos últimos modelos nos han permitido explorar las sutilezas de distintos elementos lingüísticos como por ejemplo el impacto que tienen las emociones en la clasificación correcta del sentimiento expresado en un texto.
Posteriormente, tras estos trabajos iniciales se desarrollaron modelos AP, en particular, Redes neuronales convolucionales (RNC) que fueron aplicadas a las tareas previamente citadas. En el caso del reconocimiento de la personalidad, se han comparado modelos clásicos del aprendizaje automático con modelos de aprendizaje profundo, pudiendo establecer una comparativa bajo las mismas premisas.
Cabe destacar que el PNL ha evolucionado drásticamente en los últimos años gracias al desarrollo de campañas de evaluación pública, donde múltiples equipos de investigación comparan las capacidades de los modelos que proponen en las mismas condiciones. La mayoría de los modelos presentados en esta tesis fueron o bien evaluados mediante campañas de evaluación públicas, o bien emplearon la configuración de una campaña pública previamente celebrada. Siendo conscientes, por lo tanto, de la importancia de estas campañas para el avance del PNL, desarrollamos una campaña de evaluación pública cuyo objetivo era clasificar el tema tratado en un tweet, para lo cual recogimos y etiquetamos un nuevo conjunto de datos.
A medida que avanzabamos en el desarrollo del trabajo de esta tesis, decidimos estudiar en profundidad como las RNC se aplicaban a las tareas de PNL.
En este sentido, se exploraron dos líneas de trabajo.
En primer lugar, propusimos un método de relleno semántico para RNC, que plantea una nueva manera de representar el texto para resolver tareas de PNL. Y en segundo lugar, se introdujo un marco teórico para abordar una de las críticas más frecuentes del aprendizaje profundo, el cual es la falta de interpretabilidad. Este marco busca visualizar qué patrones léxicos, si los hay, han sido aprendidos por la red para clasificar un texto. / [CA] En els últims anys, els models d'aprenentatge automàtic profund (AP) han revolucionat els sistemes de processament de llenguatge natural (PLN).
Hem estat testimonis d'un avanç formidable en les capacitats d'aquests sistemes i actualment podem trobar sistemes que integren models PLN de manera ubiqua.
Alguns exemples d'aquests models amb els quals interaccionem diàriament inclouen models que determinen la intenció de la persona que va escriure un text, el sentiment que pretén comunicar un tweet o la nostra ideologia política a partir del que compartim en xarxes socials.
En aquesta tesi s'han proposats diferents models de PNL que aborden tasques que estudien el text que es comparteix en xarxes socials. En concret, aquest treball se centra en dues tasques fonamentalment: l'anàlisi de sentiments i el reconeixement de la personalitat de la persona autora d'un text.
La tasca d'analitzar el sentiment expressat en un text és un dels problemes principals en el PNL i consisteix a determinar la polaritat que un text pretén comunicar. Es tracta per tant d'una tasca estudiada en profunditat de la qual disposem d'una vasta quantitat de recursos i models.
Per contra, el problema del reconeixement de la personalitat és una tasca revolucionària que té com a objectiu determinar la personalitat dels usuaris considerant el seu estil d'escriptura. L'estudi d'aquesta tasca és més marginal i en conseqüència disposem de menys recursos per abordar-la però no obstant i això presenta un gran potencial.
Tot i que el fouc principal d'aquest treball va ser el desenvolupament de models d'aprenentatge profund, també hem proposat models basats en recursos lingüístics i models clàssics de l'aprenentatge automàtic. Aquests últims models ens han permès explorar les subtileses de diferents elements lingüístics com ara l'impacte que tenen les emocions en la classificació correcta del sentiment expressat en un text.
Posteriorment, després d'aquests treballs inicials es van desenvolupar models AP, en particular, Xarxes neuronals convolucionals (XNC) que van ser aplicades a les tasques prèviament esmentades. En el cas de el reconeixement de la personalitat, s'han comparat models clàssics de l'aprenentatge automàtic amb models d'aprenentatge profund la qual cosa a permet establir una comparativa de les dos aproximacions sota les mateixes premisses.
Cal remarcar que el PNL ha evolucionat dràsticament en els últims anys gràcies a el desenvolupament de campanyes d'avaluació pública on múltiples equips d'investigació comparen les capacitats dels models que proposen sota les mateixes condicions. La majoria dels models presentats en aquesta tesi van ser o bé avaluats mitjançant campanyes d'avaluació públiques, o bé s'ha emprat la configuració d'una campanya pública prèviament celebrada. Sent conscients, per tant, de la importància d'aquestes campanyes per a l'avanç del PNL, vam desenvolupar una campanya d'avaluació pública on l'objectiu era classificar el tema tractat en un tweet, per a la qual cosa vam recollir i etiquetar un nou conjunt de dades.
A mesura que avançàvem en el desenvolupament del treball d'aquesta tesi, vam decidir estudiar en profunditat com les XNC s'apliquen a les tasques de PNL. En aquest sentit, es van explorar dues línies de treball.En primer lloc, vam proposar un mètode d'emplenament semàntic per RNC, que planteja una nova manera de representar el text per resoldre tasques de PNL. I en segon lloc, es va introduir un marc teòric per abordar una de les crítiques més freqüents de l'aprenentatge profund, el qual és la falta de interpretabilitat. Aquest marc cerca visualitzar quins patrons lèxics, si n'hi han, han estat apresos per la xarxa per classificar un text. / [EN] In the last years, Deep Learning (DL) has revolutionised the potential of automatic systems that handle Natural Language Processing (NLP) tasks.
We have witnessed a tremendous advance in the performance of these systems. Nowadays, we found embedded systems ubiquitously, determining the intent of the text we write, the sentiment of our tweets or our political views, for citing some examples.
In this thesis, we proposed several NLP models for addressing tasks that deal with social media text. Concretely, this work is focused mainly on Sentiment Analysis and Personality Recognition tasks.
Sentiment Analysis is one of the leading problems in NLP, consists of determining the polarity of a text, and it is a well-known task where the number of resources and models proposed is vast.
In contrast, Personality Recognition is a breakthrough task that aims to determine the users' personality using their writing style, but it is more a niche task with fewer resources designed ad-hoc but with great potential.
Despite the fact that the principal focus of this work was on the development of Deep Learning models, we have also proposed models based on linguistic resources and classical Machine Learning models. Moreover, in this more straightforward setup, we have explored the nuances of different language devices, such as the impact of emotions in the correct classification of the sentiment expressed in a text.
Afterwards, DL models were developed, particularly Convolutional Neural Networks (CNNs), to address previously described tasks. In the case of Personality Recognition, we explored the two approaches, which allowed us to compare the models under the same circumstances.
Noteworthy, NLP has evolved dramatically in the last years through the development of public evaluation campaigns, where multiple research teams compare the performance of their approaches under the same conditions. Most of the models here presented were either assessed in an evaluation task or either used their setup. Recognising the importance of this effort, we curated and developed an evaluation campaign for classifying political tweets.
In addition, as we advanced in the development of this work, we decided to study in-depth CNNs applied to NLP tasks.
Two lines of work were explored in this regard.
Firstly, we proposed a semantic-based padding method for CNNs, which addresses how to represent text more appropriately for solving NLP tasks. Secondly, a theoretical framework was introduced for tackling one of the most frequent critics of Deep Learning: interpretability. This framework seeks to visualise what lexical patterns, if any, the CNN is learning in order to classify a sentence.
In summary, the main achievements presented in this thesis are:
- The organisation of an evaluation campaign for Topic Classification from texts gathered from social media.
- The proposal of several Machine Learning models tackling the Sentiment Analysis task from social media. Besides, a study of the impact of linguistic devices such as figurative language in the task is presented.
- The development of a model for inferring the personality of a developer provided the source code that they have written.
- The study of Personality Recognition tasks from social media following two different approaches, models based on machine learning algorithms and handcrafted features, and models based on CNNs were proposed and compared both approaches.
- The introduction of new semantic-based paddings for optimising how the text was represented in CNNs.
- The definition of a theoretical framework to provide interpretable information to what CNNs were learning internally. / Giménez Fayos, MT. (2021). Natural Language Processing using Deep Learning in Social Media [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172164
|
190 |
Attention-based Approaches for Text Analytics in Social Media and Automatic SummarizationGonzález Barba, José Ángel 02 September 2021 (has links)
[ES] Hoy en día, la sociedad tiene acceso y posibilidad de contribuir a grandes cantidades de contenidos presentes en Internet, como redes sociales, periódicos online, foros, blogs o plataformas de contenido multimedia. Todo este tipo de medios han tenido, durante los últimos años, un impacto abrumador en el día a día de individuos y organizaciones, siendo actualmente medios predominantes para compartir, debatir y analizar contenidos online. Por este motivo, resulta de interés trabajar sobre este tipo de plataformas, desde diferentes puntos de vista, bajo el paraguas del Procesamiento del Lenguaje Natural. En esta tesis nos centramos en dos áreas amplias dentro de este campo, aplicadas al análisis de contenido en línea: análisis de texto en redes sociales y resumen automático. En paralelo, las redes neuronales también son un tema central de esta tesis, donde toda la experimentación se ha realizado utilizando enfoques de aprendizaje profundo, principalmente basados en mecanismos de atención. Además, trabajamos mayoritariamente con el idioma español, por ser un idioma poco explorado y de gran interés para los proyectos de investigación en los que participamos.
Por un lado, para el análisis de texto en redes sociales, nos enfocamos en tareas de análisis afectivo, incluyendo análisis de sentimientos y detección de emociones, junto con el análisis de la ironía. En este sentido, se presenta un enfoque basado en Transformer Encoders, que consiste en contextualizar \textit{word embeddings} pre-entrenados con tweets en español, para abordar tareas de análisis de sentimiento y detección de ironía. También proponemos el uso de métricas de evaluación como funciones de pérdida, con el fin de entrenar redes neuronales, para reducir el impacto del desequilibrio de clases en tareas \textit{multi-class} y \textit{multi-label} de detección de emociones. Adicionalmente, se presenta una especialización de BERT tanto para el idioma español como para el dominio de Twitter, que tiene en cuenta la coherencia entre tweets en conversaciones de Twitter. El desempeño de todos estos enfoques ha sido probado con diferentes corpus, a partir de varios \textit{benchmarks} de referencia, mostrando resultados muy competitivos en todas las tareas abordadas.
Por otro lado, nos centramos en el resumen extractivo de artículos periodísticos y de programas televisivos de debate. Con respecto al resumen de artículos, se presenta un marco teórico para el resumen extractivo, basado en redes jerárquicas siamesas con mecanismos de atención. También presentamos dos instancias de este marco: \textit{Siamese Hierarchical Attention Networks} y \textit{Siamese Hierarchical Transformer Encoders}. Estos sistemas han sido evaluados en los corpora CNN/DailyMail y NewsRoom, obteniendo resultados competitivos en comparación con otros enfoques extractivos coetáneos. Con respecto a los programas de debate, se ha propuesto una tarea que consiste en resumir las intervenciones transcritas de los ponentes, sobre un tema determinado, en el programa "La Noche en 24 Horas". Además, se propone un corpus de artículos periodísticos, recogidos de varios periódicos españoles en línea, con el fin de estudiar la transferibilidad de los enfoques propuestos, entre artículos e intervenciones de los participantes en los debates. Este enfoque muestra mejores resultados que otras técnicas extractivas, junto con una transferibilidad de dominio muy prometedora. / [CA] Avui en dia, la societat té accés i possibilitat de contribuir a grans quantitats de continguts presents a Internet, com xarxes socials, diaris online, fòrums, blocs o plataformes de contingut multimèdia. Tot aquest tipus de mitjans han tingut, durant els darrers anys, un impacte aclaparador en el dia a dia d'individus i organitzacions, sent actualment mitjans predominants per compartir, debatre i analitzar continguts en línia. Per aquest motiu, resulta d'interès treballar sobre aquest tipus de plataformes, des de diferents punts de vista, sota el paraigua de l'Processament de el Llenguatge Natural. En aquesta tesi ens centrem en dues àrees àmplies dins d'aquest camp, aplicades a l'anàlisi de contingut en línia: anàlisi de text en xarxes socials i resum automàtic. En paral·lel, les xarxes neuronals també són un tema central d'aquesta tesi, on tota l'experimentació s'ha realitzat utilitzant enfocaments d'aprenentatge profund, principalment basats en mecanismes d'atenció. A més, treballem majoritàriament amb l'idioma espanyol, per ser un idioma poc explorat i de gran interès per als projectes de recerca en els que participem.
D'una banda, per a l'anàlisi de text en xarxes socials, ens enfoquem en tasques d'anàlisi afectiu, incloent anàlisi de sentiments i detecció d'emocions, juntament amb l'anàlisi de la ironia. En aquest sentit, es presenta una aproximació basada en Transformer Encoders, que consisteix en contextualitzar \textit{word embeddings} pre-entrenats amb tweets en espanyol, per abordar tasques d'anàlisi de sentiment i detecció d'ironia. També proposem l'ús de mètriques d'avaluació com a funcions de pèrdua, per tal d'entrenar xarxes neuronals, per reduir l'impacte de l'desequilibri de classes en tasques \textit{multi-class} i \textit{multi-label} de detecció d'emocions. Addicionalment, es presenta una especialització de BERT tant per l'idioma espanyol com per al domini de Twitter, que té en compte la coherència entre tweets en converses de Twitter. El comportament de tots aquests enfocaments s'ha provat amb diferents corpus, a partir de diversos \textit{benchmarks} de referència, mostrant resultats molt competitius en totes les tasques abordades.
D'altra banda, ens centrem en el resum extractiu d'articles periodístics i de programes televisius de debat. Pel que fa a l'resum d'articles, es presenta un marc teòric per al resum extractiu, basat en xarxes jeràrquiques siameses amb mecanismes d'atenció. També presentem dues instàncies d'aquest marc: \textit{Siamese Hierarchical Attention Networks} i \textit{Siamese Hierarchical Transformer Encoders}. Aquests sistemes s'han avaluat en els corpora CNN/DailyMail i Newsroom, obtenint resultats competitius en comparació amb altres enfocaments extractius coetanis. Pel que fa als programes de debat, s'ha proposat una tasca que consisteix a resumir les intervencions transcrites dels ponents, sobre un tema determinat, al programa "La Noche en 24 Horas". A més, es proposa un corpus d'articles periodístics, recollits de diversos diaris espanyols en línia, per tal d'estudiar la transferibilitat dels enfocaments proposats, entre articles i intervencions dels participants en els debats. Aquesta aproximació mostra millors resultats que altres tècniques extractives, juntament amb una transferibilitat de domini molt prometedora. / [EN] Nowadays, society has access, and the possibility to contribute, to large amounts of the content present on the internet, such as social networks, online newspapers, forums, blogs, or multimedia content platforms. These platforms have had, during the last years, an overwhelming impact on the daily life of individuals and organizations, becoming the predominant ways for sharing, discussing, and analyzing online content. Therefore, it is very interesting to work with these platforms, from different points of view, under the umbrella of Natural Language Processing. In this thesis, we focus on two broad areas inside this field, applied to analyze online content: text analytics in social media and automatic summarization. Neural networks are also a central topic in this thesis, where all the experimentation has been performed by using deep learning approaches, mainly based on attention mechanisms. Besides, we mostly work with the Spanish language, due to it is an interesting and underexplored language with a great interest in the research projects we participated in.
On the one hand, for text analytics in social media, we focused on affective analysis tasks, including sentiment analysis and emotion detection, along with the analysis of the irony. In this regard, an approach based on Transformer Encoders, based on contextualizing pretrained Spanish word embeddings from Twitter, to address sentiment analysis and irony detection tasks, is presented. We also propose the use of evaluation metrics as loss functions, in order to train neural networks for reducing the impact of the class imbalance in multi-class and multi-label emotion detection tasks. Additionally, a specialization of BERT both for the Spanish language and the Twitter domain, that takes into account inter-sentence coherence in Twitter conversation flows, is presented. The performance of all these approaches has been tested with different corpora, from several reference evaluation benchmarks, showing very competitive results in all the tasks addressed.
On the other hand, we focused on extractive summarization of news articles and TV talk shows. Regarding the summarization of news articles, a theoretical framework for extractive summarization, based on siamese hierarchical networks with attention mechanisms, is presented. Also, we present two instantiations of this framework: Siamese Hierarchical Attention Networks and Siamese Hierarchical Transformer Encoders. These systems were evaluated on the CNN/DailyMail and the NewsRoom corpora, obtaining competitive results in comparison to other contemporary extractive approaches. Concerning the TV talk shows, we proposed a text summarization task, for summarizing the transcribed interventions of the speakers, about a given topic, in the Spanish TV talk shows of the ``La Noche en 24 Horas" program. In addition, a corpus of news articles, collected from several Spanish online newspapers, is proposed, in order to study the domain transferability of siamese hierarchical approaches, between news articles and interventions of debate participants. This approach shows better results than other extractive techniques, along with a very promising domain transferability. / González Barba, JÁ. (2021). Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172245
|
Page generated in 0.0512 seconds