• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 151
  • 85
  • 1
  • Tagged with
  • 237
  • 237
  • 237
  • 237
  • 42
  • 40
  • 32
  • 32
  • 31
  • 28
  • 28
  • 28
  • 27
  • 27
  • 25
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Modeling Uncertainty for Reliable Probabilistic Modeling in Deep Learning and Beyond

Maroñas Molano, Juan 28 February 2022 (has links)
[ES] Esta tesis se enmarca en la intersección entre las técnicas modernas de Machine Learning, como las Redes Neuronales Profundas, y el modelado probabilístico confiable. En muchas aplicaciones, no solo nos importa la predicción hecha por un modelo (por ejemplo esta imagen de pulmón presenta cáncer) sino también la confianza que tiene el modelo para hacer esta predicción (por ejemplo esta imagen de pulmón presenta cáncer con 67% probabilidad). En tales aplicaciones, el modelo ayuda al tomador de decisiones (en este caso un médico) a tomar la decisión final. Como consecuencia, es necesario que las probabilidades proporcionadas por un modelo reflejen las proporciones reales presentes en el conjunto al que se ha asignado dichas probabilidades; de lo contrario, el modelo es inútil en la práctica. Cuando esto sucede, decimos que un modelo está perfectamente calibrado. En esta tesis se exploran tres vias para proveer modelos más calibrados. Primero se muestra como calibrar modelos de manera implicita, que son descalibrados por técnicas de aumentación de datos. Se introduce una función de coste que resuelve esta descalibración tomando como partida las ideas derivadas de la toma de decisiones con la regla de Bayes. Segundo, se muestra como calibrar modelos utilizando una etapa de post calibración implementada con una red neuronal Bayesiana. Finalmente, y en base a las limitaciones estudiadas en la red neuronal Bayesiana, que hipotetizamos que se basan en un prior mispecificado, se introduce un nuevo proceso estocástico que sirve como distribución a priori en un problema de inferencia Bayesiana. / [CA] Aquesta tesi s'emmarca en la intersecció entre les tècniques modernes de Machine Learning, com ara les Xarxes Neuronals Profundes, i el modelatge probabilístic fiable. En moltes aplicacions, no només ens importa la predicció feta per un model (per ejemplem aquesta imatge de pulmó presenta càncer) sinó també la confiança que té el model per fer aquesta predicció (per exemple aquesta imatge de pulmó presenta càncer amb 67% probabilitat). En aquestes aplicacions, el model ajuda el prenedor de decisions (en aquest cas un metge) a prendre la decisió final. Com a conseqüència, cal que les probabilitats proporcionades per un model reflecteixin les proporcions reals presents en el conjunt a què s'han assignat aquestes probabilitats; altrament, el model és inútil a la pràctica. Quan això passa, diem que un model està perfectament calibrat. En aquesta tesi s'exploren tres vies per proveir models més calibrats. Primer es mostra com calibrar models de manera implícita, que són descalibrats per tècniques d'augmentació de dades. S'introdueix una funció de cost que resol aquesta descalibració prenent com a partida les idees derivades de la presa de decisions amb la regla de Bayes. Segon, es mostra com calibrar models utilitzant una etapa de post calibratge implementada amb una xarxa neuronal Bayesiana. Finalment, i segons les limitacions estudiades a la xarxa neuronal Bayesiana, que es basen en un prior mispecificat, s'introdueix un nou procés estocàstic que serveix com a distribució a priori en un problema d'inferència Bayesiana. / [EN] This thesis is framed at the intersection between modern Machine Learning techniques, such as Deep Neural Networks, and reliable probabilistic modeling. In many machine learning applications, we do not only care about the prediction made by a model (e.g. this lung image presents cancer) but also in how confident is the model in making this prediction (e.g. this lung image presents cancer with 67% probability). In such applications, the model assists the decision-maker (in this case a doctor) towards making the final decision. As a consequence, one needs that the probabilities provided by a model reflects the true underlying set of outcomes, otherwise the model is useless in practice. When this happens, we say that a model is perfectly calibrated. In this thesis three ways are explored to provide more calibrated models. First, it is shown how to calibrate models implicitly, which are decalibrated by data augmentation techniques. A cost function is introduced that solves this decalibration taking as a starting point the ideas derived from decision making with Bayes' rule. Second, it shows how to calibrate models using a post-calibration stage implemented with a Bayesian neural network. Finally, and based on the limitations studied in the Bayesian neural network, which we hypothesize that came from a mispecified prior, a new stochastic process is introduced that serves as a priori distribution in a Bayesian inference problem. / Maroñas Molano, J. (2022). Modeling Uncertainty for Reliable Probabilistic Modeling in Deep Learning and Beyond [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181582
142

Understanding the Code of Life: Holistic Conceptual Modeling of the Genome

García Simón, Alberto 23 January 2023 (has links)
[ES] En las últimas décadas, los avances en la tecnología de secuenciación han producido cantidades significativas de datos genómicos, hecho que ha revolucionado nuestra comprensión de la biología. Sin embargo, la cantidad de datos generados ha superado con creces nuestra capacidad para interpretarlos. Descifrar el código de la vida es un gran reto. A pesar de los numerosos avances realizados, nuestra comprensión del mismo sigue siendo mínima, y apenas estamos empezando a descubrir todo su potencial, por ejemplo, en áreas como la medicina de precisión o la farmacogenómica. El objetivo principal de esta tesis es avanzar en nuestra comprensión de la vida proponiendo una aproximación holística mediante un enfoque basado en modelos que consta de tres artefactos: i) un esquema conceptual del genoma, ii) un método para su aplicación en el mundo real, y iii) el uso de ontologías fundacionales para representar el conocimiento del dominio de una forma más precisa y explícita. Las dos primeras contribuciones se han validado mediante la implementación de sistemas de información genómicos basados en modelos conceptuales. La tercera contribución se ha validado mediante experimentos empíricos que han evaluado si el uso de ontologías fundacionales conduce a una mejor comprensión del dominio genómico. Los artefactos generados ofrecen importantes beneficios. En primer lugar, se han generado procesos de gestión de datos más eficientes, lo que ha permitido mejorar los procesos de extracción de conocimientos. En segundo lugar, se ha logrado una mejor comprensión y comunicación del dominio. / [CA] En les últimes dècades, els avanços en la tecnologia de seqüenciació han produït quantitats significatives de dades genòmiques, fet que ha revolucionat la nostra comprensió de la biologia. No obstant això, la quantitat de dades generades ha superat amb escreix la nostra capacitat per a interpretar-los. Desxifrar el codi de la vida és un gran repte. Malgrat els nombrosos avanços realitzats, la nostra comprensió del mateix continua sent mínima, i a penes estem començant a descobrir tot el seu potencial, per exemple, en àrees com la medicina de precisió o la farmacogenómica. L'objectiu principal d'aquesta tesi és avançar en la nostra comprensió de la vida proposant una aproximació holística mitjançant un enfocament basat en models que consta de tres artefactes: i) un esquema conceptual del genoma, ii) un mètode per a la seua aplicació en el món real, i iii) l'ús d'ontologies fundacionals per a representar el coneixement del domini d'una forma més precisa i explícita. Les dues primeres contribucions s'han validat mitjançant la implementació de sistemes d'informació genòmics basats en models conceptuals. La tercera contribució s'ha validat mitjançant experiments empírics que han avaluat si l'ús d'ontologies fundacionals condueix a una millor comprensió del domini genòmic. Els artefactes generats ofereixen importants beneficis. En primer lloc, s'han generat processos de gestió de dades més eficients, la qual cosa ha permés millorar els processos d'extracció de coneixements. En segon lloc, s'ha aconseguit una millor comprensió i comunicació del domini. / [EN] Over the last few decades, advances in sequencing technology have produced significant amounts of genomic data, which has revolutionised our understanding of biology. However, the amount of data generated has far exceeded our ability to interpret it. Deciphering the code of life is a grand challenge. Despite our progress, our understanding of it remains minimal, and we are just beginning to uncover its full potential, for instance, in areas such as precision medicine or pharmacogenomics. The main objective of this thesis is to advance our understanding of life by proposing a holistic approach, using a model-based approach, consisting of three artifacts: i) a conceptual schema of the genome, ii) a method for its application in the real-world, and iii) the use of foundational ontologies to represent domain knowledge in a more unambiguous and explicit way. The first two contributions have been validated by implementing genome information systems based on conceptual models. The third contribution has been validated by empirical experiments assessing whether using foundational ontologies leads to a better understanding of the genomic domain. The artifacts generated offer significant benefits. First, more efficient data management processes were produced, leading to better knowledge extraction processes. Second, a better understanding and communication of the domain was achieved. / Las fructíferas discusiones y los resultados derivados de los proyectos INNEST2021 /57, MICIN/AEI/10.13039/501100011033, PID2021-123824OB-I00, CIPROM/2021/023 y PDC2021- 121243-I00 han contribuido en gran medida a la calidad final de este tesis. / García Simón, A. (2022). Understanding the Code of Life: Holistic Conceptual Modeling of the Genome [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191432
143

Incremental and developmental perspectives for general-purpose learning systems

Martínez Plumed, Fernando 07 July 2016 (has links)
[EN] The stupefying success of Artificial Intelligence (AI) for specific problems, from recommender systems to self-driving cars, has not yet been matched with a similar progress in general AI systems, coping with a variety of problems. This dissertation deals with the long-standing problem of creating more general AI systems, through the analysis of their development and the evaluation of their cognitive abilities. Firstly, this thesis contributes with a general-purpose learning system that meets several desirable characteristics in terms of expressiveness, comprehensibility and versatility. The system works with approaches that are inherently general: inductive programming and reinforcement learning. The system does not rely on a fixed library of learning operators, but can be endowed with new ones, so being able to operate in a wide variety of contexts. This flexibility, jointly with its declarative character, makes it possible to use the system as an instrument for better understanding the role (and difficulty) of the constructs that each task requires. The learning process is also overhauled with a new developmental and lifelong approach for knowledge acquisition, consolidation and forgetting, which is necessary when bounded resources (memory and time) are considered. Secondly, this thesis analyses whether the use of intelligence tests for AI evaluation is a much better alternative to most task-oriented evaluation approaches in AI. Accordingly, we make a review of what has been done when AI systems have been confronted against tasks taken from intelligence tests. In this regard, we scrutinise what intelligence tests measure in machines, whether they are useful to evaluate AI systems, whether they are really challenging problems, and whether they are useful to understand (human) intelligence. Finally, the analysis of the concepts of development and incremental learning in AI systems is done at the conceptual level but also through several of these intelligence tests, providing further insight for the understanding and construction of general-purpose developing AI systems. / [ES] El éxito abrumador de la Inteligencia Artificial (IA) en la resolución de tareas específicas (desde sistemas de recomendación hasta vehículos de conducción autónoma) no ha sido aún igualado con un avance similar en sistemas de IA de carácter más general enfocados en la resolución de una mayor variedad de tareas. Esta tesis aborda la creación de sistemas de IA de propósito general así como el análisis y evaluación tanto de su desarrollo como de sus capacidades cognitivas. En primer lugar, esta tesis contribuye con un sistema de aprendizaje de propósito general que reúne distintas ventajas como expresividad, comprensibilidad y versatilidad. El sistema está basado en aproximaciones de carácter inherentemente general: programación inductiva y aprendizaje por refuerzo. Además, dicho sistema se basa en una biblioteca dinámica de operadores de aprendizaje por lo que es capaz de operar en una amplia variedad de contextos. Esta flexibilidad, junto con su carácter declarativo, hace que sea posible utilizar el sistema de forma instrumental con el objetivo de facilitar la comprensión de las distintas construcciones que cada tarea requiere para ser resuelta. Por último, el proceso de aprendizaje también se revisa por medio de un enfoque evolutivo e incremental de adquisición, consolidación y olvido de conocimiento, necesario cuando se trabaja con recursos limitados (memoria y tiempo). En segundo lugar, esta tesis analiza el uso de tests de inteligencia humana para la evaluación de sistemas de IA y plantea si su uso puede constituir una alternativa válida a los enfoques actuales de evaluación de IA (más orientados a tareas). Para ello se realiza una exhaustiva revisión bibliográfica de aquellos sistemas de IA que han sido utilizados para la resolución de este tipo de problemas. Esto ha permitido analizar qué miden realmente los tests de inteligencia en los sistemas de IA, si son significativos para su evaluación, si realmente constituyen problemas complejos y, por último, si son útiles para entender la inteligencia (humana). Finalmente se analizan los conceptos de desarrollo cognitivo y aprendizaje incremental en sistemas de IA no solo a nivel conceptual, sino también por medio de estos problemas mejorando por tanto la comprensión y construcción de sistemas de propósito general evolutivos. / [CA] L'èxit aclaparant de la Intel·ligència Artificial (IA) en la resolució de tasques específiques (des de sistemes de recomanació fins a vehicles de conducció autònoma) no ha sigut encara igualat amb un avanç similar en sistemes de IA de caràcter més general enfocats en la resolució d'una major varietat de tasques. Aquesta tesi aborda la creació de sistemes de IA de propòsit general així com l'anàlisi i avaluació tant del seu desenvolupament com de les seues capacitats cognitives. En primer lloc, aquesta tesi contribueix amb un sistema d'aprenentatge de propòsit general que reuneix diferents avantatges com ara expressivitat, comprensibilitat i versatilitat. El sistema està basat en aproximacions de caràcter inherentment general: programació inductiva i aprenentatge per reforç. A més, el sistema utilitza una biblioteca dinàmica d'operadors d'aprenentatge pel que és capaç d'operar en una àmplia varietat de contextos. Aquesta flexibilitat, juntament amb el seu caràcter declaratiu, fa que siga possible utilitzar el sistema de forma instrumental amb l'objectiu de facilitar la comprensió de les diferents construccions que cada tasca requereix per a ser resolta. Finalment, el procés d'aprenentatge també és revisat mitjançant un enfocament evolutiu i incremental d'adquisició, consolidació i oblit de coneixement, necessari quan es treballa amb recursos limitats (memòria i temps). En segon lloc, aquesta tesi analitza l'ús de tests d'intel·ligència humana per a l'avaluació de sistemes de IA i planteja si el seu ús pot constituir una alternativa vàlida als enfocaments actuals d'avaluació de IA (més orientats a tasques). Amb aquesta finalitat, es realitza una exhaustiva revisió bibliogràfica d'aquells sistemes de IA que han sigut utilitzats per a la resolució d'aquest tipus de problemes. Açò ha permès analitzar què mesuren realment els tests d'intel·ligència en els sistemes de IA, si són significatius per a la seua avaluació, si realment constitueixen problemes complexos i, finalment, si són útils per a entendre la intel·ligència (humana). Finalment s'analitzen els conceptes de desenvolupament cognitiu i aprenentatge incremental en sistemes de IA no solament a nivell conceptual, sinó també per mitjà d'aquests problemes millorant per tant la comprensió i construcció de sistemes de propòsit general evolutius. / Martínez Plumed, F. (2016). Incremental and developmental perspectives for general-purpose learning systems [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67269
144

Author Profiling en Social Media: Identificación de Edad, Sexo y Variedad del Lenguaje

Rangel Pardo, Francisco Manuel 07 July 2016 (has links)
[EN] The possibility of knowing people traits on the basis of what they write is a field of growing interest named author profiling. To infer a user's gender, age, native language or personality traits, simply by analysing her texts, opens a wide range of possibilities from the point of view of forensics, security and marketing. Furthermore, social media proliferation, which allows for new communication models and human relations, strengthens this wide range of possibilities to bounds never seen before. Idiosyncrasy inherent to social media makes them a special environment of communication, where freedom of expression, informality and spontaneous generation of topics and trends, enhances the knowledge of the daily reality of people in their use of language. However, the same idiosyncrasy makes difficult, or extremely costly, the application of linguistic techniques. In this work we have proposed EmoGraph, a graph-based approach with the aim at modelling the way that users express their emotions, and the way they include them in their discourse, bearing in mind not only their frequency of occurrence, but also their position and relationship with other elements in the discourse. Our starting hypothesis is that users express themselves and their emotions differently depending on their age and gender, and besides, we think that this is independent on their language and social media where they write. We have collaborated in the creation of a common framework of evaluation at the PAN Lab of CLEF, generating resources that allowed us to verify our hypothesis achieving comparable and competitive results with the best ones obtained by other researchers on the field. In addition, we have investigated whether the expression of emotions would help to differentiate among users of different varieties of the same language, for example, Spanish from Spain, Mexican and Argentinian, or Portuguese from Portugal and Brazil. Our hypothesis is that the variation among languages is based more on lexical aspects, and we have corroborated it after comparing EmoGraph with representations based on word patterns, distributed representations and a representation that uses the whole vocabulary, but reducing its dimensionality to only 6 features per class, what is suitable for its application to big data environments such as social media. / [ES] La posibilidad de conocer rasgos de una persona a partir únicamente de los textos que escribe se ha convertido en un área de gran interés denominada author profiling. Ser capaz de inferir de un usuario su sexo, edad, idioma nativo o los rasgos de su personalidad, simplemente analizando sus textos, abre todo un abanico de posibilidades desde el punto de vista forense, de la seguridad o del marketing. Además, la proliferación de los medios sociales, que favorece nuevos modelos de comunicación y relación humana, potencia este abanico de posibilidades hasta cotas nunca antes vistas. La idiosincrasia inherente a estos medios sociales hace de ellos un entorno de comunicación especial, donde la libertad de expresión, la informalidad y la generación espontánea de temáticas y tendencias propician el acercamiento a la realidad diaria de las personas en su uso de la lengua. Sin embargo, esa misma idiosincrasia hace que en muchas ocasiones la aplicación de técnicas lingüísticas de análisis no sea posible, o sea extremadamente costoso. En este trabajo hemos propuesto EmoGraph, una representación basada en grafos con el objetivo de modelar el modo en que los usuarios expresan sus emociones, y el modo en que las articulan en el marco de su discurso, teniendo en consideración no sólo su frecuencia, sino también su posición y relación con y respecto a los elementos del mismo. Nuestra hipótesis de partida es que los usuarios se expresan y expresan sus emociones de manera diferente dependiendo de su edad y sexo, y además, pensamos que esto es así independientemente de su idioma y del medio donde escriban. Hemos colaborado en la creación de un marco común de evaluación en el laboratorio PAN del CLEF, generando recursos que nos han permitido verificar nuestra hipótesis y conseguir resultados comparables y competitivos con los mejores resultados obtenidos por los investigadores del área. Además, hemos querido investigar si la expresión de emociones permitiría diferenciar entre hablantes de diferentes variedades de una misma lengua, por ejemplo españoles, mexicanos o argentinos, o portugueses y brasileños. Nuestra hipótesis es que la variación entre lenguas se basa más en aspectos léxicos, y así lo hemos corroborado tras comparar EmoGraph con representaciones basadas en patrones, representaciones distribuidas y una representación que toma en consideración el vocabulario completo, pero reduciendo su dimensionalidad a únicamente 6 características por clase y que se erige idónea para su aplicación en entornos big data como los medios sociales. / [CA] La possibilitat de conèixer trets d'una persona únicament a partir dels textos que escriu s'ha convertit en una àrea de gran interès anomenada author profiling. Ser capaç d'inferir d'un usuari el sexe, l'edat, l'idioma nadiu o els trets de la seua personalitat tan sols analitzant els seus textos, obre tot un ventall de possibilitats des del punt de vista forense, de la seguretat o del màrketing. A més, la proliferació dels mitjans socials, que afavoreix nous models de comunicació i de relació humana, potencia aquest ventall de possibilitats fins a cotes que no s'han vist fins ara. La idiosincràsia inherent a aquests mitjans socials en fa d'ells un entorn de comunicació especial, on la llibertat d'expressió, la informalitat i la generació espontània de temàtiques i tendències propicien l'aproximació a la realitat diària de les persones en l'ús que fan de la llengua. Tanmateix, aquesta idiosincràsia fa que en moltes ocasions no es puguin aplicar tècniques lingüístiques d'anàlisi, o que fer-ho resulti extremadament costós. En aquest treball hem proposat EmoGraph, una representació basada en grafs que té l'objectiu de modelar la manera en què els usaris expressen les seves emocions, i la manera com les articulen en el marc de llur discurs, considerant-ne no només la freqüència sinó també la posició i la relació amb i respecte als elements del discurs. La nostra hipòtesi de partida és que els usuaris s'expressen i expressen llurs emocions de manera diferent depenent de l'edat i el sexe, i a més, pensem que això és així independentment de l'idioma i del mitjà en què escriguin. Hem col·laborat en la creació d'un marc comú d'avaluació al laboratori PAN del CLEF, generant recursos que ens han permès verificar la nostra hipòtesi i aconseguir resultats comparables i competitius amb els millors resultats obtinguts pels investigadors de l'àrea. A més, hem volgut investigar si l'expressió d'emocions permetria establir diferències enre parlants de diferents varietats d'una mateixa llengua, per exemple espanyols, mexicans o argentins, o portuguesos i brasilers. La nostra hipòtesi és que la variació entre llengües es basa més en aspectes lèxics, i així ho hem corroborat després de comparar EmoGraph amb representacions basades en patrons, representacions distribuïdes i una representació que considera el vocabulari complet, però reduint-ne la dimensionalitat només a 6 característiques per classe i que s'erigeix de manera idònia per a aplicar-la en entorns big data com els mitjans socials. / Rangel Pardo, FM. (2016). Author Profiling en Social Media: Identificación de Edad, Sexo y Variedad del Lenguaje [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67270
145

Contributions to Pen & Touch Human-Computer Interaction

Martín-Albo Simón, Daniel 01 September 2016 (has links)
[EN] Computers are now present everywhere, but their potential is not fully exploited due to some lack of acceptance. In this thesis, the pen computer paradigm is adopted, whose main idea is to replace all input devices by a pen and/or the fingers, given that the origin of the rejection comes from using unfriendly interaction devices that must be replaced by something easier for the user. This paradigm, that was was proposed several years ago, has been only recently fully implemented in products, such as the smartphones. But computers are actual illiterates that do not understand gestures or handwriting, thus a recognition step is required to "translate" the meaning of these interactions to computer-understandable language. And for this input modality to be actually usable, its recognition accuracy must be high enough. In order to realistically think about the broader deployment of pen computing, it is necessary to improve the accuracy of handwriting and gesture recognizers. This thesis is devoted to study different approaches to improve the recognition accuracy of those systems. First, we will investigate how to take advantage of interaction-derived information to improve the accuracy of the recognizer. In particular, we will focus on interactive transcription of text images. Here the system initially proposes an automatic transcript. If necessary, the user can make some corrections, implicitly validating a correct part of the transcript. Then the system must take into account this validated prefix to suggest a suitable new hypothesis. Given that in such application the user is constantly interacting with the system, it makes sense to adapt this interactive application to be used on a pen computer. User corrections will be provided by means of pen-strokes and therefore it is necessary to introduce a recognizer in charge of decoding this king of nondeterministic user feedback. However, this recognizer performance can be boosted by taking advantage of interaction-derived information, such as the user-validated prefix. Then, this thesis focuses on the study of human movements, in particular, hand movements, from a generation point of view by tapping into the kinematic theory of rapid human movements and the Sigma-Lognormal model. Understanding how the human body generates movements and, particularly understand the origin of the human movement variability, is important in the development of a recognition system. The contribution of this thesis to this topic is important, since a new technique (which improves the previous results) to extract the Sigma-lognormal model parameters is presented. Closely related to the previous work, this thesis study the benefits of using synthetic data as training. The easiest way to train a recognizer is to provide "infinite" data, representing all possible variations. In general, the more the training data, the smaller the error. But usually it is not possible to infinitely increase the size of a training set. Recruiting participants, data collection, labeling, etc., necessary for achieving this goal can be time-consuming and expensive. One way to overcome this problem is to create and use synthetically generated data that looks like the human. We study how to create these synthetic data and explore different approaches on how to use them, both for handwriting and gesture recognition. The different contributions of this thesis have obtained good results, producing several publications in international conferences and journals. Finally, three applications related to the work of this thesis are presented. First, we created Escritorie, a digital desk prototype based on the pen computer paradigm for transcribing handwritten text images. Second, we developed "Gestures à Go Go", a web application for bootstrapping gestures. Finally, we studied another interactive application under the pen computer paradigm. In this case, we study how translation reviewing can be done more ergonomically using a pen. / [ES] Hoy en día, los ordenadores están presentes en todas partes pero su potencial no se aprovecha debido al "miedo" que se les tiene. En esta tesis se adopta el paradigma del pen computer, cuya idea fundamental es sustituir todos los dispositivos de entrada por un lápiz electrónico o, directamente, por los dedos. El origen del rechazo a los ordenadores proviene del uso de interfaces poco amigables para el humano. El origen de este paradigma data de hace más de 40 años, pero solo recientemente se ha comenzado a implementar en dispositivos móviles. La lenta y tardía implantación probablemente se deba a que es necesario incluir un reconocedor que "traduzca" los trazos del usuario (texto manuscrito o gestos) a algo entendible por el ordenador. Para pensar de forma realista en la implantación del pen computer, es necesario mejorar la precisión del reconocimiento de texto y gestos. El objetivo de esta tesis es el estudio de diferentes estrategias para mejorar esta precisión. En primer lugar, esta tesis investiga como aprovechar información derivada de la interacción para mejorar el reconocimiento, en concreto, en la transcripción interactiva de imágenes con texto manuscrito. En la transcripción interactiva, el sistema y el usuario trabajan "codo con codo" para generar la transcripción. El usuario valida la salida del sistema proporcionando ciertas correcciones, mediante texto manuscrito, que el sistema debe tener en cuenta para proporcionar una mejor transcripción. Este texto manuscrito debe ser reconocido para ser utilizado. En esta tesis se propone aprovechar información contextual, como por ejemplo, el prefijo validado por el usuario, para mejorar la calidad del reconocimiento de la interacción. Tras esto, la tesis se centra en el estudio del movimiento humano, en particular del movimiento de las manos, utilizando la Teoría Cinemática y su modelo Sigma-Lognormal. Entender como se mueven las manos al escribir, y en particular, entender el origen de la variabilidad de la escritura, es importante para el desarrollo de un sistema de reconocimiento, La contribución de esta tesis a este tópico es importante, dado que se presenta una nueva técnica (que mejora los resultados previos) para extraer el modelo Sigma-Lognormal de trazos manuscritos. De forma muy relacionada con el trabajo anterior, se estudia el beneficio de utilizar datos sintéticos como entrenamiento. La forma más fácil de entrenar un reconocedor es proporcionar un conjunto de datos "infinito" que representen todas las posibles variaciones. En general, cuanto más datos de entrenamiento, menor será el error del reconocedor. No obstante, muchas veces no es posible proporcionar más datos, o hacerlo es muy caro. Por ello, se ha estudiado como crear y usar datos sintéticos que se parezcan a los reales. Las diferentes contribuciones de esta tesis han obtenido buenos resultados, produciendo varias publicaciones en conferencias internacionales y revistas. Finalmente, también se han explorado tres aplicaciones relaciones con el trabajo de esta tesis. En primer lugar, se ha creado Escritorie, un prototipo de mesa digital basada en el paradigma del pen computer para realizar transcripción interactiva de documentos manuscritos. En segundo lugar, se ha desarrollado "Gestures à Go Go", una aplicación web para generar datos sintéticos y empaquetarlos con un reconocedor de forma rápida y sencilla. Por último, se presenta un sistema interactivo real bajo el paradigma del pen computer. En este caso, se estudia como la revisión de traducciones automáticas se puede realizar de forma más ergonómica. / [CA] Avui en dia, els ordinadors són presents a tot arreu i es comunament acceptat que la seva utilització proporciona beneficis. No obstant això, moltes vegades el seu potencial no s'aprofita totalment. En aquesta tesi s'adopta el paradigma del pen computer, on la idea fonamental és substituir tots els dispositius d'entrada per un llapis electrònic, o, directament, pels dits. Aquest paradigma postula que l'origen del rebuig als ordinadors prové de l'ús d'interfícies poc amigables per a l'humà, que han de ser substituïdes per alguna cosa més coneguda. Per tant, la interacció amb l'ordinador sota aquest paradigma es realitza per mitjà de text manuscrit i/o gestos. L'origen d'aquest paradigma data de fa més de 40 anys, però només recentment s'ha començat a implementar en dispositius mòbils. La lenta i tardana implantació probablement es degui al fet que és necessari incloure un reconeixedor que "tradueixi" els traços de l'usuari (text manuscrit o gestos) a alguna cosa comprensible per l'ordinador, i el resultat d'aquest reconeixement, actualment, és lluny de ser òptim. Per pensar de forma realista en la implantació del pen computer, cal millorar la precisió del reconeixement de text i gestos. L'objectiu d'aquesta tesi és l'estudi de diferents estratègies per millorar aquesta precisió. En primer lloc, aquesta tesi investiga com aprofitar informació derivada de la interacció per millorar el reconeixement, en concret, en la transcripció interactiva d'imatges amb text manuscrit. En la transcripció interactiva, el sistema i l'usuari treballen "braç a braç" per generar la transcripció. L'usuari valida la sortida del sistema donant certes correccions, que el sistema ha d'usar per millorar la transcripció. En aquesta tesi es proposa utilitzar correccions manuscrites, que el sistema ha de reconèixer primer. La qualitat del reconeixement d'aquesta interacció és millorada, tenint en compte informació contextual, com per exemple, el prefix validat per l'usuari. Després d'això, la tesi se centra en l'estudi del moviment humà en particular del moviment de les mans, des del punt de vista generatiu, utilitzant la Teoria Cinemàtica i el model Sigma-Lognormal. Entendre com es mouen les mans en escriure és important per al desenvolupament d'un sistema de reconeixement, en particular, per entendre l'origen de la variabilitat de l'escriptura. La contribució d'aquesta tesi a aquest tòpic és important, atès que es presenta una nova tècnica (que millora els resultats previs) per extreure el model Sigma- Lognormal de traços manuscrits. De forma molt relacionada amb el treball anterior, s'estudia el benefici d'utilitzar dades sintètiques per a l'entrenament. La forma més fàcil d'entrenar un reconeixedor és proporcionar un conjunt de dades "infinit" que representin totes les possibles variacions. En general, com més dades d'entrenament, menor serà l'error del reconeixedor. No obstant això, moltes vegades no és possible proporcionar més dades, o fer-ho és molt car. Per això, s'ha estudiat com crear i utilitzar dades sintètiques que s'assemblin a les reals. Les diferents contribucions d'aquesta tesi han obtingut bons resultats, produint diverses publicacions en conferències internacionals i revistes. Finalment, també s'han explorat tres aplicacions relacionades amb el treball d'aquesta tesi. En primer lloc, s'ha creat Escritorie, un prototip de taula digital basada en el paradigma del pen computer per realitzar transcripció interactiva de documents manuscrits. En segon lloc, s'ha desenvolupat "Gestures à Go Go", una aplicació web per a generar dades sintètiques i empaquetar-les amb un reconeixedor de forma ràpida i senzilla. Finalment, es presenta un altre sistema inter- actiu sota el paradigma del pen computer. En aquest cas, s'estudia com la revisió de traduccions automàtiques es pot realitzar de forma més ergonòmica. / Martín-Albo Simón, D. (2016). Contributions to Pen & Touch Human-Computer Interaction [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/68482
146

Software-Assisted Knowledge Generation in the Cultural Heritage Domain: A Conceptual Framework

Martín Rodilla, Patricia 01 September 2016 (has links)
[EN] Software Engineering provides a repository of techniques, methods and tools to manage, process, use and exploit information. In recent decades, this corpus has not only been applied to domains that traditionally act as a receivers of software solutions, but also it has been expanded and enriched by contributions from other disciplines and domains with needs related to the information produced. One of the most common needs in these disciplines is the software assistance to experts or domain professionals in performing processes ranging from the analysis of raw gathered data to the generation of new knowledge based on these, thus allowing the continuous advance of the discipline. In order to assist knowledge generation processes through software, it is necessary a deep understanding of the Software Engineering corpus as well as the particularities of the domain assisted and how knowledge is generated inside it.This situation appears too in the Cultural Heritage domain, whose professionals produce and manage large amounts of data about evidences of our past and present, from which they create new knowledge that constitutes the knowledge about heritage of a particular community.Despite their relevance and the regular application of Software Engineering solutions to the Cultural Heritage domain, the knowledge generation process in Cultural Heritage poses a challenge for Software Engineering, mainly due to the low presence of formal studies of the process, making it difficult to assist it through software. The lack of formal studies implies that we do not know which particular processes in Cultural Heritage we must assist and what should be the appropriate assistance in each case. Furthermore, the Cultural Heritage domain and, in general, the humanities, possesses some particular characteristics that are especially difficult to deal with by software, such as the presence of high subjectivity, the fact that much information is uncertain or vague, and the importance of the temporal aspect in the information. In order to address these two challenges from a transdisciplinary perspective, this thesis presents a conceptual framework based on software models for the construction of software solutions to assist to the knowledge generation process in Cultural Heritage. Firstly, the thesis conducts a deep exploration of the knowledge generation processes in Cultural Heritage, whose inputs are mainly textual sources. As a result, the thesis proposes a methodology and a modelling language to use discourse analysis in Software Engineering. By using this approach, it is possible to relate elements of a text with the domain entities that are referenced and the argumentative mechanisms used during the knowledge generation process and captured in the text. Subsequently, the thesis proposes a conceptual framework whose implementation allows to manage the domain particularities mentioned above, providing a software assistance to the Cultural Heritage professionals through information visualization techniques.The proposed conceptual framework has been validated in two complementary ways. On the one hand, we have developed a full case study in the Cultural Heritage domain, for which we have instantiated all the software models proposed as part of the framework to represent a real-world scenario. This case study application has revealed the potential of the framework in terms of conceptual representation, technical support and software-assistance definition mechanisms.On the other hand, the proposed software models have been implemented as a functional iOS application prototype. The prototype has been validated empirically against professionals in Cultural Heritage, comparing the performance of knowledge generation processes using the proposed framework to the conventional ways without software assistance. The empirical validation has revealed how the proposed framework provides a robust solution for implementing software-assistance in Cultural Heritage. / [ES] La ingeniería del software ofrece un repositorio de técnicas, métodos y herramientas como soluciones para el manejo, tratamiento, uso y explotación de información. En las últimas décadas, este corpus no sólo ha sido aplicado a dominios tradicionalmente receptores de soluciones software, sino que se ha expandido y enriquecido con aportaciones de diversas disciplinas y dominios con necesidades relacionadas con la información que producen.Una de las necesidades más habituales es la asistencia a los profesionales de dichas disciplinas durante el proceso evolutivo que realizan desde el análisis de los datos más primarios hasta la generación de conocimiento nuevo que permita avanzar en la disciplina involucrada. Este es el caso del Patrimonio Cultural, cuyos profesionales producen y manejan ingentes cantidades de datos acerca de evidencias sobre nuestro pasado y presente, y desde los cuáles descubren y generan conocimiento nuevo, que supone la herencia cultural propia de una comunidad. Este conocimiento define la comunidad en el presente y es transmitido a las generaciones presentes y futuras. Pese a su relevancia y a la habitual aplicación de determinadas soluciones de ingeniería software en el dominio, el proceso de generación de conocimiento en Patrimonio Cultural representa en sí mismo un reto para la ingeniería del software, debido fundamentalmente a la poca presencia de estudios formales acerca del mismo, lo que dificulta su asistencia mediante software. Esto implica que no sabemos qué tipo de subprocesos debemos asistir mediante software ni cuál es la asistencia más adecuada. Además, el corpus actual en ingeniería del software debe soportar especificidades del dominio patrimonial y, en general, de las humanidades, como son la presencia de una alta subjetividad, el hecho de que mucha información es incierta o vaga, y la importancia del aspecto temporal en los datos. Con el objetivo de abordar estos dos retos desde una perspectiva co-investigadora y transdisciplinar, la presente tesis doctoral presenta un marco conceptual basado en modelos software para la construcción de soluciones software que asistan a la generación de conocimiento en Patrimonio Cultural. La tesis explora a fondo el proceso de generación de conocimiento en Patrimonio Cultural, cuyas fuentes eminentemente textuales han dado lugar a la propuesta de una metodología completa y un lenguaje de modelado para utilizar análisis del discurso en ingeniería del software. Esta propuesta permite que se puedan relacionar elementos de un texto con las entidades del dominio que se referencian, así como los mecanismos argumentativos que se emplean.Posteriormente, la tesis propone un marco conceptual completo cuya implementación permite gestionar las especificidades del dominio antes señaladas, ofreciendo una asistencia mediante técnicas de visualización de información software a los especialistas en Patrimonio Cultural. El marco conceptual propuesto ha sido validado de dos maneras complementarias. Por un lado, se ha desarrollado un caso de estudio patrimonial completo, para el cual se han implementado todos los modelos software del marco conceptual propuesto, representando un escenario de aplicación completo del mundo real. Este caso de estudio ha permitido comprobar la potencia del marco conceptual propuesto en cuanto a representación, soporte y definición de mecanismos de asistencia software. Por otro lado, los modelos software que conforman el marco conceptual propuesto han sido implementados en un prototipo funcional en forma de aplicación iOS. Esto ha permitido contar con una implementación real de asistencia software en Patrimonio Cultural. Dicha solución se ha validado empíricamente con profesionales del dominio, comparándola con los modos de generación de conocimiento habituales sin dicha asistencia.La validación empírica ha permitido comprobar cómo el marco propuesto constituye una solución sólida para la construcci / [CA] L'enginyeria del programari ofereix un repositori de tècniques, mètodes i eines com a suport per la manipulació, tractament, ús i explotació d'informació. En les darreres dècades, aquest corpus no sols ha sigut aplicat a dominis tradicionalment receptors de solucions de programari, si no que s'han extés i enriquit amb aportacions des de diferents disciplines i dominis amb necessitats relacionades amb l'informació que produeixen. Una de les necessitats més habituals és l'assistència als professionals d'aquestes disciplines durant el procés evolutiu que realitzen des de l'anàlisi de les dades més primàries fins la generació de nou coneixement que permet avançar en la disciplina involucrada. Aquest és el cas del Patrimoni Cultural, el professionals del qual produeixen i manipulen grans quantitats de dades sobre evidències del nostre passat i present, i des de les quals descobreixen i generen nou coneixement, que suposa l'herència cultural pròpia d'una comunitat. A pesar de la seua relevància i a la normal aplicació de determinades solucions d'enginyeria de programari al domini, el procés de generació de coneixement en Patrimoni Cultural representa, en sí mateix, un repte per a l'enginyeria del programari, fonamentalment per la poca presència d'estudis formals sobre aquest domini, cosa que dificulta la seua assistència per programari. Açò implica que no sabem quin tipus de subprocessos hem d'assistir amb programari ni quina és l'assitència més adient. A més a més, el corpus actual en l'enginyeria del programari ha de suportar especifitats del domini patrimonial i, en general, de les humanitats, com són la presència d'una alta subjectivitat, i el fet que molta informació és incerta o imprescisa, o la importància de la dimensió temporal en les dades. Amb l'objectiu d'abordar aquestos dos reptes des d'una perspectiva de recerca colaborativa i transdisciplinar, aquesta tesi doctoral presenta un marc conceptual basat en models de programari per a la construcció de solucions de programari que assistisquen a la generació de coneixement en Patrimoni Cultural. En primer lloc, la tesi explora en profunditat el procés de generació de coneixement en Patrimoni Cultural, les fonts de les quals són majoritàriament textuals han sigut l'orige per a la proposta d'una metodologia completa i un llenguatge de modelatge per emprar anàlisi del discurs en enginyeria de programari. Aquesta proposta permet que es puguen relacionar elements d'un text amb les entitats del domini que es referencien, així com els mecanismes argumentatius que s'empren. Posteriorment, la tesi proposa un marc conceptual complet amb una implementació que permet gestionar les especificitats del domini abans esmentades, oferint una assistència mitjançant tècniques de visualització d'informació de programari als especialistes en Patrimoni Cultural.El marc conceptual proposat ha sigut validat de dues maneres complementàries. Per una banda, s'ha desenvolupat un cas d'estudi patrimonial complet, implementant tots els models de programari del marc conceptual proposat, representant un escenari d'aplicació complet del món real. Aquest cas d'estudi ha permés comprovar la potència del marc conceptual proposat en quant a la representació, suport i definició de mecanismes d'assistència de programari. Per una altra banda, els models de programari que conformen el marc conceptual proposat s'han implementat en un prototipus funcional en forma d'aplicació iOS. Aquest fet ha permés comptar amb una implementació real d'assistència de programari en Patrimoni Cultural. Aquesta solució s'ha validat empíricament amb professionals del domini, comparant-la amb els modes de generació de coneixement habituals sense aquesta assistència. La validació empírica ha permés comprovar com el marc conceptual proposat constitueix una solució sòlida per a la construcció, a partir dels models de programari especificats, dels sistemes de prog / Martín Rodilla, P. (2016). Software-Assisted Knowledge Generation in the Cultural Heritage Domain: A Conceptual Framework [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/68496
147

Non-Cooperative Games for Self-Interested Planning Agents

Jordán Prunera, Jaume Magí 03 November 2017 (has links)
Multi-Agent Planning (MAP) is a topic of growing interest that deals with the problem of automated planning in domains where multiple agents plan and act together in a shared environment. In most cases, agents in MAP are cooperative (altruistic) and work together towards a collaborative solution. However, when rational self-interested agents are involved in a MAP task, the ultimate objective is to find a joint plan that accomplishes the agents' local tasks while satisfying their private interests. Among the MAP scenarios that involve self-interested agents, non-cooperative MAP refers to problems where non-strictly competitive agents feature common and conflicting interests. In this setting, conflicts arise when self-interested agents put their plans together and the resulting combination renders some of the plans non-executable, which implies a utility loss for the affected agents. Each participant wishes to execute its plan as it was conceived, but congestion issues and conflicts among the actions of the different plans compel agents to find a coordinated stable solution. Non-cooperative MAP tasks are tackled through non-cooperative games, which aim at finding a stable (equilibrium) joint plan that ensures the agents' plans are executable (by addressing planning conflicts) while accounting for their private interests as much as possible. Although this paradigm reflects many real-life problems, there is a lack of computational approaches to non-cooperative MAP in the literature. This PhD thesis pursues the application of non-cooperative games to solve non-cooperative MAP tasks that feature rational self-interested agents. Each agent calculates a plan that attains its individual planning task, and subsequently, the participants try to execute their plans in a shared environment. We tackle non-cooperative MAP from a twofold perspective. On the one hand, we focus on agents' satisfaction by studying desirable properties of stable solutions, such as optimality and fairness. On the other hand, we look for a combination of MAP and game-theoretic techniques capable of efficiently computing stable joint plans while minimizing the computational complexity of this combined task. Additionally, we consider planning conflicts and congestion issues in the agents' utility functions, which results in a more realistic approach. To the best of our knowledge, this PhD thesis opens up a new research line in non-cooperative MAP and establishes the basic principles to attain the problem of synthesizing stable joint plans for self-interested planning agents through the combination of game theory and automated planning. / La Planificación Multi-Agente (PMA) es un tema de creciente interés que trata el problema de la planificación automática en dominios donde múltiples agentes planifican y actúan en un entorno compartido. En la mayoría de casos, los agentes en PMA son cooperativos (altruistas) y trabajan juntos para obtener una solución colaborativa. Sin embargo, cuando los agentes involucrados en una tarea de PMA son racionales y auto-interesados, el objetivo último es obtener un plan conjunto que resuelva las tareas locales de los agentes y satisfaga sus intereses privados. De entre los distintos escenarios de PMA que involucran agentes auto-interesados, la PMA no cooperativa se centra en problemas que presentan un conjunto de agentes no estrictamente competitivos con intereses comunes y conflictivos. En este contexto, pueden surgir conflictos cuando los agentes ponen en común sus planes y la combinación resultante provoca que algunos de estos planes no sean ejecutables, lo que implica una pérdida de utilidad para los agentes afectados. Cada participante desea ejecutar su plan tal como fue concebido, pero las congestiones y conflictos que pueden surgir entre las acciones de los diferentes planes fuerzan a los agentes a obtener una solución estable y coordinada. Las tareas de PMA no cooperativa se abordan a través de juegos no cooperativos, cuyo objetivo es hallar un plan conjunto estable (equilibrio) que asegure que los planes de los agentes sean ejecutables (resolviendo los conflictos de planificación) al tiempo que los agentes satisfacen sus intereses privados en la medida de lo posible. Aunque este paradigma refleja muchos problemas de la vida real, existen pocos enfoques computacionales para PMA no cooperativa en la literatura. Esta tesis doctoral estudia el uso de juegos no cooperativos para resolver tareas de PMA no cooperativa con agentes racionales auto-interesados. Cada agente calcula un plan para su tarea de planificación y posteriormente, los participantes intentan ejecutar sus planes en un entorno compartido. Abordamos la PMA no cooperativa desde una doble perspectiva. Por una parte, nos centramos en la satisfacción de los agentes estudiando las propiedades deseables de soluciones estables, tales como la optimalidad y la justicia. Por otra parte, buscamos una combinación de PMA y técnicas de teoría de juegos capaz de calcular planes conjuntos estables de forma eficiente al tiempo que se minimiza la complejidad computacional de esta tarea combinada. Además, consideramos los conflictos de planificación y congestiones en las funciones de utilidad de los agentes, lo que resulta en un enfoque más realista. Bajo nuestro punto de vista, esta tesis doctoral abre una nueva línea de investigación en PMA no cooperativa y establece los principios básicos para resolver el problema de la generación de planes conjuntos estables para agentes de planificación auto-interesados mediante la combinación de teoría de juegos y planificación automática. / La Planificació Multi-Agent (PMA) és un tema de creixent interès que tracta el problema de la planificació automàtica en dominis on múltiples agents planifiquen i actuen en un entorn compartit. En la majoria de casos, els agents en PMA són cooperatius (altruistes) i treballen junts per obtenir una solució col·laborativa. No obstant això, quan els agents involucrats en una tasca de PMA són racionals i auto-interessats, l'objectiu últim és obtenir un pla conjunt que resolgui les tasques locals dels agents i satisfaci els seus interessos privats. D'entre els diferents escenaris de PMA que involucren agents auto-interessats, la PMA no cooperativa se centra en problemes que presenten un conjunt d'agents no estrictament competitius amb interessos comuns i conflictius. En aquest context, poden sorgir conflictes quan els agents posen en comú els seus plans i la combinació resultant provoca que alguns d'aquests plans no siguin executables, el que implica una pèrdua d'utilitat per als agents afectats. Cada participant vol executar el seu pla tal com va ser concebut, però les congestions i conflictes que poden sorgir entre les accions dels diferents plans forcen els agents a obtenir una solució estable i coordinada. Les tasques de PMA no cooperativa s'aborden a través de jocs no cooperatius, en els quals l'objectiu és trobar un pla conjunt estable (equilibri) que asseguri que els plans dels agents siguin executables (resolent els conflictes de planificació) alhora que els agents satisfan els seus interessos privats en la mesura del possible. Encara que aquest paradigma reflecteix molts problemes de la vida real, hi ha pocs enfocaments computacionals per PMA no cooperativa en la literatura. Aquesta tesi doctoral estudia l'ús de jocs no cooperatius per resoldre tasques de PMA no cooperativa amb agents racionals auto-interessats. Cada agent calcula un pla per a la seva tasca de planificació i posteriorment, els participants intenten executar els seus plans en un entorn compartit. Abordem la PMA no cooperativa des d'una doble perspectiva. D'una banda, ens centrem en la satisfacció dels agents estudiant les propietats desitjables de solucions estables, com ara la optimalitat i la justícia. D'altra banda, busquem una combinació de PMA i tècniques de teoria de jocs capaç de calcular plans conjunts estables de forma eficient alhora que es minimitza la complexitat computacional d'aquesta tasca combinada. A més, considerem els conflictes de planificació i congestions en les funcions d'utilitat dels agents, el que resulta en un enfocament més realista. Des del nostre punt de vista, aquesta tesi doctoral obre una nova línia d'investigació en PMA no cooperativa i estableix els principis bàsics per resoldre el problema de la generació de plans conjunts estables per a agents de planificació auto-interessats mitjançant la combinació de teoria de jocs i planificació automàtica. / Jordán Prunera, JM. (2017). Non-Cooperative Games for Self-Interested Planning Agents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90417
148

Neural Networks for Document Image and Text Processing

Pastor Pellicer, Joan 03 November 2017 (has links)
Nowadays, the main libraries and document archives are investing a considerable effort on digitizing their collections. Indeed, most of them are scanning the documents and publishing the resulting images without their corresponding transcriptions. This seriously limits the document exploitation possibilities. When the transcription is necessary, it is manually performed by human experts, which is a very expensive and error-prone task. Obtaining transcriptions to the level of required quality demands the intervention of human experts to review and correct the resulting output of the recognition engines. To this end, it is extremely useful to provide interactive tools to obtain and edit the transcription. Although text recognition is the final goal, several previous steps (known as preprocessing) are necessary in order to get a fine transcription from a digitized image. Document cleaning, enhancement, and binarization (if they are needed) are the first stages of the recognition pipeline. Historical Handwritten Documents, in addition, show several degradations, stains, ink-trough and other artifacts. Therefore, more sophisticated and elaborate methods are required when dealing with these kind of documents, even expert supervision in some cases is needed. Once images have been cleaned, main zones of the image have to be detected: those that contain text and other parts such as images, decorations, versal letters. Moreover, the relations among them and the final text have to be detected. Those preprocessing steps are critical for the final performance of the system since an error at this point will be propagated during the rest of the transcription process. The ultimate goal of the Document Image Analysis pipeline is to receive the transcription of the text (Optical Character Recognition and Handwritten Text Recognition). During this thesis we aimed to improve the main stages of the recognition pipeline, from the scanned documents as input to the final transcription. We focused our effort on applying Neural Networks and deep learning techniques directly on the document images to extract suitable features that will be used by the different tasks dealt during the following work: Image Cleaning and Enhancement (Document Image Binarization), Layout Extraction, Text Line Extraction, Text Line Normalization and finally decoding (or text line recognition). As one can see, the following work focuses on small improvements through the several Document Image Analysis stages, but also deals with some of the real challenges: historical manuscripts and documents without clear layouts or very degraded documents. Neural Networks are a central topic for the whole work collected in this document. Different convolutional models have been applied for document image cleaning and enhancement. Connectionist models have been used, as well, for text line extraction: first, for detecting interest points and combining them in text segments and, finally, extracting the lines by means of aggregation techniques; and second, for pixel labeling to extract the main body area of the text and then the limits of the lines. For text line preprocessing, i.e., to normalize the text lines before recognizing them, similar models have been used to detect the main body area and then to height-normalize the images giving more importance to the central area of the text. Finally, Convolutional Neural Networks and deep multilayer perceptrons have been combined with hidden Markov models to improve our transcription engine significantly. The suitability of all these approaches has been tested with different corpora for any of the stages dealt, giving competitive results for most of the methodologies presented. / Hoy en día, las principales librerías y archivos está invirtiendo un esfuerzo considerable en la digitalización de sus colecciones. De hecho, la mayoría están escaneando estos documentos y publicando únicamente las imágenes sin transcripciones, limitando seriamente la posibilidad de explotar estos documentos. Cuando la transcripción es necesaria, esta se realiza normalmente por expertos de forma manual, lo cual es una tarea costosa y propensa a errores. Si se utilizan sistemas de reconocimiento automático se necesita la intervención de expertos humanos para revisar y corregir la salida de estos motores de reconocimiento. Por ello, es extremadamente útil para proporcionar herramientas interactivas con el fin de generar y corregir la transcripciones. Aunque el reconocimiento de texto es el objetivo final del Análisis de Documentos, varios pasos previos (preprocesamiento) son necesarios para conseguir una buena transcripción a partir de una imagen digitalizada. La limpieza, mejora y binarización de las imágenes son las primeras etapas del proceso de reconocimiento. Además, los manuscritos históricos tienen una mayor dificultad en el preprocesamiento, puesto que pueden mostrar varios tipos de degradaciones, manchas, tinta a través del papel y demás dificultades. Por lo tanto, este tipo de documentos requiere métodos de preprocesamiento más sofisticados. En algunos casos, incluso, se precisa de la supervisión de expertos para garantizar buenos resultados en esta etapa. Una vez que las imágenes han sido limpiadas, las diferentes zonas de la imagen deben de ser localizadas: texto, gráficos, dibujos, decoraciones, letras versales, etc. Por otra parte, también es importante conocer las relaciones entre estas entidades. Estas etapas del pre-procesamiento son críticas para el rendimiento final del sistema, ya que los errores cometidos en aquí se propagarán al resto del proceso de transcripción. El objetivo principal del trabajo presentado en este documento es mejorar las principales etapas del proceso de reconocimiento completo: desde las imágenes escaneadas hasta la transcripción final. Nuestros esfuerzos se centran en aplicar técnicas de Redes Neuronales (ANNs) y aprendizaje profundo directamente sobre las imágenes de los documentos, con la intención de extraer características adecuadas para las diferentes tareas: Limpieza y Mejora de Documentos, Extracción de Líneas, Normalización de Líneas de Texto y, finalmente, transcripción del texto. Como se puede apreciar, el trabajo se centra en pequeñas mejoras en diferentes etapas del Análisis y Procesamiento de Documentos, pero también trata de abordar tareas más complejas: manuscritos históricos, o documentos que presentan degradaciones. Las ANNs y el aprendizaje profundo son uno de los temas centrales de esta tesis. Diferentes modelos neuronales convolucionales se han desarrollado para la limpieza y mejora de imágenes de documentos. También se han utilizado modelos conexionistas para la extracción de líneas: primero, para detectar puntos de interés y segmentos de texto y, agregarlos para extraer las líneas del documento; y en segundo lugar, etiquetando directamente los píxeles de la imagen para extraer la zona central del texto y así definir los límites de las líneas. Para el preproceso de las líneas de texto, es decir, la normalización del texto antes del reconocimiento final, se han utilizado modelos similares a los mencionados para detectar la zona central del texto. Las imagenes se rescalan a una altura fija dando más importancia a esta zona central. Por último, en cuanto a reconocimiento de escritura manuscrita, se han combinado técnicas de ANNs y aprendizaje profundo con Modelos Ocultos de Markov, mejorando significativamente los resultados obtenidos previamente por nuestro motor de reconocimiento. La idoneidad de todos estos enfoques han sido testeados con diferentes corpus en cada una de las tareas tratadas., obtenie / Avui en dia, les principals llibreries i arxius històrics estan invertint un esforç considerable en la digitalització de les seues col·leccions de documents. De fet, la majoria estan escanejant aquests documents i publicant únicament les imatges sense les seues transcripcions, fet que limita seriosament la possibilitat d'explotació d'aquests documents. Quan la transcripció del text és necessària, normalment aquesta és realitzada per experts de forma manual, la qual cosa és una tasca costosa i pot provocar errors. Si s'utilitzen sistemes de reconeixement automàtic es necessita la intervenció d'experts humans per a revisar i corregir l'eixida d'aquests motors de reconeixement. Per aquest motiu, és extremadament útil proporcionar eines interactives amb la finalitat de generar i corregir les transcripcions generades pels motors de reconeixement. Tot i que el reconeixement del text és l'objectiu final de l'Anàlisi de Documents, diversos passos previs (coneguts com preprocessament) són necessaris per a l'obtenció de transcripcions acurades a partir d'imatges digitalitzades. La neteja, millora i binarització de les imatges (si calen) són les primeres etapes prèvies al reconeixement. A més a més, els manuscrits històrics presenten una major dificultat d'analisi i preprocessament, perquè poden mostrar diversos tipus de degradacions, taques, tinta a través del paper i altres peculiaritats. Per tant, aquest tipus de documents requereixen mètodes de preprocessament més sofisticats. En alguns casos, fins i tot, es precisa de la supervisió d'experts per a garantir bons resultats en aquesta etapa. Una vegada que les imatges han sigut netejades, les diferents zones de la imatge han de ser localitzades: text, gràfics, dibuixos, decoracions, versals, etc. D'altra banda, també és important conéixer les relacions entre aquestes entitats i el text que contenen. Aquestes etapes del preprocessament són crítiques per al rendiment final del sistema, ja que els errors comesos en aquest moment es propagaran a la resta del procés de transcripció. L'objectiu principal del treball que estem presentant és millorar les principals etapes del procés de reconeixement, és a dir, des de les imatges escanejades fins a l'obtenció final de la transcripció del text. Els nostres esforços se centren en aplicar tècniques de Xarxes Neuronals (ANNs) i aprenentatge profund directament sobre les imatges de documents, amb la intenció d'extraure característiques adequades per a les diferents tasques analitzades: neteja i millora de documents, extracció de línies, normalització de línies de text i, finalment, transcripció. Com es pot apreciar, el treball realitzat aplica xicotetes millores en diferents etapes de l'Anàlisi de Documents, però també tracta d'abordar tasques més complexes: manuscrits històrics, o documents que presenten degradacions. Les ANNs i l'aprenentatge profund són un dels temes centrals d'aquesta tesi. Diferents models neuronals convolucionals s'han desenvolupat per a la neteja i millora de les dels documents. També s'han utilitzat models connexionistes per a la tasca d'extracció de línies: primer, per a detectar punts d'interés i segments de text i, agregar-los per a extraure les línies del document; i en segon lloc, etiquetant directament els pixels de la imatge per a extraure la zona central del text i així definir els límits de les línies. Per al preprocés de les línies de text, és a dir, la normalització del text abans del reconeixement final, s'han utilitzat models similars als utilitzats per a l'extracció de línies. Finalment, quant al reconeixement d'escriptura manuscrita, s'han combinat tècniques de ANNs i aprenentatge profund amb Models Ocults de Markov, que han millorat significativament els resultats obtinguts prèviament pel nostre motor de reconeixement. La idoneïtat de tots aquests enfocaments han sigut testejats amb diferents corpus en cadascuna de les tasques tractad / Pastor Pellicer, J. (2017). Neural Networks for Document Image and Text Processing [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90443
149

Evaluation of innovative computer-assisted transcription and translation strategies for video lecture repositories

Valor Miró, Juan Daniel 06 November 2017 (has links)
Nowadays, the technology enhanced learning area has experienced a strong growth with many new learning approaches like blended learning, flip teaching, massive open online courses, and open educational resources to complement face-to-face lectures. Specifically, video lectures are fast becoming an everyday educational resource in higher education for all of these new learning approaches, and they are being incorporated into existing university curricula around the world. Transcriptions and translations can improve the utility of these audiovisual assets, but rarely are present due to a lack of cost-effective solutions to do so. Lecture searchability, accessibility to people with impairments, translatability for foreign students, plagiarism detection, content recommendation, note-taking, and discovery of content-related videos are examples of advantages of the presence of transcriptions. For this reason, the aim of this thesis is to test in real-life case studies ways to obtain multilingual captions for video lectures in a cost-effective way by using state-of-the-art automatic speech recognition and machine translation techniques. Also, we explore interaction protocols to review these automatic transcriptions and translations, because unfortunately automatic subtitles are not error-free. In addition, we take a step further into multilingualism by extending our findings and evaluation to several languages. Finally, the outcomes of this thesis have been applied to thousands of video lectures in European universities and institutions. / Hoy en día, el área del aprendizaje mejorado por la tecnología ha experimentado un fuerte crecimiento con muchos nuevos enfoques de aprendizaje como el aprendizaje combinado, la clase inversa, los cursos masivos abiertos en línea, y nuevos recursos educativos abiertos para complementar las clases presenciales. En concreto, los videos docentes se están convirtiendo rápidamente en un recurso educativo cotidiano en la educación superior para todos estos nuevos enfoques de aprendizaje, y se están incorporando a los planes de estudios universitarios existentes en todo el mundo. Las transcripciones y las traducciones pueden mejorar la utilidad de estos recursos audiovisuales, pero rara vez están presentes debido a la falta de soluciones rentables para hacerlo. La búsqueda de y en los videos, la accesibilidad a personas con impedimentos, la traducción para estudiantes extranjeros, la detección de plagios, la recomendación de contenido, la toma de notas y el descubrimiento de videos relacionados son ejemplos de las ventajas de la presencia de transcripciones. Por esta razón, el objetivo de esta tesis es probar en casos de estudio de la vida real las formas de obtener subtítulos multilingües para videos docentes de una manera rentable, mediante el uso de técnicas avanzadas de reconocimiento automático de voz y de traducción automática. Además, exploramos diferentes modelos de interacción para revisar estas transcripciones y traducciones automáticas, pues desafortunadamente los subtítulos automáticos no están libres de errores. Además, damos un paso más en el multilingüismo extendiendo nuestros hallazgos y evaluaciones a muchos idiomas. Por último, destacar que los resultados de esta tesis se han aplicado a miles de vídeos docentes en universidades e instituciones europeas. / Hui en dia, l'àrea d'aprenentatge millorat per la tecnologia ha experimentat un fort creixement, amb molts nous enfocaments d'aprenentatge com l'aprenentatge combinat, la classe inversa, els cursos massius oberts en línia i nous recursos educatius oberts per tal de complementar les classes presencials. En concret, els vídeos docents s'estan convertint ràpidament en un recurs educatiu quotidià en l'educació superior per a tots aquests nous enfocaments d'aprenentatge i estan incorporant-se als plans d'estudi universitari existents arreu del món. Les transcripcions i les traduccions poden millorar la utilitat d'aquests recursos audiovisuals, però rara vegada estan presents a causa de la falta de solucions rendibles per fer-ho. La cerca de i als vídeos, l'accessibilitat a persones amb impediments, la traducció per estudiants estrangers, la detecció de plagi, la recomanació de contingut, la presa de notes i el descobriment de vídeos relacionats són un exemple dels avantatges de la presència de transcripcions. Per aquesta raó, l'objectiu d'aquesta tesi és provar en casos d'estudi de la vida real les formes d'obtenir subtítols multilingües per a vídeos docents d'una manera rendible, mitjançant l'ús de tècniques avançades de reconeixement automàtic de veu i de traducció automàtica. A més a més, s'exploren diferents models d'interacció per a revisar aquestes transcripcions i traduccions automàtiques, puix malauradament els subtítols automàtics no estan lliures d'errades. A més, es fa un pas més en el multilingüisme estenent els nostres descobriments i avaluacions a molts idiomes. Per últim, destacar que els resultats d'aquesta tesi s'han aplicat a milers de vídeos docents en universitats i institucions europees. / Valor Miró, JD. (2017). Evaluation of innovative computer-assisted transcription and translation strategies for video lecture repositories [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90496
150

Enforcing Customization in e-Learning Systems: an ontology and product line-based approach

Ezzat Labib Awad, Ahmed 06 November 2017 (has links)
In the era of e-Learning, educational materials are considered a crucial point for all the stakeholders. On the one hand, instructors aim at creating learning materials that meet the needs and expectations of learners easily and effec-tively; On the other hand, learners want to acquire knowledge in a way that suits their characteristics and preferences. Consequently, the provision and customization of educational materials to meet the needs of learners is a constant challenge and is currently synonymous with technological devel-opment. Promoting the personalization of learning materials, especially dur-ing their development, will help to produce customized learning materials for specific learners' needs. The main objective of this thesis is to reinforce and strengthen Reuse, Cus-tomization and Ease of Production issues in e-Learning materials during the development process. The thesis deals with the design of a framework based on ontologies and product lines to develop customized Learning Objects (LOs). With this framework, the development of learning materials has the following advantages: (i) large-scale production, (ii) faster development time, (iii) greater (re) use of resources. The proposed framework is the main contribution of this thesis, and is char-acterized by the combination of three models: the Content Model, which addresses important points related to the structure of learning materials, their granularity and levels of aggregation; the Customization Model, which con-siders specific learner characteristics and preferences to customize the learn-ing materials; and the LO Product Line (LOPL) model, which handles the subject of variability and creates matter-them in an easy and flexible way. With these models, instructors can not only develop learning materials, but also reuse and customize them during development. An additional contribution is the Customization Model, which is based on the Learning Style Model (LSM) concept. Based on the study of seven of them, a Global Learning Style Model Ontology (GLSMO) has been con-structed to help instructors with information on the apprentice's characteris-tics and to recommend appropriate LOs for customization. The results of our work have been reflected in the design of an authoring tool for learning materials called LOAT. They have described their require-ments, the elements of their architecture, and some details of their user inter-face. As an example of its use, it includes a case study that shows how its use in the development of some learning components. / En la era del e¿Learning, los materiales educativos se consideran un punto crucial para todos los participantes. Por un lado, los instructores tienen como objetivo crear materiales de aprendizaje que satisfagan las necesidades y ex-pectativas de los alumnos de manera fácil y efectiva; por otro lado, los alumnos quieren adquirir conocimientos de una manera que se adapte a sus características y preferencias. En consecuencia, la provisión y personaliza-ción de materiales educativos para satisfacer las necesidades de los estudian-tes es un desafío constante y es actualmente sinónimo de desarrollo tecnoló-gico. El fomento de la personalización de los materiales de aprendizaje, es-pecialmente durante su desarrollo, ayudará a producir materiales de aprendi-zaje específicos para las necesidades específicas de los alumnos. El objetivo fundamental de esta tesis es reforzar y fortalecer los temas de Reutilización, Personalización y Facilidad de Producción en materiales de e-Learning durante el proceso de desarrollo. La tesis se ocupa del diseño de un marco basado en ontologías y líneas de productos para desarrollar objetos de aprendizaje personalizados. Con este marco, el desarrollo de materiales de aprendizaje tiene las siguientes ventajas: (i) producción a gran escala, (ii) tiempo de desarrollo más rápido, (iii) mayor (re)uso de recursos. El marco propuesto es la principal aportación de esta tesis, y se caracteriza por la combinación de tres modelos: el Modelo de Contenido, que aborda puntos importantes relacionados con la estructura de los materiales de aprendizaje, su granularidad y niveles de agregación, el Modelo de Persona-lización, que considera las características y preferencias específicas del alumno para personalizar los materiales de aprendizaje, y el modelo de Línea de productos LO (LOPL), que maneja el tema de la variabilidad y crea ma-teriales de manera fácil y flexible. Con estos modelos, los instructores no sólo pueden desarrollar materiales de aprendizaje, sino también reutilizarlos y personalizarlos durante el desarrollo. Una contribución adicional es el modelo de personalización, que se basa en el concepto de modelo de estilo de aprendizaje. A partir del estudio de siete de ellos, se ha construido una Ontología de Modelo de Estilo de Aprendiza-je Global para ayudar a los instructores con información sobre las caracterís-ticas del aprendiz y recomendarlos apropiados para personalización. Los resultados de nuestro trabajo se han plasmado en el diseño de una he-rramienta de autor de materiales de aprendizaje llamada LOAT. Se han des-crito sus requisitos, los elementos de su arquitectura, y algunos detalles de su interfaz de usuario. Como ejemplo de su uso, se incluye un caso de estudio que muestra cómo su empleo en el desarrollo de algunos componentes de aprendizaje. / En l'era de l'e¿Learning, els materials educatius es consideren un punt crucial per a tots els participants. D'una banda, els instructors tenen com a objectiu crear materials d'aprenentatge que satisfacen les necessitats i expectatives dels alumnes de manera fàcil i efectiva; d'altra banda, els alumnes volen ad-quirir coneixements d'una manera que s'adapte a les seues característiques i preferències. En conseqüència, la provisio' i personalitzacio' de materials edu-catius per a satisfer les necessitats dels estudiants és un desafiament constant i és actualment sinònim de desenvolupament tecnològic. El foment de la personalitzacio' dels materials d'aprenentatge, especialment durant el seu desenvolupament, ajudarà a produir materials d'aprenentatge específics per a les necessitats concretes dels alumnes. L'objectiu fonamental d'aquesta tesi és reforçar i enfortir els temes de Reutilització, Personalització i Facilitat de Producció en materials d'e-Learning durant el procés de desenvolupament. La tesi s'ocupa del disseny d'un marc basat en ontologies i línia de productes per a desenvolupar objec-tes d'aprenentatge personalitzats. Amb aquest marc, el desenvolupament de materials d'aprenentatge té els següents avantatges: (i) produccio' a gran esca-la, (ii) temps de desenvolupament mes ràpid, (iii) major (re)ús de recursos. El marc proposat és la principal aportacio' d'aquesta tesi, i es caracteritza per la combinacio' de tres models: el Model de Contingut, que aborda punts im-portants relacionats amb l'estructura dels materials d'aprenentatge, la se-ua granularitat i nivells d'agregació, el Model de Línia de Producte, que ges-tiona el tema de la variabilitat i crea materials d'aprenentatge de manera fàcil i flexible. Amb aquests models, els instructors no solament poden desenvolu-par materials d'aprenentatge, sinó que també poden reutilitzar-los i personalit-zar-los durant el desenvolupament. Una contribucio' addicional és el Model de Personalitzacio', que es basa en el concepte de model d'estil d'aprenentatge. A partir de l'estudi de set d'ells, s'ha construït una Ontologia de Model d'Estil d'Aprenentatge Global per a ajudar als instructors amb informacio' sobre les característiques de l'aprenent i recomanar els apropiats per a personalitzacio'. Els resultats del nostre treball s'han plasmat en el disseny d'una eina d'autor de materials d'aprenentatge anomenada LOAT. S'han descrit els seus requi-sits, els elements de la seua arquitectura, i alguns detalls de la seua interfície d'usuari. Com a exemple del seu ús, s'inclou un cas d'estudi que mostra com és el desenvolupament d'alguns components d'aprenentatge. / Ezzat Labib Awad, A. (2017). Enforcing Customization in e-Learning Systems: an ontology and product line-based approach [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90515

Page generated in 0.1123 seconds