Global ETD Search

1	Monitoreo del estado anímico de los adultos mayores, mediante el procesamiento de la voz Rojas Hernández, Víctor Andrés January 2014 (has links) Ingeniero Civil en Computación / La sociedad ha ido cambiando, y envejeciendo también. A la par, los adultos mayores cada vez se encuentran más solos, ya sea por abandono o por un alejamiento progresivo de la familia, generado por el ritmo de vida actual. Este aislamiento puede llevar a una persona a sufrir algún trastorno emocional, como lo es la depresión. La depresión no es fácil de detectar, es por ello, que en el trabajo de Memoria se desarrolló un sistema capaz de reconocer lo estados anímicos de una persona mediante la voz, para así, poder detectar cuando la persona se encuentra en un estado anímico negativo. Para poder decir que una persona se encuentra en un estado anímico negativo, no sólo basta con reconocer la emoción involucrada, también es necesario reconocer quién es esa persona. Por ello, además de detectar la emoción expresada, se agregó la detección del género y luego identidad. La búsqueda para encontrar la mejor clasificación según género pasó por numerosas pruebas, incluyendo distintos tipos de muestras (grabaciones de voces leyendo y muestras de emociones). Después de varios intentos, se llegó a que la mejor forma de clasificar según género cuando hay emociones involucradas es clasificando con respecto a la emoción identificada. También se hicieron pruebas para clasificar las emociones. Éstas se basaron en emociones y muestras de tres bases de datos emocionales, SAVEE, Emo-DB, y RekEmozio. Principalmente se buscó obtener una clasificación que permitiera reconocer las emociones negativas con mayor certeza. Las pruebas se vieron bastante enfocadas en lograr aislar la emoción Tristeza, emoción negativa de importancia para este trabajo, logrando reconocer si una muestra expresa una emoción de Tristeza o no. Con respecto a la reconocimiento de la identidad, se hicieron pocas pruebas, las cuales tenían buenos resultados en un principio. Posteriormente a todas las pruebas hechas, se probó con muestras más reales o naturales, grabaciones de conversaciones, y se demostró que al menos la clasificación de emociones y género había dado buenos frutos. Además de las pruebas de reconocimiento, se diseñó, implementó, y evaluó la aplicación móvil pensada para el monitoreo de estados anímicos. Esta aplicación fue diseñada para visualizar los datos que el monitoreo arroje sobre los estados del adulto mayor, y también para configurar de forma remota las alertas y el sistema de grabación. Adultos mayores Reconocimiento automático de la voz Depresión mental--En ancianidad Aplicación móvil Reconocimiento de emociones
2	Evaluación automática de prosodia con aplicaciones en enseñanza de idiomas y detección de emociones Arias Aparicio, Juan Pablo January 2012 (has links) Ingeniero Civil Electricista / La prosodia es uno de los aspectos más importantes en la comunicación humana. La entonación, el ritmo, la intensidad y la duración entregan al locutor características como naturalidad, fluidez, intención, actitud, significado e incluso emoción. Por tanto, modelar y analizar la prosodia no sólo es interesante para el estudio del habla desde una perspectiva teórica, sino que también para las tecnologías de voz. En virtud de la creciente necesidad de interfaces hombre-máquina más parecidas a las interacciones humanas reales, los sistemas de procesamiento de patrones acústicos deben ser capaces de analizar e interpretar las características prosódicas. En esta tesis se abordan dos problemas que involucran la modelación prosódica en señales de voz. En primer lugar, se presenta una técnica para la evaluación de la entonación en enseñanza de segundo idioma basado en un esquema top-down. El método propuesto separa la evaluación de entonación de la pronunciación a nivel de sonidos individuales. Dada una señal de referencia, el usuario puede escuchar y repetir una elocución dada imitando el patrón de entonación de referencia. La técnica estima una medida de similitud entre la señal de referencia y de test. Basado en este mismo esquema, se presenta un sistema para medir el acento léxico a nivel de sílabas usando la información de la frecuencia fundamental en conjunto con la energía. La técnica propuesta es independiente del texto y del idioma y minimiza el efecto de la calidad de pronunciación a nivel de segmentos. Como resultado del esquema propuesto para enseñanza de idiomas, se presenta una estrategia para detectar emociones en señales acústicas usando modelos de referencia emocionalmente neutros. Primero, se considera un caso ideal léxico dependiente donde la referencia corresponde a una única señal. Luego, se construyen modelos de referencia léxico independientes usando una familia de contornos de F0. Para ello, se presenta un esquema novedoso basado en functional data analysis donde los modelos neutros se representan mediante una base de funciones y el F0 de test se caracteriza por las proyecciones sobre esta base. Finalmente, la técnica se extiende a nivel de sub-oración para detectar los segmentos que son emocionalmente más relevantes. El método propuesto para evaluación de entonación entrega una correlación de evaluaciones subjetivos (dada por expertos) y objetivos (entregados por el sistema) igual a 0.88. El método para acento léxico entrega un equal error rate (EER) igual a 21.5%, que a su vez es comparable con las tasas de error entregadas por las técnicas de evaluación de pronunciación a nivel de segmento. Estos resultados sugieren que ambos sistemas pueden ser eficazmente usados en aplicaciones reales. Por su parte, el método de detección de emociones permite obtener una exactitud igual a 75.8% en la tarea de clasificación de neutro versus emocional en una base de datos actuada, que a su vez es 6.2% superior a la exactitud alcanzada por un sistema en el estado del arte. El sistema además se valida con una base de datos real, cuyos resultados muestran que el método propuesto puede ser utilizado en aplicaciones reales de detección de emociones. Análisis prosódico (Linguística) Adquisición de otra lengua--Enseñanza Reconocimiento de emociones Procesamiento de patrones acústicos
3	Sistema de censado del estado anímico: enfocado a personas de la tercera edad Guerra Romero, Kevin Antonio January 2015 (has links) Ingeniero Civil en Computación / La vida moderna y la evolución de la sociedad hacen que las personas dispongan cada vez de menos tiempo para el ocio y fomentar las relaciones sociales con sus pares. Esta falta de tiempo también nos hace perder lazos, incluso con nuestros seres más queridos, llegando al punto de no tener el tiempo ni siquiera para visitarlos. Esto es particularmente crítico para los adultos mayores, que son los que más resienten este empobrecimiento del vínculo social, especialmente entre ellos y sus familiares (hijos, nietos, etc.). Esta situación produce aislamiento, y afecta negativamente el estado anímico de esas personas. Producto de la edad, es muy probable que los adultos mayores deban sobrellevar tratamientos médicos de diversa índole. Lamentablemente, los estados anímicos negativos (por ejemplo, depresión) reducen el impacto de fármacos y tratamientos en estas personas. El simple hecho de tener poco tiempo para visitarlos y darles el empujón anímico, afecta las emociones de estas personas. Por lo tanto, es importante que los familiares del adulto mayor sepan cuándo éste pasa por un cuadro de emociones depresivas, para así intentar de corregir o paliar dicha situación de la manera más rápida posible. En este trabajo de memoria se diseñó e implementó un sistema que permite monitoreo del estado anímico de adultos mayores, cuando estos se encuentran al interior de sus hogares. El sistema permite a un usuario monitor, realizar un seguimiento de la persona monitoreada. Además, el sistema informa al monitor, mediante mensajes de texto (emails), cuando el usuario monitoreado está pasando por un cuadro de emociones negativas. El sistema de monitoreo utiliza una tablet PC para tomar registros de audio e imágenes al interior del hogar de estas personas, y en base a esa información, determinar el estado anímico de las personas monitoreadas. Los procesos de reconocimiento de emociones usando audio e imágenes trabajan juntos, de manera de obtener los mejores resultados posibles. En el marco de esta memoria también se desarrolló el sistema de envío automático de alertas, el cual es capaz de notificar a los usuarios de la aplicación, cuando alguno de sus familiares monitoreados necesita apoyo anímico. Si bien es cierto que es bastante complicado el trabajar con las características inherentes a la biometría de una persona para detectar sus emociones, pudimos completar el desarrollo de la aplicación propuesta. Sin embargo, no nos fue posible realizar pruebas en vivo con usuarios reales, por restricciones de tiempo. Por lo tanto, y aunque la aplicación esta funcional, aun se debe medir su impacto real en el escenario de aplicación previsto. Software computacional--Desarrollo Procesamiento de imagen Adultos mayores--Cuidado Depresión mental--En ancianidad Biometría Reconocimiento de emociones
4	Optimization techniques for speech emotion recognition Sidorova, Julia 15 December 2009 (has links) Hay tres aspectos innovadores. Primero, un algoritmo novedoso para calcular el contenido emocional de un enunciado, con un diseño mixto que emplea aprendizaje estadístico e información sintáctica. Segundo, una extensión para selección de rasgos que permite adaptar los pesos y así aumentar la flexibilidad del sistema. Tercero, una propuesta para incorporar rasgos de alto nivel al sistema. Dichos rasgos, combinados con los rasgos de bajo nivel, permiten mejorar el rendimiento del sistema. / The first contribution of this thesis is a speech emotion recognition system called the ESEDA capable of recognizing emotions in di®erent languages. The second contribution is the classifier TGI+. First objects are modeled by means of a syntactic method and then, with a statistical method the mappings of samples are classified, not their feature vectors. The TGI+ outperforms the state of the art top performer on a benchmark data set of acted emotions. The third contribution is high-level features, which are distances from a feature vector to the tree automata accepting class i, for all i in the set of class labels. The set of low-level features and the set of high-level features are concatenated and the resulting set is submitted to the feature selection procedure. Then the classification step is done in the usual way. Testing on a benchmark dataset of authentic emotions showed that this classification strategy outperforms the state of the art top performer. autómata de arboles calificadores reconocimiento de emociones vía voz emoción tree automata classification pattern recognition constructed features speech emotion recognition emotion 81
5	Aplicación de técnicas de Deep Learning para el reconocimiento de páginas Web y emociones faciales: Un estudio comparativo y experimental Mejia-Escobar, Christian 07 March 2023 (has links) El progreso de la Inteligencia Artificial (IA) ha sido notable en los últimos años. Los impresionantes avances en imitar las capacidades humanas por parte de las máquinas se deben especialmente al campo del Deep Learning (DL). Este paradigma evita el complejo diseño manual de características. En su lugar, los datos pasan directamente a un algoritmo, que aprende a extraer y representar características jerárquicamente en múltiples capas a medida que aprende a resolver una tarea. Esto ha demostrado ser ideal para problemas relacionados con el mundo visual. Una solución de DL comprende datos y un modelo. La mayor parte de la investigación actual se centra en los modelos, en busca de mejores algoritmos. Sin embargo, aunque se prueben diferentes arquitecturas y configuraciones, difícilmente mejorará el rendimiento si los datos no son de buena calidad. Son escasos los estudios que se centran en mejorar los datos, pese a que constituyen el principal recurso para el aprendizaje automático. La recolección y el etiquetado de extensos datasets de imágenes consumen mucho tiempo, esfuerzo e introducen errores. La mala clasificación, la presencia de imágenes irrelevantes, el desequilibrio de las clases y la falta de representatividad del mundo real son problemas ampliamente conocidos que afectan el rendimiento de los modelos en escenarios prácticos. Nuestra propuesta enfrenta estos problemas a través de un enfoque data-centric. A través de la ingeniería del dataset original utilizando técnicas de DL, lo hacemos más adecuado para entrenar un modelo con mejor rendimiento y generalización en escenarios reales. Para demostrar esta hipótesis, consideramos dos casos prácticos que se han convertido en temas de creciente interés para la investigación. Por una parte, Internet es la plataforma mundial de comunicación y la Web es la principal fuente de información para las actividades humanas. Las páginas Web crecen a cada segundo y son cada vez más sofisticadas. Para organizar este complejo y vasto contenido, la clasificación es la técnica básica. El aspecto visual de una página Web puede ser una alternativa al análisis textual del código para distinguir entre categorías. Abordamos el reconocimiento y la clasificación de páginas Web creando un dataset de capturas de pantalla apropiado desde cero. Por otro lado, aunque los avances de la IA son significativos en el aspecto cognitivo, la parte emocional de las personas es un desafío. La expresión facial es la mejor evidencia para manifestar y transmitir nuestras emociones. Aunque algunos datasets de imágenes faciales existen para entrenar modelos de DL, no ha sido posible alcanzar el alto rendimiento en entornos controlados utilizando datasets in-the-lab. Abordamos el reconocimiento y la clasificación de emociones humanas mediante la combinación de varios datasets in-the wild de imágenes faciales. Estas dos problemáticas plantean situaciones distintas y requieren de imágenes con contenido muy diferente, por lo que hemos diseñado un método de refinamiento del dataset según el caso de estudio. En el primer caso, implementamos un modelo de DL para clasificar páginas Web en determinadas categorías utilizando únicamente capturas de pantalla, donde los resultados demostraron un problema multiclase muy difícil. Tratamos el mismo problema con la estrategia One vs. Rest y mejoramos el dataset mediante reclasificación, detección de imágenes irrelevantes, equilibrio y representatividad, además de utilizar técnicas de regularización y un nuevo mecanismo de predicción con los clasificadores binarios. Estos clasificadores operando por separado mejoran el rendimiento, en promedio incrementan un 26.29% la precisión de validación y disminuyen un 42.30% el sobreajuste, mostrando importantes mejoras respecto al clasificador múltiple que opera con todas las categorías juntas. Utilizando el nuevo modelo, hemos desarrollado un sistema en línea para clasificar páginas Web que puede ayudar a diseñadores, propietarios de sitios Web, Webmasters y usuarios en general. En el segundo caso, la estrategia consiste en refinar progresivamente el dataset de imágenes faciales mediante varios entrenamientos sucesivos de un modelo de red convolucional. En cada entrenamiento, se utilizan las imágenes faciales correspondientes a las predicciones correctas del entrenamiento anterior, lo que permite al modelo captar más características distintivas de cada clase de emoción. Tras el último entrenamiento, el modelo realiza una reclasificación automática de todo el dataset. Este proceso también nos permite detectar las imágenes irrelevantes, pero nuestro propósito es mejorar el dataset sin modificar, borrar o aumentar las imágenes, a diferencia de otros trabajos similares. Los resultados experimentales en tres datasets representativos demostraron la eficacia del método propuesto, mejorando la precisión de validación en un 20.45%, 14.47% y 39.66%, para FER2013, NHFI y AffectNet, respectivamente. Las tasas de reconocimiento en las versiones reclasificadas de estos datasets son del 86.71%, el 70.44% y el 89.17%, que alcanzan el estado del arte. Combinamos estas versiones mejor clasificadas para aumentar el número de imágenes y enriquecer la diversidad de personas, gestos y atributos de resolución, color, fondo, iluminación y formato de imagen. El dataset resultante se utiliza para entrenar un modelo más general. Frente a la necesidad de métricas más realistas de la generalización de los modelos, creamos un dataset evaluador combinado, equilibrado, imparcial y bien etiquetado. Para tal fin, organizamos este dataset en categorías de género, edad y etnia. Utilizando un predictor de estas características representativas de la población, podemos seleccionar el mismo número de imágenes y mediante el exitoso modelo Stable Diffusion es posible generar las imágenes faciales necesarias para equilibrar las categorías creadas a partir de las mencionadas características. Los experimentos single-dataset y cross-dataset indican que el modelo entrenado en el dataset combinado mejora la generalización de los modelos entrenados individualmente en FER2013, NHFI y AffectNet en un 13.93%, 24.17% y 7.45%, respectivamente. Desarrollamos un sistema en línea de reconocimiento de emociones que aprovecha el modelo más genérico obtenido del dataset combinado. Por último, la buena calidad de las imágenes faciales sintéticas y la reducción de tiempo conseguida con el método generativo nos motivan para crear el primer y mayor dataset artificial de emociones categóricas. Este producto de libre acceso puede complementar los datasets reales, que son difíciles de recopilar, etiquetar, equilibrar, controlar las características y proteger la identidad de las personas. Inteligencia Artificial Machine Learning Deep Learning Redes Neuronales Convolucionales CNN Dataset in-the-wild Data-centric Páginas Web Reconocimiento de emociones Reconocimiento de expresiones faciales Multiclase One vs. Rest FER2013 NHFI AffectNet Stable Diffusion Single-dataset Cross-dataset
6	Modelado de la cualidad de la voz para la síntesis del habla expresiva Monzo Sánchez, Carlos Manuel 14 July 2010 (has links) Aquesta tesi es realitza dins del marc de treball existent en el grup d'investigació Grup de Recerca en Tecnologies Mèdia (GTM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de dotar de major naturalitat a la interacció home-màquina. Per això ens basem en les limitacions de la tecnologia emprada fins al moment, detectant punts de millora en els que poder aportar solucions. Donat que la naturalitat de la parla està íntimament relacionada amb l'expressivitat que aquesta pot transmetre, aquests punts de millora es centren en la capacitat de treballar amb emocions o estils de parla expressius en general.L'objectiu últim d'aquesta tesi és la generació d'estils de parla expressius en l'àmbit de sistemes de Conversió de Text a Parla (CTP) orientats a la Síntesi de la Parla Expressiva (SPE), essent possible transmetre un missatge oral amb una certa expressivitat que l'oient sigui capaç de percebre i interpretar correctament. No obstant, aquest objectiu implica diferents metes intermitges: conèixer les opcions de parametrització existents, entendre cadascun dels paràmetres, detectar els pros i contres de la seva utilització, descobrir les relacions existents entre ells i els estils de parla expressius i, finalment, portar a terme la síntesi de la parla expressiva. Donat això, el propi procés de síntesi implica un treball previ en reconeixement d'emocions, que en si mateix podria ser una línia complerta d'investigació, ja que aporta el coneixement necessari per extreure models que poden ser usats durant el procés de síntesi.La cerca de l'increment de la naturalitat ha implicat una millor caracterització de la parla emocional o expressiva, raó per la qual s'ha investigat en parametritzacions que poguessin portar a terme aquesta comesa. Aquests són els paràmetres de Qualitat de la Veu Voice Quality (VoQ), que presenten com a característica principal que són capaços de caracteritzar individualment la parla, identificant cadascun dels factors que fan que sigui única. Els beneficis potencials, que aquest tipus de parametrització pot aportar a la interacció natural, són de dos classes: el reconeixement i la síntesi d'estils de parla expressius. La proposta de la parametrització de VoQ no pretén substituir a la ja emprada prosòdia, sinó tot el contrari, treballar conjuntament amb ella per tal de millorar els resultats obtinguts fins al moment.Un cop realitzada la selecció de paràmetres es planteja el modelat de la VoQ, és a dir la metodologia d'anàlisi i de modificació, de forma que cadascun d'ells pugui ser extret a partir de la senyal de veu i posteriorment modificat durant la síntesi. Així mateix, es proposen variacions pels paràmetres implicats i tradicionalment utilitzats, adaptant la seva definició al context de la parla expressiva. A partir d'aquí es passa a treballar en les relacions existents amb els estils de parla expressius, presentant finalment la metodologia de transformació d'aquests últims, mitjançant la modificació conjunta de la VoQ y la prosòdia, per a la SPE en un sistema de CTP. / Esta tesis se realiza dentro del marco de trabajo existente en el grupo de investigación Grup de Recerca en Tecnologies Mèdia (GTM) de Enginyeria i Arquitectura La Salle, con el objetivo de dotar de mayor naturalidad a la interacción hombre-máquina. Para ello nos basamos en las limitaciones de la tecnología empleada hasta el momento, detectando puntos de mejora en los que poder aportar soluciones. Debido a que la naturalidad del habla está íntimamente relacionada con la expresividad que esta puede transmitir, estos puntos de mejora se centran en la capacidad de trabajar con emociones o estilos de habla expresivos en general.El objetivo último de esta tesis es la generación de estilos de habla expresivos en el ámbito de sistemas de Conversión de Texto en Habla (CTH) orientados a la Síntesis del Habla Expresiva (SHE), siendo posible transmitir un mensaje oral con una cierta expresividad que el oyente sea capaz de percibir e interpretar correctamente. No obstante, este objetivo implica diferentes metas intermedias: conocer las opciones de parametrización existentes, entender cada uno de los parámetros, detectar los pros y contras de su utilización, descubrir las relaciones existentes entre ellos y los estilos de habla expresivos y, finalmente, llevar a cabo la síntesis del habla expresiva. El propio proceso de síntesis implica un trabajo previo en reconocimiento de emociones, que en sí mismo podría ser una línea completa de investigación, ya que muestra la viabilidad de usar los parámetros seleccionados en la discriminación de estos y aporta el conocimiento necesario para extraer los modelos que pueden ser usados durante el proceso de síntesis.La búsqueda del incremento de la naturalidad ha implicado una mejor caracterización del habla emocional o expresiva, con lo que para ello se ha investigado en parametrizaciones que pudieran llevar a cabo este cometido. Estos son los parámetros de Cualidad de la Voz Voice Quality (VoQ), que presentan como característica principal que son capaces de caracterizar individualmente el habla, identificando cada uno de los factores que hacen que sea única. Los beneficios potenciales, que este tipo de parametrización puede aportar a la interacción natural, son de dos clases: el reconocimiento y la síntesis de estilos de habla expresivos. La propuesta de la parametrización de VoQ no pretende sustituir a la ya empleada prosodia, sino todo lo contrario, trabajar conjuntamente con ella para mejorar los resultados obtenidos hasta el momento.Una vez realizada la selección de los parámetros se plantea el modelado de la VoQ, es decir, la metodología de análisis y de modificación de forma que cada uno de ellos pueda ser extraído a partir de la señal de voz y posteriormente modificado durante la síntesis. Asimismo, se proponen variaciones para los parámetros implicados y tradicionalmente utilizados, adaptando su definición al contexto del habla expresiva.A partir de aquí se pasa a trabajar en las relaciones existentes con los estilos de habla expresivos, presentando finalmente la metodología de transformación de estos últimos, mediante la modificación conjunta de VoQ y prosodia, para la SHE en un sistema de CTH. / This thesis is conducted on the existing working framework in the Grup de Recerca en Tecnologies Mèdia (GTM) research group of the Enginyeria i Arquitectura La Salle, with the aim of providing the man-machine interaction with more naturalness. To do this, we are based on the limitations of the technology used up to now, detecting the improvement points where we could contribute solutions. Given that the speech naturalness is closely linked with the expressivity communication, these improvement points are focused on the ability of working with emotions or expressive speech styles in general.The final goal of this thesis is the expressive speech styles generation in the field of Text-to-Speech (TTS) systems aimed at Expressive Speech Synthesis (ESS), with the possibility of communicating an oral message with a certain expressivity that the listener will be able to correctly perceive and interpret. Nevertheless, this goal involves different intermediate aims: to know the existing parameterization options, to understand each of the parameters, to find out the existing relations among them and the expressive speech styles and, finally, to carry out the expressive speech synthesis. All things considered, the synthesis process involves a previous work in emotion recognition, which could be a complete research field, since it shows the feasibility of using the selected parameters during their discrimination and provides with the necessary knowledge for the modelling that can be used during the synthesis process.The search for the naturalness improvement has implied a better characterization of the emotional or expressive speech, so we have researched on parameterizations that could perform this task. These are the Voice Quality (VoQ) parameters, which main feature is they are able to characterize the speech in an individual way, identifying each factor that makes it unique. The potential benefits that this kind of parameterization can provide with natural interaction are twofold: the expressive speech styles recognition and the synthesis. The VoQ parameters proposal is not trying to replace prosody, but working altogether to improve the results so far obtained.Once the parameters selection is conducted, the VoQ modelling is raised (i. e. analysis and modification methodology), so each of them can be extracted from the voice signal and later on modified during the synthesis. Also, variations are proposed for the involved and traditionally used parameters, adjusting their definition to the expressive speech context. From here, we work on the existing relations with the expressive speech styles and, eventually we show the transformation methodology for these ones, by means of the modification of VoQ and prosody, for the ESS in a TTS system. emotion recognition text-to-speech expressive speech synthesis Voice quality tecnologías del habla reconocimiento de emociones conversión de texto en habla síntesis del habla expresiva Cualidad de la voz tecnologies de la parla reconeixement d'emocions conversió de text a parla síntesi de la parla expressiva Qualitat de la veu Les TIC i la seva Gestió 621.3
7	Desarrollo de habilidades empáticas mediante estrategias de gamificación basadas en realidad aumentada móvil multiusuario para el contexto educativo López Faicán, Lissette Geoconda 11 December 2023 (has links) [ES] La falta de empatía en niños y adolescentes son fuertes predictores de desarrollar conductas antisociales, emitir juicios morales inadecuados, dificultades en las relaciones interpersonales o conductas de acoso escolar, por lo que es necesario disponer de programas educativos que promuevan la empatía y una respuesta "orientada hacia los demás" desde edades tempranas para ayudar a fomentar un mayor bienestar social en los estudiantes. Un enfoque ampliamente utilizado para promover el aprendizaje en el contexto educativo es la gamificación dado que mejora en los estudiantes la motivación para aprender, la participación activa y la satisfacción, compartiendo la idea de utilizar experiencias de juego positivas para un propósito serio, como lograr un cambio de comportamiento, en lugar de centrarse en el entretenimiento. Se dispone en la literatura de algunas propuestas gamificadas tecnológicas para promover la empatía en la educación, sin embargo pocos trabajos integran la Realidad Aumentada (RA), una forma de juego radicalmente nueva que permite cultivar experiencias de aprendizaje inmersivas y estimulantes al combinar contenido digital superpuesto en el mundo real. Esta tecnología emergente e innovadora es compatible con los dispositivos móviles, siendo unidades asequibles con capacidades de reconocimiento de imágenes, seguimiento de objetos, detección de ubicación y orientación, siendo una solución práctica para ofrecer al usuario una experiencia RA no necesitando requisitos de hardware sofisticados. Esta tesis revela la falta de investigación sobre entornos sociales digitales para promover la empatía, existiendo evidencias de que la empatía y la respuesta prosocial/prosocialidad están significativamente relacionadas. Por ello, esta tesis propone un modelo circular de empatía híbrido derivado de los modelos existentes en la literatura y que involucra los procesos y componentes principales de esta habilidad, para promover acciones conductuales dirigidas a beneficiar o ayudar a otros, como el comportamiento prosocial. Este modelo circular se transforma en dinámicas de juego operativas a través de un modelo gamificado de aprendizaje de tareas y pasos para llevar al jugador a experimentar diversidad de escenarios o historias reflexivas (observación), organizadas en torno a un desafío o misión central desarrollada de forma individual (monousuario) o grupal (multiusuario), buscando promover emociones positivas como la empatía en términos del comportamiento prosocial (actuación). El modelo de aprendizaje está definido por espacios aumentados basados en la ubicación siendo coordenadas GPS o anclajes espaciales (espacios físicos previamente escaneados) y que puede ser adaptado a múltiples contextos de aprendizaje. En esta tesis se presentan dos estrategias gamificadas basadas en la ubicación con Realidad Aumentada Móvil. La primera EmoFindAR, con "anclajes espaciales" diseñado a nivel multiusuario con dinámica competitiva vs. colaborativa para la identificación y manipulación de estados emocionales básicos, evaluada en la educación primaria donde se observa que promueve en los estudiantes la socialización, las habilidades comunicativas y la inteligencia emocional. La segunda propuesta diseñada con el "Sistema de Posicionamiento Global (GPS)", siendo EmpathyAR para un aprendizaje individualizado y su versión multiusuario SocialTaskAR para un aprendizaje en equipo. / [CA] La falta d'empatia en xiquets i adolescents és un fort predictor de desenvolupar conductes antisocials, emetre judicis morals inadequats, dificultats en les relacions interpersonals o conductes d'assetjament escolar, per la qual cosa és necessari disposar de programes educatius que promouen l'empatia i una resposta "orientada cap als altres" des d'edats primerenques per a ajudar a fomentar un major benestar social en els estudiants. Un enfocament àmpliament utilitzat per a promoure l'aprenentatge en el context educatiu és la ludificació donat que millora en els estudiants la motivació per a aprendre, la participació activa i la satisfacció, compartint la idea d'utilitzar experiències de joc positives per a un propòsit seriós, com aconseguir un canvi de comportament, en lloc de centrar-se en l'entreteniment. Es disposa en la literatura d'algunes propostes lúdiques tecnològiques per a promoure l'empatia en l'educació, no obstant això pocs treballs integren la Realitat Augmentada (RA), una forma de joc radicalment nova que permet cultivar experiències d'aprenentatge immersives i estimulants en combinar contingut digital superposat en el món real. Aquesta tecnologia emergent i innovadora és compatible amb els dispositius mòbils, sent unitats assequibles amb capacitats de reconeixement d'imatges, seguiment d'objectes, detecció d'ubicació i orientació, sent una solució pràctica per a oferir a l'usuari una experiència RA no necessitant requisits de maquinari sofisticat. Aquesta tesi revela la falta d'investigació sobre entorns socials digitals per a promoure l'empatia, existint evidències que l'empatia i la resposta pro social estan significativament relacionades. Per això, aquesta tesi proposa un model circular d'empatia híbrid derivat dels models existents en la literatura i que involucra els processos i components principals d'aquesta habilitat, per a promoure accions conductuals dirigides a beneficiar o ajudar a uns altres, com el comportament pro social. Aquest model circular es transforma en dinàmiques de joc operatives a través d'un model ludificat d'aprenentatge de tasques i passos per a portar al jugador a experimentar diversitat d'escenaris o històries reflexives (observació), organitzades entorn d'un desafiament o missió central desenvolupada de manera individual (monousuari) o grupal (multiusuari), buscant promoure emocions positives com l'empatia en termes del comportament pro social (actuació). El model d'aprenentatge està definit per espais augmentats basats en la ubicació sent coordenades GPS o ancoratges espacials (espais físics prèviament escanejats) i que pot ser adaptat a múltiples contextos d'aprenentatge. En aquesta tesi es presenten dues estratègies lúdiques basades en la ubicació amb Realitat Augmentada Mòbil. La primera EmoFindAR, amb "ancoratges espacials" dissenyat a nivell multiusuari amb dinàmica competitiva vs. col.laborativa per a la identificació i manipulació d'estats emocionals bàsics, avaluada en l'educació primària on s'observa que promou en els estudiants la socialització, les habilitats comunicatives i la intel·ligència emocional. La segona proposta dissenyada amb el "Sistema de Posicionament Global (GPS)", sent EmpathyAR per a un aprenentatge individualitzat i la seua versió multiusuari SocialTaskAR per a un aprenentatge en equip. / [EN] The lack of empathy in children and adolescents is a strong predictor of developing antisocial behavior, resulting in inappropriate moral judgments, difficulties in interpersonal relationships or bullying behavior, which is why it is necessary to have educational programs that promote empathy and an response "oriented towards others" from an early age to help foster greater social well-being in students. A widely used approach to promote learning in the educational context is gamification since it improves students' motivation to learn, active participation and satisfaction, sharing the idea of using positive game experiences for a serious purpose, such as achieving a behavioral change, instead of focusing on entertainment. There are some technological gamified proposals in the literature to promote empathy in education, however few works integrate Augmented Reality (AR), a radically new form of gaming that allows cultivating immersive and stimulating learning experiences by combining digital content superimposed in the real world. This emerging and innovative technology is compatible with mobile devices, which are affordable units with image recognition, object tracking, location detection and orientation capabilities, a practical solution to offer the user an AR experience without needing sophisticated hardware requirements. This thesis reveals the lack of research on digital social environments to promote empathy, with evidence that empathy and prosocial response/pro-sociality are significantly related. Therefore, this thesis proposes a hybrid circular model of empathy derived from existing models in the literature involving the main processes and components of this ability, to promote behavioral actions aimed at benefiting or helping others, such as prosocial behavior. This circular model is transformed into operational game dynamics through a gamified model of learning tasks and steps to lead the player to experience a diversity of scenarios or reflective stories (observation), organized around a central challenge or mission developed in an individual (single-user) or group (multi-user), seeking to promote positive emotions such as empathy in terms of prosocial behavior (performance). The learning model is defined in terms of location-based augmented spaces being GPS coordinates or spatial anchors (previously scanned physical spaces) and that can be adapted to multiple learning contexts. In this thesis two gamified strategies based on location with Mobile Augmented Reality are presented. The first EmoFindAR, with "spatial anchors" designed at a multi-user level with competitive vs. collaborative dynamics for the identification and manipulation of basic emotional states, evaluated in primary education where it is observed that it promotes socialization, communication skills and emotional intelligence in students. The second proposal designed with the "Global Positioning System (GPS)", is EmpathyAR for individualized learning and its multi-user version SocialTaskAR for team learning. / Gracias a todos los miembros del proyecto R+D+i PID2019-108915RB-I00 por sus contribuciones brindadas y en particular a Jorge Montaner Marco por su colaboración incondicional. / López Faicán, LG. (2023). Desarrollo de habilidades empáticas mediante estrategias de gamificación basadas en realidad aumentada móvil multiusuario para el contexto educativo [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/200583 Collaborative dynamics Competitive dynamics Augmented Reality (AR) Gamification Spatial anchors Global Positioning System (GPS) Mobile gaming Single/Multi-User Emotion recognition Empathy Prosocial behavior Gamificación Anclajes espaciales Juego móvil Monousuario/Multiusuario Competitivo/Colaborativo Reconocimiento de emociones Empatía Comportamiento prosocial Realidad aumentada Sistemas de posicionamiento global LENGUAJES Y SISTEMAS INFORMATICOS

1

Page generated in 0.11 seconds