Spelling suggestions: "subject:"carla"" "subject:"karla""
1 |
Aproximació fonètica als processos d'integració perceptiva de senyals de parla de baixa intensitatAlamon i Queralt, Francesc 26 November 1998 (has links)
Aquest treball s'emmarca en l'exploració dels processos que activa el receptor en l'intent de comprendre el missatge parlat i té per objectiu l'estudi de la interrelació de dues informacions: la dependent del senyal i la independent del senyal. El paper que suposadament juguen aquestes dues fonts informatives ha estat descrit per Björn Lindblom, coneguda com la "Teoria de la parla hiper i hipoarticulada"(Hyper- & Hypo- Speech Theory). Sota aquest marc hem volgut comprovar l'adequació d'aquest model des del punt de vista de la percepció, en el benentès que la producció de la parla està teleològicament destinada a la seva descodificació i comprensióL'estudi de les estratègies d'integració de la parla està basat en l'anàlisi de tres grans plans perceptius: 1) la identificació fonètica ; 2) el reconeixement lèxic (establint quines propietats fonològiques i semàntiques afavoreixen l'avaluació del lèxic en paraules amb sentit i sense sentit); 3) el context semàntic de la frase (establint el grau de facilitació dels diferents contextos en l'accés al lèxic i en la reducció dels errors de comprensió).Els resultats de l'experiment demostren que l'adaptació que exerceix l'emissor en la producció del missatge és corresposta, en la seva descodificació, pel receptor, el qual posa a disposició d'un bon conjunt d'estratègies perceptives encarades, totes elles, al servei de la comprensió del missatge.La conclusió principal del treball és que el guiatge que pot exercir l'oient durant els processos d'integració i la seva adaptació al senyal és un guiatge relatiu, en funció de la complexitat de l'anàlisi que efectua en cada estadi perceptiu. La informació del senyal ha de ser "suficient" per aconseguir la posada en marxa els processos de "dalt-cap-a-baix", però aquesta informació no es redueix al nivell de la intensitat global del senyal (és a dir, a la intel·ligibilitat fonètica), sinó que també inclou els diferents aspectes lingüístics que es conjuguen en la configuració del missatge, la qual cosa permet activar els diferents procediments d'anàlisi amb certes garanties d'èxit. / El trabajo se enmarca en la exploración de los procesos que activa el receptor en el intento de comprender el mensaje hablado, y tiene por objeto el estudio de la interrelación de dos informaciones: la dependiente de la señal y la independiente de la señal. El papel que supuestamente juegan estas dos fuentes informativas ha sido descrito por Björn Lindblom, y se conoce como la "Teoría del habla hiper y hipoarticulada" (Hyper- & Hypo- Speech Theory). Dentro de este marco hemos querido comprobar la adecuación de este modelo en la percepción, en el supuesto que la producción del habla está teleológicamente destinada a su descodificación y comprensión.El estudio de las estrategias de integración del habla está basado en el análisis de tres grandes planos perceptivos: 1) la identificación fonética; 2) el reconocimiento léxico (estableciendo qué propiedades fonológicas y semánticas favorecen la evaluación del léxico en palabras con sentido y sin sentido); 3) el contexto semántico de la frase (estableciendo el grado de facilitación de los distintos contextos en el acceso al léxico y en la reducción de los errores de comprensión).Los resultados del experimento demuestran que la adaptación que ejerce el emisor en la producción del mensaje es correspondida, en su descodificación, por el receptor, el cual pone a su disposición un gran conjunto de estrategias perceptivas, orientadas hacia la comprensión del mensaje.La conclusión principal del trabajo es que la orientación que puede ejercer el oyente durante los procesos de integración y su adaptación a la señal es una orientación relativa, en función de la complejidad del análisis que efectúa en cada estadio perceptivo. La información de la señal ha de ser "suficiente" para conseguir la puesta en marcha de los procesos de "arriba-hacia-abajo", pero esta información no se reduce al nivel de la intensidad global de la señal (es decir, a la inteligibilidad fonética), sino que también incluye a los distintos aspectos lingüísticos que es conjugan en la configuración del mensaje, con lo cual se pueden activar los distintos procedimientos de análisis con ciertas garantías de éxito. / The present work is included in the exploration of the processes activated by the receiver in an attempt of understanding the spoken message, being its main objective the study of the interrelation between the two pieces of information: the one that depends on the signal and that which doesn't. Hypothetically, the role played by both sources of information has already been described by Björn Lindblom and it is known as the Hyper- and Hypo- speech Theory. Within this frame we've wanted to prove the adjustment of this model from the point of view of perception, taking into account that the speech production is teleologically intended for its decoding and comprehension. The study of the speech integration strategies is based on the analysis of three big perceptive levels: 1) The phonetic identification; 2) The lexical recognition ( establishing which phonological and semantic properties favour the evaluation of words in terms of having or not having sense.); 3) The semantic context of the sentence (establishing the efficiency of the different contexts to approach words and to reduce understanding mistakes.) The results of the experiment show that the adaptation process carried out by the message issuer is returned, once decoded, by the receiver who has arranged a great lot of perceptive strategies intended, all of them, for the understanding of the message. The main conclusion of this work is that the guide exercised by the listener during the integration processes and its adaptation to the signal, is somehow relative due to the complexity of the analysis carried out in each perceptive stage. The information of the signal should be enough to start the top-down processes; however, such information does not only come to the global strategy level of the signal, (that is, to the phonetic intelligibility) but it also includes those different linguistic aspects present when shaping a message. All this to somehow successfully guarantee the working of the different analysis procedures.
|
2 |
The Struggle for Meaning: Immigration and Multilingual Talk in an Institutional SettingCodó Olsina, Eva 16 May 2003 (has links)
Aquesta tesi analitza la (re)producció de les desigualtats socials a través de l'estudi de les pràctiques lingüístiques que s'observen en el servei d'informació d'una oficina d'immigració a Barcelona. Es tracta d'un estudi interpretatiu que intenta integrar l'anàlisi des nivells socials micro i macro.El marc teòric adoptat per a la comprensió de l'organització social és crític i es basa en els models de Giddens (1979, 1984), Bourdieu (1991) i Foucault (1984). Pel que fa al nivell d'estudi de la comunicació cara a cara, es fan servir les nocions de l'ordre interaccional, de Goffman (1983), el concepte de contextualització, de Gumperz (1982), i les anàlisis "tècniques" de la interacció social del paradigma de l'Anàlisi de la Conversa. Per tal de proporcionar una anàlisi contextualitzada de les pràctiques lingüístiques, s'integren diversos tipus de dades, en concret, interaccions de servei (frontstage), material etnogràfic, comentaris informals sobre el servei (backstage) i entrevistes. El corpus de dades interaccionals està format per vint hores d'interaccions naturals enregistrades en àudio. Els participants en què se centra l'estudi són immigrants en situació irregular procedents del sudest asiàtic i servidors locals.L'anàlisi de les dades se centra en tres temes principals: les asimetries de coneixement, les relacions de poder i les estratègies lingüístiques i interaccionals mobilitzades pels diferents actors socials per tal d'aconseguir els seus objectius. La investigació de les asimetries de coneixement, és a dir, de la forma en què la informació institucional es representa discursivament, demostra que la informació que es proporciona és curta, imprecisa i rutinària. La transmissió d'informació s'articula a l'entorn d'unes quantes paraules clau produïdes sempre en castellà -independentment de la competència dels immigrants- i que es repeteixen contínuament. El valor informatiu d'aquestes paraules, especialment del formulaic trámite, que es fa servir per no donar informació rellevant, és extremadament limitat.El segon gran tema tractat és el de l'exercici del poder. La dimensió institucional de l'exercici del poder i del control s'articula a l'entorn del conflicte entre l'individu i l'estat. A través de la feina individual dels funcionaris, l'estat exerceix el seu control social. En aquest sentit, un canvi essencial que es produeix en la política informativa de la institució exemplifica com l'exercici del poder social està íntimament vinculat al control estricte sobre la informació. No obstant això, l'exercici del poder per part dels servidors també té una dimensió individual molt significativa. Les seves pràctiques revelen que els informadors actuen de manera "hegemònica", és a dir, que mantenen i reforcen certes representacions ideològiques de l'ordre social. Les seves pràctiques de dominació són possibles pels escassos recursos lingüístics en castellà o anglès dels seus interlocutors, i es manifesten en la regulació estricta de l'organització de la conversa, el control de l'ús de l'espai i el temps, i la regimentació estricta d'un ordre moral i social a l'oficina.Finalment, l'estudi també examina les estratègies discursives utilitzades pels diversos actors socials. Els immigrants fan servir "estratègies d'incomprensió", que forcen els servidors a clarificar el sentit de paraules clau, "estratègies de repte", que posen al descobert les incoherències en la informació proporcionada, i "estratègies de crida personal", que intenten canviar la definició relacional de la situació (footing) per aconseguir un millor tracte. L'anglès és un recurs clau per als immigrants, però el valor comunicatiu d'aquesta llengua es veu fortament limitat per motius estructurals i ideològics. Les estratègies dels immigrants no els permeten negociar el significat ni intervenir en el desenvolupament de la interacció, atès que els límits del que és negociable estan establerts a l'avançada. Per mitjà d'"estratègies de redefinició de rol", els funcionaris manipulen les expectatives dels seus interlocutors respecte a llurs obligacions professionals. Aquest és un recurs local per eludir qualsevol responsabilitat en l'actuació institucional. Altres estratègies es basen en l'ús d'elements prosòdics i paralingüístics per tal d'evitar les queixes dels immigrants. Finalment, l'"estratègia d'acusar el client" serveix per contrarestar acusacions d'arbitrarietat institucional. / This thesis analyses the ways in which social inequalities are (re)reproduced through the examination of linguistic practices in the information service of a state immigration office in Barcelona. It is interpretive study which attempts to integrate micro- and macro-levels of analysis. The approach to the understanding of the macro-societal level is critical, and draws on contemporary social theory, in particular the work by Giddens (1979, 1984), Bourdieu (1991) and Foucault (1984). The detailed analysis of face-to-face communication is based on Goffman's notion of the interaction order (1983), Gumperz' concept of contextualization (1982), and the technical analyses of talk-in-interaction undertaken by Conversation Analysts. To provide a contextually-rich account of participants' linguistic practices, this thesis integrates differents types of data. It considers "frontstage" interactional data, ethnographic material, "backstage" comments and interviews. The corpus of interactional data consists of twenty hours of audio-recorded naturally-occurring service communication. The participants this study focuses upon are unregistered immigrants from South East Asia and local officials.The analysis of the data centres around three major themes: asymmetries of knowledge, relations of power, and the linguistic and interactional strategies mobilised by the different social actors to achieve their goals. The investigation of asymmetries of knowledge, that is, the ways in which institutional information on the procedure is represented discursively, shows that the information provided is generally short, vague and routinised. The process of information exchange is articulated around a few pivot words, which are always uttered in Spanish -irrespective of immigrants' command of the language- and which get repeated over and over again. The information value of these words, especially the tokenistic trámite, which is used when no meaningful information can be provided, is extremely limited. The second major theme addressed is the ways in which power is exercised. The institutional dimension of power and control is best understood by examining the conflict between the state and the individual. It is through the work of individual bureaucrats that states exercise social control. In that sense, a crucial change in the institution's policy for providing information exemplifies the ways in which the exercise of social control is intimately bound up with the ways in which information is (not) provided. But there is also an important individual dimension to bureaucrats' exercise of power. Their practices reveal that officials proceed in hegemonic ways by sustaining and reinforcing certain ideological representations of the social arena. Their practices of domination exploit their interlocutors' limited abilities in Spanish or English and are manifested through the ways in which they regulate conversational organisation, monitor immigrants' use of time and space, and regiment a social and a moral order in the office.Finally, the study concentrates on the discursive strategies used by the different social actors. Immigrants employ "strategies of incomprehension" to force bureaucrats to clarify the meaning of key words, "strategies of challenge" to expose inconsistencies in the information provided, and "strategies of personal appeal" to change the footing of the interaction and get a more favourable treatment. English is key resource for them, but at this particular site, its communicative value is limited because of structural and ideological reasons. Immigrants' strategies do not allow them to negotiate meaning or intervene in the unfolding of the interaction. The limits of what is negotiable are established beforehand. Through their "strategies of role redefinition", bureaucrats manipulate their interlocutors' expectations with regard to their professional role. This is a local resource to justify lack of accountability. Other strategies hinge on the use of prosodics and paralinguistics to pre-empt immigrants' challenging moves. Finally, the "strategy of blaming the client" is used to counter accusations of institutional arbitrariness.
|
3 |
Producción del lenguaje en bilingües: caracterización e implicaciones de la coactivación léxica, LaColomé Gonzàlez, Àngels 01 January 2000 (has links)
DE LA TESIS:Hablar es un acto tan natural para la mayoría de seres humanos, que raramente nos paramos a pensar en cómo es posible que la conexión de unas cuantas células en nuestro cerebro hagan que movamos los músculos de la boca y la garganta de forma tan extraordinariamente precisa, y lo que todavía es más extraordinario, que dichos movimientos sirvan para exteriorizar nuestras ideas y compartirlas con los que nos rodean. En cambio, acostumbramos a admirar a las personas que hablan varias lenguas. Con toda justicia reconocemos su habilidad para almacenar varios vocabularios, pero hablar una lengua es mucho más que conocer sus palabras: significa conocer los matices de significado para cada una de ellas, así como las normas sintácticas específicas que les permiten agrupar las palabras, o la pronunciación de los fonemas que les son propios. Y esta persona no sólo sabe todo esto, sino que además es capaz de aplicar correctamente matices, normas y sonidos a una velocidad de dos o tres palabras por segundo.No es la intención de esta tesis resolver la complejidad de este proceso, pero sí queríamos llamar la atención sobre un fenómeno que a menudo no apreciamos en su justa medida: esa curiosa habilidad de los bilingües para mantener "separadas" las distintas lenguas, de manera que los errores derivados de mezclar involuntariamente reglas o palabras de diferentes idiomas son escasos, especialmente entre los bilingües muy competentes en su segunda lengua. ¿Significa eso que el bilingüe está trabajando sólo con una de las lenguas? O, por el contrario, ¿es posible que la lengua no empleada siga estando presente durante la producción del habla, aunque de alguna forma se consiga restringir su influencia?A estas dos últimas cuestiones hemos querido responder en la presente tesis, desplegándolas en la siguiente batería de preguntas:- ¿Durante cuánto tiempo permanece activada la lengua que no se está empleando?- ¿El grado de activación de la lengua que no se usa depende del conocimiento que de ella se posee?- ¿La lengua no empleada interfiere durante la selección léxica?- ¿La lengua no empleada juega algún papel durante la recuperación de la información subléxica?Para dar respuesta a estos interrogantes, mediante la revisión de los estudios sobre el tema hechos hasta ahora y la aportación de nuevas evidencias experimentales, hemos estructurado la presente memoria en los siguientes apartados:- En el capítulo 1 repasaremos los principales modelos de producción del habla en hablantes monolingües.- En el capítulo 2 describiremos los modelos bilingües de producción del habla.- En el capítulo 3 presentaremos las evidencias que existen hasta el momento de co-activación de los dos léxicos.- En el capítulo 4 nos preguntaremos sobre la función que cumple la activación del léxico que no se está empleando. - Finalmente, el capítulo 5 nos permitirá resumir todos los resultados obtenidos, intentar explicarlos a partir de los modelos de producción actuales, proponer algunas modificaciones a partir de nuestros datos, y plantear nuevas cuestiones a estudiar en el futuro.
|
4 |
Functional Characterization of parla and parlb Paralogs in ZebrafishMerhi, Rawan 14 July 2021 (has links)
Parkinson’s disease (PD) is the second most prevalent neurodegenerative disease, featuring motor signs such as tremors, bradykinesia, and impaired gait that are often preceded by nonmotor symptoms such as anxiety/depression and olfactory dysfunction. Interestingly, significant olfactory loss was found to be manifested in the majority of PD patients and may precede motor symptoms by years, and thus can be used for the risk assessment of developing PD in
asymptomatic individuals. The main pathological feature of PD is the progressive and irreversible loss of dopaminergic (DA) neurons in the substantia nigra pars compacta of the midbrain. Although the detailed etiology of PD remains unclear, most PD cases were found to be sporadic and can be associated with environmental factors. Only 5–10% of patients result from familial PD. With considerable effort in the past two decades, a number of genes associated with familial PD have been identified and interestingly, many of these genes are involved in regulating and maintaining mitochondrial function. The presenilin-associated rhomboid-like (PARL) gene was found to contribute to mitochondrial morphology and function and was linked to familial
Parkinson’s disease (PD). The PARL gene product is a mitochondrial intramembrane cleaving protease that acts on a number of mitochondrial proteins involved in mitochondrial morphology, apoptosis, and mitophagy. To date, functional and genetic studies of PARL have been mainly performed in mammals. However, little is known about PARL function and its role in dopaminergic (DA) neuron development in vertebrates. The zebrafish genome comprises two PARL paralogs: parla and parlb. Here, we show novel information concerning the role of PARL in zebrafish by establishing a loss-of-function mutation in parla and parlb via CRISPR/Cas9-
mediated mutagenesis. We examined DA neuron numbers in the adult brain and expression of genes associated with DA neuron function in larvae and adults. We show that loss of parla function, as well as loss of both parla and parlb function result in loss of DA neurons in the olfactory bulb and telencephalon of adult zebrafish brain. Changes in the levels of tyrosine hydroxylase transcripts supported this neuronal loss. Expression of fis1, a gene involved in mitochondrial fission, was increased in parla mutants and in fish with loss of parla and parlb function. Furthermore, we showed that loss of parla and/or parlb function translates into altered locomotion parameters and that loss of parla but not parlb function results in impaired olfaction. Finally, increased susceptibility to neurotoxin exposure was identified in mutants with loss of both parla and parlb function but not with loss of parla or parlb function. These results suggest an evident role for parla in the development and/or maintenance of DA neuron function in zebrafish and confirm the existence of redundant and non-redundant functions for the two paralogs, parla and parlb.
|
5 |
A multi-microphone approach to speech processing in a smart-room environmentAbad Gareta, Alberto 29 June 2007 (has links)
Els avenços recents en tecnologia informàtica i processament de la parla i del llenguatge, entre altres, han fet possible que noves maneres de comunicació entre les persones i les màquines comencin a semblar factibles. Concretament, l'interès en el desenvolupament de noves aplicacions en entorns tancats equipats amb múltiples sensors multimodals, també coneguts com sales intel.ligents, ha augmentat considerablement darrerament. En general, és ben conegut que la qualitat de les senyals de la parla capturades per micròfons que poden trobar-se a diversos metros de distància dels locutors es veu severament degradada pel soroll acústic i per la reverberació de la sala. En el context del desenvolupament d'aplicacions de la parla en entorns de sales intel.ligents, l'ús de sensors que no siguin molestos és un requeriment habitual. És a dir, no està normalment permès o no és possible fer servir micròfons propers o de solapa, i per tant, les tecnologies de la parla desenvolupades han de basar-se en les senyals capturades per micròfons llunyans. En aquestes situacions, les tecnologies de la parla que habitualment funcionen raonablement bé en entorns lliures de soroll i reverberació pateixen una davallada dràstica en les seves prestacions.En aquesta tesis s'investiguen mètodes multi micròfon per a solucionar els problemes que provoca l'ús de micròfons llunyans en les aplicacions de la parla que habitualment es desenvolupen en sales intel.ligents. Concretament, s'estudia el processament d'arrays de micròfons com a un mètode possible d'aprofitar la disponibilitat de múltiples micròfons per a obtenir senyals de veu millorades. Mitjançant la correcta combinació de les senyals que incideixen en una agrupació de micròfons, el processament d'arrays permet apuntar direccions espacials concretes a l'hora que altres es rebutgen.Per a la millora de la parla amb arrays de micròfons, en la tesis es proposa l'ús d'un nou esquema robust de conformació que integra en només etapa un conformador adaptatiu i una etapa de post-filtrat de Wiener. Els resultats obtinguts mostren que el conformador proposat és una solució adequada per a entorns molt sorollosos i que, en general, és preferible a l'ús convencional d'etapes de post-filtrat a la sortida d'un conformador adaptatiu. No obstant això, el conformador mostra una certa degradació de la senyal de veu que pot afectar a la seva utilitat per a aplicacions de reconeixement de la parla, especialment quan el soroll no és massa important. A continuació s'investiga l'ús específic d'arrays de micròfons per al reconeixement de la parla en entorns de sales intel.ligents. Es demostra que l'ús convencional d'arrays de micròfons per al reconeixement de la parla, que consisteix en la seva aplicació en dues etapes independents, no aporta una millora significativa respecte de l'ús de tècniques mono-canal, especialment, si el reconeixedor està adaptat a les condicions reals de l'entorn acústic. En la tesis es fa èmfasis en la necessitat de que el reconeixement de la parla incorpori informació de la conformació amb arrays de micròfons, o alternativament, que els conformadors incorporin informació del reconeixement de la parla. Més concretament, es proposa utilitzar les dades primer capturades per un array de micròfons i després processades per un conformador per a la construcció dels models acústics, per a d'aquesta manera, obtenir un major benefici dels arrays de micròfons. La aplicació del esquema proposat d'adaptació amb dades conformades d'un array, permet obtenir una millora considerable en un sistema de reconeixement depenent de locutor, mentre que en el cas d'un sistema independent de locutor només s'obté una millora molt limitada, degut en part a l'ús de dades d'array simulades. Per altra banda, una limitació habitual del rocessament d'arrays de micròfons és que es necessita una estimació versemblant de la posició del locutor per a poder apuntar correctament cap a la posició d'interès. A més, el coneixement de la posició de les fonts acústiques que poden estar presents en una sala és una informació que pot ser aprofitada per altres serveis que es desenvolupen en les sales intel.ligents, com per exemple per a apuntar automàticament una càmara en vídeo-conferencies. Afortunadament, existeixen nombrosos mètodes que permeten sol.lucionar el problema del seguiment de fonts acústiques basant-se en les senyals capturades per múltiples micròfons.Concretament, a la tesis es desenvolupa un sistema robust de localització de locutor basat en un dels algorismes actuals de major èxit que consisteix en computar la versemblança de cada possible posició basant-se en les estimacions de les correlaciones creuades generalitzades entre parelles de micròfons. El sistema proposat incorpora principalment dues novetats. Primer, les correlacions creuades es calculen de forma adaptativa basant-se en las velocitats estimades de les fonts. Aquest càlcul adaptatiu es realitza de manera que es minimitzi l'efecte de les diferents dinàmiques de les fonts presents en la sala en el resultat de la localització. Segon, es proposa l'ús d'un mètode accelerat per al càlcul de la posició basat en estratègies de cerca de menor a major resolució tant en el domini espacial com en el freqüencial. De fet, es mostra que la relació entre resolució espacial i l'ample de banda considerat en el càlcul de les correlacions creuades és un aspecte fonamental a tenir en compte en l'aplicació adequada d'aquest tipus d'estratègies ràpides. Les dues novetats comentades permeten que el sistema proposat assoleixi uns resultats raonablement bons quan s'evalúa en escenaris relativament controlats i amb pocs locutors que no se solapin. A més, la conveniència del sistema de localització acústica proposat queda de manifest si s'atenen els destacats resultats que es van obtenir en una evaluació internacional.Finalment, a la tesis també s'estudia el problema de l'estimació de l'orientació del locutor en base a las senyals rebudes per múltiples micròfons, en el context del desenvolupament de noves tecnologies que poden aportar informació addicional per als sistemes que potencialment poden actuar en sales intel.ligents. En concret, es proposen i comparen dos mètodes completament diferents. Por una banda, mètodes sofisticats basats en l'estimació conjunta de la posició i de l'orientació permeten assolir estimacions acceptables a canvi d'un elevat cost computacional. Per altra banda, els mètodes més simples que es basen en consideracions sobre el diagrama de radiació de la parla encara que no són capaços d'assolir les prestacions dels mètodes sofisticats, també poden resultar adequats en alguns casos, como ara quan es coneix la posició amb antelació, o bé quan la despesa computacional està limitada. En tots dos casos, els resultats obtinguts permeten ser optimistes de cara al futur desenvolupament de nous algorismes adreçats a l'estimació de l'orientació del locutor. / Los avances recientes en tecnología informática y procesado del habla y del lenguaje, entre otros, han hecho posible que nuevos modos de comunicación entre las personas y las máquinas empiecen a parecer factibles. Concretamente, el interés en el desarrollo de nuevas aplicaciones en entornos cerrados equipados con múltiples sensores multimodales, también conocidos como salas inteligentes, ha aumentado considerablemente en los últimos tiempos. En general, es bien sabido que la calidad de las señales de habla capturadas por micrófonos que pueden encontrarse a varios metros de distancia de los locutores se ve severamente degradada por el ruido acústico y por la reverberación de la sala. En el contexto del desarrollo de aplicaciones del habla en entornos de salas inteligentes, el uso de sensores que no sean molestos es un requisito habitual. Es decir, normalmente no está permitido o no es posible usar micrófonos cercanos o de solapa, y por lo tanto, las tecnologías del habla desarrolladas tienen que basarse en las señales capturadas por micrófonos lejanos. En estas situaciones, las tecnologías del habla que habitualmente funcionan razonablemente bien en entornos libres de ruido y reverberación sufren un descenso drástico en sus prestaciones. En esta tesis se investigan métodos multi micrófono para solventar los problemas que provoca el uso de micrófonos lejanos en las aplicaciones del habla que habitualmente se desarrollan en salas inteligentes. Concretamente, se estudia el procesado de arrays de micrófonos como un método posible de aprovechar la disponibilidad de múltiples micrófonos para obtener señales de voz mejoradas. Mediante la correcta combinación de las señales que inciden en una agrupación de micrófonos, el procesado de arrays permite apuntar direcciones espaciales concretas a la vez que otras se rechazan.Para la mejora del habla con arrays de micrófonos, en la tesis se propone el uso de un nuevo esquema robusto de conformación que integra en una sóla etapa un conformador adaptativo y una etapa de post-filtrado de Wiener. Los resultados obtenidos muestran que el conformador propuesto es una solución adecuada para entornos muy ruidosos y que, en general, es preferible al uso convencional de etapas de post-filtrado a la salida de un conformador adaptativo. Sin embargo, el conformador muestra cierta degradación de la señal de voz que puede afectar a su utilidad para aplicaciones de reconocimiento del habla, especialmente cuando el ruido no es demasiado importante.A continuación se investiga el uso específico de arrays de micrófonos para el reconocimiento del habla en entornos de salas inteligentes. Se demuestra que el uso convencional de arrays de micrófonos para reconocimiento del habla, que consiste en su aplicación en dos etapas independientes, no aporta una mejora significativa respecto al uso de técnicas mono canal, especialmente, si el reconocedor está adaptado a las condiciones reales del entorno acústico. En la tesis se hace énfasis en la necesidad de que el reconocimiento del habla incorpore información de la conformación con arrays de micrófonos, o alternativamente, que los conformadores incorporen información del reconocimiento del habla. Más concretamente, se propone el uso de datos capturados por un array de micrófonos y luego procesados por un conformador para la construcción de los modelos acústicos, para de esta manera, obtener un mayor beneficio de los arrays. La aplicación del esquema propuesto de adaptación con datos conformados de un array de micrófonos permite obtener una mejora considerable en un sistema de reconocimiento dependiente de locutor, mientras que en el caso de un sistema independiente de locutor sólo se obtiene una mejora muy limitada, debido en parte al uso de datos de array simulados.Por otro lado, una limitación habitual del procesado de arrays de micrófonos es que se necesita una estimación verosímil de la posición del locutor para poder apuntar correctamente hacia la posición de interés. Además, el conocimiento de la posición de las fuentes acústicas que puedan estar presentes en una sala es una información que puede ser aprovechada por otros servicios que se desarrollan en las salas inteligentes, como por ejemplo para apuntar automáticamente una cámara en vídeo-conferencias. Afortunadamente, existen numerosos métodos que permiten resolver el problema del seguimiento de fuentes acústicas basándose en las señales capturadas por múltiples micrófonos. Concretamente, en la tesis se desarrolla un sistema robusto de localización de locutor basado en uno de los algoritmos actuales de mayor éxito consistente en el cómputo de la verosimilitud de cada posible posición basándose en las estimaciones de las correlaciones cruzadas generalizadas entre pares de micrófonos. El sistema propuesto incorpora principalmente dos novedades. Primero, las correlaciones cruzadas se calculan de forma adaptativa basándose en las velocidades estimadas de las fuentes. Este cálculo adaptativo se hace de manera que se minimice el efecto de las diferentes dinámicas de las fuentes presentes en la sala en el resultado de la localización. Segundo, se propone el uso de un método acelerado para el cálculo de la posición basado en estrategias de búsqueda de menor a mayor resolución tanto en el dominio espacial como frecuencial. De hecho, se muestra que la relación entre resolución espacial y el ancho de banda considerado en el cálculo de las correlaciones cruzadas es un aspecto fundamental a tener en cuenta en la aplicación adecuada de este tipo de estrategias rápidas. Las dos novedades comentadas permiten que el sistema propuesto alcance unos resultados razonablemente buenos cuando se evalúa en escenarios relativamente controlados y con pocos locutores que no se solapan. Además, la conveniencia del sistema de localización acústica propuesto queda de manifiesto si se atiende a los destacados resultados que se obtuvieron en una evaluación internacional. Finalmente, en la tesis también se estudia el problema de la estimación de la orientación del locutor en base a las señales capturadas por múltiples micrófonos en el contexto del desarrollo de nuevas tecnologías que puedan aportar información adicional para los sistemas que potencialmente pueden actuar en salas inteligentes. En concreto, se proponen y comparan dos métodos completamente diferentes. Por un lado, métodos sofisticados basados en la estimación conjunta de la posición y de la orientación que permiten obtener estimaciones aceptables a cambio de un elevado coste computacional. Por otro lado, los métodos más simples que se basan en consideraciones sobre el diagrama de radiación del habla aunque no son capaces de igualar las prestaciones de los métodos sofisticados, también pueden resultar adecuados en algunos casos, como cuando se sabe la posición de antemano o cuando la complejidad computacional está limitada. En ambos casos, los resultados obtenidos permiten ser optimistas de cara al futuro desarrollo de nuevos algoritmos dedicados a la estimación de la orientación del locutor. / Recent advances in computer technology and speech and language processing have made possible that some new ways of person-machine communication and computer assistance to human activities start to appear feasible. Concretely, the interest on the development of new challenging applications in indoor environments equipped with multiple multimodal sensors, also known as smart-rooms, has considerably grown. In general, it is well-known that the quality of speech signals captured by microphones that can be located several meters away from the speakers is severely distorted by acoustic noise and room reverberation. In the context of the development of hands-free speech applications in smart-room environments, the use of obtrusive sensors like close-talking microphones is usually not allowed, and consequently, speech technologies must operate on the basis of distant-talking recordings. In such conditions, speech technologies that usually perform reasonably well in free of noise and reverberation environments show a dramatically drop of performance.In this thesis, the use of a multi-microphone approach to solve the problems introduced by far-field microphones in speech applications deployed in smart-rooms is investigated. Concretely, microphone array processing is investigated as a possible way to take advantage of the multi-microphone availability in order to obtain enhanced speech signals. Microphone array beamforming permits targeting concrete desired spatial directions while others are rejected, by means of the appropriate combination of the signals impinging a microphone array. A new robust beamforming scheme that integrates an adaptive beamformer and a Wiener post-filter in a single stage is proposed for speech enhancement. Experimental results show that the proposed beamformer is an appropriate solution for high noise environments and that it is preferable to conventional post-filtering of the output of an adaptive beamformer. However, the beamformer introduces some distortion to the speech signal that can affect its usefulness for speech recognition applications, particularly in low noise conditions. Then, the use of microphone arrays for specific speech recognition purposes in smart-room environments is investigated. It is shown that conventional microphone array based speech recognition, consisting on two independent stages, does not provide a significant improvement with respect to single microphone approaches, especially if the recognizer is adapted to the actual acoustic environmental conditions. In the thesis, it is pointed out that speech recognition needs to incorporate information about microphone array beamformers, or otherwise, beamformers need to incorporate speech recognition information. Concretely, it is proposed to use microphone array beamformed data for acoustic model construction in order to take more benefit from microphone arrays. The result obtained with the proposed adaptation scheme with beamformed enrollment data shows a remarkable improvement in a speaker dependent recognition system, while only a limited enhancement is achieved in a speaker independent recognition system, partially due to iii the use of simulated microphone array data.On the other hand, a common limitation of microphone array processing is that a reliable speaker position estimation is needed to correctly steer the beamformer towards the position of interest. Additionally, knowledge about the location of the audio sources present in a room is information that can be exploited by other smart-room services, such as automatic video steering in conference applications. Fortunately, audio source tracking can be solved on the basis of multiple microphone captures by means of several different approaches. In the thesis, a robust speaker tracking system is developed based on successful state of the art SRP-PHAT algorithm, which computes the likelihood of each potential source position on the basis of the generalized cross-correlation estimations between pairs of microphones. The proposed system mainly incorporates two novelties: firstly, cross-correlations are adaptively computed based on the estimated velocities of the sources. The adaptive computation permits minimizing the influence of the varying dynamics of the speakers present in a room on the overall localization performance. Secondly, an accelerated method for the computation of the source position based on coarse-to-fine search strategies in both spatial and frequency dimensionalities is proposed. It is shown that the relation between spatial resolution and cross-correlation bandwidth is a matter of major importance in this kind of fast search strategies. Experimental assessment shows that the two novelties introduced permit achieving a reasonably good tracking performance in relatively controlled environments with few non-overlapping speakers. Additionally, the remarkable results obtained by the proposed audio tracker in an international evaluation confirm the convenience of the algorithm developed. Finally, in the context of the development of novel technologies that can provide additional cues of information to the potential services deployed in smart-room environments, acoustic head orientation estimation based on multiple microphones is also investigated in the thesis. Two completely different approaches are proposed and compared: on the one hand, sophisticated methods based on the joint estimation of speaker position and orientation are shown to provide a superior performance in exchange of large computational requirements. On the other hand, simple and computationally cheap approaches based on speech radiation considerations are suitable in some cases, such as when computational complexity is limited or when the source position is known beforehand. In both cases, the results obtained are encouraging for future research on the development of new algorithms addressed to the head orientation estimation problem.
|
6 |
Llenguatge, ment i Background en John R. SearleReverter Bañón, Sonia 30 June 1995 (has links)
La tesi fa un estudi intens i crític de l'obra filosòfica del professor nordamericà John Searle, qui va formalitzar el que es coneix com "teoria dels actes de parla". Es presenta una investigació sobre els temes principals del pensament de Searle: llenguatge, ment i "background" així com les conexions que hi ha entre ells. Aquest estudi suposa una crítica a alguns aspectes poc clars de la concepció del llenguatge de Searle, i, a la vegada, una aposta a possibles solucions a aquestos aspectes.
|
7 |
Parla: diálogos corporais movidos por sensações fluentes em improvisaçãoGorges, Gabriela 28 February 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-02T22:10:52Z
No. of bitstreams: 1
GabrielaGorges_DISSERT.pdf: 4301759 bytes, checksum: 13993f9bdc687c77d1a728501d6e4ed6 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-09T13:36:32Z (GMT) No. of bitstreams: 1
GabrielaGorges_DISSERT.pdf: 4301759 bytes, checksum: 13993f9bdc687c77d1a728501d6e4ed6 (MD5) / Made available in DSpace on 2018-07-09T13:36:32Z (GMT). No. of bitstreams: 1
GabrielaGorges_DISSERT.pdf: 4301759 bytes, checksum: 13993f9bdc687c77d1a728501d6e4ed6 (MD5)
Previous issue date: 2018-02-28 / A presente pesquisa tem por objetivo investigar, perceptiva e sensivelmente, as sensações, sentimentos e emoções (DAMÁSIO, 2011; LABAN, 1978; LEAL, 2012) como meios potentes para a criação em dança considerando o processo histórico, cultural e pessoal do indivíduo. Para tanto, a pesquisa, de cunho participante, (BORGES; BRANDÃO, 2007) conta com investigações laboratoriais realizadas em grupo com a participação de cinco artistas denominadas conversantes, buscando diálogos corporais fundados na sensibilidade que, por sua vez, desencadeiam construções dramatúrgicas envolvidas por memórias, afetos e percepções. Dentre conversas, o trabalho artístico Parla compartilha suas experiências laboratoriais ao público. A escrita-diário (OLIVEIRA, 2015) aparece como registro de experiências conectadas ao íntimo, pessoal, afetivo, que se apresenta, informalmente, intrinsecamente, ligado à uma escrita que possa ser mais próxima da dança. Sendo o laboratório propulsor da pesquisa, tomamos como referência o afeto de Antonin Artaud (CAETANO, 2012; QUILICI, 2002, 2012) com seu poder transformador em meio aos relacionamentos e o acaso (OSTROWER, 2013; SALLES, 2008) como possibilidade criativa capaz de despertar o inédito. A prática meditativa como foco e concentração; a improvisação em dança considerada como técnicas a partir dos conceitos de Mara Guerrero (2008) e Patrícia Leal (2012a), proporcionando liberdade à exploração de movimentos, encontrando características significativas como a fluidez apoiada nos estudos de fluência de Rudolf Laban (1978) por Ciane Fernandes (2001, 2006, 2007), Lenira Rengel (2001) e Patrícia Leal (2012a) associada à liquidez dos fluidos de Zygmunt Bauman (2001). Pesquisar a importância de uma dança que parte de si sem negar ou separar o próprio sentir contribui para a construção de uma arte que expressa o humano, investigando a desestruturação de paradigmas cristalizados de pensar a dança existentes mesmo nos dias de hoje. / The present research aims to investigate, perceptually and sensibly, the sensations, feelings and
emotions (DAMÁSIO, 2011; LABAN, 1978; LEAL, 2012) as potent means for the creation in
dance considering the historical, cultural and personal process of the individual. Therefore, the
participatory research, (BORGES; BRANDÃO, 2007) has laboratory investigations carried out in a
group with participation of five artists called conversational, searching for body dialogues based on
sensitivity that trigger in dramaturgical constructions involved by memories, affections and
perceptions. The daily writing (OLIVEIRA, 2015) appears as a record of experiences connected to
the intimate, personal, affective, that presents itself informally, intrinsically, linked to a writing that
may be closer to the dance. Being the laboratory that propels the research we take as reference the
affection of Antonin Artaud (CAETANO, 2012; QUILICI, 2002, 2012) with his transforming
power amidst relationships and chance (OSTROWER, 2013; SALLES, 2008) as a creative
possibility capable of awakening the unprecedented. The meditative practice as focus and
concentration dance improvisation considered as techniques from the concepts of Mara Guerrero
(2008) and Patrícia Leal (2012a), providing freedom to the exploration of movements, finding
significant characteristics such as fluency supported in the studies of fluency of Rudolf Laban
(1978) by Ciane Fernandes (2001, 2006, 2007), Lenira Rengel (2001) and Patrícia Leal (2012a)
associated with the Liquidity of Zygmunt Bauman (2001) fluids. Searching for the importance of a
dance that part of itself without denying or separating one's own feelings contributes to the
construction of an art that expresses the human, investigating the destructuring of crystallized
paradigms of thinking the dance existing even today.
|
8 |
Producción de un corpus oral y modelado prosódico para la síntesis del habla expresivaIriondo Sanz, Ignasi 18 June 2008 (has links)
Aquesta tesi aborda diferents aspectes relacionats amb la síntesi de la parla expressiva. Es parteix de l'experiència prèvia en sistemes de conversió de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informació paralingüística com, per exemple, l'emoció del parlant, el seu estat d'ànim, una determinada intenció o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicció de la prosòdia per a la seva utilització en l'àmbit de la síntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generació d'alguns dels mòduls que componen un sistema de síntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenció de parla emocionada o expressiva i de l'experiència prèvia del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validació del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fonètica suficient (segmental i prosòdica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat té una durada de més de cinc hores i conté cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjançant la lectura de textos semànticament relacionats amb els estils definits, s'ha requerit un procés de validació que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluació exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grandària. D'altra banda, no existeix suficient coneixement científic per a emular completament la percepció subjectiva mitjançant tècniques automàtiques que permetin una validació exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un mètode que suposa un avanç cap a una solució pràctica i eficient d'aquest problema, mitjançant la combinació d'una avaluació subjectiva amb tècniques d'identificació automàtica de l'emoció en el parla. El mètode proposat s'utilitza per a portar a terme una revisió automàtica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha permès validar el correcte funcionament d'aquest procés automàtic. En segon lloc i, sobre la base dels coneixements actuals, de l'experiència adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimació de la prosòdia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions lingüística i paralingüística de la prosòdia a partir de l'extracció automàtica d'atributs prosòdics del text, que constitueixen l'entrada d'un sistema d'aprenentatge automàtic que prediu els trets prosòdics modelats prèviament. El sistema de modelatge prosòdic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una tècnica d'aprenentatge automàtic per analogia. Per a l'ajustament d'alguns paràmetres del sistema desenvolupat i per a la seva avaluació s'han utilitzat mesures objectives de l'error i de la correlació calculades en les locucions del conjunt de prova. Atès que les mesures objectives sempre es refereixen a casos concrets, no aporten informació sobre el grau d'acceptació que tindrà la parla sintetitzada en els oïdors. Per tant, s'han portat a terme una sèrie de proves de percepció en les quals un conjunt d'avaluadors ha puntuat un grup d'estímuls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha permès extreure algunes conclusions sobre la rellevància dels trets prosòdics en la parla expressiva, així com constatar que els resultats generats pel mòdul prosòdic han tingut una bona acceptació, encara que s'han produït diferències segons l'estil. / Esta tesis aborda diferentes aspectos relacionados con la síntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversión de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite información paralingüística como, por ejemplo, la emoción del hablante, su estado de ánimo, una determinada intención o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicción de la prosodia para su utilización en el ámbito de la síntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generación de algunos de los módulos que componen un sistema de síntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motivó el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtención de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el diseño, la grabación, el etiquetado y la validación del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la señal y una cobertura fonética suficiente (segmental y prosódica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duración de más de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos semánticamente relacionados con los estilos definidos, se ha requerido un proceso de validación que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluación exhaustiva de todos los enunciados del corpus sería excesivamente costosa en un corpus de gran tamaño. Por otro lado, no existe suficiente conocimiento científico para emular completamente la percepción subjetiva mediante técnicas automáticas que permitan una validación exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un método que supone un avance hacia una solución práctica y eficiente de este problema, mediante la combinación de una evaluación subjetiva con técnicas de identificación automática de la emoción en el habla. El método propuesto se utiliza para llevar a cabo una revisión automática de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso automático.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimación de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones lingüística y paralingüística de la prosodia a partir de la extracción automática de atributos prosódicos del texto, que constituyen la entrada de un sistema de aprendizaje automático que predice los rasgos prosódicos modelados previamente. El sistema de modelado prosódico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una técnica de aprendizaje automático por analogía. Para el ajuste de algunos parámetros del sistema desarrollado y para su evaluación se han utilizado medidas objetivas del error y de la correlación calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan información sobre el grado de aceptación que tendrá el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepción en las que un conjunto de oyentes ha puntuado un grupo de estímulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos prosódicos en el habla expresiva, así como constatar que los resultados generados por el módulo prosódico han tenido una buena aceptación, aunque se han producido diferencias según el estilo. / This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style.
|
9 |
Modelado de la cualidad de la voz para la síntesis del habla expresivaMonzo Sánchez, Carlos Manuel 14 July 2010 (has links)
Aquesta tesi es realitza dins del marc de treball existent en el grup d'investigació Grup de Recerca en Tecnologies Mèdia (GTM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de dotar de major naturalitat a la interacció home-màquina. Per això ens basem en les limitacions de la tecnologia emprada fins al moment, detectant punts de millora en els que poder aportar solucions. Donat que la naturalitat de la parla està íntimament relacionada amb l'expressivitat que aquesta pot transmetre, aquests punts de millora es centren en la capacitat de treballar amb emocions o estils de parla expressius en general.L'objectiu últim d'aquesta tesi és la generació d'estils de parla expressius en l'àmbit de sistemes de Conversió de Text a Parla (CTP) orientats a la Síntesi de la Parla Expressiva (SPE), essent possible transmetre un missatge oral amb una certa expressivitat que l'oient sigui capaç de percebre i interpretar correctament. No obstant, aquest objectiu implica diferents metes intermitges: conèixer les opcions de parametrització existents, entendre cadascun dels paràmetres, detectar els pros i contres de la seva utilització, descobrir les relacions existents entre ells i els estils de parla expressius i, finalment, portar a terme la síntesi de la parla expressiva. Donat això, el propi procés de síntesi implica un treball previ en reconeixement d'emocions, que en si mateix podria ser una línia complerta d'investigació, ja que aporta el coneixement necessari per extreure models que poden ser usats durant el procés de síntesi.La cerca de l'increment de la naturalitat ha implicat una millor caracterització de la parla emocional o expressiva, raó per la qual s'ha investigat en parametritzacions que poguessin portar a terme aquesta comesa. Aquests són els paràmetres de Qualitat de la Veu Voice Quality (VoQ), que presenten com a característica principal que són capaços de caracteritzar individualment la parla, identificant cadascun dels factors que fan que sigui única. Els beneficis potencials, que aquest tipus de parametrització pot aportar a la interacció natural, són de dos classes: el reconeixement i la síntesi d'estils de parla expressius. La proposta de la parametrització de VoQ no pretén substituir a la ja emprada prosòdia, sinó tot el contrari, treballar conjuntament amb ella per tal de millorar els resultats obtinguts fins al moment.Un cop realitzada la selecció de paràmetres es planteja el modelat de la VoQ, és a dir la metodologia d'anàlisi i de modificació, de forma que cadascun d'ells pugui ser extret a partir de la senyal de veu i posteriorment modificat durant la síntesi. Així mateix, es proposen variacions pels paràmetres implicats i tradicionalment utilitzats, adaptant la seva definició al context de la parla expressiva. A partir d'aquí es passa a treballar en les relacions existents amb els estils de parla expressius, presentant finalment la metodologia de transformació d'aquests últims, mitjançant la modificació conjunta de la VoQ y la prosòdia, per a la SPE en un sistema de CTP. / Esta tesis se realiza dentro del marco de trabajo existente en el grupo de investigación Grup de Recerca en Tecnologies Mèdia (GTM) de Enginyeria i Arquitectura La Salle, con el objetivo de dotar de mayor naturalidad a la interacción hombre-máquina. Para ello nos basamos en las limitaciones de la tecnología empleada hasta el momento, detectando puntos de mejora en los que poder aportar soluciones. Debido a que la naturalidad del habla está íntimamente relacionada con la expresividad que esta puede transmitir, estos puntos de mejora se centran en la capacidad de trabajar con emociones o estilos de habla expresivos en general.El objetivo último de esta tesis es la generación de estilos de habla expresivos en el ámbito de sistemas de Conversión de Texto en Habla (CTH) orientados a la Síntesis del Habla Expresiva (SHE), siendo posible transmitir un mensaje oral con una cierta expresividad que el oyente sea capaz de percibir e interpretar correctamente. No obstante, este objetivo implica diferentes metas intermedias: conocer las opciones de parametrización existentes, entender cada uno de los parámetros, detectar los pros y contras de su utilización, descubrir las relaciones existentes entre ellos y los estilos de habla expresivos y, finalmente, llevar a cabo la síntesis del habla expresiva. El propio proceso de síntesis implica un trabajo previo en reconocimiento de emociones, que en sí mismo podría ser una línea completa de investigación, ya que muestra la viabilidad de usar los parámetros seleccionados en la discriminación de estos y aporta el conocimiento necesario para extraer los modelos que pueden ser usados durante el proceso de síntesis.La búsqueda del incremento de la naturalidad ha implicado una mejor caracterización del habla emocional o expresiva, con lo que para ello se ha investigado en parametrizaciones que pudieran llevar a cabo este cometido. Estos son los parámetros de Cualidad de la Voz Voice Quality (VoQ), que presentan como característica principal que son capaces de caracterizar individualmente el habla, identificando cada uno de los factores que hacen que sea única. Los beneficios potenciales, que este tipo de parametrización puede aportar a la interacción natural, son de dos clases: el reconocimiento y la síntesis de estilos de habla expresivos. La propuesta de la parametrización de VoQ no pretende sustituir a la ya empleada prosodia, sino todo lo contrario, trabajar conjuntamente con ella para mejorar los resultados obtenidos hasta el momento.Una vez realizada la selección de los parámetros se plantea el modelado de la VoQ, es decir, la metodología de análisis y de modificación de forma que cada uno de ellos pueda ser extraído a partir de la señal de voz y posteriormente modificado durante la síntesis. Asimismo, se proponen variaciones para los parámetros implicados y tradicionalmente utilizados, adaptando su definición al contexto del habla expresiva.A partir de aquí se pasa a trabajar en las relaciones existentes con los estilos de habla expresivos, presentando finalmente la metodología de transformación de estos últimos, mediante la modificación conjunta de VoQ y prosodia, para la SHE en un sistema de CTH. / This thesis is conducted on the existing working framework in the Grup de Recerca en Tecnologies Mèdia (GTM) research group of the Enginyeria i Arquitectura La Salle, with the aim of providing the man-machine interaction with more naturalness. To do this, we are based on the limitations of the technology used up to now, detecting the improvement points where we could contribute solutions. Given that the speech naturalness is closely linked with the expressivity communication, these improvement points are focused on the ability of working with emotions or expressive speech styles in general.The final goal of this thesis is the expressive speech styles generation in the field of Text-to-Speech (TTS) systems aimed at Expressive Speech Synthesis (ESS), with the possibility of communicating an oral message with a certain expressivity that the listener will be able to correctly perceive and interpret. Nevertheless, this goal involves different intermediate aims: to know the existing parameterization options, to understand each of the parameters, to find out the existing relations among them and the expressive speech styles and, finally, to carry out the expressive speech synthesis. All things considered, the synthesis process involves a previous work in emotion recognition, which could be a complete research field, since it shows the feasibility of using the selected parameters during their discrimination and provides with the necessary knowledge for the modelling that can be used during the synthesis process.The search for the naturalness improvement has implied a better characterization of the emotional or expressive speech, so we have researched on parameterizations that could perform this task. These are the Voice Quality (VoQ) parameters, which main feature is they are able to characterize the speech in an individual way, identifying each factor that makes it unique. The potential benefits that this kind of parameterization can provide with natural interaction are twofold: the expressive speech styles recognition and the synthesis. The VoQ parameters proposal is not trying to replace prosody, but working altogether to improve the results so far obtained.Once the parameters selection is conducted, the VoQ modelling is raised (i. e. analysis and modification methodology), so each of them can be extracted from the voice signal and later on modified during the synthesis. Also, variations are proposed for the involved and traditionally used parameters, adjusting their definition to the expressive speech context. From here, we work on the existing relations with the expressive speech styles and, eventually we show the transformation methodology for these ones, by means of the modification of VoQ and prosody, for the ESS in a TTS system.
|
10 |
Confidence Measures for Automatic and Interactive Speech RecognitionSánchez Cortina, Isaías 07 March 2016 (has links)
[EN] This thesis work contributes to the field of the {Automatic Speech Recognition} (ASR). And particularly to the {Interactive Speech Transcription} and {Confidence Measures} (CM) for ASR.
The main goals of this thesis work can be summarised as follows:
1. To design IST methods and tools to tackle the problem of improving automatically generated transcripts.
2. To assess the designed IST methods and tools on real-life tasks of transcription in large educational repositories of video lectures.
3. To improve the reliability of the IST by improving the underlying (CM).
Abstracts:
The {Automatic Speech Recognition} (ASR) is a crucial task in a broad range of important applications which could not accomplished by means of manual transcription. The ASR can provide cost-effective transcripts in scenarios of increasing social impact such as the {Massive Open Online Courses} (MOOC), for which the availability of accurate enough is crucial even if they are not flawless. The transcripts enable search-ability, summarisation, recommendation, translation; they make the contents accessible to non-native speakers and users with impairments, etc. The usefulness is such that students improve their academic performance when learning from subtitled video lectures even when transcript is not perfect.
Unfortunately, the current ASR technology is still far from the necessary accuracy.
The imperfect transcripts resulting from ASR can be manually supervised and corrected, but the effort can be even higher than manual transcription.
For the purpose of alleviating this issue, a novel {Interactive Transcription of Speech} (IST) system is presented in this thesis. This IST succeeded in reducing the effort if a small quantity of errors can be allowed; and also in improving the underlying ASR models in a cost-effective way.
In other to adequate the proposed framework into real-life MOOCs,
another intelligent interaction methods involving limited user effort were investigated. And also, it was introduced a new method which benefit from the user interactions to improve automatically the unsupervised parts ({Constrained Search} for ASR).
The conducted research was deployed into a web-based IST platform with which it was possible to produce a massive number of semi-supervised lectures from two different well-known repositories, videoLectures.net and poliMedia.
Finally, the performance of the IST and ASR systems can be easily increased by improving the computation of the {Confidence Measure} (CM) of transcribed words. As so, two contributions were developed:
a new particular {Logistic Regresion} (LR) model;
and the speaker adaption of the CM for cases in which it is possible, such with MOOCs. / [ES] Este trabajo contribuye en el campo del {reconocimiento automático del habla} (RAH). Y en especial, en el de la {transcripción interactiva del habla} (TIH) y el de las {medidas de confianza} (MC) para RAH. Los objetivos principales son los siguientes:
1. Diseño de métodos y herramientas TIH para mejorar las transcripciones automáticas.
2. Evaluar los métodos y herramientas TIH empleando tareas de transcripción realistas extraídas de grandes repositorios de vídeos educacionales.
3. Mejorar la fiabilidad del TIH mediante la mejora de las MC.
Resumen:
El {reconocimiento automático del habla} (RAH) es una tarea crucial en una amplia gama de aplicaciones importantes que no podrían realizarse mediante transcripción manual. El RAH puede proporcionar transcripciones rentables en escenarios de creciente impacto social como el de los {cursos abiertos en linea masivos} (MOOC), para el que la disponibilidad de transcripciones es crucial, incluso cuando no son completamente perfectas. Las transcripciones permiten la automatización de procesos como buscar, resumir, recomendar, traducir; hacen que los contenidos sean más accesibles para hablantes no nativos y usuarios con discapacidades, etc. Incluso se ha comprobado que mejora el rendimiento de los estudiantes que aprenden de videos con subtítulos incluso cuando estos no son completamente perfectos.
Desafortunadamente, la tecnología RAH actual aún está lejos de la precisión necesaria.
Las transcripciones imperfectas resultantes del RAH pueden ser supervisadas y corregidas manualmente, pero el esfuerzo puede ser incluso superior al de la transcripción manual. Con el fin de aliviar este problema, esta tesis presenta un novedoso sistema de {transcripción interactiva del habla} (TIH).
Este método TIH consigue reducir el esfuerzo de semi-supervisión siempre que sea aceptable una pequeña cantidad de errores; además mejora a la par los modelos RAH subyacentes.
Con objeto de transportar el marco propuesto para MOOCs, también se investigaron otros métodos de interacción inteligentes que involucran esfuerzo limitado por parte del usuario. Además, se introdujo un nuevo método que aprovecha las interacciones para mejorar aún más las partes no supervisadas (ASR con {búsqueda restringida}).
La investigación en TIH llevada a cabo se desplegó en una plataforma web con el que fue posible producir un número masivo de transcripciones de videos de dos conocidos repositorios, videoLectures.net y poliMedia.
Por último, el rendimiento de la TIH y los sistemas de RAH se puede aumentar directamente mediante la mejora de la estimación de la {medida de confianza} (MC) de las palabras transcritas. Por este motivo se desarrollaron dos contribuciones: un nuevo modelo discriminativo {logístico} (LR);
y la adaptación al locutor de la MC para los casos en que es posible, como por ejemplo en MOOCs. / [CA] Aquest treball hi contribueix al camp del {reconeixment automàtic de la parla} (RAP).
I en especial, al de la {transcripció interactiva de la parla} i el de {mesures de confiança} (MC) per a RAP.
Els objectius principals són els següents:
1. Dissenyar mètodes i eines per a TIP per tal de millorar les transcripcions automàtiques.
2. Avaluar els mètodes i eines TIP per a tasques de transcripció realistes extretes de grans repositoris de vídeos educacionals.
3. Millorar la fiabilitat del TIP, mitjançant la millora de les MC.
Resum:
El {reconeixment automàtic de la parla} (RAP) és una tasca crucial per una àmplia gamma d'aplicacions importants que no es poden dur a terme per mitjà de la transcripció manual. El RAP pot proporcionar transcripcions en escenaris de creixent impacte social com els {cursos online oberts massius} (MOOC). Les transcripcions permeten automatitzar tasques com ara cercar, resumir, recomanar, traduir; a més a més,
fa accessibles els continguts als parlants no nadius i els usuaris amb discapacitat, etc. Fins i tot, pot millorar el rendiment acadèmic de estudiants que aprenen de xerrades amb subtítols, encara que aquests subtítols no siguen perfectes. Malauradament, la tecnologia RAP actual encara està lluny de la precisió necessària.
Les transcripcions imperfectes resultants de RAP poden ser supervisades i corregides manualment, però aquest l'esforç pot acabar sent superior a la transcripció manual. Per tal de resoldre aquest problema, en aquest treball es presenta un sistema nou per a {transcripció interactiva de la parla} (TIP). Aquest sistema TIP va ser reeixit en la reducció de l'esforç per quan es pot permetre una certa quantitat d'errors;
així com també en en la millora dels models RAP subjacents.
Per tal d'adequar el marc proposat per a MOOCs, també es van investigar altres mètodes d'interacció intel·ligents amb esforç d''usuari limitat.
A més a més, es va introduir un nou mètode que aprofita les interaccions per tal de millorar encara més les parts no supervisades (RAP amb {cerca restringida}).
La investigació en TIP duta a terme es va desplegar en una plataforma web amb la qual va ser possible produir un nombre massiu de transcripcions semi-supervisades de xerrades de repositoris ben coneguts, videoLectures.net i poliMedia.
Finalment, el rendiment de la TIP i els sistemes de RAP es pot augmentar directament mitjançant la millora de l'estimació de la {Confiança Mesura} (MC) de les paraules transcrites. Per tant, es van desenvolupar dues contribucions: un nou model discriminatiu logístic (LR);
i l'adaptació al locutor de la MC per casos en que és possible, per exemple amb MOOCs. / Sánchez Cortina, I. (2016). Confidence Measures for Automatic and Interactive Speech Recognition [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/61473
|
Page generated in 0.0395 seconds