• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 5
  • 3
  • 2
  • Tagged with
  • 15
  • 7
  • 7
  • 6
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Síntesi basada en models ocults de Markov aplicada a l'espanyol i a l'anglès, les seves aplicacions i una proposta híbrida

Gonzalvo Fructuoso, Javier 16 July 2010 (has links)
Avui en dia, la Interacció Home Màquina (IHM) és una de les disciplines més estudiades amb l'objectiu de millorar les interaccions humanes amb sistemes reals actuals i futurs. Cada vegada més gent utilitza més dispositius electrònics a la vida quotidiana Aquesta incursió electrònica es deu principalment a dues raons. D'una banda, la facilitat d'accés a aquesta tecnologia però d'altra banda, unes interfícies més amigables que permeten un ús més fàcil i intuitiu. Simplement fa falta observar els ordinadors personals d'avui en dia, les computadores de butxaca i inclús els telèfons mòbils. Tots aquests nous dispositius permeten que usuaris poc experimentats puguin fer ús de les tecnologies més punteres. D'altra banda, la inclusió de les tecnologies de la parla estan arribant a ser més comunes gràcies a què els sistemes de reconeixement i de síntesi de veu han millorat considerablement el seu funcionament i fiabilitat.L'objectiu final de les tecnologies de la parla és crear sistemes tan naturals com els éssers humans per tal de fer que el seu ús es pugui extendre a qualsevol racó de la vida quotidiana Els conversors de Text-a-Parla (o sintetitzadors) són un dels mòduls que més esforç investigador han rebut amb l'objectiu de millorar la seva naturalitat i expressivitat. L'ús de sintetitzadors s'ha ampliat durant els últims temps degut a l'alta qualitat aconseguida en aplicacions de domini restringit i el bon comportament en aplicacions de propòsit general. De totes formes, encara queda un llarg camí per recòrrer pel que respecta a la qualitat en aplicacions de domini obert. A més a més, algunes de les tendències dels sistemes sintetitzadors comporten reduir el tamany de les bases de dades, sistemes flexibles per adaptar locutors i estils de locució i sistemes entrenables.Aquesta tesi doctoral presentarà un sintetizador de veu basat en l'entorn probabilístic dels Models Ocults de Makov (MOM) que tractarà amb els principals temes estudiats a l'actualitat, tal com l'adaptació de l'estil del locutor, sistemes conversors de veu entrenables i bases de dades de tamany reduit. Es descriurà el funcionament convencional dels algoritmes i es propondran millores en diferents àmbits com per exemple l'expressivitat. A la vegada, es presenta un sistema híbrid punter que combina models estadístics i de concatenació de veu. Els resultats obtinguts mostren com les propostes d'aquest treball donen un pas endavant en l'àmbit de la creació de veu sintètica utilitzant models estadístics. / Hoy en día, la Interacción Hombre-Máquina (IHM) es una de las disciplinas más estudiadas con el objetivo de mejorar las interacciones humanas con sistemas reales para el presente y para el futuro venidero. Más y más dispositivos electrónicos son usados por más gente en la vida diaria. Esta incursión electrónica se debe principalmente a dos razones. Por un lado, el indudable aumento en la accesibilidad económica a esta tecnología pero por otra parte, unos interfaces más amigables que permiten un uso más fácil e intuitivo. Simplemente hace falta observar hoy en día los ordenadores personales, las computadoras de bolsillo e incluso los teléfonos móviles. Todos estos nuevos dispositivos admiten que usuarios poco experimentados puedan hacer uso de las tecnologías más punteras. Por otra parte, la inclusión de las tecnologías del habla está llegando a ser más común gracias a que los sistemas de reconocimiento y de síntesis de voz han estado mejorando su funcionamiento y fiabilidad.El objetivo final de las tecnologías del habla es crear sistemas tan naturales como los seres humanos para que su uso se pueda extender a cualquier rincón de la vida diaria. Los conversores de Texto-a-Voz (o sintetizadores) son de los módulos que más esfuerzo investigador han recibido con el objetivo de mejorar su naturalidad y la expresividad. El uso de los sintetizadores se ha ampliado durante los últimos tiempos debido a la alta calidad alcanzada en usos de dominio restringido y el buen comportamiento en aplicaciones de propósito general. De todas formas, todavía queda un largo camino por recorrer por lo que respecta a la calidad en aplicaciones de dominio abierto. Además, algunas de las tendencias de los sistemas sintetizadores conllevan reducir el tamaño de las bases de datos, sistemas flexibles para adaptar locutores y estilos de locución y sistemas entrenables.Esta tesis doctoral presentará un sintetizador de voz basado en el entorno probabilístico de los Modelos Ocultos de Markov (MOM) que lidiará con los principales temas estudiados en la actualidad tales como adaptación del estilo de locutor, sistema conversores de voz entrenables y bases de datos de tamaño reducido. Se describirá el funcionamiento convencional de los algoritmos y se propondrán mejoras en varios ámbitos tales como la expresividad. A la vez se presenta un sistema híbrido puntero que combina modelos estadísticos y de concatenación de voz. Los resultados obtenidos muestran como las propuestas de este trabajo dan un paso adelante en el ámbito de la creación de voz sintética usando modelos estadísticos. / Nowadays, Human Computer Interaction (HCI) is one of the most studied disciplines in order to improve real human interactions with machines on the present time and for the incoming future. More and more electronic devices of the daily life are used by more people. This electronic incursion is mainly due to two reasons. On the one hand, the undoubted increasing of the economical accessibility to this technology but on the other hand, the more friendly interfaces allow an easier and more intuitive use. As a matter of fact, nowadays it is only necessary to observe the personal computer interfaces, pocket size computers and even mobile telephones. All these new interfaces let little experienced users make use of cutting edge technologies. Moreover, the inclusion of speech technologies in these systems is becoming more usual since speech recognition and synthesis systems have improved their performance and reliability.The purpose of speech technology is to provide systems with a natural human interface so the use can be extended to daily life. Text-to-Speech (TTS) systems are one of the main modules under intense research activity in order to improve their naturalness and expressiveness. The use of synthesizers has been extended during the last times due to the high-quality reached in real limited domain applications and the good performance in generic purposes applications. However, there is still a long way to go with respect to quality and open domain systems.This work will present a TTS system based on a statistical framework using Hidden Markov Models (HMMs) that will deal with the main topics under study in recent years such as voice style adaptation, trainable TTS systems and low print databases. Moreover, a cutting edge hybrid approach combining concatenative and statistical synthesis will also be presented. Ideas and results in this work show a step forward in the HMM-based TTS system field
12

Modelado de la cualidad de la voz para la síntesis del habla expresiva

Monzo Sánchez, Carlos Manuel 14 July 2010 (has links)
Aquesta tesi es realitza dins del marc de treball existent en el grup d'investigació Grup de Recerca en Tecnologies Mèdia (GTM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de dotar de major naturalitat a la interacció home-màquina. Per això ens basem en les limitacions de la tecnologia emprada fins al moment, detectant punts de millora en els que poder aportar solucions. Donat que la naturalitat de la parla està íntimament relacionada amb l'expressivitat que aquesta pot transmetre, aquests punts de millora es centren en la capacitat de treballar amb emocions o estils de parla expressius en general.L'objectiu últim d'aquesta tesi és la generació d'estils de parla expressius en l'àmbit de sistemes de Conversió de Text a Parla (CTP) orientats a la Síntesi de la Parla Expressiva (SPE), essent possible transmetre un missatge oral amb una certa expressivitat que l'oient sigui capaç de percebre i interpretar correctament. No obstant, aquest objectiu implica diferents metes intermitges: conèixer les opcions de parametrització existents, entendre cadascun dels paràmetres, detectar els pros i contres de la seva utilització, descobrir les relacions existents entre ells i els estils de parla expressius i, finalment, portar a terme la síntesi de la parla expressiva. Donat això, el propi procés de síntesi implica un treball previ en reconeixement d'emocions, que en si mateix podria ser una línia complerta d'investigació, ja que aporta el coneixement necessari per extreure models que poden ser usats durant el procés de síntesi.La cerca de l'increment de la naturalitat ha implicat una millor caracterització de la parla emocional o expressiva, raó per la qual s'ha investigat en parametritzacions que poguessin portar a terme aquesta comesa. Aquests són els paràmetres de Qualitat de la Veu Voice Quality (VoQ), que presenten com a característica principal que són capaços de caracteritzar individualment la parla, identificant cadascun dels factors que fan que sigui única. Els beneficis potencials, que aquest tipus de parametrització pot aportar a la interacció natural, són de dos classes: el reconeixement i la síntesi d'estils de parla expressius. La proposta de la parametrització de VoQ no pretén substituir a la ja emprada prosòdia, sinó tot el contrari, treballar conjuntament amb ella per tal de millorar els resultats obtinguts fins al moment.Un cop realitzada la selecció de paràmetres es planteja el modelat de la VoQ, és a dir la metodologia d'anàlisi i de modificació, de forma que cadascun d'ells pugui ser extret a partir de la senyal de veu i posteriorment modificat durant la síntesi. Així mateix, es proposen variacions pels paràmetres implicats i tradicionalment utilitzats, adaptant la seva definició al context de la parla expressiva. A partir d'aquí es passa a treballar en les relacions existents amb els estils de parla expressius, presentant finalment la metodologia de transformació d'aquests últims, mitjançant la modificació conjunta de la VoQ y la prosòdia, per a la SPE en un sistema de CTP. / Esta tesis se realiza dentro del marco de trabajo existente en el grupo de investigación Grup de Recerca en Tecnologies Mèdia (GTM) de Enginyeria i Arquitectura La Salle, con el objetivo de dotar de mayor naturalidad a la interacción hombre-máquina. Para ello nos basamos en las limitaciones de la tecnología empleada hasta el momento, detectando puntos de mejora en los que poder aportar soluciones. Debido a que la naturalidad del habla está íntimamente relacionada con la expresividad que esta puede transmitir, estos puntos de mejora se centran en la capacidad de trabajar con emociones o estilos de habla expresivos en general.El objetivo último de esta tesis es la generación de estilos de habla expresivos en el ámbito de sistemas de Conversión de Texto en Habla (CTH) orientados a la Síntesis del Habla Expresiva (SHE), siendo posible transmitir un mensaje oral con una cierta expresividad que el oyente sea capaz de percibir e interpretar correctamente. No obstante, este objetivo implica diferentes metas intermedias: conocer las opciones de parametrización existentes, entender cada uno de los parámetros, detectar los pros y contras de su utilización, descubrir las relaciones existentes entre ellos y los estilos de habla expresivos y, finalmente, llevar a cabo la síntesis del habla expresiva. El propio proceso de síntesis implica un trabajo previo en reconocimiento de emociones, que en sí mismo podría ser una línea completa de investigación, ya que muestra la viabilidad de usar los parámetros seleccionados en la discriminación de estos y aporta el conocimiento necesario para extraer los modelos que pueden ser usados durante el proceso de síntesis.La búsqueda del incremento de la naturalidad ha implicado una mejor caracterización del habla emocional o expresiva, con lo que para ello se ha investigado en parametrizaciones que pudieran llevar a cabo este cometido. Estos son los parámetros de Cualidad de la Voz Voice Quality (VoQ), que presentan como característica principal que son capaces de caracterizar individualmente el habla, identificando cada uno de los factores que hacen que sea única. Los beneficios potenciales, que este tipo de parametrización puede aportar a la interacción natural, son de dos clases: el reconocimiento y la síntesis de estilos de habla expresivos. La propuesta de la parametrización de VoQ no pretende sustituir a la ya empleada prosodia, sino todo lo contrario, trabajar conjuntamente con ella para mejorar los resultados obtenidos hasta el momento.Una vez realizada la selección de los parámetros se plantea el modelado de la VoQ, es decir, la metodología de análisis y de modificación de forma que cada uno de ellos pueda ser extraído a partir de la señal de voz y posteriormente modificado durante la síntesis. Asimismo, se proponen variaciones para los parámetros implicados y tradicionalmente utilizados, adaptando su definición al contexto del habla expresiva.A partir de aquí se pasa a trabajar en las relaciones existentes con los estilos de habla expresivos, presentando finalmente la metodología de transformación de estos últimos, mediante la modificación conjunta de VoQ y prosodia, para la SHE en un sistema de CTH. / This thesis is conducted on the existing working framework in the Grup de Recerca en Tecnologies Mèdia (GTM) research group of the Enginyeria i Arquitectura La Salle, with the aim of providing the man-machine interaction with more naturalness. To do this, we are based on the limitations of the technology used up to now, detecting the improvement points where we could contribute solutions. Given that the speech naturalness is closely linked with the expressivity communication, these improvement points are focused on the ability of working with emotions or expressive speech styles in general.The final goal of this thesis is the expressive speech styles generation in the field of Text-to-Speech (TTS) systems aimed at Expressive Speech Synthesis (ESS), with the possibility of communicating an oral message with a certain expressivity that the listener will be able to correctly perceive and interpret. Nevertheless, this goal involves different intermediate aims: to know the existing parameterization options, to understand each of the parameters, to find out the existing relations among them and the expressive speech styles and, finally, to carry out the expressive speech synthesis. All things considered, the synthesis process involves a previous work in emotion recognition, which could be a complete research field, since it shows the feasibility of using the selected parameters during their discrimination and provides with the necessary knowledge for the modelling that can be used during the synthesis process.The search for the naturalness improvement has implied a better characterization of the emotional or expressive speech, so we have researched on parameterizations that could perform this task. These are the Voice Quality (VoQ) parameters, which main feature is they are able to characterize the speech in an individual way, identifying each factor that makes it unique. The potential benefits that this kind of parameterization can provide with natural interaction are twofold: the expressive speech styles recognition and the synthesis. The VoQ parameters proposal is not trying to replace prosody, but working altogether to improve the results so far obtained.Once the parameters selection is conducted, the VoQ modelling is raised (i. e. analysis and modification methodology), so each of them can be extracted from the voice signal and later on modified during the synthesis. Also, variations are proposed for the involved and traditionally used parameters, adjusting their definition to the expressive speech context. From here, we work on the existing relations with the expressive speech styles and, eventually we show the transformation methodology for these ones, by means of the modification of VoQ and prosody, for the ESS in a TTS system.
13

La regulació de l'escriptura d'articles de recerca. Estratègies d'escriptors experts en castellà com a primera llengua i en anglès com a llengua internacional

Iñesta Codina, Anna 16 October 2009 (has links)
Des d'una perspectiva situada de la cognició, i concebent l'escriptura com una activitat social i culturalment mediada (Camps i Castelló, 1996; Candlin & Hyland, 1999; Lea & Stierer, 2000; Flowerdew & Peacock, 2001; Johns, 2002; Castelló, Iñesta i Gonzalez, 2008), hem plantejat un estudi comparatiu de dos casos centrat en una tasca autèntica com és l'escriptura d'articles de recerca en condicions ecològiques. Els objectius específics que ens hem plantejat són:1. Identificar, caracteritzar i comparar les activitats de regulació que els nostres escriptors posen en marxa en el procés d'escriptura dels articles de recerca en castellà com a primera llengua (L1) i en anglès com a llengua internacional (ALI) 2. Conèixer si l'ús de la L1 i de l'ALI té un impacte diferencial en els Episodis de Regulació 3. Conèixer si l'ús de la L1 i de l'ALI té un impacte diferencial en l'organització de la informació dels textos finals4. Analitzar la relació entre els reptes que activen els Episodis de Regulació i els suggeriments de millora proposats pels revisors, membres de la mateixa comunitat discursivaLa recollida de dades ha implicat l'ús de metodologies com ara les entrevistes semiestructurades, els diaris d'escriptura, les entrevistes retrospectives, l'anàlisi de casos de pensament, les fitxes d'anàlisi d'esborranys i l'enregistrament de l'activitat escriptora tal i com aquesta es desenvolupa en la pantalla del processador de textos gràcies al programari Camtasia. A més, hem utilitzat una unitat d'anàlisi, l'Episodi de Regulació, que permet considerar de manera integrada els reptes o dificultats identificades pels escriptors i les accions que implementen per resoldre-les. De l'anàlisi de les dades i dels resultats obtinguts podem extreure diferents conclusions. En primer lloc, hem constatat que la regulació de l'activitat escriptora pot donar-se a nivell explícit i a nivell implícit. Aquest resultat indica, doncs, la necessitat de revisitar la conceptualització de la regulació com a fenomen exclusivament explícit. Els resultats obtinguts també mostren que els reptes l'abordament dels quals implica l'ús de coneixements lingüístics o metalingüístics romandrien a un nivell més implícit que els reptes que tenen a veure amb la gestió del procés d'escriptura. En segon lloc, els resultats obtinguts han mostrat que la regulació de l'activitat escriptora a nivell genèric o de procés té a veure amb un patró diferencial d'escriptura (regit per l'acció o regit pel text que es va escrivint) que es manté tant en L1 com en ALI i del qual els escriptors només es mostren parcialment conscients. En tercer lloc, hem pogut constatar que no es produeixen grans diferències entre el procés d'escriptura en L1 i el procés d'escriptura en ALI i que les que s'observen tenen a veure amb reptes molt específics i locals (l'ús intensiu d'ajudes a l'escriptura i d'accions orientades a aconseguir una formulació adequada en ALI), no vinculats a qüestions molars, més relacionades amb la gestió del procés d'escriptura. En quart lloc, l'anàlisi micro ens ha permès constatar que totes les accions que els escriptors implementen durant l'escriptura dels articles responen a una intencionalitat específica i, d'entre les intencionalitats destaca el grau de consens dels escriptors pel que fa a l'atenció a qüestions que tenen a veure amb l'expressió de la veu en el text i la cerca de la precisió i la claredat. Finalment, els resultats obtinguts ens han permès comprovar la gran coincidència entre els reptes que els escriptors aborden en els Episodis de Regulació explícits i els suggeriments de millora proposats pels revisors. Això posaria de manifest que la regulació del procés de composició és una activitat que requereix de la negociació entre la forma habitual de fer (patró d'escriptura), construïda a partir de la pràctica efectiva, i les particularitats de la situació d'escriptura. / Desde una perspectiva situada de la cognición, y considerando la escritura como una actividad social y culturalmente mediada (Camps y Castelló, 1996; Candlin y Hyland, 1999; Lea y Stierer, 2000; Flowerdew y Peacock, 2001; Johns, 2002; Castelló, Iñesta y Gonzalez, 2008), hemos planteado un estudio comparativo de dos casos centrado en una tarea auténtica como es la escritura de artículos de investigación en condiciones ecológicas. Los objetivos específicos que nos hemos planteado son:5. Identificar, caracterizar y comparar las actividades de regulación que los escritores ponen en funcionamiento en el proceso de escritura de los artículos de investigación en español como primera lengua (L1) y en inglés como lengua internacional (ILI) 6. Conocer si el uso de la L1 y de la ILI tiene un impacto diferencial en los Episodios de Regulación 7. Conocer si el uso de la L1 y de la ILI tiene un impacto diferencial en la organización de la información de los textos finales8. Analizar la relación entre los retos que activan los Episodios de Regulación y las sugerencias de mejora propuestas por los revisores, miembros de la misma comunidad discursivaLa recogida de datos ha implicado el uso de metodologías como las entrevistas semiestructuradas, los diarios de escritura, las entrevistas retrospectivas, el análisis de casos de pensamiento, las fichas de análisis de borradores del texto y la grabación de la actividad escritora tal y como ésta se desarrolla en la pantalla del procesador de textos gracias al programa Camtasia. Además, hemos utilizado una unidad de análisis, el Episodio de Regulación, que permite considerar de manera integrada los retos o dificultades identificadas por los escritores y las acciones que implementan para resolverlas. Del análisis de los datos y de los resultados obtenidos podemos extraer diferentes conclusiones. En primer lugar, hemos constatado que la regulación de la actividad escritora puede darse a nivel explícito y a nivel implícito. Este resultado indica, pues, la necesidad de revisitar la conceptualización de la regulación como a fenómeno exclusivamente explícito. Los resultados obtenidos también muestran que los retos cuyo abordaje implica el uso de conocimientos lingüísticos o metalingüísticos permanecerían a un nivel más implícito que los retos que tienen que ver con la gestión del proceso de escritura. En segundo lugar, los resultados obtenidos han mostrado que la regulación de la actividad escritora a nivel genérico o de proceso está relacionada con un patrón diferencial de escritura (regido por la acción o regido por el texto que se va escribiendo) que se mantiene tanto en L1 como en ILI y del cual los escritores sólo se muestran parcialmente conscientes. En tercer lugar, hemos podido constatar que no se producen grandes diferencias entre el proceso de escritura en L1 y el proceso de escritura en ILI y que las que se observan tienen que ver con retos muy específicos y locales (el uso intensivo de ayudas a la escritura y de acciones orientadas a conseguir una formulación adecuada en ILI), no vinculadas a cuestiones molares, más relacionadas con la gestión del proceso de escritura. En cuarto lugar, el análisis micro nos ha permitido constatar que todas las acciones que los escritores implementan durante la escritura de los artículos responden a una intencionalidad específica y, de entre las intencionalidades destaca el grado de consenso de los escritores en cuanto a la atención a cuestiones que tienen que ver con la expresión de la voz en el texto y la búsqueda de la precisión y la claridad. Finalmente, los resultados obtenidos nos han permitido comprobar la gran coincidencia entre los retos que los escritores abordan en los Episodios de Regulación explícitos y las sugerencias de mejora propuestas por los revisores. Esto pondría de manifiesto que la regulación del proceso de composición es una actividad que requiere la negociación entre la forma habitual de proceder (patrón de escritura), construida a partir de la práctica efectiva, y las particularidades de la situación de escritura. / From a situated perspective on cognition and conceiving writing as a socially and culturally mediated activity (Camps & Castelló, 1996; Candlin & Hyland, 1999; Lea & Stierer, 2000; Flowerdew & Peacock, 2001; Johns, 2002; Castelló, Iñesta & Gonzalez, 2008), we have conducted a comparative study of two cases focusing on the authentic task of research article writing in ecological conditions. Our specific objectives have been:1. To identify, characterize and compare the regulation activities that writers implement while writing two research articles: one in Spanish as a first language (L1) and one in English as an International Language (EIL)2. To know if L1 and EIL use has a differential impact on the activities writers implement while writing the research articles 3. To know if L1 and EIL use has a differential impact on the organization of information in the final versión of the articles4. To analyze the relationship between the challenges that actívate the Regulation Episodes and the improvement suggestions made by the editors, members of the same discourse communityData collection has implied the use of methodological instruments such as semistructured interviews, writing diaries, retrospective interviews, thinking case analysis, draft-comparison templates and recording the writing activity as it unfolds in the Word processor screen thanks to the Camtasia software. Moreover, we have used a unit of analysis, the Regulation Episode, that has allowed us to analyze in an integrated way the challenges or difficulties identified by the writers and the actions they have implemented to solve them. From the analysis of the data and the results obtained we the following conclusions can be derived. Firstly, we have observed that writing activity regulation can take place at an explicit and at an implicit level. This result indicates, therefore, the need to reconsider the conceptualization of regulation as an exclusively explicit phenomenon. Our results also show that the challenges whose resolution implies the use of linguistic or metalinguistic knowledge seem to remain at a more implicit level tan those which have to do with writing process management. Secondly, the results obtained show that writing activity regulation at a global or process level is related to a differential writing pattern for each writer (action-driven or text-driven), which is maintained both in L1 and in EIL, and of which writers appear to be only partially aware. Thirdly, no important difference seems to appear between L1 and EIL writing processes, and those which do appear have to do with very specific and local challenges (intensive use of writing helps, and actions oriented towards the attainment of an adequate EIL formulation), and not related with global and writing process management issues. Fourthly, the micro analysis has allowed us to know that the actions writers implement while writing the research articles obey specific communicative intentionalities and, among such intentionalities, it is important to underline that both writers pay attention to the expression of their voice in the text and the search for precision and clarity. Finally, our results have allowed us to see the clear coincidence between the challenges which writers address in the explicit Regulation Episodes and the editors' suggestions for revision. This would show that writing process regulation is an activity which requires the negotiation between the habitual way of writing (the writing pattern), constructed through effective practice, and the particularities of the writing situation.
14

Spectral processing of the singing voice

Loscos, Àlex 02 May 2007 (has links)
Aquesta tesi doctoral versa sobre el processament digital de la veu cantada, més concretament, sobre l'anàlisi, transformació i síntesi d'aquets tipus de veu en el domini espectral, amb especial èmfasi en aquelles tècniques rellevants per al desenvolupament d'aplicacions musicals.La tesi presenta nous procediments i formulacions per a la descripció i transformació d'aquells atributs específicament vocals de la veu cantada. La tesis inclou, entre d'altres, algorismes per l'anàlisi i la generació de desordres vocals como ara rugositat, ronquera, o veu aspirada, detecció i modificació de la freqüència fonamental de la veu, detecció de nasalitat, conversió de veu cantada a melodia, detecció de cops de veu, mutació de veu cantada, i transformació de veu a instrument; exemplificant alguns d'aquests algorismes en aplicacions concretes. / Esta tesis doctoral versa sobre el procesado digital de la voz cantada, más concretamente, sobre el análisis, transformación y síntesis de este tipo de voz basándose e dominio espectral, con especial énfasis en aquellas técnicas relevantes para el desarrollo de aplicaciones musicales.La tesis presenta nuevos procedimientos y formulaciones para la descripción y transformación de aquellos atributos específicamente vocales de la voz cantada. La tesis incluye, entre otros, algoritmos para el análisis y la generación de desórdenes vocales como rugosidad, ronquera, o voz aspirada, detección y modificación de la frecuencia fundamental de la voz, detección de nasalidad, conversión de voz cantada a melodía, detección de los golpes de voz, mutación de voz cantada, y transformación de voz a instrumento; ejemplificando algunos de éstos en aplicaciones concretas. / This dissertation is centered on the digital processing of the singing voice, more concretely on the analysis, transformation and synthesis of this type of voice in the spectral domain, with special emphasis on those techniques relevant for music applications. The thesis presents new formulations and procedures for both describing and transforming those attributes of the singing voice that can be regarded as voice specific. The thesis includes, among others, algorithms for rough and growl analysis and transformation, breathiness estimation and emulation, pitch detection and modification, nasality identification, voice to melody conversion, voice beat onset detection, singing voice morphing, and voice to instrument transformation; being some of them exemplified with concrete applications.
15

Singing-driven interfaces for sound synthesizers

Janer Mestres, Jordi 14 March 2008 (has links)
Els instruments musicals digitals es descomponen usualment en dues parts: la interfície d'usuari i el motor de síntesi. Tradicionalment la interfície d'usuari pren el nom de controlador musical. L'objectiu d'aquesta tesi és el disseny d'un interfície que permeti el control de la síntesi de sons instrumentals a partir de la veu cantada.Amb la present recerca, intentem relacionar la veu amb el so dels instruments musicals, tenint en compte tan la descripció del senyal de veu, com les corresponents estratègies de mapeig per un control adequat del sintetitzador.Proposem dos enfocaments diferents, d'una banda el control d'un sintetitzador de veu cantada, i d'altra banda el control de la síntesi de sons instrumentals. Per aquest últim, suggerim una representació del senyal de veu com a gests vocals, que inclou una sèrie d'algoritmes d'anàlisis de veu. A la vegada, per demostrar els resultats obtinguts, hem desenvolupat dos prototips a temps real. / Los instrumentos musicales digitales se pueden separar en dos componentes: el interfaz de usuario y el motor de sintesis. El interfaz de usuario se ha denominado tradicionalmente controlador musical. El objectivo de esta tesis es el diseño de un interfaz que permita el control de la sintesis de sonidos instrumentales a partir de la voz cantada.La presente investigación pretende relacionar las caracteristicas de la voz con el sonido de los instrumentos musicales, teniendo en cuenta la descripción de la señal de voz, como las correspondientes estrategias de mapeo para un control apropiado del sintetizador. Se proponen dos enfoques distintos, el control de un sintetizador de voz cantada, y el control de la sintesis de sonidos insturmentales. Para este último, se sugiere una representación de la señal de voz como gestos vocales, incluyendo varios algoritmos de analisis de voz. Los resultados obtenidos se demuestran con dos prototipos a tiempo real. / Digital musical instruments are usually decomposed in two main constituent parts: a user interface and a sound synthesis engine. The user interface is popularly referred as a musical controller, and its design is the primary objective of this dissertation. Under the title of singing-driven interfaces, we aim to design systems that allow controlling the synthesis of musical instruments sounds with the singing voice. This dissertation searches for the relationships between the voice and the sound of musical instruments by addressing both, the voice signal description, as well as the mapping strategies for a meaningful control of the synthesized sound. We propose two different approaches, one for controlling a singing voice synthesizer, and another for controlling the synthesis of instrumental sounds. For the latter, we suggest to represent voice signal as vocal gestures, contributing with several voice analysis methods.To demonstrate the obtained results, we developed two real-time prototypes.

Page generated in 0.0254 seconds