• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 151
  • 13
  • 10
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 179
  • 78
  • 45
  • 36
  • 23
  • 21
  • 19
  • 18
  • 15
  • 13
  • 12
  • 12
  • 11
  • 11
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
171

Síntesis y caracterización avanzada de materiales zeolíticos mediante el empleo de nuevos agentes orgánicos directores de estructura

Sala Gascón, Andrés 03 October 2022 (has links)
[ES] Las zeolitas han destacado por sus aplicaciones en procesos catalíticos y de adsorción/separación de gases de alto impacto industrial. Esto es debido a que presentan propiedades de tamiz molecular como consecuencia de sus estructuras microporosas y, además es posible ajustar sus propiedades catalíticas variando su composición química, presencia de defectos estructurales, tamaño promedio de cristal, etc. Hasta el momento se han reconocido 255 estructuras zeolíticas diferentes, pero la obtención de zeolitas con nuevas estructuras es un aspecto muy relevante dentro de la ciencia de materiales ya que permite ampliar el rango de aplicaciones de estos materiales. Por ello, el objetivo fundamental de esta tesis doctoral es la obtención de nuevos materiales zeolíticos, empleándose para ello, cationes orgánicos que actuarán como agentes directores de estructura (ADEs) en la cristalización de zeolitas. Así, se ha estudiado el empleo cationes derivados de biciclopirrolidina como ADEs sintetizados mediante reacciones orgánicas de cicloadición [3+2]. Estos ADEs han sido efectivos en la síntesis de zeolitas, obteniéndose diversos sólidos microporosos cuya preparación había sido descrita anteriormente con otros cationes orgánicos. Sin embargo, uno de los cationes empleados ha dado lugar a la cristalización de una nueva zeolita, denominada ITQ-69, que presenta un sistema tridireccional de canales rectos, de poro pequeño (8 x 8 x 8 R) y ausencia de cavidades. Este material ha sido efectivo en la separación selectiva de propileno de propano en su forma de germanosilicato. La síntesis de zeolitas quirales, es sin duda el objetivo más ambicioso propuesto. En esta tesis se ha explorado el empleo de derivados de azúcares como parte fundamental en la síntesis de ADEs. En concreto, se ha explorado la isomanida como unidad sintética quiral en la preparación de dicationes quirales. Cuando la isomanida se combina con la presencia de imidazolios (altamente selectivos hacía la estructura STW) se ha obtenido un material STW en forma de germanosilicato. Este sólido cristaliza formando cristales de tamaño suficientemente grande como para realizar estudios de difracción de Rayos X en monocristal, y determinar el exceso enantiomérico de distintas preparaciones. En todos los casos, se obtiene cristales S-STW homoquirales enantimórficamente puros, constituyendo el primer ejemplo de obtención selectiva quiral de una zeolita reportado hasta la fecha. En esta parte de la tesis, también se obtuvieron zeolitas con topología STW empleando ADEs no quirales. Algunos de estos sólidos, se evaluaron en la separación de hidrocarburos con diferentes grados de ramificación (zeolita STW puramente silícea) y en la reducción selectiva de NO con propano (zeolita Al-STW intercambiadas con Cu). Finalmente, se han estudiado diferentes cationes organofosforados como ADEs. La elevada estabilidad de estos cationes en el medio de síntesis, ha permitido la obtención de una nueva zeolita, ITQ-70, que presenta un elevado grado de defectos de conectividad y una muy baja densidad de red. La estructura de la zeolita ITQ-70 presenta un sistema de supercavidades con ventanas interconectadas de acceso a las mismas (20 x 20 x 18 R) y cristaliza con un grupo de simetría proquiral. / [CAT] Zeolites are well-known for their industrial applications. The presence of pores of molecular dimensions forming a structured channels system confers them the property of performing as a molecular sieve. This characteristic of zeolites, combined with the possibility of modifying their chemical composition, structural defects, average crystal size, etc., provides them with exceptional properties for catalytic and separation processes. Up to now, 255 different zeolitic structures have been compiled. However, obtaining zeolites with new structures remains an important challenge in materials science and broadening their applications. Therefore, the main objective of this doctoral thesis is the obtention of new zeolitic materials using organic cations as structure-directing agents (SDAs) in the crystallization process. Thus, the use of bicyclopyrrolidine-derived cations as ADEs, synthesized by organic cycloaddition reactions [3+2], has been studied. Several microporous solids whose preparation had been previously described using other organic cations have been obtained by utilizing these bicyclopyrrolidine-derived cations as ADEs. In addition, the crystallization of a new zeolite, ITQ-69, has been reached. This structure presents a tridirectional system of straight small pore size channels (8 x 8 x 8 R) and the absence of cavities. ITQ-69, in its germanosilicate form, has been proved to be significantly effective for the separation of propylene from propane. Obtaining chiral zeolite is undoubtedly one of the most ambitious objectives proposed in the field of zeolite synthesis. In this thesis, sugar derivatives have been specifically considered as starting molecules for the synthesis of chiral ADEs. Particularly, the synthesis of dicationic ADEs starting from isomannide as a chiral synthetic unit has been explored. When isomannide was combined with imidazole (highly selective towards the STW structure), a STW-structure material in the form of germanosilicate was obtained. This solid crystallizes forming sufficiently large crystals to perform single-crystal X-ray diffraction studies and determine the enantiomeric excess of different preparations. In all cases, enantiomorphically pure homochiral S-STW crystals are obtained, constituting the first reported example of chiral selective synthesis of a zeolite. Zeolites with STW structure were also obtained using non-chiral ADEs. The properties of these microporous solids were evaluated in the separation of hydrocarbons with different branching, in the form of purely siliceous STW, and in the selective reduction of NO with propane using Cu-exchanged Al-STW zeolites. Finally, different organophosphorus cations have been studied as ADEs. The high stability of these cations in the zeolites crystallization medium has allowed the isolation of a new zeolite, ITQ-70, which presents a high number of connectivity defects and a very low lattice density. The structure of the ITQ-70 zeolite possesses a super-cavity system with interconnected access windows (20 x 20 x 18) and crystallized with a prochiral symmetry group. / [EN] Les zeolites han destacat per les seues aplicacions en processos catalítics i processos d'adsorció/separació de gasos d'alt impacte industrial. Açò és degut al fet que presenten propietats de tamís molecular a conseqüència de les seues estructures microporoses i, a més és possible ajustar les seues propietats catalítiques variant la seua composició química, presència de defectes estructutals, grandària del cristall, etc. Fins al moment es reconeixen 255 estructures zeolítiques diferents, però l'obtenció de zeolites amb noves estructures és un aspecte molt rellevant dins de la ciència de materials, ja que permet ampliar el rang d'aplicacions d'aquests materials. Per tant, l'aspecte fonamental d'aquesta tesi doctoral és l'obtenció de nous materials zeolítics empleant cations orgànics que actuaran com a agents directors d'estructura (ADEs) en la cristal·lització de zeolites. Així, s'ha explorat l'us de cations derivats de biciclopirrolidina com ADEs sintetitzats mitjançant reaccions orgàniques de cicloadició [3+2]. Aquests ADEs han sigut efectius en la síntesis de zeolites, obtenint-se diversos sòlids microporosos, la preparació dels quals havia sigut descrita anteriorment amb altres cations orgànics. No obstant, un dels cations empleats ha donat lloc a la cristal·lització d'una nova zeolita, denominada ITQ-69, que presenta un sistema tridireccional de canals rectes, porus xicotets (8 x 8 x 8 R) i absència de cavitats. Aquest material ha sigut efectiu en la separació selectiva de propilé de propà en la seua forma de germanosilicat. Dins de la síntesi de zeolites, la síntesi de zeolites quirals, és sens dubte un dels objectius més ambiciosos proposats. En aquesta tesi s'ha explorat l'ús de derivats de sucres com a part fonamental en la síntesi de ADEs. En concret, s'ha explorat la isomanida com a unitat sintètica quiral en la preparació de dications quirals. Quan la isomanida es combina amb la presència de imidazolios (altament selectius feia l'estructura STW) s'ha obtingut un material STW en forma de germanosilicato. Aquest sòlid cristal·litza formant cristalls de grandària prou gran com per a realitzar estudis de difracció de Raigs X en monocristall, i determinar l'excés enantioméric de diferents preparacions. En tots els casos, s'obté cristalls S-STW homoquirals enantimórficament purs, constituint el primer exemple d'obtenció selectiva quiral d'una zeolita reportat fins a la data. En aquesta part de la tesi, també es van obtindre zeolites amb topologia STW empleant ADEs no quirals. Alguns dels materials STW es van avaluar les propietats d'aquests sòlids microporosos en la separació d'hidrocarburs amb diferents graus de ramificació amb STW purament silici i en la reducció selectiva de NO amb propà empleant zeolites Al-STW intercanviades amb Cu. Finalment, s'han estudiat diferents cations organofosforats com ADEs. L'elevada estabilitat d'aquests cations en el mitjà de cristal·lització de zeolites ha permés aïllar una nova zeolita, ITQ-70, que presenta un elevat grau de defectes de connectivitat i una molt baixa densitat de xarxa. L'estructura de la zeolita ITQ-70 té un sistema compost per supercavitats amb finestres interconnectades d'accés a les mateixes (20 x 20 x 18) i cristal·litza amb un grup de simetria proquiral. / Al Ministerio de Economía, Industria y Competitividad por concederme la Beca BES-2016-078684 que ha permitido la realización de esta tesis doctoral, junto a la ayuda económica proporcionada en los proyectos MAT2015-71842 y RTI2018-101784-B-100. A la Generalitat Valenciana su financiación a través del proyecto PROMETEO/2021/07 y por último a la Universidad Politécnica de Valencia (UPV), al Consejo Superior de Investigaciones Científicas (CSIC) y al Instituto de Tecnología Química (ITQ) por proporcionar las instalaciones y equipamiento necesarios para llevar a cabo el trabajo de investigación. / Sala Gascón, A. (2022). Síntesis y caracterización avanzada de materiales zeolíticos mediante el empleo de nuevos agentes orgánicos directores de estructura [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/186873
172

Producción de un corpus oral y modelado prosódico para la síntesis del habla expresiva

Iriondo Sanz, Ignasi 18 June 2008 (has links)
Aquesta tesi aborda diferents aspectes relacionats amb la síntesi de la parla expressiva. Es parteix de l'experiència prèvia en sistemes de conversió de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informació paralingüística com, per exemple, l'emoció del parlant, el seu estat d'ànim, una determinada intenció o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicció de la prosòdia per a la seva utilització en l'àmbit de la síntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generació d'alguns dels mòduls que componen un sistema de síntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenció de parla emocionada o expressiva i de l'experiència prèvia del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validació del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fonètica suficient (segmental i prosòdica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat té una durada de més de cinc hores i conté cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjançant la lectura de textos semànticament relacionats amb els estils definits, s'ha requerit un procés de validació que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluació exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grandària. D'altra banda, no existeix suficient coneixement científic per a emular completament la percepció subjectiva mitjançant tècniques automàtiques que permetin una validació exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un mètode que suposa un avanç cap a una solució pràctica i eficient d'aquest problema, mitjançant la combinació d'una avaluació subjectiva amb tècniques d'identificació automàtica de l'emoció en el parla. El mètode proposat s'utilitza per a portar a terme una revisió automàtica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha permès validar el correcte funcionament d'aquest procés automàtic. En segon lloc i, sobre la base dels coneixements actuals, de l'experiència adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimació de la prosòdia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions lingüística i paralingüística de la prosòdia a partir de l'extracció automàtica d'atributs prosòdics del text, que constitueixen l'entrada d'un sistema d'aprenentatge automàtic que prediu els trets prosòdics modelats prèviament. El sistema de modelatge prosòdic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una tècnica d'aprenentatge automàtic per analogia. Per a l'ajustament d'alguns paràmetres del sistema desenvolupat i per a la seva avaluació s'han utilitzat mesures objectives de l'error i de la correlació calculades en les locucions del conjunt de prova. Atès que les mesures objectives sempre es refereixen a casos concrets, no aporten informació sobre el grau d'acceptació que tindrà la parla sintetitzada en els oïdors. Per tant, s'han portat a terme una sèrie de proves de percepció en les quals un conjunt d'avaluadors ha puntuat un grup d'estímuls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha permès extreure algunes conclusions sobre la rellevància dels trets prosòdics en la parla expressiva, així com constatar que els resultats generats pel mòdul prosòdic han tingut una bona acceptació, encara que s'han produït diferències segons l'estil. / Esta tesis aborda diferentes aspectos relacionados con la síntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversión de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite información paralingüística como, por ejemplo, la emoción del hablante, su estado de ánimo, una determinada intención o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicción de la prosodia para su utilización en el ámbito de la síntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generación de algunos de los módulos que componen un sistema de síntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motivó el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtención de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el diseño, la grabación, el etiquetado y la validación del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la señal y una cobertura fonética suficiente (segmental y prosódica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duración de más de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos semánticamente relacionados con los estilos definidos, se ha requerido un proceso de validación que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluación exhaustiva de todos los enunciados del corpus sería excesivamente costosa en un corpus de gran tamaño. Por otro lado, no existe suficiente conocimiento científico para emular completamente la percepción subjetiva mediante técnicas automáticas que permitan una validación exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un método que supone un avance hacia una solución práctica y eficiente de este problema, mediante la combinación de una evaluación subjetiva con técnicas de identificación automática de la emoción en el habla. El método propuesto se utiliza para llevar a cabo una revisión automática de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso automático.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimación de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones lingüística y paralingüística de la prosodia a partir de la extracción automática de atributos prosódicos del texto, que constituyen la entrada de un sistema de aprendizaje automático que predice los rasgos prosódicos modelados previamente. El sistema de modelado prosódico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una técnica de aprendizaje automático por analogía. Para el ajuste de algunos parámetros del sistema desarrollado y para su evaluación se han utilizado medidas objetivas del error y de la correlación calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan información sobre el grado de aceptación que tendrá el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepción en las que un conjunto de oyentes ha puntuado un grupo de estímulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos prosódicos en el habla expresiva, así como constatar que los resultados generados por el módulo prosódico han tenido una buena aceptación, aunque se han producido diferencias según el estilo. / This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style.
173

Modelado de la cualidad de la voz para la síntesis del habla expresiva

Monzo Sánchez, Carlos Manuel 14 July 2010 (has links)
Aquesta tesi es realitza dins del marc de treball existent en el grup d'investigació Grup de Recerca en Tecnologies Mèdia (GTM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de dotar de major naturalitat a la interacció home-màquina. Per això ens basem en les limitacions de la tecnologia emprada fins al moment, detectant punts de millora en els que poder aportar solucions. Donat que la naturalitat de la parla està íntimament relacionada amb l'expressivitat que aquesta pot transmetre, aquests punts de millora es centren en la capacitat de treballar amb emocions o estils de parla expressius en general.L'objectiu últim d'aquesta tesi és la generació d'estils de parla expressius en l'àmbit de sistemes de Conversió de Text a Parla (CTP) orientats a la Síntesi de la Parla Expressiva (SPE), essent possible transmetre un missatge oral amb una certa expressivitat que l'oient sigui capaç de percebre i interpretar correctament. No obstant, aquest objectiu implica diferents metes intermitges: conèixer les opcions de parametrització existents, entendre cadascun dels paràmetres, detectar els pros i contres de la seva utilització, descobrir les relacions existents entre ells i els estils de parla expressius i, finalment, portar a terme la síntesi de la parla expressiva. Donat això, el propi procés de síntesi implica un treball previ en reconeixement d'emocions, que en si mateix podria ser una línia complerta d'investigació, ja que aporta el coneixement necessari per extreure models que poden ser usats durant el procés de síntesi.La cerca de l'increment de la naturalitat ha implicat una millor caracterització de la parla emocional o expressiva, raó per la qual s'ha investigat en parametritzacions que poguessin portar a terme aquesta comesa. Aquests són els paràmetres de Qualitat de la Veu Voice Quality (VoQ), que presenten com a característica principal que són capaços de caracteritzar individualment la parla, identificant cadascun dels factors que fan que sigui única. Els beneficis potencials, que aquest tipus de parametrització pot aportar a la interacció natural, són de dos classes: el reconeixement i la síntesi d'estils de parla expressius. La proposta de la parametrització de VoQ no pretén substituir a la ja emprada prosòdia, sinó tot el contrari, treballar conjuntament amb ella per tal de millorar els resultats obtinguts fins al moment.Un cop realitzada la selecció de paràmetres es planteja el modelat de la VoQ, és a dir la metodologia d'anàlisi i de modificació, de forma que cadascun d'ells pugui ser extret a partir de la senyal de veu i posteriorment modificat durant la síntesi. Així mateix, es proposen variacions pels paràmetres implicats i tradicionalment utilitzats, adaptant la seva definició al context de la parla expressiva. A partir d'aquí es passa a treballar en les relacions existents amb els estils de parla expressius, presentant finalment la metodologia de transformació d'aquests últims, mitjançant la modificació conjunta de la VoQ y la prosòdia, per a la SPE en un sistema de CTP. / Esta tesis se realiza dentro del marco de trabajo existente en el grupo de investigación Grup de Recerca en Tecnologies Mèdia (GTM) de Enginyeria i Arquitectura La Salle, con el objetivo de dotar de mayor naturalidad a la interacción hombre-máquina. Para ello nos basamos en las limitaciones de la tecnología empleada hasta el momento, detectando puntos de mejora en los que poder aportar soluciones. Debido a que la naturalidad del habla está íntimamente relacionada con la expresividad que esta puede transmitir, estos puntos de mejora se centran en la capacidad de trabajar con emociones o estilos de habla expresivos en general.El objetivo último de esta tesis es la generación de estilos de habla expresivos en el ámbito de sistemas de Conversión de Texto en Habla (CTH) orientados a la Síntesis del Habla Expresiva (SHE), siendo posible transmitir un mensaje oral con una cierta expresividad que el oyente sea capaz de percibir e interpretar correctamente. No obstante, este objetivo implica diferentes metas intermedias: conocer las opciones de parametrización existentes, entender cada uno de los parámetros, detectar los pros y contras de su utilización, descubrir las relaciones existentes entre ellos y los estilos de habla expresivos y, finalmente, llevar a cabo la síntesis del habla expresiva. El propio proceso de síntesis implica un trabajo previo en reconocimiento de emociones, que en sí mismo podría ser una línea completa de investigación, ya que muestra la viabilidad de usar los parámetros seleccionados en la discriminación de estos y aporta el conocimiento necesario para extraer los modelos que pueden ser usados durante el proceso de síntesis.La búsqueda del incremento de la naturalidad ha implicado una mejor caracterización del habla emocional o expresiva, con lo que para ello se ha investigado en parametrizaciones que pudieran llevar a cabo este cometido. Estos son los parámetros de Cualidad de la Voz Voice Quality (VoQ), que presentan como característica principal que son capaces de caracterizar individualmente el habla, identificando cada uno de los factores que hacen que sea única. Los beneficios potenciales, que este tipo de parametrización puede aportar a la interacción natural, son de dos clases: el reconocimiento y la síntesis de estilos de habla expresivos. La propuesta de la parametrización de VoQ no pretende sustituir a la ya empleada prosodia, sino todo lo contrario, trabajar conjuntamente con ella para mejorar los resultados obtenidos hasta el momento.Una vez realizada la selección de los parámetros se plantea el modelado de la VoQ, es decir, la metodología de análisis y de modificación de forma que cada uno de ellos pueda ser extraído a partir de la señal de voz y posteriormente modificado durante la síntesis. Asimismo, se proponen variaciones para los parámetros implicados y tradicionalmente utilizados, adaptando su definición al contexto del habla expresiva.A partir de aquí se pasa a trabajar en las relaciones existentes con los estilos de habla expresivos, presentando finalmente la metodología de transformación de estos últimos, mediante la modificación conjunta de VoQ y prosodia, para la SHE en un sistema de CTH. / This thesis is conducted on the existing working framework in the Grup de Recerca en Tecnologies Mèdia (GTM) research group of the Enginyeria i Arquitectura La Salle, with the aim of providing the man-machine interaction with more naturalness. To do this, we are based on the limitations of the technology used up to now, detecting the improvement points where we could contribute solutions. Given that the speech naturalness is closely linked with the expressivity communication, these improvement points are focused on the ability of working with emotions or expressive speech styles in general.The final goal of this thesis is the expressive speech styles generation in the field of Text-to-Speech (TTS) systems aimed at Expressive Speech Synthesis (ESS), with the possibility of communicating an oral message with a certain expressivity that the listener will be able to correctly perceive and interpret. Nevertheless, this goal involves different intermediate aims: to know the existing parameterization options, to understand each of the parameters, to find out the existing relations among them and the expressive speech styles and, finally, to carry out the expressive speech synthesis. All things considered, the synthesis process involves a previous work in emotion recognition, which could be a complete research field, since it shows the feasibility of using the selected parameters during their discrimination and provides with the necessary knowledge for the modelling that can be used during the synthesis process.The search for the naturalness improvement has implied a better characterization of the emotional or expressive speech, so we have researched on parameterizations that could perform this task. These are the Voice Quality (VoQ) parameters, which main feature is they are able to characterize the speech in an individual way, identifying each factor that makes it unique. The potential benefits that this kind of parameterization can provide with natural interaction are twofold: the expressive speech styles recognition and the synthesis. The VoQ parameters proposal is not trying to replace prosody, but working altogether to improve the results so far obtained.Once the parameters selection is conducted, the VoQ modelling is raised (i. e. analysis and modification methodology), so each of them can be extracted from the voice signal and later on modified during the synthesis. Also, variations are proposed for the involved and traditionally used parameters, adjusting their definition to the expressive speech context. From here, we work on the existing relations with the expressive speech styles and, eventually we show the transformation methodology for these ones, by means of the modification of VoQ and prosody, for the ESS in a TTS system.
174

Optimització perceptiva dels sistemes de síntesi de la parla basats en selecció d’unitats mitjançant algorismes genètics interactius actius

Formiga Fanals, Lluís 27 April 2011 (has links)
Els sistemes de conversió de text en parla (CTP-SU) s'encarreguen de produir veu sintètica a partir d'un text d'entrada. Els CTP basats en selecció d'unitats (CTP-SU) recuperen la millor seqüència d'unitats de veu enregistrades prèviament en una base de dades (corpus). La recuperació es realitza mitjançant algorismes de programació dinàmica i una funció de cost ponderada. La ponderació de la funció de cost es realitza típicament de forma manual per part d'un expert. No obstant, l'ajust manual resulta costós des d'un punt de vista de coneixement prèvi, i imprecís en la seva execució. Per tal d'ajustar els pesos de la funció de cost, aquesta tesi parteix de la prova de viabilitat d'ajust perceptiu presentada per Alías (2006) que empra algorismes genètics interactius actius (active interactive Genetic Algorithm - aiGA). Aquesta tesi doctoral investiga les diferents problemàtiques que es presenten en aplicar els aiGAs en l'ajust de pesos d'un CTP-SU en un context real de selecció d'unitats. Primerament la tesi realitza un estudi de l'estat de l'art en l'ajust de pesos. Tot seguit, repassa la idoneïtat de la computació evolutiva interactiva per realitzar l'ajust revisant amb profunditat el treball previ. Llavors es presenten i es validen les propostes de millora. Les quatre línies mestres que guien les contribucions d'aquesta tesi són: la precisió en l'ajust dels pesos, la robustesa dels pesos obtinguts, l'aplicabilitat de la metodologia per qualsevol funció de cost i el consens dels pesos obtinguts incorporant el criteri de diferents usuaris. En termes de precisió la tesi proposa realitzar l'ajust perceptiu per diferents tipus (clústers) d'unitats respectant les seves peculiaritats fonètiques i contextuals. En termes de robustesa la tesi incorpora diferents mètriques evolutives (indicadors) que avaluen aspectes com l'ambigüitat en la cerca, la convergència d'un usuari o el nivell de consens entre diferents usuaris. Posteriorment, per estudiar l'aplicabilitat de la metodologia proposada s'ajusten perceptivament diferents pesos que combinen informació lingüística i simbòlica. La última contribució d'aquesta tesi estudia l'idoneïtat dels models latents per modelar les preferències dels diferents usuaris i obtenir una solució de consens. Paral•lelament, per fer el pas d'una prova de viabilitat a un entorn real de selecció d'unitats es treballa amb un corpus d'extensió mitjana (1.9h) etiquetat automàticament. La tesi permet concloure que l'aiGA a nivell de clúster és una metodologia altament competitiva respecte les altres tècniques d'ajust presents en l'estat de l'art. / Los sistemas de conversión texto-habla (CTH-SU) se encargan de producir voz sintética a partir de un texto de entrada. Los CTH basados en selección de unidades (CTH-SU) recuperan la mejor secuencia de unidades de voz grabadas previamente en una base de datos (corpus). La recuperación se realitza mediante algoritmos de programación dinámica y una función de coste ponderada. La ponderación de la función de coste se realiza típicamente de forma manual por parte de un experto. Sin embargo, el ajuste manual resulta costoso desde un punto de vista de conocimiento previo e impreciso en su ejecución. Para ajustar los pesos de la función de coste, esta tesis parte de la prueba de viabilidad de ajuste perceptivo presentada por Alías (2006) que emplea algoritmos genéticos interactivos activos (active interactive Genetic Algorithm - aiGA). Esta tesis doctoral investiga las diferentes problemáticas que se presentan al aplicar los aiGAs en el ajuste de pesos de un CTH-SU en un contexto real de selección de unidades. Primeramente la tesis realiza un estudio del estado del arte en el ajuste de pesos, posteriormente repasa la idoneidad de la computación evolutiva interactiva para realizar el ajuste revisando en profundidad el trabajo previo. Entonces se presentan y se validan las propuestas de mejora. Las cuatro líneas maestras que guían las contribuciones de esta tesis son: la precisión en el ajuste de los pesos, la robustez de los pesos obtenidos, la aplicabilidad de la metodología para cualquier función de coste y el consenso de los pesos obtenidos incorporando el criterio de diferentes usuarios. En términos de precisión la tesis propone realizar el ajuste perceptivo por diferentes tipos (clusters) de unidades respetando sus peculiaridades fonéticas y contextuales. En términos de robustez la tesis incorpora diferentes métricas evolutivas (indicadores) que evalúan aspectos como la ambigüedad en la búsqueda, la convergencia de un usuario o el nivel de consenso entre diferentes usuarios. Posteriormente, para estudiar la aplicabilidad de la metodología propuesta se ajustan perceptivamente diferentes pesos que combinan información lingüística y simbólica. La última contribución de esta tesis estudia la idoneidad de los modelos latentes para modelar las preferencias de los diferentes usuarios y obtener una solución de consenso. Paralelamente, para dar el paso de una prueba de viabilidad a un entorno real de selección de unidades se trabaja con un corpus de extensión media (1.9h) etiquetado automáticamente. La tesis permite concluir que el aiGA a nivel de cluster es una metodología altamente competitiva respecto a las otras técnicas de ajuste presentes en el estado del arte. / Text-to-Speech Systems (TTS) produce synthetic speech from an input text. Unit Selection TTS (US-TTS) systems are based on the retrieval of the best sequence of recorded speech units previously recorded into a database (corpus). The retrieval is done by means of dynamic programming algorithm and a weighted cost function. An expert typically performs the weighting of the cost function by hand. However, hand tuning is costly from a standpoint of previous training and inaccurate in terms of methodology. In order to properly tune the weights of the cost function, this thesis continues the perceptual tuning proposal submitted by Alías(2006) which uses active interactive Genetic Algorithms (aiGAs). This thesis conducts an investigation to the various problems that arise in applying aiGAs to the weight tuning of the cost function. Firstly, the thesis makes a deep revision to the state-of-the-art in weight tuning. Afterwards, the thesis outlines the suitability of Interactive Evolutionary Computation (IEC) to perform the weight tuning making a thorough review of previous work. Then, the proposals of improvement are presented. The four major guidelines pursued by this thesis are: accuracy in adjusting the weights, robustness of the weights obtained, the applicability of the methodology to any subcost distance and the consensus of weights obtained by different users. In terms of precision cluster-level perceptual tuning is proposed in order to obtain weights for different types (clusters) of units considering their phonetic and contextual properties. In terms of robustness of the evolutionary process, the thesis presents different metrics (indicators) to assess aspects such as the ambiguity within the evolutionary search, the convergence of one user or the level of consensus among different users. Subsequently, to study the applicability of the proposed methodology different weights are perceptually tuned combining linguistic and symbolic information. The last contribution of this thesis examines the suitability of latent models for modeling the preferences of different users and obtains a consensus solution. In addition, the experimentation is carried out through a medium size corpus (1.9h) automatically labelled in order fill the gap between the proof-of-principle and a real unit selection scenario. The thesis concludes that aiGAs are highly competitive in comparison to other weight tuning techniques from the state-of-the-art.
175

Desenvolupament de nous compostos amb activitat brassinoesteroide mitjançant modelització molecular i síntesi

Capdevila Urbaneja, Enric 08 July 2009 (has links)
Els brassinoesteroides són fitohormones naturals que presenten un potencial molt prometedor per a ser aplicats a l’agricultura. L’elevat cost d’obtenció d’aquests compostos ha estimulat la recerca d’anàlegs que ofereixin una bona relació entre la seva activitat biològica i el seu cost. En aquest sentit, es creu interessant abordar la cerca de compostos d’estructura no esteroïdal amb activitat brassinosteroide mitjançant mètodes computacionals. Per assolir aquest objectiu s’han plantejat dos enfocaments: per una banda, buscar estructures totalment noves i, per l’altra, buscar estructures que puguin mimetitzar només l’esquelet esteroidal d’anàlegs brassinoesteroides androstànics actius per a, posteriorment, ancorar hi la cadena addient. Amb la primera aproximació s’han realitzat processos de virtual screening sobre bases de dades de screening compounds comercials mitjançant dues estratègies: un model de QSAR, desenvolupat amb descriptors independents de l’alineament amb el programa ALMOND, i l’aplicació de la metodologia FLAP. Després d’un procés de filtració, a partir dels dos mètodes s’han proposat una serie de candidats, l’activitat dels quals ha estat avaluada amb el test d’inclinació de la làmina d’arròs (RLIT). En total, s’han trobat 7 hits, 4 dels quals formen una sèrie en la que comparteixen l’estructura de N (2 hidroxietil)piperazina. Aquests compostos es plantegen com a nous referents per obtenir estructures no esteroidals amb activitat brassinoesteroide. Per altra banda, amb la segona aproximació, s’ha aplicat la metodologia de scaffold hopping amb el programa SHOP per trobar estructures que puguin mimetitzar esquelets androstànics brassinoesteroides. Aquesta metodologia s’ha aplicat sobre dues bases de dades: una de building blocks comercials i una disenyada ad hoc prenent com a referència estructures basades en coneixements previs. Després d’una etapa de selecció mitjançant alineaments flexibles efectuats amb el programa MOE, 11 estructures han estat proposades per a la síntesis d’anàlegs. S’ha intentat la síntesis de 3 compostos a partir d’estructures anàlogues de l’esquelet androstànic escollides preliminarment. Els grups protectors escollits i les condicions de reacció assajades no han rendit els compostos desitjats però han proporcionat informació per afrontar la síntesi de futurs anàlegs brassinoesteroides amb estructures no esteroïdals. / Los brasinoesteroides son fitohormonas naturales que presentan un potencial muy prometedor para ser aplicados en la agricultura. El elevado coste de obtención de estos compuestos ha estimulado la búsqueda de análogos que ofrezcan una buena relación entre su actividad y su coste. En este sentido, se cree interesante abordar la búsqueda de compuestos de estructura no esteroidal con actividad brasinoesteroide mediante técnicas computacionales. Para lograr este objetivo se han planteado dos enfoques: por un lado, buscar estructuras totalmente nuevas y, por el otro, buscar estructuras que puedan mimetizar solo el esqueleto esteroidal de análogos brasinoesteroides androstánicos activos para, posteriormente, anclar la cadena adecuada. Con la primera aproximación se han realizado procesos de virtual screening sobre bases de datos de screening compounds comerciales mediante dos estrategias: un modelo de QSAR, desarrollado con descriptores independientes del alineamiento con el programa ALMOND, y la aplicación de la metodología FLAP. Después de un proceso de filtrado, a partir de los dos métodos se han propuesto una serie de candidatos, la actividad de los cuales ha sido evaluada con el test de inclinación de la lámina de arroz (RLIT). En total, se han encontrado 7 hits, 4 de los cuales forman una serie que comparte la estructura de N (2 hidroxietil)piperazina. Estos compuestos se plantean como nuevos referentes para obtener estructuras no esteroidales con actividad brasinoesteroide. Por otro lado, con la segunda aproximación, se ha aplicado la metodología de scaffold hopping con el programa SHOP para encontrar estructuras que puedan mimetizar esqueletos androstánicos brasinoesteroides. Esta metodología se ha aplicado sobre dos bases de datos: una de building blocks comerciales y otra diseñada ad hoc tomando como referencia estructuras basadas en conocimientos previos. Después de una etapa de selección mediante alineamientos flexibles realizada con el programa MOE, 11 estructuras han sido propuestas para la síntesis de análogos. Se ha intentado la síntesis de 3 nuevos compuestos a partir de estructuras análogas del esqueleto androstánico escogidas preliminarmente. Los grupos protectores escogidos i las condiciones de reacción ensayadas no han rendido los compuestos deseados pero han proporcionado información para afrontar la síntesis de futuros análogos brasinoesteroides con estructuras no esteroidales. / Brassinosteroids are natural phytohormones that present a promising potential in agricultural applications. The high cost to obtain these compounds has promoted the research of analogues that offer a good relationship between their biological activity and their cost. Keeping this idea in mind, the search of compounds with non-steroidal structure with brassinosteroid activity using computational methods was considered an interesting goal. To achieve this objective two approaches has been proposed: on one side, to search completely new structures and, on the other, to search structures mimetic to the steroidal skeleton of active androstane brassinosteroid analogues, where the adequate side chain has to be anchored. With the first approach, virtual screening processes over commercial screening compound databases have been performed using two strategies: a QSAR model developed with alignment-free descriptors with the program ALMOND, and the application of FLAP methodology. After a filtering process, some structures have been proposed as candidates, whose biological activity in the Rice Lamina Inclination Test (RLIT) has been measured. Totally, 7 hits have been found, from which 4 form a series sharing the N (2 hidroxiethyl)piperazine. These compounds are proposed as new referents to find non steroidal structures with brassinosteroid activity. With the second approach, the scaffold hopping methodology has been applied with SHOP program to find structures mimetic to androstane brassinosteroid skeletons. This methodology has been applied over two databases: a commercial building blocks one and an ad hoc designed one, taking as reference structures based on previous knowledge. After a filtering step with flexible alignments performed with the program MOE, 11 structures have been proposed for the synthesis of new compounds. The synthesis of 3 new compounds has been tried starting from preliminary selected structures analogous to the androstane skeleton. The chosen protecting groups and the tested reaction conditions have not yielded the desired compounds but have given information to face the future synthesis of brassinosteroid analogues with non-steroidal structures.
176

Spectral processing of the singing voice

Loscos, Àlex 02 May 2007 (has links)
Aquesta tesi doctoral versa sobre el processament digital de la veu cantada, més concretament, sobre l'anàlisi, transformació i síntesi d'aquets tipus de veu en el domini espectral, amb especial èmfasi en aquelles tècniques rellevants per al desenvolupament d'aplicacions musicals.La tesi presenta nous procediments i formulacions per a la descripció i transformació d'aquells atributs específicament vocals de la veu cantada. La tesis inclou, entre d'altres, algorismes per l'anàlisi i la generació de desordres vocals como ara rugositat, ronquera, o veu aspirada, detecció i modificació de la freqüència fonamental de la veu, detecció de nasalitat, conversió de veu cantada a melodia, detecció de cops de veu, mutació de veu cantada, i transformació de veu a instrument; exemplificant alguns d'aquests algorismes en aplicacions concretes. / Esta tesis doctoral versa sobre el procesado digital de la voz cantada, más concretamente, sobre el análisis, transformación y síntesis de este tipo de voz basándose e dominio espectral, con especial énfasis en aquellas técnicas relevantes para el desarrollo de aplicaciones musicales.La tesis presenta nuevos procedimientos y formulaciones para la descripción y transformación de aquellos atributos específicamente vocales de la voz cantada. La tesis incluye, entre otros, algoritmos para el análisis y la generación de desórdenes vocales como rugosidad, ronquera, o voz aspirada, detección y modificación de la frecuencia fundamental de la voz, detección de nasalidad, conversión de voz cantada a melodía, detección de los golpes de voz, mutación de voz cantada, y transformación de voz a instrumento; ejemplificando algunos de éstos en aplicaciones concretas. / This dissertation is centered on the digital processing of the singing voice, more concretely on the analysis, transformation and synthesis of this type of voice in the spectral domain, with special emphasis on those techniques relevant for music applications. The thesis presents new formulations and procedures for both describing and transforming those attributes of the singing voice that can be regarded as voice specific. The thesis includes, among others, algorithms for rough and growl analysis and transformation, breathiness estimation and emulation, pitch detection and modification, nasality identification, voice to melody conversion, voice beat onset detection, singing voice morphing, and voice to instrument transformation; being some of them exemplified with concrete applications.
177

Synthesis and Characterization of Zeolitic Materials Using Phosphorous Organic Structure Directing Agents

Simancas Coloma, Jorge 02 September 2021 (has links)
[ES] Las zeolitas son materiales cristalinos microporosos con canales y tamaños de poro de dimensiones moleculares. La estructura y composición de las zeolitas les confiere interesantes propiedades que permiten su aplicación en una amplia gama de aplicaciones industriales como adsorción, separación o catálisis. La síntesis de zeolitas es la etapa más importante para el control de la estructura y composición de las zeolitas y, por tanto, crítica para la optimización de sus propiedades. Esta tesis se ha centrado en la síntesis de zeolitas utilizando compuestos que contienen fósforo (cationes fosfonio y aminofosfonio) como Agentes Directores de Estructura (P-ADE). El uso de compuestos fosforados influye en la cristalización y propiedades de las zeolitas obtenidas en comparación con las zeolitas obtenidas con cationes de amonio clásicos. Los compuestos fosforados se eligieron debido a su diferente química y estabilidad con respecto a los cationes de amonio clásicos comúnmente usados en la síntesis de zeolitas. Estos aspectos se estudiaron con un estudio comparativo de diferentes cationes de amonio y fosforados. Los compuestos de fósforo utilizados en este trabajo han dado lugar a nuevas estructuras cristalinas (ITQ-58 e ITQ-66) y han abierto nuevas vías de síntesis de zeolitas ya conocidas (RTH, IWV y DON), ampliando su gama de composiciones químicas. La descomposición térmica de los P-ADE confinados dentro de las zeolitas da lugar a la formación de especies de fósforo extra-red que permanecen dentro de los canales y cavidades de las zeolitas. Estas especies modulan las propiedades ácidas y de adsorción de los materiales finales dependiendo de los tratamientos post-síntesis. En este trabajo se ha estudiado una ruta para la incorporación de cantidades controladas de fósforo durante la etapa de síntesis. Esto ha permitido controlar la adsorción y las propiedades ácidas en las zeolitas de poro pequeño, lo que no se puede lograr mediante metodologías de post-síntesis. / [CA] Les zeolites són materials cristal·lins microporosos amb canals i mides de porus de dimensions moleculars. L'estructura i composició de les zeolites els confereix interessants propietats que permeten la seua aplicació en una àmplia gamma d'aplicacions industrials com adsorció, separació o catàlisi. La síntesi de zeolites és l'etapa més important per al control de l'estructura i composició de les zeolites i, per tant, crítica per a l'optimització de les seues propietats. Aquesta tesi s'ha centrat en la síntesi de zeolites utilitzant compostos que contenen fòsfor (cations fosfoni i aminofosfoni) com a agents directors d'estructura (P-ADE). L'ús de compostos fosforats influeix en la cristal·lització i propietats de les zeolites obtingudes en comparació amb les zeolites obtingudes amb cations d'amoni clàssics. Els compostos fosforats es van triar a causa de la seua diferent química i estabilitat pel que fa als cations d'amoni clàssics utilitzats en la síntesi de zeolites. Aquests aspectes s¿estudiaren amb un estudi comparatiu de diferents cations d'amoni i fosforats. Els compostos de fòsfor utilitzats en aquest treball han donat lloc a noves estructures cristal·lines (ITQ-58 i ITQ-66) i han obert noves vies de síntesi de zeolites ja conegudes (RTH, IWV i DO), ampliant la seua gamma de composicions químiques. La descomposició tèrmica dels P-ADE atrapats dins de les zeolites dona lloc a la for-mació d'espècies de fòsfor extra-xarxa que romanen dins dels canals i cavitats de les zeolites. Aquestes espècies modulen les propietats àcides i d'adsorció dels materials finals depenent dels tractaments post-síntesi. En aquest treball s'ha estudiat una ruta per la incorporació de quantitats controlades de fòsfor durant l'etapa de síntesi. Això ha permés controlar l'adsorció i les propietats àcides en les zeolites de porus petit, el que no es pot aconseguir mitjançant metodologies de post-síntesi. / [EN] Zeolites are microporous crystalline materials with channels and pore openings of molecular dimensions. The structure and composition of zeolites confers them interesting properties that allow their application in a wide range of industrial applications as adsorption, separation or catalysis. The synthesis of zeolites is the most important stage to control the structure and composition of zeolites, and thus, critical to optimize their properties. This thesis has been focused on the synthesis of zeolites using phosphorous containing compounds (phosphonium and aminophosphonium cations) as Organic Structure Directing Agents (P-OSDA). The use of these phosphorous compounds influence the crystallization and properties of the obtained zeolites compared to zeolites obtained with classical ammo-nium cations. Phosphorous compounds were chosen because of their different chemistry and stabil-ity properties respect to classical ammonium cations commonly used in the synthesis of zeo-lites. These aspects were studied in a comparative study with different ammonium and phosphorous cations. The phosphorous compounds used in this work have yielded new crystalline structures (ITQ-58 and ITQ-66) and opened new routes for the synthesis of already known zeolites (RTH, IWV and DON), widening their chemical composition range. The thermal decomposition of the P-OSDAs entrapped inside the zeolites yields to the formation of extra-framework phosphorus species that remain inside the channels and voids of the zeolites. These species modulate the adsorption and acid properties of the final materials depending on the post-synthesis treatments. In this work, a route for the incorporation of controlled amounts of phosphorus during the synthesis stage has been studied. This has allowed to control the adsorption and acid properties in small pores zeolites, which cannot be achieved by post-synthesis methodologies. / I wish to firstly acknowledge the Spanish Government for the necessary funding for the FPI pre-doctoral fellowship (BES-2013-062999). Also, this thesis would not have been possible without the infrastructures provided by the UPV and the CSIC staff, fused into the ITQ. Furthermore, I want to acknowledge the Microscopy Service of the UPV for their support in sample microscopy characterization / Simancas Coloma, J. (2021). Synthesis and Characterization of Zeolitic Materials Using Phosphorous Organic Structure Directing Agents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/171267
178

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel 12 July 2022 (has links)
[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. / [CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. / [EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, the striking success of deep learning in a large variety of natural language processing (NLP) applications, including automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS), has resulted in major accuracy improvements, thus widening the applicability of these technologies in real-life settings. At this point, it is clear that ASR and MT technologies can be utilized to produce cost-effective, high-quality multilingual subtitles of video contents of different kinds. This is particularly true in the case of transcription and translation of video lectures and other kinds of educational materials, in which the audio recording conditions are usually favorable for the ASR task, and there is a grammatically well-formed speech. However, although state-of-the-art neural approaches to TTS have shown to drastically improve the naturalness and quality of synthetic speech over conventional concatenative and parametric systems, it is still unclear whether this technology is already mature enough to improve accessibility and engagement in online learning, and particularly in the context of higher education. Furthermore, advanced topics in TTS such as cross-lingual voice cloning, incremental TTS or zero-shot speaker adaptation remain an open challenge in the field. This thesis is about enhancing the performance and widening the applicability of modern neural TTS technologies in real-life settings, both in offline and streaming conditions, in the context of improving accessibility and engagement in online learning. Thus, particular emphasis is placed on speaker adaptation and cross-lingual voice cloning, as the input text corresponds to a translated utterance in this context. / Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019 / Premios Extraordinarios de tesis doctorales
179

Síntesis Audiovisual Realista Personalizable

Melenchón Maldonado, Javier 13 July 2007 (has links)
Es presenta un esquema únic per a la síntesi i anàlisi audiovisual personalitzable realista de seqüències audiovisuals de cares parlants i seqüències visuals de llengua de signes en àmbit domèstic. En el primer cas, amb animació totalment sincronitzada a través d'una font de text o veu; en el segon, utilitzant la tècnica de lletrejar paraules mitjançant la ma. Les seves possibilitats de personalització faciliten la creació de seqüències audiovisuals per part d'usuaris no experts. Les aplicacions possibles d'aquest esquema de síntesis comprenen des de la creació de personatges virtuals realistes per interacció natural o vídeo jocs fins vídeo conferència des de molt baix ample de banda i telefonia visual per a les persones amb problemes d'oïda, passant per oferir ajuda a la pronunciació i la comunicació a aquest mateix col·lectiu. El sistema permet processar seqüències llargues amb un consum de recursos molt reduït, sobre tot, en el referent a l'emmagatzematge, gràcies al desenvolupament d'un nou procediment de càlcul incremental per a la descomposició en valors singulars amb actualització de la informació mitja. Aquest procediment es complementa amb altres tres: el decremental, el de partició i el de composició. / Se presenta un esquema único para la síntesis y análisis audiovisual personalizable realista de secuencias audiovisuales de caras parlantes y secuencias visuales de lengua de signos en entorno doméstico. En el primer caso, con animación totalmente sincronizada a través de una fuente de texto o voz; en el segundo, utilizando la técnica de deletreo de palabras mediante la mano. Sus posibilidades de personalización facilitan la creación de secuencias audiovisuales por parte de usuarios no expertos. Las aplicaciones posibles de este esquema de síntesis comprenden desde la creación de personajes virtuales realistas para interacción natural o vídeo juegos hasta vídeo conferencia de muy bajo ancho de banda y telefonía visual para las personas con problemas de oído, pasando por ofrecer ayuda en la pronunciación y la comunicación a este mismo colectivo. El sistema permite procesar secuencias largas con un consumo de recursos muy reducido gracias al desarrollo de un nuevo procedimiento de cálculo incremental para la descomposición en valores singulares con actualización de la información media. / A shared framework for realistic and personalizable audiovisual synthesis and analysis of audiovisual sequences of talking heads and visual sequences of sign language is presented in a domestic environment. The former has full synchronized animation using a text or auditory source of information; the latter consists in finger spelling. Their personalization capabilities ease the creation of audiovisual sequences by non expert users. The applications range from realistic virtual avatars for natural interaction or videogames to low bandwidth videoconference and visual telephony for the hard of hearing, including help to speech therapists. Long sequences can be processed with reduced resources, specially storing ones. This is allowed thanks to the proposed scheme for the incremental singular value decomposition with mean preservation. This scheme is complemented with another three: the decremental, the split and the composed ones.

Page generated in 0.0814 seconds