Quels liens entre accentuation et niveaux de constituance en français ? : une analyse perceptive et acoustique / The relationship between accentuation and levels of constituency in French : a perceptual and acoustical investigation

Garnier, Laury 21 February 2018 (has links)
L’accent en français est considéré comme un accent post-lexical marquant le niveau du groupe de mots plutôt que le niveau du mot lui-même. L’Accent Final (AF) primaire, cooccurrent à la frontière prosodique, s’effacerait perceptivement en frontière prosodique majeure. L’Accent Initial (AI), dit secondaire et optionnel, serait un accent rythmique apparaissant sur les longs constituants. Dans ce contexte, seuls deux niveaux de constituance sont communément admis en français : le Syntagme Intonatif (IP) et le Syntagme Accentuel (AP). L’existence d’un Syntagme Intermédiaire (ip) est en revanche controversée. Enfin, la prise en compte du Mot Prosodique (PW) (i.e. mot lexical) comme unité de planification, ou de réalisation des règles accentuelles, en structure de surface ne semble pas envisagé. L’objectif de cette étude est d’explorer l’organisation du phrasé prosodique en français. Dans ce cadre, nous proposons une étude perceptive, via un corpus de parole contrôlée manipulant des structures syntaxiques ambiguës, où 80 participants ont effectué 3 tâches de perception : proéminence, frontière et groupement. Les événements prosodiques perçus ont ensuite été mis en relation avec leurs réalités acoustiques. Les résultats montrent que les auditeurs sont capables de percevoir des niveaux de granularité de frontières plus fins que ce que les descriptions traditionnelles du français prédisent. Par ailleurs, les mots lexicaux sont systématiquement réalisés par un marquage bipolaire (AI+AF) de même force métrique. AI joue également un rôle plus structurel que rythmique, en marquant la structure prosodique de manière plus privilégiée qu’AF. Enfin, AF ne s’efface pas perceptivement en frontière prosodique majeure, et garde au contraire une trace métrique au niveau du mot lexical, qui ne varie pas strictement en fonction du niveau de constituance. / In French, accentuation is said to be post-lexical, marking the phrase rather than the word. That is, the primary final accent (FA) is considered to be perceptively weakened when co-occurring with a major prosodic boundary, while the Initial Accent (IA), regarded as a secondary and optional accent, is thought to hold merely a rhythmic function in balancing longer constituents. Consequently, only two levels of prosodic constituency are accounted for in French: the Intonational Phrase (IP), and the Accentual Phrase (AP). The existence of a third level, the Intermediate Phrase (ip), while advanced by some authors, remains controversial. Moreover, the Prosodic Word (PW) (i.e. lexical word) as a phonological unit, or as the domain of accentual rules, is disregarded altogether. The aim of our study is to investigate the organization of prosodic phrasing in French. We propose a perception study on a corpus in which syntactically ambiguous structures were manipulated, and asked 80 participants to perform 3 distinct perception tasks: a prominence, boundary and grouping task. The perceived prosodic events were then related to their acoustic realization. Taken together, our results indicate that listeners are able to distinguish finer-grained grouping levels than those predicted in traditional French descriptions. Moreover, lexical words are systematically realized by an accentual bipolarization (IA+FA), with each accent carrying the same metrical weight. The function of IA is shown to be more one of structuration than rhythmic balancing, with IA even marking structure more readily than FA. Finally, our results indicate that FA is not perceptively weakened when co-occurring with major prosodic boundaries, but instead remains a metrical mark at the level of the lexical word, in a manner independent from the level of constituency.

HMM-based Vietnamese Text-To-Speech : Prosodic Phrasing Modeling, Corpus Design System Design, and Evaluation / Text-To-Speech à base de HMM (Hidden Markov Model) pour le vietnamien : modélisation de la segmentation prosodique, la conception du corpus, la conception du système, et l’évaluation perceptive

Nguyen, Thi Thu Trang 24 September 2015 (has links)
L’objectif de cette thèse est de concevoir et de construire, un système Text-To-Speech (TTS) haute qualité à base de HMM (Hidden Markov Model) pour le vietnamien, une langue tonale. Le système est appelé VTED (Vietnamese TExt-to-speech Development system). Au vu de la grande importance de tons lexicaux, un tonophone” – un allophones dans un contexte tonal – a été proposé comme nouvelle unité de la parole dans notre système de TTS. Un nouveau corpus d’entraînement, VDTS (Vietnamese Di-Tonophone Speech corpus), a été conçu à partir d’un grand texte brut pour une couverture de 100% de di-phones tonalisés (di-tonophones) en utilisant l’algorithme glouton. Un total d’environ 4000 phrases ont été enregistrées et pré-traitées comme corpus d’apprentissage de VTED.Dans la synthèse de la parole sur la base de HMM, bien que la durée de pause puisse être modélisée comme un phonème, l’apparition de pauses ne peut pas être prédite par HMM. Les niveaux de phrasé ne peuvent pas être complètement modélisés avec des caractéristiques de base. Cette recherche vise à obtenir un découpage automatique en groupes intonatifs au moyen des seuls indices de durée. Des blocs syntaxiques constitués de phrases syntaxiques avec un nombre borné de syllabes (n), ont été proposés pour prévoir allongement final (n = 6) et pause apparente (n = 10). Des améliorations pour allongement final ont été effectuées par des stratégies de regroupement des blocs syntaxiques simples. La qualité du modèle prédictive J48-arbre-décision pour l’apparence de pause à l’aide de blocs syntaxiques, combinée avec lien syntaxique et POS (Part-Of-Speech) dispose atteint un F-score de 81,4 % (Précision = 87,6 %, Recall = 75,9 %), beaucoup mieux que le modèle avec seulement POS (F-score=43,6%) ou un lien syntaxique (F-score=52,6%).L’architecture du système a été proposée sur la base de l’architecture HTS avec une extension d’une partie traitement du langage naturel pour le Vietnamien. L’apparence de pause a été prédit par le modèle proposé. Les caractéristiques contextuelles incluent les caractéristiques d’identité de “tonophones”, les caractéristiques de localisation, les caractéristiques liées à la tonalité, et les caractéristiques prosodiques (POS, allongement final, niveaux de rupture). Mary TTS a été choisi comme plateforme pour la mise en oeuvre de VTED. Dans le test MOS (Mean Opinion Score), le premier VTED, appris avec les anciens corpus et des fonctions de base, était plutôt bonne, 0,81 (sur une échelle MOS 5 points) plus élevé que le précédent système – HoaSung (lequel utilise la sélection de l’unité non-uniforme avec le même corpus) ; mais toujours 1,2-1,5 point de moins que le discours naturel. La qualité finale de VTED, avec le nouveau corpus et le modèle de phrasé prosodique, progresse d’environ 1,04 par rapport au premier VTED, et son écart avec le langage naturel a été nettement réduit. Dans le test d’intelligibilité, le VTED final a reçu un bon taux élevé de 95,4%, seulement 2,6% de moins que le discours naturel, et 18% plus élevé que le premier. Le taux d’erreur du premier VTED dans le test d’intelligibilité générale avec le carré latin test d’environ 6-12% plus élevé que le langage naturel selon des niveaux de syllabe, de ton ou par phonème. Le résultat final ne s’écarte de la parole naturelle que de 0,4-1,4%. / The thesis objective is to design and build a high quality Hidden Markov Model (HMM-)based Text-To-Speech (TTS) system for Vietnamese – a tonal language. The system is called VTED (Vietnamese TExt-tospeech Development system). In view of the great importance of lexical tones, a “tonophone” – an allophone in tonal context – was proposed as a new speech unit in our TTS system. A new training corpus, VDTS (Vietnamese Di-Tonophone Speech corpus), was designed for 100% coverage of di-phones in tonal contexts (i.e. di-tonophones) using the greedy algorithm from a huge raw text. A total of about 4,000 sentences of VDTS were recorded and pre-processed as a training corpus of VTED.In the HMM-based speech synthesis, although pause duration can be modeled as a phoneme, the appearanceof pauses cannot be predicted by HMMs. Lower phrasing levels above words may not be completely modeled with basic features. This research aimed at automatic prosodic phrasing for Vietnamese TTS using durational clues alone as it appeared too difficult to disentangle intonation from lexical tones. Syntactic blocks, i.e. syntactic phrases with a bounded number of syllables (n), were proposed for predicting final lengthening (n = 6) and pause appearance (n = 10). Improvements for final lengthening were done by some strategies of grouping single syntactic blocks. The quality of the predictive J48-decision-tree model for pause appearance using syntactic blocks combining with syntactic link and POS (Part-Of-Speech) features reached F-score of 81.4% Precision=87.6%, Recall=75.9%), much better than that of the model with only POS (F-score=43.6%)or syntactic link (F-score=52.6%) alone.The architecture of the system was proposed on the basis of the core architecture of HTS with an extension of a Natural Language Processing part for Vietnamese. Pause appearance was predicted by the proposed model. Contextual feature set included phone identity features, locational features, tone-related features, and prosodic features (i.e. POS, final lengthening, break levels). Mary TTS was chosen as a platform for implementing VTED. In the MOS (Mean Opinion Score) test, the first VTED, trained with the old corpus and basic features, was rather good, 0.81 (on a 5 point MOS scale) higher than the previous system – HoaSung (using the non-uniform unit selection with the same training corpus); but still 1.2-1.5 point lower than the natural speech. The quality of the final VTED, trained with the new corpus and prosodic phrasing model, progressed by about 1.04 compared to the first VTED, and its gap with the natural speech was much lessened. In the tone intelligibility test, the final VTED received a high correct rate of 95.4%, only 2.6% lower than the natural speech, and 18% higher than the initial one. The error rate of the first VTED in the intelligibility test with the Latin square design was about 6-12% higher than the natural speech depending on syllable, tone or phone levels. The final one diverged about only 0.4-1.4% from the natural speech.

L'approche spatio-polyphonique dans les interprétations des pianistes de la deuxième moitié du XIXe siècle et la première moitié du XXe siècle / Spatio-polyphonic approach in the interprétations of pianists of the second half of the 19th Century and the first half of the 20th Century

Mirensky, Shaul 21 November 2014 (has links)
Le but de ce travail est d'étudier l'art d'interpréter de plusieurs générations de pianistes dont la formation remonte au XIXe siècle, mais dont l'activité s'est étendue jusqu'à la 1re moitié du XXe siècle. L'essor de l'interprétation qui marqua cette époque a prodigué des artistes qui - à la suite de leurs grands maîtres (Chopin, Liszt, A. Rubinstein) - ont déjà laissé un nombre considérable d'enregistrements permettant de saisir à travers leur jeu une image authentique de l’œuvre romantique. En nous référant à l'idée que l'essor du pianisme à la charnière des XIXe - XXe siècles provient de l'expansion remarquable de l'art d'interpréter au XIXe siècle, nous avançons l'hypothèse selon laquelle c'est précisément dans les positions esthétiques et dans la vision du monde propre à cette époque qu'il faut chercher les sources d'un tel essor. Parmi les caractéristiques importantes de la manière d'interpréter des pianistes de la 2e moitié du XIXe siècle, entrent d'abord en jeu la faculté de penser imagée, la liberté et une manière d'improviser en modifiant les textes des œuvres exécutées. Ces données se combinent d'ailleurs avec d'autres, comme l'intellectualisme. Les analyses de certaines particularités de style, des manières de jouer, typiques du XIXe siècle (comme le rubato, le « pointillisme etc.), nous révèlent ainsi ce que fut la réelle pensée polyphonique du Romantisme. Il ne s'agit pas de la seule écriture polyphonique, mais d'un principe polyphonique au sens plus large, s'exprimant à travers le style d'interpréter qui, à son tour, définit la perception spatio-temporelle spécifique de ces quelques décennies. / The aim of this work is to study the performing art of several generations of pianists who were trained in the 19th Century but who extended their artistic activity throught the 1st half of the 20th Century. The rise of the art of interpretation which marked this period gave the artistes who - following their great masters - have left a considerable number of records where their plaiyng conjures up an image of the romantic composition that may be more authentic, though it is quite different from that of today.Based on the idea that the rise of the pianism at the turn of the 20th Century comes largely from the remarkable expansion of the 19th Century performing arts, we hypothesize that it is precisely in the aesthetic positions and the vision of the world inherent in the Romantic era that we should look for the sources of such a rise. Chief among the important features of the style of interpretation of the pianists of the 2nd half of the 19th Century, was their creative thinking, but also the surprising freedom they enjoyed to improvise and modify compositions. Other features include the intellectualism of their approach to the performed composition. Analyses of certain peculiarities of style, of the ways of playing typical of the 19th Century (such as rubato, the « pointillism » etc.) reveal the real polyphonic thougth of the Romantic era. This is not only the polyphonic writing itself, but a polyphonic principle in a broader sense, manifesting itself through the style of interpretation which, in turn, defines the specific spatio-temporal perception of these several decades.

Interprétation, phrasé et rhétorique vocale dans la chanson française depuis 1950 : expliciter l’indicible de la voix / The performance, the phrasing and the vocal rhetoric of the French song since 1950 : clarifying the inexpressible of the voice

Chabot-Canet, Céline 27 June 2013 (has links)
L’enjeu de cette thèse est d’étudier la chanson non dans sa dialectique parole/musique, mais par la saisie d’une troisième entité : l’interprétation vocale. Il s’agit à la fois d’en faire émerger l’importance fondamentale et la richesse et de lui conférer sa légitimité d’objet d’étude par la mise en place d’un protocole méthodologique et lexical spécifique qui en autorise l’analyse – au même titre que la composition – malgré son caractère mouvant et réputé réfractaire à la théorisation. Abordée comme objet complexe (selon la terminologie d’Edgar Morin), elle est soumise au feu croisé des disciplines (musicologie, linguistique, rhétorique, acoustique) pour pousser autant qu’il est possible son objectivation. Sous l’égide de la musicologie, l’utilisation d’outils informatiques permet d’établir une complémentarité entre les perspectives des sciences humaines et des sciences exactes, de capter et d’analyser les spécificités interprétatives, aussi bien dans leurs caractères dominants qu’agogiques, leurs rapports à la partition, leur complexité combinatoire au sein des méta-paramètres (timbre, rythme, phrasé) et les tensions dialogiques qui les parcourent (variation/répétition, mélodicité/insertion du bruit, chanté/parlé). Le large corpus de chanteurs d’expression française (du style Rive gauche à la Nouvelle chanson française) permet d’appréhender, au travers d’analyses d’enregistrements en studio ou en concert, la spécificité irréductible de chacun, émanation d’un corps unique, mais aussi de grands réseaux tendanciels de parentés stylistiques. Mise en avant par la perspective sémiologique, autour des notions de stratégie et de visées interprétatives, de rhétorique vocale, de suscitation du pathos et d’expression de l’ethos, se fait jour une typologie des styles interprétatifs, ouverte sur la prise en compte de l’originalité intrinsèque de chaque interprète et sur l’intégration des évolutions génériques ultérieures. / The present thesis focuses on the study of the song not in its word and music dialectic but through the acquisition of a third entity : the vocal rendition. The point is to reveal its critical importance and richness and make it legitimate as a subject of study as the result of the implementation of a specific methodological and lexical protocol that allows the analysis – as with the composition – although its changeable nature is not conducive to theorizing. Considered as a complex object (according to Edgar Morin’s terminology), vocal rendition is submitted to the crossfire of various disciplines (musicology, linguistics, rhetoric, acoustics) in order to favour as far as it is possible its objectivization. Within the framework of musicology, the use of computer tools makes it possible to establish a complementarity between the perspectives of social sciences and exact sciences, to catch and analyse the peculiarities of the performances both in their dominant or agogic characters, their connexions to the score, their combinatorial complexity within the meta-parameters (timbre, rhythm, phrasing), as well as the dialogical tensions which run through them (variation and repetition, melodicity and noise integration, singing and speaking parts). Thanks to the existence of a large body of French-speaking singers (from Rive Gauche style to Nouvelle chanson française) it is possible by studying studio and concert recordings to grasp the irreducible specificity of everyone (what is issued from a unique body) as well as the great underlying networks of stylistic relationships. Disclosed by the semeiological perspective, around the notions of strategy and performance designs, vocal rhetoric, the way to induce pathos and to express ethos, there emerges a typology of performing styles that is open to considering the intrinsic originality of each performer and integrating further generic developments.

