371 |
Du tri à l'autre : éthique et médecine d'urgence / From triage to other : ethics and emergency medicineValette, Pierre 01 December 2011 (has links)
Comment aborder l'éthique médicale à l'heure de la grande confusion entre déontologie, morale, éthique, éthique de la biomédecine, éthique appliquée, éthique du care, méta-éthique, bioéthique…? Peut-être par un retour « aux choses mêmes » comme aurait dit Husserl, un retour à la médecine pour y chercher, comme nichée en son sein, matière à penser l'éthique de la médecine et non une éthique fabriquée de toute pièce qui constituerait, au final et de façon définitive, une éthique pour la médecine.Un mode d'exercice particulier, la médecine d'urgence, permet d'étudier l'acte médical, dans sa puissance et son actualisation (au sens que prennent ces termes chez Aristote) et ses intersections avec le geste technique. Qu'est-ce qu'un acte médical, qu'est-ce qu'un geste technique et comment les distinguer ? Ou encore, comment reconnaître un acte sans geste et un geste sans acte ? C'est le médecin, auteur de l'acte, qui fait de l'acte un acte médical. Même lorsque le geste technique recouvre la totalité d'un acte, il ne peut que se distinguer de l'acte médical si son auteur n'est pas médecin, non en qualité statutaire mais en celle de dépositaire du savoir (épistémè) médical. L'acte sans geste rencontré au cours de la régulation médicale est la preuve que la médecine d'urgence ne se réduit pas à des gestes techniques.Comme beaucoup de disciplines à orientation scientifique, la médecine d'urgence tend à transformer le temps en espace pour mieux quantifier sa pratique mais finit par se heurter à la vérité d'adéquation des autres spécialités médicales. La vérité qui se réduit à l'exactitude mathématique donne à la paraclinique la place centrale de l'exercice médical, participant peu à peu à éloigner le médecin du patient.Le tri médical, exercice singulier de la médecine de masse, de la médecine de catastrophe, met en évidence, de façon inattendue, l'éthique médicale. La catégorisation des victimes, au principe du tri médical n'est qu'un reflet exacerbé de la pensée rationnelle. Car penser, c'est trier. L'irruption du tiers dans la relation médecin malade limite la responsabilité médicale laquelle, sinon, serait insupportable. La responsabilité infinie de chacun vis-à-vis de l'autre, redoublée par la condition de soignant précède et fonde la liberté. Le Tiers empêche de faire l'impossible pour Autrui, il contraint à partager. Introduit au moment du tri médical, il donne la chance au politique de s'enraciner profondément dans l'éthique. / How to approach medical ethics at the time of the great confusion between business ethics, morals, ethics, ethics of biomedicine, applied ethics, ethics of care, meta-ethics, bioethics ...? Perhaps by a return "to the things themselves" as Husserl would have said, a return to medicine itself to find in its “nest” the ethics of medicine and not the fabricated ethics that would ultimately and definitively become ethics for medicine.A particular type of practice, emergency medicine, allows to study the procedure, its power and its updates (in the sense that these terms are in Aristotle) and its intersections with the technical movement. What is a medical procedure, what is a technical movement and how can we distinguish them? Also, how can we recognize an act without a gesture and a gesture without an act? It's the doctor, author of the act, that makes the act a medical procedure. Even when the technical gesture covers an entire act, it can only be distinguished from the medical procedure if the applicant is not a doctor, doctor being intended not in the statutory sense but as in the holder of medical knowledge (episteme). The act with no gesture met in medical regulation is evidence that emergency medicine is not limited to technical moves.Like many disciplines in science policy, emergency medicine tends to transform time into space to better quantify its practice but it eventually has to face the necessity of adaptation to other medical specialties. The truth, which is reduced to mathematical accuracy, gives para-clinics the central place of medical practice, gradually separating patients away from their physician.The triage, unique exercise in mass medicine and disaster medicine, is unexpected proof of medical ethics. The categorization of victims, which is a principle of triage, is a reflection of heightened rational thought. Because thinking is sorting. The advent of third parties in the doctor-patient relationship limits medical liability, which would otherwise be unbearable. The infinite responsibility of everyone vis-à-vis the other, intensified by the role of nursing, precedes and is at the origin of freedom. The Third party makes it impossible to do the impossible for others, it forces to share. Introduced at the time of triage, it gives the opportunity to politics to be deeply rooted into ethics.
|
372 |
Le Christ, Parole créatrice / Christ, the creative WordZerlauth, Pascale 06 November 2013 (has links)
Dans la deuxième moitié du premier siècle, des auteurs chrétiens ont énoncé le rôle du Logos « au commencement ». Selon eux, Dieu n’a pas créé le monde dans une sublime solitude, auprès de lui se tenait le Logos identifié à Jésus-Christ. Ainsi, d’un côté, les chrétiens continuaient à confesser que Dieu est le Créateur et de l’autre, ils développaient une réflexion sur la médiation créatrice du Christ (1 Co 8,6, Col 1,15-20, Ep 2,10, He 1,1-14, Jn 1,1-18). Établis dans des cités cosmopolites, ils ont été amenés à affirmer la supériorité du Christ sur les êtres invisibles en lui attribuant le pouvoir sur le monde que seul Yahvé possédait. La question d’une remise en cause du monothéisme est alors posée. Un des éléments de réponse se trouve dans les descriptions du lien qui unit le Père et le Fils. Cette réflexion conduit à la conclusion que la création prend tout son sens dans l’union du Fils, Unique et Bien-aimé, à celui qu’il désigne comme Père ; elle se déploie au sein de cette relation d’amour et, loin de conduire à une rivalité entre le Père et le Fils, elle engage une « seule » œuvre où le Fils manifeste le Père parce qu’il est sa Parole. / In the second half of the first century, Christian authors have stated the role of the Logos "in the beginning." According to them, God did not create the world in a sublime solitude, beside him stood the Logos identified with Jesus Christ. Thus, on the one hand, Christians continued to confess that God is the Creator and the other, they developed a thought on the creative mediation of Christ (1 Cor 8.6, Col 1:15-20, Eph 2.10, Heb 1,1-14, Jn 1:1-18). Established in cosmopolitan cities, they were led to affirm the superiority of Christ over the invisible beings by giving it power over the world that Yahweh alone possessed. The question of a challenge to the monotheism is then asked. One of the answers lies in the description of the relationship between the Father and the Son. This leads to the conclusion that the creation makes sense in the union of the Son, Unique and Beloved, with whom he refers to as Father. The creation extents within this relationship of love and far from leading to a competition between the Father and the Son, it is the work of the Son where he manifests the Father because he is his creative Word.
|
373 |
Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile / Automatic speech recognition for ageing voices in the context of assisted livingAman, Frédéric 09 December 2014 (has links)
Dans le contexte du vieillissement de la population, le but de cette thèse est d'inclure au domicile des personnes âgées un système de reconnaissance automatique de la parole (RAP) capable de reconnaître des appels de détresse pour alerter les secours. Les modèles acoustiques des systèmes de RAP sont généralement appris avec de la parole non âgée, prononcé de façon neutre et lue. Or, dans notre contexte, nous sommes loin de ces conditions idéales (voix âgée et émue), et le système doit donc être adapté à la tâche. Notre travail s’appuie sur des corpus de voix âgées et d'appels de détresse que nous avons enregistrés. A partir de ces corpus, une étude sur les différences entre voix jeunes/âgées d'une part, et entre voix neutre/émue d'autre part nous ont permis de développer un système de RAP adapté à la tâche. Celui-ci a ensuite été évalué sur des données issues d'une expérimentation en situation réaliste incluant des chutes jouées. / In the context of the aging population, the aim of this thesis is to include in the living environment of the elderly people an automatic speech recognition (ASR) system, which can recognize calls to alert the emergency services. The acoustic models of ASR systems are mostly learned with non-elderly speech, delivered in a neutral way, and read. However, in our context, we are far from these ideal conditions (aging and expressive voice). So, our system must be adapted to the task. For our work, we recorded corpora made of elderly voices and distress calls. From these corpora, a study on the differences between young and old voices, and between neutral and emotional voice permit to develop an ASR system adapted to the task. This system was then evaluated on data recorded during an experiment in realistic situation, including falls played by volunteers.
|
374 |
Le visage, entre accusatif et nominatif : de la phénoménologie à l'herméneutique de la relation / The visage, between accusative and nominative case : from the phenomenology to the hermeneutics of the relationDugravier-Guérin, Nathalie 22 June 2012 (has links)
Le visage, tel que le pense Levinas, échappe à tout pouvoir, à toute explication, à toute compréhension. Hors de la visée husserlienne que Levinas interprète comme réduction de l’autre au même (égologie), le visage se dérobe à son apparence physique – et se fait commandement (« Tu ne tueras pas »). À cette injonction ne peut répondre un sujet qu’à l’accusatif (le « Me voici » abrahamique), laissant en suspend toute relation. Si le visage disparaît dans sa Hauteur, instituant le je comme répondant à l’accusatif, la rencontre entre deux visages ne peut se faire – Autrui est sauvé par sa non-reconnaissance. Le prix à payer pour sauver l’altérité est celui de la relation – le je n’est pas visage. Le problème ouvert par Levinas est double ; un problème ontologique, d’une part : comment peut-on penser un sujet répondant à (et d’) autrui au nominatif, afin de fonder en droit la possibilité d’une relation intersubjective? Peut-on imaginer Abraham répondant « Je suis là » ? Ce problème ontologique croise un second problème d’ordre méthodologique : la position du visage comme phénomène est un défi lancé par Levinas à toute phénoménologie – tâche qu’il entreprend cependant. Comment faire la phénoménologie d’un non-phénomène ? C’est le point de relève d’une herméneutique du visage. Si celui-ci échappe de jure à toute description phénoménologique, c’est par le surcroît de sens dont il témoigne, et que seule une herméneutique peut chercher, et désigner. Au-delà d’une explication réductrice et d’une impossible connaissance du visage, y a-t-il place pour une reconnaissance de celui-ci ? La reconnaissance doit être ici envisagée en ses diverses acceptions : identification (par la nomination), dont le sens ultime se révèlerait, malgré le soupçon que pose Derrida, par la reconnaissance-gratitude. C’est donc à l’herméneutique – c'est-à-dire au « conflit des interprétations », selon le mot de Ricœur, que serait confiée la double charge de tracer un espace intersubjectif, ouvert à l’altérité et au sujet, espace accueillant le sens dans la multiplicité de ses significations (singulières, culturelles, universelles...), d’une part, et d’en chercher les différentes modalités relationnelles non aliénantes, d’autre part, afin de garantir une rencontre entre un je et un tu, respectueuse des deux visages. / The visage, such as Levinas means it, escapes all power, all explanation, all understanding. Out of reach of Husserl’s meaning which Levinas understands as a reduction of the Other to the Same (egology), the visage evades its physical appearance –and becomes a commandment ("You shall not kill"). To that admonition, only an accusative-case subject can answer (Abraham's answer "Here is me"), therefore discarding all relationship. If the visage disappears in its Height, establishing the I as an answer to the accusative-case, the meeting between two visages cannot happen. –The Other is saved because he is not recognized. The price to pay in order to save Otherness is that of relationship. Levinas opens a double problem. An ontological problem first: how can we conceive a subject answering to (and for) others in the nominative case in order to base legitimately the possibility of an inter-subjective relationship? Can we imagine Abraham answering "I am here"? The ontological problem meets another one, a methodological problem: the visage as a phenomenon is a challenge thrown by Levinas to phenomenology – a task he takes on nevertheless. How can one draw the phenomenology of a non-phenomenon? That's where the hermeneutics of the visage starts. If the visage escapes de jure all phenomenological description, it is because of the excess of meaning it stands for, which only hermeneutics can look for and define. Beyond a reductive explanation and an impossible knowledge of the visage, is there room for the acknowledgement of it? The acknowledgement here must be accepted in all its meanings: identification (through the naming the ultimate meaning of which would be revealed, despite Derrida's suspicion, by the acknowledgement-gratitude.Therefore, it would be given to hermeneutics – the "conflict between interpretations," according to Ricœur - the double task of defining an inter-subjective space, open to Otherness and to the subject, a space open to the diversity of all the meanings** (personal, cultural, universal, etc.), on the one hand, and, on the other hand, of looking for the various non-alienating relational modalities, in order to guarantee a meeting between a I and a You that would respect both visages.
|
375 |
Sujeito, discurso e autoria: “os nomes” de Chico Buarque / Sujeito, el hablo y la autoria: “los nombres” de Chico BuarqueSilva, Robison José da 05 February 2015 (has links)
Submitted by Erika Demachki (erikademachki@gmail.com) on 2015-11-13T17:15:24Z
No. of bitstreams: 2
Dissertação - Robison José da Silva - 2014.pdf: 3859967 bytes, checksum: 1f2ceaf9dd2c0fa5765c93e8cad4ea47 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Erika Demachki (erikademachki@gmail.com) on 2015-11-13T17:18:03Z (GMT) No. of bitstreams: 2
Dissertação - Robison José da Silva - 2014.pdf: 3859967 bytes, checksum: 1f2ceaf9dd2c0fa5765c93e8cad4ea47 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-11-13T17:18:03Z (GMT). No. of bitstreams: 2
Dissertação - Robison José da Silva - 2014.pdf: 3859967 bytes, checksum: 1f2ceaf9dd2c0fa5765c93e8cad4ea47 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Previous issue date: 2015-02-05 / Ce travail est le résultat d'un projet de recherche qui vise à examiner le fonctionnement de la paternité impliquant le nom et l'oeuvre de Chico Buarque du point de vue de l'analyse du discours français, compte tenu de la relation entre le sujet, de la parole et de la paternité au point convergence avec l'histoire. Par conséquent, il a été pris comme corpus d'analyse, six lettres de la musique du compositeur, Chico Buarque, produite dans la période de la dictature militaire brésilienne, trois d'entre eux ont signé comme Chico Buarque et trois, signé par Julinho nom de Adelaide, pseudonyme auteur. Il était, par conséquent, pour le développement de la réflexion, le fait que le compositeur a créé une façon d'essayer de contourner la censure par un surnom qui a continué à signer des paroles écrites par lui. Ainsi, la recherche tient sous les contributions théoriques qui incluent les termes “sujet”, “discours” et “auteur” dans la perspective de l'analyse du discours, en particulier les contributions de Michel Foucault. Pour le développement de la proposition, il y avait une recherche de la littérature à travers le levage, la lecture et rapport de livre divers textes portant sur le sujet en question, suivie d'une analyse des lettres qui forment le corpus. De les lectures et les analyses ont abordé la question du fonctionnement de la censure dans le milieu de l'année 1960 et 1970, période de la dictature militaire brésilienne, pour la recherche que la question de la paternité peut être comprise dans cette période historique des postulats d'analyse discours et quels facteurs externes peuvent influencer la langue dans le fonctionnement de l'auteur, et qui valide un texte avec le nom que les signes. Par conséquent, il a été constaté que l'action de la censure sur des lettres écrites par Chico Buarque, a agi à partir du nom qui a été liée à la lettre et pas seulement le discours, ils ont attaché, la mise en place d'une forme de censure, ce est, malgré interférences fait, parfois, dans les textes, il y avait un examen préalable du contenu affiché à l'auteur de Chico Buarque. / O presente trabalho é resultado de uma proposta de investigação que tem como objetivo principal analisar o funcionamento da autoria envolvendo o nome e obra de Chico Buarque sob a perspectiva da Análise do Discurso de Linha Francesa, considerando as relações entre sujeito, discurso e autoria em ponto de convergência com a História. Para tanto, tomou-se como corpus para análise seis letras de músicas do compositor, Chico Buarque de Hollanda, produzidas no período da Ditadura Militar Brasileira, sendo três delas assinadas como Chico Buarque e outras três assinadas pelo nome Julinho da Adelaide, pseudônimo de autor. Considerou-se, portanto, para o desenvolvimento da reflexão, o fato de o compositor ter criado uma forma de tentar driblar a censura por meio de um pseudônimo que passou a assinar algumas letras de músicas por ele escritas. Desse modo, a pesquisa sustenta-se sob os aportes teóricos que contemplam os termos “sujeito”, “discurso” e “autoria”, na perspectiva da Análise do Discurso, em especial os aportes de Michel Foucault. Para desenvolvimento da proposta, realizou-se uma pesquisa bibliográfica, por meio de levantamento, leitura e fichamento de textos diversos, contemplando a temática em questão, seguida por uma parte de análise das letras que compuseram o corpus. A partir das leituras e análises, tomou-se a questão do funcionamento da censura em meados dos anos de 1960 e 1970, período da Ditadura Militar Brasileira, para investigação de como a questão da autoria pode ser compreendida nesse período histórico, a partir dos postulados da Análise do Discurso, e quais os fatores externos à língua podem influenciar no funcionamento do autor, bem como o que valida um texto pelo nome que o assina. Logo, verificou-se que a ação da censura, sobre as letras escritas por Chico Buarque, agiu a partir do nome que era vinculado à letra e não exatamente pelo discurso que elas,veiculavam configurando uma espécie de censura prévia, ou seja, apesar das interferências feitas, em alguns momentos, nos textos, havia uma consideração prévia do conteúdo veiculado à autoria de Chico Buarque.
|
376 |
Pronunciation and disfluency modeling for expressive speech synthesis / Modélisation de la prononciation et des disfluences pour la synthèse de la parole expressiveQader, Raheel 31 March 2017 (has links)
Dans la première partie de cette thèse, nous présentons une nouvelle méthode de production de variantes de prononciations qui adapte des prononciations standards, c'est-à-dire issues d'un dictionnaire, à un style spontané. Cette méthode utilise une vaste gamme d'informations linguistiques, articulatoires et acoustiques, ainsi qu'un cadre probabiliste d'apprentissage automatique, à savoir les champs aléatoires conditionnels (CAC) et les modèles de langage. Nos expériences poussées sur le corpus Buckeye démontrent l'efficacité de l'approche à travers des évaluations objectives et perceptives. Des tests d'écoutes sur de la parole synthétisée montrent que les prononciations adaptées sont jugées plus spontanées que les prononciations standards, et même que celle réalisées par les locuteurs du corpus étudié. Par ailleurs, nous montrons que notre méthode peut être étendue à d'autres tâches d'adaptation, par exemple pour résoudre des problèmes d'incohérences entre les différentes séquences de phonèmes manipulées par un système de synthèse. La seconde partie de la thèse explore une nouvelle approche de production automatique de disfluences dans les énoncés en entrée d'un système de synthèse de la parole. L'approche proposée offre l'avantage de considérer plusieurs types de disfluences, à savoir des pauses, des répétitions et des révisions. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Nous présentons une première implémentation de notre processus, elle aussi fondée sur des CAC et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la bonne fonctionnalité de notre proposition et d'en discuter les pistes principales d'amélioration. / In numerous domains, the usage of synthetic speech is conditioned upon the ability of speech synthesis systems to generate natural and expressive speech. In this frame, we address the problem of expressivity in TTS by incorporating two phenomena with a high impact on speech: pronunciation variants and speech disfluencies. In the first part of this thesis, we present a new pronunciation variant generation method which works by adapting standard i.e., dictionary-based, pronunciations to a spontaneous style. Its strength and originality lie in exploiting a wide range of linguistic, articulatory and acoustic features and to use a probabilistic machine learning framework, namely conditional random fields (CRFs) and language models. Extensive experiments on the Buckeye corpus demonstrate the effectiveness of this approach through objective and subjective evaluations. Listening tests on synthetic speech show that adapted pronunciations are judged as more spontaneous than standard ones, as well as those realized by real speakers. Furthermore, we show that the method can be extended to other adaptation tasks, for instance, to solve the problem of inconsistency between phoneme sequences handled in TTS systems. The second part of this thesis explores a novel approach to automatic generation of speech disfluencies for TTS. Speech disfluencies are one of the most pervasive phenomena in spontaneous speech, therefore being able to automatically generate them is crucial to have more expressive synthetic speech. The proposed approach provides the advantage of generating several types of disfluencies: pauses, repetitions and revisions. To achieve this task, we formalize the problem as a theoretical process, where transformation functions are iteratively composed. We present a first implementation of the proposed process using CRFs and language models, before conducting objective and perceptual evaluations. These experiments lead to the conclusion that our proposition is effective to generate disfluencies, and highlights perspectives for future improvements.
|
377 |
"Singing amid uncertainty" : dramaturgie et pratique de la voix dans le théâtre de William Butler Yeats / "Singing amid Uncertainty" : Voices in Text, Voices in Performance in W. B. Yeats's DramaLonguenesse, Pierre 25 October 2008 (has links)
Yeats n'a cessé d'affirmer, dans toute son œuvre dramatique, la centralité de la question de la parole et de la voix. La présente étude s'attache à analyser les formes prises par ce questionnement, depuis ses développements dans l'œuvre théorique, jusqu'à ses modalités d'apparition dans les textes dramatiques, et ses incidences sur le travail de production scénique. Dans une première période, inspiré par la matière légendaire de l'Irlande, Yeats souscrit au mythe d'une oralité populaire, dont le théâtre se fait le porte-parole, avant de s'en écarter, au profit d'un concept d'oralité englobant sa propre "parole écrite" de poète lyrique. Il construit alors une esthétique tragique dans laquelle il oppose, à un orchestre de voix réelles et imaginaires, la voix perturbatrice d'une figure héroïque en quête de transfiguration. A partir des Plays for Dancers, écrites sur le modèle du théâtre Nô, le personnage collectif des musiciens-narrateurs est l’ordonnateur d'un "théâtre mental", d'un rituel scénique de parole, de chant et de danse, où voix et musique sont le medium d'apparitions spectrales. C'est alors dans le concret de l'activité scénique des voix et des corps que se jouent ces drames de l'incarnation et de la transfiguration. C'est pourquoi sont examinées, pour finir, quelques-unes des expérimentations scéniques du poète, par lesquelles il a tenté de toucher à cette conjonction rêvée entre le chant et l'enchantement : des "voix d'or" des comédiens Franck Fay ou Florence Farr, dans les années 1900, jusqu'aux constructions musicales élaborées de l'après-guerre de 1914. / Throughout his drama Yeats maintained the centrality of the question of speech and voice. The present study undertakes to analyse the forms taken on by this question, ranging from Yeats's analyses in his theoretical works, to its manifestations in his dramatic works, and finally to its effects on stage production. In a first period, inspired by Irish legends, Yeats endorses the myth of an oral tradition of the Irish people, for which his theatre becomes the speaker, before taking his distance from it in favor of a concept of oral form that includes his own, the lyrical poet's, "written speech". He then constructs a tragic aesthetic in which he opposes to an orchestra of real and imaginary voices the disrupting voice of an heroic figure in search of transfiguration. Starting with Plays for Dancers, written on the model of the Nô theatre, the collective character of narrator-musicians monitors a "mental theatre", a scenic ritual of speech, song and dance, in which voice and music are the medium of spectral appearances. It is then in the concrete medium of the scenic activity of voices and bodies that the drama of incarnation and transfiguration is in play. This is why, in the final part of this work, some of the scenic experimentations of the poet, by means of which he tried to reach the dreamed conjunction between chant and enchantment, are explored, ranging from the "golden voices" of Franck Fay or Florence Farr, in the years 1900, to the elaborate musical constructions of the post-war years, after 1918.
|
378 |
Synthèse incrémentale de la parole à partir du texte / Incremental text-to-speech synthesisPouget, Maël 23 June 2017 (has links)
Ce travail de thèse porte sur un nouveau paradigme pour la synthèse de la parole à partir du texte, à savoir la synthèse incrémentale. L'objectif est de délivrer la parole de synthèse au fur et à mesure de la saisie du texte par l'utilisateur, contrairement aux systèmes classiques pour lesquels la synthèse est déclenchée après la saisie d'une ou plusieurs phrases. L'application principale visée est l'aide aux personnes présentant un trouble sévère de la communication orale, et communiquant principalement à l'aide d'un synthétiseur vocal. Un synthétiseur vocal incrémental permettrait de fluidifier une conversation en limitant le temps que passe l'interlocuteur à attendre la fin de la saisie de la phrase à synthétiser. Un des défi que pose ce paradigme est la synthèse d'un mot ou d'un groupe de mot avec une qualité segmentale et prosodique acceptable alors que la phrase qui le contient n'est que partiellement connue au moment de la synthèse. Pour ce faire, nous proposons différentes adaptations des deux principaux modules d'un système de synthèse de parole à partir du texte : le module de traitement automatique de la langue naturelle (TAL) et le module de synthèse sonore. Pour le TAL en synthèse incrémentale, nous nous sommes intéressé à l'analyse morpho-syntaxique, qui est une étape décisive pour la phonétisation et la détermination de la prosodie cible. Nous décrivons un algorithme d'analyse morpho-syntaxique dit "à latence adaptative". Ce dernier estime en ligne si une classe lexicale (estimée à l'aide d'un analyseur morpho-syntaxique standard basé sur l'approche n-gram), est susceptible de changer après l'ajout par l'utilisateur d'un ou plusieurs mots. Si la classe est jugée instable, alors la synthèse sonore est retardée, dans le cas contraire, elle peut s'effectuer sans risque a priori de dégrader de la qualité segmentale et suprasegmentale. Cet algorithme exploite une ensemble d'arbre de décisions binaires dont les paramètres sont estimés par apprentissage automatique sur un large corpus de texte. Cette méthode nous permet de réaliser un étiquetage morpho-syntaxique en contexte incrémental avec une précision de 92,5% pour une latence moyenne de 1,4 mots. Pour la synthèse sonore, nous nous plaçons dans le cadre de la synthèse paramétrique statistique, basée sur les modèles de Markov cachés (Hidden Markov Models, HMM). Nous proposons une méthode de construction de la voix de synthèse (estimation des paramètres de modèles HMM) prenant en compte une éventuelle incertitude sur la valeur de certains descripteurs contextuels qui ne peuvent pas être calculés en synthèse incrémentale (c'est-à-dire ceux qui portent sur les mots qui ne sont pas encore saisis au moment de la synthèse).Nous comparons la méthode proposée à deux autres stratégies décrites dans la littérature. Les résultats des évaluations objectives et perceptives montrent l’intérêt de la méthode proposée pour la langue française. Enfin, nous décrivons un prototype complet qui combine les deux méthodes proposées pour le TAL et la synthèse par HMM incrémentale. Une évaluation perceptive de la pertinence et de la qualité des groupes de mots synthétisés au fur et à mesure de la saisie montre que notre système réalise un compromis acceptable entre réactivité (minimisation du temps entre la saisie d'un mot et sa synthèse) et qualité (segmentale et prosodique) de la parole de synthèse. / In this thesis, we investigate a new paradigm for text-to-speech synthesis (TTS) allowing to deliver synthetic speech while the text is being inputted : incremental text-to-speech synthesis. Contrary to conventional TTS systems, that trigger the synthesis after a whole sentence has been typed down, incremental TTS devices deliver speech in a ``piece-meal'' fashion (i.e. word after word) while aiming at preserving the speech quality achievable by conventional TTS systems.By reducing the waiting time between two speech outputs while maintaining a good speech quality, such a system should improve the quality of the interaction for speech-impaired people using TTS devices to express themselves.The main challenge brought by incremental TTS is the synthesis of a word, or of a group of words, with the same segmental and supra-segmental quality as conventional TTS, but without knowing the end of the sentence to be synthesized. In this thesis, we propose to adapt the two main modules (natural language processing and speech synthesis) of a TTS system to the incremental paradigm.For the natural language processing module, we focused on part-of-speech tagging, which is a key step for phonetization and prosody generation. We propose an ``adaptive latency algorithm'' for part-of-speech tagging, that estimates if the inferred part-of-speech for a given word (based on the n-gram approach) is likely to change when adding one or several words. If the Part-of-speech is considered as likely to change, the synthesis of the word is delayed. In the other case, the word may be synthesized without risking to alter the segmental or supra-segmental quality of the synthetic speech. The proposed method is based on a set of binary decision trees trained over a large corpus of text. We achieve 92.5% precision for the incremental part-of-speech tagging task and a mean delay of 1.4 words.For the speech synthesis module, in the context of HMM-based speech synthesis, we propose a training method that takes into account the uncertainty about contextual features that cannot be computed at synthesis time (namely, contextual features related to the following words). We compare the proposed method to other strategies (baselines) described in the literature. Objective and subjective evaluation show that the proposed method outperforms the baselines for French.Finally, we describe a prototype developed during this thesis implementing the proposed solution for incremental part-of-speech tagging and speech synthesis. A perceptive evaluation of the word grouping derived from the proposed adaptive latency algorithm as well as the segmental quality of the synthetic speech tends to show that our system reaches a good trade-off between reactivity (minimizing the waiting time between the input and the synthesis of a word) and speech quality (both at segmental and supra-segmental levels).
|
379 |
Interactions audiovisuelles pour l'analyse de scènes auditives / Audiovisual interactions for auditory scene analysisDevergie, Aymeric 10 December 2010 (has links)
Percevoir la parole dans le bruit représente une opération complexe pour notre système perceptif. Pour parvenir à analyser cette scène auditive, nous mettons en place des mécanismes de ségrégation auditive. Nous pouvons également lire sur les lèvres pour améliorer notre compréhension de la parole. L'hypothèse initiale, présentée dans ce travail de thèse, est que ce bénéfice visuel pourrait en partie reposer sur des interactions entre l'information visuelle et les mécanismes de ségrégation auditive. Les travaux réalisés montrent que lorsque la cohérence audiovisuelle est importante, les mécanismes de ségrégation précoce peuvent être renforcés. Les mécanismes de ségrégation tardives, quant à eux, ont été démontré comme mettant en jeu des processus attentionnels. Ces processus attentionnels pourraient donc être renforcés par la présentation d'un indice visuel lié perceptivement. Il apparaît que ce liage entre un flux de voyelles et un indice visuel élémentaire est possible mais cependant moins fort que lorsque l'indice visuel possède un contenu phonétique. En conclusion, les résultats présentés dans ce travail suggèrent que les mécanismes de ségrégation auditive puissent être influencés par un indice visuel pour peu que la cohérence audiovisuelle soit importante comme dans le cas de la parole. / Perceive speech in noise is a complex operation for our perceptual system. To achieve this auditory scene analysis, we involve mechanisms of auditory streaming. We can also read lips to improve our understanding of speech. The intial hypothesis, presented in this thesis, is that visual benefit could be partly based on interactions between the visual input and the auditory streaming mechanisms. Studies conduced here shows that when the audiovisual coherence is strong, primary streaming mechanisms can be strengthened. Late segregation mechanisms, meanwhile, have been shown as involving attentional processes. These attentional processes could therefore be strengthened by the presentation of a visual cue linked perceptually to auditory signal. It appears that binding between a stream of vowels and a elementary visual cue can occur but is less strong than when the visual cue contained phonetic information. In conclusion, the results presented in this work suggest that the mechanisms of auditory streaming can be influenced by a visual cue as long as the audiovisual coherence is important as in the case of speech.
|
380 |
Quelques contributions au filtrage optimal avec l'estimation de paramètres et application à la séparation de la parole mono-capteur / Some contributions to joint optimal filtering and parameter estimation with application to monaural speech separationBensaid, Siouar 06 June 2014 (has links)
Nous traitons le sujet de l’estimation conjointe des signaux aléatoires dépendant de paramètres déterministes et inconnus. Premièrement, on aborde le sujet du côté applicatif en proposant deux algorithmes de séparation de la parole voisée mono-capteur. Dans le premier, nous utilisons le modèle autorégressif de la parole qui décrit les corrélations court et long termes (quasi-périodique) pour formuler un modèle d’état dépendant de paramètres inconnus. EM-Kalman est ainsi utilisé pour estimer conjointement les sources et les paramètres. Dans le deuxième, nous proposons une méthode fréquentielle pour le même modèle de la parole où les sources et les paramètres sont estimés séparément. Les observations sont découpées à l’aide d’un fenêtrage bien conçu pour assurer une reconstruction parfaite des sources après. Les paramètres (de l’enveloppe spectrale) sont estimés en maximisant le critère du GML exprimé avec la matrice de covariance paramétrée que nous modélisons plus correctement en tenant compte de l’effet du fenêtrage. Le filtre de Wiener est utilisé pour estimer les sources. Deuxièmement, on aborde l’estimation conjointe d’un point de vue plus théorique en s'interrogeant sur les performances relatives de l’estimation conjointe par rapport à l’estimation séparée d’une manière générale. Nous considérons le cas conjointement Gaussien (observations et variables cachées) et trois méthodes itératives d'estimation conjointe: MAP en alternance avec ML, biaisé même asymptotiquement pour les paramètres, EM qui converge asymptotiquement vers ML et VB que nous prouvons converger asymptotiquement vers la solution ML pour les paramètres déterministes. / The thesis is composed of two parts. In the first part, we deal with the monaural speech separation problem. We propose two algorithms. In the first algorithm, we exploit the joint autoregressive model that models short and long (periodic) correlations of Gaussian speech signals to formulate a state space model with unknown parameters. The EM-Kalman algorithm is then used to estimate jointly the sources (involved in the state vector) and the parameters of the model. In the second algorithm, we use the same speech model but this time in the frequency domain (quasi-periodic Gaussian sources with AR spectral envelope). Observation data is sliced using a well-designed window. Parameters are estimated separately from the sources by optimizing the Gaussian ML criterion expressed using the sample and parameterized covariance matrices. Classical frequency domain asymptotic methods replace linear convolution by circulant convolution leading to approximation errors. We show how the introduction of windows can lead to slightly more complex frequency domain techniques, replacing diagonal covariance matrices by banded covariance matrices, but with controlled approximation error. The sources are then estimated using the Wiener filtering. The second part is about the relative performance of joint vs. marginalized parameter estimation. We consider jointly Gaussian latent data and observations. We provide contributions to Cramer-Rao bounds, then, we investigate three iterative joint estimation approaches: Alternating MAP/ML which suffers from inconsistent parameter bias, EM which converges to ML and VB that we prove converges asymptotically to the ML solution for parameter estimation.
|
Page generated in 0.0468 seconds