• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 38
  • 9
  • 7
  • 1
  • 1
  • Tagged with
  • 57
  • 30
  • 23
  • 15
  • 13
  • 12
  • 11
  • 11
  • 11
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Reconnaissance automatique du locuteur : présentation générale, méthodologies et expérimentation, perspectives d'application

Corsi, Patrick 30 October 1979 (has links) (PDF)
On définit le cadre contextuel actuel de la reconnaissance de l'identité de la personne à travers sa voix, on esquisse les concepts de base méthodologiques et de nature informatique. On tente ensuite une investigation des sources de variabilités de la voix et on propose des formalisations abstraites de la vérification et de l'identification. On détaille les diverses méthodologies existantes et on propose leur comparaison, on introduit la reconnaissance par ordinateur. Enfin, on s'intéresse à l'aspect temporel du signal et on fait une sélection fondée sur la relation entre les segments acoustiques mesurés et des considérations physiologiques.
32

Indexation audio-visuelle des personnes dans un contexte de télévision

Bendris, Meriem 07 July 2011 (has links) (PDF)
Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressé aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité.
33

Parole de locuteur : performance et confiance en identification biométrique vocale

Kahn, Juliette 19 December 2011 (has links) (PDF)
Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues
34

Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage

Ben youssef, Atef 26 October 2011 (has links) (PDF)
Les sons de parole peuvent être complétés par l'affichage des articulateurs sur un écran d'ordinateur pour produire de la parole augmentée, un signal potentiellement utile dans tous les cas où le son lui-même peut être difficile à comprendre, pour des raisons physiques ou perceptuelles. Dans cette thèse, nous présentons un système appelé retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés à partir de la voix du locuteur. La motivation de cette thèse était de développer un tel système qui pourrait être appliqué à l'aide à l'apprentissage de la prononciation pour les langues étrangères, ou dans le domaine de l'orthophonie. Nous avons basé notre approche de ce problème d'inversion sur des modèles statistiques construits à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique (EMA). Notre approche avec les modèles de Markov cachés (HMMs) combine des techniques de reconnaissance automatique de la parole et de synthèse articulatoire pour estimer les trajectoires articulatoires à partir du signal acoustique. D'un autre côté, les modèles de mélanges gaussiens (GMMs) estiment directement les trajectoires articulatoires à partir du signal acoustique sans faire intervenir d'information phonétique. Nous avons basé notre évaluation des améliorations apportées à ces modèles sur différents critères : l'erreur quadratique moyenne (RMSE) entre les coordonnées EMA originales et reconstruites, le coefficient de corrélation de Pearson, l'affichage des espaces et des trajectoires articulatoires, aussi bien que les taux de reconnaissance acoustique et articulatoire. Les expériences montrent que l'utilisation d'états liés et de multi-gaussiennes pour les états des HMMs acoustiques améliore l'étage de reconnaissance acoustique des phones, et que la minimisation de l'erreur générée (MGE) dans la phase d'apprentissage des HMMs articulatoires donne des résultats plus précis par rapport à l'utilisation du critère plus conventionnel de maximisation de vraisemblance (MLE). En outre, l'utilisation du critère MLE au niveau de mapping direct de l'acoustique vers l'articulatoire par GMMs est plus efficace que le critère de minimisation de l'erreur quadratique moyenne (MMSE). Nous constatons également trouvé que le système d'inversion par HMMs est plus précis celui basé sur les GMMs. Par ailleurs, des expériences utilisant les mêmes méthodes statistiques et les mêmes données ont montré que le problème de reconstruction des mouvements de la langue à partir des mouvements du visage et des lèvres ne peut pas être résolu dans le cas général, et est impossible pour certaines classes phonétiques. Afin de généraliser notre système basé sur un locuteur unique à un système d'inversion de parole multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR). Dans cette méthode MLLR, la transformation basée sur la régression linéaire qui adapte les HMMs acoustiques originaux à ceux du nouveau locuteur est calculée de manière à maximiser la vraisemblance des données d'adaptation. Finalement, cet étage d'adaptation du locuteur a été évalué en utilisant un système de reconnaissance automatique des classes phonétique de l'articulation, dans la mesure où les données articulatoires originales du nouveau locuteur n'existent pas. Finalement, en utilisant cette procédure d'adaptation, nous avons développé un démonstrateur complet de retour articulatoire visuel, qui peut être utilisé par un locuteur quelconque. Ce système devra être évalué de manière perceptive dans des conditions réalistes.
35

Les particularités du français employé spontanément par des locuteurs algériens de la région de Mostaganem / The peculiarities of the French used spontaneously by Algerian speakers of the region of Mostaganem

Malek, Azzedine 25 November 2016 (has links)
Une observation attentive des pratiques langagières des Mostaganémois permet de constater que le français – tant à l’oral qu’à l’ecrit – qu’ils emploient spontanément constitue une variété à part entière. Si les travaux d’inspiration ethnographique ou sociolinguistique sur le phénomène de contact de langues en Algérie sont très nombreux, on ne dispose pas, à l’heure actuelle, de description précise et détaillée permettant d’élaborer un dictionnaire des faits qui résultent de ce contact de langues dans la région de Mostaganem.Ayant pu consttituer un corpus d’étude, composé pour l’essentiel d’enregistrements d’échanges spontanés ainsi que de photographies numériques commerciales, je me propose d’en entreprendre une analyse linguistique dont voici les grandes lignes.Les particularités du « français mostaganémois » sont, tout d’abord, d’ordre phonétique. L’examen du corpus visera à dégager les constantes dans la modification de la prononciation, en raisonnant en termes de variantes libres (opposées aux variantes combinatoires). On s’intéressera également aux particularités graphiques observées dans le corpus, pour tenter de mettre au jour, là encore, les régularités dans la relation entre graphies et sons.Les faits discursifs réunis dans le corpus seront étudiés sous un autre angle : il s’agira de faire apparaître les particularités du « français mostaganémois » sur le plan du lexique et de la morphosyntaxe. Ce volet comportera notamment le phénomène d’emprunt, de calque et de mélange codique, avec une attention particulière accordée aux modalités d’intégration des entités dans le système de la langue d’accueil.Il a été constaté de tout temps que les communautés d’origine étrangère vivant ou ayant cotoyé, par le passé, un pays d’accueil comme l’Algérie, sont susceptibles d’apporter des contributions linguistiques avec une influence certaine sur la pratique langagière des natifs. Il est vraisemblable que le poids numérique d’une communauté joue un rôle prépondérant dans l’influence linguistique. Il est également vraisemblable qu’un phénomène de « néologie lexicale et d’emprunt » soit lié à la forte présence française. Beaucoup de mots d’origine française sont constamment annexés dans la nomenclature algérienne à travers, notamment les pratiques linguistiques quotidiennes (usage) et les documents officiels, tels que les dictionnaires bilingues, les manuels scolaires, la littérature maghrébine d’expression française (statut). Aussi peut-on s’interroger à propos des facteurs déterminants cette annexion, est-ce : l’attitude des ainés, davantage scolarisé en langue française, qui fait qu’on reste attaché à cette langue et qu’on perpétue la pratiquer au quotidein ? Les revendications d’ordre social qui génèrent une récurrence dans l’expression de la langue pratiquée par les locuteurs ? Le rôle des mas médias destinés à cette communauté ? La fréquence des problèmes rencontrés par les jeunes de ladite communauté étant entendue que la dynamisation linguistique est boostée par la tranche jeune de la population ? L’impact du langage en circulation dans les mariages mixtes ? Le côtoiement communautaire dans les établissements d’enseignement public ? Le brassage de population dû à un constant ballet de visites françaises ?Notre problématique traitera du lexique d’origine française, intégré dans le dialecte arabe de la ville de Mostaganem avec la mise en relief du hiatus qui existe entre la pratique langagière quotidienne (usage courant) et l’intégration officieuse dans la nomenclature de l’arabe parlé (usage règlementé par les faits sociaux). Cette problématique définira également la répartition du lexique d’origine française dans les différents domaines d’usage de la vie des locuteurs mostaganémois. / Careful observation of the language practices of Mostaganémois shows that the French - both oral as in writing - they spontaneously use is a variety in itself. If the sociolinguistic or ethnographic work on the inspiration in Algeria language contact phenomenon are numerous, there is not, at present, a precise and detailed description for developing a dictionary of facts that result from this language contact in the Mostaganem region.Having been consttituer a corpus of study, consisting essentially of spontaneous exchanges recordings and commercial digital photographs, I intend to undertake a linguistic analysis of which here are the highlights.The peculiarities of the "French mostaganémois" are, first, phonetic order. The corpus of the review will aim to identify the constants in changing the pronunciation, reasoning in terms of free variants (as opposed to combinatorial variants). It will also focus on graphics features observed in the corpus, to try to bring to light again, patterns in the relationship between sounds and spellings.Discursive facts gathered in the corpus will be considered from another angle: it will show the characteristics of the "French mostaganémois" in terms of vocabulary and morphosyntax. This component will include especially the borrowing phenomenon layer and code-mixing, with special attention given to entities of integration arrangements in the system of the host language.It was found always that the foreign communities living or having rubbed the past, a host country like Algeria, are likely to bring linguistic contributions with some influence on the language practice native. It is likely that the numerical strength of a community plays a major role in the linguistic influence. It is also likely that a phenomenon of "lexical neologisms and borrowing" is linked to the strong French presence. Many words of French origin are constantly accompanying the Algerian nomenclature, particularly through everyday linguistic practices (use) and official documents, such as bilingual dictionaries, textbooks, North African literature in French (status) . So we can wonder about the determinants annexation, is the attitude of the elders, more schooled in French, which we remain committed to this language and that perpetuates the practice quotidein ? The claims of social order which generate a recurrence in the expression of the language used by the speakers? The role of media mas for this community? The frequency of the problems faced by young people of that community being understood that language revitalization is boosted by the younger segment of the population? The impact of outstanding language in mixed marriages? Community côtoiement in public schools? The population mixing due to a constant ballet of French visits?Our problem will address the lexicon of French origin, integrated in the Arabic dialect of the city of Mostaganem with highlighting the discrepancy between the daily language practice (current use) and informal integration in the nomenclature of the Arab spoken (regulated use by social facts). This issue will also define the distribution of the lexicon of French origin in the different areas of use of the life of mostaganémois speakers.
36

Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée / Reinforced temporal structure of acoustic models for speaker recognition

Larcher, Anthony 24 September 2009 (has links)
La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l’identité d’un individu d’après une étude des caractéristiques spécifiques de sa voix. L’intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : – les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; – les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d’entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n’est pas exploitée par les approches état-de-l’art. Nous proposons d’utiliser cette information, à travers l’utilisation de mots de passe personnels, afin de compenser le manque de données d’apprentissage et de test. Une première étude nous a permis d’évaluer l’influence de la dépendance au texte sur l’approche état-de-l’art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu’une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d’erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d’exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l’ensemble de l’espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l’information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d’un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d’égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d’intégrer une information issue d’un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l’apprentissage des modèles de mots de passe durant la phase d’enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d’un alignement phonétique. Nous avons montré que l’ajout d’une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d’égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l’art dans le cas où les imposteurs connaissent les mots de passe. L’usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n’a cependant pas permis d’extraire une information pertinente. L’usage d’une modalité supplémentaire permettrait néanmoins d’utiliser les différentes informations structurelles pour déjouer d’éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l’utilisation d’information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo / SPEAKER verification aims to validate or invalidate identity of a person by using his/her speech characteristics. Integration of an automatic speaker verification engine on embedded devices has to respect two types of constraint, namely : – limited material resources such as memory and computational power ; – limited speech, both training and test sequences. Current state-of-the-art systems do not take advantage of the temporal structure of speech. We propose to use this information through a user-customised framework, in order to compensate for the short duration speech signals that are common in the given scenario. A preliminary study allows us to evaluate the influence of text-dependency on the state-of-the-art GMM/UBM (Gaussian Mixture Model / Universal Background Model) approach. By constraining this approach, usually dedicated to text-independent speaker recognition, we show that a lexical constraint allows a relative reduction of 30% in error rate when impostors do not know the client password. We introduce a specific acoustic architecture which takes advantage of the temporal structure of speech through a low cost user-customised password framework. This three stage hierarchical architecture allows a layered specialization of the acoustic models. The upper layer, which is a classical UBM, aims to model the general acoustic space. The middle layer contains the text-independent specific characteristics of each speaker. These text-independent speaker models are obtained by a classical GMM/UBM adaptation. The previous text-independent speaker model is used to obtain a left-right Semi-Continuous Hidden Markov Model (SCHMM) with the goal of harnessing the Temporal Structure Information (TSI) of the utterance chosen by the given speaker. This TSI is shown to reduce the error rate by 60% when impostors do not know the client password. In order to reinforce the temporal structure of speech, we propose a new approach for speaker verification. The speech modality is reinforced by additional temporal information. Synchronisation points extracted from an additional process are used to constrain the acoustic decoding. Such an additional modality could be used in order to add different structural information and to thwart impostor attacks such as playback. Thanks to the specific aspects of our system, this aided-decoding shows an acceptable level of complexity. In order to reinforce the relaxed synchronisation between states and frames due to the SCHMM structure of the TSI modelling, we propose to embed an external information during the audio decoding by adding further time-constraints. This information is here labelled external to reflect that it is aimed to come from an independent process. Experiments were performed on the BIOMET part of the MyIdea database by using an external information gathered from an automatic phonetical alignment. We show that adding a synchronisation constraint to our acoustic approach allows to reduce impostor scores and to decrease the error rate from 20% when impostor do not know the client password. In others conditions, when impostors know the passwords, the performance remains similar to the original baseline. The extraction of the synchronisation constraint from a video stream seems difficult to accommodate with embedded limited resources. We proposed a first exploration of the use of a video stream in order to constrain the acoustic process. This simple video processing did not allow us to extract any pertinent information
37

Énonciation et dénonciation de la doxa dans l’œuvre de Nathalie Sarrautte : l'exemple du Planétarium et de Vous les entendez ? / Enunciation and denunciation of doxa in the work of Nathalie Sarraute : the example of The Planetarium and You Have Them?

Gueye, Demba 27 January 2017 (has links)
La thèse s’intéresse à la problématique de la répétition dans le discours. Le langage de la répétition relève de la doxa, mot que nous avons utilisé dans la thèse comme le terme générique qui englobe cette réalité complexe que Nathalie Sarraute dénonce dans son œuvre en s’attaquant au réalisme discursif. Il s’agit d’étudier dans un corpus littéraire le langage figé qui exprime des réalités figées. C’est un langage qui s’appuie sur un système de référence prototypique. Le référent est soit un objet, soit une propriété ou un processus isolable dont les réalistes considèrent qu’il existe en dehors de notre esprit. C’est le discours de la modélisation qui privilégie ce que Paul VALERY appelle dans Monsieur Teste « la machine » de langage. Ce sont les habitudes langagières qui consistent à inventer des codes d’écriture et de lecture servant de règle à toutes les communautés doxiques dans leur rapport avec le monde. Ce langage apparaît à travers l’utilisation des formes génériques et figées comme le stéréotype, le lieu commun, le cliché, le préjugé, l’idée reçue. La thèse essaie de mettre en exergue les stratégies de dénonciation d’une telle forme de discours dans le roman de Nathalie Sarraute. Elle passe en revue l’énonciation et la dénonciation des stéréotypes qui se divisent en stéréotypes de pensées et en stéréotypes de langue. / The thesis deals with the problem of repetition in speech. The language of repetition is the doxa, word that we used in the thesis as the generic term that encompasses this complex reality that Nathalie Sarraute denounces in his work by attacking the discursive realism. He is studying the set language that expresses frozen realities in a literary corpus. It is a language that relies on a prototypical reference system. The referent is either an object, either a property or a reportable process wich realists consider that there are outside our mind. It is the speech of modeling that privileges what Paul VALERY call in Mr tests the "machine language ". These are the language habits which consist in inventing of the codes of writing and reading rule for all doxa communities in their relation to the world. This language appears through the use of generic and frozen forms as the stereotype, the common place, the cliché, the prejudice, the received idea. The thesis tries to highlight strategies for the reporting of such a form of speech in the novel to Nathalie Sarraute. She will review the enunciation and the denunciation of the stereotypes that divide in stereotypes of thoughts and language stereotypes
38

L'appropriation des langues en contexte plurilingue : le cas de la Guyane / Appropriation of languages in multilingualism context : The case of French Guyana

Sabine, Inga 10 November 2011 (has links)
La notion d’appropriation des langues est définie au regard du contexte guyanais. La Guyane est positionnée au carrefour de la Caraïbe et de l’Amérique du Sud, c’est-à-dire au cœur d’un processus migratoire et de nouvelles problématiques, dont celle du vivre ensemble. Il s’agit de mettre en évidence la réalité dans laquelle s’ancre le locuteur et de présenter les éléments de l’appropriation dans ce contexte plurilingue. L’appropriation de la langue est entendue comme une action – parler – en train de se faire, au cours d’une interaction déterminée sur une échelle espace-temps. La problématique, suivant une approche interactive et interdisciplinaire, repose sur la relation entre les deux volets de ce travail : recherche de terrain et réflexion théorique, laquelle est menée autour des notions d’appropriation, de langue, de sujet et de contexte. La place accordée à l’arrière-plan ethnographique et social, induit une méthodologie basée sur la compréhension des éléments des contextes à décrire, supports des pratiques déclarées par les sujets recueillies par le biais de questionnaires, mais surtout au cours d’entretiens. Deux attitudes sont identifiées, l’une d’ouverture et l’autre de repli sur soi. La première conduit le sujet à s’approprier les langues de son environnement : le sujet développe une identité plurielle, qu’il revendique comme telle, et s’épanouit dans le plurilinguisme, à condition qu’il soit légitimé dans les différentes sphères auxquelles il se réfère. La deuxième consiste à définir la communauté linguistique et culturelle à laquelle le sujet appartient, et dont il réclame l’identité et la légitimité. / The notion of the appropriation of languages is defined under the Guyanese context. French Guyana is placed at the junction of Caribbean and South America, that is at the heart of a migration process and new problems which invites reflection on the « living together ». This is to highligth the reality into which someone is anchored, and to present the components of appropriation in this multilingual context. The appropriation of languages is understood as an action – speak – in the making, during an interaction on a scale determined space-time. The problem, according to an interactive and interdisciplinary approach, is based on the relationship between the two components of this work : the field research and the theoretical thought, which is conducted around the notions of appropriation, language, subject and context. The emphasis on the ethnographic and social background leads consequently to a methodology based on comprehension of the contexts components to describe, supports of linguistic practices declared by subjects collected through questionnaires, but especially during interviews. Two attitudes are identified, one of openness and one of withdrawal. The first leads the subject to appropriate the language of his environment : the subject develops a plural identity, he claims as such, and thrives in multilingualism, provided that he’s legitimized into the spheres he refers to. The second is to define the linguistic and cultural community to which the subject belongs, and that he claims identity and legitimity.
39

Métodos de representación y verificación del locutor con independencia del texto / Méthodes de représentation et de vérification du locuteur indépendant du texte / Methods of utterances representation in text-independent speaker verification

Hernandez Sierra, Gabriel 15 December 2014 (has links)
La reconnaissance automatique du locuteur indépendante du texte est une méthode récente dans le domaine des systèmes biométriques. Le développement de la reconnaissance du locuteur se reflète tout autant dans la participation croissante aux compétitions internationales et dans les progrès en termes de performance relevés dans ces campagnes. Cependant la précision des méthodes reste limitée par la quantité d'information discriminante du locuteur présente dans les représentations informatiques des énoncés vocaux. Cette thèse présente une étude sur ces représentations. Elle identifie deux faiblesses principales. Tout d’abord, les représentations usuelles ignorent les paramètres temporels de la voix pourtant connus pour leur pouvoir discriminant. Par ailleurs, ces représentations reposent sur le paradigme de l’apprentissage statistique et diminuent l’importance d’événements rares dans une population de locuteurs, mais fréquents dans un locuteur donné.Pour répondre à ces verrous, cette thèse propose une nouvelle représentation des énoncés. Celle-ci projette chaque vecteur acoustique dans un large espace binaire intrinsèquement discriminant du locuteur. Une mesure de similitude associée à une représentation globale (vecteurs cumulatifs) est également proposée. L’approche proposée permet ainsi à la fois de représenter des événements rares mais pertinents et de travailler sur des informations temporelles. Cette approche permet de tirer parti des solutions de compensation de la variabilité « session », qui provient de l’ensemble des facteurs indésirables, exploitées dans les approches de type « iVector ». Dans ce domaine, des améliorations aux algorithmes de l’état de l’art ont été proposées.Une solution originale permettant d’exploiter l’information temporelle à l’intérieur de cette représentation binaire a été proposée. La complémentarité des sources d’information a été attestée par un gain en performance relevé grâce à une fusion linéaire des deux types d’information, indépendant et dépendant de la séquence temporelle. / Text-independent automatic speaker recognition is a recent method in biometric area. Its increasing interest is reflected both in the increasing participation in international competitions and in the performance progresses. Moreover, the accuracy of the methods is still limited by the quantity of speaker discriminant information contained in the representations of speech utterances. This thesis presents a study on speech representation for speaker recognition systems. It shows firstly two main weaknesses. First, it fails to take into account the temporal behavior of the voice, which is known to contain speaker discriminant information. Secondly, speech events rare in a large population of speakers although very present for a given speaker are hardly taken into account by these approaches, which is contradictory when the goal is to discriminate among speakers.In order to overpass these limitations, we propose in this thesis a new speech representation for speaker recognition. This method represents each acoustic vector in a a binary space which is intrinsically speaker discriminant. A similarity measure associated with a global representation (cumulative vectors) is also proposed. This new speech utterance representation is able to represent infrequent but discriminant events and to work on temporal information. It allows also to take advantage of existing « session » variability compensation approaches (« session » variability represents all the negative variability factors). In this area, we proposed also several improvements to the usual session compensation algorithms. An original solution to deal with the temporal information inside the binary speech representation was also proposed. Thanks to a linear fusion approach between the two sources of information, we demonstrated the complementary nature of the temporal information versus the classical time independent representations. / El reconocimiento automático del locutor independiente del texto, es un método dereciente incorporación en los sistemas biométricos. El desarrollo y auge del mismo serefleja en las competencias internacionales, pero aun la eficacia de los métodos de reconocimientose encuentra afectada por la cantidad de información discriminatoria dellocutor que esta presente en las representaciones actuales de las expresiones de voz.En esta tesis se realizó un estudio donde se identificaron dos principales debilidadespresentes en las representaciones actuales del locutor. En primer lugar, no se tiene encuenta el comportamiento temporal de la voz, siendo este un rasgo discriminatorio dellocutor y en segundo lugar los eventos pocos frecuentes dentro de una población delocutores pero frecuentes en un locutor dado, apenas son tenidos en cuenta por estosenfoques, lo cual es contradictorio cuando el objetivo es discriminar los locutores. Motivadopor la solución de estos problemas, se confirmó la redundancia de informaciónexistente en las representaciones actuales y la necesidad de emplear nuevas representacionesde las expresiones de voz. Se propuso un nuevo enfoque con el desarrollo de unmétodo para la obtención de un modelo generador capaz de transformar la representación actual del espacio acústico a una representación en un espacio binario, dondese propuso una medida de similitud asociada con una representación global (vectoracumulativo) que contiene tanto los eventos frecuentes como los pocos frecuentes enuna expresión de voz. Para la compensación de la variabilidad de sesión se incorporóen la matriz de dispersión intra-clase, la información común de la población de locutores,lo que implicó la modificación de tres algoritmos de la literatura que mejoraronsu desempeño respecto a la eficacia en el reconocimiento del locutor, tanto utilizandoel nuevo enfoque propuesto como el enfoque actual de referencia. La información temporalexistente en las expresiones de voz fue capturada e incorporada en una nuevarepresentación, mejorando aun más la eficacia del enfoque propuesto. Finalmente sepropuso y evaluó una fusión lineal entre los dos enfoques que demostró la informacióncomplementaria existente entre ellos, obteniéndose los mejores resultados de eficaciaen el reconocimiento del locutor.
40

Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems / Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole

Tomashenko, Natalia 01 December 2017 (has links)
Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. / Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them.

Page generated in 0.0516 seconds