Global ETD Search

1	Structuration automatique en locuteurs par approche acoustique Zhu, Xuan 15 October 2007 (has links) (PDF) Cette thèse porte sur la structuration en locuteurs de différents types d'enregistrements audio, en particulier des journaux télévisés ou radiophoniques et des réunions. La structuration en locuteurs a pour objectif de répondre à la question ''qui a parlé quand'' dans un document audio donné. Cette thèse fait l'hypothèse qu'aucune connaissance a priori sur la voix de locuteurs ou sur leur nombre n'est disponible. La principale originalité du système de structuration en locuteurs pour des journaux télévisés ou radiophoniques présenté est de combiner deux étapes de regroupement en locuteurs: la première étape se fonde sur le Critère d'Information Bayesien (BIC) avec des Gaussiennes à matrice de covariance pleine et la deuxième étape de regroupement recombine les classes résultant en utilisant des techniques proposées pour l'identification du locuteur et utilisant des modèle de mélange de Gaussiennes (GMM) adaptés à partir d'un modèle générique. Ce système a été validé dans l'évaluation internationale NIST RT-04F (Rich Transcription 2004 Fall) et l'évaluation française ESTER 2005 du projet Technolangue EVALDA. Il a obtenu les meilleurs résultats dans les deux évaluations. Le système de structuration en locuteurs conçu pour les journaux télévisés a également été adapté aux réunions. Il intègre un nouveau détecteur de parole fondé sur le rapport de log-vraisemblance. Diverses techniques de normalisation des paramètres acoustiques et différentes représentations acoustiques ont été testées au cours de cette adaptation. Dans la dernière évaluation du NIST sur de réunions, le système adapté a eu un taux d'erreur de 26% environ sur les données de conférences et séminaires. [INFO] Computer Science structuration en locuteurs document audio segmentation en locuteurs regroupement en locuteurs approche acoustique détection de la parole superposée maximum de vraisemblance le critère d'Information Bayesien (BIC)
2	Reconnaissance de locuteurs par localisation dans un espace de locuteurs de référence Mami, Yassine 21 October 2003 (has links) (PDF) Cette thèse s'inscrit dans le domaine de la reconnaissance automatique du locuteur, domaine riche d'applications potentielles allant de la sécurisation d'accès à l'indexation de documents audio. Afin de laisser le champ à un large éventail d'applications, nous nous intéressons à la reconnaissance de locuteur en mode indépendant du texte et dans le cas où nous disposons de très peu de données d'apprentissage. Nous nous intéressons plus particulièrement à la modélisation et à la représentation des locuteurs. Il s'agit d'estimer avec très peu de données un modèle suffisamment robuste du locuteur pour permettre la reconnaissance du locuteur. La modélisation par un mélange de gaussiennes (GMM), en mode indépendant du texte, fournit des bonnes performances et constitue l'état de l'art en la matière. Malheureusement, cette modélisation est peu robuste dans le cas où on ne dispose que de quelques secondes de parole pour apprendre le modèle du locuteur. Pour tenter de remédier à ce problème, une perspective intéressante de modélisation consiste à représenter un nouveau locuteur, non plus de façon absolue, mais relativement à un ensemble de modèles de locuteurs bien appris. Chaque locuteur est représenté par sa localisation dans un espace de locuteurs de référence. C'est cette perspective que nous avons explorée dans cette thèse. Au cours de ce travail, nous avons recherché le meilleur espace de représentation et la meilleure localisation dans cet espace. Nous avons utilisé le regroupement hiérarchique et la sélection d'un sous-ensemble pour construire cet espace. Les locuteurs sont ensuite localisés par la technique des modèles d'ancrage. Il s'agit de calculer un score de vraisemblance par rapport à chaque locuteur de référence. Ainsi, la proximité entre les locuteurs est évaluée par l'application des distances entre leurs vecteurs de coordonnées.<br />Nous avons proposé ensuite une nouvelle représentation des locuteurs basée sur une distribution de distances. L'idée est de modéliser un locuteur par une distribution sur les distances mesurées dans l'espace des modèles d'ancrage. Cela permet d'appliquer une mesure statistique entre l'occurrence de test et les modèles des locuteurs à reconnaître (au lieu d'une mesure géométrique).<br />Ainsi, si nous avons approfondi la modélisation d'un locuteur par sa position dans un espace de locuteurs de référence, nous avons également étudié comment cette position pouvait permettre une meilleure estimation du modèle GMM du locuteur, par exemple en fusionnant les modèles de ses plus proches voisins. Finalement, en complément à la modélisation GMM-UBM, nous avons étudié des algorithmes de fusion de décisions avec les différentes approches proposées. Reconnaissance du locuteur identification du locuteur vérification du locuteur représentation relative locuteurs de référence espace de locuteurs localisation modèles d'ancrage
3	Indexation vidéo non-supervisée basée sur la caractérisation des personnes El Khoury, Elie 03 June 2010 (has links) (PDF) Cette thèse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modèle audiovisuel dynamique des intervenants. Diarization Fusion audiovisuelle Segmentation en locuteurs Regroupement en locuteurs Détection des visages Regroupement des visages Extraction du costume GLR-BIC segmentation
4	Steps towards end-to-end neural speaker diarization / Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteurs Yin, Ruiqing 26 September 2019 (has links) La tâche de segmentation et de regroupement en locuteurs (speaker diarization) consiste à identifier "qui parle quand" dans un flux audio sans connaissance a priori du nombre de locuteurs ou de leur temps de parole respectifs. Les systèmes de segmentation et de regroupement en locuteurs sont généralement construits en combinant quatre étapes principales. Premièrement, les régions ne contenant pas de parole telles que les silences, la musique et le bruit sont supprimées par la détection d'activité vocale (VAD). Ensuite, les régions de parole sont divisées en segments homogènes en locuteur par détection des changements de locuteurs, puis regroupées en fonction de l'identité du locuteur. Enfin, les frontières des tours de parole et leurs étiquettes sont affinées avec une étape de re-segmentation. Dans cette thèse, nous proposons d'aborder ces quatre étapes avec des approches fondées sur les réseaux de neurones. Nous formulons d’abord le problème de la segmentation initiale (détection de l’activité vocale et des changements entre locuteurs) et de la re-segmentation finale sous la forme d’un ensemble de problèmes d’étiquetage de séquence, puis nous les résolvons avec des réseaux neuronaux récurrents de type Bi-LSTM (Bidirectional Long Short-Term Memory). Au stade du regroupement des régions de parole, nous proposons d’utiliser l'algorithme de propagation d'affinité à partir de plongements neuronaux de ces tours de parole dans l'espace vectoriel des locuteurs. Des expériences sur un jeu de données télévisées montrent que le regroupement par propagation d'affinité est plus approprié que le regroupement hiérarchique agglomératif lorsqu'il est appliqué à des plongements neuronaux de locuteurs. La segmentation basée sur les réseaux récurrents et la propagation d'affinité sont également combinées et optimisées conjointement pour former une chaîne de regroupement en locuteurs. Comparé à un système dont les modules sont optimisés indépendamment, la nouvelle chaîne de traitements apporte une amélioration significative. De plus, nous proposons d’améliorer l'estimation de la matrice de similarité par des réseaux neuronaux récurrents, puis d’appliquer un partitionnement spectral à partir de cette matrice de similarité améliorée. Le système proposé atteint des performances à l'état de l'art sur la base de données de conversation téléphonique CALLHOME. Enfin, nous formulons le regroupement des tours de parole en mode séquentiel sous la forme d'une tâche supervisée d’étiquetage de séquence et abordons ce problème avec des réseaux récurrents empilés. Pour mieux comprendre le comportement du système, une analyse basée sur une architecture de codeur-décodeur est proposée. Sur des exemples synthétiques, nos systèmes apportent une amélioration significative par rapport aux méthodes de regroupement traditionnelles. / Speaker diarization is the task of determining "who speaks when" in an audio stream that usually contains an unknown amount of speech from an unknown number of speakers. Speaker diarization systems are usually built as the combination of four main stages. First, non-speech regions such as silence, music, and noise are removed by Voice Activity Detection (VAD). Next, speech regions are split into speaker-homogeneous segments by Speaker Change Detection (SCD), later grouped according to the identity of the speaker thanks to unsupervised clustering approaches. Finally, speech turn boundaries and labels are (optionally) refined with a re-segmentation stage. In this thesis, we propose to address these four stages with neural network approaches. We first formulate both the initial segmentation (voice activity detection and speaker change detection) and the final re-segmentation as a set of sequence labeling problems and then address them with Bidirectional Long Short-Term Memory (Bi-LSTM) networks. In the speech turn clustering stage, we propose to use affinity propagation on top of neural speaker embeddings. Experiments on a broadcast TV dataset show that affinity propagation clustering is more suitable than hierarchical agglomerative clustering when applied to neural speaker embeddings. The LSTM-based segmentation and affinity propagation clustering are also combined and jointly optimized to form a speaker diarization pipeline. Compared to the pipeline with independently optimized modules, the new pipeline brings a significant improvement. In addition, we propose to improve the similarity matrix by bidirectional LSTM and then apply spectral clustering on top of the improved similarity matrix. The proposed system achieves state-of-the-art performance in the CALLHOME telephone conversation dataset. Finally, we formulate sequential clustering as a supervised sequence labeling task and address it with stacked RNNs. To better understand its behavior, the analysis is based on a proposed encoder-decoder architecture. Our proposed systems bring a significant improvement compared with traditional clustering methods on toy examples. Détection des changements de locuteurs Segmentation LSTM Propagation d'affinité Partitionnement spectral Speaker diarization Speaker change detection Speech segmentation LSTM Affinity propagation Spectral clustering
5	Approche normative des conséquences du biais linguistique intergroupe : étude de l'évaluation de l'usage du langage en contexte intergroupe / Normative approach consequences of linguistic intergroup bias : study evaluating the use of language in intergroup context Assilaméhou, Yvette 29 November 2013 (has links) L’objectif général de la thèse est d’examiner le rôle de l’utilisation du langage dans la perpétuation des biais intergroupes. Plus spécifiquement, il s’agit d’étudier les conséquences du Biais Linguistique Intergroupe (Linguistic Intergroup Bias, LIB,Maass, Salvi, Arcuri, & Semin, 1989). Le LIB est une manifestation subtile du biais de favoritisme endogroupe au niveau langagier. Ce biais se traduit par l’utilisation préférentielle de termes abstraits, i.e. des adjectifs, pour décrire les comportements positifs des membres de l’endogroupe et négatifs des membres de l’exogroupe, et à l’inverse par l’utilisation de termes concrets, i.e. des verbes d’action, pour décrire les comportements négatifs des membres de l’endogroupe et positifs des membres de l’exogroupe. Il est généralement admis que le LIB participe au maintien et à latransmission des croyances sur les groupes (Wigboldus & Douglas, 2007), cependant les processus sous-jacents restent relativement peu étudiés. Cette thèse propose une approche normative des conséquences du LIB, en examinant l’évaluation de l’usage de l’abstraction linguistique en contexte intergroupe. Le programme de recherche se décline en huit études. Trois études portent sur les liens entre usage de l’abstraction linguistique et évaluation des biais du locuteurà l’égard du groupe décrit. Quatre études examinent ensuite les liens entre utilisation de l’abstraction et évaluation de la valeur du locuteur en tant que membre de son groupe. Enfin, la dernière étude porte sur les conséquences des réactions sociales envers l’utilisation du LIB sur la perception des normes et sur l’expression explicite des biais intergroupes. Globalement, les résultats soutiennent l’idée que l’usage de l’abstraction linguistique en contexte intergroupe, et donc leLIB, peut faire l’objet de régulations normatives. Les implications pour le rôle du LIB dans la perpétuation des biais intergroupes sont discutées / The general aim of this thesis is to examine the role of language use into the perpetuation of intergroup bias. More precisely,we investigate the consequences of the Linguistict Intergroup Bias (LIB, Maass, Salvi, Arcuri, & Semin, 1989). The LIB is a subtle expression of ingroup bias at a linguistic level. The LIB refers to the tendency to use preferentially abstracts terms, i.e. adjectives, to describe positive ingroup and negative outgroup behaviors, and in contrast to use concrete terms, i.e. action verbs, to describe negative ingroup and positive outgroup behaviors. The LIB is widely accepted as playing a role in the transmission and the maintenance of beliefs about groups (Wigboldus & Douglas, 2007), however little is known about the underlying processes. This thesis develops a normative approach of the consequences of the LIB, by examining theevaluation of the use of linguistic abstraction in intergroup context. The research program is divided in eight studies. Three studies focuses on the relationships between the use of linguistic abstraction and the evaluation of the speaker’s bias toward the group being described. Four studies examine the relationships between the use of linguistic abstraction and the evaluation of the speaker’s value as a group member. Finally, the last study focuses on the consequences of social reactions toward the use of the LIB on the perception of norms and on the explicit expression of intergroup bias. In general, our results indicate that the use of linguistic abstraction, and therefore the LIB, may be subject to normative regulations. The implications for the role of the LIB into the perpetuation of intergroup bias are discussed Abstraction linguistique Évaluation des locuteurs Biais pro-endogroupe Linguistic abstraction Speakers’ evaluation Ingroup bias 302
6	Reconnaissance du locuteur en milieux difficiles / Speaker recognition in noisy environments Ben Kheder, Waad 18 July 2017 (has links) Le domaine de la reconnaissance automatique du locuteur (RAL) a vu des avancées considérables dans la dernière décennie permettant d’atteindre des taux d’erreurs très faibles dans des conditions contrôlées. Cependant, l’implémentation de cette technologie dans des applications réelles est entravée par la grande dégradation des performances en présence de nuisances acoustiques en phase d’utilisation. Un grand effort a été investi par la communauté de recherche en RAL dans la conception de techniques de compensation des nuisances acoustiques. Ces techniques opèrent à différents niveaux : signal, paramètres acoustiques, modèles ou scores. Avec le développement du paradigme de "variabilité totale", de nouvelles possibilités peuvent être explorées profitant des propriété statistiques simples de l’espace des i-vecteurs. Notre travail de thèse s’inscrit dans ce cadre et propose des techniques de compensation des nuisances acoustiques qui opèrent directement dans le domaine des i-vecteurs. Ces algorithmes utilisent des relations simples entre les i-vecteurs corrompus et leurs versions propres et font abstraction de l’effet réel des nuisances dans cet espace. Afin de mettre en œuvre cette méthodologie, des exemples de données propres / corrompues sont générés artificiellement et utilisés pour construire des algorithmes de compensation des nuisances acoustiques. Ce procédé permet d’éviter les dérivations qui peuvent être complexes, voire très approximatives. Les techniques développées dans cette thèse se divisent en deux classes : La première classe de techniques se base sur un modèle de distorsion dans le domaine des i-vecteurs. Une relation entre la version propre et la version corrompue d’un i-vecteur est posée et un estimateur permettant de transformer un i-vecteur de test corrompu en sa version propre est construit. La deuxième classe de techniques n’utilise aucun modèle de distorsion dans le domaine des i-vecteurs. Elle permet de tenir compte à la fois de la distribution des i-vecteurs propres, corrompus ainsi que la distribution jointe. Des expériences ont été réalisées sur les données bruitées ainsi que les données de courte durée ; donnés de NIST SRE 2008 bruitées/découpées artificiellement ainsi que les données du challenge SITW bruitées naturellement / de courte durée. / Speaker recognition witnessed considerable progress in the last decade, achieving very low error rates in controlled conditions. However, the implementation of this technology in real applications is hampered by the great degradation of performances in presence of acoustic nuisances. A lot of effort has been invested by the research community in the design of nuisance compensation techniques in the past years. These algorithms operate at different levels : signal, acoustic parameters, models or scores. With the development of the "total variability" paradigm, new possibilities can be explored due to the simple statistical properties of the i-vector space. Our work falls within this framework and presents new compensation techniques which operate directly in the i-vector space. These algorithms use simple relationships between corrupted i-vectors and the corresponding clean versions and ignore the real effect of nuisances in this domain. In order to implement this methodology, pairs of clean and corrupted data are artificially generated then used to develop nuisance compensation algorithms. This method avoids making complex derivations and approximations. The techniques developed in this thesis are divided into two classes : The first class of techniques is based on a distortion model in the i-vector space. A relationships between the clean version of an i-vector and its corrupted version is set and an estimator is built to transform a corrupted test i-vector to its clean counterpart. The second class of techniques does not use any distortion model in the i-vectors domain. It takes into account both the distribution of the clean, corrupt i-vectors as well as the joint distribution. Experiments are carried-out on noisy data and short utterances ; artificially corrupted NIST SRE 2008 data and natural SITW (short / noisy segments). Reconnaissance de locuteurs Nuisances acoustiques I-vecteur Speaker recognition Acoustic nuisance I-vecteur
7	Case-studies: an analysis of 12 interviews obtained from three different learners, M, D and J Sonck, Gerda January 1989 (has links) Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished Sciences humaines Psycholinguistics Psycholinguistique
8	Developmental acquisition of three verb placement rules in dutch by adult french-speaking classroom learners Sonck, Gerda January 1989 (has links) Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished Sciences humaines Psycholinguistics Psycholinguistique
9	L'irlandais sur les ondes radiophoniques : un reflet des attitudes linguistiques en Irlande Lhomet, Cécile 03 1900 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. / Les locuteurs irlandais bénéficient sur toute l'île de toutes les techniques actuelles de communication, y compris la radio. Effectivement, il existe différents postes de radio tout autour de l'île émettant en irlandais. Ces radios, en tant que radios communautaires pour la plupart, sont la voix de la communauté visée, à savoir l'ensemble des individus parlant et comprenant l'irlandais. Elles lui permettent de s'exprimer et d'affirmer son existence. Durant la dernière décennie, ces radios se sont multipliées et diversifiées. Or, selon la définition officielle des radios d'intérêt, ces dernières sont révélatrices des intérêts du groupe auquel elles s'adressent. Dès lors, cette évolution des radios est censée répondre à une demande accrue, à un intérêt croissant pour la langue irlandaise au sein de la population de l'ensemble du pays. Un tel rapport existe-t-il entre l'évolution des radios et celle de la communauté linguistique? Plus précisément, la vitalité des radios programmant en irlandais est-elle un reflet de la vitalité des attitudes envers la langue irlandaise? Dans le but de vérifier si une relation peut être établie entre l'évolution des radios et celle des attitudes de la population envers la langue irlandaise, il nous semble utile de procéder en plusieurs étapes. Dans un premier temps, après avoir brièvement présenté la situation linguistique en Irlande et l'évolution des politiques concernant le milieu radiophonique, nous expliquerons la méthodologie que nous avons suivie. Par la suite, nous étudierons les attitudes de la population du sud de l'île puis du nord de l'île par rapport à des points essentiels pour la survie de la langue. Nous nous pencherons de plus près ensuite sur l'évolution dans le milieu radiophonique à la fois dans le sud et dans le nord. Une fois que nous aurons étudié en détail chacun de ces domaines, nous tenterons, dans une dernière étape, de faire une analyse parallèle de l'évolution des attitudes envers la langue et de l'évolution des radios programmant en irlandais. Locuteurs irlandais Radios communautaires Vitalité linguistique Attitudes Communication Évolution
10	Entre fierté et mépris : le rapport ambivalent à l'égard du chiac dans "Pour sûr" de France Daigle Trerice, Spencer 28 July 2016 (has links) France Daigle’s Governor General’s Award winning novel Pour sûr, published in 2011, depicts the daily life of Acadians in Moncton. In this study, I examine the attitudes and perceptions the characters of the novel have towards their variety of Acadian French, called Chiac. The characters often regard their vernacular as illegitimate, particularly when compared to the linguistic norm (Standard French) and other varieties of French considered as “good French”, but also, depending on the context, demonstrate feelings of pride. Thus, in the novel, Chiac is deemed both an inferior variety of French and a marker of identity. Many sociolinguistic studies have revealed that native speakers of Chiac experience a sentiment of ambivalence towards their variety. In this respect, the novel mirrors the Monctonian sociolinguistic reality. / Graduate / 0355 / 0290 / spencer.trerice@gmail.com chiac représentations linguistiques vernaculaire France Daigle littérature acadienne Nouveau-Brunswick sentiment d'ambivalence locuteurs minoritaires français au Canada sociolinguistique

Search results