Spelling suggestions: "subject:"groupement"" "subject:"groupements""
51 |
La Gestion Prévisionnelle des Emplois et des Compétences dans le cadre de la restructuration d'un organisme de santé : le cas du groupe CAPIO sur la côte atlantique. / The implementation of Provisional Management of Employment and Skills practices within the framework of a regrouping of several private French clinics belonging to a common health care provider : the case of CAPIO BAYONNEMousques, Cédric 07 October 2016 (has links)
Notre recherche doctorale se propose d’analyser la mise en place de la Gestion Prévisionnelle des Emplois et des Compétences (GPEC) dans le cadre d’un regroupement de cliniques privées appartenant à un même opérateur de santé. Organisée en trois temps, notre thèse vise à se démarquer de l’approche fonctionnaliste qui domine les écrits sur la GPEC en Sciences de Gestion et qui traite principalement du contenu de la démarche. Elle tente, en ce sens, d’ouvrir la « boîte noire » que constitue la GPEC à l’aune de la dimension humaine et du processus de construction. Dans un premier temps, nous mobilisons l’approche contextualiste de Pettigrew (1985, 1987, 1990) qui rend compte des interrelations entre trois grandes dimensions : un contenu de changement, le contexte interne et externe dans lequel il se développe et le processus de son déploiement. Ce cadre d’étude contextualiste initial ne suffit pas à lui-seul pour étudier un phénomène. Dès lors, nous proposons de le faire évoluer par l’introduction de variables explicatives dans ses trois dimensions. Cette modélisation systémique particulière est réalisée dans une logique abductive alternant des allers et retours entre les observations théoriques et les observations réalisées sur le terrain d’étude mobilisé, CAPIO BAYONNE. Dans un second temps, nous mettons à l’épreuve notre modèle contextualiste de recherche sur le terrain d’étude en question. La déclinaison empirique obtenue révèle de nombreux enseignements qui inscrivent la GPEC dans une vision multi-paradigmatique et intégrée combinant l’approche contingente, l’approche incrémentale et l’approche fonctionnaliste. Enfin, dans un troisième et dernier temps, la recherche cherche à établir, à partir de notre modèle contextualiste et de ses enseignements issus du terrain, un mode de gestion « générique » de GPEC pour les managers qui souhaitent se doter d’une telle démarche dans le cadre d’un regroupement de cliniques privées. / This doctoral research work proposes to analyse the implementation of Provisional Management of Employment and Skills practices (“GPEC” in French) within the framework of a regrouping of several private French clinics belonging to a common health care provider. Our thesis is organised in three parts, and aims to distinguish itself from the functionalist approach which currently dominates the literature on “GPEC” in Management Sciences and which limits itself mainly to studying the content of the approach. We thereby try to continue the work of opening up the "black box" of the “GPEC” in terms of the human dimension and the construction process involved. Firstly, we mobilise Pettigrew's contextualist approach (1985, 1987, 1990), which describes the interrelationships between three major dimensions : a content of change, the internal and external context in which this develops, and its deployment process. This initial contextualist framework is not in itself sufficient for studying a phenomenon.We therefore propose to further develop it by introducing explanatory variables into each of its three dimensions. This specific systemic modeling is performed using abductive logic to frequently alternate between the theoretical findings on the one hand and the observations conducted on the study site, CAPIO BAYONNE, on the other. Secondly, we test our contextualist research model on the study site in question. The empirical declination thus obtained teaches many lessons which set the “GPEC” in a multi-paradigm, integrated view of things, combining the contingency approach, the incremental approach and the functionalist approach. Finally, in a third and final part, our research seeks to establish, on the basis of our contextualist model and the lessons learnt from the field, a "generic" GPEC management mode for managers who wish to develop such an approach as part of a regrouping of private clinics.
|
52 |
Modélisation de hiérarchies complexes dans les entrepôts de données XML et traitement des problèmes d'additivité dans l'analyse en ligne XOLAP / Modeling complex hierarchies in XML data warehouses and solving summarizability problems in XOLAPHachicha, Marouane 26 November 2012 (has links)
Depuis son apparition en 1998, le langage XML (eXtensible Markup Language) est devenu un standard pour la modélisation et l'échange de données. En effet, XML permet de modéliser des structures de données qui ne sont pas facilement représentées dans les systèmes relationnels. Dans ce contexte, les entrepôts de données XML représentent aujourd'hui la base de plusieurs applications décisionnelles qui exploitent des données hétérogènes (peu structurées et provenant des sources multiples) aux structures complexes comme par exemple des hiérarchies complexes.Dans ce mémoire, nous proposons une nouvelle solution XOLAP (XML-OLAP) en temps réel qui traite les problèmes d'additivité dus aux hiérarchies complexes. Tout d'abord, nous proposons un nouveau modèle de données : les arbres de données multidimensionnels, qui permet de modéliser les faits, les dimensions, les mesures et les hiérarchies complexes d'un entrepôt de données XML. Pour pouvoir interroger les arbres de données multidimensionnels, nous modélisons les requêtes utilisateur à l'aide de modèles d'arbre XML. Nous proposons ensuite un nouvel algorithme de regroupement et d'agrégation pour la résolution en temps réel des problèmes d'additivité dans les hiérarchies complexes. Nous généralisons enfin cet algorithme à un nouvel opérateur XOLAP de forage vers le haut (roll-up).Finalement, nous validons nos propositions de manière expérimentale. Pour cela, nous étendons le banc d'essais XWeB en introduisant des hiérarchies complexes dans son schéma. La comparaison de notre approche à une approche de référence montre que la surcharge due à l'exécution en temps réel de notre approche est tout à fait acceptable et que nos algorithmes sont susceptibles de passer à l'échelle. / Since its inception in 1998, the eXtensible Markup Language (XML) has emerged as a standard for data representation and exchange over the Internet. XML provides an opportunity for modeling data structures that are not easily represented in relational systems. In this context, XML data warehouses nowadays form the basis of several decision-support applications exploiting heterogeneous data (little structured and coming from various sources) bearing complex structures, such as complex hierarchies. In this thesis, we propose a novel XOLAP (XML-OLAP) approach that automatically detects and processes summarizability issues at query time, without requiring any particular expertise from the user. Thus, at the logical level, we choose XML data trees, so-called multidimensional data trees, to model the multidimensional structures (facts, dimensions, measures and complex hierarchies) of XML data warehouses. In order to query multidimensional data trees, we model user queries as XML pattern trees. Then, we introduce a new aggregation algorithm to address summarizability issues in complex hierarchies. On the basis of this algorithm, we propose a novel XOLAP roll-up operator. Finally, we experimentally validate our proposal and compare our approach with the reference approach for addressing summarizability issues in complex hierarchies. For this sake, we extend the XML warehouse benchmark XWeB with complex hierarchies to generate XML data warehouses with scalable complex hierarchies. The results of our experiments show that the overhead induced by managing hierarchy complexity at run-time is totally acceptable and that our approach is expected to scale up well.
|
53 |
Étude et optimisation de la qualité sonore d'un véhicule récréatif motoriséBenghanem, Abdelghani January 2017 (has links)
La qualité sonore (QS) est un facteur important dans la conception et pour la perception
des produits, notamment dans le cas des véhicules. Il est donc fondamental d'étudier la
qualité sonore des véhicules récréatifs motorisés. L'objectif est d'étudier le bruit généré
par un véhicule récréatif motorisé (VRM) et de rendre ce dernier plus agréable pour le
conducteur afin de rajouter plus de plaisir à l'expérience de conduite. Le projet est basé
sur trois volets importants. Le premier volet consiste à identifier les paramètres physiques
des différents composants acoustiques d'un véhicule récréatif motorisé, de conduire des
tests d'écoute et d'en faire une étude statistique. Pour ce faire, plusieurs bases de données
ont été déjà établies par des enregistrements binauraux correspondants à la position du
pilote. Le deuxième volet consiste à définir une méthode de prédiction des résultats de
tests d'écoute de préférence par des indicateurs psychoacoustiques dits objectifs, issus des
signaux mesurés pour les tests d'écoute de préférence. L'originalité de cette partie est
l'utilisation des méthodes statistiques de régression linéaire multiple pour la conception
du modèle perceptif, et notamment l'algorithme Lasso qui permet la création de modèles
de prédiction de qualité sonore parcimonieux. Le troisième volet consiste à concevoir un
dispositif de modification et d'amélioration du son moteur, par filtrage numérique des
signaux binauraux, puis étudier son effet à partir de la reproduction de sons simulés et
mesurés.
|
54 |
Unsupervised Information Extraction From Text – Extraction and Clustering of Relations between Entities / Extraction d'Information Non Supervisée à Partir de Textes – Extraction et Regroupement de Relations entre EntitésWang, Wei 16 May 2013 (has links)
L'extraction d'information non supervisée en domaine ouvert est une évolution récente de l'extraction d'information adaptée à des contextes dans lesquels le besoin informationnel est faiblement spécifié. Dans ce cadre, la thèse se concentre plus particulièrement sur l'extraction et le regroupement de relations entre entités en se donnant la possibilité de traiter des volumes importants de données.L'extraction de relations se fixe plus précisément pour objectif de faire émerger des relations de type non prédéfini à partir de textes. Ces relations sont de nature semi-structurée : elles associent des éléments faisant référence à des structures de connaissance définies a priori, dans le cas présent les entités qu’elles relient, et des éléments donnés uniquement sous la forme d’une caractérisation linguistique, en l’occurrence leur type. Leur extraction est réalisée en deux temps : des relations candidates sont d'abord extraites sur la base de critères simples mais efficaces pour être ensuite filtrées selon des critères plus avancés. Ce filtrage associe lui-même deux étapes : une première étape utilise des heuristiques pour éliminer rapidement les fausses relations en conservant un bon rappel tandis qu'une seconde étape se fonde sur des modèles statistiques pour raffiner la sélection des relations candidates.Le regroupement de relations a quant à lui un double objectif : d’une part, organiser les relations extraites pour en caractériser le type au travers du regroupement des relations sémantiquement équivalentes et d’autre part, en offrir une vue synthétique. Il est réalisé dans le cas présent selon une stratégie multiniveau permettant de prendre en compte à la fois un volume important de relations et des critères de regroupement élaborés. Un premier niveau de regroupement, dit de base, réunit des relations proches par leur expression linguistique grâce à une mesure de similarité vectorielle appliquée à une représentation de type « sac-de-mots » pour former des clusters fortement homogènes. Un second niveau de regroupement est ensuite appliqué pour traiter des phénomènes plus sémantiques tels que la synonymie et la paraphrase et fusionner des clusters de base recouvrant des relations équivalentes sur le plan sémantique. Ce second niveau s'appuie sur la définition de mesures de similarité au niveau des mots, des relations et des clusters de relations en exploitant soit des ressources de type WordNet, soit des thésaurus distributionnels. Enfin, le travail illustre l’intérêt de la mise en œuvre d’un clustering des relations opéré selon une dimension thématique, en complément de la dimension sémantique des regroupements évoqués précédemment. Ce clustering est réalisé de façon indirecte au travers du regroupement des contextes thématiques textuels des relations. Il offre à la fois un axe supplémentaire de structuration des relations facilitant leur appréhension globale mais également le moyen d’invalider certains regroupements sémantiques fondés sur des termes polysémiques utilisés avec des sens différents. La thèse aborde également le problème de l'évaluation de l'extraction d'information non supervisée par l'entremise de mesures internes et externes. Pour les mesures externes, une méthode interactive est proposée pour construire manuellement un large ensemble de clusters de référence. Son application sur un corpus journalistique de grande taille a donné lieu à la construction d'une référence vis-à-vis de laquelle les différentes méthodes de regroupement proposées dans la thèse ont été évaluées. / Unsupervised information extraction in open domain gains more and more importance recently by loosening the constraints on the strict definition of the extracted information and allowing to design more open information extraction systems. In this new domain of unsupervised information extraction, this thesis focuses on the tasks of extraction and clustering of relations between entities at a large scale. The objective of relation extraction is to discover unknown relations from texts. A relation prototype is first defined, with which candidates of relation instances are initially extracted with a minimal criterion. To guarantee the validity of the extracted relation instances, a two-step filtering procedures is applied: the first step with filtering heuristics to remove efficiently large amount of false relations and the second step with statistical models to refine the relation candidate selection. The objective of relation clustering is to organize extracted relation instances into clusters so that their relation types can be characterized by the formed clusters and a synthetic view can be offered to end-users. A multi-level clustering procedure is design, which allows to take into account the massive data and diverse linguistic phenomena at the same time. First, the basic clustering groups similar relation instances by their linguistic expressions using only simple similarity measures on a bag-of-word representation for relation instances to form high-homogeneous basic clusters. Second, the semantic clustering aims at grouping basic clusters whose relation instances share the same semantic meaning, dealing with more particularly phenomena such as synonymy or more complex paraphrase. Different similarities measures, either based on resources such as WordNet or distributional thesaurus, at the level of words, relation instances and basic clusters are analyzed. Moreover, a topic-based relation clustering is proposed to consider thematic information in relation clustering so that more precise semantic clusters can be formed. Finally, the thesis also tackles the problem of clustering evaluation in the context of unsupervised information extraction, using both internal and external measures. For the evaluations with external measures, an interactive and efficient way of building reference of relation clusters proposed. The application of this method on a newspaper corpus results in a large reference, based on which different clustering methods are evaluated.
|
55 |
Le web social et le web sémantique pour la recommandation de ressources pédagogiques / Social Web and semantic Web for recommendation in e-learningGhenname, Mérième 02 December 2015 (has links)
Ce travail de recherche est conjointement effectué dans le cadre d’une cotutelle entre deux universités : en France l’Université Jean Monnet de Saint-Etienne, laboratoire Hubert Curien sous la supervision de Mme Frédérique Laforest, M. Christophe Gravier et M. Julien Subercaze, et au Maroc l’Université Mohamed V de Rabat, équipe LeRMA sous la supervision de Mme Rachida Ajhoun et Mme Mounia Abik. Les connaissances et les apprentissages sont des préoccupations majeures dans la société d’aujourd’hui. Les technologies de l’apprentissage humain visent à promouvoir, stimuler, soutenir et valider le processus d’apprentissage. Notre approche explore les opportunités soulevées en faisant coopérer le Web Social et le Web sémantique pour le e-learning. Plus précisément, nous travaillons sur l’enrichissement des profils des apprenants en fonction de leurs activités sur le Web Social. Le Web social peut être une source d’information très importante à explorer, car il implique les utilisateurs dans le monde de l’information et leur donne la possibilité de participer à la construction et à la diffusion de connaissances. Nous nous focalisons sur le suivi des différents types de contributions, dans les activités de collaboration spontanée des apprenants sur les réseaux sociaux. Le profil de l’apprenant est non seulement basé sur la connaissance extraite de ses activités sur le système de e-learning, mais aussi de ses nombreuses activités sur les réseaux sociaux. En particulier, nous proposons une méthodologie pour exploiter les hashtags contenus dans les écrits des utilisateurs pour la génération automatique des intérêts des apprenants dans le but d’enrichir leurs profils. Cependant les hashtags nécessitent un certain traitement avant d’être source de connaissances sur les intérêts des utilisateurs. Nous avons défini une méthode pour identifier la sémantique de hashtags et les relations sémantiques entre les significations des différents hashtags. Par ailleurs, nous avons défini le concept de Folksionary, comme un dictionnaire de hashtags qui pour chaque hashtag regroupe ses définitions en unités de sens. Les hashtags enrichis en sémantique sont donc utilisés pour nourrir le profil de l’apprenant de manière à personnaliser les recommandations sur le matériel d’apprentissage. L’objectif est de construire une représentation sémantique des activités et des intérêts des apprenants sur les réseaux sociaux afin d’enrichir leurs profils. Nous présentons également notre approche générale de recommandation multidimensionnelle dans un environnement d’e-learning. Nous avons conçu une approche fondée sur trois types de filtrage : le filtrage personnalisé à base du profil de l’apprenant, le filtrage social à partir des activités de l’apprenant sur les réseaux sociaux, et le filtrage local à partir des statistiques d’interaction de l’apprenant avec le système. Notre implémentation s’est focalisée sur la recommandation personnalisée / This work has been jointly supervised by U. Jean Monnet Saint Etienne, in the Hubert Curien Lab (Frederique Laforest, Christophe Gravier, Julien Subercaze) and U. Mohamed V Rabat, LeRMA ENSIAS (Rachida Ahjoun, Mounia Abik). Knowledge, education and learning are major concerns in today’s society. The technologies for human learning aim to promote, stimulate, support and validate the learning process. Our approach explores the opportunities raised by mixing the Social Web and the Semantic Web technologies for e-learning. More precisely, we work on discovering learners profiles from their activities on the social web. The Social Web can be a source of information, as it involves users in the information world and gives them the ability to participate in the construction and dissemination of knowledge. We focused our attention on tracking the different types of contributions, activities and conversations in learners spontaneous collaborative activities on social networks. The learner profile is not only based on the knowledge extracted from his/her activities on the e-learning system, but also from his/her many activities on social networks. We propose a methodology for exploiting hashtags contained in users’ writings for the automatic generation of learner’s semantic profiles. Hashtags require some processing before being source of knowledge on the user interests. We have defined a method to identify semantics of hashtags and semantic relationships between the meanings of different hashtags. By the way, we have defined the concept of Folksionary, as a hashtags dictionary that for each hashtag clusters its definitions into meanings. Semantized hashtags are thus used to feed the learner’s profile so as to personalize recommendations on learning material. The goal is to build a semantic representation of the activities and interests of learners on social networks in order to enrich their profiles. We also discuss our recommendation approach based on three types of filtering (personalized, social, and statistical interactions with the system). We focus on personalized recommendation of pedagogical resources to the learner according to his/her expectations and profile
|
56 |
Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs / Speaker diarization : the voluminous collections of audiovisual recordingsDupuy, Grégor 03 July 2015 (has links)
La tâche de Segmentation et Regroupement en Locuteurs (SRL), telle que définie par le NIST, considère le traitement des enregistrements d’un corpus comme des problèmes indépendants. Les enregistrements sont traités séparément, et le tauxd’erreur global sur le corpus correspond finalement à une moyenne pondérée. Dans ce contexte, les locuteurs détectés par le système sont identifiés par des étiquettes anonymes propres à chaque enregistrement. Un même locuteur qui interviendrait dans plusieurs enregistrements sera donc identifié par des étiquettes différentes selon les enregistrements. Cette situation est pourtant très fréquente dans les émissions journalistiques d’information : les présentateurs, les journalistes et autres invités qui animent une émission interviennent généralement de manière récurrente. En conséquence, la tâche de SRL a depuis peu été considérée dans un contexte plus large, où les locuteurs récurrents doivent être identifiés de manière unique dans tous les enregistrements qui composent un corpus. Cette généralisation du problème de regroupement en locuteurs va de pair avec l’émergence du concept de collection, qui se réfère, dans le cadre de la SRL, à un ensemble d’enregistrements ayant une ou plusieurs caractéristiques communes. Le travail proposé dans cette thèse concerne le regroupement en locuteurs sur des collections de documents audiovisuels volumineuses (plusieurs dizaines d’heures d’enregistrements). L’objectif principal est de proposer (ou adapter) des approches de regroupement afin de traiter efficacement de gros volumes de données, tout en détectant les locuteurs récurrents. L’efficacité des approches proposées est étudiée sous deux aspects : d’une part, la qualité des segmentations produites (en termes de taux d’erreur), et d’autre part, la durée nécessaire pour effectuer les traitements. Nous proposons à cet effet deux architectures adaptées au regroupement en locuteurs sur des collections de documents. Nous proposons une approche de simplification où le problème de regroupement est représenté par une graphe non-orienté. La décompositionde ce graphe en composantes connexes permet de décomposer le problème de regroupement en un certain nombre de sous-problèmes indépendants. La résolution de ces sous-problèmes de regroupement est expérimentée avec deux approches de regroupements différentes (HAC et ILP) tirant parti des récentes avancées en modélisation du locuteur (i-vector et PLDA). / The task of speaker diarization, as defined by NIST, considers the recordings from a corpus as independent processes. The recordings are processed separately, and the overall error rate is a weighted average. In this context, detected speakers are identified by anonymous labels specific to each recording. Therefore, a speaker appearing in several recordings will be identified by a different label in each of the recordings. Yet, this situation is very common in broadcast news data: hosts, journalists and other guests may appear recurrently. Consequently, speaker diarization has been recently considered in a broader context, where recurring speakers must be uniquely identified in every recording that compose a corpus. This generalization of the speaker partitioning problem goes hand in hand with the emergence of the concept of collections, which refers, in the context of speaker diarization, to a set of recordings sharing one or more common characteristics.The work proposed in this thesis concerns speaker clustering of large audiovisual collections (several tens of hours of recordings). The main objective is to propose (or adapt) clustering approaches in order to efficiently process large volumes of data, while detecting recurrent speakers. The effectiveness of the proposed approaches is discussed from two point of view: first, the quality of the produced clustering (in terms of error rate), and secondly, the time required to perform the process. For this purpose, we propose two architectures designed to perform cross-show speaker diarization with collections of recordings. We propose a simplifying approach to decomposing a large clustering problem in several independent sub-problems. Solving these sub-problems is done with either of two clustering approaches which takeadvantage of the recent advances in speaker modeling.
|
57 |
La Commission de la capitale nationale et l’Île de Hull : entre identité nationale et conscience régionale (1959-1979)Legris-Dumontier, Sophie-Hélène January 2014 (has links)
Au moment de sa création, en 1959, la Commission de la capitale nationale (CCN) a pour but d’intégrer les villes de Hull et d’Ottawa, cette union devant symboliser, plus largement, celle des deux peuples fondateurs du Canada. Or, ce projet a provoqué d’importants débats politiques à Hull au fil des années. En se voyant ainsi intégrée à la région de la capitale nationale (RCN), Hull perdait une partie de son autonomie. Cette thèse propose une étude de la CCN pendant la rénovation urbaine de l’Île de Hull des années 1960 et 1970 afin d’y cerner le rôle joué par le débat sur la question nationale. Il s’agit d’un élément moteur de l’action de la CCN. En fait, la question nationale se trouve à plusieurs niveaux de la problématique.
Ce sujet peu exploré donne à cette recherche son originalité. En examinant les relations entre les acteurs de la revitalisation du centre-ville, soit la CCN, le conseil municipal de Hull, les regroupements citoyens et le gouvernement du Québec, la thèse opte pour une perspective à la fois politique, institutionnelle et sociale. Un jeu de pouvoir entre les paliers gouvernementaux prend place alors que Hull et Ottawa se disputent les investissements fédéraux. Les citoyens de l’Île de Hull s’engagent dans les assemblées citoyennes et y développent une conscience régionale qui tardait à s’affirmer.
|
58 |
Exploration des liens formels entre les méthodes statistiques et neuronales en classificationGueye, Ndiouga January 2019 (has links) (PDF)
No description available.
|
59 |
Efficient speaker diarization and low-latency speaker spotting / Segmentation et regroupement efficaces en locuteurs et détection des locuteurs à faible latencePatino Villar, José María 24 October 2019 (has links)
La segmentation et le regroupement en locuteurs (SRL) impliquent la détection des locuteurs dans un flux audio et les intervalles pendant lesquels chaque locuteur est actif, c'est-à-dire la détermination de ‘qui parle quand’. La première partie des travaux présentés dans cette thèse exploite une approche de modélisation du locuteur utilisant des clés binaires (BKs) comme solution à la SRL. La modélisation BK est efficace et fonctionne sans données d'entraînement externes, car elle utilise uniquement des données de test. Les contributions présentées incluent l'extraction des BKs basée sur l'analyse spectrale multi-résolution, la détection explicite des changements de locuteurs utilisant les BKs, ainsi que les techniques de fusion SRL qui combinent les avantages des BKs et des solutions basées sur un apprentissage approfondi. La tâche de la SRL est étroitement liée à celle de la reconnaissance ou de la détection du locuteur, qui consiste à comparer deux segments de parole et à déterminer s'ils ont été prononcés par le même locuteur ou non. Même si de nombreuses applications pratiques nécessitent leur combinaison, les deux tâches sont traditionnellement exécutées indépendamment l'une de l'autre. La deuxième partie de cette thèse porte sur une application où les solutions de SRL et de reconnaissance des locuteurs sont réunies. La nouvelle tâche, appelée détection de locuteurs à faible latence, consiste à détecter rapidement les locuteurs connus dans des flux audio à locuteurs multiples. Il s'agit de repenser la SRL en ligne et la manière dont les sous-systèmes de SRL et de détection devraient être combinés au mieux. / Speaker diarization (SD) involves the detection of speakers within an audio stream and the intervals during which each speaker is active, i.e. the determination of ‘who spoken when’. The first part of the work presented in this thesis exploits an approach to speaker modelling involving binary keys (BKs) as a solution to SD. BK modelling is efficient and operates without external training data, as it operates using test data alone. The presented contributions include the extraction of BKs based on multi-resolution spectral analysis, the explicit detection of speaker changes using BKs, as well as SD fusion techniques that combine the benefits of both BK and deep learning based solutions. The SD task is closely linked to that of speaker recognition or detection, which involves the comparison of two speech segments and the determination of whether or not they were uttered by the same speaker. Even if many practical applications require their combination, the two tasks are traditionally tackled independently from each other. The second part of this thesis considers an application where SD and speaker recognition solutions are brought together. The new task, coined low latency speaker spotting (LLSS), involves the rapid detection of known speakers within multi-speaker audio streams. It involves the re-thinking of online diarization and the manner by which diarization and detection sub-systems should best be combined.
|
60 |
Steps towards end-to-end neural speaker diarization / Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteursYin, Ruiqing 26 September 2019 (has links)
La tâche de segmentation et de regroupement en locuteurs (speaker diarization) consiste à identifier "qui parle quand" dans un flux audio sans connaissance a priori du nombre de locuteurs ou de leur temps de parole respectifs. Les systèmes de segmentation et de regroupement en locuteurs sont généralement construits en combinant quatre étapes principales. Premièrement, les régions ne contenant pas de parole telles que les silences, la musique et le bruit sont supprimées par la détection d'activité vocale (VAD). Ensuite, les régions de parole sont divisées en segments homogènes en locuteur par détection des changements de locuteurs, puis regroupées en fonction de l'identité du locuteur. Enfin, les frontières des tours de parole et leurs étiquettes sont affinées avec une étape de re-segmentation. Dans cette thèse, nous proposons d'aborder ces quatre étapes avec des approches fondées sur les réseaux de neurones. Nous formulons d’abord le problème de la segmentation initiale (détection de l’activité vocale et des changements entre locuteurs) et de la re-segmentation finale sous la forme d’un ensemble de problèmes d’étiquetage de séquence, puis nous les résolvons avec des réseaux neuronaux récurrents de type Bi-LSTM (Bidirectional Long Short-Term Memory). Au stade du regroupement des régions de parole, nous proposons d’utiliser l'algorithme de propagation d'affinité à partir de plongements neuronaux de ces tours de parole dans l'espace vectoriel des locuteurs. Des expériences sur un jeu de données télévisées montrent que le regroupement par propagation d'affinité est plus approprié que le regroupement hiérarchique agglomératif lorsqu'il est appliqué à des plongements neuronaux de locuteurs. La segmentation basée sur les réseaux récurrents et la propagation d'affinité sont également combinées et optimisées conjointement pour former une chaîne de regroupement en locuteurs. Comparé à un système dont les modules sont optimisés indépendamment, la nouvelle chaîne de traitements apporte une amélioration significative. De plus, nous proposons d’améliorer l'estimation de la matrice de similarité par des réseaux neuronaux récurrents, puis d’appliquer un partitionnement spectral à partir de cette matrice de similarité améliorée. Le système proposé atteint des performances à l'état de l'art sur la base de données de conversation téléphonique CALLHOME. Enfin, nous formulons le regroupement des tours de parole en mode séquentiel sous la forme d'une tâche supervisée d’étiquetage de séquence et abordons ce problème avec des réseaux récurrents empilés. Pour mieux comprendre le comportement du système, une analyse basée sur une architecture de codeur-décodeur est proposée. Sur des exemples synthétiques, nos systèmes apportent une amélioration significative par rapport aux méthodes de regroupement traditionnelles. / Speaker diarization is the task of determining "who speaks when" in an audio stream that usually contains an unknown amount of speech from an unknown number of speakers. Speaker diarization systems are usually built as the combination of four main stages. First, non-speech regions such as silence, music, and noise are removed by Voice Activity Detection (VAD). Next, speech regions are split into speaker-homogeneous segments by Speaker Change Detection (SCD), later grouped according to the identity of the speaker thanks to unsupervised clustering approaches. Finally, speech turn boundaries and labels are (optionally) refined with a re-segmentation stage. In this thesis, we propose to address these four stages with neural network approaches. We first formulate both the initial segmentation (voice activity detection and speaker change detection) and the final re-segmentation as a set of sequence labeling problems and then address them with Bidirectional Long Short-Term Memory (Bi-LSTM) networks. In the speech turn clustering stage, we propose to use affinity propagation on top of neural speaker embeddings. Experiments on a broadcast TV dataset show that affinity propagation clustering is more suitable than hierarchical agglomerative clustering when applied to neural speaker embeddings. The LSTM-based segmentation and affinity propagation clustering are also combined and jointly optimized to form a speaker diarization pipeline. Compared to the pipeline with independently optimized modules, the new pipeline brings a significant improvement. In addition, we propose to improve the similarity matrix by bidirectional LSTM and then apply spectral clustering on top of the improved similarity matrix. The proposed system achieves state-of-the-art performance in the CALLHOME telephone conversation dataset. Finally, we formulate sequential clustering as a supervised sequence labeling task and address it with stacked RNNs. To better understand its behavior, the analysis is based on a proposed encoder-decoder architecture. Our proposed systems bring a significant improvement compared with traditional clustering methods on toy examples.
|
Page generated in 0.0548 seconds