• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 974
  • 348
  • 116
  • 15
  • 10
  • 8
  • 4
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1558
  • 759
  • 275
  • 260
  • 241
  • 235
  • 231
  • 170
  • 165
  • 155
  • 151
  • 150
  • 141
  • 132
  • 124
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
351

Découverte de motifs variables dans les grandes volumes de données audio.

Muscariello, Armando 25 January 2011 (has links) (PDF)
Découverte de motifs variables dans les grandes volumes de données audio. Les données audio, comme les documents oraux ou télévisés ou les données radio, sont composées par de nombreux sequences variables qui se répètent. La découverte de l'emplacement de ces répétitions, ci-après dénommé motifs, aide à déduire les propriétés structurelles de données acoustiques, ce qui facilite l'accès à la partie pertinente des données, et qui permets de résumér des grands documents par un ensemble de quelques éléments particuliers. Cette thèse détails nos efforts dans la conception et la mise en oeuvre d'une architecture non supervisée de découverte de motifs, et montres son applicabilité dans une tâche de decouverte des mots et des segments peu variables comme des chansons. En ce qui concerne la méthodologie, la découverte est réalisée d'une manière totalement non supervisée, ce qui signifie que aucune connaissance acoustiques ou linguistiques sur les données est fournie. Notre solution est basée sur l'intégration d'une technique de traitement de données séquentielle qui exploits la répétitivité local du motifs réel, et une variante segmentale de l'alignement temporel dynamique. En s'appuyant sur cette architecture, une technique pour la comparaison de sequences basée sur leurs matrices d autosimilarité de est introduite, pour améliorer la robustesse à la variabilité du signal de parole. En outre, l'applicabilité du système est démontrée sur une tâche de découverte de chansons sur plusieurs jours de flux audio. Pour adapter le système à cette tâche, des techniques pour accélérer le temps de calcul sont mises en oeuvre, basées sur le sous-échantillonnage des séquences.
352

Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteur

Ferràs Font, Marc 10 July 2009 (has links) (PDF)
The goal of this thesis is to find new and efficient features for speaker recognition. We are mostly concerned with the use of the Maximum-Likelihood Linear Regression (MLLR) family of adaptation techniques as features in speaker recognition systems. MLLR transformcoefficients are able to capture speaker cues after adaptation of a speaker-independent model using speech data. The resulting supervectors are high-dimensional and no underlying model guiding its generation is assumed a priori, becoming suitable for SVM for classification. This thesis brings some contributions to the speaker recognition field by proposing new approaches to feature extraction and studying existing ones via experimentation on large corpora: 1. We propose a compact yet efficient system, MLLR-SVM, which tackles the issues of transcript- and language-dependency of the standard MLLR-SVM approach by using single-class Constrained MLLR (CMLLR) adaptation transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). 1- When less data samples than dimensions are available. 2- We propose several alternative representations of CMLLR transformcoefficients based on the singular value and symmetric/skew-symmetric decompositions of transform matrices. 3- We develop a novel framework for feature-level inter-session variability compensation based on compensation of CMLLR transform supervectors via Nuisance Attribute Projection (NAP). 4- We perform a comprehensive experimental study of multi-class (C)MLLR-SVM systems alongmultiple axes including front-end, type of transform, type fmodel,model training and number of transforms. 5- We compare CMLLR and MLLR transform matrices based on an analysis of properties of their singular values. 6- We propose the use of lattice-basedMLLR as away to copewith erroneous transcripts in MLLR-SVMsystems using phonemic acoustic models.
353

Identification nommée du locuteur : exploitation conjointe du signal sonore et de sa transcription

Jousse, Vincent 04 May 2011 (has links) (PDF)
Le traitement automatique de la parole est un domaine qui englobe un grand nombre de travaux : de la reconnaissance automatique du locuteur à la détection des entités nommées en passant par la transcription en mots du signal audio. Les techniques de traitement automatique de la parole permettent d'extraire nombre d'informations des documents audio (réunions, émissions, etc.) comme la transcription, certaines annotations (le type d'émission, les lieux cités, etc.) ou encore des informations relatives aux locuteurs (changement de locuteur, genre du locuteur). Toutes ces informations peuvent être exploitées par des techniques d'indexation automatique qui vont permettre d'indexer de grandes collections de documents. Les travaux présentés dans cette thèse s'intéressent à l'indexation automatique de locuteurs dans des documents audio en français. Plus précisément nous cherchons à identifier les différentes interventions d'un locuteur ainsi qu'à les nommer par leur prénom et leur nom. Ce processus est connu sous le nom d'identification nommée du locuteur (INL). La particularité de ces travaux réside dans l'utilisation conjointe du signal audio et de sa transcription en mots pour nommer les locuteurs d'un document. Le prénom et le nom de chacun des locuteurs est extrait du document lui même (de sa transcription enrichie plus exactement), avant d'être affecté à un des locuteurs du document. Nous commençons par rappeler le contexte et les précédents travaux réalisés sur l'INL avant de présenter Milesin, le système développé lors de cette thèse. L'apport de ces travaux réside tout d'abord dans l'utilisation d'un détecteur automatique d'entités nommées (LIA_NE) pour extraire les couples prénom / nom de la transcription. Ensuite, ils s'appuient sur la théorie des fonctions de croyance pour réaliser l'affectation aux locuteurs du document et prennent ainsi en compte les différents conflits qui peuvent apparaître. Pour finir, un algorithme optimal d'affectation est proposé. Ce système obtient un taux d'erreur compris entre 12 et 20 % sur des transcriptions de référence (réalisées manuellement) en fonction du corpus utilisé. Nous présentons ensuite les avancées réalisées et les limites mises en avant par ces travaux. Nous proposons notamment une première étude de l'impact de l'utilisation de transcriptions entièrement automatiques sur Milesin.
354

Indexation de masses de documents graphiques : approches structurelles

Jouili, Salim 30 March 2011 (has links) (PDF)
Les travaux de cette thèse se situent dans la cadre des approches structurelles pour la recon- naissance de formes. Plus précisément, nous avons porté notre choix sur les graphes. Le choix de la représentation structurelle est justifié par la grande capacité représentative des graphes par rapport à la représentation statistique (i.e. vecteurs). La première étape qui intervient dans l'étude de l'application des graphes dans le domaine des images est de définir une stratégie d'extraction de graphes représentatives d'images. Ensuite, il faut définir des fonctions néces- saires à la manipulation des bases de graphes. L'une des fonctions cruciales pour manipuler les graphes est la fonction de calcul des distances entre les graphes. En effet, le calcul de distances entre les graphes est un problème ouvert dans la littérature. De plus, il est considéré comme NP-complet. La plupart des solutions proposées dans la littérature présentent différentes limites d'utilisation telle que la taille des graphes, la prise en compte d'attributs, le temps de calcul. Outre la distance, le domaine des graphes souffre d'un manque d'algorithmes de classification (non-)supervisée appropriés. Dans ce sens, cette thèse présente un ensemble de contributions dont l'objectif est l'indexation de graphes. En premier lieu, nous montrons expérimentalement que choix de la représentation sous forme de graphes a un impact sur les performances. Ensuite, nous proposons une nouvelle approximation de la distance d'édition de graphes basée sur la no- tion de signature de noeuds. Nous introduisons aussi un algorithme de plongement de graphes. Cet algorithme consiste à représenter chaque graphe par un vecteur dans un espace euclidien. Ceci nous permet d'appliquer les algorithmes de classification des vecteurs sur les graphes par le biais du plongement. Dans le domaine de la classification non-supervisée (clustering), nous proposons un nouvel algorithme basé sur la notion du graphe médian et la notion du mean-shift. Enfin, nous proposons, une nouvelle méthode d'indexation de graphes basée sur la structure d'hypergraphe. Cette méthode permet aussi bien l'indexation que la navigation dans une base d'images représentées sous forme de graphes.
355

Transcription et traitement manuel de la parole spontanée pour sa reconnaissance automatique

Bazillon, Thierry 04 February 2011 (has links) (PDF)
Le projet EPAC est le point de départ de nos travaux de recherche. Nous présentons ce contexte de travail dans notre premier chapitre.Dans un deuxième temps, nous nous intéressons à la tâche de transcription de la parole. Nous en exposerons quelques jalons, ainsi qu'un inventaire des corpus oraux disponibles aujourd'hui. Enfin, nous comparons deux méthodes de transcription : manuelle et assistée. Par la suite, nous réalisons une étude comparative de huit logiciels d'aide à la transcription. Cela afin de démontrer que, suivant les situations, certains sont plus indiqués que d'autres. Le codage des données est l'objet de notre quatrième chapitre. Peut-on facilement échanger des transcriptions? Nous démontrerons que l'interopérabilité est un domaine où beaucoup de travail reste à faire. Enfin, nous terminons par une analyse détaillée de ce que nous appelons la parole spontanée. Par différents angles, définitions et expériences, nous tentons de circonscrire ce que cette appellation recouvre.
356

Etude de techniques de classement "Machines à vecteurs supports" pour la vérification automatique du locuteur

Kharroubi, Jamal 07 1900 (has links) (PDF)
Les SVM (Support Vector Machines) sont de nouvelles techniques d'apprentissage statistique proposées par V.Vapnik en 1995. Elles permettent d'aborder des problèmes très divers comme le classement, la régression, la fusion, etc... Depuis leur introduction dans le domaine de la Reconnaissance de Formes (RdF), plusieurs travaux ont pu montrer l'efficacité de ces techniques principalement en traitement d'image. L'idée essentielle des SVM consiste à projeter les données de l'espace d'entrée (appartenant à deux classes différentes) non-linéairement séparables dans un espace de plus grande dimension appelé espace de caractéristiques de façon à ce que les données deviennent linéairement séparables. Dans cet espace, la technique de construction de l'hyperplan optimal est utilisée pour calculer la fonction de classement séparant les deux classes. Dans ce travail de thèse, nous avons étudié les SVM comme techniques de classement pour la Vérification Automatique du Locuteur (VAL) en mode dépendant et indépendant du texte. Nous avons également étudié les SVM pour des tâches de fusion en réalisant des expériences concernant deux types de fusion, la fusion de méthodes et la fusion de modes. Dans le cadre du projet PICASSO, nous avons proposé un système de VAL en mode dépendant du texte utilisant les SVM dans une application de mots de passe publics. Dans ce système, une nouvelle modélisation basée sur la transcription phonétique des mots de passe a été proposée pour construire les vecteurs d'entrée pour notre classifieur SVM. En ce qui concerne notre étude des SVM en VAL en mode indépendant du texte, nous avons proposé des systèmes hybrides GMM-SVM. Dans ces systèmes, trois nouvelles représentations de données ont été proposées permettant de réunir l'efficacité des GMM en modélisation et les performances des SVM en décision. Ce travail entre dans le cadre de nos participations aux évaluations internationales NIST. Dans le cadre du projet BIOMET sur l'authentification biométrique mené par le GET (Groupe des Écoles de Télécommunications), nous avons étudié les SVM pour deux tâches de fusion. La première concerne la fusion de méthodes où nous avons fusionné les scores obtenus par les participants à la tâche ``One Speaker Detection'' aux évaluations NIST'2001. La seconde concerne la fusion de modes menée sur les scores obtenus sur les quatre différentes modalités de la base de données M2VTS. Les études que nous avons réalisées représentent une des premières tentatives d'appliquer les SVM dans le domaine de la VAL. Les résultats obtenus montrent que les SVM sont des techniques très efficaces et surtout très prometteuses que ce soit pour le classement ou la fusion.
357

Modèles structurels flous et propagation de contraintes pour la segmentation et la reconnaissance d'objets dans les images: Application aux structures normales et pathologiques du cerveau en IRM

Nempont, Olivier 27 March 2009 (has links) (PDF)
Le cerveau présente une structure complexe. La segmentation et la reconnaissance automatique de ses sous-structures dans des IRM cérébrales est délicate et nécessite donc l'utilisation d'un modèle de l'anatomie. L'utilisation d'atlas iconiques est efficace pour traiter les données de sujets sains mais son adaptation au traitement de cas pathologiques reste problématique. Dans cette thèse nous utilisons un modèle symbolique de l'anatomie proche des descriptions linguistiques qui comprend les principales structures cérébrales. L'agencement spatial de ces structures y est représenté sous forme de relations spatiales et leur apparence est caractérisée par des relations sur leur contraste. Réaliser la reconnaissance grâce à ce modèle structurel consiste à obtenir pour chaque structure une région de l'image vérifiant les relations et caractéristiques portées par le modèle. Nous formulons ce problème comme un réseau de contraintes dont les variables sont les régions recherchées représentées sous forme d'ensembles flous. Les contraintes sont déduites du modèle en tirant parti de modélisations floues. Une contribution nouvelle porte sur la contrainte de connexité et la proposition de définitions et algorithmes adaptés au cas flou présentant de bonnes propriétés. Nous mettons alors en œuvre un algorithme de propagation de contraintes qui itérativement réduit l'espace de solutions. Enfin nous obtenons un résultat pour certaines structures d'intérêt par l'extraction d'une surface minimale relativement aux résultats de l'algorithme de propagation. Nous appliquons cette approche aux structures internes du cerveau chez des sujets sains. Finalement nous étendons ce processus au traitement de données de patients présentant une tumeur. Le modèle générique ne correspondant plus aux données à reconnaître, nous proposons un algorithme de propagation recherchant à la fois le modèle spécifique au patient et les structures anatomiques.
358

Reconnaissance de partitions musicales par modélisation floue des informations extraites et des règles de notation

Rossant, Florence 12 1900 (has links) (PDF)
Nous présentons dans cette thèse une méthode complète de reconnaissance de partitions musicales imprimées, dans le cas monodique. Le système procède en deux phases distinctes : - La segmentation et l'analyse des symboles (essentiellement par corrélation), conçues pour surmonter les difficultés liées aux interconnexions et aux défauts d'impression, aboutissant à des hypothèses de reconnaissance. - L'interprétation de haut niveau, fondée sur une modélisation floue des informations extraites de l'image et des règles de notation, menant à la décision. Dans cette approche, la décision est reportée tant que le contexte n'est pas entièrement connu. Toutes les configurations d'hypothèses sont successivement évaluées, et la plus cohérente est retenue, par optimisation de tous les critères. Le formalisme utilisé, fondé sur la théorie des ensembles flous et des possibilités, permet de prendre en compte les différentes sources d'imprécision et d'incertitude, ainsi que la souplesse et la flexibilité de l'écriture musicale. Afin de gagner en fiabilité, nous proposons également des méthodes d'indication automatique des erreurs potentielles de reconnaissance, ainsi qu'une procédure d'apprentissage, optimisant les paramètres du système pour le traitement d'une partition particulière. Les performances obtenues sur une large base de données ont permis de montrer l'intérêt de la méthode proposée.
359

Contributions à la reconnaissance automatique de la parole non-native

Bouselmi, Ghazi 12 November 2008 (has links) (PDF)
Le travail présenté dans cette thèse s'inscrit dans le cadre de la RAP non native. Les recherches que nous avons entreprises ont pour but d'aténuer l'impact des accents non natifs sur les performances des systèmes de RAP. Nous avons proposé une nouvelle approche pour la modélisation des prononciations non natives permettant de prendre en compte plusieurs accents étrangers. Cette approche automatique utilise un corpus de parole non native et deus ensembles de modèles acoustiques: le premier ensemble représente l'accent canonique de la langue cible et le deuxième représente l'accent étranger. Les modèles acoustiques du premier ensemble sont modifiés par l'ajout de nouveaux chemins d'états HMM. Cette approche nécessite la connaissance a priori de la langue d'origine des locuteurs. A cet égard, nous avons proposé une nouvelle approche pour la détection de la langue maternelle basée sur la détection des séquences discriminantes de phonèmes.
360

Contrainte des modèles génétiques de réservoirs par une approche de reconnaissance statistique de forme

Chugunova, Tatiana 07 April 2008 (has links) (PDF)
L'objet de cette thèse est la modélisation de l'hétérogénéité souterraine. Pour ce faire, nous avons adapté l'approche de simulation multipoints (MP) qui reproduit et conditionne des formes géométriques complexes fournies par des modèles génétiques non conditionnels. Initialement, l'approche MP n'était applicable que moyennant l'hypothèse d'une certaine stationnarité spatiale de l'hétérogénéité. Pour étendre l'approche MP au cas non stationnaire, deux algorithmes ont paru dans la littérature : le modèle Tau et l'algorithme de classement. Les deux révèlent des artefacts géométriques sans pour autant restituer les contraintes non stationnaires. Dans ce travail, nous avons proposé un nouvel algorithme de simulation MP non stationnaire. Il évite des inconvénients des algorithmes existants et intègre des contraintes spatiales continues. Les résultats expérimentaux montrent aussi que notre algorithme a un domaine d'applicabilité bien plus vaste que ceux existants.

Page generated in 0.0626 seconds