• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 19
  • 5
  • 1
  • 1
  • Tagged with
  • 90
  • 90
  • 69
  • 32
  • 27
  • 23
  • 22
  • 20
  • 13
  • 11
  • 11
  • 10
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Recherche du rôle des intervenants et de leurs interactions pour la structuration de documents audiovisuels

Bigot, Benjamin 06 July 2011 (has links) (PDF)
Nous présentons un système de structuration automatique d'enregistrements audiovisuels s'appuyant sur des informations non lexicales caractéristiques des rôles des intervenants et de leurs interactions. Dans une première étape, nous proposons une méthode de détection et de caractérisation de séquences temporelles, nommée " zones d'interaction ", susceptibles de correspondre à des conversations. La seconde étape de notre système réalise une reconnaissance du rôle des intervenants : présentateur, journaliste et autre. Notre contribution au domaine de la reconnaissance automatique du rôle se distingue en reposant sur l'hypothèse selon laquelle les rôles des intervenants sont accessibles à travers des paramètres " bas-niveau " inscrits d'une part dans l'organisation temporelle des tours de parole des intervenants, dans les environnements acoustiques dans lesquels ils apparaissent, ainsi que dans plusieurs paramètres prosodiques (intonation et débit). Dans une dernière étape, nous combinons l'information du rôle des intervenants à la connaissance des séquences d'interaction afin de produire deux niveaux de description du contenu des documents. Le premier niveau de description segmente les enregistrements en zones de 4 types : informations, entretiens, transition et intermède. Un second niveau de description classe les zones d'interaction orales en 4 catégories : débat, interview, chronique et relais. Chaque étape du système est validée par une grand nombre d'expériences menées sur le corpus du projet EPAC et celui de la campagne d'évaluation ESTER.
52

Contributions aux méthodes directes d'estimation et de commande basées sur la vision

Silveira Filho, Geraldo 29 October 2008 (has links) (PDF)
Dans leur grande majorité les techniques d'estimation et de contrôle basées sur la vision s'appuient sur l'extraction d'informations géométriques dans les images. L'objectif de cette thèse est de développer une nouvelle approche exploitant directement l'intensité des pixels dans l'image en s'affranchissant de l'étape d'extraction de ces informations. Nous espèrons montrer que le fait d'utiliser toute l'information contenue dans l'image permet en outre d'augmenter la précision et le domaine d'application. Dans ce but, nous proposons un modèle générique de transformation prenant à la fois en compte les aspects géométriques et photométriques que l'on associe à une méthode efficace d'optimisation pour le recalage d'images, qui est valide pour des modes d'acquisition variés (incluant les images couleurs) et pour des classes d'objets rigides ou déformables. En particulier, le nouveau modèle photométrique assure une robustes aux variations d'éclairage quelconques, et il est indépendants des attributs des objets et des caractéristiques de la caméra. Ce cadre méthodologique est formulé, dans le cas d'un modèle sténopé, à la fois dans le cas calibré et non calibré, les différences portant principalement sur la nature de la paramétrisation choisie. Une méthode robuste de suivi visuel est proposée permettant le recalage d'une image de référence tout au long de la séquence. A partir des paramètres estimés liant l'image de référence à l'image courante, nous proposons une nouvelle stratégie d'asservissement visuel permettant de contrôler les six degrés de liberté du mouvement de la caméra pour l'amener dans la pose où a été acquise l'image de référence. Cette nouvelle approche ne nécessite pas de connaissance précise sur les paramètres de la caméra ni sur la géométrie de l'objet observé, permettant ainsi d'obtenir une méthode générique et fiable. Dans le cas de l'utilisation d'une caméra calibrée, la méthode de suivi robuste permet d'accéder directement à la pose de la caméra et à la structure géométrique de la scène. Elle peut donc être appliquée pour proposer une nouvelle solution au problème de SLAM (Simultaneous Localization and Mapping) visuel. Enfin, nous présentons une méthode d'asservissement visuel intégrant directement les estimées fournies par la méthode de suivi et permettant ainsi la navigation autonome de robot dans un environnement inconnu a priori. Les méthodes développées tout au long de cette thèse ont été confrontées aux approches classiques de la littérature, et ont montré des avantages certains. Elles ont également été testée en condition réelle sur des séquences caractéristiques de différentes applications et dans des conditions variées. Les conditions et compromis à faire pour obtenir performances temps réel et précision, sont également discutés dans le document.
53

L'alignement de graphes : applications en bioinformatique et vision par ordinateur

Zaslavskiy, Mikhail 11 January 2010 (has links) (PDF)
Le problème d'alignement de graphes, qui joue un rôle central dans différents domaines de la reconnaissance de formes, est l'un des plus grands défis dans le traitement de graphes. Nous proposons une méthode approximative pour l'alignement de graphes étiquetés et pondérés, basée sur la programmation convexe concave. Une application importante du problème d'alignement de graphes est l'alignement de réseaux d'interactions de protéines, qui joue un rôle central pour la recherche de voies de signalisation conservées dans l'évolution, de complexes protéiques conservés entre les espèces, et pour l'identification d'orthologues fonctionnels. Nous reformulons le problème d'alignement de réseaux d'interactions comme un problème d'alignement de graphes, et étudions comment les algorithmes existants d'alignement de graphes peuvent être utilisés pour le résoudre. Dans la formulation classique de problème d'alignement de graphes, seules les correspondances bijectives entre les noeuds de deux graphes sont considérées. Dans beaucoup d'applications, cependant, il est plus intéressant de considérer les correspondances entre des ensembles de nœuds. Nous proposons une nouvelle formulation de ce problème comme un problème d'optimisation discret, ainsi qu'un algorithme approximatif basé sur une relaxation continue. Nous présentons également deux résultats indépendants dans les domaines de la traduction automatique statistique et de la bio-informatique. Nous montrons d'une part comment le problème de la traduction statistique basé sur les phrases peut être reformulé comme un problème du voyageur de commerce. Nous proposons d'autre part une nouvelle mesure de similarité entre les sites de fixation de protéines, basée sur la comparaison 3D de nuages atomiques.
54

Modèles de langage ad hoc pour la reconnaissance automatique de la parole

Oger, Stanislas 30 November 2011 (has links) (PDF)
Les trois piliers d'un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l'ensemble des mots qu'il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s'enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l'heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l'estimation et l'adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l'utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L'approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l'information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d'une séquence de mots à partir de connaissances relatives à 'existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus.
55

L'analyse factorielle pour la modélisation acoustique des systèmes de reconnaissance de la parole

Bouallegue, Mohamed 16 December 2013 (has links) (PDF)
Dans cette thèse, nous proposons d'utiliser des techniques fondées sur l'analyse factorielle pour la modélisation acoustique pour le traitement automatique de la parole, notamment pour la Reconnaissance Automatique de la parole. Nous nous sommes, dans un premier temps, intéressés à la réduction de l'empreinte mémoire des modèles acoustiques. Notre méthode à base d'analyse factorielle a démontré une capacité de mutualisation des paramètres des modèles acoustiques, tout en maintenant des performances similaires à celles des modèles de base. La modélisation proposée nous conduit à décomposer l'ensemble des paramètres des modèles acoustiques en sous-ensembles de paramètres indépendants, ce qui permet une grande flexibilité pour d'éventuelles adaptations (locuteurs, genre, nouvelles tâches).Dans les modélisations actuelles, un état d'un Modèle de Markov Caché (MMC) est représenté par un mélange de Gaussiennes (GMM : Gaussian Mixture Model). Nous proposons, comme alternative, une représentation vectorielle des états : les fac- teur d'états. Ces facteur d'états nous permettent de mesurer efficacement la similarité entre les états des MMC au moyen d'une distance euclidienne, par exemple. Grâce à cette représenation vectorielle, nous proposons une méthode simple et efficace pour la construction de modèles acoustiques avec des états partagés. Cette procédure s'avère encore plus efficace dans le cas de langues peu ou très peu dotées en ressouces et enconnaissances linguistiques. Enfin, nos efforts se sont portés sur la robustesse des systèmes de reconnaissance de la parole face aux variabilités acoustiques, et plus particulièrement celles générées par l'environnement. Nous nous sommes intéressés, dans nos différentes expérimentations, à la variabilité locuteur, à la variabilité canal et au bruit additif. Grâce à notre approche s'appuyant sur l'analyse factorielle, nous avons démontré la possibilité de modéliser ces différents types de variabilité acoustique nuisible comme une composante additive dans le domaine cepstral. Nous soustrayons cette composante des vecteurs cepstraux pour annuler son effet pénalisant pour la reconnaissance de la parole
56

Gestion de la variabilité morphologique pour la reconnaissance de gestes naturels à partir de données 3D

Sorel, Anthony 06 December 2012 (has links) (PDF)
La reconnaissance de mouvements naturels est de toute première importance dans la mise en oeuvre d'Interfaces Homme-Machine intelligentes et efficaces, utilisables de manière intuitive en environnement virtuel. En effet, elle permet à l'utilisateur d'agir de manière naturelle et au système de reconnaitre les mouvements corporel effectués tels qu'ils seraient perçu par un humain. Cette tâche est complexe, car elle demande de relever plusieurs défis : prendre en compte les spécificités du dispositif d'acquisition des données de mouvement, gérer la variabilité cinématique dans l'exécution du mouvement, et enfin gérer les différences morphologiques inter-individuelles, de sorte que les mouvements de tout nouvel utilisateur puissent être reconnus. De plus, de part la nature interactive des environnements virtuels, cette reconnaissancedoit pouvoir se faire en temps-réel, sans devoir attendre la fin du mouvement. La littérature scientifique propose de nombreuses méthodes pour répondre aux deux premiers défis mais la gestion de la variabilité morphologique est peu abordée. Dans cette thèse, nous proposons une description du mouvement permettant de répondre à cette problématique et évaluons sa capacité à reconnaitre les mouvements naturels d'un utilisateur inconnu. Enfin, nous proposons unenouvelle méthode permettant de tirer partie de cette représentation dans une reconnaissance précoce du mouvement
57

Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

Seng, Sopheap 01 March 2010 (has links) (PDF)
Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écriture sans séparation explicite entre les mots. La spécificité des langues traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Nous validons ces approches de modélisation à base des multiples unités sur les systèmes de reconnaissance pour un groupe de langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.
58

Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia / Utilisation de ressources dans une langue proche pour la reconnaissance automatique de la parole pour les langues peu dotées de Malaisie

Samson Juan, Sarah Flora 09 July 2015 (has links)
Les langues en Malaisie meurent à un rythme alarmant. A l'heure actuelle, 15 langues sont en danger alors que deux langues se sont éteintes récemment. Une des méthodes pour sauvegarder les langues est de les documenter, mais c'est une tâche fastidieuse lorsque celle-ci est effectuée manuellement.Un système de reconnaissance automatique de la parole (RAP) serait utile pour accélérer le processus de documentation de ressources orales. Cependant, la construction des systèmes de RAP pour une langue cible nécessite une grande quantité de données d'apprentissage comme le suggèrent les techniques actuelles de l'état de l'art, fondées sur des approches empiriques. Par conséquent, il existe de nombreux défis à relever pour construire des systèmes de transcription pour les langues qui possèdent des quantités de données limitées.L'objectif principal de cette thèse est d'étudier les effets de l'utilisation de données de langues étroitement liées, pour construire un système de RAP pour les langues à faibles ressources en Malaisie. Des études antérieures ont montré que les méthodes inter-lingues et multilingues pourraient améliorer les performances des systèmes de RAP à faibles ressources. Dans cette thèse, nous essayons de répondre à plusieurs questions concernant ces approches: comment savons-nous si une langue est utile ou non dans un processus d'apprentissage trans-lingue ? Comment la relation entre la langue source et la langue cible influence les performances de la reconnaissance de la parole ? La simple mise en commun (pooling) des données d'une langue est-elle une approche optimale ?Notre cas d'étude est l'iban, une langue peu dotée de l'île de Bornéo. Nous étudions les effets de l'utilisation des données du malais, une langue locale dominante qui est proche de l'iban, pour développer un système de RAP pour l'iban, sous différentes contraintes de ressources. Nous proposons plusieurs approches pour adapter les données du malais afin obtenir des modèles de prononciation et des modèles acoustiques pour l'iban.Comme la contruction d'un dictionnaire de prononciation à partir de zéro nécessite des ressources humaines importantes, nous avons développé une approche semi-supervisée pour construire rapidement un dictionnaire de prononciation pour l'iban. Celui-ci est fondé sur des techniques d'amorçage, pour améliorer la correspondance entre les données du malais et de l'iban.Pour augmenter la performance des modèles acoustiques à faibles ressources, nous avons exploré deux techniques de modélisation : les modèles de mélanges gaussiens à sous-espaces (SGMM) et les réseaux de neurones profonds (DNN). Nous avons proposé, dans ce cadre, des méthodes de transfert translingue pour la modélisation acoustique permettant de tirer profit d'une grande quantité de langues “proches” de la langue cible d'intérêt. Les résultats montrent que l'utilisation de données du malais est bénéfique pour augmenter les performances des systèmes de RAP de l'iban. Par ailleurs, nous avons également adapté les modèles SGMM et DNN au cas spécifique de la transcription automatique de la parole non native (très présente en Malaisie). Nous avons proposé une approche fine de fusion pour obtenir un SGMM multi-accent optimal. En outre, nous avons développé un modèle DNN spécifique pour la parole accentuée. Les deux approches permettent des améliorations significatives de la précision du système de RAP. De notre étude, nous observons que les modèles SGMM et, de façon plus surprenante, les modèles DNN sont très performants sur des jeux de données d'apprentissage en quantité limités. / Languages in Malaysia are dying in an alarming rate. As of today, 15 languages are in danger while two languages are extinct. One of the methods to save languages is by documenting languages, but it is a tedious task when performed manually.Automatic Speech Recognition (ASR) system could be a tool to help speed up the process of documenting speeches from the native speakers. However, building ASR systems for a target language requires a large amount of training data as current state-of-the-art techniques are based on empirical approach. Hence, there are many challenges in building ASR for languages that have limited data available.The main aim of this thesis is to investigate the effects of using data from closely-related languages to build ASR for low-resource languages in Malaysia. Past studies have shown that cross-lingual and multilingual methods could improve performance of low-resource ASR. In this thesis, we try to answer several questions concerning these approaches: How do we know which language is beneficial for our low-resource language? How does the relationship between source and target languages influence speech recognition performance? Is pooling language data an optimal approach for multilingual strategy?Our case study is Iban, an under-resourced language spoken in Borneo island. We study the effects of using data from Malay, a local dominant language which is close to Iban, for developing Iban ASR under different resource constraints. We have proposed several approaches to adapt Malay data to obtain pronunciation and acoustic models for Iban speech.Building a pronunciation dictionary from scratch is time consuming, as one needs to properly define the sound units of each word in a vocabulary. We developed a semi-supervised approach to quickly build a pronunciation dictionary for Iban. It was based on bootstrapping techniques for improving Malay data to match Iban pronunciations.To increase the performance of low-resource acoustic models we explored two acoustic modelling techniques, the Subspace Gaussian Mixture Models (SGMM) and Deep Neural Networks (DNN). We performed cross-lingual strategies using both frameworks for adapting out-of-language data to Iban speech. Results show that using Malay data is beneficial for increasing the performance of Iban ASR. We also tested SGMM and DNN to improve low-resource non-native ASR. We proposed a fine merging strategy for obtaining an optimal multi-accent SGMM. In addition, we developed an accent-specific DNN using native speech data. After applying both methods, we obtained significant improvements in ASR accuracy. From our study, we observe that using SGMM and DNN for cross-lingual strategy is effective when training data is very limited.
59

Identification nommée du locuteur : exploitation conjointe du signal sonore et de sa transcription / Named identification of speakers : using audio signal and rich transcription

Jousse, Vincent 04 May 2011 (has links)
Le traitement automatique de la parole est un domaine qui englobe un grand nombre de travaux : de la reconnaissance automatique du locuteur à la détection des entités nommées en passant par la transcription en mots du signal audio. Les techniques de traitement automatique de la parole permettent d’extraire nombre d’informations des documents audio (réunions, émissions, etc.) comme la transcription, certaines annotations (le type d’émission, les lieux cités, etc.) ou encore des informations relatives aux locuteurs (changement de locuteur, genre du locuteur). Toutes ces informations peuvent être exploitées par des techniques d’indexation automatique qui vont permettre d’indexer de grandes collections de documents. Les travaux présentés dans cette thèse s’intéressent à l’indexation automatique de locuteurs dans des documents audio en français. Plus précisément nous cherchons à identifier les différentes interventions d’un locuteur ainsi qu’à les nommer par leur prénom et leur nom. Ce processus est connu sous le nom d’identification nommée du locuteur (INL). La particularité de ces travaux réside dans l’utilisation conjointe du signal audio et de sa transcription en mots pour nommer les locuteurs d’un document. Le prénom et le nom de chacun des locuteurs est extrait du document lui même (de sa transcription enrichie plus exactement), avant d’être affecté à un des locuteurs du document. Nous commençons par rappeler le contexte et les précédents travaux réalisés sur l’INL avant de présenter Milesin, le système développé lors de cette thèse. L’apport de ces travaux réside tout d’abord dans l’utilisation d’un détecteur automatique d’entités nommées (LIA_NE) pour extraire les couples prénom / nom de la transcription. Ensuite, ils s’appuient sur la théorie des fonctions de croyance pour réaliser l’affectation aux locuteurs du document et prennent ainsi en compte les différents conflits qui peuvent apparaître. Pour finir, un algorithme optimal d’affectation est proposé. Ce système obtient un taux d’erreur compris entre 12 et 20 % sur des transcriptions de référence (réalisées manuellement) en fonction du corpus utilisé. Nous présentons ensuite les avancées réalisées et les limites mises en avant par ces travaux. Nous proposons notamment une première étude de l’impact de l’utilisation de transcriptions entièrement automatiques sur Milesin. / The automatic processing of speech is an area that encompasses a large number of works : speaker recognition, named entities detection or transcription of the audio signal into words. Automatic speech processing techniques can extract number of information from audio documents (meetings, shows, etc..) such as transcription, some annotations (the type of show, the places listed, etc..) or even information concerning speakers (speaker change, gender of speaker). All this information can be exploited by automatic indexing techniques which will allow indexing of large document collections. The work presented in this thesis are interested in the automatic indexing of speakers in french audio documents. Specifically we try to identify the various contributions of a speaker and nominate them by their first and last name. This process is known as named identification of the speaker. The particularity of this work lies in the joint use of audio and its transcript to name the speakers of a document. The first and last name of each speaker is extracted from the document itself (from its rich transcription more accurately), before being assigned to one of the speakers of the document. We begin by describing the context and previous work on the speaker named identification process before submitting Milesin, the system developed during this thesis. The contribution of this work lies firstly in the use of an automatic detector of named entities (LIA_NE) to extract the first name / last name of the transcript. Afterwards, they rely on the theory of belief functions to perform the assignment to the speakers of the document and thus take into account the various conflicts that may arise. Finally, an optimal assignment algorithm is proposed. This system gives an error rate of between 12 and 20 % on reference transcripts (done manually) based on the corpus used.We then present the advances and limitations highlighted by this work.We propose an initial study of the impact of the use of fully automatic transcriptions on Milesin.
60

Reconnaissance automatique des entités nommées arabes et leur traduction vers le français / Automatic recognition of Arabic named entities and their translation into French

Fehri, Héla 17 December 2012 (has links)
La traduction des Entités Nommées (EN) est un axe de recherche d'actualité vu la multitude des documents électroniques échangés à travers Internet. Ainsi, le besoin de traiter ces documents par des outils de TALN est devenu nécessaire et intéressant. La modélisation formelle ou semi formelle de ces EN peut intervenir dans les processus de reconnaissance et de traduction. En effet, elle permet de rendre plus fiable la constitution des ressources linquistiques, de limiter l'impact des spécificités linguistiques ct de faciliter les transformations d'une représentation à une autre. Dans ce contexte, nous proposons un outil de reconnaissance ct de traduction vers le français des EN arabes basé essentiellement sur une représentation formelle et sur un ensemble de transducteurs. L'outil prend en compte l'intégration d'un module de translittération. L'implémentation de cet outil a été effectuée en utilisant la plateforme NooJ. Les résultats obtenus sont satisfaisants / The translation of named entities (NEs) is a current research topic with regard to the proliferation of electronic documents exchanged through the Internet. So, the need to process these documents with NLP tools becomes necessary and interesting. Formal or semi-formal modeling of these NEs may intervene in both processes of recognition and translation. Indeed, it makes the accumulation of linguistic resources more reliable, limits the impact of linguistic specificities and facilitates the transformation from one representation to another. In this context, we propose a tool for the recognition and translation of Arabic NEs into French, based primarily on formal .representation and a set of transducers. This tool takes into account the integration of a module of transliteration. Its implementation was performed using the NooJ platform and the results obtained proved to be satisfactory

Page generated in 0.1044 seconds