• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 19
  • 4
  • 1
  • Tagged with
  • 88
  • 88
  • 67
  • 31
  • 26
  • 23
  • 21
  • 20
  • 13
  • 11
  • 11
  • 10
  • 10
  • 10
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile / Automatic speech recognition for ageing voices in the context of assisted living

Aman, Frédéric 09 December 2014 (has links)
Dans le contexte du vieillissement de la population, le but de cette thèse est d'inclure au domicile des personnes âgées un système de reconnaissance automatique de la parole (RAP) capable de reconnaître des appels de détresse pour alerter les secours. Les modèles acoustiques des systèmes de RAP sont généralement appris avec de la parole non âgée, prononcé de façon neutre et lue. Or, dans notre contexte, nous sommes loin de ces conditions idéales (voix âgée et émue), et le système doit donc être adapté à la tâche. Notre travail s’appuie sur des corpus de voix âgées et d'appels de détresse que nous avons enregistrés. A partir de ces corpus, une étude sur les différences entre voix jeunes/âgées d'une part, et entre voix neutre/émue d'autre part nous ont permis de développer un système de RAP adapté à la tâche. Celui-ci a ensuite été évalué sur des données issues d'une expérimentation en situation réaliste incluant des chutes jouées. / In the context of the aging population, the aim of this thesis is to include in the living environment of the elderly people an automatic speech recognition (ASR) system, which can recognize calls to alert the emergency services. The acoustic models of ASR systems are mostly learned with non-elderly speech, delivered in a neutral way, and read. However, in our context, we are far from these ideal conditions (aging and expressive voice). So, our system must be adapted to the task. For our work, we recorded corpora made of elderly voices and distress calls. From these corpora, a study on the differences between young and old voices, and between neutral and emotional voice permit to develop an ASR system adapted to the task. This system was then evaluated on data recorded during an experiment in realistic situation, including falls played by volunteers.
42

Transcription et traitement manuel de la parole spontanée pour sa reconnaissance automatique / Transcription and manual treatment of spontaneous speech for its automatic recognition

Bazillon, Thierry 04 February 2011 (has links)
Le projet EPAC est le point de départ de nos travaux de recherche. Nous présentons ce contexte de travail dans notre premier chapitre.Dans un deuxième temps, nous nous intéressons à la tâche de transcription de la parole. Nous en exposerons quelques jalons, ainsi qu'un inventaire des corpus oraux disponibles aujourd'hui. Enfin, nous comparons deux méthodes de transcription : manuelle et assistée. Par la suite, nous réalisons une étude comparative de huit logiciels d'aide à la transcription. Cela afin de démontrer que, suivant les situations, certains sont plus indiqués que d'autres. Le codage des données est l'objet de notre quatrième chapitre. Peut-on facilement échanger des transcriptions? Nous démontrerons que l'interopérabilité est un domaine où beaucoup de travail reste à faire. Enfin, nous terminons par une analyse détaillée de ce que nous appelons la parole spontanée. Par différents angles, définitions et expériences, nous tentons de circonscrire ce que cette appellation recouvre. / Our researches are based upon the EPAC project. We develop this work context in our first chapter. Then, transcription task is presented. Some important dates and people are mentionned, as well as an inventory of available speech corpus. Also, assisted and manual transcription task are evaluated and compared. A comparative study of eight transcription tools is developed in the third chapter. It shows that depending on the transcription context (data size, type of annotations ... ), some are more useful than others. Encoding data is the next step of our work. Is it really easy to exchange some transcriptions? We will demonstrate that interoperability must be much more efficient than it currently is, in order to easily share transcribed data. At least, what we name spontaneous speech is precisely analysed. Thanks to several points of view, definitions and experiences, we try to get the precise meaning of this expression.
43

Attelage de systèmes de transcription automatique de la parole / Attelage de systèmes de transcription automatique de la parole

Bougares, Fethi 23 November 2012 (has links)
Nous abordons, dans cette thèse, les méthodes de combinaison de systèmesde transcription de la parole à Large Vocabulaire. Notre étude se concentre surl’attelage de systèmes de transcription hétérogènes dans l’objectif d’améliorerla qualité de la transcription à latence contrainte. Les systèmes statistiquessont affectés par les nombreuses variabilités qui caractérisent le signal dela parole. Un seul système n’est généralement pas capable de modéliserl’ensemble de ces variabilités. La combinaison de différents systèmes detranscription repose sur l’idée d’exploiter les points forts de chacun pourobtenir une transcription finale améliorée. Les méthodes de combinaisonproposées dans la littérature sont majoritairement appliquées a posteriori,dans une architecture de transcription multi-passes. Cela nécessite un tempsde latence considérable induit par le temps d’attente requis avant l’applicationde la combinaison.Récemment, une méthode de combinaison intégrée a été proposée. Cetteméthode est basée sur le paradigme de décodage guidé (DDA :Driven DecodingAlgorithm) qui permet de combiner différents systèmes durant le décodage. Laméthode consiste à intégrer des informations en provenance de plusieurs systèmes dits auxiliaires dans le processus de décodage d’un système dit primaire.Notre contribution dans le cadre de cette thèse porte sur un double aspect : d’une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes,appelé BONG. D’autre part, nous proposons un cadre permettant l’attelagede plusieurs systèmes mono-passe pour la construction collaborative, à latenceréduite, de la sortie de l’hypothèse de reconnaissance finale. Nous présentonsdifférents modèles théoriques de l’architecture d’attelage et nous exposons unexemple d’implémentation en utilisant une architecture client/serveur distribuée. Après la définition de l’architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatiqueà latence réduite. Nous proposons une adaptation de la combinaison BONGpermettant la collaboration, à latence réduite, de plusieurs systèmes mono-passe fonctionnant en parallèle. Nous présentons également, une adaptationde la combinaison ROVER applicable durant le processus de décodage via unprocessus d’alignement local suivi par un processus de vote basé sur la fréquence d’apparition des mots. Les deux méthodes de combinaison proposéespermettent la réduction de la latence de la combinaison de plusieurs systèmesmono-passe avec un gain significatif du WER. / This thesis presents work in the area of Large Vocabulary ContinuousSpeech Recognition (LVCSR) system combination. The thesis focuses onmethods for harnessing heterogeneous systems in order to increase theefficiency of speech recognizer with reduced latency.Automatic Speech Recognition (ASR) is affected by many variabilitiespresent in the speech signal, therefore single ASR systems are usually unableto deal with all these variabilities. Considering these limitations, combinationmethods are proposed as alternative strategies to improve recognitionaccuracy using multiple recognizers developed at different research siteswith different recognition strategies. System combination techniques areusually used within multi-passes ASR architecture. Outputs of two or moreASR systems are combined to estimate the most likely hypothesis amongconflicting word pairs or differing hypotheses for the same part of utterance.The contribution of this thesis is twofold. First, we study and analyze theintegrated driven decoding combination method which consists in guidingthe search algorithm of a primary ASR system by the one-best hypothesesof auxiliary systems. Thus we propose some improvements in order to makethe driven decoding more efficient and generalizable. The proposed methodis called BONG and consists in using Bag Of N-Gram auxiliary hypothesisfor the driven decoding.Second, we propose a new framework for low latency paralyzed single-passspeech recognizer harnessing. We study various theoretical harnessingmodels and we present an example of harnessing implementation basedon client/server distributed architecture. Afterwards, we suggest differentcombination methods adapted to the presented harnessing architecture:first we extend the BONG combination method for low latency paralyzedsingle-pass speech recognizer systems collaboration. Then we propose, anadaptation of the ROVER combination method to be performed during thedecoding process using a local vote procedure followed by voting based onword frequencies.
44

Reconnaissance des procédés de traduction sous-phrastiques : des ressources aux validations / Recognition of sub-sentential translation techniques : from resources to validation

Zhai, Yuming 19 December 2019 (has links)
Les procédés de traduction constituent un sujet important pour les traductologues et les linguistes. Face à un certain mot ou segment difficile à traduire, les traducteurs humains doivent appliquer les solutions particulières au lieu de la traduction littérale, telles que l'équivalence idiomatique, la généralisation, la particularisation, la modulation syntaxique ou sémantique, etc.En revanche, ce sujet a reçu peu d'attention dans le domaine du Traitement Automatique des Langues (TAL). Notre problématique de recherche se décline en deux questions : est-il possible de reconnaître automatiquement les procédés de traduction ? Certaines tâches en TAL peuvent-elles bénéficier de la reconnaissance des procédés de traduction ?Notre hypothèse de travail est qu'il est possible de reconnaître automatiquement les différents procédés de traduction (par exemple littéral versus non littéral). Pour vérifier notre hypothèse, nous avons annoté un corpus parallèle anglais-français en procédés de traduction, tout en établissant un guide d'annotation. Notre typologie de procédés est proposée en nous appuyant sur des typologies précédentes, et est adaptée à notre corpus. L'accord inter-annotateur (0,67) est significatif mais dépasse peu le seuil d'un accord fort (0,61), ce qui reflète la difficulté de la tâche d'annotation. En nous fondant sur des exemples annotés, nous avons ensuite travaillé sur la classification automatique des procédés de traduction. Même si le jeu de données est limité, les résultats expérimentaux valident notre hypothèse de travail concernant la possibilité de reconnaître les différents procédés de traduction. Nous avons aussi montré que l'ajout des traits sensibles au contexte est pertinent pour améliorer la classification automatique.En vue de tester la généricité de notre typologie de procédés de traduction et du guide d'annotation, nos études sur l'annotation manuelle ont été étendues au couple de langues anglais-chinois. Ce couple de langues partagent beaucoup moins de points communs par rapport au couple anglais-français au niveau linguistique et culturel. Le guide d'annotation a été adapté et enrichi. La typologie de procédés de traduction reste identique à celle utilisée pour le couple anglais-français, ce qui justifie d'étudier le transfert des expériences menées pour le couple anglais-français au couple anglais-chinois.Dans le but de valider l'intérêt de ces études, nous avons conçu un outil d'aide à la compréhension écrite pour les apprenants de français langue étrangère. Une expérience sur la compréhension écrite avec des étudiants chinois confirme notre hypothèse de travail et permet de modéliser l'outil. D'autres perspectives de recherche incluent l'aide à la construction de ressource de paraphrases, l'évaluation de l'alignement automatique de mots et l'évaluation de la qualité de la traduction automatique. / Translation techniques constitute an important subject in translation studies and in linguistics. When confronted with a certain word or segment that is difficult to translate, human translators must apply particular solutions instead of literal translation, such as idiomatic equivalence, generalization, particularization, syntactic or semantic modulation, etc.However, this subject has received little attention in the field of Natural Language Processing (NLP). Our research problem is twofold: is it possible to automatically recognize translation techniques? Can some NLP tasks benefit from the recognition of translation techniques?Our working hypothesis is that it is possible to automatically recognize the different translation techniques (e.g. literal versus non-literal). To verify our hypothesis, we annotated a parallel English-French corpus with translation techniques, while establishing an annotation guide. Our typology of techniques is proposed based on previous typologies, and is adapted to our corpus. The inter-annotator agreement (0.67) is significant but slightly exceeds the threshold of a strong agreement (0.61), reflecting the difficulty of the annotation task. Based on annotated examples, we then worked on the automatic classification of translation techniques. Even if the dataset is limited, the experimental results validate our working hypothesis regarding the possibility of recognizing the different translation techniques. We have also shown that adding context-sensitive features is relevant to improve the automatic classification.In order to test the genericity of our typology of translation techniques and the annotation guide, our studies of manual annotation have been extended to the English-Chinese language pair. This pair shares far fewer linguistic and cultural similarities than the English-French pair. The annotation guide has been adapted and enriched. The typology of translation techniques remains the same as that used for the English-French pair, which justifies studying the transfer of the experiments conducted for the English-French pair to the English-Chinese pair.With the aim to validate the benefits of these studies, we have designed a tool to help learners of French as a foreign language in reading comprehension. An experiment on reading comprehension with Chinese students confirms our working hypothesis and allows us to model the tool. Other research perspectives include helping to build paraphrase resources, evaluating automatic word alignment and evaluating the quality of machine translation.
45

Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole

Lecorvé, Gwénolé 24 November 2010 (has links) (PDF)
Les systèmes actuels de reconnaissance automatique de la parole (RAP) reposent sur un modèle de langue (ML) qui les aide à déterminer les hypothèses de transcription les plus probables. Pour cela, le ML recense des probabilités de courtes séquences de mots, appelées n-grammes, fondées sur un vocabulaire fini. Ces ML et vocabulaire sont estimés une fois pour toutes à partir d'un vaste corpus de textes traitant de sujets variés. En conséquence, les systèmes actuels souffrent d'un manque de spécificité lorsqu'il s'agit de transcrire des documents thématiquement marqués. Pour pallier ce problème, nous proposons un nouveau processus d'adaptation thématique non supervisée du ML et du vocabulaire. Sur la base d'une première transcription automatique d'un document audio, ce processus consiste à récupérer sur Internet des textes du même thème que le document, textes à partir desquels nous réestimons le ML et enrichissons le vocabulaire. Ces composants adaptés servent alors à produire une nouvelle transcription dont la qualité est espérée meilleure. Ce processus est particulièrement original car il se préserve de toute connaissance a priori sur les éventuels thèmes des documents à transcrire et il intègre des techniques de traitement automatique des langues. De plus, nous apportons des contributions pour chaque étape du processus. Tout d'abord, étant donnée la transcription initiale d'un document audio, nous avons aménagé le critère tf-idf , issu du domaine de la recherche d'information, aux spécificités de l'oral afin de caractériser le thème du document par des mots-clés extraits automatiquement. Via un moteur de recherche sur Internet, ces mots-clés nous permettent de récupérer des pages Web que nous filtrons afin d'assurer leur cohérence thématique avec le document audio. Ensuite, nous avons proposé une nouvelle technique de réestimation thématique du ML. En extrayant des mots et séquences de mots spécifiques au thème considéré à partir des corpora Web, nous utilisons le cadre de l'adaptation par minimum d'information discriminante pour ne modifier que les probabilités des n-grammes propres au thème, laissant les autres probabilités inchangées. Enfin, nous montrons également que les corpora extraits du Web peuvent servir à repérer des mots hors vocabulaire spécifiques aux thèmes. Nous proposons une technique originale qui permet d'apprendre ces nouveaux mots au système et, notamment, de les intégrer dans le ML en déterminant automatiquement dans quels n-grammes ils sont susceptibles d'apparaître. Pour cela, chaque nouveau mot est assimilé à d'autres, déjà connus du système, avec lesquels il partage une relation paradigmatique. Nos expériences, menées sur des émissions d'actualités radiodiffusées, montrent que l'ensemble de ces traitements aboutit à des améliorations significatives du taux de reconnaissance d'un système de RAP.
46

Conception et mise en œuvre d'algorithmes de vision temps-réel pour la vidéo surveillance intelligente

Ghorayeb, Hicham 12 September 2007 (has links) (PDF)
Notre objectif est d'étudier les algorithmes de vision utilisés aux différents niveaux dans une chaîne de traitement vidéo intelligente. On a prototypé une chaîne de traitement générique dédiée à l'analyse du contenu du flux vidéo. En se basant sur cette chaîne de traitement, on a développé une application de détection et de suivi de piétons. Cette application est une partie intégrante du projet PUVAME. Cette chaîne de traitement générique est composée de plusieurs étapes: détection, classification et suivi d'objets. D'autres étapes de plus haut niveau sont envisagées comme la reconnaissance d'actions, l'identification, la description sémantique ainsi que la fusion des données de plusieurs caméras. On s'est intéressé aux deux premières étapes. On a exploré des algorithmes de segmentation du fond dans un flux vidéo avec caméra fixe. On a implémenté et comparé des algorithmes basés sur la modélisation adaptative du fond. On a aussi exploré la détection visuelle d'objets basée sur l'apprentissage automatique en utilisant la technique du boosting. Cependant, On a développé une librairie intitulée LibAdaBoost qui servira comme un environnement de prototypage d'algorithmes d'apprentissage automatique. On a prototypé la technique du boosting au sein de cette librairie. On a distribué LibAdaBoost sous la licence LGPL. Cette librairie est unique avec les fonctionnalités qu'elle offre. On a exploré l'utilisation des cartes graphiques pour l'accélération des algorithmes de vision. On a effectué le portage du détecteur visuel d'objets basé sur un classifieur généré par le boosting pour qu'il s'exécute sur le processeur graphique. On était les premiers à effectuer ce portage. On a trouvé que l'architecture du processeur graphique est la mieux adaptée pour ce genre d'algorithmes. La chaîne de traitement a été implémentée et intégrée à l'environnement RTMaps. On a évalué ces algorithmes sur des scénarios bien définis. Ces scénarios ont été définis dans le cadre de PUVAME.
47

Contributions à la Reconnaissance Automatique de la Parole Non Native / Contributions to non-native automatic speech recognition

Bouselmi, Ghazi 12 November 2008 (has links)
La RAP non native souffre encore d'une chute significative de précision. Cette dégradation est due aux erreurs d'accent et de prononciation que produisent les locuteurs non natifs. Les recherches que nous avons entreprises ont pour but d'atténuer l'impact des accents non natifs sur les performances des systèmes de RAP. Nous avons proposé une nouvelle approche pour la modélisation de prononciation non native permettant de prendre en compte plusieurs accents étrangers. Cette approche automatique utilise un corpus de parole non native et deux ensembles de modèles acoustiques: le premier ensemble représente l'accent canonique de la langue cible et le deuxième représente l'accent étranger. Les modèles acoustiques du premier ensemble sont modifiés par l'ajout de nouveaux chemins d'états HMM. Nous avons proposé une nouvelle approche pour la détection de la langue maternelle basée sur la détection de séquences discriminantes de phonèmes. Par ailleurs, nous avons proposé une approche de modélisation de prononciation non native multi-accent permettant de prendre en compte plusieurs accents étrangers simultanément. D'autre part, nous avons proposé l'utilisation de contraintes graphémiques. Nous avons conçu une approche automatique pour la detection des contraintes graphémiques et leur prise en compte pour l'approche de RAP non native. Vu que notre méthode de modélisation de prononciation augmente la complexité des modèles acoustiques, nous avons étudié les approches de calcul rapide de vraisemblance pour les GMM. En outre, Nous avons proposé trois nouvelles approches efficaces dont le but est l'accélération du calcul de vraisemblance sans dégradation de la précision. / Automatic speech recognition systems are still vulnerable to non native accents. Their precision drastically drops as non native speakers commit acoustic and pronunciation errors. We have proposed a new approach for non native ASR based on pronunciation modelling. This approach uses a non native speech corpus and two sets of acoustic models: the first set stands for the canoncial target language accent and the second stands for the non native accent. It is an automated approach that associates, to each phoneme from the first set of models, one or several non native pronunciations each expressed as a sequence of phonemes from the second set of models. These pronunciations are taken into account through adding new HMM paths to the models of each phoneme from the first set of models. We have developed a new approach for the automatic detection of the mother tong of non native speakers. This approach is based on the detection of discriminative phoneme sequences, and is used as a first step of the ASP process. As opposed to origin detection, we have proposed a multi-accent non native pronunciation modeling approach that takes into account several foreign accents. Besides, we have developed an approach of automatic phoneme-grapheme alignment in order to take into account the graphemic constraints within the non native pronunciation modeling. The gaol of this procedure is the sharpen the pronunciation modeling and enhance the ASR accuracy. We have studied some fast likelihood computation techinques, and we have proposed three novel appraoches that aim at enhancing likelihood computation speed without harming ASR precision.
48

Gestion de la variabilité morphologique pour la reconnaissance de gestes naturels à partir de données 3D / Addressing morphological variability for natural gesture recognition from 3D data

Sorel, Anthony 06 December 2012 (has links)
La reconnaissance de mouvements naturels est de toute première importance dans la mise en oeuvre d’Interfaces Homme-Machine intelligentes et efficaces, utilisables de manière intuitive en environnement virtuel. En effet, elle permet à l’utilisateur d’agir de manière naturelle et au système de reconnaitre les mouvements corporel effectués tels qu’ils seraient perçu par un humain. Cette tâche est complexe, car elle demande de relever plusieurs défis : prendre en compte les spécificités du dispositif d’acquisition des données de mouvement, gérer la variabilité cinématique dans l’exécution du mouvement, et enfin gérer les différences morphologiques inter-individuelles, de sorte que les mouvements de tout nouvel utilisateur puissent être reconnus. De plus, de part la nature interactive des environnements virtuels, cette reconnaissancedoit pouvoir se faire en temps-réel, sans devoir attendre la fin du mouvement. La littérature scientifique propose de nombreuses méthodes pour répondre aux deux premiers défis mais la gestion de la variabilité morphologique est peu abordée. Dans cette thèse, nous proposons une description du mouvement permettant de répondre à cette problématique et évaluons sa capacité à reconnaitre les mouvements naturels d’un utilisateur inconnu. Enfin, nous proposons unenouvelle méthode permettant de tirer partie de cette représentation dans une reconnaissance précoce du mouvement / Recognition of natural movements is of utmost importance in the implementation of intelligent and effective Human-Machine Interfaces for virtual environments. It allows the user to behave naturally and the system to recognize its body movements in the same way a human might perceive it. This task is complex, because it addresses several challenges : take account of the specificities of the motion capture system, manage kinematic variability in motion performance, and finally take account of the morphological differences between individuals, so that actions of any new user can be recognized. Moreover, due to the interactive nature of virtual environments, this recognition must be achieved in real-time without waiting for the motion end. The literature offers many methods to meet the first two challenges. But the management of the morphological variability is not dealt. In this thesis, we propose a description of the movement to address this issue and we evaluate its ability to recognize the movements of an unknown user. Finally, we propose a new method to take advantage of this representation in early motion recognition
49

Analyse et synthèse de mouvements théâtraux expressifs. / Analysis and Synthesis of Expressive Theatrical Movements

Carreno Medrano, Pamela 25 November 2016 (has links)
Cette thèse porte sur l’analyse et la génération de mouvements expressifs pour des personnages humains virtuels. Sur la base de résultats d’état de l’art issus de trois domaines de recherche différents (la perception des émotions et du mouvement biologique, la reconnaissance automatique des émotions et l’animation de personnages), une représentation en faible dimension des mouvements a été proposée. Cette représentation est constituée de trajectoires spatio- temporelles des extrémités des chaînes articulées (tête, mains et pieds) et du pelvis. Nous avons soutenu que cette représentation est à la fois appropriée et suffisante pour caractériser le contenu expressif du mouvement humain et pour contrôler la génération de mouvements corporels expressifs. Pour étayer ces affirmations, cette thèse propose : i.) Une nouvelle base de données de mouvements capturés. Cette base de données a été inspirée par la théorie du théâtre physique et contient des exemples de différentes catégories de mouvements (à savoir des mouvements périodiques, des mouvements fonctionnels, des mouvements spontanés et des séquences de mouvements théâtraux), produit avec des états émotionnels distincts (joie, tristesse, détente, stress et neutre) et interprétés par plusieurs acteurs. ii.) Une étude perceptuelle et une approche basée classification automatique conçus pour évaluer qualitativement et quantitativement la quantité d’information liée aux émotions encore véhiculée et codée dans la représentation proposée. Nous avons observé que, bien que de légères différences dans la performance aient été trouvées par rapport à la situation dans laquelle le corps entier a été utilisé, notre représentation conserve la plupart des qualités de mouvements liées à l’expression de l’affect et d’émotions. iii.) Un système de synthèse de mouvement capable : (a) de reconstruire des mouvements du corps entier à partir de la représentation à faible dimension proposée, (b) de produire de nouvelles trajectoires extrémités expressives (incluant la trajectoire du pelvis). Une évaluation quantitative et qualitative des mouvements du corps entier générés montre que ces mouvements sont aussi expressifs que les mouvements enregistrés à partir d’acteurs humains. / This thesis addresses the analysis and generation of expressive movements for virtual human characters. Based on previous results from three different research areas (perception of emotions and biological motion, automatic recognition of affect and computer character animation), a low-dimensional motion representation is proposed. This representation consists of the spatio-temporal trajectories of end-effectors (i.e., head, hands and feet) and pelvis. We have argued that this representation is both suitable and sufficient for characterizing the underlying expressive content in human motion and for controlling the generation of expressive whole-body movements. In order to prove these claims, this thesis proposes: i.) A new motion capture database inspired by physical theater theory. This database contains examples from different motion classes (i.e., periodic movements, functional behaviors, spontaneous motions, and theater-inspired motion sequences) and distinct emotional states (happiness, sadness, relaxedness, stress and neutral) performed by several actors. ii.) A user study and automatic classification framework de- signed to qualitatively and quantitatively assess the amount of emotion-related information conveyed and encoded in the proposed representation. We have observed that although slight differences in performance were found with respect to the cases in which the entire body was used, our proposed representation preserves most of the motion cues salient to the expression of affect and emotions. iii.) A simple motion synthesis system able to capable of: a) reconstructing whole-body movements from the proposed low-dimensional representation, and b) producing novel end- effector (and pelvis) expressive trajectories. A quantitative and qualitative evaluation of the generated whole body motions shows that these motions are as expressive as the movements recorded from human actors
50

Recherche du rôle des intervenants et de leurs interactions pour la structuration de documents audiovisuels

Bigot, Benjamin 06 July 2011 (has links) (PDF)
Nous présentons un système de structuration automatique d'enregistrements audiovisuels s'appuyant sur des informations non lexicales caractéristiques des rôles des intervenants et de leurs interactions. Dans une première étape, nous proposons une méthode de détection et de caractérisation de séquences temporelles, nommée " zones d'interaction ", susceptibles de correspondre à des conversations. La seconde étape de notre système réalise une reconnaissance du rôle des intervenants : présentateur, journaliste et autre. Notre contribution au domaine de la reconnaissance automatique du rôle se distingue en reposant sur l'hypothèse selon laquelle les rôles des intervenants sont accessibles à travers des paramètres " bas-niveau " inscrits d'une part dans l'organisation temporelle des tours de parole des intervenants, dans les environnements acoustiques dans lesquels ils apparaissent, ainsi que dans plusieurs paramètres prosodiques (intonation et débit). Dans une dernière étape, nous combinons l'information du rôle des intervenants à la connaissance des séquences d'interaction afin de produire deux niveaux de description du contenu des documents. Le premier niveau de description segmente les enregistrements en zones de 4 types : informations, entretiens, transition et intermède. Un second niveau de description classe les zones d'interaction orales en 4 catégories : débat, interview, chronique et relais. Chaque étape du système est validée par une grand nombre d'expériences menées sur le corpus du projet EPAC et celui de la campagne d'évaluation ESTER.

Page generated in 0.1543 seconds