• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • 1
  • Tagged with
  • 3
  • 3
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Suivi multi-locuteurs avec information audio-visuel pour la perception du robot / audio-visual multiple-speaker tracking for robot perception

Ban, Yutong 10 May 2019 (has links)
La perception des robots joue un rôle crucial dans l’interaction homme-robot (HRI). Le système de perception fournit les informations au robot sur l’environnement, ce qui permet au robot de réagir en consequence. Dans un scénario de conversation, un groupe de personnes peut discuter devant le robot et se déplacer librement. Dans de telles situations, les robots sont censés comprendre où sont les gens, ceux qui parlent et de quoi ils parlent. Cette thèse se concentre sur les deux premières questions, à savoir le suivi et la diarisation des locuteurs. Nous utilisons différentes modalités du système de perception du robot pour remplir cet objectif. Comme pour l’humain, l’ouie et la vue sont essentielles pour un robot dans un scénario de conversation. Les progrès de la vision par ordinateur et du traitement audio de la dernière décennie ont révolutionné les capacités de perception des robots. Dans cette thèse, nous développons les contributions suivantes : nous développons d’abord un cadre variationnel bayésien pour suivre plusieurs objets. Le cadre bayésien variationnel fournit des solutions explicites, rendant le processus de suivi très efficace. Cette approche est d’abord appliqué au suivi visuel de plusieurs personnes. Les processus de créations et de destructions sont en adéquation avec le modèle probabiliste proposé pour traiter un nombre variable de personnes. De plus, nous exploitons la complémentarité de la vision et des informations du moteur du robot : d’une part, le mouvement actif du robot peut être intégré au système de suivi visuel pour le stabiliser ; d’autre part, les informations visuelles peuvent être utilisées pour effectuer l’asservissement du moteur. Par la suite, les informations audio et visuelles sont combinées dans le modèle variationnel, pour lisser les trajectoires et déduire le statut acoustique d’une personne : parlant ou silencieux. Pour expérimenter un scenario où l’information visuelle est absente, nous essayons le modèle pour la localisation et le suivi des locuteurs basé sur l’information acoustique uniquement. Les techniques de déréverbération sont d’abord appliquées, dont le résultat est fourni au système de suivi. Enfin, une variante du modèle de suivi des locuteurs basée sur la distribution de von-Mises est proposée, celle-ci étant plus adaptée aux données directionnelles. Toutes les méthodes proposées sont validées sur des bases de données specifiques à chaque application. / Robot perception plays a crucial role in human-robot interaction (HRI). Perception system provides the robot information of the surroundings and enables the robot to give feedbacks. In a conversational scenario, a group of people may chat in front of the robot and move freely. In such situations, robots are expected to understand where are the people, who are speaking, or what are they talking about. This thesis concentrates on answering the first two questions, namely speaker tracking and diarization. We use different modalities of the robot’s perception system to achieve the goal. Like seeing and hearing for a human-being, audio and visual information are the critical cues for a robot in a conversational scenario. The advancement of computer vision and audio processing of the last decade has revolutionized the robot perception abilities. In this thesis, we have the following contributions: we first develop a variational Bayesian framework for tracking multiple objects. The variational Bayesian framework gives closed-form tractable problem solutions, which makes the tracking process efficient. The framework is first applied to visual multiple-person tracking. Birth and death process are built jointly with the framework to deal with the varying number of the people in the scene. Furthermore, we exploit the complementarity of vision and robot motorinformation. On the one hand, the robot’s active motion can be integrated into the visual tracking system to stabilize the tracking. On the other hand, visual information can be used to perform motor servoing. Moreover, audio and visual information are then combined in the variational framework, to estimate the smooth trajectories of speaking people, and to infer the acoustic status of a person- speaking or silent. In addition, we employ the model to acoustic-only speaker localization and tracking. Online dereverberation techniques are first applied then followed by the tracking system. Finally, a variant of the acoustic speaker tracking model based on von-Mises distribution is proposed, which is specifically adapted to directional data. All the proposed methods are validated on datasets according to applications.
2

Identification non-supervisée de personnes dans les flux télévisés

Poignant, Johann 18 October 2013 (has links) (PDF)
Ce travail de thèse a pour objectif de proposer plusieurs méthodes d'identi- fication non-supervisées des personnes présentes dans les flux télévisés à l'aide des noms écrits à l'écran. Comme l'utilisation de modèles biométriques pour reconnaître les personnes présentes dans de larges collections de vidéos est une solution peu viable sans connaissance a priori des personnes à identifier, plusieurs méthodes de l'état de l'art proposent d'employer d'autres sources d'informations pour obtenir le nom des personnes présentes. Ces méthodes utilisent principalement les noms prononcés comme source de noms. Cependant, on ne peut avoir qu'une faible confiance dans cette source en raison des erreurs de transcription ou de détection des noms et aussi à cause de la difficulté de savoir à qui fait référence un nom prononcé. Les noms écrits à l'écran dans les émissions de télévision ont été peu utilisés en raison de la difficulté à extraire ces noms dans des vidéos de mauvaise qualité. Toutefois, ces dernières années ont vu l'amélioration de la qualité des vidéos et de l'incrustation des textes à l'écran. Nous avons donc ré-évalué, dans cette thèse, l'utilisation de cette source de noms. Nous avons d'abord développé LOOV (pour Lig Overlaid OCR in Vidéo), un outil d'extraction des textes sur-imprimés à l'image dans les vidéos. Nous obtenons avec cet outil un taux d'erreur en caractères très faible. Ce qui nous permet d'avoir une confiance importante dans cette source de noms. Nous avons ensuite comparé les noms écrits et les noms prononcés dans leurs capacités à fournir le nom des personnes présentes dans les émissions de télévisions. Il en est ressorti que deux fois plus de personnes sont nommables par les noms écrits que par les noms prononcés extraits automatiquement. Un autre point important à noter est que l'association entre un nom et une personne est intrinsèquement plus simple pour les noms écrits que pour les noms prononcés. Cette très bonne source de noms nous a donc permis de développer plusieurs méthodes de nommage non-supervisé des personnes présentes dans les émissions de télévision. Nous avons commencé par des méthodes de nommage tardives où les noms sont propagés sur des clusters de locuteurs. Ces méthodes remettent plus ou moins en cause les choix fait lors du processus de regroupement des tours de parole en clusters de locuteurs. Nous avons ensuite proposé deux méthodes (le nommage intégré et le nommage précoce) qui intègrent de plus en plus l'information issue des noms écrits pendant le processus de regroupement. Pour identifier les personnes visibles, nous avons adapté la méthode de nommage précoce pour des clusters de visages. Enfin, nous avons aussi montré que cette méthode fonctionne aussi pour nommer des clusters multi-modaux voix-visage. Avec cette dernière méthode, qui nomme au cours d'un unique processus les tours de paroles et les visages, nous obtenons des résultats comparables aux meilleurs systèmes ayant concouru durant la première campagne d'évaluation REPERE.
3

Le dédoublement de soi :une posture réflexive de l'artiste[]chercheur

Baconnier, Jean-Michel 08 February 2019 (has links) (PDF)
La recherche en « art et sciences de l’art » que nous avons menée pour notre doctorat a comme point de départ le projet artistique de la Mosaïque. Celle-ci regroupe des avatars qui sont générés de manière stratégique et critique pour investir le milieu de l’art. Ce projet a vu le jour au début des années deux mille pour répondre, avec une certaine distance, à des attentes institutionnelles dans le cadre de notre bachelor en arts visuels pour ensuite être développé dans un contexte professionnel. Cette démarche réflexive nous a permis d’accumuler des expériences et des informations sur le fonctionnement sociologique, économique et politique des mondes de l’art. Pour cette thèse, nous avons explicité cette méthode de dédoublement, mais nous l’avons aussi utilisée comme méthode méta-réflexive pour proposer une posture d’artiste[ ]chercheur. Ainsi, dans un cadre institutionnel aux sensibilités académiques parfois divergentes entre l’Université et les Beaux-Arts, nous avons tenté de dépasser un certain nombre de clivages (théorie/pratique, artistique/esthétique, subjectif/objectif, etc.) propres à notre discipline que sont les arts visuels. Pour nous approcher de ce but, nous avons formalisé et conceptualisé le rendu de notre projet artistique à travers la rédaction d’un « essai augmenté » (par des hyperliens) dans les pages qui vont suivre et un diagramme interactif (une topographie conceptuelle de la Mosaïque) consultable sur un site Web (www.mosaique.li). Nous avons envisagé, dans une approche pragmatique, la diversité de ces niveaux d’investigation comme un écosystème s’inscrivant dans une « écologie esthétique ». Autrement dit, en étant paradoxalement acteur, chercheur et spectateur dans notre propre domaine, nous avons effectué, sous ce triple statut, une recherche (sur un projet artistique) et une méta-recherche (sur la méthodologie et l’épistémologie de cettedite recherche). Par conséquent, nous n’avons pas souhaité aboutir à une « vérité » scientifique à partir d’une hypothèse à valider, mais plutôt à étudier en quoi un projet en art peut être une source de savoirs éclairés par l’analyse d’une pratique artistique avec l’apport des sciences sociales, humaines et naturelles. En partant du fait que l’art est destiné à un public, la dernière partie de cette recherche est consacrée à sa propre réception par un spectateur-lecteur. Nous nous sommes interrogés sur les régimes cognitifs qui permettent de solliciter l’attention, mais aussi sur la manière dont nous la prêtons dans un environnement médiatisé par une interface numérique. Il s’agissait ici de réfléchir à la réception d’une recherche produisant des objets d’informations singuliers ayant une dimension esthétique et prenant forme dans l’hybridation du tangible et du numérique. / Doctorat en Art et Sciences de l'Art / info:eu-repo/semantics/nonPublished

Page generated in 0.037 seconds