Global ETD Search

1	Identification non-supervisée de personnes dans les flux télévisés / Unsupervised person recognition in TV broadcast Poignant, Johann 18 October 2013 (has links) Ce travail de thèse a pour objectif de proposer plusieurs méthodes d'identification non-supervisées des personnes présentes dans les flux télévisés à l'aide des noms écrits à l'écran. Comme l'utilisation de modèles biométriques pour reconnaître les personnes présentes dans de larges collections de vidéos est une solution peu viable sans connaissance a priori des personnes à identifier, plusieurs méthodes de l'état de l'art proposent d'employer d'autres sources d'informations pour obtenir le nom des personnes présentes. Ces méthodes utilisent principalement les noms prononcés comme source de noms. Cependant, on ne peut avoir qu'une faible confiance dans cette source en raison des erreurs de transcription ou de détection des noms et aussi à cause de la difficulté de savoir à qui fait référence un nom prononcé. Les noms écrits à l'écran dans les émissions de télévision ont été peu utilisés en raison de la difficulté à extraire ces noms dans des vidéos de mauvaise qualité. Toutefois, ces dernières années ont vu l'amélioration de la qualité des vidéos et de l'incrustation des textes à l'écran. Nous avons donc ré-évalué, dans cette thèse, l'utilisation de cette source de noms. Nous avons d'abord développé LOOV (pour Lig Overlaid OCR in Vidéo), un outil d'extraction des textes sur-imprimés à l'image dans les vidéos. Nous obtenons avec cet outil un taux d'erreur en caractères très faible. Ce qui nous permet d'avoir une confiance importante dans cette source de noms. Nous avons ensuite comparé les noms écrits et les noms prononcés dans leurs capacités à fournir le nom des personnes présentes dans les émissions de télévisions. Il en est ressorti que deux fois plus de personnes sont nommables par les noms écrits que par les noms prononcés extraits automatiquement. Un autre point important à noter est que l'association entre un nom et une personne est intrinsèquement plus simple pour les noms écrits que pour les noms prononcés. Cette très bonne source de noms nous a donc permis de développer plusieurs méthodes de nommage non-supervisé des personnes présentes dans les émissions de télévision. Nous avons commencé par des méthodes de nommage tardives où les noms sont propagés sur des clusters de locuteurs. Ces méthodes remettent plus ou moins en cause les choix fait lors du processus de regroupement des tours de parole en clusters de locuteurs. Nous avons ensuite proposé deux méthodes (le nommage intégré et le nommage précoce) qui intègrent de plus en plus l'information issue des noms écrits pendant le processus de regroupement. Pour identifier les personnes visibles, nous avons adapté la méthode de nommage précoce pour des clusters de visages. Enfin, nous avons aussi montré que cette méthode fonctionne aussi pour nommer des clusters multi-modaux voix-visage. Avec cette dernière méthode, qui nomme au cours d'un unique processus les tours de paroles et les visages, nous obtenons des résultats comparables aux meilleurs systèmes ayant concouru durant la première campagne d'évaluation REPERE / In this thesis we propose several methods for unsupervised person identification in TV broadcast using the names written on the screen. As the use of biometric models to recognize people in large video collections is not a viable option without a priori knowledge of people present in this videos, several methods of the state-of-the-art proposes to use other sources of information to get the names of those present. These methods mainly use the names pronounced as source of names. However, we can not have a good confidence in this source due to transcription or detection names errors and also due to the difficulty of knowing to who refers a pronounced name. The names written on the screen in TV broadcast have not be used in the past due to the difficulty of extracting these names in low quality videos. However, recent years have seen improvements in the video quality and overlay text integration. We therefore re-evaluated in this thesis, the use of this source of names. We first developed LOOV (for LIG Overlaid OCR in Video), this tool extract overlaid texts written in video. With this tool we obtained a very low character error rate. This allows us to have an important confidence in this source of names. We then compared the written names and pronounced names in their ability to provide the names of person present in TV broadcast. We found that twice persons are nameable by written names than by pronounced names with an automatic extraction of them. Another important point to note is that the association between a name and a person is inherently easier for written names than for pronounced names. With this excellent source of names we were able to develop several unsupervised naming methods of people in TV broadcast. We started with late naming methods where names are propagated onto speaker clusters. These methods question differently the choices made during the diarization process. We then proposed two methods (integrated naming and early naming) that incorporate more information from written names during the diarization process. To identify people appear on screen, we adapted the early naming method for faces clusters. Finally, we have also shown that this method also works for multi-modal speakers-faces clusters. With the latter method, that named speech turn and face during a single process, we obtain comparable score to the best systems that contribute during the first evaluation REPERE Fusion multimodale OCR dans les vidéos Reconnaissance de personnes Multimodale fusion Video OCR Person recognition 004
2	Etude des corrélats cérébraux sous-tendant les processus associatifs impliqués dans l'identification des personnes Joassin, Frédéric 29 March 2006 (has links) L'être humain est pourvu des multiples canaux sensoriels par lesquels il appréhende le monde. Un critère fondamental à notre adaptation est notre capacité à établir des relations entre les différentes informations que nos sens perçoivent. Cette capacité est notamment cruciale dans nos interactions sociales puisque nous devons constamment intégrer en une représentation unifiée les informations visuelles (telles que les visages), auditives (telles que les voix) et verbales (telles que le discours ou le nom) afin de pouvoir identifier nos interlocuteurs. Sachant que le traitement des principales informations qui nous permettent d'identifier les personnes (visages, voix et nom de famille) est sous-tendu par l'activation de régions cérébrales spécifiques et distinctes les unes des autres, la question qui se pose est de savoir comment le cerveau opère pour créer une représentation unifiée des personnes que nous connaissons. Dans la première partie de cette thèse, nous passerons en revue différentes études qui ont tenté de cerner les régions cérébrales impliquées dans le traitement (perception et reconnaissance) de chaque type d'information. Le premier chapitre sera consacré aux corrélats cérébraux du traitement des visages, le second à ceux impliqués dans le traitement des noms propres, le troisième à ceux impliqués dans le traitement des voix. Ces processus seront chaque fois abordés sous l'angle de la neuropsychologie cognitive, de l'imagerie cérébrale fonctionnelle et de l'électrophysiologie. Un quatrième chapitre théorique sera consacré à l'étude des processus associatifs entre ces trois types d'informations, et nous verrons que rares sont les études qui ont directement examiné les activités cérébrales spécifiques à la récupération d'associations entre informations relatives à l'identité des personnes. L'approche expérimentale sera abordée dans la seconde partie de cette thèse. Les quatre études décrites dans cette partie se basent sur les résultats de l'étude de Campanella et al. (2001) qui, par PET-scan, ont examiné les régions cérébrales activées par la récupération d'associations entre visages et noms propres. Utilisant la méthode soustractive, consistant en la soustraction de deux conditions unimodales d'une condition bimodale, ces auteurs ont montré une activation d'un réseau d'aires cérébrales latéralisé dans l'hémisphère gauche et incluant notamment le lobule pariétal inférieur, interprété comme étant une région de convergence multimodale où s'opère l'intégration des différentes informations perçues par les sujets. La méthode soustractive sera utilisée dans toutes les expériences décrites dans cette section. La première étude de cette thèse, utilisant la même méthodologie appliquée à la méthode électrophysiologique des potentiels évoqués, aura pour but d'examiner le décours temporel des activités observées par Campanella et al. (2001). La seconde étude en potentiels évoqués aura pour but d'examiner si les activités observées dans les deux études pré-citées sont spécifiques aux processus associatifs entre visages et noms propres, ou s'ils reflètent des processus plus généraux permettant de lier tout objet visuel à son nom. Les études 3 et 4 viseront quant à elles à définir si le lobule pariétal inférieur gauche est impliqué dans l'intégration de stimulations exclusivement visuelles, ou si il est impliqué dans le « binding » de tout type d'information relative aux personnes, quelle que soit les modalités de présentation. Dans ce cadre, l'étude 3 examinera les corrélats cérébraux impliqués dans la récupération d'associations entre visages et voix. L'étude 4 examinera cette question au moyen de l'imagerie par résonance magnétique fonctionnelle. La dernière partie de cette thèse sera consacrée à l'interprétation de l'ensemble des résultats des 4 expériences décrites précédemment. L'accent y sera mis sur la latence d'apparition des ondes spécifiques aux conditions associatives, apparaissant en même temps que les activités propres au traitement de chaque type d'information, ainsi que sur le rôle du gyrus pariétal inférieur gauche dans l'intégration des représentations des différents attributs par lesquels nous identifions les personnes. Crossmodal processes People recognition Faces Voices Processus associatifs Processus crossmodaux Reconnaissance des personnes Visages Voix Noms propres Potentiels évoqués Proper names Event-related potentials

Search results

Identification non-supervisée de personnes dans les flux télévisés / Unsupervised person recognition in TV broadcast

Etude des corrélats cérébraux sous-tendant les processus associatifs impliqués dans l'identification des personnes