1 |
Méthodes de vision par ordinateur pour la reconnaissance de gestes naturelles dans le contexte de lʼannotation en langue des signesGonzalez Preciado, Matilde 24 September 2012 (has links) (PDF)
Cette thèse porte sur l'étude des méthodes de vision par ordinateur pour la reconnaissance de gestes naturels dans le contexte de l'annotation de la Langue des Signes. Les annotations de vidéo en LS sont réalisées manuellement par des linguistes ou experts en LS, ce qui est source d'erreur, non reproductible et extrêmement chronophage. De plus, la qualité des annotations dépend des connaissances en LS de l'annotateur. L'association de l'expertise de l'annotateur aux traitements automatiques facilite cette tâche et représente un gain de temps et de robustesse. Nous avons étudié un ensemble de méthodes permettant de réaliser l'annotation en glose. Dans un premier temps, nous cherchons à détecter les limites de début et fin de signe. Cette méthode d'annotation nécessite plusieurs traitements de bas niveau afin de segmenter les signes et d'extraire les caractéristiques de mouvement et de forme de la main. D'abord nous proposons une méthode de suivi des composantes corporelles robuste aux occultations basée sur le filtrage particulaire. Ensuite, un algorithme de segmentation des mains est développé afin d'extraire la région des mains même quand elles se trouvent devant le visage. Puis, les caractéristiques de mouvement sont utilisées pour réaliser une première segmentation temporelle des signes qui est par la suite améliorée grâce à l'utilisation de caractéristiques de forme. En effet celles-ci permettent de supprimer les limites de segmentation détectées en milieu des signes. Une fois les signes segmentés, on procède à l'extraction de caractéristiques visuelles pour leur reconnaissance en termes de gloses à l'aide de modèles phonologiques.
|
2 |
Vers une description efficace du contenu visuel pour l'annotation automatique d'imagesHervé, Nicolas 08 June 2009 (has links) (PDF)
Les progrès technologiques récents en matière d'acquisition de données multimédia ont conduit à une croissance exponentielle du nombre de contenus numériques disponibles. Pour l'utilisateur de ce type de bases de données, la recherche d'informations est très problématique car elle suppose que les contenus soient correctement annotés. Face au rythme de croissance de ces volumes, l'annotation manuelle présente aujourd'hui un coût prohibitif. Dans cette thèse, nous nous intéressons aux approches produisant des annotations automatiques qui tentent d'apporter une réponse à ce problème. Nous nous intéressons aux bases d'images généralistes (agences photo, collections personnelles), c'est à dire que nous ne disposons d'aucun a priori sur leur contenu visuel. Contrairement aux nombreuses bases spécialisées (médicales, satellitaires, biométriques, ...) pour lesquelles il est important de tenir compte de leur spécificité lors de l'élaboration d'algorithmes d'annotation automatique, nous restons dans un cadre générique pour lequel l'approche choisie est facilement extensible à tout type de contenu.<br /><br />Pour commencer, nous avons revisité une approche standard basée sur des SVM et examiné chacune des étapes de l'annotation automatique. Nous avons évalué leur impact sur les performances globales et proposé plusieurs améliorations. La description visuelle du contenu et sa représentation sont sans doute les étapes les plus importantes puisqu'elles conditionnent l'ensemble du processus. Dans le cadre de la détection de concepts visuels globaux, nous montrons la qualité des descripteurs de l'équipe Imedia et proposons le nouveau descripteur de formes LEOH. D'autre part, nous utilisons une représentation par sacs de mots visuels pour décrire localement les images et détecter des concepts plus fins. Nous montrons que, parmi les différentes stratégies existantes de sélection de patches, l'utilisation d'un échantillonnage dense est plus efficace. Nous étudions différents algorithmes de création du vocabulaire visuel nécessaire à ce type d'approche et observons les liens existants avec les descripteurs utilisés ainsi que l'impact de l'introduction de connaissance à cette étape. Dans ce cadre, nous proposons une nouvelle approche utilisant des paires de mots visuels permettant ainsi la prise en compte de contraintes géométriques souples qui ont été, par nature, ignorées dans les approches de type sacs de mots. Nous utilisons une stratégie d'apprentissage statistique basée sur des SVM. Nous montrons que l'utilisation d'un noyau triangulaire offre de très bonnes performances et permet, de plus, de réduire les temps de calcul lors des phases d'apprentissage et de prédiction par rapport aux noyaux plus largement utilisés dans la littérature. La faisabilité de l'annotation automatique n'est envisageable que s'il existe une base suffisamment annotée pour l'apprentissage des modèles. Dans le cas contraire, l'utilisation du bouclage de pertinence, faisant intervenir l'utilisateur, est une approche efficace pour la création de modèles sur des concepts visuels inconnus jusque là, ou en vue de l'annotation de masse d'une base. Dans ce cadre, nous introduisons une nouvelle stratégie permettant de mixer les descriptions visuelles globales et par sac de mots.<br /><br />Tous ces travaux ont été évalués sur des bases d'images qui correspondent aux conditions d'utilisation réalistes de tels systèmes dans le monde professionnel. Nous avons en effet montré que la plupart des bases d'images utilisées par les académiques de notre domaine sont souvent trop simples et ne reflètent pas la diversité des bases réelles. Ces expérimentations ont mis en avant la pertinence des améliorations proposées. Certaines d'entre elles ont permis à notre approche d'obtenir les meilleures performances lors de la campagne d'évaluation ImagEVAL.
|
3 |
Modèles graphiques probabilistes pour la reconnaissance de formesBarrat, Sabine 04 December 2009 (has links) (PDF)
La croissance rapide d'Internet et de l'information multimédia a suscité un besoin en développement de techniques de recherche d'information multimédia, et en particulier de recherche d'images. On peut distinguer deux tendances. La première, appelée recherche d'images à base de texte, consiste à appliquer des techniques de recherche d'information textuelle à partir d'images annotées. Le texte constitue une caractéristique de haut-niveau, mais cette technique présente plusieurs inconvénients : elle nécessite un travail d'annotation fastidieux. De plus, les annotations peuvent être ambiguës car deux utilisateurs peuvent utiliser deux mots-clés différents pour décrire la même image. Par conséquent, plusieurs approches ont proposé d'utiliser l'ontologie Wordnet, afin de réduire ces ambiguïtés potentielles. La seconde approche, appelée recherche d'images par le contenu, est plus récente. Ces techniques de recherche d'images par le contenu sont basées sur des caractéristiques visuelles (couleur, texture ou forme), calculées automatiquement, et utilisent une mesure de similarité afin de retrouver des images. Cependant, les performances obtenues ne sont pas vraiment acceptables, excepté dans le cas de corpus spécialisés. De façon à améliorer la reconnaissance, une solution consiste à combiner différentes sources d'information : par exemple, différentes caractéristiques visuelles et/ou de l'information sémantique. Or, dans de nombreux problèmes de vision, on dispose rarement d'échantillons d'apprentissage entièrement annotés. Par contre, il est plus facile d'obtenir seulement un sous-ensemble de données annotées, car l'annotation d'un sous-ensemble est moins contraignante pour l'utilisateur. Dans cette direction, cette thèse traite des problèmes de modélisation, classification et annotation d'images. Nous présentons une méthode pour l'optimisation de la classification d'images naturelles, en utilisant une approche de classification d'images basée à la fois sur le contenu des images et le texte associé aux images, et en annotant automatiquement les images non annotées. De plus, nous proposons une méthode de reconnaissance de symboles, en combinant différentes caractéristiques visuelles. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification d'images naturelles partiellement annotées, et d'annotation. Nous considérons une image comme partiellement annotée si son nombre de mots-clés est inférieur au maximum de mots-clés observés dans la vérité-terrain. Grâce à leur capacité à gérer les données manquantes et à représenter d'éventuelles relations entre mots-clés, les modèles graphiques probabilistes ont été proposés pour représenter des images partiellement annotées. Par conséquent, le modèle que nous proposons ne requiert pas que toutes les images soient annotées : quand une image est partiellement annotée, les mots-clés manquants sont considérés comme des données manquantes. De plus, notre modèle peut étendre automatiquement des annotations existantes à d'autres images partiellement annotées, sans intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est représentée par une distribution de probabilité jointe sur le vocabulaire des mots-clés et les caractéristiques visuelles extraites de nos bases d'images. Notre modèle est aussi utilisé pour reconnaître des symboles en combinant différents types de caractéristiques visuelles (caractéristiques discrètes et continues). De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Enfin, nous avons proposé un modèle de recherche d'images permettant à l'utilisateur de formuler des requêtes sous forme de mots-clés et/ou d'images. Ce modèle intègre un processus de retour de pertinence. Les résultats expérimentaux, obtenus sur de grandes bases d'images complexes, généralistes ou spécialisées, montrent l'intérêt de notre approche. Enfin, notre méthode s'est montrée compétitive avec des modèles de l'état de l'art.
|
4 |
Annotation automatique d'images à base de Phrases VisuellesAlbatal, Rami 12 July 2010 (has links) (PDF)
Ce travail de thèse a pour objectif de proposer un modèle général d'annotation automatique d'images pour la recherche d'information.La recherche d'information sur les documents images nécessite des représentations abstraites symboliques des images (termes, concepts) afin de satisfaire les besoins d'information des utilisateurs. Si de nombreux travaux ont pour objectif de définir un processus d'apprentissage automatique sur des descripteurs visuels extraits des régions d'images, les questions liées aux choix et aux regroupements des régions descriptives et représentatives des différentes classes d'objets sont peu étudiées. Les variations visuelles des objets d'une classe donnée posent de sérieux problèmes pour l'annotation par classes d'objets. Ces variations sont causées par plusieurs facteurs : changements d'échelle, rotation et changements de luminosité, en sus de la variabilité de forme et de couleur propre à chaque type d'objet. Notre travail vise aussi à minimiser l'impact négatif de ce phénomène. Dans ce travail, le passage du signal au sens se fonde sur une représentation intermédiaire appelée "Phrases Visuelles" qui représentent des ensembles de régions d'intérêt regroupées selon un critère topologique prédéfini. Un processus d'apprentissage permet de détecter les relations entre les Phrases Visuelles et les classes d'objets. Ce modèle d'annotation a fait l'objet de nombreuses évaluations sur le corpus VOC2009. Les résultats obtenus montrent l'impact significatif du mode de regroupement des régions d'intérêt, et qu'un regroupement prenant en compte les relations spatiales entre ces régions donne des meilleurs résultats en terme de précision moyenne.
|
5 |
Using formal logic to represent sign language phonetics in semi-automatic annotation tasks / Using formal logic to represent sign language phonetics in semi-automatic annotation tasksCuriel Diaz, Arturo Tlacaélel 23 November 2015 (has links)
Cette thèse présente le développement d'un framework formel pour la représentation des Langues de Signes (LS), les langages des communautés Sourdes, dans le cadre de la construction d'un système de reconnaissance automatique. Les LS sont de langues naturelles, qui utilisent des gestes et l'espace autour du signeur pour transmettre de l'information. Cela veut dire que, à différence des langues vocales, les morphèmes en LS ne correspondent pas aux séquences de sons; ils correspondent aux séquences de postures corporelles très spécifiques, séparés par des changements tels que de mouvements. De plus, lors du discours les signeurs utilisent plusieurs parties de leurs corps (articulateurs) simultanément, ce qui est difficile à capturer avec un système de notation écrite. Cette situation difficulté leur représentation dans de taches de Traitement Automatique du Langage Naturel (TALN). Pour ces raisons, le travail présenté dans ce document a comme objectif la construction d'une représentation abstraite de la LS; plus précisément, le but est de pouvoir représenter des collections de vidéo LS (corpus) de manière formelle. En générale, il s'agit de construire une couche de représentation intermédiaire, permettant de faire de la reconnaissance automatique indépendamment des technologies de suivi et des corpus utilisés pour la recherche. Cette couche corresponde à un système de transition d'états (STE), spécialement crée pour représenter la nature parallèle des LS. En plus, elle peut-être annoté avec de formules logiques pour son analyse, à travers de la vérification de modèles. Pour représenter les propriétés à vérifier, une logique multi-modale a été choisi : la Logique Propositionnelle Dynamique (PDL). Cette logique a été originalement crée pour la spécification de programmes. De manière plus précise, PDL permit d'utilise des opérateurs modales comme [a] et <a>, représentant <<nécessité>> et <<possibilité>>, respectivement. Une variante particulaire a été développée pour les LS : la PDL pour Langue de Signes (PDLSL), qui est interprété sur des STE représentant des corpus. Avec PDLSL, chaque articulateur du corps (comme les mains et la tête) est vu comme un agent indépendant; cela veut dire que chacun a ses propres actions et propositions possibles, et qu'il peux les exécuter pour influencer une posture gestuelle. L'utilisation du framework proposé peut aider à diminuer deux problèmes importantes qui existent dans l'étude linguistique des LS : hétérogénéité des corpus et la manque des systèmes automatiques d'aide à l'annotation. De ce fait, un chercheur peut rendre exploitables des corpus existants en les transformant vers des STE. Finalement, la création de cet outil à permit l'implémentation d'un système d'annotation semi-automatique, basé sur les principes théoriques du formalisme. Globalement, le système reçoit des vidéos LS et les transforme dans un STE valide. Ensuite, un module fait de la vérification formelle sur le STE, en utilisant une base de données de formules crée par un expert en LS. Les formules représentent des propriétés lexicales à chercher dans le STE. Le produit de ce processus, est une annotation qui peut être corrigé par des utilisateurs humains, et qui est utilisable dans des domaines d'études tels que la linguistique. / This thesis presents a formal framework for the representation of Signed Languages (SLs), the languages of Deaf communities, in semi-automatic recognition tasks. SLs are complex visio-gestural communication systems; by using corporal gestures, signers achieve the same level of expressivity held by sound-based languages like English or French. However, unlike these, SL morphemes correspond to complex sequences of highly specific body postures, interleaved with postural changes: during signing, signers use several parts of their body simultaneously in order to combinatorially build phonemes. This situation, paired with an extensive use of the three-dimensional space, make them difficult to represent with tools already existent in Natural Language Processing (NLP) of vocal languages. For this reason, the current work presents the development of a formal representation framework, intended to transform SL video repositories (corpus) into an intermediate representation layer, where automatic recognition algorithms can work under better conditions. The main idea is that corpora can be described with a specialized Labeled Transition System (LTS), which can then be annotated with logic formulae for its study. A multi-modal logic was chosen as the basis of the formal language: the Propositional Dynamic Logic (PDL). This logic was originally created to specify and prove properties on computer programs. In particular, PDL uses the modal operators [a] and <a> to denote necessity and possibility, respectively. For SLs, a particular variant based on the original formalism was developed: the PDL for Sign Language (PDLSL). With the PDLSL, body articulators (like the hands or head) are interpreted as independent agents; each articulator has its own set of valid actions and propositions, and executes them without influence from the others. The simultaneous execution of different actions by several articulators yield distinct situations, which can be searched over an LTS with formulae, by using the semantic rules of the logic. Together, the use of PDLSL and the proposed specialized data structures could help curb some of the current problems in SL study; notably the heterogeneity of corpora and the lack of automatic annotation aids. On the same vein, this may not only increase the size of the available datasets, but even extend previous results to new corpora; the framework inserts an intermediate representation layer which can serve to model any corpus, regardless of its technical limitations. With this, annotations is possible by defining with formulae the characteristics to annotate. Afterwards, a formal verification algorithm may be able to find those features in corpora, as long as they are represented as consistent LTSs. Finally, the development of the formal framework led to the creation of a semi-automatic annotator based on the presented theoretical principles. Broadly, the system receives an untreated corpus video, converts it automatically into a valid LTS (by way of some predefined rules), and then verifies human-created PDLSL formulae over the LTS. The final product, is an automatically generated sub-lexical annotation, which can be later corrected by human annotators for their use in other areas such as linguistics.
|
6 |
Méthode automatique d’annotations sémantiques et indexation de documents textuels pour l’extraction d’objets pédagogiques / Automatic method of semantic annotation and indexing of textual documents to extract learning objectsBen Ali, Boutheina 18 January 2014 (has links)
L'analyse du contenu devient une nécessité pour l'accès et l'utilisation de l'information en particulier dans le domaine de la didactique des disciplines. Nous proposons un système SRIDOP d'annotations sémantiques et d'indexation des documents pédagogiques à partir des annotations, en se basant sur la méthode d'Exploration Contextuelle qui, à un identificateur linguistique d'un concept, associe une annotation d'un segment en tenant compte d'indices contextuels gérés par des règles. SRIDOP est composé de quatre modules consécutifs : (1)Segmentation automatique des documents en paragraphes et phrases ; (2) annotation selon différents points de vue de fouille (exemple: identification de définitions, exemples, exercices, etc.) en se basant sur une ontologie linguistique de concepts associés à un point de vue de fouille (carte sémantique) et de ressources linguistiques (indicateurs de concepts, indices linguistiques et règles d'Exploration Contextuelle) ; (3) extraction d'objets pédagogiques ; (4) constitution de fiches pédagogiques exploitables par les utilisateurs. SRIDOP est évalué et comparé à d'autres systèmes. / Content analysis is a need for access and use of information especially in the field of didactics. We propose a system SRIDOP of semantic annotations and indexing of learning objects from these annotations, based on the Contextual Exploration method, that associate annotation of a segment to a linguistic identifier of a concept, taking into account contextual clues managed by rules. SRIDOP is composed of four consecutive modules: (1) Automatic segmentation of documents into paragraphs and sentences; (2) annotation from different points of view of search (eg identification of definitions, examples, exercises, etc..) based on a linguistic ontology of concepts associated with a point of view of search (semantic map) and linguistic resources (indicators of concepts, linguistic clues and contextual exploration rules); (3) extraction of learning objects, (4) establishment of learning sheets exploitable by users. SRIDOP is evaluated and compared to other systems.
|
7 |
Données multimodales pour l'analyse d'imageGuillaumin, Matthieu 27 September 2010 (has links) (PDF)
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
|
8 |
Automatic tag correction in videos : an approach based on frequent pattern mining / Correction automatique d’annotations de vidéos : une approche à base de fouille de motifs fréquentsTran, Hoang Tung 17 July 2014 (has links)
Nous présentons dans cette thèse un système de correction automatique d'annotations (tags) fournies par des utilisateurs qui téléversent des vidéos sur des sites de partage de documents multimédia sur Internet. La plupart des systèmes d'annotation automatique existants se servent principalement de l'information textuelle fournie en plus de la vidéo par les utilisateurs et apprennent un grand nombre de "classifieurs" pour étiqueter une nouvelle vidéo. Cependant, les annotations fournies par les utilisateurs sont souvent incomplètes et incorrectes. En effet, un utilisateur peut vouloir augmenter artificiellement le nombre de "vues" d'une vidéo en rajoutant des tags non pertinents. Dans cette thèse, nous limitons l'utilisation de cette information textuelle contestable et nous n'apprenons pas de modèle pour propager des annotations entre vidéos. Nous proposons de comparer directement le contenu visuel des vidéos par différents ensembles d'attributs comme les sacs de mots visuels basés sur des descripteurs SIFT ou des motifs fréquents construits à partir de ces sacs. Nous proposons ensuite une stratégie originale de correction des annotations basées sur la fréquence des annotations des vidéos visuellement proches de la vidéo que nous cherchons à corriger. Nous avons également proposé des stratégies d'évaluation et des jeux de données pour évaluer notre approche. Nos expériences montrent que notre système peut effectivement améliorer la qualité des annotations fournies et que les motifs fréquents construits à partir des sacs de motifs fréquents sont des attributs visuels pertinents / This thesis presents a new system for video auto tagging which aims at correcting the tags provided by users for videos uploaded on the Internet. Most existing auto-tagging systems rely mainly on the textual information and learn a great number of classifiers (on per possible tag) to tag new videos. However, the existing user-provided video annotations are often incorrect and incomplete. Indeed, users uploading videos might often want to rapidly increase their video’s number-of-view by tagging them with popular tags which are irrelevant to the video. They can also forget an obvious tag which might greatly help an indexing process. In this thesis, we limit the use this questionable textual information and do not build a supervised model to perform the tag propagation. We propose to compare directly the visual content of the videos described by different sets of features such as SIFT-based Bag-Of-visual-Words or frequent patterns built from them. We then propose an original tag correction strategy based on the frequency of the tags in the visual neighborhood of the videos. We have also introduced a number of strategies and datasets to evaluate our system. The experiments show that our method can effectively improve the existing tags and that frequent patterns build from Bag-Of-visual-Words are useful to construct accurate visual features
|
Page generated in 0.1434 seconds