Global ETD Search

161	Information spotting in huge repositories of scanned document images / Localisation d'information dans des très grands corpus de documents numérisés Dang, Quoc Bao 06 April 2018 (has links) Ce travail vise à développer un cadre générique qui est capable de produire des applications de localisation d'informations à partir d’une caméra (webcam, smartphone) dans des très grands dépôts d'images de documents numérisés et hétérogènes via des descripteurs locaux. Ainsi, dans cette thèse, nous proposons d'abord un ensemble de descripteurs qui puissent être appliqués sur des contenus aux caractéristiques génériques (composés de textes et d’images) dédié aux systèmes de recherche et de localisation d'images de documents. Nos descripteurs proposés comprennent SRIF, PSRIF, DELTRIF et SSKSRIF qui sont construits à partir de l’organisation spatiale des points d’intérêts les plus proches autour d'un point-clé pivot. Tous ces points sont extraits à partir des centres de gravité des composantes connexes de l‘image. A partir de ces points d’intérêts, des caractéristiques géométriques invariantes aux dégradations sont considérées pour construire nos descripteurs. SRIF et PSRIF sont calculés à partir d'un ensemble local des m points d’intérêts les plus proches autour d'un point d’intérêt pivot. Quant aux descripteurs DELTRIF et SSKSRIF, cette organisation spatiale est calculée via une triangulation de Delaunay formée à partir d'un ensemble de points d’intérêts extraits dans les images. Cette seconde version des descripteurs permet d’obtenir une description de forme locale sans paramètres. En outre, nous avons également étendu notre travail afin de le rendre compatible avec les descripteurs classiques de la littérature qui reposent sur l’utilisation de points d’intérêts dédiés de sorte qu'ils puissent traiter la recherche et la localisation d'images de documents à contenu hétérogène. La seconde contribution de cette thèse porte sur un système d'indexation de très grands volumes de données à partir d’un descripteur volumineux. Ces deux contraintes viennent peser lourd sur la mémoire du système d’indexation. En outre, la très grande dimensionnalité des descripteurs peut amener à une réduction de la précision de l'indexation, réduction liée au problème de dimensionnalité. Nous proposons donc trois techniques d'indexation robustes, qui peuvent toutes être employées sans avoir besoin de stocker les descripteurs locaux dans la mémoire du système. Cela permet, in fine, d’économiser la mémoire et d’accélérer le temps de recherche de l’information, tout en s’abstrayant d’une validation de type distance. Pour cela, nous avons proposé trois méthodes s’appuyant sur des arbres de décisions : « randomized clustering tree indexing” qui hérite des propriétés des kd-tree, « kmean-tree » et les « random forest » afin de sélectionner de manière aléatoire les K dimensions qui permettent de combiner la plus grande variance expliquée pour chaque nœud de l’arbre. Nous avons également proposé une fonction de hachage étendue pour l'indexation de contenus hétérogènes provenant de plusieurs couches de l'image. Comme troisième contribution de cette thèse, nous avons proposé une méthode simple et robuste pour calculer l'orientation des régions obtenues par le détecteur MSER, afin que celui-ci puisse être combiné avec des descripteurs dédiés. Comme la plupart de ces descripteurs visent à capturer des informations de voisinage autour d’une région donnée, nous avons proposé un moyen d'étendre les régions MSER en augmentant le rayon de chaque région. Cette stratégie peut également être appliquée à d'autres régions détectées afin de rendre les descripteurs plus distinctifs. Enfin, afin d'évaluer les performances de nos contributions, et en nous fondant sur l'absence d'ensemble de données publiquement disponibles pour la localisation d’information hétérogène dans des images capturées par une caméra, nous avons construit trois jeux de données qui sont disponibles pour la communauté scientifique. / This work aims at developing a generic framework which is able to produce camera-based applications of information spotting in huge repositories of heterogeneous content document images via local descriptors. The targeted systems may take as input a portion of an image acquired as a query and the system is capable of returning focused portion of database image that match the query best. We firstly propose a set of generic feature descriptors for camera-based document images retrieval and spotting systems. Our proposed descriptors comprise SRIF, PSRIF, DELTRIF and SSKSRIF that are built from spatial space information of nearest keypoints around a keypoints which are extracted from centroids of connected components. From these keypoints, the invariant geometrical features are considered to be taken into account for the descriptor. SRIF and PSRIF are computed from a local set of m nearest keypoints around a keypoint. While DELTRIF and SSKSRIF can fix the way to combine local shape description without using parameter via Delaunay triangulation formed from a set of keypoints extracted from a document image. Furthermore, we propose a framework to compute the descriptors based on spatial space of dedicated keypoints e.g SURF or SIFT or ORB so that they can deal with heterogeneous-content camera-based document image retrieval and spotting. In practice, a large-scale indexing system with an enormous of descriptors put the burdens for memory when they are stored. In addition, high dimension of descriptors can make the accuracy of indexing reduce. We propose three robust indexing frameworks that can be employed without storing local descriptors in the memory for saving memory and speeding up retrieval time by discarding distance validating. The randomized clustering tree indexing inherits kd-tree, kmean-tree and random forest from the way to select K dimensions randomly combined with the highest variance dimension from each node of the tree. We also proposed the weighted Euclidean distance between two data points that is computed and oriented the highest variance dimension. The secondly proposed hashing relies on an indexing system that employs one simple hash table for indexing and retrieving without storing database descriptors. Besides, we propose an extended hashing based method for indexing multi-kinds of features coming from multi-layer of the image. Along with proposed descriptors as well indexing frameworks, we proposed a simple robust way to compute shape orientation of MSER regions so that they can combine with dedicated descriptors (e.g SIFT, SURF, ORB and etc.) rotation invariantly. In the case that descriptors are able to capture neighborhood information around MSER regions, we propose a way to extend MSER regions by increasing the radius of each region. This strategy can be also applied for other detected regions in order to make descriptors be more distinctive. Moreover, we employed the extended hashing based method for indexing multi-kinds of features from multi-layer of images. This system are not only applied for uniform feature type but also multiple feature types from multi-layers separated. Finally, in order to assess the performances of our contributions, and based on the assessment that no public dataset exists for camera-based document image retrieval and spotting systems, we built a new dataset which has been made freely and publicly available for the scientific community. This dataset contains portions of document images acquired via a camera as a query. It is composed of three kinds of information: textual content, graphical content and heterogeneous content. Reconnaissance de formes Spotting d'informations Indexation automatique Séparation texte/graphique Extraction de caractéristiques Pattern recognition Information spotting Camera-based document image retrieval Automatic indexing Text/graphic separation Feature extraction
162	Non-Intrusive Information Sources for Activity Analysis in Ambient Assisted Living Scenarios / Mesures non-intrusives et analyse de l’activité humaine dans le domaine résidentielle Klein, Philipp 19 November 2015 (has links) Comme les gens vieillissent, ils sont souvent confrontés à un certain degré de diminution des capacités cognitives ou de la force physique. Isolement de la vie sociale, mauvaise qualité de la vie, et risque accru de blessures en sont les principales conséquences. Ambient Assisted Living (AAL) est une vision de la façon dont les gens vivent leur vie dans leur propre maison, à mesure qu'ils vieillissent : handicaps ou limitations sont compensées par la technologie, là où le personnel de prestation de soins est rare ou des proches ne sont pas en mesure d'aider. Les personnes concernées sont assistés par la technologie. Le terme "ambiante" en AAL exprime, ce que cette technologie doit être, au- delà de l’assistance. Elle doit être intégrée dans l’environnement de manière à ce qu'elle ne soit pas reconnue en tant que tel. L'interaction avec les résidents doit être intuitive et naturelle. L'équipement technique doit être discret ct bien intégré. Les domaines d'application ciblés dans cette thèse sont le suivi de l’activité et la recherche de profils d'activités dans des appartements ou des petites maisons. L'acquisition d’informations concernant l’activité des résidents est vitale pour le succès de toute la technologie d’assistance. Dans de nombreux domaines de la vie quotidienne, ceci est déjà de la routine. L’état de l’art en matière de technologie de détection comprend des caméras, des barrières lumineuses, des capteurs RFID, la radiolocalisation de signal en utilisant des transpondeurs et des planchers sensibles à la pression. En raison de leurs principes de fonctionnement, ils ont malheureusement un impact important sur les environnements domestiques et de vie. Par conséquent, cette thèse est consacrée à la recherche de technologies d’acquisition d’informations de l’activité non-intrusive ayant un impact minimal sur la vie quotidienne. Deux technologies de base, la détection de présence passive sans dispositif et le suivi de charges de manière non-intrusive, sont prises en compte dans cette thèse. / As people grow older, they are often faced with some degree of decreasing cognitive abilities or physical strength. Isolation from social life, poor quality of life, and increased risk or injuries are the consequence. Ambient Assisted Living (AAL) is a vision for the way people live their life in their own home, as they grow older: disabilities or limitations are compensated for by technology, where care-giving personnel is scarce or relatives are unable to help. Affected people are assisted by technology. The term "Ambient" in AAL expresses, what this technology needs to be, beyond assistive. It needs to integrate into the living environment in such a way that it is not recognized as such any more. Interaction with residents needs to be intuitive and natural. Technical equipment should be unobtrusive and well integrated. The areas of application targeted in this thesis are activity monitoring and activity pattern discovery in apartments or small houses. The acquisition of information regarding the residents' activity is vital for the success of any assistive technology. In many areas of daily life, this is routine already. State-of-the-art sensing technology includes cameras, light barriers, RFID sensors, radio signal localization using transponders, and pressure sensitive Floors. Due to their operating principles, they have a big impact on home and living environments. Therefore, this thesis is dedicated to research for non-intrusive activity information acquisition technology, that has minimal impact on daily life. Two base technologies are taken into account in this thesis. Surveillance de la charge non intrusive Vie assistée par ambiance La reconnaissance de formes Extraction de caractéristiques Localisation intérieure Détection de présence Analyse du profil d'activité Non-intrusive Load Monitoring Ambient Assisted Living Pattern Recognition Feature Extraction Indoor Localization Presence Detection Activity Profile Analysis 629.8 621.38
163	Modèles statistiques d'apparence non gaussiens. Application à la création d'un atlas probabiliste de perfusion cérébrale en imagerie médicale Vik, Torbjorn 21 September 2004 (has links) (PDF) La tomoscintigraphie par émission mono-photonique (TEMP) est une méthode d'imagerie fonctionnelle 3D qui apporte des informations sur le débit sanguin cérébral (également appelé perfusion cérébrale). Cette méthode d'imagerie, par la détection visuelle d'anomalies de perfusion caractérisées par des zones hypo- ou hyper-intenses, est utilisée pour le diagnostic chez des patients atteints d'accidents vasculaires cérébraux, de démence, d'épilepsie ou d'autres pathologies cérébrales. La détection d'anomalies focalisées observées chez les patients ayant une attaque cérébrale est relativement aisée, alors que les anomalies diffuses, observées en début de démence, lors d'un accident entraînant une oxygénation insuffisante du cerveau ou suite à une exposition à une substance toxique, sont plus difficilement observables. Dans ces cas, une analyse quantitative des images, utilisant un atlas et des outils statistiques s'appuyant sur une base d'images de cas normaux, peut apporter une aide précieuse au diagnostic. Le travail présenté dans cette thèse est centré sur la problématique de la construction et de l'évaluation d'un atlas probabiliste de perfusion cérébrale à partir des images TEMP de sujets dits normaux. Les objectifs d'un tel atlas sont doubles : (1) création d'une cartographie statistique de la perfusion cérébrale d'une population normale, décrite de manière compacte, et (2) identification des différences de perfusion cérébrale qui sont statistiquement significatives entre une image TEMP d'un individu et l'atlas probabiliste. L'utilisation d'un atlas devrait avoir un impact important sur les applications cliniques où l'analyse qualitative d'images TEMP est pratique courante. Afin d'atteindre ces objectifs, trois points ont été abordés : le développement de modèles statistiques qui décrivent de façon fidèle la perfusion cérébrale, les outils de traitement d'images utilisés pour rendre les cerveaux "comparables", et enfin, l'évaluation expérimentale de l'atlas. imagerie médicale ACP probabiliste reconnaissance des formes estimation robuste densités non paramétrique modèles statistiques traitement d'images recalage validation
164	Quelques modèles et méthodes pour l'étude de la cognition Courrieu, Pierre 19 October 2011 (has links) (PDF) Dossier de travaux incluant un échantillon de 12 publications sur les thèmes suivants: - Perception des lettres - Modèles de codage de données - Modèles de codage d'images - Réseaux de neurones et apprentissage supervisé - Méthodes de calcul des paramètres de modèles - Méthodes de validation de modèles et bases de données comportementales perception visuelle reconnaissance de formes modélisation numérique codage de données réseaux de neurones apprentissage supervisé approximation des fonctions validation de modèles bases de données comportementales
165	Méthodes d'identification, d'aide au diagnostic et de planification utilisant de l'imagerie multi-modalité pour les thérapies focales du cancer de la prostate. Makni, Nasr 13 December 2010 (has links) (PDF) Le cancer de la prostate est le premier cancer chez l'homme de plus de 50ans dans les pays industrialisés. Les pratiques diagnostiques et les options thérapeutiques n'ont cessé d'évoluer et les récents progrès de l'imagerie de la prostate rendent possibles la détection de tumeurs de petite taille et le guidage de traitements ciblés dont le but est de minimiser la morbidité de la thérapie. Nous proposons, dans cette thèse, un ensemble de méthodes et de traitements automatisés de données d'imagerie médicale, dans le but d'assister et de guider le praticien dans la prise de décision diagnostique et le geste thérapeutique, pour les traitements focalisés par laser du cancer de la prostate. Dans un premier temps, des méthodes de segmentation et de détection assistées par ordinateur ont développées pour répondre aux problématiques liées à la phase de diagnostic guidé par l'Imagerie à Résonance Magnétique (IRM). D'abord, une nouvelle approche combinant le formalisme des champs de Markov et un modèle statistique de forme est proposée pour l'identification de la prostate en IRM, et l'extraction de ses contours en trois dimensions. Ensuite, nous proposons une méthode pour la segmentation du volume IRM de la glande en zones périphérique et centrale. Cette méthode exploite les techniques d'IRM multi-paramétrique, et s'appuie sur la théorie des fonctions de croyance, ainsi que la modélisation d'un a priori morphologique comme source d'information supplémentaire. Enfin,la détection des tumeurs de la zone périphérique de la glande est abordée en expérimentant un ensemble d'attributs de texture extraits de la géométrie fractale, dans des schémas de classification supervisée et non supervisée. Les performances et particularités de chacune de ces approches sont étudiées et comparées. La deuxième partie de cette thèse s'intéresse au guidage du geste thérapeutique lors des thérapies d'ablation focalisée par laser des tumeurs prostatiques. Une méthode de recalage non rigide est proposée pour fusionner les données de planification et d'imagerie pré-opératoire à l'échographie de guidage per-opératoire. L'originalité de cette méthode réside dans l'utilisation d'un algorithme robuste aux conditions d'initialisation qui permet de minimiser l'intervention de l'opérateur. Nous expérimentons et évaluons nos algorithmes en utilisant des données simulées et des fantômes physiques afin de comparer à une vérité terrain connue. Des examens de patients, analysés par des experts, sont aussi utilisés pour des évaluations dans des conditions réelles, tout en tenant compte de la variabilité inter-observateurs de ces interprétations. Les résultats obtenus montrent que les méthodes développées sont suffisamment précises, rapides et robustes pour pouvoir être utilisées dans un contexte clinique. Ces outils prouvent leur aptitude à offrir un gain en temps d'exécution et en reproductibilité des décisions diagnostiques et thérapeutiques basées sur les modalités d'imagerie de la prostate. Des validations multicentriques et des transferts à l'industrie devraient à l'avenir concrétiser les retombées cliniques de ces travaux qui pourront alors contribuer à l'amélioration des gestes diagnostiques et thérapeutiques du cancer de la prostate. aide au diagnostic IRM fusion de données fonctions de croyance segmentation d'images reconnaissance de formes champs de Markov active shape models recalage non rigide
166	Image Representations for Pattern Recognition Hoang, Thai V. 14 December 2011 (has links) (PDF) La pertinence d'une application de traitement de signal relève notamment du choix d'une "représentation adéquate''. Par exemple, pour la reconnaissance de formes, la représentation doit mettre en évidence les propriétés salientes d'un signal; en débruitage, permettre de séparer le signal du bruit; ou encore en compression, de synthétiser fidèlement le signal d'entrée à l'aide d'un nombre réduit de coefficients. Bien que les finalités de ces quelques traitements soient distinctes, il apparait clairement que le choix de la représentation impacte sur les performances obtenues. La représentation d'un signal implique la conception d'un ensemble génératif de signaux élémentaires, aussi appelé dictionnaire ou atomes, utilisé pour décomposer ce signal. Pendant de nombreuses années, la conception de dictionnaire a suscité un vif intérêt des chercheurs dans des domaines applicatifs variés: la transformée de Fourier a été employée pour résoudre l'équation de la chaleur; celle de Radon pour les problèmes de reconstruction; la transformée en ondelette a été introduite pour des signaux monodimensionnels présentant un nombre fini de discontinuités; la transformée en contourlet a été conçue pour représenter efficacement les signaux bidimensionnels composées de régions d'intensité homogène, à frontières lisses, etc. Jusqu'à présent, les dictionnaires existants peuvent être regroupés en deux familles d'approches: celles s'appuyant sur des modèles mathématiques de données et celles concernant l'ensemble de réalisations des données. Les dictionnaires de la première famille sont caractérisés par une formulation analytique. Les coefficients obtenus dans de telles représentations d'un signal correspondent à une transformée du signal, qui peuvent parfois être implémentée rapidement. Les dictionnaires de la seconde famille, qui sont fréquemment des dictionnaires surcomplets, offrent une grande flexibilité et permettent d'être adaptés aux traitements de données spécifiques. Ils sont le fruit de travaux plus récents pour lesquels les dictionnaires sont générés à partir des données en vue de la représentation de ces dernières. L'existence d'une multitude de dictionnaires conduit naturellement au problème de la sélection du meilleur d'entre eux pour la représentation de signaux dans un cadre applicatif donné. Ce choix doit être effectué en vertu des spécificités bénéfiques validées par les applications envisagées. En d'autres termes, c'est l'usage qui conduit à privilégier un dictionnaire. Dans ce manuscrit, trois types de dictionnaire, correspondant à autant de types de transformées/représentations, sont étudiés en vue de leur utilisation en analyse d'images et en reconnaissance de formes. Ces dictionnaires sont la transformée de Radon, les moments basés sur le disque unitaire et les représentations parcimonieuses. Les deux premiers dictionnaires sont employés pour la reconnaissance de formes invariantes tandis que la représentation parcimonieuse l'est pour des problèmes de débruitage, de séparation des sources d'information et de classification. Cette thèse présentent des contributions théoriques validées par de nombreux résultats expérimentaux. Concernant la transformée de Radon, des pistes sont proposées afin d'obtenir des descripteurs de formes invariants, et conduisent à définir deux descripteurs invariants aux rotations, l'échelle et la translation. Concernant les moments basés sur le disque unitaire, nous formalisons les stratégies conduisant à l'obtention de moments orthogonaux. C'est ainsi que quatre moments harmoniques polaires génériques et des stratégies pour leurs calculs rapides sont introduits. Enfin, concernant les représentations parcimonieuses, nous proposons et validons un formalisme de représentation permettant de combiner les trois critères suivant : la parcimonie, l'erreur de reconstruction ainsi que le pouvoir discriminant en classification. représentation de l'image transformée de Radon moments basés sur le disque unitaire représentation parcimonieuses reconnaissance de formes invariantes débruitage d'images séparation d'images classification
167	Un point de vue sur des approches factorielles et probabilistes de la covariance. Application à l'analyse locale du mouvement Hidot, Sullivan 07 December 2007 (has links) (PDF) Cette thèse s'intéresse à des approches factorielles et probabilistes de la covariance qui tient compte d'une connaissance exogène sur les observations. Nous adoptons un modèle qui décompose le signal en une fonction déterministe du temps caractérisant la tendance, et en un terme résiduel. Les méthodes factorielles sont consacrées à l'étude du terme tendanciel. Nous présentons le formalisme général de la covariance relationnelle ainsi que de nouvelles propriétés qui éclairent les interprétations et faisons le lien avec les notions déjà existantes. La covariance relationnelle s'intègre dans l'analyse en composantes principales (ACP), l'analyse factorielle d'opérateurs et l'analyse discriminante d'opérateurs.<br />Nous montrons que l'ACP relationnelle est un cas particulier de l'ACP à noyaux et de l'ACP fonctionnelle, dont nous dressons les schémas de dualité correspondants. L'étude du terme résiduel est menée à l'aide d'approches probabilistes fondées sur la covariance. Dans un premier temps, ce terme est assimilé à un vecteur gaussien et nous introduisons une procédure de classification de matrices de covariance par la distribution de Wishart induite par l'hypothèse de gaussianité. En particulier, l'algorithme EM sur matrices de covariance est proposé. Dans un second temps, on procède à l'analyse fractale du terme résiduel, identifié par une trajectoire d'un processus autosimilaire. L'indice d'autosimilarité est estimé quelque soit l'échantillonnage et nous déterminons dans quelle<br />mesure cette contrainte temporelle influe sur l'estimation. Nous appliquons les concepts présentés à l'analyse du mouvement : corpus<br />de mouvements de danse contemporaine (méthodes factorielles et classification par Wishart), et données de biologie marine (segmentation par analyse fractale). Covariance relationnelle Analyse factorielle d'opérateurs Distribution de Wishart Reconnaissance des formes Classification Analyse du mouvement
168	La perception des visages en vidéos: Contributions à un modèle saillance visuelle et son application sur les GPU Rahman, Anis 13 April 2013 (has links) (PDF) Les études menées dans cette thèse portent sur le rôle des visages dans l'attention visuelle. Nous avons cherché à mieux comprendre l'influence des visages dans les vidéos sur les mouvements oculaires, afin de proposer un modèle de saillance visuelle pour la prédiction de la direction du regard. Pour cela, nous avons analysé l'effet des visages sur les fixations oculaires d'observateurs regardant librement (sans consigne ni tâche particulière) des vidéos. Nous avons étudié l'impact du nombre de visages, de leur emplacement et de leur taille. Il est apparu clairement que les visages dans une scène dynamique (à l'instar de ce qui se passe sur les images fixes) modifie fortement les mouvements oculaires. En nous appuyant sur ces résultats, nous avons proposé un modèle de saillance visuelle, qui combine des caractéristiques classiques de bas-niveau (orientations et fréquences spatiales, amplitude du mouvement des objets) avec cette caractéristique importante de plus haut-niveau que constitue les visages. Enfin, afin de permettre des traitements plus proches du temps réel, nous avons développé une implémentation parallèle de ce modèle de saillance visuelle sur une plateforme multi-GPU. Le gain en vitesse est d'environ 130x par rapport à une implémentation sur un processeur multithread. perception des visages saillance visuelle GPGPU
169	Détection, localisation et suivi des obstacles et objets mobiles à partir d'une plate-forme de stéréovision Lefaudeux, Benjamin 30 September 2013 (has links) (PDF) Les véhicules autonomes se mouvant dans un environnement quelconque peuvent être confrontés à la présence de nombreux objets mobiles, dont la localisation et la trajectoire sont indépendantes. Cette problématique est particulièrement présente dans la thématique du transport en milieu urbain, mais sa portée est plus générale. On présente dans cette thèse une solution de perception d'un environnement dynamique, à partir d'une paire de caméra, qui vise à fournir en temps réel une cartographie en trois dimensions de l'environnement courant, ainsi que la vitesse indépendante des points suivis. Cette solution propose par ailleurs des algorithmes de détection, segmentation et suivi des objets mobiles, et fourni donc une liste des objets mobiles de l'environnement, dont les positions, dimensions et vitesses sont connues. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique robotique perception traitement d'images SLAM SLAMMOT segmentation suivi multi-cibles cartographie stéréo-vision
170	Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets Trujillo Morales, Noël 13 December 2007 (has links) (PDF) La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence ; à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à " instancier " ce modèle dans la scène courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel " : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up$top-down, reste implicite dans la stratégie globale de reconnaissance. La " focalisation progressive " et la représentation hybride du modèle, permettent de tirer profit des deux types de représentation classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaissance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution de la zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons. Vision par ordinateur Vision artificielle (robotique) Reconnaissance des formes (informatique) Perception visuelle Perception des formes Perception des visages Imagerie tridimensionnelle Analyse de scènes (informatique)

Search results