Spelling suggestions: "subject:"disision para ordinateur)"" "subject:"decisision para ordinateur)""
271 |
Classification d'images et localisation d'objets par des méthodes de type noyau de FisherCinbis, Ramazan Gokberk 22 July 2014 (has links) (PDF)
Dans cette thèse, nous proposons des modèles et des méthodes dédiés à des taches de compréhension de l'image. En particulier, nous nous penchons sur des approches de type noyau de Fisher pour la classification d'images et la localisation d'objets. Nos études se répartissent en trois chapitres. En premier lieu, nous proposons de nouveaux descripteurs d'images construits sur des modèles non-iid de l'image. Notre point de départ est l'observation que les régions locales d'une image sont souvent supposées indépendentes et identiquement distribuées (iid) dans les modèles de type sacs-de-mots (SdM). Nous introduisons des modèles non-iid en traitant les paramètres du SdM comme des variables latentes, ce qui rend interdépendantes toutes les régions locales. En utilisant le noyau de Fisher, nous encodons une image par le gradient de sa log-vraisemblance par rapport aux hyper-paramètres du modèle. Notre représentation implique naturellement une invariance à certaines transformations, ce qui explique pourquoi de telles approches ont été courronnées de succès. En utilisant l'inférence variationnelle, nous étendons le modèle de base pour inclure un mélange de gaussiennes sur les descripteurs locaux, et un modèle latent de sujets pour capturer la structure co-occurente des mots visuels. Dans un second temps, nous présentons un système de détection d'objet reposant sur la représentation haute-dimension d'images par le vecteur de Fisher. Pour des raisons de complexité en temps et en espace, nous utilisons une méthode récente à base de segmentation pour engendrer des hypothèses de détection indépendantes des classes, ainsi que des techniques de compression. Notre principale contribution est une méthode pour produire des masques de segmentation potentiels, afin de supprimer le bruit du descripteur dû à l'arrière plan. Nous montrons que repondérer les descripteurs locaux de l'image en fonction de ces masques améliore significativement la performance en détection. Troisièmement, nous proposons une approche semi-supervisée pour la localisation d'objets. L'entrainement supervisé usuel de détecteurs d'objets nécessite l'annotation de boites englobantes des instances de ces objets. Ce processus coûteux est évité en apprentissage semi-supervisé, lequel ne nécessite que des étiquettes binaires indiquant la présence ou l'absence des objets. Nous suivons une approche d'apprentissage à instance multiple en alterne itérativement entre entrainer un détecteur et inférer les positions des objets. Notre contribution principale est une procédure multi-état d'apprentissage à instance multiple, qui évite à l'apprentissage de se focaliser prématurément sur des positions d'objets erronnées. Nous montrons que cette procédure est particulièrement importante lorsque des représentations haute-dimensions comme le vecteur de Fisher sont utilisées. Pour finir, nous présentons dans l'appendice de cette thèse notre travail sur l'identification de personnes dans des vidéos télévision non-contrôlées. Nous montrons qu'une distance adaptée au casting peut être apprise sans étiqueter d'exemple d'apprentissage, mais en utilisant des paires de visages au sein d'un même chemin et sur plusieurs chemins se chevauchant temporellement. Nous montrons que la métrique apprise améliore l'identification de chemins de visages, la reconnaissance et les performances en regroupement.
|
272 |
Contributions à la recherche et à l'analyse de modèles 3DVandeborre, Jean-Philippe 15 June 2012 (has links) (PDF)
L'utilisation de modèles tridimensionnels dans les applications multimédia, prend de l'ampleur de jour en jour. Le développement des outils de modélisation, des scanners 3D, des cartes graphiques accélérées, du Web3D, etc. ouvre l'accès à des données tridimensionnelles de grande qualité. Les besoins, sans cesse croissants, concernant ce type de données, changent rapidement. S'il devient de plus en plus facile de créer de nouveaux modèles 3D, qu'en est-il du traitement et de l'analyse de ces modèles après leur création ? De nos jours, le concepteur d'objets 3D ne pose plus la question : " Comment créer un nouvel objet 3D ? ", mais plus vrai- semblablement " Comment retrouver un modèle 3D similaire à ceux en ma possession pour le réutiliser ? " et " Comment retrouver la structure d'un modèle 3D maillé sans connaissance a priori sur celui-ci ? " Cette habilitation a pour but d'apporter des éléments de réponse à ces deux questions. En réponse à la première question, nous avons développé un nouveau système bayésien pour retrouver des modèles 3D à partir d'une requête constituée d'une ou plusieurs vues 2D, ou d'un modèle 3D entier. Ce système a été testé dans un contexte applicatif industriel ainsi qu'avec un benchmark international. Chaque expérience a mis en évidence les excellents résultats de notre approche. La seconde question a été abordée sous l'angle de l'analyse topologique des maillages 3D grâce aux graphes de Reeb. Ce travail théorique a été appliqué à différents domaines comme la déformation automatique, l'indexation et la segmentation de maillages 3D. L'approche a toujours montré des résultats remarquables dans ces domaines. Finalement, la segmentation de maillages 3D, qui est une étape de pré-traitement fréquente avant d'autres analyses du maillage, a attiré notre attention. Nous avons proposé une métrique fiable et robuste pour la comparaison de segmentations et l'évaluation des performances des méthodes de segmentation de maillages 3D, ainsi qu'une approche de la segmentation par apprentissage qui surpasse les méthodes existantes. Pour terminer, de nouvelles pistes de recherche sur les maillages 3D sont ouvertes.
|
273 |
SEEPROC : un modèle de processeur à chemin de données reconfigurable pour le traitement d'images embarquéRoudel, Nicolas 18 April 2012 (has links) (PDF)
Les travaux présentés dans ce manuscrit proposent une architecture de processeur à chemin de données reconfigurable (PCDR) dédiée aux traitements d'images bas niveau. Afin de répondre aux exigences de ce domaine de traitements, le processeur, baptisé SeeProc et basé sur une architecture RISC, intègre dans son chemin de données des unités de calcul spécifiquement dédiées au traitement de données pixeliques sous forme matricielle. Ces unités peuvent être configurées en nombre et en fonctionnalité en fonction de l'application visée. La topologie d'interconnexion du chemin de données est assurée dynamiquement via un dispositif de type crossbar. De plus, pour rendre la programmation de SeeProc accessible à des utilisateurs n'ayant pas de notions d'électronique numérique, un langage assembleur dédié et une méthodologie d'optimisation ont été développés.
|
274 |
Une approche décentralisée et adaptative de la gestion d'informations en vision ; application à l'interprétation d'images de cellules en mouvementBoucher, Alain 18 January 1999 (has links) (PDF)
Cette thèse propose une nouvelle approche de la vision par ordinateur, insistant sur le rôle joué par les différentes informations et connaissances présentes dans un système intégré de vision. Ces connaissances peuvent être vues comme un but à atteindre dans la chaine de traitement ou comme un instrument pour guider ces différents traitement. Ce double rôle est mis en évidence en insistant sur la gestion des informations disponibles à tout moment pour effectuer la tâche de reconnaissance. Une approche distribuée est proposée, sous la forme d'un système multi-agents, où chaque agent est spécialisé pour la reconnaissance d'un concept de l'image. Le modèle générique d'agent est composé de quatre comportements de base : perception (croissance de région, suivi de contour), interaction (fusion de primitives), différenciation (interprétation de primitive) et reproduction (stratégie de focalisation des agents). Ces comportements prennent des décisions à l'aide d'évaluations multi-critères, faisant référence à plusieurs critères spécialisés. Des capacités d'adaptation et de coopération sont nécessaires aux agents pour mener à bien leurs tâches, et ce tant au niveau local qu'au niveau des groupes d'agents (travaillant sur un même groupement perceptuel). Ce système est appliqué pour la reconnaissance des cellules en mouvement. Chaque cellule est divisée en plusieurs composantes (noyau, pseudopode, cytoplasme, ...) qui servent de concepts de base pour la spécialisation des agents.
|
275 |
Modélisation 3D à partir d'images : contributions en reconstruction photométrique à l'aide de maillages déformablesDelaunoy, Amael 02 December 2011 (has links) (PDF)
Comprendre, analyser et modéliser l'environment 3D à partir d'images provenant de caméras et d'appareils photos est l'un des défis majeurs actuel de recherche en vision par ordinateur. Cette thèse s'interesse à plusieurs aspects géométriques et photometriques liés à la reconstruction de surface à partir de plusieurs caméras calibrées. La reconstruction 3D est vue comme un problème de rendu inverse, et vise à minimiser une fonctionnelle d'énergie afin d'optimiser un maillage triangulaire représentant la surface à reconstruire. L'énergie est définie via un modèle génératif faisant naturellement apparaître des attributs tels que la visibilité ou la photométrie. Ainsi, l'approche présentée peut indifférement s'adapter à divers cas d'application tels que la stéréovision multi-vues, la stéréo photométrique multi-vues ou encore le "shape from shading" multi-vues. Plusieurs approches sont proposées afin de résoudre les problèmes de correspondances de l'apparence pour des scènes non Lambertiennes, dont l'apparence varie en fonction du point de vue. La segmentation, la stéréo photométrique ou encore la réciprocité d'Helmholtz sont des éléments étudiés afin de contraindre la reconstruction. L'exploitation de ces contraintes dans le cadre de reconstruction multi-vues permet de reconstruire des modèles complets 3D avec une meilleure qualité.
|
276 |
Représentations d'images pour la recherche et la classification d'imagesKrapac, Josip 11 July 2011 (has links) (PDF)
Cette thèse se concerne avec de tâches de la recherche et la classification d'images. Ces tâches sont résolues par l'apprentissage des modèles statistiques donnée une représentation du contenu visuel de l'image et une mesure de ressemblance entre les images. Ici nous visons à améliorer les performances du tâches en étendant le sac-de-mots représentation de l'image, tout en utilisant modèles statistiques et des mesures de similarité entre les images déjà existants. Nous adaptons la représentation d'image en fonction d'une tâche donnée. Nous avons d'abord explorer la tâche de reclassement d'images, en contexte de la recherche d'images, dont le but est de trier les images récupérées par une requête textuelle afin que les images pertinentes pour ce requête sont classés au-dessus les autres images. Inspiré par le méthodes de reclassement de documents textuelles nous avons développé une représentation qui dépend du contenu visuel de l'image, mais également sur la requête textuelle utilisée pour récupérer l'image. Ensuite, nous adaptons la représentation pour la tâche de classification d'images, qui vise à attribuer une ou plusieurs étiquettes d'une image liée à la contenu visuel de l'image. Nous avons adaptée de la représentation en apprenant un vocabulaire visuel, spécifiquement pour la tâche de classification. Nous avons également introduit une nouvelle représentation qui encode les informations sur la disposition spatiale des parties d'image, de manière beaucoup plus compacte que les représentations actuellement utilisés pour codage de l'agencement spatial. Toutes les représentations développées sont compacts, rapides à construire et obtient bons résultats en utilisent des modèles linéaires. Nous montrons des améliorations sur plusieurs bases des images complexes en comparaison avec des méthodes de l'état de l'art. Pour les tâches de recherche et classification d'images nous avons montré que l'adaptation de la représentation à la tâche améliore les performances.
|
277 |
Recherches en reconstruction 3D photométriquePrados, Emmanuel 04 April 2012 (has links) (PDF)
La reconstruction de surfaces tridimensionnelles à partir de plusieurs caméras calibrées peut s'entrevoir sous plusieurs aspects, en particulier, sous des aspects géométriques ou photométriques. Les images contiennent un grand nombre d'informations dont la correspondance, l'ombrage et les contours. En reconstruction 3D multi-vues, toutes ces informations n'ont cependant été que très partiellement fusionnées. Pourtant en exploitant simultanément le maximum d'information disponible, nous devrions intuitivement obtenir de meilleurs résultats et des algorithmes plus robustes. Par ailleurs, nous avons aussi régulièrement des connaissances a priori sur la scène ; connaissances qu'il est possible d'exploiter, par exemple en les insérant sous la forme de contraintes. Arriver à trouver un cadre rigoureux permettant de mêler et exploiter naturellement et simultanément toutes ces informations pour les problèmes de reconstruction 3D multi-vues serait donc particulièrement pertinent. Pour avancer dans cet objectif, il est nécessaire de se replonger et de travailler la modélisation. Dans ce manuscrit, je présente les travaux que j'ai menés dans ce domaine autour de toutes ces questions. Ce manuscrit est aussi l'occasion pour moi de présenter les objectifs et activités de l'équipe de recherche STEEP que je anime et coordonne depuis sa création en 2010.
|
278 |
Méthodes de reconstruction tridimensionnelle intégrant des points cycliques : application au suivi d'une caméraCalvet, Lilian 23 January 2014 (has links) (PDF)
Cette thèse traite de la reconstruction tridimensionnelle d'une scène rigide à partir d'une collection de photographies numériques, dites vues. Le problème traité est connu sous le nom du "calcul de la structure et du mouvement" (structure-and/from-motion) qui consiste à "expliquer" des trajectoires de points dits d'intérêt au sein de la collection de vues par un certain mouvement de l'appareil (dont sa trajectoire) et des caractéristiques géométriques tridimensionnelles de la scène. Dans ce travail, nous proposons les fondements théoriques pour étendre certaines méthodes de calcul de la structure et du mouvement afin d'intégrer comme données d'entrée, des points d'intérêt réels et des points d'intérêt complexes, et plus précisément des images de points cycliques. Pour tout plan projectif, les points cycliques forment une paire de points complexes conjugués qui, par leur invariance par les similitudes planes, munissent le plan projectif d'une structure euclidienne. Nous introduisons la notion de marqueurs cycliques qui sont des marqueurs plans permettant de calculer sans ambiguïté les images des points cycliques de leur plan de support dans toute vue. Une propriété de ces marqueurs, en plus d'être très "riches" en information euclidienne, est que leurs images peuvent être appariées même si les marqueurs sont disposés arbitrairement sur des plans parallèles, grâce à l'invariance des points cycliques. Nous montrons comment utiliser cette propriété dans le calcul projectif de la structure et du mouvement via une technique matricielle de réduction de rang, dite de factorisation, de la matrice des données correspondant aux images de points réels, complexes et/ou cycliques. Un sous-problème critique abordé dans le calcul de la structure et du mouvement est celui de l'auto-calibrage de l'appareil, problème consistant à transformer un calcul projectif en un calcul euclidien. Nous expliquons comment utiliser l'information euclidienne fournie par les images des points cycliques dans l'algorithme d'auto-calibrage opérant dans l'espace projectif dual et fondé sur des équations linéaires. L'ensemble de ces contributions est finalement utilisé pour une application de suivi automatique de caméra utilisant des marqueurs formés par des couronnes concentriques (appelés CCTags), où il s'agit de calculer le mouvement tridimensionnel de la caméra dans la scène à partir d'une séquence vidéo. Ce type d'application est généralement utilisé dans l'industrie du cinéma ou de la télévision afin de produire des effets spéciaux. Le suivi de caméra proposé dans ce travail a été conçu pour proposer le meilleur compromis possible entre flexibilité d'utilisation et précision des résultats obtenus.
|
279 |
Techniques visuelles pour la détection et le suivi d'objets 2DSekkal, Rafiq 28 February 2014 (has links) (PDF)
De nos jours, le traitement et l'analyse d'images trouvent leur application dans de nombreux domaines. Dans le cas de la navigation d'un robot mobile (fauteuil roulant) en milieu intérieur, l'extraction de repères visuels et leur suivi constituent une étape importante pour la réalisation de tâches robotiques (localisation, planification, etc.). En particulier, afin de réaliser une tâche de franchissement de portes, il est indispensable de détecter et suivre automatiquement toutes les portes qui existent dans l'environnement. La détection des portes n'est pas une tâche facile : la variation de l'état des portes (ouvertes ou fermées), leur apparence (de même couleur ou de couleur différentes des murs) et leur position par rapport à la caméra influe sur la robustesse du système. D'autre part, des tâches comme la détection des zones navigables ou l'évitement d'obstacles peuvent faire appel à des représentations enrichies par une sémantique adaptée afin d'interpréter le contenu de la scène. Pour cela, les techniques de segmentation permettent d'extraire des régions pseudo-sémantiques de l'image en fonction de plusieurs critères (couleur, gradient, texture...). En ajoutant la dimension temporelle, les régions sont alors suivies à travers des algorithmes de segmentation spatio-temporelle. Dans cette thèse, des contributions répondant aux besoins cités sont présentées. Tout d'abord, une technique de détection et de suivi de portes dans un environnement de type couloir est proposée : basée sur des descripteurs géométriques dédiés, la solution offre de bons résultats. Ensuite, une technique originale de segmentation multirésolution et hiérarchique permet d'extraire une représentation en régions pseudo-sémantique. Enfin, cette technique est étendue pour les séquences vidéo afin de permettre le suivi des régions à travers le suivi de leurs contours. La qualité des résultats est démontrée et s'applique notamment au cas de vidéos de couloir.
|
280 |
Analyse sémantique des images en temps-réel avec des réseaux convolutifsFarabet, Clément 19 December 2013 (has links) (PDF)
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
|
Page generated in 0.1172 seconds