La vision permet aux animaux de recueillir une information riche et détaillée sur leur environnent proche ou lointain. Les machines ont aussi accès à cette information riche via leurs caméras. Mais, elles n'ont pas encore le logiciel adéquat leur permettant de la traiter pour transformer les valeurs brutes des pixels de l'image en information plus utile telle que la nature, la position, et la fonction des objets environnants. Voilà une des raisons pour laquelle il leur est difficile de se mouvoir dans un environnement inconnu, et d'interagir avec les humains ou du matériel dans des scénarios non-planifiés. Cependant, la conception de ce logiciel comporte de multiples défis. Parmi ceux-ci, il est difficile de comparer deux images entre elles, par exemple, afin que la machine puisse reconnaître que ce qu'elle voit est similaire à une image qu'elle a déjà vue et identifiée. Une des raisons de cette difficulté est que la machine ne sait pas, a priori, quelles parties des deux images se correspondent, et ne sait donc pas quoi comparer avec quoi. Cette thèse s'attaque à ce problème et propose une série d'algorithmes permettant de trouver les parties correspondantes entre plusieurs images, ou en d'autre terme d'aligner les images. La première méthode proposée permet d'apparier ces parties de manière cohérente en prenant en compte les interactions entre plus de deux d'entre elles. Le deuxième algorithme proposé applique avec succès une méthode d'alignement pour déterminer la catégorie d'un objet centré dans une image. Le troisième est optimisé pour la vitesse et tente de détecter un objet d'une catégorie donné où qu'il soit dans l'image.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00906074 |
Date | 29 November 2012 |
Creators | Duchenne, Olivier |
Publisher | École normale supérieure de Cachan - ENS Cachan |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds