Dans cette thèse, nous avons étudié le problème de l'estimation de mouvement chez les mammifères et nous proposons que passer à l’échelle des modèles ancrés dans la biologie pour les applications du monde réel peut nous donner de nouvelles perspectives en vision biologique. En utilisant un modèle classique qui décrit l'activité des neurones dans les aires corticales V1 et MT du cerveau des primates, nous avons proposé une architecture montante pour l'estimation de mouvement et l’avons évaluée sur des exemples de référence de vision par ordinateur (une première pour ce type de modèles), révélant des lacunes telles que le manque de sélectivité au niveau des frontières de mouvement et l'absence d'association spatiale du champ de vitesses. Pour y remédier, nous avons proposé deux extensions, une stratégie d’intégration modulée par la forme pour minimiser les erreurs aux discontinuités de texture et un schéma de régression pour le décodage. Ces extensions ont amélioré la précision de l'estimation, mais aussi souligné à nouveau le débat sur le rôle des différents types de cellules dans le codage mouvement, par exemple le rôle relatif des cellules “pattern” par rapport aux cellules “component”. Pour comprendre cela, nous avons utilisé un modèle de champs neuronaux représentant une population de cellules MT pour comprendre le rôle des récurrences. Nos résultats montrent qu'une variété de comportements peuvent être reproduits, ils expliquent les changements dynamiques en fonction des stimuli, et nous conduisent à remettre en cause les régimes élevés d'inhibition généralement choisis dans la littérature. / In this thesis, we studied the problem of motion estimation in mammals and propose that scaling up models rooted in biology for real world applications can give us fresh insights into the biological vision. Using a classic model that describes the activity of directionally-selective neurons in V1 and MT areas of macaque brain, we proposed a feedforward V1-MT architecture for motion estimation and benchmarked it on computer vision datasets (first publicly available evaluation for this kind of models), revealing interesting shortcomings such as lack of selectivity at motion boundaries and lack of spatial association of the flow field. To address these, we proposed two extensions, a form modulated pooling strategy to minimize errors at texture boundaries and a regression based decoding scheme. These extensions improved estimation accuracy but also reemphasized the debate about the role of different cell types (characterized by their tuning curves) in encoding motion, for example relative role of pattern cells versus component cells. To understand this, we used a phenomenological neural fields model representative of a population of directionally tuned MT cells to check whether different tuning behaviors could be reproduced by a recurrently interacting population or if we need different types of cells explicitly. Our results indicated that a variety of tuning behavior can be reproduced by a minimal network, explaining dynamical changes in the tuning with change of stimuli leading us to question the high inhibition regimes typically considered by models in the literature.
Identifer | oai:union.ndltd.org:theses.fr/2016AZUR4127 |
Date | 13 December 2016 |
Creators | Medathati, Naga Venkata Kartheek |
Contributors | Côte d'Azur, Kornprobst, Pierre, Masson, Guillaume S. |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds