Si la parole est une faculté dont l'usage nous semble parfaitement naturel,il reste toutefois beaucoup à comprendre sur la nature des représentations et des processus cognitifs qui la gouvernent. Au cœur de cette thèse se trouve la question des interactions entre perception et action dans la production et la perception de syllabes. Nous adoptons le cadre rigoureux de la programmation bayésienne au sein duquel nous définissons mathématiquement le modèle COSMO (pour "Communicating Objects using Sensori-Motor Operations"), qui permet de formaliser les théories motrice, auditive et perceptuo-motrice de la communication parlée et de les étudier quantitativement. Cette approche conduit à un premier résultat théorique fort : nous démontrons un théorème d'indistinguabilité d'après lequel, lorsque l'on pose certaines hypothèses de conditions idéales d'apprentissage, les théories auditive et motrice font des prédictions identiques pour des tâches de perception, et sont de ce fait indistinguables. Pour s'éloigner de ces conditions, nous proposons un algorithme original d'apprentissage sensori-moteur “par accommodation”, qui permet de s'adapter au bain acoustique ambiant tout en développant des idiosyncrasies. Cet algorithme d'apprentissage par imitation de ciblesacoustiques permet l'apprentissage de compétences motrices à partir d'entrées perceptives uniquement, avec la propriété remarquable de se focaliser sur les régions d'intérêt pour l'apprentissage. Nous utilisons des syllabes synthétisées grâce au modèle de conduit vocal VLAM pour analyser les dynamiques d'évolution des modèles appris ainsi que leur robustesse aux dégradations. / While speech communication is a faculty that seems natural, a lot remainsto be understood about the nature of the cognitive representations and processes that are involved. Central to this PhD research is the study of interactions between perception and action during production or perception of syllables. We choose Bayesian Programming as a rigorous framework within which we provide a mathematical definition of the COSMO model ("Communicating Objects using Sensori-Motor Operations"), which allows to formalize motor, auditory and perceptuo-motor theories of speech communication and to study them quantitatively. This approach first leads to a strong theoretical result:we prove an indistinguishability theorem, according to which, given some ideal learning conditions, motor and auditory theories make identical predictions for perception tasks, and therefore cannot be distinguished empirically. To depart from these conditions, we introduce an original “learning by accommodation” algorithm, which enables to adapt to the ambient acoustic environment as well as to develop idiosyncrasies. This algorithm, which learns by mimicking acoustic targets, allows to acquire motor skills from acoustic inputs only, with the remarkable property of focusing its learning on the adequate regions. We use syllables synthesized by a vocal tract model (VLAM ) to analyse how thedifferent models evolve through learning and how robust they are to degradations.
Identifer | oai:union.ndltd.org:theses.fr/2014GRENM063 |
Date | 08 October 2014 |
Creators | Laurent, Raphael |
Contributors | Grenoble, Diard, Julien, Schwartz, Jean-Luc, Bessière, Pierre |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds