Ce travail s’appuie sur les principes de la reconnaissance de motifs sonores et de la modélisation statistique pour proposer un système capable de reconnaître et détecter automatiquement des cris de personnes à l’intérieur d’un métro. Utilisant des enregistrements provenant de reconstitutions de scènes d’agressions dans une rame de métro Parisien en fonctionnement, nous avons estimé des modèles statistiques issus de trois architectures de réseaux de neurones différentes (DNN, CNN et RNN/LSTM). Ces modèles ont été appris sur 3 catégories de sons à reconnaître dans un premier temps (cris, parole, et bruit environnant), puis sur des catégories introduisant des informations spécifiques au déplacement de la rame de métro (afin d’apporter une information contextuelle supplémentaire), considérant soit les événements sonores isolés soit le flux audio continu. Les résultats obtenus montrent que le modèle le plus efficace est le modèle RNN/LSTM qui permet de mieux prendre en compte la structure temporelle des événements sonores. La reconnaissance des trois catégories cris, parole et bruit de fond est probante, indépendamment du reste de l’environnement sonore, mais l’ajout d’information contextuelle permet d’améliorer les taux de reconnaissance. Nous concluons que le manque de données est un facteur limitant, qui pourrait être atténué en utilisant l’apprentissage par transfert, consistant à utiliser des réseaux plus complexes pré-appris sur des données différentes, ou des techniques d’augmentation, consistant à accroitre la taille de la base de données en créant des données artificielles à partir de celles existantes. / This study proposes a security/surveillance system capable of automatically recognizing and detecting screams and shouts in a metro, based on the theory of classification through statistical modeling. Using a database recorded from enactments of violent scenes inside a Paris metro running its course, we estimated statistical models from three different neural network architectures (DNN, CNN and RNN/LSTM). The models were first trained to recognize three categories of sounds (shouts, speech and background noise), then introducing more categories to describe the surrounding environment (in order to bring some contextual information), considering the data as isolated sound events or as a continuous audio stream. The results obtained speak to the higher modeling power of the temporal model which takes into account the temporal structure of sound events. The scores for the Classification of the three categories shout, speech and background turned out to be quite satisfying, regardless of the rest of the acoustic environment, and adding contextual information proved useful. During this study we observed that the lack of data is a major limiting factor, which could be circumvented by using transfer learning, which consists in using more complex networks pre-trained with different data, as well as data augmentation techniques, consisting in increasing the amount of data by creating synthetic data from existing ones.
Identifer | oai:union.ndltd.org:theses.fr/2017LIL10199 |
Date | 13 December 2017 |
Creators | Laffitte, Pierre |
Contributors | Lille 1, Girin, Laurent, Tatkeu, Charles, Sodoyer, David |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds