Global ETD Search

1	Action Representation and Recognition Weinland, Daniel 20 October 2008 (has links) (PDF) La reconnaissance d'actions et d'activités humaines est un thème de recherche ambitieux en vision par ordinateur, avec d'importantes et nombreuses applications, notamment pour la vidéo surveillance et les environnements interactifs et intelligents. D'un point de vue computationel une action peut être définie comme une entité de dimension 4 dans le l'espace et le temps. Plusieurs représentations peuvent alors être envisagées qui diffèrent par les informations considérées, par exemple : la forme ou l'apparence, la représentation explicite ou implicite du déroulement d'une action - la dynamique, l'invariance du modèle au genre, taille et corpulence et l'invariance au point de vue qui permet d'apprendre et de reconnaître une action avec des configurations de caméras différentes. Dans cette thèse, nous étudions ces représentations et leurs impacts sur la reconnaissance d'actions. Nous nous intéressons en particulier à l'invariance des représentations, à la modélisation de la dynamique d'une action et à la manière de segmenter une action. Nos resultats démontrent que la reconnaissance d'actions simples, par exemple se lever ou courir, peut s'effectuer independamment de point de vue, des caractéristiques propres du corps observé et de la dynamique de l'action. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre reconnaissance d'actions humaines vision par ordinateur apprentissage autómatique
2	Spatial information and end-to-end learning for visual recognition / Informations spatiales et apprentissage bout-en-bout pour la reconnaissance visuelle Jiu, Mingyuan 03 April 2014 (has links) Dans cette thèse nous étudions les algorithmes d'apprentissage automatique pour la reconnaissance visuelle. Un accent particulier est mis sur l'apprentissage automatique de représentations, c.à.d. l'apprentissage automatique d'extracteurs de caractéristiques; nous insistons également sur l'apprentissage conjoint de ces dernières avec le modèle de prédiction des problèmes traités, tels que la reconnaissance d'objets, la reconnaissance d'activités humaines, ou la segmentation d'objets. Dans ce contexte, nous proposons plusieurs contributions : Une première contribution concerne les modèles de type bags of words (BoW), où le dictionnaire est classiquement appris de manière non supervisée et de manière autonome. Nous proposons d'apprendre le dictionnaire de manière supervisée, c.à.d. en intégrant les étiquettes de classes issues de la base d'apprentissage. Pour cela, l'extraction de caractéristiques et la prédiction de la classe sont formulées en un seul modèle global de type réseau de neurones (end-to-end training). Deux algorithmes d'apprentissage différents sont proposés pour ce modèle : le premier est basé sur la retro-propagation du gradient de l'erreur, et le second procède par des mises à jour dans le diagramme de Voronoi calculé dans l'espace des caractéristiques. Une deuxième contribution concerne l'intégration d'informations géométriques dans l'apprentissage supervisé et non-supervisé. Elle se place dans le cadre d'applications nécessitant une segmentation d'un objet en un ensemble de régions avec des relations de voisinage définies a priori. Un exemple est la segmentation du corps humain en parties ou la segmentation d'objets spécifiques. Nous proposons une nouvelle approche intégrant les relations spatiales dans l'algorithme d'apprentissage du modèle de prédication. Contrairement aux méthodes existantes, les relations spatiales sont uniquement utilisées lors de la phase d'apprentissage. Les algorithmes de classification restent inchangés, ce qui permet d'obtenir une amélioration du taux de classification sans augmentation de la complexité de calcul lors de la phase de test. Nous proposons trois algorithmes différents intégrant ce principe dans trois modèles : - l'apprentissage du modèle de prédiction des forêts aléatoires, - l'apprentissage du modèle de prédiction des réseaux de neurones (et de la régression logistique), - l'apprentissage faiblement supervisé de caractéristiques visuelles à l'aide de réseaux de neurones convolutionnels. / In this thesis, we present our research on visual recognition and machine learning. Two types of visual recognition problems are investigated: action recognition and human body part segmentation problem. Our objective is to combine spatial information such as label configuration in feature space, or spatial layout of labels into an end-to-end framework to improve recognition performance. For human action recognition, we apply the bag-of-words model and reformulate it as a neural network for end-to-end learning. We propose two algorithms to make use of label configuration in feature space to optimize the codebook. One is based on classical error backpropagation. The codewords are adjusted by using gradient descent algorithm. The other is based on cluster reassignments, where the cluster labels are reassigned for all the feature vectors in a Voronoi diagram. As a result, the codebook is learned in a supervised way. We demonstrate the effectiveness of the proposed algorithms on the standard KTH human action dataset. For human body part segmentation, we treat the segmentation problem as classification problem, where a classifier acts on each pixel. Two machine learning frameworks are adopted: randomized decision forests and convolutional neural networks. We integrate a priori information on the spatial part layout in terms of pairs of labels or pairs of pixels into both frameworks in the training procedure to make the classifier more discriminative, but pixelwise classification is still performed in the testing stage. Three algorithms are proposed: (i) Spatial part layout is integrated into randomized decision forest training procedure; (ii) Spatial pre-training is proposed for the feature learning in the ConvNets; (iii) Spatial learning is proposed in the logistical regression (LR) or multilayer perceptron (MLP) for classification. Informatique Intelligence artificielle Apprentissage automatique Apprentissage spatial Apprentissage de bout en bout Réseaux de neurones à convolution Reconnaissance d'actions humaines Segmentation du corps humain Information Technology Artificial intelligence Machine learning Spatial learning End-To-End learning Convolutional neural netword Human action recognition Human part recognition 006.310 72
3	Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo Baccouche, Moez 15 July 2013 (has links) (PDF) Cette thèse s'intéresse à la problématique de la classiﬁcation automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images ﬁxes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classiﬁcation vidéo : - Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo. - Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classiﬁcation de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identiﬁer le modèle de classiﬁcation le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justiﬁer son utilisation pour le reste des expérimentations. Enﬁn, aﬁn de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95, 83% de bonne reconnaissance pour la base KTH, et 87, 57% pour la base GEMEP-FERA). Apprentissage de caractéristiques modèle ConvNet apprentissage profond auto-encodage parcimonieux classiﬁcation LSTM reconnaissance d'actions humaines reconnaissance d'expressions faciales reconnaissance d'actions de football

1

Page generated in 0.1412 seconds