• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 105
  • 65
  • 27
  • 1
  • Tagged with
  • 199
  • 199
  • 122
  • 99
  • 98
  • 92
  • 91
  • 76
  • 75
  • 71
  • 62
  • 56
  • 53
  • 45
  • 44
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

Analyse multimodale des consommateurs dans une surface de vente / Multimodal analysis of customer behaviour in a selling area

Lufimpu-Luviya, Yannick 29 June 2015 (has links)
Cette thèse sur l’analyse multimodale du comportementale des consommateurs dans une surface de vente se décline en trois problématiques : 1) la reconnaissance des caractéristiques bas-niveau que sont la tranche d’âge et le genre, 2) l’analyse des caractéristiques moyen-niveau telles que le degré ou la classe d’indécision 3) l’identification des caractéristiques hauts niveaux que sont les types d’achat. Les données proviennent de caméra, de capteurs oculométriques et de capteurs de position. L’identification du genre et de la tranche d’âge s’effectue sur des images de visages. Notre première contribution est de proposer un modèle d'identification du genre et de la tranche d'âge, en se basant sur des descripteurs de texture sur la partie centrale du visage. Nous mettons en exergue une corrélation entre la tranche d'âge du sujet et le degré de difficulté à identifier son genre. Cette corrélation légitime la segmentation marketing de la population en tranches d'âge. Notre seconde contribution concerne la seconde problématique. En effet, nous proposons une analyse prédictive, et non plus descriptive, du degré d'indécision. Nous utilisons pour ce faire des descripteurs oculométriques et de préhension, ainsi que les machines à vecteurs de support. Notre troisième contribution concerne l'analyse du type d'achat sur des données oculométriques. Tout comme pour l'analyse du degré d'indécision, nous proposons un modèle prédictif. Nous mettons en exergue le facteur temps, important dans tout acte d'achat.Cette thèse a été initiée au sein du projet ANR ORIGAMI2 : Observation du Regard et Interprétation du Geste pour une Analyse Marketing non Intrusive. / This thesis about multimodal analysis of customer behavior in a selling area falls into three issues: 1) the identification of low level characteristics such as age band and gender, 2) the analysis of middle level characteristics such as the indecisiveness degree or the indecisiveness class, 3) the identification of purchasing acts. Data come from cameras, eye-tracking sensors and infrared position sensors. The identification of gender and age band is made with images of faces. Our first contribution is proposing a model for the identification of the gender and the age band, based on texture descriptors on the middle third of the face. We point out a correlation between the age of the subject and the difficulty to identify his gender. This correlation legitimizes the segmentation of the population by marketing managers into age bands. Our second contribution deals with the second issue. Indeed, we propose a predictive analysis of the indecisiveness degree of the customer, instead of descriptive analysis. We use eye-tracking descriptors, gesture descriptors and support vector machines. Our third contribution deals with the analysis of purchasing acts based on eye tracking data. As for the analysis of the indecisiveness degree, we propose a predictive model. We emphasize the time factor, which is an important factor in the purchasing act.This thesis was initiated within the behavioral marketing project ORIGAMI2: observation of gaze and interpretation of gesture for a non-intrusive marketing analysis (Observation du Regard et Interprétation du Geste pour Analyse Marketing non-Intrusive).
132

Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D. / Fast and accurate human action recognition using RGB-D cameras

Ghorbel, Enjie 12 October 2017 (has links)
ARécemment, les caméras RGB-D ont été introduites sur le marché et ont permis l’exploration de nouvelles approches de reconnaissance d’actions par l’utilisation de deux modalités autres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D. Le travail a été focalisé sur une amélioration conjointe de la rapidité de calcul et du taux de reconnaissance en vue d’une application temps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapide ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de ce descripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavarince(HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace euclidien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adaptons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette extension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD).Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapidité de calcul et de précision, mais également en termes de latence observationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvrent ainsi de nouvelles perspectives pour nos travaux futurs. / The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works.
133

Detection and counting of Powered Two Wheelers in traffic using a single-plane Laser Scanner / Détection de deux roues motorisées par télémètre laser à balayage

Prabhakar, Yadu 10 October 2013 (has links)
La sécurité des deux-roues motorisés (2RM) constitue un enjeu essentiel pour les pouvoirs publics et les gestionnaires routiers. Si globalement, l’insécurité routière diminue sensiblement depuis 2002, la part relative des accidents impliquant les 2RM a tendance à augmenter. Ce constat est résumé par les chiffres suivants : les 2RM représentent environ 2 % du trafic et 30 % des tués sur les routes.On observe depuis plusieurs années une augmentation du parc des 2RM et pourtant il manque des données et des informations sur ce mode de transport, ainsi que sur les interactions des 2RM avec les autres usagers et l'infrastructure routière. Ce travail de recherche appliquée est réalisé dans le cadre du projet ANR METRAMOTO et peut être divisé en deux parties : la détection des2RM et la détection des objets routiers par scanner laser. Le trafic routier en général contient des véhicules de nature et comportement inconnus, par exemple leurs vitesses, leurs trajectoires et leurs interactions avec les autres usagers de la route. Malgré plusieurs technologies pour mesurer le trafic,par exemple les radars ou les boucles électromagnétiques, il est difficile de détecter les 2RM à cause de leurs petits gabarits leur permettant de circuler à vitesse élevée et ce même en interfile. La méthode développée est composée de plusieurs sous-parties: Choisir une configuration optimale du scanner laser afin de l’installer sur la route. Ensuite une méthode de mise en correspondance est proposée pour trouver la hauteur et les bords de la route. Le choix d’installation est validé par un simulateur. A ces données brutes, la méthode de prétraitement est implémentée et une transformation de ces données dans le domaine spatio-temporel est faite. Après cette étape de prétraitement, la méthode d’extraction nommée ‘Last Line Check (LLC)’ est appliquée. Une fois que le véhicule est extrait, il est classifié avec un SVM et un KNN. Ensuite un compteur est mis en œuvre pour compter les véhicules classifiés. A la fin, une comparaison de la performance de chacun de ces deux classifieurs est réalisée. La solution proposée est un prototype et peut être intégrée dans un système qui serait installé sur une route au trafic aléatoire (dense, fluide, bouchons) pour détecter, classifier et compter des 2RM en temps réel. / The safety of Powered Two Wheelers (PTWs) is important for public authorities and roadadministrators around the world. Recent official figures show that PTWs are estimated to represent only 2% of the total traffic but represent 30% of total deaths on French roads. However, as these estimated figures are obtained by simply counting the number plates registered, they do not give a true picture of the PTWs on the road at any given moment. This dissertation comes under the project METRAMOTO and is a technical applied research work and deals with two problems: detection of PTWsand the use of a laser scanner to count PTWs in the traffic. Traffic generally contains random vehicles of unknown nature and behaviour such as speed,vehicle interaction with other users on the road etc. Even though there are several technologies that can measure traffic, for example radars, cameras, magnetometers etc, as the PTWs are small-sized vehicles, they often move in between lanes and at quite a high speed compared to the vehicles moving in the adjacent lanes. This makes them difficult to detect. the proposed solution in this research work is composed of the following parts: a configuration to install the laser scanner on the road is chosen and a data coherence method is introduced so that the system is able to detect the road verges and its own height above the road surface. This is validated by simulator. Then the rawd ata obtained is pre-processed and is transform into the spatial temporal domain. Following this, an extraction algorithm called the Last Line Check (LLC) method is proposed. Once extracted, the objectis classified using one of the two classifiers either the Support Vector Machine (SVM) or the k-Nearest Neighbour (KNN). At the end, the results given by each of the two classifiers are compared and presented in this research work. The proposed solution in this research work is a propototype that is intended to be integrated in a real time system that can be installed on a highway to detect, extract, classify and counts PTWs in real time under all traffic conditions (traffic at normal speeds, dense traffic and even traffic jams).
134

Conception d’un algorithme de vision par ordinateur « top-down » dédié à la reconnaissance des sillons corticaux / Design of a top-down computer vision algorithm dedicated to the recognition of cortical sulci

Borne, Léonie 01 October 2019 (has links)
Les plissements du cortex caractérisent de manière unique chaque être humain. Ils apparaissent pendant le dernier trimestre de grossesse, c’est-à-dire pendant la mise en place de l’architecture cérébrale. Les motifs de ces plis sont impactés par les spécificités de cette architecture propres à chaque individu. Ils pourraient donc dévoiler les signatures de certaines anomalies du développement à l’origine de pathologies psychiatriques. Le laboratoire d’analyse d’images de Neurospin développe depuis 25 ans un programme de recherche visant à mettre en évidence de telles signatures grâce à la conception d’outils de vision par ordinateur dédiés qu’il diffuse à la communauté (http://brainvisa.info).Cette thèse a permis l’émergence d’une nouvelle génération d’outils basés sur des techniques d’apprentissage automatique. Le premier outil proposé classifie automatiquement des motifs locaux de plissements du cortex, un problème qui n’avait jamais été abordé jusqu’ici. Le second outil vise l’étiquetage automatique des sillons corticaux en modélisant des mécanismes de reconnaissance « top-down » nécessaires pour pallier les faiblesses des démarches « bottom-up » développées jusqu’à présent. Ainsi, en plus d'avoir des taux de reconnaissances plus élevés et un temps d’exécution plus court, le nouveau modèle proposé est robuste aux erreurs de sous-segmentation, ce qui est l'une des plus grandes faiblesses de l'ancien système. Pour réaliser ces deux outils, plusieurs algorithmes d'apprentissage automatique ont été implémentés et comparés. Ces algorithmes s'inspirent d'une part des méthodes multi-atlas, en particulier de l'approche par patch, qui sont largement utilisées pour la segmentation anatomique d'images médicales et d'autre part des méthodes d'apprentissage profond qui révolutionnent aujourd'hui le monde de la vision par ordinateur. Les travaux de cette thèse confirment l'incroyable efficacité des techniques d'apprentissage profond pour s'adapter à des problèmes complexes. Cependant, les performances obtenues avec ces techniques sont généralement équivalentes à celles des approches par patch, voire moins bonnes si la base de données d'apprentissage est restreinte. Ce qui fait de l'apprentissage profond un outil particulièrement intéressant en pratique n'est autre que sa rapidité d'exécution, d'autant plus pour l'analyse des bases de données colossales aujourd'hui disponibles. / We are seven billion humans with unique cortical folding patterns. The cortical folding process occurs during the last trimester of pregnancy, during the emergence of cortical architecture. The folding patterns are impacted by architectural features specific to each individual. Hence, they could reveal signatures of abnormal developments that can lead to psychiatric syndroms. For the last 25 years, the image analysis lab of Neurospin has been designing dedicated computer vision tools to tackle the research of such signatures. The resulting tools are distributed to the community (http://brainvisa.info).This thesis has resulted in the emergence of a new generation of tools based on machine learning techniques. The first proposed tool automatically classifies local patterns of cortical folds, a problem that had never been addressed before. The second tool aims at the automatic labeling of cortical sulci by modeling the top-down recognition mechanisms necessary to overcome weaknesses of the current bottom-up systems. Thus, in addition to having higher recognition rates and shorter execution time, the proposed new model is robust to sub-segmentation errors, which is one of the greatest weaknesses of the old system. To realize these two tools, several machine learning algorithms were implemented and compared. These algorithms are inspired on the one hand by multi-atlas methods, in particular the patch approach, which are widely used for the anatomical segmentation of medical images and on the other hand by the deep learning methods that are revolutionizing the world of computer vision. The work of this thesis confirms the incredible effectiveness of deep learning techniques to adapt well to complex problems. However, the performances obtained with these techniques are generally equivalent to those of patch approaches, or even worse if the training database is limited. What makes deep learning a particularly interesting tool in practice is its fast execution, especially for the analysis of the huge databases now available.
135

Human motion tracking from movie sequences

Nguyen, Nhat Tan 18 April 2018 (has links)
Cette thèse présente un ensemble d'outils ou cadre de développement (paradigme) pour suivre le mouvement de personnages humains dans les films. Beaucoup d'applications en forte demande, telle que la surveillance pour la sécurité ou l'interaction homme-machine, profiteraient d'un système qui pourrait détecter et suivre automatiquement des humains. L'exécution de séquences de film réelles pose un défi particulier compte tenu de la non-rigidité du mouvement du corps humains, ainsi que l'influence qu'ont plusieurs facteurs sur son apparence. Parmi eux se trouvrent la différence dans la gamme de conditions d'acquisition, la variation de l'environnement et de l'illumination, le mouvement de caméra et le peu de connaissances a priori dans le positionnement de la caméra. En tant que complément à l'analyse du mouvement humain, ce système vise à aider son utilisateur à détecter de façon automatique le mouvement de la caméra, à diviser la séquence de film en petits segments appelés "prises de vue" et à extraire des informations du mouvement humain en présence d'un arrière-scène complexe. Pour atteindre cet objectif, une estimation précise du flux optique est employée. Un processus d'image par image peut identifier six différents mouvements de la caméra, incluant une camera statique, en utilisant des gabarits prédéterminés. Il peut ensuite fournir une base de données de mouvements de caméra pour la séquence du film. Ces données sont très utiles pour l'annotation, l'indexage et la recherche de séquences vidéos. De plus, une Mixture de Gaussiennes (MoG) dotée d'un espace de couleur RGB normalisé est utilisée pour soustraire un arrière-scène statique, qui permet d'éviter les effets d'ombres. Lors d'un mouvement de caméra, nous optons pour une technique appelée "codage de couleur" pour convertir les champs de vecteurs de mouvement en image colorée et appliquer la soustraction d'arrière-plan conventionnelle à cette image de flux optique de couleurs. Ceci dit, un système de suivi multicouches déployé dans deux directions (d'ordre chronologique et d'ordre anti-chronologique) est aussi décrit dans la thèse. Finalement, l'évaluation de la performance du système est réalisée sur plusieurs séquences extraites des films réels. Les séquences ont été entièrement analysées indépendamment par un observateur humain pour fournir une base de référence réelle sur les mouvements de caméra aussi bien que sur le mouvement humain dans les séquences vidéos. La comparaison entre les résultats et la base de référence indique une performance très prometteuse des approches proposées tant par l'analyse de films que par les applications de surveillance.
136

Algorithmes évolutionnaires appliqués à la reconnaissance des formes et à la conception optique

Gagné, Christian 11 April 2018 (has links)
Les algorithmes évolutionnaires (AE) constituent une famille d’algorithmes inspirés de l’évolution naturelle. Ces algorithmes sont particulièrement utiles pour la résolution de problèmes où les algorithmes classiques d’optimisation, d’apprentissage ou de conception automatique sont incapables de produire des résultats satisfaisants. On propose dans cette thèse une approche méthodologique pour le développement de systèmes intelligents basés sur les AE. Cette approche méthodologique repose sur cinq principes : 1) utiliser des algorithmes et des représentations adaptés au problème ; 2) développer des hybrides entre des AE et des heuristiques du domaine d’application ; 3) tirer profit de l’optimisation évolutionnaire à plusieurs objectifs ; 4) faire de la co-évolution pour résoudre simultanément plusieurs sous-problèmes d’une application ou favoriser la robustesse ; et 5) utiliser un outil logiciel générique pour le développement rapide d’AE non conventionnels. Cette approche méthodologique est illustrée par quatre applications des AE à des problèmes difficiles. De plus, le cinquième principe est appuyé par l’étude sur la généricité dans les outils logiciels d’AE. Le développement d’applications complexes avec les AE exige l’utilisation d’un outil logiciel générique. Six critères sont proposés ici pour évaluer la généricité des outils d’AE. De nombreux outils logiciels d’AE sont disponibles dans la communauté, mais peu d’entre eux peuvent être véritablement qualifiés de génériques. En effet, une évaluation de quelques outils relativement populaires nous indique que seulement trois satisfont pleinement à tous ces critères, dont la framework d’AE Open BEAGLE, développée durant le doctorat. Open BEAGLE est organisé en trois couches logicielles principales, avec à la base les fondations orientées objet, sur lesquelles s’ajoute une framework gén érique comprenant les mécanismes généraux de l’outil, ainsi que plusieurs frameworks spécialisées qui implantent différentes saveurs d’AE. L’outil comporte également deux extensions servant à distribuer des calculs sur plusieurs ordinateurs et à visualiser des résultats. Ensuite, trois applications illustrent différentes approches d’utilisation des AE dans un contexte de reconnaissance des formes. Premièrement, on optimise des classifieurs basés sur la règle du plus proche voisin avec la sélection de prototypes par un algorithme génétique, simultanément à la construction de mesures de voisinage par programmation génétique (PG). À cette co-évolution coopérative à deux espèces, on ajoute la co-évolution compétitive d’une troisième espèce pour la sélection de données de test, afin d’améliorer la capacité de généralisation des solutions. La deuxième application consiste en l’ingénierie de représentations par PG pour la reconnaissance de caractères manuscrits. Cette ingénierie évolutionnaire s’effectue par un positionnement automatique de régions dans la fenêtre d’attention jumelé à la sélection d’ensembles flous pour l’extraction de caractéristiques. Cette application permet d’automatiser la recherche de représentations de caractères, opération généralement effectuée par des experts humains suite à un processus d’essais et erreurs. Pour la troisième application en reconnaissance des formes, on propose un système extensible pour la combinaison hiérarchique de classifieurs dans un arbre de décision flou. Dans ce système, la topologie des arbres est évoluée par PG alors que les paramètres numériques des unités de classement sont détermin és par des techniques d’apprentissage spécialisées. Le système est testé avec trois types simples d’unités de classement. Pour toutes ces applications en reconnaissance des formes, on utilise une mesure d’adéquation à deux objectifs afin de minimiser les erreurs de classement et la complexité des solutions. Une dernière application démontre l’efficacité des AE pour la conception de syst` emes de lentilles. On utilise des stratégies d’évolution auto-adaptatives hybridées avec une technique d’optimisation locale spécialisée pour la résolution de deux problèmes complexes de conception optique. Dans les deux cas, on démontre que les AE hybrides sont capables de générer des résultats comparables ou supérieurs à ceux produits par des experts humains. Ces résultats sont prometteurs dans la perspective d’une automatisation plus poussée de la conception optique. On présente également une expérience supplémentaire avec une mesure à deux objectifs servant à maximiser la qualité de l’image et à minimiser le coût du système de lentilles. / Evolutionary Algorithms (EA) encompass a family of robust search algorithms loosely inspired by natural evolution. These algorithms are particularly useful to solve problems for which classical algorithms of optimization, learning, or automatic design cannot produce good results. In this thesis, we propose a common methodological approach for the development of EA-based intelligent systems. This methodological approach is based on five principles : 1) to use algorithms and representations that are problem specific ; 2) to develop hybrids between EA and heuristics from the application field ; 3) to take advantage of multi-objective evolutionary optimization ; 4) to do co-evolution for the simultaneous resolution of several sub-problems of a common application and for promoting robustness ; and 5) to use generic software tools for rapid development of unconventional EA. This methodological approach is illustrated on four applications of EA to hard problems. Moreover, the fifth principle is explained in the study on genericity of EA software tools. The application of EA to complex problems requires the use of generic software tool, for which we propose six genericity criteria. Many EA software tools are available in the community, but only a few are really generic. Indeed, an evaluation of some popular tools tells us that only three respect all these criteria, of which the framework Open BEAGLE, developed during the Ph.D. Open BEAGLE is organized into three main software layers. The basic layer is made of the object oriented foundations, over which there is the generic framework layer, consisting of the general mechanisms of the tool, and then the final layer, containing several specialized frameworks implementing different EA flavors. The tool also includes two extensions, respectively to distribute the computations over many computers and to visualize results. Three applications illustrate different approaches for using EA in the context of pattern recognition. First, nearest neighbor classifiers are optimized, with the prototype selection using a genetic algorithm simultaneously to the Genetic Programming (GP) of neighborhood metrics. We add to this cooperative two species co-evolution a third coevolving competitive species for selecting test data in order to improve the generalization capability of solutions. A second application consists in designing representations with GP for handwritten character recognition. This evolutionary engineering is conducted with an automatic positioning of regions in a window of attention, combined with the selection of fuzzy sets for feature extraction. This application is used to automate character representation search, which is usually conducted by human experts with a trial and error process. For the third application in pattern recognition, we propose an extensible system for the hierarchical combination of classifiers into a fuzzy decision tree. In this system, the tree topology is evolved with GP while the numerical parameters of classification units are determined by specialized learning techniques. The system is tested with three simple types of classification units. All of these applications in pattern recognition have been implemented using a two-objective fitness measure in order to minimize classification errors and solutions complexity. The last application demonstrate the efficiency of EA for lens system design. Selfadaptative evolution strategies, hybridized with a specialized local optimisation technique, are used to solve two complex optical design problems. In both cases, the experiments demonstrate that hybridized EA are able to produce results that are comparable or better than those obtained by human experts. These results are encouraging from the standpoint of a fully automated optical design process. An additional experiment is also conducted with a two-objectives fitness measure that tries to maximize image quality while minimizing lens system cost.
137

Contributions à l'apprentissage grande échelle pour la classification d'images

Akata, Zeynep 06 January 2014 (has links) (PDF)
La construction d'algorithmes classifiant des images à grande échelle est devenue une tache essentielle du fait de la difficulté d'effectuer des recherches dans les immenses collections de données visuelles inetiquetées présentes sur Internet. Nous visons à classifier des images en fonction de leur contenu pour simplifier la gestion de telles bases de données. La classification d'images à grande échelle est un problème complèxe, de par l'importance de la taille des ensembles de données, tant en nombre d'images qu'en nombre de classes. Certaines de ces classes sont dites "fine-grained" (sémantiquement proches les unes des autres) et peuvent même ne contenir aucun représentant étiqueté. Dans cette thèse, nous utilisons des représentations état de l'art d'images et nous concentrons sur des méthodes d'apprentissage efficaces. Nos contributions sont (1) un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle et (2) un nouvel algorithme basé sur l'incorporation d'étiquettes pour apprendre sur des données peu abondantes. En premier lieu, nous introduisons un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle, dans le cadre entièrement supervisé. Il compare plusieurs fonctions objectifs pour apprendre des classifieurs linéaires, tels que "un contre tous", "multiclasse", "ranking", "ranking pondéré moyen" par descente de gradient stochastique. Ce banc d'essai se conclut en un ensemble de recommandations pour la classification à grande échelle. Avec une simple repondération des données, la stratégie "un contre tous" donne des performances meilleures que toutes les autres. Par ailleurs, en apprentissage en ligne, un pas d'apprentissage assez petit s'avère suffisant pour obtenir des résultats au niveau de l'état de l'art. Enfin, l'arrêt anticipé de la descente de gradient stochastique introduit une régularisation qui améliore la vitesse d'entraînement ainsi que la capacité de régularisation. Deuxièmement, face à des milliers de classes, il est parfois difficile de rassembler suffisamment de données d'entraînement pour chacune des classes. En particulier, certaines classes peuvent être entièrement dénuées d'exemples. En conséquence, nous proposons un nouvel algorithme adapté à ce scénario d'apprentissage dit "zero-shot". notre algorithme utilise des données parallèles, comme les attributs, pour incorporer les classes dans un espace euclidien. Nous introduisons par ailleurs une fonction pour mesurer la compatibilité entre image et étiquette. Les paramètres de cette fonction sont appris en utilisant un objectif de type "ranking". Notre algorithme dépasse l'état de l'art pour l'apprentissage "zero-shot", et fait preuve d'une grande flexibilité en permettant d'incorporer d'autres sources d'information parallèle, comme des hiérarchies. Il permet en outre une transition sans heurt du cas "zero-shot" au cas où peu d'exemples sont disponibles.
138

Interprétation de Documents Techniques : des Outils à leur Intégration dans un Système à Base de Connaissances

Adam, Sébastien 11 December 2001 (has links) (PDF)
Les travaux présentés dans ce mémoire abordent la problématique de l'interprétation de documents techniques. Dans ce contexte, ils se trouvent à la confluence de différentes thématiques de recherche telles que le traitement du signal et des images, la reconnaissance de formes, l'intelligence artificielle, la communication Homme/Machine et l'ingénierie des connaissances. En effet, si ces domaines scientifiques diffèrent dans leurs fondements, ils sont complémentaires et leurs apports respectifs sont indispensables pour la conception d'un système d'interprétation fiable et adaptable. Dans ce contexte pluridisciplinaire, le mémoire est organisé en deux parties. La première partie propose une méthodologie originale permettant la détection et la reconnaissance de formes (caractères et symboles) multi-orientées et multi-échelles. L'approche adoptée est basée sur la transformée de Fourier-Mellin. Elle permet la reconnaissance de formes isolées, mais aussi, dans une certaine mesure, de formes connectées. Son utilisation autorise en outre l'estimation des paramètres de mouvements des formes. Les outils développés sont évalués et comparés sur différentes bases de caractères et les résultats obtenus sont tout à fait compétitifs au regard des approches de la littérature. La seconde partie de ce mémoire aborde quant à elle la problématique de l'interprétation de documents techniques avec un point de vue orienté vers l'ingénierie des connaissances. Les réflexions proposées dans ce cadre permettent selon nous de montrer la faisabilité et la pertinence d'une démarche orientée connaissances pour la conception d'un système d'interprétation. Elles ont donné lieu à une implémentation conduisant à un système nommé NATALI v2. Une représentation explicite des connaissances, une architecture logicielle à base d'agents ainsi que différentes interfaces homme-machine offrent une bonne adaptabilité et une grande souplesse au système.
139

Représentation, Segmentation et Appariement de Formes Visuelles 3D Utilisant le Laplacient et le Noyau de la Chaleur

Sharma, Avinash 29 October 2012 (has links) (PDF)
Analyse de la forme 3D est un sujet de recherche extrêmement actif dans les deux l'infographie et vision par ordinateur. Dans la vision par ordinateur, l'acquisition de formes et de modélisation 3D sont généralement le résultat du traitement des données complexes et des méthodes d'analyse de données. Il existe de nombreuses situations concrètes où une forme visuelle est modélisé par un nuage de points observés avec une variété de capteurs 2D et 3D. Contrairement aux données graphiques, les données sensorielles ne sont pas, dans le cas général, uniformément répartie sur toute la surface des objets observés et ils sont souvent corrompus par le bruit du capteur, les valeurs aberrantes, les propriétés de surface (diffusion, spécularités, couleur, etc), l'auto occlusions, les conditions d'éclairage variables. Par ailleurs, le même objet que l'on observe par différents capteurs, à partir de points de vue légèrement différents, ou à des moments différents cas peuvent donner la répartition des points tout à fait différentes, des niveaux de bruit et, plus particulièrement, les différences topologiques, par exemple, la fusion des mains. Dans cette thèse, nous présentons une représentation de multi-échelle des formes articulés et concevoir de nouvelles méthodes d'analyse de forme, en gardant à l'esprit les défis posés par les données de forme visuelle. En particulier, nous analysons en détail le cadre de diffusion de chaleur pour représentation multi-échelle de formes 3D et proposer des solutions pour la segmentation et d'enregistrement en utilisant les méthodes spectrales graphique et divers algorithmes d'apprentissage automatique, à savoir, le modèle de mélange gaussien (GMM) et le Espérance-Maximisation (EM). Nous présentons d'abord l'arrière-plan mathématique sur la géométrie différentielle et l'isomorphisme graphique suivie par l'introduction de la représentation spectrale de formes 3D articulés. Ensuite, nous présentons une nouvelle méthode non supervisée pour la segmentation de la forme 3D par l'analyse des vecteurs propres Laplacien de graphe. Nous décrivons ensuite une solution semi-supervisé pour la segmentation de forme basée sur un nouveau paradigme d'apprendre, d'aligner et de transférer. Ensuite, nous étendre la représentation de forme 3D à une configuration multi-échelle en décrivant le noyau de la chaleur cadre. Enfin, nous présentons une méthode d'appariement dense grâce à la représentation multi-échelle de la chaleur du noyau qui peut gérer les changements topologiques dans des formes visuelles et de conclure par une discussion détaillée et l'orientation future des travaux.
140

Reconnaissance des actions humaines à partir d'une séquence vidéo

Touati, Redha 12 1900 (has links)
The work done in this master's thesis, presents a new system for the recognition of human actions from a video sequence. The system uses, as input, a video sequence taken by a static camera. A binary segmentation method of the the video sequence is first achieved, by a learning algorithm, in order to detect and extract the different people from the background. To recognize an action, the system then exploits a set of prototypes generated from an MDS-based dimensionality reduction technique, from two different points of view in the video sequence. This dimensionality reduction technique, according to two different viewpoints, allows us to model each human action of the training base with a set of prototypes (supposed to be similar for each class) represented in a low dimensional non-linear space. The prototypes, extracted according to the two viewpoints, are fed to a $K$-NN classifier which allows us to identify the human action that takes place in the video sequence. The experiments of our model conducted on the Weizmann dataset of human actions provide interesting results compared to the other state-of-the art (and often more complicated) methods. These experiments show first the sensitivity of our model for each viewpoint and its effectiveness to recognize the different actions, with a variable but satisfactory recognition rate and also the results obtained by the fusion of these two points of view, which allows us to achieve a high performance recognition rate. / Le travail mené dans le cadre de ce projet de maîtrise vise à présenter un nouveau système de reconnaissance d’actions humaines à partir d'une séquence d'images vidéo. Le système utilise en entrée une séquence vidéo prise par une caméra statique. Une méthode de segmentation binaire est d'abord effectuée, grâce à un algorithme d’apprentissage, afin de détecter les différentes personnes de l'arrière-plan. Afin de reconnaitre une action, le système exploite ensuite un ensemble de prototypes générés, par une technique de réduction de dimensionnalité MDS, à partir de deux points de vue différents dans la séquence d'images. Cette étape de réduction de dimensionnalité, selon deux points de vue différents, permet de modéliser chaque action de la base d'apprentissage par un ensemble de prototypes (censé être relativement similaire pour chaque classe) représentés dans un espace de faible dimension non linéaire. Les prototypes extraits selon les deux points de vue sont amenés à un classifieur K-ppv qui permet de reconnaitre l'action qui se déroule dans la séquence vidéo. Les expérimentations de ce système sur la base d’actions humaines de Wiezmann procurent des résultats assez intéressants comparés à d’autres méthodes plus complexes. Ces expériences montrent d'une part, la sensibilité du système pour chaque point de vue et son efficacité à reconnaitre les différentes actions, avec un taux de reconnaissance variable mais satisfaisant, ainsi que les résultats obtenus par la fusion de ces deux points de vue, qui permet l'obtention de taux de reconnaissance très performant.

Page generated in 0.4796 seconds