Spelling suggestions: "subject:"apprentissage dess machines"" "subject:"apprentissage deus machines""
1 |
In-hand robotic tactile object recognition / Reconnaissance tactile des objets dans une main robotiqueVásquez, Alex 11 December 2017 (has links)
Les mains robotiques sont pour la plupart utilisées pour reproduire la dextérité humaine. Au delà des challenges mécaniques et de contrôle que ceci peut représenter, la connaissance de l’environnent avec lequel la main interagit est important pour assurer la dextérité. Donc, la reconnaissance tactile des objets est devenue une capacité importante pour les systèmes de manipulation. Dans ce thèse, on propose une méthode pour qu'une main robotique puisse comprendre la nature géométrique d'un objet que lui a été donné. En plus des données statique récupérées quand la main a saisie l'objet, le mouvements qu'elle fait pendant la saisi sont aussi exploitées. Comme première contribution, on propose les signatures de formes proprioceptives. Ceci est un descripteur qui est basé uniquement sur des données proprioceptives et qui est invariant à la taille et à la position de l'objet dans la main. Il contient l'information sur la forme globale de l'objet. Comme deuxième contribution, on propose un outil pour extraire l'information sur l'objet saisi en utilisant l'information dynamique générée pendant la saisie. Pour cela, les mouvements des doigts pendant le saisie sont interprétés en fonction de la stratégie de saisie utilisée. On présente une méthode pour faire la reconnaissance de la forme d'un objet de façon séquentielle. Pour cela, on utilise une collection des Forêt d'arbres décisionnels. Ceci permet de mettre a jour le modèle de reconnaissance quand des nouveaux objets doivent être reconnus. De cette façon, le temps du processus d’entraînement de l'algorithme est réduit. / Robotic anthropomorphic hands are mostly used to reproduce the human dexterity in manipulation. Beyond the mechanical and control challenges that this represents, perceptive knowledge of the environment with which the hand interacts is key to ensure that dexterity is achieved. In this sense, tactile object recognition has become an important asset for manipulation systems. Regardless of the advances in this domain, it continues to be a valid subject of research today. In this thesis, we propose a method to enable a robotic hand to quickly understand the geometrical nature of an object that has been handled by it. Aside from the static data obtained once the object has been fully grasped, the movements of the hand during the grasp execution will also be exploited. As a first contribution, we propose the proprioceptive shape signature. This descriptor, based solely on proprioceptive data, is invariant to the size and pose of the object within the hand and it contains information about the global shape of the object almost as soon as the grasp execution ends. As a second contribution, we propose a tool to extract information about the grasped object from the dynamic data generated during the grasp execution. For this, the movements of the fingers during the grasping process will be interpreted based on the grasp strategy. Finally, we present a method to perform sequential object shape identification based on a collection of random forests. This method allows to update the recognition model as new shapes are desired to be identified. Thus, the time-consuming process of training the model from scratch is avoided.
|
2 |
Analyse sémantique des images en temps-réel avec des réseaux convolutifsFarabet, Clément 19 December 2013 (has links) (PDF)
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
|
Page generated in 0.0757 seconds