Global ETD Search

1	Deep learning with multiple modalities : making the most out of available data De Blois, Sébastien 02 February 2024 (has links) L’apprentissage profond, un sous domaine de l’apprentissage machine, est reconnu pour nécessiter une très grande quantité de données pour atteindre des performances satisfaisantes en généralisation. Une autre restriction actuelle des systèmes utilisant l’apprentissage machine en lien avec les données est la nécessité d’avoir accès au même type de données autant durant la phase d’entrainement du modèle que durant la phase de test de celui-ci. Dans plusieurs cas, ceci rend inutilisable en entrainement des données de modalité supplémentaire pouvant possiblement apporter de l’information additionnelle au système et l’améliorer. Dans ce mémoire, plusieurs méthodes d’entrainement permettant de tirer avantage de modalités additionnelles disponibles dans des jeux de données seulement en entrainement et non durant la phase de test seront proposées. Pour débuter, nous nous intéressons à diminuer le bruit présent dans images.. On débute le mémoire avec la technique la plus simple, soit un débruitage avant une tâche pour augmenter la capacité du système à faire cette tâche. Par la suite, deux techniques un peu plus poussées proposant de faire un débruitage guidé pour augmenter les performances d’une tâche subséquente sont présentées. On conclut finalement cette thèse en présentant une technique du nom d’Input Dropout permettant d’utiliser très facilement une modalité seulement disponible en entrainement pour augmenter les performances d’un système, et ce pour une multitude de tâches variées de vision numérique. / Deep learning, a sub-domain of machine learning, is known to require a very large amount of data to achieve satisfactory performance in generalization. Another current limitation of these machine learning systems is the need to have access to the same type of data during the training phase of the model as during its testing phase. In many cases, this renders unusable training on additional modality data that could possibly bring additional information to the system and improve it. In this thesis, several training methods will be proposed to take advantage of additional modalities available in datasets only in training and not in testing. We will be particularly interested in reducing the noise present in images. The thesis begins with the simplest technique, which is a denoising before a task to increase the system’s ability to perform a task. Then, two more advanced techniques are presented, which propose guided denoising to increase the performance of a subsequent task. Finally, we conclude this thesis by presenting a technique called Input Dropout that facilitates the use of modality only available in training to increase the performance of a system, and this for a multitude of varied computer vision tasks. Apprentissage profond.
2	Détection de cibles hyperspectrales à partir d'apprentissage profond Girard, Ludovic 13 December 2023 (has links) L'imagerie hyperspectrale compte un vaste éventail d'applications, du tri des matières recyclables à l'agriculture, en passant par l'exploration géologique. Cependant, l'exploitation de cette forme d'imagerie est, encore aujourd'hui, majoritairement basée sur des algorithmes statistiques. Pendant ce temps, des domaines comme la vision numérique et le traitement de la langue naturelle jouissent d'avancées majeures propulsées par l'apprentissage profond. Plusieurs défis persistent afin d'effectuer le transfert de ces techniques d'apprentissage profond vers l'imagerie hyperspectrale. Notamment, il n'existe pas de grands ensembles de données hyperspectrales annotés, qui sont nécessaires pour l'entrainement de modèles d'apprentissage profond. De plus, la nature des données nécessite que les architectures développées en vision numérique soient adaptées afin de tirer profit de l'information spectrale plutôt que géométrique. L'objectif de ce projet est de relever ces multiples défis. Premièrement, nos travaux incluent le développement d'un vaste ensemble de données de détection de cibles hyperspectrales rares pour l'évaluation des performances. Ensuite, une technique d'entrainement basé sur la génération d'échantillons synthétiques est adaptée de la littérature afin de permettre l'entrainement sans disposer d'ensembles de données préalablement étiquetées. Finalement, des modèles développés pour la vision numérique sont modifiés afin d'exploiter la nature spectrale de nos données. Plus spécifiquement, nous nous concentrons sur le Shifted Windows (Swin) Transformer, une architecture ayant récemment fait ses preuves en dépassant les performances de plusieurs techniques de pointe, par exemple en détection d'objets sur l'ensemble Common objects in context (COCO). L'ensemble de nos travaux permettent à nos modèles d'atteindre un temps d'inférence de 86.9 % à 93.6 % plus rapide et une précision améliorée par rapport aux algorithmes statistiques traditionnels. Quoique les résultats obtenus soient prometteurs, nous concluons en énumérant de potentielles améliorations qui, selon nous, permettraient d'élever cette performance davantage. / Hyperspectral imagery has a vast range of applications, from sorting in recycling centers to agriculture, including geological exploration. However, the exploitation of this type of imagery is, to this day, mostly performed using statistical algorithms. Meanwhile, fields like computer vision and natural language processing benefit from major advances fueled by deep learning. Several challenges impede the transfer of these deep learning techniques to hyperspectral imagery. Notably, no large hyperspectral labeled datasets, which are necessary to train deep learning models, are available. Moreover, the nature of the data calls for adjustments of architectures introduced in computer vision in order to take advantage of the spectral information rather than the geometric information. Therefore, our goal is to tackle these multiple challenges. First, our work includes the development of a vast dataset for hyperspectral rare target detection to enable performance evaluation. Second, we adapt a training technique based on synthetic samples generation to allow training without previously labeled data. Finally, we adapt deep learning models developed for computer vision to suit our spectral data. Specifically, we focus on the Shifted Windows (Swin) Transformer, an architecture that has recently proven itself by surpassing multiple state-of-the-art techniques, including for object detection on the Common objects in context (COCO) dataset. Together, the different parts of our work allow our models to reach an inference time 86.9 % to 93.6 % faster and an improved accuracy over traditional statistical algorithms. Even though the achieved results are very promising, we conclude by enumerating potential improvements we think could greatly benefit the system's performance. Imagerie hyperspectrale. Apprentissage profond.
3	Deep-learning feature descriptor for tree bark re-identification Robert, Martin 02 February 2024 (has links) L’habilité de visuellement ré-identifier des objets est une capacité fondamentale des systèmes de vision. Souvent, ces systèmes s’appuient sur une collection de signatures visuelles basées sur des descripteurs comme SIFT ou SURF. Cependant, ces descripteurs traditionnels ont été conçus pour un certain domaine d’aspects et de géométries de surface (relief limité). Par conséquent, les surfaces très texturées telles que l’écorce des arbres leur posent un défi. Alors, cela rend plus difficile l’utilisation des arbres comme points de repère identifiables à des fins de navigation (robotique) ou le suivi du bois abattu le long d’une chaîne logistique (logistique). Nous proposons donc d’utiliser des descripteurs basés sur les données, qui une fois entraîné avec des images d’écorce, permettront la ré-identification de surfaces d’arbres. À cet effet, nous avons collecté un grand ensemble de données contenant 2 400 images d’écorce présentant de forts changements d’éclairage, annotées par surface et avec la possibilité d’être alignées au pixels près. Nous avons utilisé cet ensemble de données pour échantillonner parmis plus de 2 millions de parcelle d’image de 64x64 pixels afin d’entraîner nos nouveaux descripteurs locaux DeepBark et SqueezeBark. Notre méthode DeepBark a montré un net avantage par rapport aux descripteurs fabriqués à la main SIFT et SURF. Par exemple, nous avons démontré que DeepBark peut atteindre une mAP de 87.2% lorsqu’il doit retrouver 11 images d’écorce pertinentes, i.e correspondant à la même surface physique, à une image requête parmis 7,900 images. Notre travail suggère donc qu’il est possible de ré-identifier la surfaces des arbres dans un contexte difficile, tout en rendant public un nouvel ensemble de données. / The ability to visually re-identify objects is a fundamental capability in vision systems. Oftentimes,it relies on collections of visual signatures based on descriptors, such as SIFT orSURF. However, these traditional descriptors were designed for a certain domain of surface appearances and geometries (limited relief). Consequently, highly-textured surfaces such as tree bark pose a challenge to them. In turn, this makes it more difficult to use trees as identifiable landmarks for navigational purposes (robotics) or to track felled lumber along a supply chain (logistics). We thus propose to use data-driven descriptors trained on bark images for tree surface re-identification. To this effect, we collected a large dataset containing 2,400 bark images with strong illumination changes, annotated by surface and with the ability to pixel align them. We used this dataset to sample from more than 2 million 64 64 pixel patches to train our novel local descriptors DeepBark and SqueezeBark. Our DeepBark method has shown a clear advantage against the hand-crafted descriptors SIFT and SURF. For instance, we demonstrated that DeepBark can reach a mAP of 87.2% when retrieving 11 relevant barkimages, i.e. corresponding to the same physical surface, to a bark query against 7,900 images. ur work thus suggests that re-identifying tree surfaces in a challenging illuminations contextis possible. We also make public our dataset, which can be used to benchmark surfacere-identification techniques. Apprentissage profond.
4	Génération de designs de lentilles avec l'apprentissage profond Côté, Geoffroi 13 December 2023 (has links) Concevoir une lentille, que ce soit pour l'astronomie, la microscopie ou la vision numérique, est un problème de taille visant à trouver un compromis idéal entre la qualité d'image et les différentes contraintes. Par une procédure d'essais-erreurs, une approche typique consiste à sélectionner un point de départ parmi une banque de designs optiques puis à l'optimiser dans l'espoir de satisfaire les présents requis. Cette approche n'exploite pas pleinement la montagne d'information contenue dans les banques de designs : un seul de ces designs contribue au problème à la fois, et seulement s'il répond approximativement aux spécifications et à la configuration désirée. Comment peut-on faire mieux ? L'hypothèse de départ de cette thèse est que l'on peut utiliser l'apprentissage automatique pour extraire et exploiter les caractéristiques communes aux designs de haute qualité que l'on retrouve dans ces banques de données. Concrètement, ces designs conçus par des experts contribuent à l'entraînement d'un modèle d'apprentissage profond qui prend en entrée les spécifications désirées et retourne tous les paramètres nécessaires pour modéliser une lentille. Le contenu de cette thèse, qui détaille le développement de ce cadre d'extrapolation de lentilles, peut se résumer en trois principales contributions. Premièrement, nous définissons et validons un objectif d'entraînement qui compense pour la rareté des données disponibles, soit en intégrant le problème d'optimisation de lentilles directement à la boucle d'entraînement du modèle. Deuxièmement, nous élaborons un modèle dynamique qui acquiert une représentation commune pour toutes les lentilles indépendamment de leur configuration, ce qui nous permet d'extrapoler la banque de designs pour générer des lentilles sur de nouvelles configurations. Troisièmement, nous ajustons le cadre pour refléter le caractère multimodal de la conception afin d'inférer plusieurs lentilles de structures différentes pour n'importe quel ensemble de spécifications et de configuration de lentille. Avec une portée adéquate et un entraînement réussi, ce cadre d'extrapolation de lentilles représente un outil inédit pour la conception optique : une fois le modèle déployé, il permet d'obtenir sur demande des points de départ de haute qualité, variés et sur mesure, et ce, en un temps minimal. / Designing a lens, whether for astronomy, microscopy, or computer vision, is a challenging task that seeks an ideal balance between image quality and various constraints. Through a trial-and-error process, a typical approach consists in selecting a starting point in a lens design database and optimizing it to hopefully satisfy the problem at hand. This approach, however, does not fully harness the wealth of information contained in lens design databases: only one such design contributes to the problem at a time, and only if it approximately meets the desired specifications and configuration. How can we do better? The premise of this work is that machine learning can be used to extract and exploit the common features of the high-quality designs contained in lens design databases. Specifically, the expertly conceived designs that compose these databases are used to guide the training process of a deep learning-based model, which receives the design specifications as input and returns all the parameters needed to fully represent a lens. The content of the thesis, which details the development of this lens design extrapolation framework, can be summarized in three main contributions. First, we define and validate a training objective that compensates for the scarcity of available data, by integrating the lens optimization problem directly into the model training loop. Second, we develop a dynamic model that acquires a common representation for all lenses regardless of their configuration, allowing us to extrapolate the lens database to generate lenses on new, unseen configurations. Third, we extend the framework to capture the multimodal nature of lens design, so that multiple lenses with different structures can be inferred for any given set of specifications and configuration. With a suitable scope and a successful training process, this lens design extrapolation framework offers a new and valuable tool for lens designers: once the model is deployed, only a minimal amount of time is required to obtain varied, high-quality starting points that are tailored to the desired specifications. Lentilles (Optique) -- Conception. Apprentissage profond.
5	Theoretical framework for prior knowledge transfer in deep learning Chen, Qi 25 March 2024 (has links) Thèse ou mémoire avec insertion d'articles / Le transfert de connaissances a priori est essentiel pour améliorer les performances des modèles modernes d'apprentissage profond et réduire les coûts pour les entraîner. Cet article vise à étudier ce sujet important en établissant des cadres théoriques systématiques pour le transfert de connaissances a priori en apprentissage profond. Premièrement, nous introduisons un cadre théorique unifié reliant les approches conventionnelles d'apprentissage à apprendre et les méthodes modernes de méta-apprentissage indépendant du modèle (MAML). Les méthodes conventionnelles apprennent conjointement des modèles spécifiques à une tâche et des méta-paramètres en utilisant tous les données, tandis que MAML alterne entre les données de méta-train et de méta-validation pour entraîner les modèles et les méta-paramètres. Nous fournissons des bornes de généralisation qui sont dépendantes de l'algorithme d'apprentissage et des données, garantissant l'efficacité des deux approches. De plus, nous analysons l'impact des séparations des données de méta-train et méta-validation sur l'apprentissage alterné et proposons des bornes de généralisation non-trivials pour "l'apprentissage profond avec peu d'exemples", qui sont estimées avec l'incohérence de gradient entre les donnés de méta-train et tous les données. Par la suite, pour l'adaptation de domaine, cette thèse procède à une analyse complète des travaux théoriques antérieurs, visant à aborder certaines limites concernant les approches utilisant l'alignement de la représentation, le changement de distribution cible et le pseudo-étiquetage. Concrètement, nous présentons des analyses rigoureuses basées sur la théorie de l'information mutuelle pour l'adaptation de domaine multi-sources et proposons un algorithme qui effectue un alignement de représentation conjointe avec des pseudo-étiquettes pour atténuer le changement de distribution cible. Cet algorithme peut surpasser celui des travaux précédents dans le scénario non supervisé. Enfin, nous visons à résoudre le dilemme stabilité-plasticité dans le méta-apprentissage continu. Nous sommes les premiers à formuler théoriquement ce problème constitué d'un mélange d'apprentissage statistique et d'apprentissage en ligne dans des environnements statiques ou changeants. La théorie proposée peut identifier les facteurs influençant le compromis apprentissage-oubli à deux niveaux pour l'apprenant d'une tache et le méta-apprenant dans des environnements changeants. Nous proposons en outre un algorithme qui équilibre ce compromis à deux niveaux avec des performances empiriques améliorées. Dans l'ensemble, cette thèse fournit un cadre théorique unifié pour le méta-apprentissage, résout certaines limitations de l'adaptation de domaine et aborde le dilemme stabilité-plasticité dans le méta-apprentissage continu. Ses contributions constituent une amélioration de notre compréhension de ces domaines et proposent de meilleures méthodes de transfert de connaissances dans l'apprentissage profond. / Transferring prior knowledge is crucial in enhancing performance and reducing the training costs of modern deep-learning models. This thesis aims to study this important topic by developing systematic theoretical frameworks for prior knowledge transfer in deep learning. Firstly, we introduce a unified theoretical framework connecting the conventional learning-to-learn approaches and the modern model-agnostic meta-learning (MAML) methods. Conventional methods jointly learn task-specific models and meta-parameters using the entire dataset, while MAML alternates between meta-train and meta-validation sets for training models and meta-parameters. We provide algorithm-dependent and data-dependent generalization bounds, ensuring the effectiveness of both approaches. Furthermore, we analyze the impact of meta-train-validation split on alternate training methods and offer non-vacuous generalization bounds for deep few-shot learning estimated with the gradient-incoherence between the meta-train and the entire dataset. Subsequently, for domain adaptation, the thesis conducts a comprehensive analysis of previous theoretical works, aiming to address several limitations in representation alignment, target shift, and pseudo-labeling. Concretely, we present rigorous analyses based on information-theoretic learning theory for multi-source domain adaptation and propose an algorithm that conducts joint representation alignment with pseudo labels to mitigate target shift. The proposed algorithm outperforms previous works under the unsupervised scenario. Finally, we aim to address the stability-plasticity dilemma in continual meta-learning. We are the first to theoretically formulate this online statistical mixture learning problem in both static and shifting environments. The proposed theory can identify factors influencing the bi-level (task- and meta-level) learning-forgetting trade-off in shifting environments. We further propose an algorithm that balances the bi-level trade-off with enhanced empirical performance. Overall, this thesis provides a unified theoretical framework for meta-learning, addresses several limitations in domain adaptation, and tackles the stability-plasticity dilemma in continual meta-learning. Its contributions constitute improving our understanding of these areas and proposing new enhanced methods of knowledge transfer in deep learning. Apprentissage profond.
6	Suivi d'objet en 6 degrés de liberté avec caméra événementielle Dubeau, Etienne 15 September 2022 (has links) Actuellement, les méthodes de suivi d’objet utilisent majoritairement un capteur conventionnel doté d’une fréquence de capture limitée, par exemple : une caméra couleur RGB ou un capteur RGB-D qui fournit également la profondeur à chaque pixel. Ceux-ci ne sont pas idéaux lorsque l’objet se déplace à grande vitesse car des images floues sont produites. Augmenter la fréquence de capture est la solution naïve, mais cela a comme effet d’augmenter le nombre de données capturées et la complexité d’exécution des algorithmes. Ceci cause particulièrement problème dans un contexte de réalité augmentée qui utilise des systèmes embarqués ou mobiles qui ont des capacités de calcul limitées. D’un autre côté, la popularité des capteurs événementiels, qui mesurent les variations d’intensité dans la scène, est en augmentation dû à leur faible puissance d’utilisation, leur faible latence, leur capacité d’acquisition à grande vitesse et le fait qu’ils minimisent le nombre de données capturées. Ce mémoire présente donc une méthode d’apprentissage profond de suivi d’objet à grande vitesse en six degrés de liberté en combinant deux capteurs distincts, soit un capteur RGBD et une caméra événementielle. Pour permettre l’utilisation des capteurs conjointement, une méthode de calibration temporelle et spatiale est détaillée afin de mettre en registre les images capturées par les deux caméras. Par la suite, une méthode d’apprentissage profond de suivi d’objet est présentée. Celle-ci utilise uniquement des données synthétiques à l’entrainement et utilise les deux capteurs pour améliorer les performances de suivi d’objet en 6DOF, surtout dans les scénarios à grande vitesse. Pour terminer, un jeu de données RGB-D-E est capturé et annoté à la position réelle pour chaque trame. Ce jeu de données est accessible publiquement et peut être utilisé pour quantifier les performances de méthodes futures. Apprentissage profond. Poursuite (Ingénierie) Capteurs. Robots -- Mouvements.
7	Adaptability and extensibility of deep neural networks Pagé Fortin, Mathieu 28 June 2024 (has links) L'apprentissage profond a considérablement gagné en popularité au cours de la dernière décennie grâce à sa capacité à développer des modèles puissants qui apprennent directement à partir de données non structurées. Cette approche a été appliquée avec succès à divers domaines tels que le traitement du langage naturel, la vision par ordinateur et le traitement des signaux, et le rythme des progrès réalisés par la recherche académique et industrielle ne cesse de s'accélérer. Cependant, la majorité des recherches suppose la disponibilité de grands ensembles de données d'entraînement statiques. Par exemple, de nombreuses techniques sont conçues pour améliorer les capacités de généralisation des modèles d'apprentissage profond en utilisant des bases de données comme MS-COCO qui contient environ 300K images, ImageNet avec environ 1,5M d'exemples, et Visual Genome avec environ 3,8M d'instances d'objets. Or, récolter et annoter de tels ensembles de données peut être trop coûteux pour de nombreuses applications réelles. De plus, il est généralement supposé que l'entraînement peut être effectué en une seule étape, considérant ainsi que toutes les classes sont disponibles simultanément. Cela diffère d'applications réelles où les cas d'utilisation peuvent évoluer pour inclure de nouvelles classes au fil du temps, induisant ainsi la nécessité d'adapter continuellement les modèles existants, et faisant ainsi de l'apprentissage continuel. Dans cette thèse, nous visons à contribuer à l'adaptabilité et à l'extensibilité des réseaux de neurones profonds par le biais de l'apprentissage à partir de peu d'exemples et de l'apprentissage continuel. Plus précisément, nous proposons une méthode d'apprentissage qui exploite des relations contextuelles et des représentations multimodales pour former de meilleurs prototypes de classe en se basant sur des connaissances préalables, permettant l'adaptation à de nouvelles tâches avec seulement quelques exemples. De plus, nous contribuons à l'apprentissage continuel de classes, qui vise à permettre aux modèles d'apprentissage profond d'étendre leurs connaissances en intégrant de nouveaux concepts sans perdre la capacité de résoudre les tâches précédemment apprises. Contrairement à la majorité des travaux précédents qui ont exploré l'apprentissage continuel dans un contexte de classification d'images sur des bases de données simples (p. ex. MNIST et CIFAR), nos méthodes contribuent à l'apprentissage continuel de la segmentation sémantique, la détection d'objets et la segmentation d'instances, qui sont des problèmes plus complexes mais aussi plus applicatifs. Pour la segmentation sémantique continuelle, nous proposons un module d'apprentissage faiblement supervisé afin d'aborder les problèmes de dérive de l'arrière-plan (background shift) et des coûts élevés d'annotation. Nous introduisons également deux variantes d'un mécanisme de répétition qui permet de rejouer des régions d'images ou des caractéristiques intermédiaires sous la forme d'une technique d'augmentation de données. Nous explorons ensuite l'apprentissage continuel de la détection d'objets et de la segmentation d'instances en développant une architecture dynamique et une nouvelle méthode de distillation des connaissances qui augmente la plasticité tout en préservant une bonne stabilité. Finalement, nous étudions l'apprentissage continuel de la détection d'objets dans le contexte d'applications agricoles telles que la détection de plantes et de maladies. Pour ce faire, nous adaptons deux bases de données publiques pour simuler des scénarios d'apprentissage continuel et nous comparons diverses méthodes, introduisant ainsi deux scénarios experimentaux de référence pour étudier la vision numérique appliquée à des problèmes agricoles. Ensemble, ces contributions abordent plusieurs défis en lien avec l'apprentissage à partir de peu d'exemples et avec l'apprentissage continuel, faisant ainsi progresser le développement de modèles adaptables capables d'élargir progressivement leur base de connaissances au fil du temps. De plus, nous mettons un accent particulier sur l'étude de ces problèmes dans des configurations expérimentales impliquant des scènes complexes, qui sont plus représentatives des applications réelles déployées dans des environnements de production. / Deep learning has gained tremendous popularity in the last decade thanks to its ability to develop powerful models directly by learning from unstructured data. It has been successfully applied to various domains such as natural language processing, computer vision and signal processing, and the rate of progress made by academic and industrial research is still increasing. However, the majority of research assumes the availability of large, static training datasets. For instance, techniques are often designed to improve the generalization capabilities of deep learning models using datasets like MS-COCO with approximately 300K images, ImageNet with around 1.5M examples, and Visual Genome with roughly 3.8M object instances. Gathering and annotating such large datasets can be too costly for many real-world applications. Moreover, it is generally assumed that training is performed in a single step, thereby considering that all classes are available simultaneously. This differs from real applications where use cases can evolve to include novel classes, thus inducing the necessity to continuously adapt existing models and thereby performing continual learning. In this thesis, we aim to contribute to the adaptability and extensibility of deep neural networks through learning from few examples and continual learning. Specifically, we propose a few-shot learning method which leverages contextual relations and multimodal representations to learn better class prototypes, allowing to adapt to novel tasks with only a few examples. Moreover, we contribute to continual learning, aiming to allow deep learning models to extend their knowledge by learning new classes without loosing the ability to solve previously learned tasks. Contrarily to the majority of previous work which explores continual image classification on simple datasets (e.g. MNIST and CIFAR), our methods contribute to semantic segmentation, object detection and instance segmentation, which are more complex and practical problems. For continual semantic segmentation, we propose a weakly-supervised learning module to address the problems of background shift and annotation costs. We also introduce two variants of a rehearsal mechanism that can replay image patches or intermediate features in the form of a data augmentation technique. We then explore continual object detection and continual instance segmentation by developing a dynamic architecture and a novel knowledge distillation method which increases plasticity while ensuring stability. Finally, we experiment class-incremental object detection within the context of agricultural applications such as plant and disease detection. For that, we adapt two public datasets to simulate continual learning scenarios and we compare various continual and non-continual learning methods, thereby introducing a novel benchmark to study agricultural problems. Together, these contributions address several challenges of few-shot learning and continual learning, thus advancing the development of adaptable models capable of gradually expanding their knowledge base over time. Moreover, we have put a particular emphasis to study these problems within experimental setups that involve complex scenes, which are more representative of real applications as deployed in production environments. Réseaux neuronaux (Informatique) Apprentissage profond. Segmentation d'image.
8	Suivi d'objet en 6 degrés de liberté avec caméra événementielle Dubeau, Etienne 22 February 2024 (has links) Actuellement, les méthodes de suivi d'objet utilisent majoritairement un capteur conventionnel doté d'une fréquence de capture limitée, par exemple : une caméra couleur RGB ou un capteur RGB-D qui fournit également la profondeur à chaque pixel. Ceux-ci ne sont pas idéaux lorsque l'objet se déplace à grande vitesse car des images floues sont produites. Augmenter la fréquence de capture est la solution naïve, mais cela a comme effet d'augmenter le nombre de données capturées et la complexité d'exécution des algorithmes. Ceci cause particulièrement problème dans un contexte de réalité augmentée qui utilise des systèmes embarqués ou mobiles qui ont des capacités de calcul limitées. D'un autre côté, la popularité des capteurs événementiels, qui mesurent les variations d'intensité dans la scène, est en augmentation dû à leur faible puissance d'utilisation, leur faible latence, leur capacité d'acquisition à grande vitesse et le fait qu'ils minimisent le nombre de données capturées. Ce mémoire présente donc une méthode d'apprentissage profond de suivi d'objet à grande vitesse en six degrés de liberté en combinant deux capteurs distincts, soit un capteur RGB-D et une caméra événementielle. Pour permettre l'utilisation des capteurs conjointement, une méthode de calibration temporelle et spatiale est détaillée afin de mettre en registre les images capturées par les deux caméras. Par la suite, une méthode d'apprentissage profond de suivi d'objet est présentée. Celle-ci utilise uniquement des données synthétiques à l'entrainement et utilise les deux capteurs pour améliorer les performances de suivi d'objet en 6DOF, surtout dans les scénarios à grande vitesse. Pour terminer, un jeu de données RGB-D-E est capturé et annoté à la position réelle pour chaque trame. Ce jeu de données est accessible publiquement et peut être utilisé pour quantifier les performances de méthodes futures. Apprentissage profond. Poursuite (Ingénierie) Capteurs. Robots -- Mouvements.
9	Principled deep learning approaches for learning from limited labeled data through distribution matching Shui, Changjian 28 September 2023 (has links) Les réseaux de neurones profonds ont démontré un fort impact dans de nombreuses applications du monde réel et ont atteint des performances prometteuses dans plusieurs domaines de recherche. Cependant, ces gains empiriques sont généralement difficiles à déployer dans les scénarios du monde réel, car ils nécessitent des données étiquetées massives. Pour des raisons de temps et de budget, la collecte d'un tel ensemble de données d'entraînement à grande échelle est irréaliste. Dans cette thèse, l'objectif est d'utiliser le distribution matching pour développer de nouvelles approches d'apprentissage profond pour la prédiction de peu de données étiquetées. En particulier, nous nous concentrons sur les problèmes d'apprentissage multi-tâches, d'apprentissage actif et d'adaptation au domaine, qui sont les scénarios typiques de l'apprentissage à partir de données étiquetées limitées. La première contribution consiste à développer l'approche principale de l'apprentissage multi-tâches. Concrètement, on propose un point de vue théorique pour comprendre le rôle de la similarité entre les tâches. Basé sur les résultats théoriques, nous re-examinons l'algorithme du Adversarial Multi-Task Neural Network, et proposons un algorithme itératif pour estimer le coefficient des relations entre les tâches et les paramètres du réseaux de neurones. La deuxième contribution consiste à proposer une méthode unifiée pour les requêtes et les entraînements dans l'apprentissage actif profond par lots. Concrètement, nous modélisons la procédure interactive de l'apprentissage actif comme le distribution matching. Nous avons ensuite dérivé une nouvelle perte d'entraînement, qui se décompose en deux parties : l'optimisation des paramètres du réseaux de neurones et la sélection des requêtes par lots. En outre, la perte d'entraînement du réseau profond est formulée comme un problème d'optimisation min-max en utilisant les informations des données non étiquetées. La sélection de lots de requêtes proposée indique également un compromis explicite entre incertitude et diversité. La troisième contribution vise à montrer l'incohérence entre le domain adversarial training et sa correspondance théorique supposée, basée sur la H-divergence. Concrètement, nous découvrons que la H-divergence n'est pas équivalente à la divergence de Jensen-Shannon, l'objectif d'optimisation dans les entraînements adversaires de domaine. Pour cela, nous établissons un nouveau modèle théorique en prouvant explicitement les bornes supérieures et inférieures du risque de la cible, basées sur la divergence de Jensen-Shannon. Notre framework présente des flexibilités inhérentes pour différents problèmes d'apprentissage par transfert. D'un point de vue algorithmique, notre théorie fournit une guidance de l'alignement conditionnel sémantique, de l'alignement de la distribution marginale et de la correction du label-shift marginal. La quatrième contribution consiste à développer de nouvelles approches pour agréger des domaines de sources avec des distributions d'étiquettes différentes, où la plupart des approches récentes de sélection de sources échouent. L'algorithme que nous proposons diffère des approches précédentes sur deux points essentiels : le modèle agrège plusieurs sources principalement par la similarité de la distribution conditionnelle plutôt que par la distribution marginale ; le modèle propose un cadre unifié pour sélectionner les sources pertinentes pour trois scénarios populaires, l'adaptation de domaine avec une étiquette limitée sur le domaine cible, l'adaptation de domaine non supervisée et l'adaptation de domaine non supervisée partielle par étiquette. / Deep neural networks have demonstrated a strong impact on a wide range of tasks and achieved promising performances. However, these empirical gains are generally difficult to deploy in real-world scenarios, because they require large-scale hand-labeled datasets. Due to the time and cost budget, collecting such large-scale training sets is usually infeasible in practice. In this thesis, we develop novel approaches through distribution matching to learn limited labeled data. Specifically, we focus on the problems of multi-task learning, active learning, and domain adaptation, which are the typical scenarios in learning from limited labeled data. The first contribution is to develop a principled approach in multi-task learning. Specifically, we propose a theoretical viewpoint to understand the importance of task similarity in multi-task learning. Then we revisit the adversarial multi-task neural network and propose an iterative algorithm to estimate the task relation coefficient and neural-network parameters. The second contribution is to propose a unified and principled method for both querying and training in deep batch active learning. We model the interactive procedure as distribution matching. Then we derive a new principled approach in optimizing neural network parameters and batch query selection. The loss for neural network training is formulated as a min-max optimization through leveraging the unlabeled data. The query loss indicates an explicit uncertainty-diversity trade-off batch-selection. The third contribution aims at revealing the incoherence between the widely-adopted empirical domain adversarial training and its generally assumed theoretical counterpart based on H-divergence. Concretely, we find that H-divergence is not equivalent to Jensen-Shannon divergence, the optimization objective in domain adversarial training. To this end, we establish a new theoretical framework by directly proving the upper and lower target risk bounds based on the Jensen-Shannon divergence. Our framework exhibits flexibilities for different transfer learning problems. Besides, our theory enables a unified guideline in conditional matching, feature marginal matching, and label marginal shift correction. The fourth contribution is to design novel approaches for aggregating source domains with different label distributions, where most existing source selection approaches fail. Our proposed algorithm differs from previous approaches in two key ways: the model aggregates multiple sources mainly through the similarity of conditional distribution rather than marginal distribution; the model proposes a unified framework to select relevant sources for three popular scenarios, i.e., domain adaptation with limited label on the target domain, unsupervised domain adaptation and labels partial unsupervised domain adaption. Apprentissage profond. Réseaux neuronaux (Informatique) Étiquettes.
10	Détection d'anomalies basée sur les représentations latentes d'un autoencodeur variationnel Caron, Stéphane 10 February 2024 (has links) Dans ce mémoire, nous proposons une méthodologie qui permet de détecter des anomalies parmi un ensemble de données complexes, plus particulièrement des images. Pour y arriver, nous utilisons un type spécifique de réseau de neurones, soit un autoencodeur variationnel (VAE). Cette approche non-supervisée d'apprentissage profond nous permet d'obtenir une représentation plus simple de nos données sur laquelle nous appliquerons une mesure de distance de Kullback-Leibler nous permettant de discriminer les anomalies des observations "normales". Pour déterminer si une image nous apparaît comme "anormale", notre approche se base sur une proportion d'observations à filtrer, ce qui est plus simple et intuitif à établir qu'un seuil sur la valeur même de la distance. En utilisant notre méthodologie sur des images réelles, nous avons démontré que nous pouvons obtenir des performances de détection d'anomalies supérieures en termes d'aire sous la courbe ROC, de précision et de rappel par rapport à d'autres approches non-supervisées. De plus, nous avons montré que la simplicité de l'approche par niveau de filtration permet d'adapter facilement la méthode à des jeux de données ayant différents niveaux de contamination d'anomalies. / In this master's thesis, we propose a methodology that aims to detect anomalies among complex data, such as images. In order to do that, we use a specific type of neural network called the varitionnal autoencoder (VAE). This non-supervised deep learning approach allows us to obtain a simple representation of our data on which we then use the Kullback-Leibler distance to discriminate between anomalies and "normal" observations. To determine if an image should be considered "abnormal", our approach is based on a proportion of observations to be filtered, which is easier and more intuitive to establish than applying a threshold based on the value of a distance metric. By using our methodology on real complex images, we can obtain superior anomaly detection performances in terms of area under the ROC curve (AUC),precision and recall compared to other non-supervised methods. Moreover, we demonstrate that the simplicity of our filtration level allows us to easily adapt the method to datasets having different levels of anomaly contamination. Apprentissage profond. Réseaux neuronaux (Informatique) Analyse d'images.

Search results