• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 155
  • 28
  • 19
  • Tagged with
  • 224
  • 224
  • 194
  • 192
  • 128
  • 101
  • 99
  • 99
  • 86
  • 80
  • 79
  • 75
  • 75
  • 75
  • 74
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Deep learning with multiple modalities : making the most out of available data

De Blois, Sébastien 02 February 2024 (has links)
L’apprentissage profond, un sous domaine de l’apprentissage machine, est reconnu pour nécessiter une très grande quantité de données pour atteindre des performances satisfaisantes en généralisation. Une autre restriction actuelle des systèmes utilisant l’apprentissage machine en lien avec les données est la nécessité d’avoir accès au même type de données autant durant la phase d’entrainement du modèle que durant la phase de test de celui-ci. Dans plusieurs cas, ceci rend inutilisable en entrainement des données de modalité supplémentaire pouvant possiblement apporter de l’information additionnelle au système et l’améliorer. Dans ce mémoire, plusieurs méthodes d’entrainement permettant de tirer avantage de modalités additionnelles disponibles dans des jeux de données seulement en entrainement et non durant la phase de test seront proposées. Pour débuter, nous nous intéressons à diminuer le bruit présent dans images.. On débute le mémoire avec la technique la plus simple, soit un débruitage avant une tâche pour augmenter la capacité du système à faire cette tâche. Par la suite, deux techniques un peu plus poussées proposant de faire un débruitage guidé pour augmenter les performances d’une tâche subséquente sont présentées. On conclut finalement cette thèse en présentant une technique du nom d’Input Dropout permettant d’utiliser très facilement une modalité seulement disponible en entrainement pour augmenter les performances d’un système, et ce pour une multitude de tâches variées de vision numérique. / Deep learning, a sub-domain of machine learning, is known to require a very large amount of data to achieve satisfactory performance in generalization. Another current limitation of these machine learning systems is the need to have access to the same type of data during the training phase of the model as during its testing phase. In many cases, this renders unusable training on additional modality data that could possibly bring additional information to the system and improve it. In this thesis, several training methods will be proposed to take advantage of additional modalities available in datasets only in training and not in testing. We will be particularly interested in reducing the noise present in images. The thesis begins with the simplest technique, which is a denoising before a task to increase the system’s ability to perform a task. Then, two more advanced techniques are presented, which propose guided denoising to increase the performance of a subsequent task. Finally, we conclude this thesis by presenting a technique called Input Dropout that facilitates the use of modality only available in training to increase the performance of a system, and this for a multitude of varied computer vision tasks.
2

Détection de cibles hyperspectrales à partir d'apprentissage profond

Girard, Ludovic 13 December 2023 (has links)
L'imagerie hyperspectrale compte un vaste éventail d'applications, du tri des matières recyclables à l'agriculture, en passant par l'exploration géologique. Cependant, l'exploitation de cette forme d'imagerie est, encore aujourd'hui, majoritairement basée sur des algorithmes statistiques. Pendant ce temps, des domaines comme la vision numérique et le traitement de la langue naturelle jouissent d'avancées majeures propulsées par l'apprentissage profond. Plusieurs défis persistent afin d'effectuer le transfert de ces techniques d'apprentissage profond vers l'imagerie hyperspectrale. Notamment, il n'existe pas de grands ensembles de données hyperspectrales annotés, qui sont nécessaires pour l'entrainement de modèles d'apprentissage profond. De plus, la nature des données nécessite que les architectures développées en vision numérique soient adaptées afin de tirer profit de l'information spectrale plutôt que géométrique. L'objectif de ce projet est de relever ces multiples défis. Premièrement, nos travaux incluent le développement d'un vaste ensemble de données de détection de cibles hyperspectrales rares pour l'évaluation des performances. Ensuite, une technique d'entrainement basé sur la génération d'échantillons synthétiques est adaptée de la littérature afin de permettre l'entrainement sans disposer d'ensembles de données préalablement étiquetées. Finalement, des modèles développés pour la vision numérique sont modifiés afin d'exploiter la nature spectrale de nos données. Plus spécifiquement, nous nous concentrons sur le Shifted Windows (Swin) Transformer, une architecture ayant récemment fait ses preuves en dépassant les performances de plusieurs techniques de pointe, par exemple en détection d'objets sur l'ensemble Common objects in context (COCO). L'ensemble de nos travaux permettent à nos modèles d'atteindre un temps d'inférence de 86.9 % à 93.6 % plus rapide et une précision améliorée par rapport aux algorithmes statistiques traditionnels. Quoique les résultats obtenus soient prometteurs, nous concluons en énumérant de potentielles améliorations qui, selon nous, permettraient d'élever cette performance davantage. / Hyperspectral imagery has a vast range of applications, from sorting in recycling centers to agriculture, including geological exploration. However, the exploitation of this type of imagery is, to this day, mostly performed using statistical algorithms. Meanwhile, fields like computer vision and natural language processing benefit from major advances fueled by deep learning. Several challenges impede the transfer of these deep learning techniques to hyperspectral imagery. Notably, no large hyperspectral labeled datasets, which are necessary to train deep learning models, are available. Moreover, the nature of the data calls for adjustments of architectures introduced in computer vision in order to take advantage of the spectral information rather than the geometric information. Therefore, our goal is to tackle these multiple challenges. First, our work includes the development of a vast dataset for hyperspectral rare target detection to enable performance evaluation. Second, we adapt a training technique based on synthetic samples generation to allow training without previously labeled data. Finally, we adapt deep learning models developed for computer vision to suit our spectral data. Specifically, we focus on the Shifted Windows (Swin) Transformer, an architecture that has recently proven itself by surpassing multiple state-of-the-art techniques, including for object detection on the Common objects in context (COCO) dataset. Together, the different parts of our work allow our models to reach an inference time 86.9 % to 93.6 % faster and an improved accuracy over traditional statistical algorithms. Even though the achieved results are very promising, we conclude by enumerating potential improvements we think could greatly benefit the system's performance.
3

Génération de designs de lentilles avec l'apprentissage profond

Côté, Geoffroi 13 December 2023 (has links)
Concevoir une lentille, que ce soit pour l'astronomie, la microscopie ou la vision numérique, est un problème de taille visant à trouver un compromis idéal entre la qualité d'image et les différentes contraintes. Par une procédure d'essais-erreurs, une approche typique consiste à sélectionner un point de départ parmi une banque de designs optiques puis à l'optimiser dans l'espoir de satisfaire les présents requis. Cette approche n'exploite pas pleinement la montagne d'information contenue dans les banques de designs : un seul de ces designs contribue au problème à la fois, et seulement s'il répond approximativement aux spécifications et à la configuration désirée. Comment peut-on faire mieux ? L'hypothèse de départ de cette thèse est que l'on peut utiliser l'apprentissage automatique pour extraire et exploiter les caractéristiques communes aux designs de haute qualité que l'on retrouve dans ces banques de données. Concrètement, ces designs conçus par des experts contribuent à l'entraînement d'un modèle d'apprentissage profond qui prend en entrée les spécifications désirées et retourne tous les paramètres nécessaires pour modéliser une lentille. Le contenu de cette thèse, qui détaille le développement de ce cadre d'extrapolation de lentilles, peut se résumer en trois principales contributions. Premièrement, nous définissons et validons un objectif d'entraînement qui compense pour la rareté des données disponibles, soit en intégrant le problème d'optimisation de lentilles directement à la boucle d'entraînement du modèle. Deuxièmement, nous élaborons un modèle dynamique qui acquiert une représentation commune pour toutes les lentilles indépendamment de leur configuration, ce qui nous permet d'extrapoler la banque de designs pour générer des lentilles sur de nouvelles configurations. Troisièmement, nous ajustons le cadre pour refléter le caractère multimodal de la conception afin d'inférer plusieurs lentilles de structures différentes pour n'importe quel ensemble de spécifications et de configuration de lentille. Avec une portée adéquate et un entraînement réussi, ce cadre d'extrapolation de lentilles représente un outil inédit pour la conception optique : une fois le modèle déployé, il permet d'obtenir sur demande des points de départ de haute qualité, variés et sur mesure, et ce, en un temps minimal. / Designing a lens, whether for astronomy, microscopy, or computer vision, is a challenging task that seeks an ideal balance between image quality and various constraints. Through a trial-and-error process, a typical approach consists in selecting a starting point in a lens design database and optimizing it to hopefully satisfy the problem at hand. This approach, however, does not fully harness the wealth of information contained in lens design databases: only one such design contributes to the problem at a time, and only if it approximately meets the desired specifications and configuration. How can we do better? The premise of this work is that machine learning can be used to extract and exploit the common features of the high-quality designs contained in lens design databases. Specifically, the expertly conceived designs that compose these databases are used to guide the training process of a deep learning-based model, which receives the design specifications as input and returns all the parameters needed to fully represent a lens. The content of the thesis, which details the development of this lens design extrapolation framework, can be summarized in three main contributions. First, we define and validate a training objective that compensates for the scarcity of available data, by integrating the lens optimization problem directly into the model training loop. Second, we develop a dynamic model that acquires a common representation for all lenses regardless of their configuration, allowing us to extrapolate the lens database to generate lenses on new, unseen configurations. Third, we extend the framework to capture the multimodal nature of lens design, so that multiple lenses with different structures can be inferred for any given set of specifications and configuration. With a suitable scope and a successful training process, this lens design extrapolation framework offers a new and valuable tool for lens designers: once the model is deployed, only a minimal amount of time is required to obtain varied, high-quality starting points that are tailored to the desired specifications.
4

Deep-learning feature descriptor for tree bark re-identification

Robert, Martin 02 February 2024 (has links)
L’habilité de visuellement ré-identifier des objets est une capacité fondamentale des systèmes de vision. Souvent, ces systèmes s’appuient sur une collection de signatures visuelles basées sur des descripteurs comme SIFT ou SURF. Cependant, ces descripteurs traditionnels ont été conçus pour un certain domaine d’aspects et de géométries de surface (relief limité). Par conséquent, les surfaces très texturées telles que l’écorce des arbres leur posent un défi. Alors, cela rend plus difficile l’utilisation des arbres comme points de repère identifiables à des fins de navigation (robotique) ou le suivi du bois abattu le long d’une chaîne logistique (logistique). Nous proposons donc d’utiliser des descripteurs basés sur les données, qui une fois entraîné avec des images d’écorce, permettront la ré-identification de surfaces d’arbres. À cet effet, nous avons collecté un grand ensemble de données contenant 2 400 images d’écorce présentant de forts changements d’éclairage, annotées par surface et avec la possibilité d’être alignées au pixels près. Nous avons utilisé cet ensemble de données pour échantillonner parmis plus de 2 millions de parcelle d’image de 64x64 pixels afin d’entraîner nos nouveaux descripteurs locaux DeepBark et SqueezeBark. Notre méthode DeepBark a montré un net avantage par rapport aux descripteurs fabriqués à la main SIFT et SURF. Par exemple, nous avons démontré que DeepBark peut atteindre une mAP de 87.2% lorsqu’il doit retrouver 11 images d’écorce pertinentes, i.e correspondant à la même surface physique, à une image requête parmis 7,900 images. Notre travail suggère donc qu’il est possible de ré-identifier la surfaces des arbres dans un contexte difficile, tout en rendant public un nouvel ensemble de données. / The ability to visually re-identify objects is a fundamental capability in vision systems. Oftentimes,it relies on collections of visual signatures based on descriptors, such as SIFT orSURF. However, these traditional descriptors were designed for a certain domain of surface appearances and geometries (limited relief). Consequently, highly-textured surfaces such as tree bark pose a challenge to them. In turn, this makes it more difficult to use trees as identifiable landmarks for navigational purposes (robotics) or to track felled lumber along a supply chain (logistics). We thus propose to use data-driven descriptors trained on bark images for tree surface re-identification. To this effect, we collected a large dataset containing 2,400 bark images with strong illumination changes, annotated by surface and with the ability to pixel align them. We used this dataset to sample from more than 2 million 64 64 pixel patches to train our novel local descriptors DeepBark and SqueezeBark. Our DeepBark method has shown a clear advantage against the hand-crafted descriptors SIFT and SURF. For instance, we demonstrated that DeepBark can reach a mAP of 87.2% when retrieving 11 relevant barkimages, i.e. corresponding to the same physical surface, to a bark query against 7,900 images. ur work thus suggests that re-identifying tree surfaces in a challenging illuminations contextis possible. We also make public our dataset, which can be used to benchmark surfacere-identification techniques.
5

Theoretical framework for prior knowledge transfer in deep learning

Chen, Qi 25 March 2024 (has links)
Thèse ou mémoire avec insertion d'articles / Le transfert de connaissances a priori est essentiel pour améliorer les performances des modèles modernes d'apprentissage profond et réduire les coûts pour les entraîner. Cet article vise à étudier ce sujet important en établissant des cadres théoriques systématiques pour le transfert de connaissances a priori en apprentissage profond. Premièrement, nous introduisons un cadre théorique unifié reliant les approches conventionnelles d'apprentissage à apprendre et les méthodes modernes de méta-apprentissage indépendant du modèle (MAML). Les méthodes conventionnelles apprennent conjointement des modèles spécifiques à une tâche et des méta-paramètres en utilisant tous les données, tandis que MAML alterne entre les données de méta-train et de méta-validation pour entraîner les modèles et les méta-paramètres. Nous fournissons des bornes de généralisation qui sont dépendantes de l'algorithme d'apprentissage et des données, garantissant l'efficacité des deux approches. De plus, nous analysons l'impact des séparations des données de méta-train et méta-validation sur l'apprentissage alterné et proposons des bornes de généralisation non-trivials pour "l'apprentissage profond avec peu d'exemples", qui sont estimées avec l'incohérence de gradient entre les donnés de méta-train et tous les données. Par la suite, pour l'adaptation de domaine, cette thèse procède à une analyse complète des travaux théoriques antérieurs, visant à aborder certaines limites concernant les approches utilisant l'alignement de la représentation, le changement de distribution cible et le pseudo-étiquetage. Concrètement, nous présentons des analyses rigoureuses basées sur la théorie de l'information mutuelle pour l'adaptation de domaine multi-sources et proposons un algorithme qui effectue un alignement de représentation conjointe avec des pseudo-étiquettes pour atténuer le changement de distribution cible. Cet algorithme peut surpasser celui des travaux précédents dans le scénario non supervisé. Enfin, nous visons à résoudre le dilemme stabilité-plasticité dans le méta-apprentissage continu. Nous sommes les premiers à formuler théoriquement ce problème constitué d'un mélange d'apprentissage statistique et d'apprentissage en ligne dans des environnements statiques ou changeants. La théorie proposée peut identifier les facteurs influençant le compromis apprentissage-oubli à deux niveaux pour l'apprenant d'une tache et le méta-apprenant dans des environnements changeants. Nous proposons en outre un algorithme qui équilibre ce compromis à deux niveaux avec des performances empiriques améliorées. Dans l'ensemble, cette thèse fournit un cadre théorique unifié pour le méta-apprentissage, résout certaines limitations de l'adaptation de domaine et aborde le dilemme stabilité-plasticité dans le méta-apprentissage continu. Ses contributions constituent une amélioration de notre compréhension de ces domaines et proposent de meilleures méthodes de transfert de connaissances dans l'apprentissage profond. / Transferring prior knowledge is crucial in enhancing performance and reducing the training costs of modern deep-learning models. This thesis aims to study this important topic by developing systematic theoretical frameworks for prior knowledge transfer in deep learning. Firstly, we introduce a unified theoretical framework connecting the conventional learning-to-learn approaches and the modern model-agnostic meta-learning (MAML) methods. Conventional methods jointly learn task-specific models and meta-parameters using the entire dataset, while MAML alternates between meta-train and meta-validation sets for training models and meta-parameters. We provide algorithm-dependent and data-dependent generalization bounds, ensuring the effectiveness of both approaches. Furthermore, we analyze the impact of meta-train-validation split on alternate training methods and offer non-vacuous generalization bounds for deep few-shot learning estimated with the gradient-incoherence between the meta-train and the entire dataset. Subsequently, for domain adaptation, the thesis conducts a comprehensive analysis of previous theoretical works, aiming to address several limitations in representation alignment, target shift, and pseudo-labeling. Concretely, we present rigorous analyses based on information-theoretic learning theory for multi-source domain adaptation and propose an algorithm that conducts joint representation alignment with pseudo labels to mitigate target shift. The proposed algorithm outperforms previous works under the unsupervised scenario. Finally, we aim to address the stability-plasticity dilemma in continual meta-learning. We are the first to theoretically formulate this online statistical mixture learning problem in both static and shifting environments. The proposed theory can identify factors influencing the bi-level (task- and meta-level) learning-forgetting trade-off in shifting environments. We further propose an algorithm that balances the bi-level trade-off with enhanced empirical performance. Overall, this thesis provides a unified theoretical framework for meta-learning, addresses several limitations in domain adaptation, and tackles the stability-plasticity dilemma in continual meta-learning. Its contributions constitute improving our understanding of these areas and proposing new enhanced methods of knowledge transfer in deep learning.
6

Suivi d'objet en 6 degrés de liberté avec caméra événementielle

Dubeau, Etienne 15 September 2022 (has links)
Actuellement, les méthodes de suivi d’objet utilisent majoritairement un capteur conventionnel doté d’une fréquence de capture limitée, par exemple : une caméra couleur RGB ou un capteur RGB-D qui fournit également la profondeur à chaque pixel. Ceux-ci ne sont pas idéaux lorsque l’objet se déplace à grande vitesse car des images floues sont produites. Augmenter la fréquence de capture est la solution naïve, mais cela a comme effet d’augmenter le nombre de données capturées et la complexité d’exécution des algorithmes. Ceci cause particulièrement problème dans un contexte de réalité augmentée qui utilise des systèmes embarqués ou mobiles qui ont des capacités de calcul limitées. D’un autre côté, la popularité des capteurs événementiels, qui mesurent les variations d’intensité dans la scène, est en augmentation dû à leur faible puissance d’utilisation, leur faible latence, leur capacité d’acquisition à grande vitesse et le fait qu’ils minimisent le nombre de données capturées. Ce mémoire présente donc une méthode d’apprentissage profond de suivi d’objet à grande vitesse en six degrés de liberté en combinant deux capteurs distincts, soit un capteur RGBD et une caméra événementielle. Pour permettre l’utilisation des capteurs conjointement, une méthode de calibration temporelle et spatiale est détaillée afin de mettre en registre les images capturées par les deux caméras. Par la suite, une méthode d’apprentissage profond de suivi d’objet est présentée. Celle-ci utilise uniquement des données synthétiques à l’entrainement et utilise les deux capteurs pour améliorer les performances de suivi d’objet en 6DOF, surtout dans les scénarios à grande vitesse. Pour terminer, un jeu de données RGB-D-E est capturé et annoté à la position réelle pour chaque trame. Ce jeu de données est accessible publiquement et peut être utilisé pour quantifier les performances de méthodes futures.
7

Active thermography : application of deep learning to defect detection and evaluation

Ahmadi, Mohammad Hossein 13 December 2023 (has links)
La thermographie à phase pulsée (TPP) a été présentée comme une nouvelle technique robuste de thermographie infrarouge (TIR) pour les essais non destructifs (END). Elle utilise la transformée de Fourier discrète (TFD) sur les images thermiques obtenues après un chauffage flash de la surface avant d'un spécimen pour extraire les informations de délai de phase (ou phase). Les gammes de phase calcules (ou cartes de phase) sont utilises pour la visualisation des défauts dans de nombreux matériaux. Le contraste de température permet de détecter les défauts à partir des données thermographiques. Cependant, les images thermiques comportent généralement un niveau de bruit important et des arrière-plans non uniformes causés par un chauffage inégal et des réflexions environnementales. Par conséquent, il n'est pas facile de reconnaître efficacement les régions défectueuses. Dans ce travail, nous avons appliqué la technique LSTM (Long Short Term Memory) et des réseaux de neurones convolutifs (RNC) basés sur des modèles d'apprentissage profond (AP) à la détection des défauts et à la classification de la profondeur des défauts à partir de données d'images thermographiques. Nos résultats expérimentaux ont montré que l'architecture proposée basée sur l'AP a obtenu des scores de précision de 0.95 et 0.77 pour la classification des pixels sains et défectueux. En outre, les résultats expérimentaux ont montré que les techniques LSTM et RNC ont obtenu des précisions de 0.91 et 0.82 pour la classification de la profondeur des défauts, respectivement. Par conséquent, la technique LSTM a surpassé la technique RNC pour les cas de détection des défauts et de classification de la profondeur des défauts. / Pulse Phase Thermography (PPT) has been introduced as a novel robust Non-Destructive Testing (NDT) Infrared Thermography (IRT) technique. It employs Discrete Fourier Transform (DFT) to thermal images obtained following flash heating of the front surface of a specimen to extract the phase delay (or phase) information. The computed phase grams (or phase maps) are used for defect visualization in many materials. The temperature contrast enables defect detection based on thermographic data. However, thermal images usually involve significant measurement noise and non-uniform backgrounds caused by uneven heating and environmental reflections. As a result, it is not easy to recognize the defective regions efficiently. In this work, we applied Long Short-Term Memory (LSTM) and Convolutions Neural Networks works (CNNs) based on deep learning (DL) models to defect detection and defect depth classification from thermographic image data. Our experimental results showed that the proposed DL-based architecture achieved 0.95 and 0.77 accuracy scores for sound and defected pixels classification. Furthermore, the experimental results illustrated that LSTM and CNN techniques achieved 0.91 and 0.82 accuracies for defect-depth classification, respectively. Consequently, the LSTM technique overcame the CNNs technique for defect detection and defect-depth classification cases.
8

Defect detection in infrared thermography by deep learning algorithms

Fang, Qiang 27 January 2024 (has links)
L'évaluation non destructive (END) est un domaine permettant d'identifier tous les types de dommages structurels dans un objet d'intérêt sans appliquer de dommages et de modifications permanents. Ce domaine fait l'objet de recherches intensives depuis de nombreuses années. La thermographie infrarouge (IR) est l'une des technologies d'évaluation non destructive qui permet d'inspecter, de caractériser et d'analyser les défauts sur la base d'images infrarouges (séquences) provenant de l'enregistrement de l'émission et de la réflexion de la lumière infrarouge afin d'évaluer les objets non autochauffants pour le contrôle de la qualité et l'assurance de la sécurité. Ces dernières années, le domaine de l'apprentissage profond de l'intelligence artificielle a fait des progrès remarquables dans les applications de traitement d'images. Ce domaine a montré sa capacité à surmonter la plupart des inconvénients des autres approches existantes auparavant dans un grand nombre d'applications. Cependant, en raison de l'insuffisance des données d'entraînement, les algorithmes d'apprentissage profond restent encore inexplorés, et seules quelques publications font état de leur application à l'évaluation non destructive de la thermographie (TNDE). Les algorithmes d'apprentissage profond intelligents et hautement automatisés pourraient être couplés à la thermographie infrarouge pour identifier les défauts (dommages) dans les composites, l'acier, etc. avec une confiance et une précision élevée. Parmi les sujets du domaine de recherche TNDE, les techniques d'apprentissage automatique supervisées et non supervisées sont les tâches les plus innovantes et les plus difficiles pour l'analyse de la détection des défauts. Dans ce projet, nous construisons des cadres intégrés pour le traitement des données brutes de la thermographie infrarouge à l'aide d'algorithmes d'apprentissage profond et les points forts des méthodologies proposées sont les suivants: 1. Identification et segmentation automatique des défauts par des algorithmes d'apprentissage profond en thermographie infrarouge. Les réseaux neuronaux convolutifs (CNN) pré-entraînés sont introduits pour capturer les caractéristiques des défauts dans les images thermiques infrarouges afin de mettre en œuvre des modèles basés sur les CNN pour la détection des défauts structurels dans les échantillons composés de matériaux composites (diagnostic des défauts). Plusieurs alternatives de CNNs profonds pour la détection de défauts dans la thermographie infrarouge. Les comparaisons de performance de la détection et de la segmentation automatique des défauts dans la thermographie infrarouge en utilisant différentes méthodes de détection par apprentissage profond : (i) segmentation d'instance (Center-mask ; Mask-RCNN) ; (ii) détection d’objet (Yolo-v3 ; Faster-RCNN) ; (iii) segmentation sémantique (Unet ; Res-unet); 2. Technique d'augmentation des données par la génération de données synthétiques pour réduire le coût des dépenses élevées associées à la collecte de données infrarouges originales dans les composites (composants d'aéronefs.) afin d'enrichir les données de formation pour l'apprentissage des caractéristiques dans TNDE; 3. Le réseau antagoniste génératif (GAN convolutif profond et GAN de Wasserstein) est introduit dans la thermographie infrarouge associée à la thermographie partielle des moindres carrés (PLST) (réseau PLS-GANs) pour l'extraction des caractéristiques visibles des défauts et l'amélioration de la visibilité des défauts pour éliminer le bruit dans la thermographie pulsée; 4. Estimation automatique de la profondeur des défauts (question de la caractérisation) à partir de données infrarouges simulées en utilisant un réseau neuronal récurrent simplifié : Gate Recurrent Unit (GRU) à travers l'apprentissage supervisé par régression. / Non-destructive evaluation (NDE) is a field to identify all types of structural damage in an object of interest without applying any permanent damage and modification. This field has been intensively investigated for many years. The infrared thermography (IR) is one of NDE technology through inspecting, characterize and analyzing defects based on the infrared images (sequences) from the recordation of infrared light emission and reflection to evaluate non-self-heating objects for quality control and safety assurance. In recent years, the deep learning field of artificial intelligence has made remarkable progress in image processing applications. This field has shown its ability to overcome most of the disadvantages in other approaches existing previously in a great number of applications. Whereas due to the insufficient training data, deep learning algorithms still remain unexplored, and only few publications involving the application of it for thermography nondestructive evaluation (TNDE). The intelligent and highly automated deep learning algorithms could be coupled with infrared thermography to identify the defect (damages) in composites, steel, etc. with high confidence and accuracy. Among the topics in the TNDE research field, the supervised and unsupervised machine learning techniques both are the most innovative and challenging tasks for defect detection analysis. In this project, we construct integrated frameworks for processing raw data from infrared thermography using deep learning algorithms and highlight of the methodologies proposed include the following: 1. Automatic defect identification and segmentation by deep learning algorithms in infrared thermography. The pre-trained convolutional neural networks (CNNs) are introduced to capture defect feature in infrared thermal images to implement CNNs based models for the detection of structural defects in samples made of composite materials (fault diagnosis). Several alternatives of deep CNNs for the detection of defects in the Infrared thermography. The comparisons of performance of the automatic defect detection and segmentation in infrared thermography using different deep learning detection methods: (i) instance segmentation (Center-mask; Mask-RCNN); (ii) objective location (Yolo-v3; Faster-RCNN); (iii) semantic segmentation (Unet; Res-unet); 2. Data augmentation technique through synthetic data generation to reduce the cost of high expense associated with the collection of original infrared data in the composites (aircraft components.) to enrich training data for feature learning in TNDE; 3. The generative adversarial network (Deep convolutional GAN and Wasserstein GAN) is introduced to the infrared thermography associated with partial least square thermography (PLST) (PLS-GANs network) for visible feature extraction of defects and enhancement of the visibility of defects to remove noise in Pulsed thermography; 4. Automatic defect depth estimation (Characterization issue) from simulated infrared data using a simplified recurrent neural network: Gate Recurrent Unit (GRU) through the regression supervised learning.
9

Suivi d'objet en 6 degrés de liberté avec caméra événementielle

Dubeau, Etienne 22 February 2024 (has links)
Actuellement, les méthodes de suivi d'objet utilisent majoritairement un capteur conventionnel doté d'une fréquence de capture limitée, par exemple : une caméra couleur RGB ou un capteur RGB-D qui fournit également la profondeur à chaque pixel. Ceux-ci ne sont pas idéaux lorsque l'objet se déplace à grande vitesse car des images floues sont produites. Augmenter la fréquence de capture est la solution naïve, mais cela a comme effet d'augmenter le nombre de données capturées et la complexité d'exécution des algorithmes. Ceci cause particulièrement problème dans un contexte de réalité augmentée qui utilise des systèmes embarqués ou mobiles qui ont des capacités de calcul limitées. D'un autre côté, la popularité des capteurs événementiels, qui mesurent les variations d'intensité dans la scène, est en augmentation dû à leur faible puissance d'utilisation, leur faible latence, leur capacité d'acquisition à grande vitesse et le fait qu'ils minimisent le nombre de données capturées. Ce mémoire présente donc une méthode d'apprentissage profond de suivi d'objet à grande vitesse en six degrés de liberté en combinant deux capteurs distincts, soit un capteur RGB-D et une caméra événementielle. Pour permettre l'utilisation des capteurs conjointement, une méthode de calibration temporelle et spatiale est détaillée afin de mettre en registre les images capturées par les deux caméras. Par la suite, une méthode d'apprentissage profond de suivi d'objet est présentée. Celle-ci utilise uniquement des données synthétiques à l'entrainement et utilise les deux capteurs pour améliorer les performances de suivi d'objet en 6DOF, surtout dans les scénarios à grande vitesse. Pour terminer, un jeu de données RGB-D-E est capturé et annoté à la position réelle pour chaque trame. Ce jeu de données est accessible publiquement et peut être utilisé pour quantifier les performances de méthodes futures.
10

Adaptability and extensibility of deep neural networks

Pagé Fortin, Mathieu 28 June 2024 (has links)
L'apprentissage profond a considérablement gagné en popularité au cours de la dernière décennie grâce à sa capacité à développer des modèles puissants qui apprennent directement à partir de données non structurées. Cette approche a été appliquée avec succès à divers domaines tels que le traitement du langage naturel, la vision par ordinateur et le traitement des signaux, et le rythme des progrès réalisés par la recherche académique et industrielle ne cesse de s'accélérer. Cependant, la majorité des recherches suppose la disponibilité de grands ensembles de données d'entraînement statiques. Par exemple, de nombreuses techniques sont conçues pour améliorer les capacités de généralisation des modèles d'apprentissage profond en utilisant des bases de données comme MS-COCO qui contient environ 300K images, ImageNet avec environ 1,5M d'exemples, et Visual Genome avec environ 3,8M d'instances d'objets. Or, récolter et annoter de tels ensembles de données peut être trop coûteux pour de nombreuses applications réelles. De plus, il est généralement supposé que l'entraînement peut être effectué en une seule étape, considérant ainsi que toutes les classes sont disponibles simultanément. Cela diffère d'applications réelles où les cas d'utilisation peuvent évoluer pour inclure de nouvelles classes au fil du temps, induisant ainsi la nécessité d'adapter continuellement les modèles existants, et faisant ainsi de l'apprentissage continuel. Dans cette thèse, nous visons à contribuer à l'*adaptabilité* et à l'*extensibilité* des réseaux de neurones profonds par le biais de l'apprentissage à partir de peu d'exemples et de l'apprentissage continuel. Plus précisément, nous proposons une méthode d'apprentissage qui exploite des relations contextuelles et des représentations multimodales pour former de meilleurs prototypes de classe en se basant sur des connaissances préalables, permettant l'*adaptation* à de nouvelles tâches avec seulement quelques exemples. De plus, nous contribuons à l'apprentissage continuel de classes, qui vise à permettre aux modèles d'apprentissage profond d'*étendre* leurs connaissances en intégrant de nouveaux concepts sans perdre la capacité de résoudre les tâches précédemment apprises. Contrairement à la majorité des travaux précédents qui ont exploré l'apprentissage continuel dans un contexte de classification d'images sur des bases de données simples (p. ex. MNIST et CIFAR), nos méthodes contribuent à l'apprentissage continuel de la segmentation sémantique, la détection d'objets et la segmentation d'instances, qui sont des problèmes plus complexes mais aussi plus applicatifs. Pour la segmentation sémantique continuelle, nous proposons un module d'apprentissage faiblement supervisé afin d'aborder les problèmes de dérive de l'arrière-plan (*background shift*) et des coûts élevés d'annotation. Nous introduisons également deux variantes d'un mécanisme de répétition qui permet de rejouer des régions d'images ou des caractéristiques intermédiaires sous la forme d'une technique d'augmentation de données. Nous explorons ensuite l'apprentissage continuel de la détection d'objets et de la segmentation d'instances en développant une architecture dynamique et une nouvelle méthode de distillation des connaissances qui augmente la plasticité tout en préservant une bonne stabilité. Finalement, nous étudions l'apprentissage continuel de la détection d'objets dans le contexte d'applications agricoles telles que la détection de plantes et de maladies. Pour ce faire, nous adaptons deux bases de données publiques pour simuler des scénarios d'apprentissage continuel et nous comparons diverses méthodes, introduisant ainsi deux scénarios experimentaux de référence pour étudier la vision numérique appliquée à des problèmes agricoles. Ensemble, ces contributions abordent plusieurs défis en lien avec l'apprentissage à partir de peu d'exemples et avec l'apprentissage continuel, faisant ainsi progresser le développement de modèles adaptables capables d'élargir progressivement leur base de connaissances au fil du temps. De plus, nous mettons un accent particulier sur l'étude de ces problèmes dans des configurations expérimentales impliquant des scènes complexes, qui sont plus représentatives des applications réelles déployées dans des environnements de production. / Deep learning has gained tremendous popularity in the last decade thanks to its ability to develop powerful models directly by learning from unstructured data. It has been successfully applied to various domains such as natural language processing, computer vision and signal processing, and the rate of progress made by academic and industrial research is still increasing. However, the majority of research assumes the availability of large, static training datasets. For instance, techniques are often designed to improve the generalization capabilities of deep learning models using datasets like MS-COCO with approximately 300K images, ImageNet with around 1.5M examples, and Visual Genome with roughly 3.8M object instances. Gathering and annotating such large datasets can be too costly for many real-world applications. Moreover, it is generally assumed that training is performed in a single step, thereby considering that all classes are available simultaneously. This differs from real applications where use cases can evolve to include novel classes, thus inducing the necessity to continuously adapt existing models and thereby performing continual learning. In this thesis, we aim to contribute to the *adaptability* and *extensibility* of deep neural networks through learning from few examples and continual learning. Specifically, we propose a few-shot learning method which leverages contextual relations and multimodal representations to learn better class prototypes, allowing to *adapt* to novel tasks with only a few examples. Moreover, we contribute to continual learning, aiming to allow deep learning models to *extend* their knowledge by learning new classes without loosing the ability to solve previously learned tasks. Contrarily to the majority of previous work which explores continual image classification on simple datasets (e.g. MNIST and CIFAR), our methods contribute to semantic segmentation, object detection and instance segmentation, which are more complex and practical problems. For continual semantic segmentation, we propose a weakly-supervised learning module to address the problems of background shift and annotation costs. We also introduce two variants of a rehearsal mechanism that can replay image patches or intermediate features in the form of a data augmentation technique. We then explore continual object detection and continual instance segmentation by developing a dynamic architecture and a novel knowledge distillation method which increases plasticity while ensuring stability. Finally, we experiment class-incremental object detection within the context of agricultural applications such as plant and disease detection. For that, we adapt two public datasets to simulate continual learning scenarios and we compare various continual and non-continual learning methods, thereby introducing a novel benchmark to study agricultural problems. Together, these contributions address several challenges of few-shot learning and continual learning, thus advancing the development of adaptable models capable of gradually expanding their knowledge base over time. Moreover, we have put a particular emphasis to study these problems within experimental setups that involve complex scenes, which are more representative of real applications as deployed in production environments.

Page generated in 0.1028 seconds