Spelling suggestions: "subject:"apprentissage profonde"" "subject:"apprentissage profondeur""
11 |
Principled deep learning approaches for learning from limited labeled data through distribution matchingShui, Changjian 28 September 2023 (has links)
Les réseaux de neurones profonds ont démontré un fort impact dans de nombreuses applications du monde réel et ont atteint des performances prometteuses dans plusieurs domaines de recherche. Cependant, ces gains empiriques sont généralement difficiles à déployer dans les scénarios du monde réel, car ils nécessitent des données étiquetées massives. Pour des raisons de temps et de budget, la collecte d'un tel ensemble de données d'entraînement à grande échelle est irréaliste. Dans cette thèse, l'objectif est d'utiliser le distribution matching pour développer de nouvelles approches d'apprentissage profond pour la prédiction de peu de données étiquetées. En particulier, nous nous concentrons sur les problèmes d'apprentissage multi-tâches, d'apprentissage actif et d'adaptation au domaine, qui sont les scénarios typiques de l'apprentissage à partir de données étiquetées limitées. La première contribution consiste à développer l'approche principale de l'apprentissage multi-tâches. Concrètement, on propose un point de vue théorique pour comprendre le rôle de la similarité entre les tâches. Basé sur les résultats théoriques, nous re-examinons l'algorithme du Adversarial Multi-Task Neural Network, et proposons un algorithme itératif pour estimer le coefficient des relations entre les tâches et les paramètres du réseaux de neurones. La deuxième contribution consiste à proposer une méthode unifiée pour les requêtes et les entraînements dans l'apprentissage actif profond par lots. Concrètement, nous modélisons la procédure interactive de l'apprentissage actif comme le distribution matching. Nous avons ensuite dérivé une nouvelle perte d'entraînement, qui se décompose en deux parties : l'optimisation des paramètres du réseaux de neurones et la sélection des requêtes par lots. En outre, la perte d'entraînement du réseau profond est formulée comme un problème d'optimisation min-max en utilisant les informations des données non étiquetées. La sélection de lots de requêtes proposée indique également un compromis explicite entre incertitude et diversité. La troisième contribution vise à montrer l'incohérence entre le domain adversarial training et sa correspondance théorique supposée, basée sur la H-divergence. Concrètement, nous découvrons que la H-divergence n'est pas équivalente à la divergence de Jensen-Shannon, l'objectif d'optimisation dans les entraînements adversaires de domaine. Pour cela, nous établissons un nouveau modèle théorique en prouvant explicitement les bornes supérieures et inférieures du risque de la cible, basées sur la divergence de Jensen-Shannon. Notre framework présente des flexibilités inhérentes pour différents problèmes d'apprentissage par transfert. D'un point de vue algorithmique, notre théorie fournit une guidance de l'alignement conditionnel sémantique, de l'alignement de la distribution marginale et de la correction du label-shift marginal. La quatrième contribution consiste à développer de nouvelles approches pour agréger des domaines de sources avec des distributions d'étiquettes différentes, où la plupart des approches récentes de sélection de sources échouent. L'algorithme que nous proposons diffère des approches précédentes sur deux points essentiels : le modèle agrège plusieurs sources principalement par la similarité de la distribution conditionnelle plutôt que par la distribution marginale ; le modèle propose un cadre unifié pour sélectionner les sources pertinentes pour trois scénarios populaires, l'adaptation de domaine avec une étiquette limitée sur le domaine cible, l'adaptation de domaine non supervisée et l'adaptation de domaine non supervisée partielle par étiquette. / Deep neural networks have demonstrated a strong impact on a wide range of tasks and achieved promising performances. However, these empirical gains are generally difficult to deploy in real-world scenarios, because they require large-scale hand-labeled datasets. Due to the time and cost budget, collecting such large-scale training sets is usually infeasible in practice. In this thesis, we develop novel approaches through distribution matching to learn limited labeled data. Specifically, we focus on the problems of multi-task learning, active learning, and domain adaptation, which are the typical scenarios in learning from limited labeled data. The first contribution is to develop a principled approach in multi-task learning. Specifically, we propose a theoretical viewpoint to understand the importance of task similarity in multi-task learning. Then we revisit the adversarial multi-task neural network and propose an iterative algorithm to estimate the task relation coefficient and neural-network parameters. The second contribution is to propose a unified and principled method for both querying and training in deep batch active learning. We model the interactive procedure as distribution matching. Then we derive a new principled approach in optimizing neural network parameters and batch query selection. The loss for neural network training is formulated as a min-max optimization through leveraging the unlabeled data. The query loss indicates an explicit uncertainty-diversity trade-off batch-selection. The third contribution aims at revealing the incoherence between the widely-adopted empirical domain adversarial training and its generally assumed theoretical counterpart based on H-divergence. Concretely, we find that H-divergence is not equivalent to Jensen-Shannon divergence, the optimization objective in domain adversarial training. To this end, we establish a new theoretical framework by directly proving the upper and lower target risk bounds based on the Jensen-Shannon divergence. Our framework exhibits flexibilities for different transfer learning problems. Besides, our theory enables a unified guideline in conditional matching, feature marginal matching, and label marginal shift correction. The fourth contribution is to design novel approaches for aggregating source domains with different label distributions, where most existing source selection approaches fail. Our proposed algorithm differs from previous approaches in two key ways: the model aggregates multiple sources mainly through the similarity of conditional distribution rather than marginal distribution; the model proposes a unified framework to select relevant sources for three popular scenarios, i.e., domain adaptation with limited label on the target domain, unsupervised domain adaptation and labels partial unsupervised domain adaption.
|
12 |
Détection d'anomalies basée sur les représentations latentes d'un autoencodeur variationnelCaron, Stéphane 10 February 2024 (has links)
Dans ce mémoire, nous proposons une méthodologie qui permet de détecter des anomalies parmi un ensemble de données complexes, plus particulièrement des images. Pour y arriver, nous utilisons un type spécifique de réseau de neurones, soit un autoencodeur variationnel (VAE). Cette approche non-supervisée d'apprentissage profond nous permet d'obtenir une représentation plus simple de nos données sur laquelle nous appliquerons une mesure de distance de Kullback-Leibler nous permettant de discriminer les anomalies des observations "normales". Pour déterminer si une image nous apparaît comme "anormale", notre approche se base sur une proportion d'observations à filtrer, ce qui est plus simple et intuitif à établir qu'un seuil sur la valeur même de la distance. En utilisant notre méthodologie sur des images réelles, nous avons démontré que nous pouvons obtenir des performances de détection d'anomalies supérieures en termes d'aire sous la courbe ROC, de précision et de rappel par rapport à d'autres approches non-supervisées. De plus, nous avons montré que la simplicité de l'approche par niveau de filtration permet d'adapter facilement la méthode à des jeux de données ayant différents niveaux de contamination d'anomalies. / In this master's thesis, we propose a methodology that aims to detect anomalies among complex data, such as images. In order to do that, we use a specific type of neural network called the varitionnal autoencoder (VAE). This non-supervised deep learning approach allows us to obtain a simple representation of our data on which we then use the Kullback-Leibler distance to discriminate between anomalies and "normal" observations. To determine if an image should be considered "abnormal", our approach is based on a proportion of observations to be filtered, which is easier and more intuitive to establish than applying a threshold based on the value of a distance metric. By using our methodology on real complex images, we can obtain superior anomaly detection performances in terms of area under the ROC curve (AUC),precision and recall compared to other non-supervised methods. Moreover, we demonstrate that the simplicity of our filtration level allows us to easily adapt the method to datasets having different levels of anomaly contamination.
|
13 |
Active thermography : application of deep learning to defect detection and evaluationAhmadi, Mohammad Hossein 13 December 2023 (has links)
La thermographie à phase pulsée (TPP) a été présentée comme une nouvelle technique robuste de thermographie infrarouge (TIR) pour les essais non destructifs (END). Elle utilise la transformée de Fourier discrète (TFD) sur les images thermiques obtenues après un chauffage flash de la surface avant d'un spécimen pour extraire les informations de délai de phase (ou phase). Les gammes de phase calcules (ou cartes de phase) sont utilises pour la visualisation des défauts dans de nombreux matériaux. Le contraste de température permet de détecter les défauts à partir des données thermographiques. Cependant, les images thermiques comportent généralement un niveau de bruit important et des arrière-plans non uniformes causés par un chauffage inégal et des réflexions environnementales. Par conséquent, il n'est pas facile de reconnaître efficacement les régions défectueuses. Dans ce travail, nous avons appliqué la technique LSTM (Long Short Term Memory) et des réseaux de neurones convolutifs (RNC) basés sur des modèles d'apprentissage profond (AP) à la détection des défauts et à la classification de la profondeur des défauts à partir de données d'images thermographiques. Nos résultats expérimentaux ont montré que l'architecture proposée basée sur l'AP a obtenu des scores de précision de 0.95 et 0.77 pour la classification des pixels sains et défectueux. En outre, les résultats expérimentaux ont montré que les techniques LSTM et RNC ont obtenu des précisions de 0.91 et 0.82 pour la classification de la profondeur des défauts, respectivement. Par conséquent, la technique LSTM a surpassé la technique RNC pour les cas de détection des défauts et de classification de la profondeur des défauts. / Pulse Phase Thermography (PPT) has been introduced as a novel robust Non-Destructive Testing (NDT) Infrared Thermography (IRT) technique. It employs Discrete Fourier Transform (DFT) to thermal images obtained following flash heating of the front surface of a specimen to extract the phase delay (or phase) information. The computed phase grams (or phase maps) are used for defect visualization in many materials. The temperature contrast enables defect detection based on thermographic data. However, thermal images usually involve significant measurement noise and non-uniform backgrounds caused by uneven heating and environmental reflections. As a result, it is not easy to recognize the defective regions efficiently. In this work, we applied Long Short-Term Memory (LSTM) and Convolutions Neural Networks works (CNNs) based on deep learning (DL) models to defect detection and defect depth classification from thermographic image data. Our experimental results showed that the proposed DL-based architecture achieved 0.95 and 0.77 accuracy scores for sound and defected pixels classification. Furthermore, the experimental results illustrated that LSTM and CNN techniques achieved 0.91 and 0.82 accuracies for defect-depth classification, respectively. Consequently, the LSTM technique overcame the CNNs technique for defect detection and defect-depth classification cases.
|
14 |
Réseaux de neurones à convolutions pour la segmentation multi structures d'images par résonance magnétique cardiaqueZotti, Clément January 2018 (has links)
L'imagerie par résonance magnétique (IRM) est une technique d'acquisition d'images qui permet de visualiser les différents tissus du corps humain. Son principe se base sur le moment magnétique des protons des atomes d'hydrogène. Le corps étant principalement composé d'eau et donc d'hydrogène, cela en fait une méthode de choix pour faire de l'imagerie cardiaque. L'IRM est très utilisée en clinique pour observer et diagnostiquer les différentes maladies cardiaques, comme l'infarctus du myocarde, la cardiomyopathie dilatée ou la cardiomyopathie hypertrophique.
Dans le cas du coeur, principalement trois structures anatomiques sont étudiées: la cavité du ventricule gauche, la cavité du ventricule droit et le myocarde.
Dans ce but, il est nécessaire de faire une segmentation manuelle, semi-automatique ou automatique de l'image IRM. Une fois ces structures segmentées, différents paramètres physiologiques peuvent être calculés pour évaluer la maladie d'un patient.
Souvent, les méthodes de segmentation se concentrent sur la segmentation de la cavité du ventricule gauche. Pour les autres structures, la segmentation est principalement faite à la main par un médecin ce qui demande un temps non négligeable (environ 10 à 15 minutes par coeur).
Ce mémoire présente une base de données anonymisée d'images cardiaque contenant 150 patients avec différentes maladies cardiaques. Il présente aussi une nouvelle méthode de segmentation automatique des trois structures sans aucune intervention humaine. La méthode se base sur l'apprentissage profond, ce qui en fait une méthode très rapide (180 millisecondes par volume). Pour rendre les segmentations plus fidèles, elle incorpore un terme de contours qui permet d'avoir une segmentation plus précise des contours des structures et une forme a priori qui permet de rendre la segmentation plus près de celle d'un vrai coeur (sans trous ou anatomie impossible). Cette recherche est faite en collaboration avec l'Université de Bourgogne et l'Université de Lyon en France qui ont permis la mise en place de cette base de données cardiaque et la validation des résultats.
|
15 |
Deep learning for image compression / Apprentissage profond pour la compression d'imageDumas, Thierry 07 June 2019 (has links)
Ces vingt dernières années, la quantité d’images et de vidéos transmises a augmenté significativement, ce qui est principalement lié à l’essor de Facebook et Netflix. Même si les capacités de transmission s’améliorent, ce nombre croissant d’images et de vidéos transmises exige des méthodes de compression plus efficaces. Cette thèse a pour but d’améliorer par l’apprentissage deux composants clés des standards modernes de compression d’image, à savoir la transformée et la prédiction intra. Plus précisément, des réseaux de neurones profonds sont employés car ils ont un grand pouvoir d’approximation, ce qui est nécessaire pour apprendre une approximation fidèle d’une transformée optimale (ou d’un filtre de prédiction intra optimal) appliqué à des pixels d’image. En ce qui concerne l’apprentissage d’une transformée pour la compression d’image via des réseaux de neurones, un défi est d’apprendre une transformée unique qui est efficace en termes de compromis débit-distorsion, à différents débits. C’est pourquoi deux approches sont proposées pour relever ce défi. Dans la première approche, l’architecture du réseau de neurones impose une contrainte de parcimonie sur les coefficients transformés. Le niveau de parcimonie offre un contrôle sur le taux de compression. Afin d’adapter la transformée à différents taux de compression, le niveau de parcimonie est stochastique pendant la phase d’apprentissage. Dans la deuxième approche, l’efficacité en termes de compromis débit-distorsion est obtenue en minimisant une fonction de débit-distorsion pendant la phase d’apprentissage. Pendant la phase de test, les pas de quantification sont progressivement agrandis selon un schéma afin de compresser à différents débits avec une unique transformée apprise. Concernant l’apprentissage d’un filtre de prédiction intra pour la compression d’image via des réseaux de neurones, le problème est d’obtenir un filtre appris qui s’adapte à la taille du bloc d’image à prédire, à l’information manquante dans le contexte de prédiction et au bruit de quantification variable dans ce contexte. Un ensemble de réseaux de neurones est conçu et entraîné de façon à ce que le filtre appris soit adaptatif à ces égards. / Over the last twenty years, the amount of transmitted images and videos has increased noticeably, mainly urged on by Facebook and Netflix. Even though broadcast capacities improve, this growing amount of transmitted images and videos requires increasingly efficient compression methods. This thesis aims at improving via learning two critical components of the modern image compression standards, which are the transform and the intra prediction. More precisely, deep neural networks are used for this task as they exhibit high power of approximation, which is needed for learning a reliable approximation of an optimal transform (or an optimal intra prediction filter) applied to image pixels. Regarding the learning of a transform for image compression via neural networks, a challenge is to learn an unique transform that is efficient in terms of rate-distortion while keeping this efficiency when compressing at different rates. That is why two approaches are proposed to take on this challenge. In the first approach, the neural network architecture sets a sparsity on the transform coefficients. The level of sparsity gives a direct control over the compression rate. To force the transform to adapt to different compression rates, the level of sparsity is stochastically driven during the training phase. In the second approach, the rate-distortion efficiency is obtained by minimizing a rate-distortion objective function during the training phase. During the test phase, the quantization step sizes are gradually increased according a scheduling to compress at different rates using the single learned transform. Regarding the learning of an intra prediction filter for image compression via neural networks, the issue is to obtain a learned filter that is adaptive with respect to the size of the image block to be predicted, with respect to missing information in the context of prediction, and with respect to the variable quantization noise in this context. A set of neural networks is designed and trained so that the learned prediction filter has this adaptibility.
|
16 |
Reconnaissance visuelle robuste par réseaux de neurones dans des scénarios d'exploration robotique. Détecte-moi si tu peux ! / Robust visual recognition by neural networks in robotic exploration scenarios. Detect me if you can!Guerry, Joris 20 November 2017 (has links)
L'objectif principal ce travail de thèse est la reconnaissance visuelle pour un robot mobile dans des conditions difficiles. En particulier nous nous intéressons aux réseaux de neurones qui présentent aujourd'hui les meilleures performances en vision par ordinateur. Nous avons étudié le principe de sélection de méthodes pour la classification d'images 2D en utilisant un réseau de neurones sélecteur pour choisir le meilleur classifieur disponible étant donnée la situation observée. Cette stratégie fonctionne lorsque les données peuvent être facilement partitionnées vis-à-vis des classifieurs disponibles, ce qui est le cas quand des modalités complémentaires sont utilisées. Nous avons donc utilisé des données RGB-D (2.5D) en particulier appliquées à la détection de personnes. Nous proposons une combinaison de réseaux de neurones détecteurs indépendants propres à chaque modalité (couleur & carte de profondeur) basés sur une même architecture (le Faster RCNN). Nous partageons des résultats intermédiaires des détecteurs pour leur permettre de se compléter et d'améliorer la performance globale en situation difficile (perte de luminosité ou bruit d'acquisition de la carte de profondeur). Nous établissons un nouvel état de l'art dans le domaine et proposons un jeu de données plus complexe et plus riche à la communauté (ONERA.ROOM). Enfin, nous avons fait usage de l'information 3D contenue dans les images RGB-D au travers d'une méthode multi-vue. Nous avons défini une stratégie de génération de vues virtuelles 2D cohérentes avec la structure 3D. Pour une tâche de segmentation sémantique, cette approche permet d'augmenter artificiellement les données d'entraînement pour chaque image RGB-D et d'accumuler différentes prédictions lors du test. Nous obtenons de nouveaux résultats de référence sur les jeux de données SUNRGBD et NYUDv2. Ces travaux de thèse nous ont permis d'aborder de façon originale des données robotiques 2D, 2.5D et 3D avec des réseaux de neurones. Que ce soit pour la classification, la détection et la segmentation sémantique, nous avons non seulement validé nos approches sur des jeux de données difficiles, mais également amené l'état de l'art à un nouveau niveau de performance. / The main objective of this thesis is visual recognition for a mobile robot in difficult conditions. We are particularly interested in neural networks which present today the best performances in computer vision. We studied the concept of method selection for the classification of 2D images by using a neural network selector to choose the best available classifier given the observed situation. This strategy works when data can be easily partitioned with respect to available classifiers, which is the case when complementary modalities are used. We have therefore used RGB-D data (2.5D) in particular applied to people detection. We propose a combination of independent neural network detectors specific to each modality (color & depth map) based on the same architecture (Faster RCNN). We share intermediate results of the detectors to allow them to complement and improve overall performance in difficult situations (luminosity loss or acquisition noise of the depth map). We are establishing new state of the art scores in the field and propose a more complex and richer data set to the community (ONERA.ROOM). Finally, we made use of the 3D information contained in the RGB-D images through a multi-view method. We have defined a strategy for generating 2D virtual views that are consistent with the 3D structure. For a semantic segmentation task, this approach artificially increases the training data for each RGB-D image and accumulates different predictions during the test. We obtain new reference results on the SUNRGBD and NYUDv2 datasets. All these works allowed us to handle in an original way 2D, 2.5D and 3D robotic data with neural networks. Whether for classification, detection and semantic segmentation, we not only validated our approaches on difficult data sets, but also brought the state of the art to a new level of performance.
|
17 |
Infrared thermographic data processing with deep learning and explainable AIWei, Ziang 05 November 2024 (has links)
La thermographie pulsée (PT), importante méthode de contrôle non destructif, a suscité un intérêt croissant ces dernières années, en raison de sa rapidité de mesure, de son excellente mobilité et de sa haute résolution. Son champ d'application s'étend à divers matériaux, tels que les métaux et les matériaux composites. Les données thermographiques consistent en des séquences infrarouges bidimensionnelles représentant l'évolution de la température de surface de l'échantillon testé. Même pour les professionnels qualifiés, il est difficile d'identifier avec précision tous les types de défauts. En outre, la caractérisation des défauts peut être encore plus difficile à décider. Bien que l'apprentissage profond soit devenu une approche populaire du traitement automatisé des données ces dernières années, il existe quelques problèmes communs lorsqu'ils sont appliqués à l'analyse de séquences d'images thermographiques. Tout d'abord, les approches d'apprentissage profond sont généralement gourmandes en données, alors que les données thermographiques sont rares, la préparation des essais étant généralement fastidieuse. Deuxièmement, le ressuage étant axé sur la détection des défauts sous la surface, il est souvent très difficile d'obtenir l'emplacement exact des défauts. Cependant, la caractérisation précise des défauts est cruciale pour l'entraînement des réseaux neuronaux profonds. Troisièmement, contrairement au domaine de la vision par ordinateur, où il existe de nombreux ensembles de données bien préparés pour l'évaluation comparative de différents algorithmes, il n'existe que quelques ensembles de données de ressuage accessibles au public. Cependant, ces ensembles de données sont essentiels pour faire progresser les algorithmes de traitement des données thermographiques. Quatrièmement, les modèles d'apprentissage profond, malgré leurs bonnes performances, sont souvent considérés comme des « boîtes noires ». Cela constitue un obstacle à leur déploiement dans l'industrie pour l'assurance qualité, car il est très difficile de gagner la confiance de l'utilisateur final, qui est responsable de la qualité du produit. La présente étude se penche sur les questions susmentionnées. Pour remédier à la pénurie de données et au nombre limité d'ensembles de données de référence, deux ensembles de données de PT ont été préparés et mis à la disposition du public, l'un pour la segmentation des défauts et l'autre pour l'estimation et la localisation de la profondeur des défauts. Ce dernier ensemble de données est étiqueté à l'aide des images CAO correspondantes. Cela permet d'améliorer la précision des informations d'étiquetage. En outre, pour améliorer l'explicabilité des modèles profonds utilisés pour le traitement des données infrarouges, trois méthodes d'IA explicables sont étudiées, notamment la méthode de visualisation de la carte d'activation, la méthode d'attribution des caractéristiques et la méthode d'occlusion des caractéristiques. La méthode de visualisation de la carte d'activation montre le processus de prise de décision du modèle profond, qui est similaire à la perception humaine. La méthode d'attribution des caractéristiques et la méthode d'occlusion des caractéristiques ont généré des cartes thermiques similaires, démontrant que les modèles utilisent les caractéristiques correctes pour prendre les décisions finales. La crise de confiance du modèle profond peut donc être atténuée. / Pulsed thermography (PT), as an important nondestructive testing method, has attracted increasing attention in recent years, due to its rapid measurement speed, excellent mobility, and high resolution. Its applicability spans across various materials, such as metal and composite materials. The thermographic data consist of two-dimensional infrared sequences representing the evolution of the surface temperature of the test specimen. Even for skilled professionals, it is challenging to accurately identify all kinds of defects. Furthermore, the characterization for the defects can be even more difficult to decide. Although deep learning has become a popular automated data processing approach in recent years, there are some common issues when they are applied to the analysis of thermographic image sequences. First, deep learning approaches are typically data-hungry, whereas thermographic data are scarce as the preparation for testing is usually tedious. Second, as PT focuses on the detection of subsurface defects, it is often quite challenging to obtain the exact location of the defects. However, the accurate characterization of the defects is crucial for the training of deep neural networks. Third, unlike the computer vision field, where there are numerous well-prepared datasets for benchmarking different algorithms, there are only a few such publicly accessible PT datasets. However, these datasets are fundamental for advancing algorithms in thermographic data processing. Fourth, the deep learning models, despite their good performance, are often considered "black boxes". This presents an obstacle to their deployment in the industry for quality assurance due to the significant challenge of earning the trust of the end user who bears the responsibility for the product's quality. This study investigates the aforementioned issues. To address the scarcity of data and the limited benchmark datasets, two PT datasets are prepared and made publicly available, one is for defect segmentation and the other is for defect depth estimation and localization. The latter dataset is labeled using the corresponding CAD images. This enhances the accuracy of the labeling information. Furthermore, to enhance the explainability of the deep models used for infrared data processing, three explainable AI methods are investigated, including the activation map visualization method, feature attribution method, and feature occlusion method. The activation map visualization method shows the decision-making process of the deep model, which is similar to human perception. The feature attribution method and feature occlusion method generated similar heat maps, demonstrating that the models use the correct features to make final decisions. The trust crisis of the deep model can therefore be mitigated.
|
18 |
Deep learning-based advanced dose calculations in low-dose rate prostate brachytherapyBerumen, Francisco 17 July 2024 (has links)
La curiethérapie, une forme spécialisée de traitement du cancer, consiste à placer des sources radioactives près ou directement dans la lésion cancéreuse. Un aspect crucial de cette thérapie est le calcul de la dose de radiation. Traditionnellement, ce calcul s'appuie sur un formalisme qui considère l'eau comme milieu de transport, ce qui ne tient pas suffisamment compte des variations dans la composition des tissus du patient et des effets d'atténuation entre sources pour la curiethérapie permanente à faible débit de dose (LDR pour low-dose rate). La méthode Monte Carlo (MC) est la référence pour les calculs de dose avancés en curiethérapie, offrant une solution à ces limites. Cependant, l'application pratique de la méthode MC dans la planification du traitement est limitée par son temps d'exécution relativement lent. Cette thèse explore le potentiel des méthodes d'apprentissage profond (DL pour deep learning) pour surmonter ce défi. Plus précisément, la faisabilité d'utiliser des algorithmes DL pour prédire rapidement et avec précision la distribution de dose volumétrique pour patients de cancer de la prostate traités par la curiethérapie LDR est étudiée. Premièrement, le logiciel TOPAS a été systématiquement validée pour les simulations MC en curiethérapie en comparant les résultats simulés avec les données de référence TG-186 publiées. Le spectre d'énergie d'émission de photons, l'air-kerma strength et la constante de débit de dose de la source générique $^{192}$Ir MBDCA-WG ont été extraits. Pour les calculs de dose, un estimateur de longueur de trajectoire a été validé. Les quatre cas de test du groupe de travail MBDCA-WG AAPM/ESTRO/ABG ont été évalués. Un cas de prostate, un cas palliatif de poumon et un cas de sein ont été simulés. L'air-kerma strength et la constante de débit de dose étaient respectivement à 0,3% et 0,01% des valeurs de référence. Pour tous les cas de test, 96,9% des voxels avaient des différences de dose locales dans une plage de ±1%, tandis que les différences de dose globales concernaient 99,9% des voxels dans une plage de ±0,1%. Les histogrammes dose-volume des cas cliniques étaient cohérents avec les données de référence. TOPAS offre un accès étendu à un code MC de pointe pour les simulations en curiethérapie. Deuxièmement, un modèle DL à source unique entraîné avec des simulations MC comme référence a été proposé pour prédire avec précision les distributions de dose dans le milieu (D$_\textup{M,M}$ pour dose to medium in medium) en curiethérapie prostatique LDR. Des connaissances antérieures ont été incluses dans le réseau sous forme de noyau r$^2$ lié à l'inverse de la dépendance de dose de premier ordre en curiethérapie. Les caractéristiques du modèle montraient une représentation anisotrope tenant compte des organes du patient et de leurs interfaces, de la position de la source et des régions de faible et haute dose. La métrique CTV D$_{90}$ prédite présentait une différence moyenne de -0,1% par rapport au calcul basé sur MC. La prédiction d'un volume D$_\textup{M,M}$ complet de 1,18 M de voxels se réalise en 1,8 ms. Le modèle DL proposé représente donc un algorithme de calcul extrêmement rapide et simplifié, intégrant des connaissances physiques préexistantes pertinentes à la curiethérapie. Ce modèle est conçu pour tenir compte des caractéristiques anisotropes d'une source de curiethérapie et de la composition spécifique des tissus du patient, garantissant une approche précise et adaptée des calculs de dose. Enfin, deux algorithmes DL prédictifs de dose à plusieurs sources ont été validés pour la curiethérapie prostatique LDR. Les données de référence prenaient en compte les effets d'atténuation entre les sources et une définition des matériaux basée sur les organes du patient. De plus, les incertitudes aléatoires (associées aux données d'entrée) et épistémiques (associées au modèle) des modèles DL ont été évaluées. Les résultats ont montré que la métrique D$_{90}$ de la prostate prédite présentait une différence de -0,64% et de 0,08% pour les modèles UNet et ResUNet TSE, respectivement. Les deux modèles DL prédisaient un volume de dose de 2,56 M de voxels (128×160×128) en 4 ms. L'incertitude dérivée est quantifiable et interprétable, mettant en évidence les régions où les modèles DL pourraient rencontrer des difficultés pour fournir des estimations précises de dose. L'analyse de l'incertitude est un outil précieux pour une évaluation approfondie, améliorant le processus d'évaluation des modèles de prédiction de dose. De plus, cette analyse fournit des informations critiques sur la performance du modèle, identifiant les domaines d'amélioration potentielle et garantissant une application plus fiable dans un contexte clinique. / Brachytherapy, a specialized form of cancer treatment, involves the placement of radioactive sources near or directly within the cancerous lesion. A critical aspect of this therapy is the calculation of radiation dose. Traditionally, this calculation relies on a water-based formalism, which does not adequately account for variations in patient tissue compositions and interseed effects in low-dose rate (LDR) brachytherapy. The Monte Carlo (MC) method is the gold standard for advanced dose calculations in brachytherapy, offering a solution to these limitations. However, the practical application of the MC method in treatment planning is hindered by its relatively slow execution time. This thesis explores the potential of deep learning (DL) methods to overcome this challenge. Specifically, it investigates the feasibility of using DL algorithms to accurately predict the volumetric dose distribution in LDR prostate brachytherapy patients, aiming to streamline the treatment planning process while maintaining the precision of dose calculations. Firstly, the TOPAS MC toolkit was systematically validated for brachytherapy simulations by comparing simulated results with published TG-186 reference data. The photon emission energy spectrum, the air-kerma strength, and the dose-rate constant of the MBDCA-WG generic $^{192}$Ir source were extracted. For dose calculations, a track-length estimator was implemented. The four Joint AAPM/ESTRO/ABG MBDCA-WG test cases were evaluated. A prostate, a palliative lung, and a breast case were simulated. The air-kerma strength and dose-rate constant were within 0.3% and 0.01% of the reference values, respectively. For all test cases, 96.9% of voxels had local dose differences within ±1%. On the other hand, the global dose difference histograms had 99.9% of voxels within ±0.1%. Dose-volume histograms of clinical cases were consistent with the reference data. Overall, TOPAS provides access to a state-of-the-art MC code for brachytherapy simulations. Secondly, a single-seed DL model trained with MC simulations as the gold standard was built to predict accurate single-seed dose to medium in medium (D$_\textup{M,M}$) distributions in LDR prostate brachytherapy. Existing knowledge was included in the network as an r$^2$ kernel related to the inverse of the first-order dose dependency in brachytherapy. DL model features showed an anisotropic representation that considered the patient organs and their interfaces, the source position, and the low- and high-dose regions. The predicted CTV D$_{90}$ metric had an average difference of -0.1% with respect to the MC-based calculation. The single-seed DL model takes 1.8 ms to predict a complete 3D D$_\textup{M,M}$ volume of 1.18 M voxels. The proposed DL model represents a streamlined and rapid computational engine, incorporating pre-existing physics knowledge pertinent to brachytherapy. This engine is designed to consider the anisotropic characteristics of a brachytherapy source and the specific composition of patient tissues, ensuring an accurate, fast, and tailored approach to dose calculations. Lastly, two multi-seed DL-based predictive dose algorithms were trained for LDR prostate brachytherapy. Ground truth data considered interseed effects and an organ-based material assignment. Additionally, the aleatoric (associated with the input data) and epistemic (associated with the model) uncertainties of the DL models were assessed. Results showed that the predicted prostate D$_{90}$ metric had a difference of -0.64% and 0.08% for the UNet and ResUNet TSE models, respectively. Both DL models predicted a 3D dose volume of 2.56 M voxels (128×160×128) in 4 ms. The derived uncertainty is quantifiable and interpretable, highlighting regions where DL models might face challenges in delivering precise dose estimations. The uncertainty analysis is a valuable tool for a thorough evaluation, enhancing the assessment process of the dose prediction models. This analysis provides critical insights into the model's performance, pinpointing areas for potential improvement and ensuring a more reliable application in clinical settings.
|
19 |
Using citizen science data for natural forests post-disturbance semantic segmentation via deep learningNasiri, Kamyar 14 March 2025 (has links)
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2025 / La capacité à surveiller les zones forestières après les perturbations est essentielle pour assurer leur régénération. Les situations problématiques détectées peuvent alors faire l'objet d'efforts de régénération ciblés. Cependant, il est difficile d'atteindre cet objectif avec une photo-interprétation automatisée, car l'entraînement de ces systèmes nécessite de grandes quantités de données étiquetées. À cet effet, nous proposons d'exploiter les données de la science citoyenne (*iNaturalist*) pour atténuer ce problème. Plus précisément, nous cherchons à générer des données de pré-entraînement à partir d'un classificateur formé sur des exemples sélectionnés d'*iNaturalist*. Pour ce faire, nous utilisons une approche de fenêtre mobile appliquée sur des images à basse altitude soigneusement recueillies avec un drone aérien, le tout afin de générer des pseudo-étiquettes de haute qualité. Nos résultats indiquent que le pré-entraînement d'un réseau de segmentation sémantique sur plus de 140 000 images auto-étiquetées permet d'obtenir un score *F*1 de 43.74 % sur 24 classes différentes, sur un ensemble de données de vérité terrain distinct. En comparaison, l'utilisation des seules images étiquetées donne un score de 32.45 %, tandis que le réglage fin du réseau pré-entraîné n'apporte que des améliorations marginales (46.76 %). Fait important, nous démontrons que notre approche est capable de tirer parti d'un plus grand nombre d'images non étiquetées, ce qui ouvre la voie à l'apprentissage *à l'échelle*. Cela montre que l'imagerie par drone peut être exploitée pour l'identification des plantes avec une approche d'étiquetage automatique. Dans l'ensemble, ceci réduit considérablement le coût de développement de l'identification des plantes dans les régions de régénération, sur la base de l'imagerie par drone. / The ability to monitor forest areas after disturbances is key to ensure their regrowth. Problematic situations that are detected can then be addressed with targeted regeneration efforts. However, achieving this with automated photointerpretation is problematic, as training such systems requires large amounts of labeled data. To this effect, we leverage citizen science data (*iNaturalist*) to alleviate this issue. More precisely, we seek to generate pre-training data from a classifier trained on selected exemplars. This is accomplished by using a moving-window approach on carefully gathered low-altitude images with a Unmanned Aerial Vehicle (UAV) to generate high-quality pseudo-labels. Our results indicate that pre-training a semantic segmentation network on over 140 000 auto-labeled images yields an *F*1 score of 43.74 % over 24 different classes, on a separate ground truth dataset. In comparison, using only labeled images yields a score of 32.45 %, while fine-tuning the pre-trained network only yields marginal improvements (46.76 %). Importantly, we demonstrate that our approach is able to benefit from more unlabeled images, opening the door for learning *at scale*. Overall, this demonstrates that an auto-labeling approach can greatly reduce the development cost of plant identification in regeneration regions, based on UAV imagery.
|
20 |
Deep learning for object detection in robotic grasping contextsMercier, Jean-Philippe 02 February 2024 (has links)
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet. / In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.
|
Page generated in 0.0744 seconds