• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 163
  • 29
  • 20
  • Tagged with
  • 234
  • 234
  • 199
  • 197
  • 133
  • 105
  • 103
  • 102
  • 88
  • 83
  • 81
  • 79
  • 76
  • 75
  • 74
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Experimental innovations in digital X-ray radiography : enhancing deep learning models' performance for robust defect evaluation

Hena, Bata 29 January 2025 (has links)
Pour répondre au besoin croissant d'inspection par contrôle non destructif (CND) dans les industries manufacturières, il est impératif de développer des solutions qui exploiteront les possibilités d'automatisation pour compléter les compétences des inspecteurs humains. Le secteur du moulage sous pression d'aluminium (ADC) est un secteur en constante évolution, au service d'industries critiques pour la sécurité comme l'automobile et l'aérospatiale. Cependant, les ADC sont susceptibles de présenter des défauts de fabrication dont la plupart ne sont pas visibles à l'œil nu et nécessitent une application appropriée des techniques CND pour vérifier leur intégrité structurelle et leur aptitude à l'emploi. Ces procédures sont standardisées et doivent être menées conformément aux normes industrielles applicables. Le développement de l'automatisation des tâches d'évaluation des images radiographiques des ADC est confronté à un défi, notamment en ce qui concerne la capacité de ces solutions à se conformer aux normes CND. Les réseaux neuronaux d'apprentissage profond ont démontré un potentiel important dans la reconnaissance automatisée des défauts/défauts, néanmoins, la confiance nécessaire pour accepter de telles solutions dans les secteurs critiques pour la sécurité ne peut être acquise que si l'on comprend suffisamment comment ces modèles fonctionnent et quelles propriétés exactes des données de formation sont cruciales pour leurs performances. Au fil des ans, l'utilisation prolifique de l'apprentissage profond dans divers secteurs a popularisé la notion de sa forte dépendance aux données, en mettant davantage l'accent sur la quantité que sur la qualité. Cette thèse est composée d'études expérimentales visant à comprendre les propriétés des données de radiographie numérique à rayons X qui sont cruciales pour affecter les performances de l'apprentissage profond. Dans le premier chapitre, une étude approfondie entre l'influence du rapport contraste/bruit et du rapport signal/bruit a été menée. Les résultats de l'étude ont révélé que la variation du rapport contraste/bruit (CNR) a un impact sur le comportement d'apprentissage des modèles d'apprentissage profond d'une manière qui pourrait être exploitée pour former un modèle d'apprentissage profond hautement performant. Une deuxième étude telle que présentée au chapitre 2 de cette thèse considère les propriétés des images de radiographie numérique à rayons X, en particulier les propriétés statistiques de la distribution d'intensité des pixels. Cette découverte a ouvert la voie à la synthèse d'images radiographiques numériques et à leur utilisation comme données d'apprentissage pour une application d'apprentissage profond. Bien qu'entraîné uniquement sur les données synthétiques, le modèle a obtenu d'excellentes performances sur de véritables images de radiographie numérique à rayons X. Grâce à l'approche peu coûteuse en termes de calcul qu'elle présente, cette solution offre de bonnes perspectives dans les industries, en particulier dans l'industrie ADC qui fabrique des produits aux morphologies cohérentes. Au chapitre 3, la pertinence de la qualité des données par rapport à la quantité pure a été étudiée dans une étude expérimentale utilisant un simulateur de radiographie numérique à rayons X de pointe (aRTist). L'acquisition d'images a été réalisée sous deux formes distinctes : tout d'abord, la pratique industrielle conventionnelle qui stipule une plage fixe de qualité d'image à atteindre (par exemple, le rapport signal/bruit) a été utilisée pour acquérir des images à partir de 140 composants. Deuxièmement, un moyen non conventionnel qui se concentre sur la variation des paramètres d'exposition pour modifier les propriétés des défauts dans les images, notamment le rapport contraste/bruit (CNR), a été utilisé pour acquérir un ensemble de données avec seulement 42 % des composants de test. Les performances des modèles d'apprentissage profond formés distinctement sur chaque ensemble de données ont été comparées. Bien qu'organisé à l'aide de moins de composants, le modèle formé sur les données acquises à l'aide d'une méthode d'acquisition d'images non conventionnelle a démontré de meilleures performances de modèle. Cette étude confirme une exploitation efficace de nos résultats expérimentaux antérieurs qui identifient le CNR comme un paramètre d'image qui influence les performances de l'apprentissage profond. Le chapitre 4 se concentre sur le développement d'un algorithme de classement des défauts pour classer les défauts détectés dans les composants moulés sous pression en aluminium, inspiré de la norme ASTM E2973- 15. Le pipeline de classement utilise un algorithme d'arbre k-dimensionnel (K-D) qui structure les défauts détectés pour faciliter une évaluation efficace des défauts. Cela permet des requêtes spatiales rapides et une évaluation efficace de la gravité des défauts sur la base de critères prédéfinis tels que des normes mondiales ou des termes spécifiques au client. L'algorithme a démontré une grande efficacité, classant avec précision les défauts et peut faciliter la prise de décision automatisée (Accepter/Rejeter) en radiographie numérique à rayons X. L'adaptabilité du système à différents critères de classement garantit son applicabilité dans divers secteurs critiques pour la sécurité. Collectivement, les études contenues dans cette thèse présentent des innovations expérimentales en radiographie numérique à rayons X qui influencent les performances du modèle d'apprentissage profond pour une évaluation robuste des défauts, offrant ainsi une voie viable pour réaliser une évaluation d'image automatisée qui peut atteindre une inspection à 100 % des composants fabriqués, même dans les secteurs qui nécessitent un strict respect des normes CND. / To meet the rising need for Non-destructive Testing (NDT) inspection in manufacturing industries, it is imperative to develop solutions that will exploit automation possibilities, to supplement the competencies of human inspectors. The aluminum die casting (ADC) sector is one that evolves constantly, serving safety-critical industries like automotive and aerospace. However, ADCs are prone to having manufacturing flaws, most of which are not visible to the human eye and hence require proper application of NDT techniques to ascertain their structural integrity, and fitness for use. The NDT procedures are standardized and must be conducted in accordance with applicable industrial standards. Developing automated solutions of tasks such as the evaluation of radiographic images of ADCs faces a challenge, particularly in the ability such solutions to conform to NDT standards. Deep learning neural networks have demonstrated significant potential in automated flaw/defect recognition, nonetheless, the confidence needed to accept such solutions in safety-critical sectors can only be gained if there is sufficient understanding of how these models operate, and what exact properties within training data is crucial to their performance. Over the years, the prolific use of deep learning across various sectors has popularized the notion of its high dependence on data, with more emphasis on the quantity, rather than the quality. This dissertation is composed of experimental studies aimed at understanding the properties of digital X-ray radiography data that is crucial in impacting deep learning performance. In the first chapter, an extensive study between the influence of contrast-to-noise ratio and signal-to-noise ratio was conducted. Findings from the study revealed that contrast-to-noise ratio (CNR) variation impacts training behaviour of the deep learning models in a manner that could be leveraged to train a deep learning model to be highly performant. A second study as presented in Chapter 2 of this dissertation considers the properties of digital X-ray radiography images, specifically the statistical properties of the pixel intensity distribution. This finding paved the way for the synthesization of digital X-ray images, using them as training data for a deep learning application. Although trained on only the synthetic data, the trained model performed excellently on real digital X-ray radiography images. With the computationally inexpensive approach it presents, this solution holds good prospect in industries, especially ADC industry that manufactures products with consistent morphologies. In Chapter 3, the relevance of data quality over sheer quantity was investigated in an experimental study using a state-of-the-art digital X-ray radiography simulator (aRTist). Acquisition of images were carried out in two distinct forms: firstly, the conventional industrial practice that stipulates a fixed range of image quality to be attained (e.g., the signal-to-noise ratio) was used to acquire images from 140 components. Secondly, a non-conventional means that focuses on varying exposure parameters to alter the properties of flaws in the images, notably the contrast-to-noise-ratio (CNR), was used to acquire dataset with only 42 % of the test components. The performances of deep learning models trained distinctly on each dataset was compared. Although curated using fewer components, the model trained on the data acquired using the proposed unconventional image acquisition method demonstrated better model performance. This study confirms an effective harnessing of our earlier experimental findings that identifies CNR as an image parameter that influences deep learning performance. Chapter 4 focuses on developing a flaw grading algorithm to classify detected flaws in aluminum die casting components, inspired by ASTM E2973-15 standard. The grading pipeline employs a k-dimensional (K-D) tree algorithm that structures detected flaws to facilitate efficient evaluation of the flaws. This approach enables rapid spatial queries and effective flaw severity evaluation based on predefined criteria such as global standards or client-specific terms. The algorithm demonstrated high efficiency, accurately grading flaws, and can facilitate automated decision-making (Accept/Reject) in digital X-ray radiography. The system's adaptability to different grading criteria ensures its applicability across various safety-critical sectors. Collectively, the studies contained in this dissertation present experimental innovations in Digital X-ray radiography that influence deep learning model performance for robust defect evaluation, thereby offering a viable pathway to realizing automated image evaluation that can achieve 100 % inspection of manufactured components, even in sectors that require strict adherence to NDT standards.
22

Classification et analyse de sinistres dispendieux dans les réclamations d'assurance à l'aide de réseaux de neurones profonds

Baillargeon, Jean-Thomas 17 January 2025 (has links)
La thèse que nous proposons analyse un problème relié aux réclamations en assurance de dommage grâce aux techniques de pointe en intelligence artificielle. Plus particulièrement, on tente d'effectuer, à l'aide de réseaux de neurones, une classification binaire permettant d'identifier les sinistres qui engendreront des pertes faisant partie des 10% les plus dispendieuses pour un assureur. Afin de réaliser cette tâche, on exploite les notes de sinistres, c'est-à-dire des textes longitudinaux contenant des séries de documents textuels suivant l'évolution temporelle de la réclamation. Dans un premier temps, on propose et évalue différents modèles de classification de séquences de textes, dont LongiBERT (Longitudinal BERT) présentant une architecture hiérarchique exploitant un Transformeur de la famille encodeur pré-entrainé avec plusieurs tâches auxiliaires, dont la prédiction de même réclamation, développée pour cette thèse. Cette tâche entraîne le modèle à déterminer quels sont les éléments laissant croire que deux segments de textes proviennent du même dossier de sinistre. Ceci permet au modèle de langue de mieux capturer les éléments répétés dans une séquence textuelle longitudinale. On présente aussi différentes approches orientées données et régularisations permettant d'améliorer les performances en classification durant le sinistre. Ces approches permettent d'amoindrir les impacts d'une tendance découverte et étudiée dans les travaux doctoraux associés à cette thèse, c'est-à-dire la dépendance à des attributs fallacieux associés à la longueur des dossiers de réclamation. Une approche s'avérant particulièrement intéressante est l'utilisation du modèle de classification SMARTR (Survival and Monthly Aggregated Risk from Text Representations). Dans cette approche innovante, on propose de convertir le texte contenu dans des notes de sinistres en facteurs de risque permettant de calculer une probabilité de dépasser éventuellement un certain seuil monétaire. Ces facteurs peuvent ensuite être analysés pour mieux comprendre les risques associés aux réclamations dispendieuses. Finalement, le dernier chapitre porte sur l'explicabilité des modèles, c'est-à-dire l'évaluation de la capacité des modèles à exploiter l'information importante lors de l'inférence. On présente un cadre d'évaluation de l'explicabilité permettant de comparer l'appréciation humaine de deux modèles à l'aide de tests statistiques. Pour se faire, on utilise des mesures d'extraction d'information telle le *mean average precision* (mAP) pour évaluer la capacité de cartes de saillance à extraire l'information pertinente dans les notes provenant d'un dossier de réclamation. Ce cadre est utilisé pour démontrer l'utilisation de raccourcis de classification de certains modèle et pour supporter l'utilisation de modèles plus explicables, pour lesquels l'utilisateur aura une plus grande confiance lors de son utilisation. / The present thesis analyzes an issue related to damage insurance claims using cutting-edge artificial intelligence techniques. Specifically, we attempt to perform binary classification using neural networks to identify claims resulting in losses among the 10% most expensive for an insurer. To accomplish this task, we utilize claim notes, which are longitudinal texts containing a series of textual documents following the temporal evolution of the claim. First, we propose and evaluate different sequence text classification models, including LongiBERT (Longitudinal BERT), which presents a hierarchical architecture leveraging a Transformer textual encoder pre-trained using several auxiliary tasks, including same-claim prediction developed for this thesis. This task trains the model to determine which elements suggest two text segments come from the same claim file. This enables the language model to better capture repeated elements in a longitudinal textual sequence. We also present different data-driven approaches and regularizations to improve classification performance during the claim. These approaches help mitigate the impacts of a trend discovered and studied in the associated doctoral work, namely the dependence on fallacious attributes associated with the length of claim files. One exciting approach is using the SMARTR (Survival and Monthly Aggregated Risk from Text Representations) classification model. In this innovative approach, we propose converting text contained in claim notes into risk factors to calculate the probability of eventually exceeding a certain monetary threshold. These factors can be analyzed to better understand the risks associated with expensive claims. Finally, the last chapter focuses on the explainability of the models, i.e., evaluating the models' ability to exploit important information during inference. We present an explainability evaluation framework to compare human appreciation of two models using statistical tests. To do this, we use information extraction measures such as mean average precision (mAP) to evaluate the ability of saliency maps to extract relevant information from notes from a claim file. This framework demonstrates the use of classification shortcuts for certain models and supports the use of more explainable models, for which the user will have greater confidence in their use.
23

Infrared thermographic data processing with deep learning and explainable AI

Wei, Ziang 05 November 2024 (has links)
La thermographie pulsée (PT), importante méthode de contrôle non destructif, a suscité un intérêt croissant ces dernières années, en raison de sa rapidité de mesure, de son excellente mobilité et de sa haute résolution. Son champ d'application s'étend à divers matériaux, tels que les métaux et les matériaux composites. Les données thermographiques consistent en des séquences infrarouges bidimensionnelles représentant l'évolution de la température de surface de l'échantillon testé. Même pour les professionnels qualifiés, il est difficile d'identifier avec précision tous les types de défauts. En outre, la caractérisation des défauts peut être encore plus difficile à décider. Bien que l'apprentissage profond soit devenu une approche populaire du traitement automatisé des données ces dernières années, il existe quelques problèmes communs lorsqu'ils sont appliqués à l'analyse de séquences d'images thermographiques. Tout d'abord, les approches d'apprentissage profond sont généralement gourmandes en données, alors que les données thermographiques sont rares, la préparation des essais étant généralement fastidieuse. Deuxièmement, le ressuage étant axé sur la détection des défauts sous la surface, il est souvent très difficile d'obtenir l'emplacement exact des défauts. Cependant, la caractérisation précise des défauts est cruciale pour l'entraînement des réseaux neuronaux profonds. Troisièmement, contrairement au domaine de la vision par ordinateur, où il existe de nombreux ensembles de données bien préparés pour l'évaluation comparative de différents algorithmes, il n'existe que quelques ensembles de données de ressuage accessibles au public. Cependant, ces ensembles de données sont essentiels pour faire progresser les algorithmes de traitement des données thermographiques. Quatrièmement, les modèles d'apprentissage profond, malgré leurs bonnes performances, sont souvent considérés comme des « boîtes noires ». Cela constitue un obstacle à leur déploiement dans l'industrie pour l'assurance qualité, car il est très difficile de gagner la confiance de l'utilisateur final, qui est responsable de la qualité du produit. La présente étude se penche sur les questions susmentionnées. Pour remédier à la pénurie de données et au nombre limité d'ensembles de données de référence, deux ensembles de données de PT ont été préparés et mis à la disposition du public, l'un pour la segmentation des défauts et l'autre pour l'estimation et la localisation de la profondeur des défauts. Ce dernier ensemble de données est étiqueté à l'aide des images CAO correspondantes. Cela permet d'améliorer la précision des informations d'étiquetage. En outre, pour améliorer l'explicabilité des modèles profonds utilisés pour le traitement des données infrarouges, trois méthodes d'IA explicables sont étudiées, notamment la méthode de visualisation de la carte d'activation, la méthode d'attribution des caractéristiques et la méthode d'occlusion des caractéristiques. La méthode de visualisation de la carte d'activation montre le processus de prise de décision du modèle profond, qui est similaire à la perception humaine. La méthode d'attribution des caractéristiques et la méthode d'occlusion des caractéristiques ont généré des cartes thermiques similaires, démontrant que les modèles utilisent les caractéristiques correctes pour prendre les décisions finales. La crise de confiance du modèle profond peut donc être atténuée. / Pulsed thermography (PT), as an important nondestructive testing method, has attracted increasing attention in recent years, due to its rapid measurement speed, excellent mobility, and high resolution. Its applicability spans across various materials, such as metal and composite materials. The thermographic data consist of two-dimensional infrared sequences representing the evolution of the surface temperature of the test specimen. Even for skilled professionals, it is challenging to accurately identify all kinds of defects. Furthermore, the characterization for the defects can be even more difficult to decide. Although deep learning has become a popular automated data processing approach in recent years, there are some common issues when they are applied to the analysis of thermographic image sequences. First, deep learning approaches are typically data-hungry, whereas thermographic data are scarce as the preparation for testing is usually tedious. Second, as PT focuses on the detection of subsurface defects, it is often quite challenging to obtain the exact location of the defects. However, the accurate characterization of the defects is crucial for the training of deep neural networks. Third, unlike the computer vision field, where there are numerous well-prepared datasets for benchmarking different algorithms, there are only a few such publicly accessible PT datasets. However, these datasets are fundamental for advancing algorithms in thermographic data processing. Fourth, the deep learning models, despite their good performance, are often considered "black boxes". This presents an obstacle to their deployment in the industry for quality assurance due to the significant challenge of earning the trust of the end user who bears the responsibility for the product's quality. This study investigates the aforementioned issues. To address the scarcity of data and the limited benchmark datasets, two PT datasets are prepared and made publicly available, one is for defect segmentation and the other is for defect depth estimation and localization. The latter dataset is labeled using the corresponding CAD images. This enhances the accuracy of the labeling information. Furthermore, to enhance the explainability of the deep models used for infrared data processing, three explainable AI methods are investigated, including the activation map visualization method, feature attribution method, and feature occlusion method. The activation map visualization method shows the decision-making process of the deep model, which is similar to human perception. The feature attribution method and feature occlusion method generated similar heat maps, demonstrating that the models use the correct features to make final decisions. The trust crisis of the deep model can therefore be mitigated.
24

Deep learning-based advanced dose calculations in low-dose rate prostate brachytherapy

Berumen, Francisco 17 July 2024 (has links)
La curiethérapie, une forme spécialisée de traitement du cancer, consiste à placer des sources radioactives près ou directement dans la lésion cancéreuse. Un aspect crucial de cette thérapie est le calcul de la dose de radiation. Traditionnellement, ce calcul s'appuie sur un formalisme qui considère l'eau comme milieu de transport, ce qui ne tient pas suffisamment compte des variations dans la composition des tissus du patient et des effets d'atténuation entre sources pour la curiethérapie permanente à faible débit de dose (LDR pour low-dose rate). La méthode Monte Carlo (MC) est la référence pour les calculs de dose avancés en curiethérapie, offrant une solution à ces limites. Cependant, l'application pratique de la méthode MC dans la planification du traitement est limitée par son temps d'exécution relativement lent. Cette thèse explore le potentiel des méthodes d'apprentissage profond (DL pour deep learning) pour surmonter ce défi. Plus précisément, la faisabilité d'utiliser des algorithmes DL pour prédire rapidement et avec précision la distribution de dose volumétrique pour patients de cancer de la prostate traités par la curiethérapie LDR est étudiée. Premièrement, le logiciel TOPAS a été systématiquement validée pour les simulations MC en curiethérapie en comparant les résultats simulés avec les données de référence TG-186 publiées. Le spectre d'énergie d'émission de photons, l'air-kerma strength et la constante de débit de dose de la source générique $^{192}$Ir MBDCA-WG ont été extraits. Pour les calculs de dose, un estimateur de longueur de trajectoire a été validé. Les quatre cas de test du groupe de travail MBDCA-WG AAPM/ESTRO/ABG ont été évalués. Un cas de prostate, un cas palliatif de poumon et un cas de sein ont été simulés. L'air-kerma strength et la constante de débit de dose étaient respectivement à 0,3% et 0,01% des valeurs de référence. Pour tous les cas de test, 96,9% des voxels avaient des différences de dose locales dans une plage de ±1%, tandis que les différences de dose globales concernaient 99,9% des voxels dans une plage de ±0,1%. Les histogrammes dose-volume des cas cliniques étaient cohérents avec les données de référence. TOPAS offre un accès étendu à un code MC de pointe pour les simulations en curiethérapie. Deuxièmement, un modèle DL à source unique entraîné avec des simulations MC comme référence a été proposé pour prédire avec précision les distributions de dose dans le milieu (D$_\textup{M,M}$ pour dose to medium in medium) en curiethérapie prostatique LDR. Des connaissances antérieures ont été incluses dans le réseau sous forme de noyau r$^2$ lié à l'inverse de la dépendance de dose de premier ordre en curiethérapie. Les caractéristiques du modèle montraient une représentation anisotrope tenant compte des organes du patient et de leurs interfaces, de la position de la source et des régions de faible et haute dose. La métrique CTV D$_{90}$ prédite présentait une différence moyenne de -0,1% par rapport au calcul basé sur MC. La prédiction d'un volume D$_\textup{M,M}$ complet de 1,18 M de voxels se réalise en 1,8 ms. Le modèle DL proposé représente donc un algorithme de calcul extrêmement rapide et simplifié, intégrant des connaissances physiques préexistantes pertinentes à la curiethérapie. Ce modèle est conçu pour tenir compte des caractéristiques anisotropes d'une source de curiethérapie et de la composition spécifique des tissus du patient, garantissant une approche précise et adaptée des calculs de dose. Enfin, deux algorithmes DL prédictifs de dose à plusieurs sources ont été validés pour la curiethérapie prostatique LDR. Les données de référence prenaient en compte les effets d'atténuation entre les sources et une définition des matériaux basée sur les organes du patient. De plus, les incertitudes aléatoires (associées aux données d'entrée) et épistémiques (associées au modèle) des modèles DL ont été évaluées. Les résultats ont montré que la métrique D$_{90}$ de la prostate prédite présentait une différence de -0,64% et de 0,08% pour les modèles UNet et ResUNet TSE, respectivement. Les deux modèles DL prédisaient un volume de dose de 2,56 M de voxels (128×160×128) en 4 ms. L'incertitude dérivée est quantifiable et interprétable, mettant en évidence les régions où les modèles DL pourraient rencontrer des difficultés pour fournir des estimations précises de dose. L'analyse de l'incertitude est un outil précieux pour une évaluation approfondie, améliorant le processus d'évaluation des modèles de prédiction de dose. De plus, cette analyse fournit des informations critiques sur la performance du modèle, identifiant les domaines d'amélioration potentielle et garantissant une application plus fiable dans un contexte clinique. / Brachytherapy, a specialized form of cancer treatment, involves the placement of radioactive sources near or directly within the cancerous lesion. A critical aspect of this therapy is the calculation of radiation dose. Traditionally, this calculation relies on a water-based formalism, which does not adequately account for variations in patient tissue compositions and interseed effects in low-dose rate (LDR) brachytherapy. The Monte Carlo (MC) method is the gold standard for advanced dose calculations in brachytherapy, offering a solution to these limitations. However, the practical application of the MC method in treatment planning is hindered by its relatively slow execution time. This thesis explores the potential of deep learning (DL) methods to overcome this challenge. Specifically, it investigates the feasibility of using DL algorithms to accurately predict the volumetric dose distribution in LDR prostate brachytherapy patients, aiming to streamline the treatment planning process while maintaining the precision of dose calculations. Firstly, the TOPAS MC toolkit was systematically validated for brachytherapy simulations by comparing simulated results with published TG-186 reference data. The photon emission energy spectrum, the air-kerma strength, and the dose-rate constant of the MBDCA-WG generic $^{192}$Ir source were extracted. For dose calculations, a track-length estimator was implemented. The four Joint AAPM/ESTRO/ABG MBDCA-WG test cases were evaluated. A prostate, a palliative lung, and a breast case were simulated. The air-kerma strength and dose-rate constant were within 0.3% and 0.01% of the reference values, respectively. For all test cases, 96.9% of voxels had local dose differences within ±1%. On the other hand, the global dose difference histograms had 99.9% of voxels within ±0.1%. Dose-volume histograms of clinical cases were consistent with the reference data. Overall, TOPAS provides access to a state-of-the-art MC code for brachytherapy simulations. Secondly, a single-seed DL model trained with MC simulations as the gold standard was built to predict accurate single-seed dose to medium in medium (D$_\textup{M,M}$) distributions in LDR prostate brachytherapy. Existing knowledge was included in the network as an r$^2$ kernel related to the inverse of the first-order dose dependency in brachytherapy. DL model features showed an anisotropic representation that considered the patient organs and their interfaces, the source position, and the low- and high-dose regions. The predicted CTV D$_{90}$ metric had an average difference of -0.1% with respect to the MC-based calculation. The single-seed DL model takes 1.8 ms to predict a complete 3D D$_\textup{M,M}$ volume of 1.18 M voxels. The proposed DL model represents a streamlined and rapid computational engine, incorporating pre-existing physics knowledge pertinent to brachytherapy. This engine is designed to consider the anisotropic characteristics of a brachytherapy source and the specific composition of patient tissues, ensuring an accurate, fast, and tailored approach to dose calculations. Lastly, two multi-seed DL-based predictive dose algorithms were trained for LDR prostate brachytherapy. Ground truth data considered interseed effects and an organ-based material assignment. Additionally, the aleatoric (associated with the input data) and epistemic (associated with the model) uncertainties of the DL models were assessed. Results showed that the predicted prostate D$_{90}$ metric had a difference of -0.64% and 0.08% for the UNet and ResUNet TSE models, respectively. Both DL models predicted a 3D dose volume of 2.56 M voxels (128×160×128) in 4 ms. The derived uncertainty is quantifiable and interpretable, highlighting regions where DL models might face challenges in delivering precise dose estimations. The uncertainty analysis is a valuable tool for a thorough evaluation, enhancing the assessment process of the dose prediction models. This analysis provides critical insights into the model's performance, pinpointing areas for potential improvement and ensuring a more reliable application in clinical settings.
25

Weight parameterizations in deep neural networks / Paramétrisation des poids des réseaux de neurones profonds

Zagoruyko, Sergey 07 September 2018 (has links)
Les réseaux de neurones multicouches ont été proposés pour la première fois il y a plus de trois décennies, et diverses architectures et paramétrages ont été explorés depuis. Récemment, les unités de traitement graphique ont permis une formation très efficace sur les réseaux neuronaux et ont permis de former des réseaux beaucoup plus grands sur des ensembles de données plus importants, ce qui a considérablement amélioré le rendement dans diverses tâches d'apprentissage supervisé. Cependant, la généralisation est encore loin du niveau humain, et il est difficile de comprendre sur quoi sont basées les décisions prises. Pour améliorer la généralisation et la compréhension, nous réexaminons les problèmes de paramétrage du poids dans les réseaux neuronaux profonds. Nous identifions les problèmes les plus importants, à notre avis, dans les architectures modernes : la profondeur du réseau, l'efficacité des paramètres et l'apprentissage de tâches multiples en même temps, et nous essayons de les aborder dans cette thèse. Nous commençons par l'un des problèmes fondamentaux de la vision par ordinateur, le patch matching, et proposons d'utiliser des réseaux neuronaux convolutifs de différentes architectures pour le résoudre, au lieu de descripteurs manuels. Ensuite, nous abordons la tâche de détection d'objets, où un réseau devrait apprendre simultanément à prédire à la fois la classe de l'objet et l'emplacement. Dans les deux tâches, nous constatons que le nombre de paramètres dans le réseau est le principal facteur déterminant sa performance, et nous explorons ce phénomène dans les réseaux résiduels. Nos résultats montrent que leur motivation initiale, la formation de réseaux plus profonds pour de meilleures représentations, ne tient pas entièrement, et des réseaux plus larges avec moins de couches peuvent être aussi efficaces que des réseaux plus profonds avec le même nombre de paramètres. Dans l'ensemble, nous présentons une étude approfondie sur les architectures et les paramétrages de poids, ainsi que sur les moyens de transférer les connaissances entre elles / Multilayer neural networks were first proposed more than three decades ago, and various architectures and parameterizations were explored since. Recently, graphics processing units enabled very efficient neural network training, and allowed training much larger networks on larger datasets, dramatically improving performance on various supervised learning tasks. However, the generalization is still far from human level, and it is difficult to understand on what the decisions made are based. To improve on generalization and understanding we revisit the problems of weight parameterizations in deep neural networks. We identify the most important, to our mind, problems in modern architectures: network depth, parameter efficiency, and learning multiple tasks at the same time, and try to address them in this thesis. We start with one of the core problems of computer vision, patch matching, and propose to use convolutional neural networks of various architectures to solve it, instead of manual hand-crafting descriptors. Then, we address the task of object detection, where a network should simultaneously learn to both predict class of the object and the location. In both tasks we find that the number of parameters in the network is the major factor determining it's performance, and explore this phenomena in residual networks. Our findings show that their original motivation, training deeper networks for better representations, does not fully hold, and wider networks with less layers can be as effective as deeper with the same number of parameters. Overall, we present an extensive study on architectures and weight parameterizations, and ways of transferring knowledge between them
26

Learning Deep Representations : Toward a better new understanding of the deep learning paradigm / Apprentissage de représentations profondes : vers une meilleure compréhension du paradigme d'apprentissage profond

Arnold, Ludovic 25 June 2013 (has links)
Depuis 2006, les algorithmes d’apprentissage profond qui s’appuient sur des modèles comprenant plusieurs couches de représentations ont pu surpasser l’état de l’art dans plusieurs domaines. Les modèles profonds peuvent être très efficaces en termes du nombre de paramètres nécessaires pour représenter des opérations complexes. Bien que l’entraînement des modèles profonds ait été traditionnellement considéré comme un problème difficile, une approche réussie a été d’utiliser une étape de pré-entraînement couche par couche, non supervisée, pour initialiser des modèles profonds supervisés. Tout d’abord, l’apprentissage non-supervisé présente de nombreux avantages par rapport à la généralisation car il repose uniquement sur des données non étiquetées qu’il est facile de trouver. Deuxièmement, la possibilité d’apprendre des représentations couche par couche, au lieu de toutes les couches à la fois, améliore encore la généralisation et réduit les temps de calcul. Cependant, l’apprentissage profond pose encore beaucoup de questions relatives à la consistance de l’apprentissage couche par couche, avec de nombreuses couches, et à la difficulté d’évaluer la performance, de sélectionner les modèles et d’optimiser la performance des couches. Dans cette thèse, nous examinons d’abord les limites de la justification variationnelle actuelle pour l’apprentissage couche par couche qui ne se généralise pas bien à de nombreuses couches et demandons si une méthode couche par couche peut jamais être vraiment consistante. Nous constatons que l’apprentissage couche par couche peut en effet être consistant et peut conduire à des modèles génératifs profonds optimaux. Pour ce faire, nous introduisons la borne supérieure de la meilleure probabilité marginale latente (BLM upper bound), un nouveau critère qui représente la log-vraisemblance maximale d’un modèle génératif profond quand les couches supérieures ne sont pas connues. Nous prouvons que la maximisation de ce critère pour chaque couche conduit à une architecture profonde optimale, à condition que le reste de l’entraînement se passe bien. Bien que ce critère ne puisse pas être calculé de manière exacte, nous montrons qu’il peut être maximisé efficacement par des auto-encodeurs quand l’encodeur du modèle est autorisé à être aussi riche que possible. Cela donne une nouvelle justification pour empiler les modèles entraînés pour reproduire leur entrée et donne de meilleurs résultats que l’approche variationnelle. En outre, nous donnons une approximation calculable de la BLM upper bound et montrons qu’elle peut être utilisée pour estimer avec précision la log-vraisemblance finale des modèles. Nous proposons une nouvelle méthode pour la sélection de modèles couche par couche pour les modèles profonds, et un nouveau critère pour déterminer si l’ajout de couches est justifié. Quant à la difficulté d’entraîner chaque couche, nous étudions aussi l’impact des métriques et de la paramétrisation sur la procédure de descente de gradient couramment utilisée pour la maximisation de la vraisemblance. Nous montrons que la descente de gradient est implicitement liée à la métrique de l’espace sous-jacent et que la métrique Euclidienne peut souvent être un choix inadapté car elle introduit une dépendance sur la paramétrisation et peut entraîner une violation de la symétrie. Pour pallier ce problème, nous étudions les avantages du gradient naturel et montrons qu’il peut être utilisé pour restaurer la symétrie, mais avec un coût de calcul élevé. Nous proposons donc qu’une paramétrisation centrée peut rétablir la symétrie avec une très faible surcharge computationnelle. / Since 2006, deep learning algorithms which rely on deep architectures with several layers of increasingly complex representations have been able to outperform state-of-the-art methods in several settings. Deep architectures can be very efficient in terms of the number of parameters required to represent complex operations which makes them very appealing to achieve good generalization with small amounts of data. Although training deep architectures has traditionally been considered a difficult problem, a successful approach has been to employ an unsupervised layer-wise pre-training step to initialize deep supervised models. First, unsupervised learning has many benefits w.r.t. generalization because it only relies on unlabeled data which is easily found. Second, the possibility to learn representations layer by layer instead of all layers at once improves generalization further and reduces computational time. However, deep learning is a very recent approach and still poses a lot of theoretical and practical questions concerning the consistency of layer-wise learning with many layers and difficulties such as evaluating performance, performing model selection and optimizing layers. In this thesis we first discuss the limitations of the current variational justification for layer-wise learning which does not generalize well to many layers. We ask if a layer-wise method can ever be truly consistent, i.e. capable of finding an optimal deep model by training one layer at a time without knowledge of the upper layers. We find that layer-wise learning can in fact be consistent and can lead to optimal deep generative models. To do this, we introduce the Best Latent Marginal (BLM) upper bound, a new criterion which represents the maximum log-likelihood of a deep generative model where the upper layers are unspecified. We prove that maximizing this criterion for each layer leads to an optimal deep architecture, provided the rest of the training goes well. Although this criterion cannot be computed exactly, we show that it can be maximized effectively by auto-encoders when the encoder part of the model is allowed to be as rich as possible. This gives a new justification for stacking models trained to reproduce their input and yields better results than the state-of-the-art variational approach. Additionally, we give a tractable approximation of the BLM upper-bound and show that it can accurately estimate the final log-likelihood of models. Taking advantage of these theoretical advances, we propose a new method for performing layer-wise model selection in deep architectures, and a new criterion to assess whether adding more layers is warranted. As for the difficulty of training layers, we also study the impact of metrics and parametrization on the commonly used gradient descent procedure for log-likelihood maximization. We show that gradient descent is implicitly linked with the metric of the underlying space and that the Euclidean metric may often be an unsuitable choice as it introduces a dependence on parametrization and can lead to a breach of symmetry. To mitigate this problem, we study the benefits of the natural gradient and show that it can restore symmetry, regrettably at a high computational cost. We thus propose that a centered parametrization may alleviate the problem with almost no computational overhead.
27

Modélisation de la structure du silicium amorphe à l’aide d’algorithmes d’apprentissage profond

Comin, Massimiliano 08 1900 (has links)
No description available.
28

Active and deep learning for multimedia / Apprentissage actif et profond pour le multimédia

Budnik, Mateusz 24 February 2017 (has links)
Les thèmes principaux abordés dans cette thèse sont l'utilisation de méthodes d'apprentissage actif et d'apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d'apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l'utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l'identification des personnes dans les vidéos, en prenant en compte l'utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d'un ``test à blanc'' impliquant des annotateurs humains réels.Une deuxième contribution majeure a été l'étude et l'utilisation de l'apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d'information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d'apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (``engineered features''). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.Enfin, l'utilisation d'un réseau neuronal convolutif pour l'identification des locuteurs à l'aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d'autres systèmes d'identification de locuteurs récents. Différentes approches de fusion ont également été testées. L'approche proposée a permis d'obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu'elle est fusionnée avec la sortie du meilleur système. / The main topics of this thesis include the use of active learning-based methods and deep learning in the context of retrieval of multimodal documents. The contributions proposed during this thesis address both these topics. An active learning framework was introduced, which allows for a more efficient annotation of broadcast TV videos thanks to the propagation of labels, the use of multimodal data and selection strategies. Several different scenarios and experiments were considered in the context of person identification in videos, including using different modalities (such as faces, speech segments and overlaid text) and different selection strategies. The whole system was additionally validated in a dry run involving real human annotators.A second major contribution was the investigation and use of deep learning (in particular the convolutional neural network) for video retrieval. A comprehensive study was made using different neural network architectures and training techniques such as fine-tuning or using separate classifiers like SVM. A comparison was made between learned features (the output of neural networks) and engineered features. Despite the lower performance of the engineered features, fusion between these two types of features increases overall performance.Finally, the use of convolutional neural network for speaker identification using spectrograms is explored. The results are compared to other state-of-the-art speaker identification systems. Different fusion approaches are also tested. The proposed approach obtains comparable results to some of the other tested approaches and offers an increase in performance when fused with the output of the best system.
29

AI-driven Detection, Characterization and Classification of Chronic Lung Diseases / Outils d’intelligence artificielle pour la détection, la caractérisation et la classification des maladies pulmonaires chronique

Chassagnon, Guillaume 19 November 2019 (has links)
L’évaluation de la gravité et la surveillance des maladies pulmonaires chroniques représentent deux challenges importants pour la prise en charge des patients et l’évaluation des traitements. La surveillance repose principalement sur les données fonctionnelles respiratoires mais l’évaluation morphologique reste un point essentiel pour le diagnostic et l’évaluation de sévérité. Dans la première partie de cette thèse, nous proposons différents modèles pour quantifier la sévérité de pathologies bronchiques chroniques au scanner. Une approche simple par seuillage adaptatif et une méthode plus sophistiquée de radiomique sont évaluées Dans la seconde partie, nous évaluons une méthode d’apprentissage profond pour contourer automatiquement l’atteinte fibrosante de la sclérodermie en scanner. Nous combinons le recalage élastique vers différents atlas morphologiques thoraciques et l’apprentissage profond pour développer un modèle dont les performances sont équivalentes à celles des radiologues. Dans la dernière partie, nous démontrons que l’étude de la déformation pulmonaire en IRM entre inspiration et expiration peut être utilisée pour repérer les régions pulmonaires en transformation fibreuse, moins déformables au cours de la respiration, et qu’en scanner, l’évaluation de la déformation entre des examens successifs de suivi peut diagnostiquer l’aggravation fibreuse chez les patients sclérodermiques. / Disease staging and monitoring of chronic lung diseases are two major challenges for patient care and evaluation of new therapies. Monitoring mainly relies on pulmonary function testing but morphological assessment is a key point for diagnosis and staging In the first part, we propose different models to score bronchial disease severity on computed tomography (CT) scan. A simple thresholding approach using adapted thresholds and a more sophisticated machine learning approach with radiomics are evaluated In the second part, we evaluate deep learning methods to segment lung fibrosis on chest CT scans in patients with systemic sclerosis. We combine elastic registration to atlases of different thoracic morphology and deep learning to produce a model performing as well as radiologists In the last part of the thesis, we demonstrate that lung deformation assessment between inspiratory and expiratory magnetic resonance images can be used to depict fibrotic lung areas, which show less deformation during respiration and that CT assessment of lung deformation on serial CT scans can be used to diagnose lung fibrosis worsening
30

Approches d'apprentissage pour la classification à large échelle d'images de télédétection / Learning approaches for large-scale remote sensing image classification

Maggiori, Emmanuel 22 June 2017 (has links)
L’analyse des images satellite et aériennes figure parmi les sujets fondamentaux du domaine de la télédétection. Ces dernières années, les avancées technologiques ont permis d’augmenter la disponibilité à large échelle des images, en comprenant parfois de larges étendues de terre à haute résolution spatiale. En plus des questions évidentes de complexité calculatoire qui en surgissent, un de plus importants défis est l’énorme variabilité des objets dans les différentes régions de la terre. Pour aborder cela, il est nécessaire de concevoir des méthodes de classification qui dépassent l’analyse du spectre individuel de chaque pixel, en introduisant de l’information contextuelle de haut niveau. Dans cette thèse, nous proposons d’abord une méthode pour la classification avec des contraintes de forme, basée sur l’optimisation d’une structure de subdivision hiérarchique des images. Nous explorons ensuite l’utilisation des réseaux de neurones convolutionnels (CNN), qui nous permettent d’apprendre des descripteurs hiérarchiques profonds. Nous étudions les CNN depuis de nombreux points de vue, ce qui nous permettra de les adapter à notre objectif. Parmi les sujets abordés, nous proposons différentes solutions pour générer des cartes de classification à haute résolution et nous étudions aussi la récolte des données d’entrainement. Nous avons également créé une base de données d’images aériennes sur des zones variées, pour évaluer la capacité de généralisation des CNN. Finalement, nous proposons une méthode pour polygonaliser les cartes de classification issues des réseaux de neurones, afin de pouvoir les intégrer dans des systèmes d’information géographique. Au long de la thèse, nous conduisons des expériences sur des images hyperspectrales, satellites et aériennes, toujours avec l’intention de proposer des méthodes applicables, généralisables et qui passent à l’échelle. / The analysis of airborne and satellite images is one of the core subjects in remote sensing. In recent years, technological developments have facilitated the availability of large-scale sources of data, which cover significant extents of the earth’s surface, often at impressive spatial resolutions. In addition to the evident computational complexity issues that arise, one of the current challenges is to handle the variability in the appearance of the objects across different geographic regions. For this, it is necessary to design classification methods that go beyond the analysis of individual pixel spectra, introducing higher-level contextual information in the process. In this thesis, we first propose a method to perform classification with shape priors, based on the optimization of a hierarchical subdivision data structure. We then delve into the use of the increasingly popular convolutional neural networks (CNNs) to learn deep hierarchical contextual features. We investigate CNNs from multiple angles, in order to address the different points required to adapt them to our problem. Among other subjects, we propose different solutions to output high-resolution classification maps and we study the acquisition of training data. We also created a dataset of aerial images over dissimilar locations, and assess the generalization capabilities of CNNs. Finally, we propose a technique to polygonize the output classification maps, so as to integrate them into operational geographic information systems, thus completing the typical processing pipeline observed in a wide number of applications. Throughout this thesis, we experiment on hyperspectral, atellite and aerial images, with scalability, generalization and applicability goals in mind.

Page generated in 0.08 seconds