Spelling suggestions: "subject:"apprentissage profonde"" "subject:"apprentissage profondeur""
21 |
Deep learning based semi-supervised video anomaly detectionBaradaran, Mohammad 25 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La détection d'anomalies vidéo (DAV) est une tâche cruciale de vision par ordinateur pour diverses applications du monde réel telles que la vidéosurveillance, le contrôle qualité, etc. Avec la rareté des données d'anomalies étiquetées et la nature ouverte des définitions d'anomalies, il y a eu une croissance d'intérêt des chercheurs pour l'exploration de méthodes semi-supervisées de détection d'anomalies vidéo. Ces méthodes utilisent une tâche proxy pour ajuster un modèle sur des échantillons normaux, en tenant compte de leurs caractéristiques d'apparence et de mouvement. Les anomalies sont par conséquent détectées en mesurant l'écart des échantillons de test par rapport au modèle normal formé. Cette thèse est dédiée à l'avancement de ce domaine, englobant quatre composantes distinctes. Dans la partie initiale, nous menons une étude approfondie sur les méthodes DAV semi-supervisées de pointe existantes afin d'examiner leurs points forts et leurs défis. Pour compléter notre examen, nous effectuons également des expériences pour mieux comprendre les capacités et les limites des approches existantes. Les résultats de cette étude servent de source de motivation et mettent en lumière l'orientation de notre recherche. Cette étude est publiée sous la forme d'un article de synthèse (MTAP2023). Lors de l'analyse des méthodes existantes, il devient évident qu'elles ne tiennent pas suffisamment compte de la classe des objets lorsqu'il s'agit de détecter des anomalies d'apparence. Inspirés par ce besoin, nous proposons, dans la deuxième partie, une méthode DAV basée sur l'apprentissage en profondeur et sensible aux classes d'objets. C'est une méthode à deux flux qui modélise et détecte les anomalies de mouvement et d'apparence dans différentes branches. Dans la branche apparence, nous introduisons une approche basée sur la distillation des connaissances qui utilise une méthode de segmentation sémantique pré-entraînée (Mask-RCNN) pour former un réseau étudiant dédié à la segmentation sémantique avec des objets normaux. Par conséquent, en mesurant l'écart entre les sorties des réseaux enseignant et étudiant, nous dérivons un score d'anomalie pour la branche d'apparence. La branche de mouvement, d'autre part, traduit une image brute en sa carte de magnitude de flux optique correspondante, pour modéliser les mouvements normaux et détecter les anomalies associées. L'approche de modélisation de mouvement proposée atténue le risque de généralisation aux anomalies, améliorant ainsi la fiabilité et la précision du processus de détection. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CRV 2022). Dans la troisième partie, nous proposons une méthode de détection d'anomalies vidéo basée sur l'apprentissage multi-tâches visant à tirer parti des avantages de la combinaison de plusieurs tâches proxy complémentaires pour améliorer les performances de détection d'anomalies. Différentes tâches complémentaires sont proposées en tenant compte de leurs capacités et insuffisances à détecter différents cas d'anomalies. De plus, nous proposons une nouvelle tâche proxy de prédiction de carte de segmentation sémantique future pour la détection d'anomalies vidéo qui bénéficie des capacités de prédiction de trames futures et de tâches de segmentation sémantique pour la détection d'anomalies de mouvement et d'apparence. De plus, pour améliorer encore la détection des anomalies de mouvement, nous intégrons la tâche de prédiction de l'amplitude du flux optique à partir d'une trame brute dans une autre branche. Finalement, pour relever les défis rencontrés dans notre méthode précédente, nous proposons plusieurs mécanismes d'attention pour engager des informations contextuelles dans la modélisation de mouvement, conduisant à une amélioration des performances. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CVPRW 2023). Dans la dernière partie, nous relevons un autre défi dans la modélisation du mouvement. Tant dans nos méthodes proposées que dans d'autres méthodes existantes, les modèles de mouvement à long terme n'ont pas été efficacement pris en compte pour la détection d'anomalies vidéo. Pour remédier à cette limitation, nous proposons une nouvelle tâche proxy pour la détection d'anomalies vidéo : la prédiction vidéo future à partir d'une seule image. Cette méthode prend en compte les modèles de mouvement à long terme en plus des modèles à court terme pour la détection d'anomalies vidéo et relève le défi de la généralisation aux mouvements anormaux. Cette étude donne des résultats significatifs. Les résultats démontrent que la formulation de DAV comme une prédiction d'images plus éloignées dans le futur (au lieu de l'image suivante immédiate) entraîne une plus grande disparité entre les normales et les anomalies et donc une amélioration des performances. Les résultats de cette étude sont acceptés sous forme d'article de conférence (ISVC 2023). Nos résultats qualitatifs et quantitatifs ainsi que des études d'ablation sur des ensembles de données de référence tels que les ensembles de données ShanghaiTech, UCSD-Ped1 et UCSD-Ped2 démontrent le succès de chaque contribution de notre thèse dans la réalisation de leurs objectifs respectifs. / Video anomaly detection (VAD) is a crucial computer vision task for various real-world applications such as video surveillance, quality control, etc. With the scarcity of labeled anomaly data and the open-ended nature of anomaly definitions, there has been a growing interest among researchers in exploring semi-supervised methods for video anomaly detection. These methods employ a proxy-task to fit a model on normal samples, taking into account their appearance and motion features. Anomalies are consequently detected by measuring the deviation of test samples from the trained normal model. This thesis is dedicated to advancing this field, encompassing four distinct components. In the initial part, we conduct an in-depth study on existing state-of-the-art semi-supervised VAD methods to examine their strong points and challenges. To supplement our review, we also conduct experiments to gain deeper insights into the capabilities and limitations of existing approaches. The outcomes of this study serve as a source of motivation and highlights the direction of our research. This study is published as a review paper (MTAP2023). Upon analyzing the existing methods, it becomes apparent that they do not adequately consider the object class when it comes to detecting appearance anomalies. Inspired by this need, we propose, in the second part, a two-stream object class-aware deep learning based VAD method that models and detects motion and appearance anomalies in different network branches. In the appearance branch, we introduce a knowledge-distillation-based approach that utilizes a pre-trained semantic segmentation method (Mask-RCNN) to train a student network dedicated to semantic segmentation with normal objects. Consequently, by measuring the disparity between the outputs of the teacher and student networks, we derive an anomaly score for the appearance branch. Motion branch, on the other hand, translates a raw frame to its corresponding optical flow magnitude map, to model normal motions and detect related anomalies. The proposed motion modeling approach, mitigates the risk of generalization to anomalies, thus enhancing the reliability and precision of the detection process. Results of this study is published as a conference paper (CRV 2022). In the third part, we put forth a multi-task learning based video anomaly detection method aimed at leveraging the benefits of combining multiple complementary proxy-tasks to enhance anomaly detection performance. Different complementary tasks are suggested taking into ac count their abilities and shortcomings in detecting different anomaly cases. Moreover, we propose a novel proxy-task of future semantic segmentation map prediction for video anomaly detection which benefits from the abilities of future frame prediction and semantic segmentation tasks for motion and appearance anomaly detection. Additionally, to further enhance the detection of motion anomalies, we incorporate the task of optical flow magnitude prediction from a raw frame in another branch. Finally, to address the challenges encountered in our previous method, we propose multiple attention mechanisms to engage context information in motion modeling, leading to performance improvement. Results of this study is published as a conference paper (CVPRW 2023). As the final part, we tackle another challenge in motion modeling. Both in our proposed methods and other existing methods, long-term motion patterns have not been effectively considered for video anomaly detection. To address this limitation, we put forward a novel proxy-task for video anomaly detection: future video prediction from a single frame. This method considers long-term motion patterns in addition to short-term ones for video anomaly detection and addresses the challenge of generalization to abnormal motion. This study yields significant findings. The results demonstrate that formulating VAD as a prediction of farther frames in the future (instead of the immediate next frame) results in a larger disparity between normals and anomalies and hence in improved performance. Results of this study is accepted as a conference paper (ISVC 2023). Our qualitative and quantitative results along with ablation studies on benchmark datasets such as ShanghaiTech, UCSD-Ped1 and UCSD-Ped2 datasets demonstrate the success of each contribution of our thesis in achieving their respective goals. Read more
|
22 |
Extraction automatique par apprentissage profond des obstacles et des facilitateurs à la mobilité des personnes à mobilité réduite à partir des données LiDAR mobileGhodhbane, Sarra 10 February 2024 (has links)
La mobilité est une habitude de vie fondamentale pour la participation sociale des personnes à mobilité réduite (PMRs). L'un des plus grands défis des PMRs est de trouver des itinéraires accessibles pour leur déplacement en ville. À cet égard, plusieurs groupes de recherche, dont MobiliSIG, s'intéressent à l'évaluation de l'accessibilité des lieux en appui au développement des outils d'assistance à la mobilité des PMRs. Cependant, les méthodes traditionnelles de l'acquisition et le traitement de données pertinentes pour l'analyse de l'accessibilité de l'environnement urbain sont généralement peu précises, peu efficaces et très coûteuses en temps et en argent. Dans ce contexte, la technologie lidar présente une alternative intéressante pour l'acquisition de données très détaillées et précises sur l'environnement urbain. De plus, les techniques issues de l'intelligence artificielle ont démontré de grands potentiels pour l'extraction automatique de l'information pertinente à partir de nuages de points lidar. À cet effet, l'objectif global de cette recherche est d'évaluer le potentiel des nouvelles approches basées sur l'apprentissage profond pour la segmentation sémantique de nuages de points lidar afin d'automatiser l'extraction des obstacles et des facilitateurs (trottoirs, ilots de refuge, marches, etc.) en lien avec la mobilité des PMRs. Pour ce faire, nous nous sommes particulièrement intéressés au potentiel des méthodes d'apprentissage profond telles que les algorithmes de Superpoint graph et FKAconv. Les principales étapes de cette recherche consistent à : 1) élaborer une base de données 3D annotée dédiée à la mobilité des PMRs, 2) appliquer et évaluer les algorithmes de l'apprentissage profond, 3) mettre en évidence les défis rencontrés dans l'apprentissage sémantique en 3D à partir de données lidar mobile (données irrégulières et volumineuses, la complexité des scènes urbaines, morphologie très variable des instances, etc.). Les algorithmes visés sont appliqués aux données lidar mobile pour analyser l'accès aux commerces au centre-ville de Québec. Les résultats de cette recherche ont démontré le potentiel des méthodes d'apprentissage profond pour la segmentation sémantique des éléments pertinents à la mobilité des PMRs à partir des données lidar mobile. Cependant, ces méthodes souffrent de plusieurs problèmes qui engendrent de mauvaises classifications menant à des imperfections de segmentation. / Mobility is a fundamental life habit for the social participation of people with motor disabilities (PMD). One of the biggest challenges for PMDs is to find accessible itineraries for their movement in the city. In this respect, several research groups, including MobiliSIG, are interested in assessing the accessibility of places to support the development of mobility assistance tools for PMDs. However, traditional methods for acquiring and processing data relevant to the analysis of the accessibility of the urban environments are generally inefficient and very costly in terms of time and money. In this context, the lidar technology presents an interesting alternative for the acquisition of very detailed and accurate data on the urban environment. Moreover, artificial intelligence techniques have shown great potential for the automatic extraction of relevant information from lidar point clouds. To this end, the overall objective of this research is to evaluate the potential of new deep learning-based approaches for the semantic segmentation of lidar point clouds to automate the extraction of obstacles and facilitators (sidewalks, island, steps, etc.) related to the mobility of PMDs. To do so, we were particularly interested in the potential of deep learning methods such as Superpoint graph and FKAconv algorithms. The main steps of this research are: 1) to develop an annotated 3D database dedicated to mobility setoff PMDs, 2) to apply and evaluate the deep learning algorithms, 3) to highlight the challenges encountered in 3D semantic learning (irregular and voluminous data, complexity of urban scenes, highly variable morphology of instances, etc.). The selected algorithms are applied to mobile lidar data to analyze access to shops in downtown Quebec City. The results of this research have demonstrated the potential of deep learning methods for semantic segmentation of elements relevant to PRM mobility from mobile lidar data. However, these methods still suffer from several problems that lead to misclassifications leading to segmentation imperfections. Read more
|
23 |
Experimental innovations in digital X-ray radiography : enhancing deep learning models' performance for robust defect evaluationHena, Bata 29 January 2025 (has links)
Pour répondre au besoin croissant d'inspection par contrôle non destructif (CND) dans les industries manufacturières, il est impératif de développer des solutions qui exploiteront les possibilités d'automatisation pour compléter les compétences des inspecteurs humains. Le secteur du moulage sous pression d'aluminium (ADC) est un secteur en constante évolution, au service d'industries critiques pour la sécurité comme l'automobile et l'aérospatiale. Cependant, les ADC sont susceptibles de présenter des défauts de fabrication dont la plupart ne sont pas visibles à l'œil nu et nécessitent une application appropriée des techniques CND pour vérifier leur intégrité structurelle et leur aptitude à l'emploi. Ces procédures sont standardisées et doivent être menées conformément aux normes industrielles applicables. Le développement de l'automatisation des tâches d'évaluation des images radiographiques des ADC est confronté à un défi, notamment en ce qui concerne la capacité de ces solutions à se conformer aux normes CND. Les réseaux neuronaux d'apprentissage profond ont démontré un potentiel important dans la reconnaissance automatisée des défauts/défauts, néanmoins, la confiance nécessaire pour accepter de telles solutions dans les secteurs critiques pour la sécurité ne peut être acquise que si l'on comprend suffisamment comment ces modèles fonctionnent et quelles propriétés exactes des données de formation sont cruciales pour leurs performances. Au fil des ans, l'utilisation prolifique de l'apprentissage profond dans divers secteurs a popularisé la notion de sa forte dépendance aux données, en mettant davantage l'accent sur la quantité que sur la qualité. Cette thèse est composée d'études expérimentales visant à comprendre les propriétés des données de radiographie numérique à rayons X qui sont cruciales pour affecter les performances de l'apprentissage profond. Dans le premier chapitre, une étude approfondie entre l'influence du rapport contraste/bruit et du rapport signal/bruit a été menée. Les résultats de l'étude ont révélé que la variation du rapport contraste/bruit (CNR) a un impact sur le comportement d'apprentissage des modèles d'apprentissage profond d'une manière qui pourrait être exploitée pour former un modèle d'apprentissage profond hautement performant. Une deuxième étude telle que présentée au chapitre 2 de cette thèse considère les propriétés des images de radiographie numérique à rayons X, en particulier les propriétés statistiques de la distribution d'intensité des pixels. Cette découverte a ouvert la voie à la synthèse d'images radiographiques numériques et à leur utilisation comme données d'apprentissage pour une application d'apprentissage profond. Bien qu'entraîné uniquement sur les données synthétiques, le modèle a obtenu d'excellentes performances sur de véritables images de radiographie numérique à rayons X. Grâce à l'approche peu coûteuse en termes de calcul qu'elle présente, cette solution offre de bonnes perspectives dans les industries, en particulier dans l'industrie ADC qui fabrique des produits aux morphologies cohérentes. Au chapitre 3, la pertinence de la qualité des données par rapport à la quantité pure a été étudiée dans une étude expérimentale utilisant un simulateur de radiographie numérique à rayons X de pointe (aRTist). L'acquisition d'images a été réalisée sous deux formes distinctes : tout d'abord, la pratique industrielle conventionnelle qui stipule une plage fixe de qualité d'image à atteindre (par exemple, le rapport signal/bruit) a été utilisée pour acquérir des images à partir de 140 composants. Deuxièmement, un moyen non conventionnel qui se concentre sur la variation des paramètres d'exposition pour modifier les propriétés des défauts dans les images, notamment le rapport contraste/bruit (CNR), a été utilisé pour acquérir un ensemble de données avec seulement 42 % des composants de test. Les performances des modèles d'apprentissage profond formés distinctement sur chaque ensemble de données ont été comparées. Bien qu'organisé à l'aide de moins de composants, le modèle formé sur les données acquises à l'aide d'une méthode d'acquisition d'images non conventionnelle a démontré de meilleures performances de modèle. Cette étude confirme une exploitation efficace de nos résultats expérimentaux antérieurs qui identifient le CNR comme un paramètre d'image qui influence les performances de l'apprentissage profond. Le chapitre 4 se concentre sur le développement d'un algorithme de classement des défauts pour classer les défauts détectés dans les composants moulés sous pression en aluminium, inspiré de la norme ASTM E2973-15. Le pipeline de classement utilise un algorithme d'arbre k-dimensionnel (K-D) qui structure les défauts détectés pour faciliter une évaluation efficace des défauts. Cela permet des requêtes spatiales rapides et une évaluation efficace de la gravité des défauts sur la base de critères prédéfinis tels que des normes mondiales ou des termes spécifiques au client. L'algorithme a démontré une grande efficacité, classant avec précision les défauts et peut faciliter la prise de décision automatisée (Accepter/Rejeter) en radiographie numérique à rayons X. L'adaptabilité du système à différents critères de classement garantit son applicabilité dans divers secteurs critiques pour la sécurité. Collectivement, les études contenues dans cette thèse présentent des innovations expérimentales en radiographie numérique à rayons X qui influencent les performances du modèle d'apprentissage profond pour une évaluation robuste des défauts, offrant ainsi une voie viable pour réaliser une évaluation d'image automatisée qui peut atteindre une inspection à 100 % des composants fabriqués, même dans les secteurs qui nécessitent un strict respect des normes CND. / To meet the rising need for Non-destructive Testing (NDT) inspection in manufacturing industries, it is imperative to develop solutions that will exploit automation possibilities, to supplement the competencies of human inspectors. The aluminum die casting (ADC) sector is one that evolves constantly, serving safety-critical industries like automotive and aerospace. However, ADCs are prone to having manufacturing flaws, most of which are not visible to the human eye and hence require proper application of NDT techniques to ascertain their structural integrity, and fitness for use. The NDT procedures are standardized and must be conducted in accordance with applicable industrial standards. Developing automated solutions of tasks such as the evaluation of radiographic images of ADCs faces a challenge, particularly in the ability such solutions to conform to NDT standards. Deep learning neural networks have demonstrated significant potential in automated flaw/defect recognition, nonetheless, the confidence needed to accept such solutions in safety-critical sectors can only be gained if there is sufficient understanding of how these models operate, and what exact properties within training data is crucial to their performance. Over the years, the prolific use of deep learning across various sectors has popularized the notion of its high dependence on data, with more emphasis on the quantity, rather than the quality. This dissertation is composed of experimental studies aimed at understanding the properties of digital X-ray radiography data that is crucial in impacting deep learning performance. In the first chapter, an extensive study between the influence of contrast-to-noise ratio and signal-to-noise ratio was conducted. Findings from the study revealed that contrast-to-noise ratio (CNR) variation impacts training behaviour of the deep learning models in a manner that could be leveraged to train a deep learning model to be highly performant. A second study as presented in Chapter 2 of this dissertation considers the properties of digital X-ray radiography images, specifically the statistical properties of the pixel intensity distribution. This finding paved the way for the synthesization of digital X-ray images, using them as training data for a deep learning application. Although trained on only the synthetic data, the trained model performed excellently on real digital X-ray radiography images. With the computationally inexpensive approach it presents, this solution holds good prospect in industries, especially ADC industry that manufactures products with consistent morphologies. In Chapter 3, the relevance of data quality over sheer quantity was investigated in an experimental study using a state-of-the-art digital X-ray radiography simulator (aRTist). Acquisition of images were carried out in two distinct forms: firstly, the conventional industrial practice that stipulates a fixed range of image quality to be attained (e.g., the signal-to-noise ratio) was used to acquire images from 140 components. Secondly, a non-conventional means that focuses on varying exposure parameters to alter the properties of flaws in the images, notably the contrast-to-noise-ratio (CNR), was used to acquire dataset with only 42 % of the test components. The performances of deep learning models trained distinctly on each dataset was compared. Although curated using fewer components, the model trained on the data acquired using the proposed unconventional image acquisition method demonstrated better model performance. This study confirms an effective harnessing of our earlier experimental findings that identifies CNR as an image parameter that influences deep learning performance. Chapter 4 focuses on developing a flaw grading algorithm to classify detected flaws in aluminum die casting components, inspired by ASTM E2973-15 standard. The grading pipeline employs a k-dimensional (K-D) tree algorithm that structures detected flaws to facilitate efficient evaluation of the flaws. This approach enables rapid spatial queries and effective flaw severity evaluation based on predefined criteria such as global standards or client-specific terms. The algorithm demonstrated high efficiency, accurately grading flaws, and can facilitate automated decision-making (Accept/Reject) in digital X-ray radiography. The system's adaptability to different grading criteria ensures its applicability across various safety-critical sectors. Collectively, the studies contained in this dissertation present experimental innovations in Digital X-ray radiography that influence deep learning model performance for robust defect evaluation, thereby offering a viable pathway to realizing automated image evaluation that can achieve 100 % inspection of manufactured components, even in sectors that require strict adherence to NDT standards. Read more
|
24 |
Deep representation learning for visual place recognitionAli-bey, Amar 22 March 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La navigation autonome a une longue histoire dans la recherche en robotique et attire de plus en plus l'attention de chercheurs et industriels. Actuellement, les véhicules autonomes dépendent largement du Système de Positionnement Global (GPS) pour la localisation. Toutefois, les lacunes du GPS dans les environnements urbains et souterrains rendent la localisation basée sur la vision une alternative intéressante. Cette dernière peut être réalisée au moyen de la Reconnaissance Visuelle de Lieux (RVL). Sujet qui sera traité en profondeur dans cette thèse. La Reconnaissance Visuelle de Lieu est la méthode par laquelle un système identifie un emplacement représenté dans une image requête en la comparant à une base de données préexistante correspondant à des lieux connus. Les techniques traditionnelles de reconnaissance visuelle reposent souvent sur des descripteurs de caractéristiques locales ou globales élaborés à la main, ce qui présente des difficultés inhérentes qui compliquent leur application à grande échelle. L'avènement des réseaux de neurones profonds a montré un potentiel significatif pour améliorer les capacités des méthodes de RVL. Ces réseaux nécessitent de grands ensembles de données pour l'entraînement et des fonctions de perte spécialisées pour l'apprentissage des paramètres, ouvrant ainsi de nouvelles voies pour la recherche et l'innovation dans ce domaine. Cette thèse propose une étude exhaustive de l'apprentissage profond pour la RVL. Elle se concentre sur trois composantes principales : l'ensemble de données d'entraînement, l'architecture du réseau de neurones et le processus d'apprentissage de paramètres. Tout d'abord, un ensemble de données à grande échelle composé de 560 000 images à travers 67 000 lieux, appelé GSV-Cities, est présenté. Cette base de données permet de relever les défis associés à la supervision faible qui entrave les méthodes existantes, ce qui se traduit par une amélioration des performances et une réduction significative du temps d'entraînement. De plus, l'importance des fonctions de perte issues de l'apprentissage de similarité est illustrée, particulièrement lorsqu'elles sont employées avec les étiquettes de haute précision fournies par GSV-Cities. S'ensuit MixVPR, une architecture d'aggrégation basée entièrement sur les perceptrons multicouches. Cette architecture surpasse les méthodes de RVL les plus avancées, et ce, sur plusieurs benchmarks, tant en termes de performances de reconnaissance qu'en efficacité de calcul. Finalement, une nouvelle technique de formation de batches est présentée. Elle s'appuie sur des descripteurs compacts pour échantillonner efficacement des mini-batches hautement informatifs à chaque itération d'entraînement. Cette méthode maintient un niveau élevé de paires et de triplets informatifs tout au long de la phase d'apprentissage, conduisant à une amélioration significative des performances globales. Collectivement, les contributions apportées par cette thèse contribuent à l'avancement de l'état de l'art en matière de reconnaissance visuelle de lieux, et établissent une base solide pour la recherche et le développement futurs dans ce domaine. / Autonomous navigation has a long history in robotics research and has recently attracted a lot of attention from researchers and industrials. Currently, autonomous vehicles depend largely on the Global Positioning System (GPS) for localization, whose limitations in urban and subterrenean settings make vision-based localization an attractive alternative. This can be done by means of Visual Place Recognition (VPR), which is addressed in depth in this thesis. Visual Place Recognition (VPR) is the method by which a system identifies a location depicted in a query image by comparing it to a pre-existing database of visual information corresponding to known locations. Traditional VPR techniques often rely on hand-crafted local or global feature descriptors, which present inherent challenges that complicate their application in large-scale settings. The emergence of deep neural networks has shown significant promise in advancing VPR methods capabilities. Such networks require extensive datasets for training and specialized loss functions for parameter learnin. This opens new avenues for research and innovation in the field of VPR. First, GSV-Cities, a large-scale dataset comprised of 560,000 images across 67,000 places, is introduced. This dataset alleviates the challenge of weak supervision that constrains current methods, leading to improved performance and significantly reduction in training time. The importance of similarity learning loss functions, especially when paired with the accurate labels of GSV-Cities, is also highlighted. Second, MixVPR, a new aggregation technique is presented. It outperforms existing state-of-the-art VPR methods on multiple benchmarks, not just in terms of accuracy but also in computational efficiency. Lastly, a novel batch formation technique is introduced, which utilizes compact proxy descriptors for the efficient sampling of highly informative mini-batches at each training iteration. This method maintains a high level of informative pairs and triplets throughout the training phase, leading to a substantial improvement in overall performance. Collectively, the contributions of this thesis serve to advance the current state-of-the-art in Visual Place Recognition (VPR), and establish a strong foundation for future research. Read more
|
25 |
Classification et analyse de sinistres dispendieux dans les réclamations d'assurance à l'aide de réseaux de neurones profondsBaillargeon, Jean-Thomas 17 January 2025 (has links)
La thèse que nous proposons analyse un problème relié aux réclamations en assurance de dommage grâce aux techniques de pointe en intelligence artificielle. Plus particulièrement, on tente d'effectuer, à l'aide de réseaux de neurones, une classification binaire permettant d'identifier les sinistres qui engendreront des pertes faisant partie des 10% les plus dispendieuses pour un assureur. Afin de réaliser cette tâche, on exploite les notes de sinistres, c'est-à-dire des textes longitudinaux contenant des séries de documents textuels suivant l'évolution temporelle de la réclamation. Dans un premier temps, on propose et évalue différents modèles de classification de séquences de textes, dont LongiBERT (Longitudinal BERT) présentant une architecture hiérarchique exploitant un Transformeur de la famille encodeur pré-entrainé avec plusieurs tâches auxiliaires, dont la prédiction de même réclamation, développée pour cette thèse. Cette tâche entraîne le modèle à déterminer quels sont les éléments laissant croire que deux segments de textes proviennent du même dossier de sinistre. Ceci permet au modèle de langue de mieux capturer les éléments répétés dans une séquence textuelle longitudinale. On présente aussi différentes approches orientées données et régularisations permettant d'améliorer les performances en classification durant le sinistre. Ces approches permettent d'amoindrir les impacts d'une tendance découverte et étudiée dans les travaux doctoraux associés à cette thèse, c'est-à-dire la dépendance à des attributs fallacieux associés à la longueur des dossiers de réclamation. Une approche s'avérant particulièrement intéressante est l'utilisation du modèle de classification SMARTR (Survival and Monthly Aggregated Risk from Text Representations). Dans cette approche innovante, on propose de convertir le texte contenu dans des notes de sinistres en facteurs de risque permettant de calculer une probabilité de dépasser éventuellement un certain seuil monétaire. Ces facteurs peuvent ensuite être analysés pour mieux comprendre les risques associés aux réclamations dispendieuses. Finalement, le dernier chapitre porte sur l'explicabilité des modèles, c'est-à-dire l'évaluation de la capacité des modèles à exploiter l'information importante lors de l'inférence. On présente un cadre d'évaluation de l'explicabilité permettant de comparer l'appréciation humaine de deux modèles à l'aide de tests statistiques. Pour se faire, on utilise des mesures d'extraction d'information telle le *mean average precision* (mAP) pour évaluer la capacité de cartes de saillance à extraire l'information pertinente dans les notes provenant d'un dossier de réclamation. Ce cadre est utilisé pour démontrer l'utilisation de raccourcis de classification de certains modèle et pour supporter l'utilisation de modèles plus explicables, pour lesquels l'utilisateur aura une plus grande confiance lors de son utilisation. / The present thesis analyzes an issue related to damage insurance claims using cutting-edge artificial intelligence techniques. Specifically, we attempt to perform binary classification using neural networks to identify claims resulting in losses among the 10% most expensive for an insurer. To accomplish this task, we utilize claim notes, which are longitudinal texts containing a series of textual documents following the temporal evolution of the claim. First, we propose and evaluate different sequence text classification models, including LongiBERT (Longitudinal BERT), which presents a hierarchical architecture leveraging a Transformer textual encoder pre-trained using several auxiliary tasks, including same-claim prediction developed for this thesis. This task trains the model to determine which elements suggest two text segments come from the same claim file. This enables the language model to better capture repeated elements in a longitudinal textual sequence. We also present different data-driven approaches and regularizations to improve classification performance during the claim. These approaches help mitigate the impacts of a trend discovered and studied in the associated doctoral work, namely the dependence on fallacious attributes associated with the length of claim files. One exciting approach is using the SMARTR (Survival and Monthly Aggregated Risk from Text Representations) classification model. In this innovative approach, we propose converting text contained in claim notes into risk factors to calculate the probability of eventually exceeding a certain monetary threshold. These factors can be analyzed to better understand the risks associated with expensive claims. Finally, the last chapter focuses on the explainability of the models, i.e., evaluating the models' ability to exploit important information during inference. We present an explainability evaluation framework to compare human appreciation of two models using statistical tests. To do this, we use information extraction measures such as mean average precision (mAP) to evaluate the ability of saliency maps to extract relevant information from notes from a claim file. This framework demonstrates the use of classification shortcuts for certain models and supports the use of more explainable models, for which the user will have greater confidence in their use. Read more
|
26 |
Weight parameterizations in deep neural networks / Paramétrisation des poids des réseaux de neurones profondsZagoruyko, Sergey 07 September 2018 (has links)
Les réseaux de neurones multicouches ont été proposés pour la première fois il y a plus de trois décennies, et diverses architectures et paramétrages ont été explorés depuis. Récemment, les unités de traitement graphique ont permis une formation très efficace sur les réseaux neuronaux et ont permis de former des réseaux beaucoup plus grands sur des ensembles de données plus importants, ce qui a considérablement amélioré le rendement dans diverses tâches d'apprentissage supervisé. Cependant, la généralisation est encore loin du niveau humain, et il est difficile de comprendre sur quoi sont basées les décisions prises. Pour améliorer la généralisation et la compréhension, nous réexaminons les problèmes de paramétrage du poids dans les réseaux neuronaux profonds. Nous identifions les problèmes les plus importants, à notre avis, dans les architectures modernes : la profondeur du réseau, l'efficacité des paramètres et l'apprentissage de tâches multiples en même temps, et nous essayons de les aborder dans cette thèse. Nous commençons par l'un des problèmes fondamentaux de la vision par ordinateur, le patch matching, et proposons d'utiliser des réseaux neuronaux convolutifs de différentes architectures pour le résoudre, au lieu de descripteurs manuels. Ensuite, nous abordons la tâche de détection d'objets, où un réseau devrait apprendre simultanément à prédire à la fois la classe de l'objet et l'emplacement. Dans les deux tâches, nous constatons que le nombre de paramètres dans le réseau est le principal facteur déterminant sa performance, et nous explorons ce phénomène dans les réseaux résiduels. Nos résultats montrent que leur motivation initiale, la formation de réseaux plus profonds pour de meilleures représentations, ne tient pas entièrement, et des réseaux plus larges avec moins de couches peuvent être aussi efficaces que des réseaux plus profonds avec le même nombre de paramètres. Dans l'ensemble, nous présentons une étude approfondie sur les architectures et les paramétrages de poids, ainsi que sur les moyens de transférer les connaissances entre elles / Multilayer neural networks were first proposed more than three decades ago, and various architectures and parameterizations were explored since. Recently, graphics processing units enabled very efficient neural network training, and allowed training much larger networks on larger datasets, dramatically improving performance on various supervised learning tasks. However, the generalization is still far from human level, and it is difficult to understand on what the decisions made are based. To improve on generalization and understanding we revisit the problems of weight parameterizations in deep neural networks. We identify the most important, to our mind, problems in modern architectures: network depth, parameter efficiency, and learning multiple tasks at the same time, and try to address them in this thesis. We start with one of the core problems of computer vision, patch matching, and propose to use convolutional neural networks of various architectures to solve it, instead of manual hand-crafting descriptors. Then, we address the task of object detection, where a network should simultaneously learn to both predict class of the object and the location. In both tasks we find that the number of parameters in the network is the major factor determining it's performance, and explore this phenomena in residual networks. Our findings show that their original motivation, training deeper networks for better representations, does not fully hold, and wider networks with less layers can be as effective as deeper with the same number of parameters. Overall, we present an extensive study on architectures and weight parameterizations, and ways of transferring knowledge between them Read more
|
27 |
Learning Deep Representations : Toward a better new understanding of the deep learning paradigm / Apprentissage de représentations profondes : vers une meilleure compréhension du paradigme d'apprentissage profondArnold, Ludovic 25 June 2013 (has links)
Depuis 2006, les algorithmes d’apprentissage profond qui s’appuient sur des modèles comprenant plusieurs couches de représentations ont pu surpasser l’état de l’art dans plusieurs domaines. Les modèles profonds peuvent être très efficaces en termes du nombre de paramètres nécessaires pour représenter des opérations complexes. Bien que l’entraînement des modèles profonds ait été traditionnellement considéré comme un problème difficile, une approche réussie a été d’utiliser une étape de pré-entraînement couche par couche, non supervisée, pour initialiser des modèles profonds supervisés. Tout d’abord, l’apprentissage non-supervisé présente de nombreux avantages par rapport à la généralisation car il repose uniquement sur des données non étiquetées qu’il est facile de trouver. Deuxièmement, la possibilité d’apprendre des représentations couche par couche, au lieu de toutes les couches à la fois, améliore encore la généralisation et réduit les temps de calcul. Cependant, l’apprentissage profond pose encore beaucoup de questions relatives à la consistance de l’apprentissage couche par couche, avec de nombreuses couches, et à la difficulté d’évaluer la performance, de sélectionner les modèles et d’optimiser la performance des couches. Dans cette thèse, nous examinons d’abord les limites de la justification variationnelle actuelle pour l’apprentissage couche par couche qui ne se généralise pas bien à de nombreuses couches et demandons si une méthode couche par couche peut jamais être vraiment consistante. Nous constatons que l’apprentissage couche par couche peut en effet être consistant et peut conduire à des modèles génératifs profonds optimaux. Pour ce faire, nous introduisons la borne supérieure de la meilleure probabilité marginale latente (BLM upper bound), un nouveau critère qui représente la log-vraisemblance maximale d’un modèle génératif profond quand les couches supérieures ne sont pas connues. Nous prouvons que la maximisation de ce critère pour chaque couche conduit à une architecture profonde optimale, à condition que le reste de l’entraînement se passe bien. Bien que ce critère ne puisse pas être calculé de manière exacte, nous montrons qu’il peut être maximisé efficacement par des auto-encodeurs quand l’encodeur du modèle est autorisé à être aussi riche que possible. Cela donne une nouvelle justification pour empiler les modèles entraînés pour reproduire leur entrée et donne de meilleurs résultats que l’approche variationnelle. En outre, nous donnons une approximation calculable de la BLM upper bound et montrons qu’elle peut être utilisée pour estimer avec précision la log-vraisemblance finale des modèles. Nous proposons une nouvelle méthode pour la sélection de modèles couche par couche pour les modèles profonds, et un nouveau critère pour déterminer si l’ajout de couches est justifié. Quant à la difficulté d’entraîner chaque couche, nous étudions aussi l’impact des métriques et de la paramétrisation sur la procédure de descente de gradient couramment utilisée pour la maximisation de la vraisemblance. Nous montrons que la descente de gradient est implicitement liée à la métrique de l’espace sous-jacent et que la métrique Euclidienne peut souvent être un choix inadapté car elle introduit une dépendance sur la paramétrisation et peut entraîner une violation de la symétrie. Pour pallier ce problème, nous étudions les avantages du gradient naturel et montrons qu’il peut être utilisé pour restaurer la symétrie, mais avec un coût de calcul élevé. Nous proposons donc qu’une paramétrisation centrée peut rétablir la symétrie avec une très faible surcharge computationnelle. / Since 2006, deep learning algorithms which rely on deep architectures with several layers of increasingly complex representations have been able to outperform state-of-the-art methods in several settings. Deep architectures can be very efficient in terms of the number of parameters required to represent complex operations which makes them very appealing to achieve good generalization with small amounts of data. Although training deep architectures has traditionally been considered a difficult problem, a successful approach has been to employ an unsupervised layer-wise pre-training step to initialize deep supervised models. First, unsupervised learning has many benefits w.r.t. generalization because it only relies on unlabeled data which is easily found. Second, the possibility to learn representations layer by layer instead of all layers at once improves generalization further and reduces computational time. However, deep learning is a very recent approach and still poses a lot of theoretical and practical questions concerning the consistency of layer-wise learning with many layers and difficulties such as evaluating performance, performing model selection and optimizing layers. In this thesis we first discuss the limitations of the current variational justification for layer-wise learning which does not generalize well to many layers. We ask if a layer-wise method can ever be truly consistent, i.e. capable of finding an optimal deep model by training one layer at a time without knowledge of the upper layers. We find that layer-wise learning can in fact be consistent and can lead to optimal deep generative models. To do this, we introduce the Best Latent Marginal (BLM) upper bound, a new criterion which represents the maximum log-likelihood of a deep generative model where the upper layers are unspecified. We prove that maximizing this criterion for each layer leads to an optimal deep architecture, provided the rest of the training goes well. Although this criterion cannot be computed exactly, we show that it can be maximized effectively by auto-encoders when the encoder part of the model is allowed to be as rich as possible. This gives a new justification for stacking models trained to reproduce their input and yields better results than the state-of-the-art variational approach. Additionally, we give a tractable approximation of the BLM upper-bound and show that it can accurately estimate the final log-likelihood of models. Taking advantage of these theoretical advances, we propose a new method for performing layer-wise model selection in deep architectures, and a new criterion to assess whether adding more layers is warranted. As for the difficulty of training layers, we also study the impact of metrics and parametrization on the commonly used gradient descent procedure for log-likelihood maximization. We show that gradient descent is implicitly linked with the metric of the underlying space and that the Euclidean metric may often be an unsuitable choice as it introduces a dependence on parametrization and can lead to a breach of symmetry. To mitigate this problem, we study the benefits of the natural gradient and show that it can restore symmetry, regrettably at a high computational cost. We thus propose that a centered parametrization may alleviate the problem with almost no computational overhead. Read more
|
28 |
Modélisation de la structure du silicium amorphe à l’aide d’algorithmes d’apprentissage profondComin, Massimiliano 08 1900 (has links)
No description available.
|
29 |
Active and deep learning for multimedia / Apprentissage actif et profond pour le multimédiaBudnik, Mateusz 24 February 2017 (has links)
Les thèmes principaux abordés dans cette thèse sont l'utilisation de méthodes d'apprentissage actif et d'apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d'apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l'utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l'identification des personnes dans les vidéos, en prenant en compte l'utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d'un ``test à blanc'' impliquant des annotateurs humains réels.Une deuxième contribution majeure a été l'étude et l'utilisation de l'apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d'information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d'apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (``engineered features''). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.Enfin, l'utilisation d'un réseau neuronal convolutif pour l'identification des locuteurs à l'aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d'autres systèmes d'identification de locuteurs récents. Différentes approches de fusion ont également été testées. L'approche proposée a permis d'obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu'elle est fusionnée avec la sortie du meilleur système. / The main topics of this thesis include the use of active learning-based methods and deep learning in the context of retrieval of multimodal documents. The contributions proposed during this thesis address both these topics. An active learning framework was introduced, which allows for a more efficient annotation of broadcast TV videos thanks to the propagation of labels, the use of multimodal data and selection strategies. Several different scenarios and experiments were considered in the context of person identification in videos, including using different modalities (such as faces, speech segments and overlaid text) and different selection strategies. The whole system was additionally validated in a dry run involving real human annotators.A second major contribution was the investigation and use of deep learning (in particular the convolutional neural network) for video retrieval. A comprehensive study was made using different neural network architectures and training techniques such as fine-tuning or using separate classifiers like SVM. A comparison was made between learned features (the output of neural networks) and engineered features. Despite the lower performance of the engineered features, fusion between these two types of features increases overall performance.Finally, the use of convolutional neural network for speaker identification using spectrograms is explored. The results are compared to other state-of-the-art speaker identification systems. Different fusion approaches are also tested. The proposed approach obtains comparable results to some of the other tested approaches and offers an increase in performance when fused with the output of the best system. Read more
|
30 |
AI-driven Detection, Characterization and Classification of Chronic Lung Diseases / Outils d’intelligence artificielle pour la détection, la caractérisation et la classification des maladies pulmonaires chroniqueChassagnon, Guillaume 19 November 2019 (has links)
L’évaluation de la gravité et la surveillance des maladies pulmonaires chroniques représentent deux challenges importants pour la prise en charge des patients et l’évaluation des traitements. La surveillance repose principalement sur les données fonctionnelles respiratoires mais l’évaluation morphologique reste un point essentiel pour le diagnostic et l’évaluation de sévérité. Dans la première partie de cette thèse, nous proposons différents modèles pour quantifier la sévérité de pathologies bronchiques chroniques au scanner. Une approche simple par seuillage adaptatif et une méthode plus sophistiquée de radiomique sont évaluées Dans la seconde partie, nous évaluons une méthode d’apprentissage profond pour contourer automatiquement l’atteinte fibrosante de la sclérodermie en scanner. Nous combinons le recalage élastique vers différents atlas morphologiques thoraciques et l’apprentissage profond pour développer un modèle dont les performances sont équivalentes à celles des radiologues. Dans la dernière partie, nous démontrons que l’étude de la déformation pulmonaire en IRM entre inspiration et expiration peut être utilisée pour repérer les régions pulmonaires en transformation fibreuse, moins déformables au cours de la respiration, et qu’en scanner, l’évaluation de la déformation entre des examens successifs de suivi peut diagnostiquer l’aggravation fibreuse chez les patients sclérodermiques. / Disease staging and monitoring of chronic lung diseases are two major challenges for patient care and evaluation of new therapies. Monitoring mainly relies on pulmonary function testing but morphological assessment is a key point for diagnosis and staging In the first part, we propose different models to score bronchial disease severity on computed tomography (CT) scan. A simple thresholding approach using adapted thresholds and a more sophisticated machine learning approach with radiomics are evaluated In the second part, we evaluate deep learning methods to segment lung fibrosis on chest CT scans in patients with systemic sclerosis. We combine elastic registration to atlases of different thoracic morphology and deep learning to produce a model performing as well as radiologists In the last part of the thesis, we demonstrate that lung deformation assessment between inspiratory and expiratory magnetic resonance images can be used to depict fibrotic lung areas, which show less deformation during respiration and that CT assessment of lung deformation on serial CT scans can be used to diagnose lung fibrosis worsening Read more
|
Page generated in 0.0942 seconds