Spelling suggestions: "subject:"réseaux dde neurones"" "subject:"réseaux dee neurones""
1 |
Toward robust deep neural networksAbbasi, Mahdieh 10 February 2024 (has links)
Dans cette thèse, notre objectif est de développer des modèles d’apprentissage robustes et fiables mais précis, en particulier les Convolutional Neural Network (CNN), en présence des exemples anomalies, comme des exemples adversaires et d’échantillons hors distribution –Out-of-Distribution (OOD). Comme la première contribution, nous proposons d’estimer la confiance calibrée pour les exemples adversaires en encourageant la diversité dans un ensemble des CNNs. À cette fin, nous concevons un ensemble de spécialistes diversifiés avec un mécanisme de vote simple et efficace en termes de calcul pour prédire les exemples adversaires avec une faible confiance tout en maintenant la confiance prédicative des échantillons propres élevée. En présence de désaccord dans notre ensemble, nous prouvons qu’une borne supérieure de 0:5 + _0 peut être établie pour la confiance, conduisant à un seuil de détection global fixe de tau = 0; 5. Nous justifions analytiquement le rôle de la diversité dans notre ensemble sur l’atténuation du risque des exemples adversaires à la fois en boîte noire et en boîte blanche. Enfin, nous évaluons empiriquement la robustesse de notre ensemble aux attaques de la boîte noire et de la boîte blanche sur plusieurs données standards. La deuxième contribution vise à aborder la détection d’échantillons OOD à travers un modèle de bout en bout entraîné sur un ensemble OOD approprié. À cette fin, nous abordons la question centrale suivante : comment différencier des différents ensembles de données OOD disponibles par rapport à une tâche de distribution donnée pour sélectionner la plus appropriée, ce qui induit à son tour un modèle calibré avec un taux de détection des ensembles inaperçus de données OOD? Pour répondre à cette question, nous proposons de différencier les ensembles OOD par leur niveau de "protection" des sub-manifolds. Pour mesurer le niveau de protection, nous concevons ensuite trois nouvelles mesures efficaces en termes de calcul à l’aide d’un CNN vanille préformé. Dans une vaste série d’expériences sur les tâches de classification d’image et d’audio, nous démontrons empiriquement la capacité d’un CNN augmenté (A-CNN) et d’un CNN explicitement calibré pour détecter une portion significativement plus grande des exemples OOD. Fait intéressant, nous observons également qu’un tel A-CNN (nommé A-CNN) peut également détecter les adversaires exemples FGS en boîte noire avec des perturbations significatives. En tant que troisième contribution, nous étudions de plus près de la capacité de l’A-CNN sur la détection de types plus larges d’adversaires boîte noire (pas seulement ceux de type FGS). Pour augmenter la capacité d’A-CNN à détecter un plus grand nombre d’adversaires,nous augmentons l’ensemble d’entraînement OOD avec des échantillons interpolés inter-classes. Ensuite, nous démontrons que l’A-CNN, entraîné sur tous ces données, a un taux de détection cohérent sur tous les types des adversaires exemples invisibles. Alors que la entraînement d’un A-CNN sur des adversaires PGD ne conduit pas à un taux de détection stable sur tous les types d’adversaires, en particulier les types inaperçus. Nous évaluons également visuellement l’espace des fonctionnalités et les limites de décision dans l’espace d’entrée d’un CNN vanille et de son homologue augmenté en présence d’adversaires et de ceux qui sont propres. Par un A-CNN correctement formé, nous visons à faire un pas vers un modèle d’apprentissage debout en bout unifié et fiable avec de faibles taux de risque sur les échantillons propres et les échantillons inhabituels, par exemple, les échantillons adversaires et OOD. La dernière contribution est de présenter une application de A-CNN pour l’entraînement d’un détecteur d’objet robuste sur un ensemble de données partiellement étiquetées, en particulier un ensemble de données fusionné. La fusion de divers ensembles de données provenant de contextes similaires mais avec différents ensembles d’objets d’intérêt (OoI) est un moyen peu coûteux de créer un ensemble de données à grande échelle qui couvre un plus large spectre d’OoI. De plus, la fusion d’ensembles de données permet de réaliser un détecteur d’objet unifié, au lieu d’en avoir plusieurs séparés, ce qui entraîne une réduction des coûts de calcul et de temps. Cependant, la fusion d’ensembles de données, en particulier à partir d’un contexte similaire, entraîne de nombreuses instances d’étiquetées manquantes. Dans le but d’entraîner un détecteur d’objet robuste intégré sur un ensemble de données partiellement étiquetées mais à grande échelle, nous proposons un cadre d’entraînement auto-supervisé pour surmonter le problème des instances d’étiquettes manquantes dans les ensembles des données fusionnés. Notre cadre est évalué sur un ensemble de données fusionné avec un taux élevé d’étiquettes manquantes. Les résultats empiriques confirment la viabilité de nos pseudo-étiquettes générées pour améliorer les performances de YOLO, en tant que détecteur d’objet à la pointe de la technologie. / In this thesis, our goal is to develop robust and reliable yet accurate learning models, particularly Convolutional Neural Networks (CNNs), in the presence of adversarial examples and Out-of-Distribution (OOD) samples. As the first contribution, we propose to predict adversarial instances with high uncertainty through encouraging diversity in an ensemble of CNNs. To this end, we devise an ensemble of diverse specialists along with a simple and computationally efficient voting mechanism to predict the adversarial examples with low confidence while keeping the predictive confidence of the clean samples high. In the presence of high entropy in our ensemble, we prove that the predictive confidence can be upper-bounded, leading to have a globally fixed threshold over the predictive confidence for identifying adversaries. We analytically justify the role of diversity in our ensemble on mitigating the risk of both black-box and white-box adversarial examples. Finally, we empirically assess the robustness of our ensemble to the black-box and the white-box attacks on several benchmark datasets.The second contribution aims to address the detection of OOD samples through an end-to-end model trained on an appropriate OOD set. To this end, we address the following central question: how to differentiate many available OOD sets w.r.t. a given in distribution task to select the most appropriate one, which in turn induces a model with a high detection rate of unseen OOD sets? To answer this question, we hypothesize that the “protection” level of in-distribution sub-manifolds by each OOD set can be a good possible property to differentiate OOD sets. To measure the protection level, we then design three novel, simple, and cost-effective metrics using a pre-trained vanilla CNN. In an extensive series of experiments on image and audio classification tasks, we empirically demonstrate the abilityof an Augmented-CNN (A-CNN) and an explicitly-calibrated CNN for detecting a significantly larger portion of unseen OOD samples, if they are trained on the most protective OOD set. Interestingly, we also observe that the A-CNN trained on the most protective OOD set (calledA-CNN) can also detect the black-box Fast Gradient Sign (FGS) adversarial examples. As the third contribution, we investigate more closely the capacity of the A-CNN on the detection of wider types of black-box adversaries. To increase the capability of A-CNN to detect a larger number of adversaries, we augment its OOD training set with some inter-class interpolated samples. Then, we demonstrate that the A-CNN trained on the most protective OOD set along with the interpolated samples has a consistent detection rate on all types of unseen adversarial examples. Where as training an A-CNN on Projected Gradient Descent (PGD) adversaries does not lead to a stable detection rate on all types of adversaries, particularly the unseen types. We also visually assess the feature space and the decision boundaries in the input space of a vanilla CNN and its augmented counterpart in the presence of adversaries and the clean ones. By a properly trained A-CNN, we aim to take a step toward a unified and reliable end-to-end learning model with small risk rates on both clean samples and the unusual ones, e.g. adversarial and OOD samples.The last contribution is to show a use-case of A-CNN for training a robust object detector on a partially-labeled dataset, particularly a merged dataset. Merging various datasets from similar contexts but with different sets of Object of Interest (OoI) is an inexpensive way to craft a large-scale dataset which covers a larger spectrum of OoIs. Moreover, merging datasets allows achieving a unified object detector, instead of having several separate ones, resultingin the reduction of computational and time costs. However, merging datasets, especially from a similar context, causes many missing-label instances. With the goal of training an integrated robust object detector on a partially-labeled but large-scale dataset, we propose a self-supervised training framework to overcome the issue of missing-label instances in the merged datasets. Our framework is evaluated on a merged dataset with a high missing-label rate. The empirical results confirm the viability of our generated pseudo-labels to enhance the performance of YOLO, as the current (to date) state-of-the-art object detector.
|
2 |
Du parallélisme connexionniste à une pratique de calcul distribué numérique bio-inspiréGirau, Bernard 14 December 2007 (has links) (PDF)
De nombreux travaux portent sur les réseaux de neurones artificiels appliqués à des systèmes fortement contraints (systèmes ambulatoires, systèmes autonomes, systèmes adaptatifs, etc), pour lesquels le caractère élémentaire et massivement distribué des calculs neuronaux s'avère un atout. De façon plus large, ce caractère définit la nature même des calculs connexionnistes : une puissance de calcul et une robustesse fondées sur un parallélisme massif à grain très fin où les unités de calcul s'insèrent dans un flux d'informations très dense. Il est donc indispensable de pouvoir pleinement exploiter ce parallélisme connexionniste, à la fois en termes de potentiel de calcul et en termes de perspectives d'implantations embarquées efficaces. Une partie de ces travaux s'attache à définir différentes approches d'implantation massivement parallèle de réseaux neuronaux. Une approche globale de la pratique de calcul connexionniste ne peut pas faire l'économie d'une réflexion sur les fondements de la conception des architectures connexionnistes susceptibles de résoudre un problème donné. L'essentiel des travaux sur les réseaux de neurones s'est concentré sur la définition de familles de modèles neuronaux dont l'apprentissage permet de traiter des tâches telles que classification, régression, discrimination, auto-régression, etc. Ces modèles restent d'actualité, ne serait-ce que par la variété des applications dans lesquelles ils jouent encore un rôle central, et les travaux rapportés dans ce manuscrit portent en partie sur ces modèles. Néanmoins, ils n'apparaissent le plus souvent que comme des outils de traitement statistique de données, au même titre que de nombreux autres modèles. Ils se heurtent ainsi à une barrière de complexité dans les problèmes qu'ils sont susceptibles de résoudre. Franchir "à l'aveuglette" cette barrière, c'est à dire proposer ex nihilo des architectures connexionnistes capables de réaliser des tâches cognitives complexes, ne semble pas raisonnable. De nombreux chercheurs suggèrent alors de prendre appui sur des exemples naturels de systèmes distribués capables de réaliser ces tâches. Les neurosciences sont une orientation possible. C'est cette inspiration sur la base des mécanismes observés dans le cerveau qui est proposée dans une partie des travaux rapportés dans ce manuscrit. L'objet de ces travaux n'est pas de faire le tour de l'apport possible des neurosciences pour la conception des modèles connexionnistes, mais de montrer que même dans le cas de modèles d'inspiration corticale, la défense du parallélisme connexionniste passe par une étude focalisée sur les mécanismes locaux de gestion du flux d'informations sous-jacent à ces modèles.
|
3 |
Prévision de la défaillance et réseaux de neurones : l'apport des méthodes numériques de sélection de variablesDu Jardin, Philippe 15 December 2007 (has links) (PDF)
Les hypothèses qui sous-tendent les modèles de prédiction de la défaillance d'entreprise ont conduit leurs auteurs à privilégier comme méthodes d'élaboration, celles issues de la statistique et de l'analyse de données. Parmi toutes les méthodes employées – analyse discriminante, régression logistique, arbre de décision, etc. – les réseaux de neurones occupent une place privilégiée depuis une vingtaine d'années en raison de leurs propriétés mathématiques intrinsèques, mais aussi à cause des caractéristiques spécifiques qu'ils confèrent aux modèles. Pour autant, la performance d'un modèle numérique, c'est-à-dire sa capacité prédictive, ne dépend pas simplement de la famille de méthode qui l'a produit. Elle dépend des données employées pour son ajustement. Or, les travaux de recherche réalisés jusqu'à présent se sont appuyés essentiellement sur des variables de convenance, choisies parce qu'elles sont présentes dans les échantillons retenus ou parce qu'elles correspondent à des indicateurs traditionnels associés à la « santé financière » d'une entreprise. L'objet de ce travail doctoral s'inscrit dans cette perspective. Il vise à montrer en quoi les méthodes de sélection de variables adaptées aux réseaux de neurones, fondés sur des heuristiques d'énumération, offrent une alternative utile aux choix arbitraires de ces dernières ; ils permettent d'améliorer le degré de précision dans la prévision d'une défaillance et, grâce à une détection des variables pertinentes, d'approfondir la connaissance du problème traité.
|
4 |
Détection de sites sécuritaires par réseaux de neurones pour un atterrissage autonome sur corps planétaireBelley, Katia January 2008 (has links)
Dans le cadre des futures missions d'exploration planétaire comportant un atterrissage, la sélection d'un site d'atterrissage sécuritaire en temps réel devient une technologie de plus en plus recherchée. Celle-ci permet d'augmenter les retombées scientifiques de la mission en donnant accès à des régions à plus haut potentiel scientifique. Elle permet aussi d'accroître les chances de réussite de la mission et d'augmenter la charge utile des équipements en rendant l'atterrissage plus sécuritaire. Parmi les méthodes développées pour faire la sélection d'un site d'atterrissage, celle proposée par Andrew Johnson du Jet Propulsion Laboratory pour évaluer le degré de sécurité de sites d'atterrissage à partir d'images lidar prises pendant la descente s'avère très intéressante. Il utilise une technique nommée moindres carrées médians pour calculer la pente et la rugosité des sites d'atterrissage. Cependant, le temps de calcul exigé par cette approche la rend difficile à exécuter en temps réel. Ce mémoire de maîtrise propose l'utilisation d'un système à base de RNA (réseaux de neurones artificiels) pour faire l'approximation de la méthode des moindres carrés médians. Une architecture comportant quatre RNA a été développée afin de déterminer la pente et la rugosité d'un site d'atterrissage. Trois RNA permettent d'évaluer les paramètres du plan médian afin d'estimer ces deux propriétés du terrain. Un réseau optionnel est spécialisé pour l'évaluation des sites comportant une grande rugosité. Des modules de prétraitement et post-traitement des données sont utilisés pour améliorer la performance des réseaux de neurones et des modules d'arbitrage servent à déterminer les deux sorties du système. Une solution est aussi proposée pour présélectionner une zone d'atterrissage sécuritaire afin de réduire le nombre de sites individuels à évaluer. Plusieurs types de réseaux de neurones ont été comparés pour résoudre la problématique. Des lignes directrices ont été établies permettant de choisir les réseaux de neurones les plus efficaces pour chacun des modules en fonction du temps de calcul disponible. Le système développé permet de diminuer considérablement le temps de calcul requis pour résoudre la problématique. De plus, la solution proposée peut facilement être adaptée en fonction des objectifs de la mission spatiale.
|
5 |
Apprentissage de représentations sensori-motrices pour la reconnaissance d'objet en robotiqueDo Huu, Nicolas 04 December 2007 (has links) (PDF)
Depuis plusieurs années, la robotique mobile tente de s'extraire de l'espace amniotique des laboratoires de recherche afin d'explorer l'univers imprévisible, voire hostile, de nos lieux de vie, de travail, pour nous servir ou nous divertir. Or, les méthodes classiques de l'intelligence artificielle nécessitent des modèles du robot, de ses actions et de ses perceptions, conçus a priori. Elles sont donc peu adaptées à l'inattendu et à la nouveauté. D'autre part, les systèmes d'apprentissage artificiel, souvent d'inspiration biologique, semblent à présent en voie de fournir les capacités d'adaptation manquantes à ces premières. Nous envisageons dans cette thèse l'apprentissage comme un mécanisme central de l'architecture robotique. Celle-ci peut être représentée sous les traits d'une boucle sensori-motrice où actions et perceptions se rejoignent au sein d'une structure associative. L'apprentissage permet l'acquisition de connaissances nouvelles sur l'environnement mais il intervient également dans la modélisation des actions du robot : en associant des combinaisons de consignes simples sur les moteurs, et en mémorisant les effets de ces actions sur l'environnement ou sur le robot lui-même. Cette forme d'apprentissage a pour support un réseau de neurones permettant un apprentissage en ligne non supervisé. Cette architecture permet également d'exprimer les motivations et les objectifs du robot par le biais d'un second système d'apprentissage en associant une valeur de récompense aux représentations des actions ou des perceptions, par un apprentissage par renforcement. C'est donc l'utilité de chaque action, qui permettra finalement à un processus décisionnel d'avoir lieu.
|
6 |
Treillis de Galois et réseaux de neurones : une approche constructive d'architecture des réseaux de neurones / Concepts lattice and artificial neural network : a constructive approach of the neural network architectureTsopze, Norbert 28 December 2010 (has links)
Les réseaux de neurones artificiels connaissent des succès dans plusieurs domaines. Maisles utilisateurs des réseaux de neurones sont souvent confrontés aux problèmes de définitionde son architecture et d’interprétabilité de ses résultats. Plusieurs travaux ont essayé d’apporterune solution à ces problèmes. Pour les problèmes d’architecture, certains auteurs proposentde déduire cette architecture à partir d’un ensemble de connaissances décrivant le domaine duproblème et d’autres proposent d’ajouter de manière incrémentale les neurones à un réseauayant une taille initiale minimale. Les solutions proposées pour le problème d’interprétabilitédes résultats consistent à extraire un ensemble de règles décrivant le fonctionnement du réseau.Cette thèse contribue à la résolution de ces deux problèmes. Nous nous limitons à l’utilisationdes réseaux de neurones dans la résolution des problèmes de classification.Nous présentons dans cette thèse un état de l’art des méthodes existantes de recherche d’architecturede réseaux de neurones : une étude théorique et expérimentale est aussi faite. Decette étude, nous observons comme limites de ces méthodes la disponibilité absolue des connaissancespour construire un réseau interprétable et la construction des réseaux difficiles à interpréteren absence de connaissances. En alternative, nous proposons une méthode appelée CLANN(Concept Lattice-based Artificial Neural network) basée les treillis de Galois qui construit undemi-treillis à partir des données et déduire de ce demi-treillis l’architacture du réseau. CLANNétant limitée à la résolution des problèmes à deux classes, nous proposons MCLANN permettantd’étendre cette méthodes de recherche d’architecture des réseaux de neurones aux problèmes àplusieurs classes.Nous proposons aussi une méthode appelée ’Approche des MaxSubsets’ pour l’extractiondes règles à partir d’un réseau de neurones. La particularité de cette méthode est la possibilitéd’extraire les deux formats de règles (’si alors’ et ’m parmi N’) à partir d’une structure quenous construisons. Nous proposons aussi une façon d’expliquer le résultat calculé par le réseauconstruit par la méthode MCLANN au sujet d’un exemple. / The artificial neural networks are successfully applied in many applications. But theusers are confronted with two problems : defining the architecture of the neural network able tosolve their problems and interpreting the network result. Many research works propose some solutionsabout these problems : to find out the architecture of the network, some authors proposeto use the problem domain theory and deduct the network architecture and some others proposeto dynamically add neurons in the existing networks until satisfaction. For the interpretabilityproblem, solutions consist to extract rules which describe the network behaviour after training.The contributions of this thesis concern these problems. The thesis are limited to the use of theartificial neural networks in solving the classification problem.In this thesis, we present a state of art of the existing methods of finding the neural networkarchitecture : we present a theoritical and experimental study of these methods. From this study,we observe some limits : difficulty to use some method when the knowledges are not available ;and the network is seem as ’black box’ when using other methods. We a new method calledCLANN (Concept Lattice-based Artificial Neural Network) which builds from the training dataa semi concepts lattice and translates this semi lattice into the network architecture. As CLANNis limited to the two classes problems, we propose MCLANN which extends CLANN to manyclasses problems.A new method of rules extraction called ’MaxSubsets Approach’ is also presented in thisthesis. Its particularity is the possibility of extracting the two kind of rules (If then and M-of-N)from an internal structure.We describe how to explain the MCLANN built network result aboutsome inputs.
|
7 |
Segmentation hiérarchique du domaine sémantique pour l'accélération d'un modèle de langageMorin, Frédéric January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
8 |
Avancées théoriques sur la représentation et l'optimisation des réseaux de neuronesLe Roux, Nicolas January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
9 |
Collaborative filtering techniques for drug discoveryErhan, Dumitru January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
10 |
Contribution à l'étude de l'impact des nanotechnologies sur les Architectures : Apprentissage d'inspiration neuronale de fonctions logiques pour circuits programmablesHe, Michel 17 December 2008 (has links) (PDF)
La première partie de mon thèse s'intéresse aux problèmatiques de la technologie du semi-conducteur traditionnelle. Ensuite dans la deuxième partie je vais m'intérésser aux propriétés des nanocomposants. Ils se distinguent du CMOS classique selon plusieurs critères. Ayant une connaissance globale des architectures, j'ai choisi de développer plus amplement les réseaux de neurones en seconde partie. En effet, des fonctions logiques peuvent être émulées par les réseaux de neurones réalisés à partir des nanotubes de carbones et des mémoires multiniveaux. Pour la dernière partie, la robustesse d'une architecture de réseaux de neurones est évaluée par simulation qui montre la possibilité de construire un circuit robuste grâce à l'apprentissage.
|
Page generated in 0.0497 seconds