• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 245
  • 116
  • 22
  • Tagged with
  • 406
  • 406
  • 220
  • 188
  • 159
  • 152
  • 118
  • 91
  • 90
  • 76
  • 71
  • 70
  • 70
  • 69
  • 69
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Toward robust deep neural networks

Abbasi, Mahdieh January 2020 (has links)
Dans cette thèse, notre objectif est de développer des modèles d’apprentissage robustes et fiables mais précis, en particulier les Convolutional Neural Network (CNN), en présence des exemples anomalies, comme des exemples adversaires et d’échantillons hors distribution –Out-of-Distribution (OOD). Comme la première contribution, nous proposons d’estimer la confiance calibrée pour les exemples adversaires en encourageant la diversité dans un ensemble des CNNs. À cette fin, nous concevons un ensemble de spécialistes diversifiés avec un mécanisme de vote simple et efficace en termes de calcul pour prédire les exemples adversaires avec une faible confiance tout en maintenant la confiance prédicative des échantillons propres élevée. En présence de désaccord dans notre ensemble, nous prouvons qu’une borne supérieure de 0:5 + _0 peut être établie pour la confiance, conduisant à un seuil de détection global fixe de tau = 0; 5. Nous justifions analytiquement le rôle de la diversité dans notre ensemble sur l’atténuation du risque des exemples adversaires à la fois en boîte noire et en boîte blanche. Enfin, nous évaluons empiriquement la robustesse de notre ensemble aux attaques de la boîte noire et de la boîte blanche sur plusieurs données standards. La deuxième contribution vise à aborder la détection d’échantillons OOD à travers un modèle de bout en bout entraîné sur un ensemble OOD approprié. À cette fin, nous abordons la question centrale suivante : comment différencier des différents ensembles de données OOD disponibles par rapport à une tâche de distribution donnée pour sélectionner la plus appropriée, ce qui induit à son tour un modèle calibré avec un taux de détection des ensembles inaperçus de données OOD? Pour répondre à cette question, nous proposons de différencier les ensembles OOD par leur niveau de "protection" des sub-manifolds. Pour mesurer le niveau de protection, nous concevons ensuite trois nouvelles mesures efficaces en termes de calcul à l’aide d’un CNN vanille préformé. Dans une vaste série d’expériences sur les tâches de classification d’image et d’audio, nous démontrons empiriquement la capacité d’un CNN augmenté (A-CNN) et d’un CNN explicitement calibré pour détecter une portion significativement plus grande des exemples OOD. Fait intéressant, nous observons également qu’un tel A-CNN (nommé A-CNN) peut également détecter les adversaires exemples FGS en boîte noire avec des perturbations significatives. En tant que troisième contribution, nous étudions de plus près de la capacité de l’A-CNN sur la détection de types plus larges d’adversaires boîte noire (pas seulement ceux de type FGS). Pour augmenter la capacité d’A-CNN à détecter un plus grand nombre d’adversaires,nous augmentons l’ensemble d’entraînement OOD avec des échantillons interpolés inter-classes. Ensuite, nous démontrons que l’A-CNN, entraîné sur tous ces données, a un taux de détection cohérent sur tous les types des adversaires exemples invisibles. Alors que la entraînement d’un A-CNN sur des adversaires PGD ne conduit pas à un taux de détection stable sur tous les types d’adversaires, en particulier les types inaperçus. Nous évaluons également visuellement l’espace des fonctionnalités et les limites de décision dans l’espace d’entrée d’un CNN vanille et de son homologue augmenté en présence d’adversaires et de ceux qui sont propres. Par un A-CNN correctement formé, nous visons à faire un pas vers un modèle d’apprentissage debout en bout unifié et fiable avec de faibles taux de risque sur les échantillons propres et les échantillons inhabituels, par exemple, les échantillons adversaires et OOD. La dernière contribution est de présenter une application de A-CNN pour l’entraînement d’un détecteur d’objet robuste sur un ensemble de données partiellement étiquetées, en particulier un ensemble de données fusionné. La fusion de divers ensembles de données provenant de contextes similaires mais avec différents ensembles d’objets d’intérêt (OoI) est un moyen peu coûteux de créer un ensemble de données à grande échelle qui couvre un plus large spectre d’OoI. De plus, la fusion d’ensembles de données permet de réaliser un détecteur d’objet unifié, au lieu d’en avoir plusieurs séparés, ce qui entraîne une réduction des coûts de calcul et de temps. Cependant, la fusion d’ensembles de données, en particulier à partir d’un contexte similaire, entraîne de nombreuses instances d’étiquetées manquantes. Dans le but d’entraîner un détecteur d’objet robuste intégré sur un ensemble de données partiellement étiquetées mais à grande échelle, nous proposons un cadre d’entraînement auto-supervisé pour surmonter le problème des instances d’étiquettes manquantes dans les ensembles des données fusionnés. Notre cadre est évalué sur un ensemble de données fusionné avec un taux élevé d’étiquettes manquantes. Les résultats empiriques confirment la viabilité de nos pseudo-étiquettes générées pour améliorer les performances de YOLO, en tant que détecteur d’objet à la pointe de la technologie. / In this thesis, our goal is to develop robust and reliable yet accurate learning models, particularly Convolutional Neural Networks (CNNs), in the presence of adversarial examples and Out-of-Distribution (OOD) samples. As the first contribution, we propose to predict adversarial instances with high uncertainty through encouraging diversity in an ensemble of CNNs. To this end, we devise an ensemble of diverse specialists along with a simple and computationally efficient voting mechanism to predict the adversarial examples with low confidence while keeping the predictive confidence of the clean samples high. In the presence of high entropy in our ensemble, we prove that the predictive confidence can be upper-bounded, leading to have a globally fixed threshold over the predictive confidence for identifying adversaries. We analytically justify the role of diversity in our ensemble on mitigating the risk of both black-box and white-box adversarial examples. Finally, we empirically assess the robustness of our ensemble to the black-box and the white-box attacks on several benchmark datasets.The second contribution aims to address the detection of OOD samples through an end-to-end model trained on an appropriate OOD set. To this end, we address the following central question: how to differentiate many available OOD sets w.r.t. a given in distribution task to select the most appropriate one, which in turn induces a model with a high detection rate of unseen OOD sets? To answer this question, we hypothesize that the “protection” level of in-distribution sub-manifolds by each OOD set can be a good possible property to differentiate OOD sets. To measure the protection level, we then design three novel, simple, and cost-effective metrics using a pre-trained vanilla CNN. In an extensive series of experiments on image and audio classification tasks, we empirically demonstrate the abilityof an Augmented-CNN (A-CNN) and an explicitly-calibrated CNN for detecting a significantly larger portion of unseen OOD samples, if they are trained on the most protective OOD set. Interestingly, we also observe that the A-CNN trained on the most protective OOD set (calledA-CNN) can also detect the black-box Fast Gradient Sign (FGS) adversarial examples. As the third contribution, we investigate more closely the capacity of the A-CNN on the detection of wider types of black-box adversaries. To increase the capability of A-CNN to detect a larger number of adversaries, we augment its OOD training set with some inter-class interpolated samples. Then, we demonstrate that the A-CNN trained on the most protective OOD set along with the interpolated samples has a consistent detection rate on all types of unseen adversarial examples. Where as training an A-CNN on Projected Gradient Descent (PGD) adversaries does not lead to a stable detection rate on all types of adversaries, particularly the unseen types. We also visually assess the feature space and the decision boundaries in the input space of a vanilla CNN and its augmented counterpart in the presence of adversaries and the clean ones. By a properly trained A-CNN, we aim to take a step toward a unified and reliable end-to-end learning model with small risk rates on both clean samples and the unusual ones, e.g. adversarial and OOD samples.The last contribution is to show a use-case of A-CNN for training a robust object detector on a partially-labeled dataset, particularly a merged dataset. Merging various datasets from similar contexts but with different sets of Object of Interest (OoI) is an inexpensive way to craft a large-scale dataset which covers a larger spectrum of OoIs. Moreover, merging datasets allows achieving a unified object detector, instead of having several separate ones, resultingin the reduction of computational and time costs. However, merging datasets, especially from a similar context, causes many missing-label instances. With the goal of training an integrated robust object detector on a partially-labeled but large-scale dataset, we propose a self-supervised training framework to overcome the issue of missing-label instances in the merged datasets. Our framework is evaluated on a merged dataset with a high missing-label rate. The empirical results confirm the viability of our generated pseudo-labels to enhance the performance of YOLO, as the current (to date) state-of-the-art object detector.
2

Du parallélisme connexionniste à une pratique de calcul distribué numérique bio-inspiré

Girau, Bernard 14 December 2007 (has links) (PDF)
De nombreux travaux portent sur les réseaux de neurones artificiels appliqués à des systèmes fortement contraints (systèmes ambulatoires, systèmes autonomes, systèmes adaptatifs, etc), pour lesquels le caractère élémentaire et massivement distribué des calculs neuronaux s'avère un atout. De façon plus large, ce caractère définit la nature même des calculs connexionnistes : une puissance de calcul et une robustesse fondées sur un parallélisme massif à grain très fin où les unités de calcul s'insèrent dans un flux d'informations très dense. Il est donc indispensable de pouvoir pleinement exploiter ce parallélisme connexionniste, à la fois en termes de potentiel de calcul et en termes de perspectives d'implantations embarquées efficaces. Une partie de ces travaux s'attache à définir différentes approches d'implantation massivement parallèle de réseaux neuronaux. Une approche globale de la pratique de calcul connexionniste ne peut pas faire l'économie d'une réflexion sur les fondements de la conception des architectures connexionnistes susceptibles de résoudre un problème donné. L'essentiel des travaux sur les réseaux de neurones s'est concentré sur la définition de familles de modèles neuronaux dont l'apprentissage permet de traiter des tâches telles que classification, régression, discrimination, auto-régression, etc. Ces modèles restent d'actualité, ne serait-ce que par la variété des applications dans lesquelles ils jouent encore un rôle central, et les travaux rapportés dans ce manuscrit portent en partie sur ces modèles. Néanmoins, ils n'apparaissent le plus souvent que comme des outils de traitement statistique de données, au même titre que de nombreux autres modèles. Ils se heurtent ainsi à une barrière de complexité dans les problèmes qu'ils sont susceptibles de résoudre. Franchir "à l'aveuglette" cette barrière, c'est à dire proposer ex nihilo des architectures connexionnistes capables de réaliser des tâches cognitives complexes, ne semble pas raisonnable. De nombreux chercheurs suggèrent alors de prendre appui sur des exemples naturels de systèmes distribués capables de réaliser ces tâches. Les neurosciences sont une orientation possible. C'est cette inspiration sur la base des mécanismes observés dans le cerveau qui est proposée dans une partie des travaux rapportés dans ce manuscrit. L'objet de ces travaux n'est pas de faire le tour de l'apport possible des neurosciences pour la conception des modèles connexionnistes, mais de montrer que même dans le cas de modèles d'inspiration corticale, la défense du parallélisme connexionniste passe par une étude focalisée sur les mécanismes locaux de gestion du flux d'informations sous-jacent à ces modèles.
3

Prévision de la défaillance et réseaux de neurones : l'apport des méthodes numériques de sélection de variables

Du Jardin, Philippe 15 December 2007 (has links) (PDF)
Les hypothèses qui sous-tendent les modèles de prédiction de la défaillance d'entreprise ont conduit leurs auteurs à privilégier comme méthodes d'élaboration, celles issues de la statistique et de l'analyse de données. Parmi toutes les méthodes employées – analyse discriminante, régression logistique, arbre de décision, etc. – les réseaux de neurones occupent une place privilégiée depuis une vingtaine d'années en raison de leurs propriétés mathématiques intrinsèques, mais aussi à cause des caractéristiques spécifiques qu'ils confèrent aux modèles. Pour autant, la performance d'un modèle numérique, c'est-à-dire sa capacité prédictive, ne dépend pas simplement de la famille de méthode qui l'a produit. Elle dépend des données employées pour son ajustement. Or, les travaux de recherche réalisés jusqu'à présent se sont appuyés essentiellement sur des variables de convenance, choisies parce qu'elles sont présentes dans les échantillons retenus ou parce qu'elles correspondent à des indicateurs traditionnels associés à la « santé financière » d'une entreprise. L'objet de ce travail doctoral s'inscrit dans cette perspective. Il vise à montrer en quoi les méthodes de sélection de variables adaptées aux réseaux de neurones, fondés sur des heuristiques d'énumération, offrent une alternative utile aux choix arbitraires de ces dernières ; ils permettent d'améliorer le degré de précision dans la prévision d'une défaillance et, grâce à une détection des variables pertinentes, d'approfondir la connaissance du problème traité.
4

Avancées théoriques sur la représentation et l'optimisation des réseaux de neurones

Le Roux, Nicolas January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
5

Segmentation hiérarchique du domaine sémantique pour l'accélération d'un modèle de langage

Morin, Frédéric January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
6

Treillis de Galois et réseaux de neurones : une approche constructive d'architecture des réseaux de neurones / Concepts lattice and artificial neural network : a constructive approach of the neural network architecture

Tsopze, Norbert 28 December 2010 (has links)
Les réseaux de neurones artificiels connaissent des succès dans plusieurs domaines. Maisles utilisateurs des réseaux de neurones sont souvent confrontés aux problèmes de définitionde son architecture et d’interprétabilité de ses résultats. Plusieurs travaux ont essayé d’apporterune solution à ces problèmes. Pour les problèmes d’architecture, certains auteurs proposentde déduire cette architecture à partir d’un ensemble de connaissances décrivant le domaine duproblème et d’autres proposent d’ajouter de manière incrémentale les neurones à un réseauayant une taille initiale minimale. Les solutions proposées pour le problème d’interprétabilitédes résultats consistent à extraire un ensemble de règles décrivant le fonctionnement du réseau.Cette thèse contribue à la résolution de ces deux problèmes. Nous nous limitons à l’utilisationdes réseaux de neurones dans la résolution des problèmes de classification.Nous présentons dans cette thèse un état de l’art des méthodes existantes de recherche d’architecturede réseaux de neurones : une étude théorique et expérimentale est aussi faite. Decette étude, nous observons comme limites de ces méthodes la disponibilité absolue des connaissancespour construire un réseau interprétable et la construction des réseaux difficiles à interpréteren absence de connaissances. En alternative, nous proposons une méthode appelée CLANN(Concept Lattice-based Artificial Neural network) basée les treillis de Galois qui construit undemi-treillis à partir des données et déduire de ce demi-treillis l’architacture du réseau. CLANNétant limitée à la résolution des problèmes à deux classes, nous proposons MCLANN permettantd’étendre cette méthodes de recherche d’architecture des réseaux de neurones aux problèmes àplusieurs classes.Nous proposons aussi une méthode appelée ’Approche des MaxSubsets’ pour l’extractiondes règles à partir d’un réseau de neurones. La particularité de cette méthode est la possibilitéd’extraire les deux formats de règles (’si alors’ et ’m parmi N’) à partir d’une structure quenous construisons. Nous proposons aussi une façon d’expliquer le résultat calculé par le réseauconstruit par la méthode MCLANN au sujet d’un exemple. / The artificial neural networks are successfully applied in many applications. But theusers are confronted with two problems : defining the architecture of the neural network able tosolve their problems and interpreting the network result. Many research works propose some solutionsabout these problems : to find out the architecture of the network, some authors proposeto use the problem domain theory and deduct the network architecture and some others proposeto dynamically add neurons in the existing networks until satisfaction. For the interpretabilityproblem, solutions consist to extract rules which describe the network behaviour after training.The contributions of this thesis concern these problems. The thesis are limited to the use of theartificial neural networks in solving the classification problem.In this thesis, we present a state of art of the existing methods of finding the neural networkarchitecture : we present a theoritical and experimental study of these methods. From this study,we observe some limits : difficulty to use some method when the knowledges are not available ;and the network is seem as ’black box’ when using other methods. We a new method calledCLANN (Concept Lattice-based Artificial Neural Network) which builds from the training dataa semi concepts lattice and translates this semi lattice into the network architecture. As CLANNis limited to the two classes problems, we propose MCLANN which extends CLANN to manyclasses problems.A new method of rules extraction called ’MaxSubsets Approach’ is also presented in thisthesis. Its particularity is the possibility of extracting the two kind of rules (If then and M-of-N)from an internal structure.We describe how to explain the MCLANN built network result aboutsome inputs.
7

Apprentissage incrémental de règles sensorimotrices dans un robot, du babillage moteur à l'utilisation d'outils / Incremental learning of sensorimotor rules in a robot, from motor babbling to tool-use

Braud, Raphaël 23 November 2017 (has links)
Ma thèse porte sur l'intégration développementale de différents systèmes d'apprentissage dans un robot, du babillage moteur à l'émergence de l'utilisation d'outils. L'utilisation d'outils recouvre de nombreuses problématiques, certaines bas niveau (comme l'extension du schéma corporel) et d'autres plus haut niveau (comme la capacité à faire une séquence d'actions).Nous avons pour cela proposé un modèle appelé Dynamic Sensorimotor Model (DSM). DSM apprend des lois sensorimotrices, qui consistent à prédire les variations sensorielles (comme le déplacement d'un objet dans l'espace visuel) en fonction :1) De magnitudes motrices (comme des commandes en vitesse de servomoteurs).2) D'un contexte donné (un vecteur de données sensorielles).Un tel prédicteur peut apprendre et affiner ses lois sensorimotrices dans n'importe quelle situation, que ce soit durant l'exécution d'une tâche ou durant une phase de babillage moteur. L'apprentissage de ces prédictions est donc indépendant de l'exécution de tâches particulières, et pourra être exploité dans de nouveaux contextes, et pour satisfaire de nouvelles tâches.Pour cela, DSM contient un mécanisme de simulation motrice mais aussi un mécanisme de simulation de contextes. Ces simulations portent ainsi sur :1) Les entrées motrices, ce qui permet de déterminer les commandes motrices à effectuer en vue d'une tâche particulière.2) Les entrées sensorielles, ce qui permet de proposer des contextes alternatifs au sein desquels les actions permettant la réalisation d'une tâche pourront être effectuées. Ces contextes alternatifs pourront alors se constituer en sous-buts permettant d'effectuer une séquence d'actions.Grâce à ces simulations, des expériences sur robot réel ont permis de satisfaire une tâche consistant à rejoindre une cible avec l'extrémité du bras, en faisant un détour pour saisir un outil. La saisie a comme propriété d'étendre le schéma corporel (le segment terminal du bras du robot).La capacité à faire des séquences à la volée repose sur les contextes qui auront été appris. Cela met en évidence l'importance d'avoir des contextes ne contenant que les données suffisantes à la prédiction, afin de générer, par le mécanisme de simulation, des sous-buts les plus minimaux possibles pour satisfaire un but donné.Notre modèle catégorise des lois additives afin de ne pas perturber les lois sensorimotrices précédemment apprises et ainsi apprendre des lois de manière incrémentale. Dans DSM, une nouvelle catégorie se caractérise par l'instauration d'une distance entre la configuration sensorielle correspondant au contexte actuel, dans lequel les lois courantes sont en échec, et le dernier contexte dans lequel ces lois s'appliquaient correctement. Cette distance entre contextes est donc multimodale, et indépendante de la topologie propre des senseurs d'entrée. Par contre, étant issue de deux situations à deux moments différents, cette distance dépend de l'exploration sensorimotrice du robot durant cet interval de temps. Pendant cette période, les senseurs qui auront suffisamment changés de valeurs apparaîtront comme discriminant un contexte par rapport à l'autre, bien qu'ils ne soient pas tous pertinents. Ce sera par l'action que les senseurs pertinents seront sélectionnés. / Inspired by concepts found in developmental psychology, my work focuses on robotic learning through motor babbling in order to achieve low-level sensorimotor control and, subsequently, to progress to more high-level behaviours such as the use of tools. Tool-use raises several key issues related to the extension of the body schema and the ability to make sequences of actions. In this presentation I will discuss my research efforts in this area by presenting a model called "Dynamic Sensorimotor Model (DSM)". DSM learns sensorimotor laws by making predictions about sensory input variations, as a result of observing environmental phenomena and interacting with objects in the reaching space.Sensorimotor laws depend on; 1) motor magnitudes (e.g., motor commands in velocity) and 2) a given context (i.e., a sensory input vector). A predictor learns and refines sensorimotor laws either during the execution of a task or during a motor babbling phase. Learning laws is therefore independent of the execution of specific tasks and they can be exploited in both new contexts and/or for new tasks.DSM employs two mechanisms. First, a mechanism for motor simulations that considers the result of simulated motor inputs to determine appropriate motor commands to be performed towards a particular task. Second, a mechanism for context simulations that uses simulated sensory inputs in order to identify contexts that can potentially form sub-goals towards the completion of a task.The performance of the system is evaluated through a series of experiments conducted using both a simulated and a real robotic platform. The results demonstrate the ability of the system to complete reaching tasks and highlight its strength in making use of a nearby tool when the target is not within its reach.The ability to make sequences of actions on the fly is based on the accuracy of the contexts that the system gradually learns. The last part of my work focuses on improving the efficiency of making sequences of actions by offering the ability to categorize contexts based on the variations observed in the sensors with respect to the variation of the sensorimotor laws.
8

Collaborative filtering techniques for drug discovery

Erhan, Dumitru January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
9

Avancées théoriques sur la représentation et l'optimisation des réseaux de neurones

Le Roux, Nicolas January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
10

Détection de sites sécuritaires par réseaux de neurones pour un atterrissage autonome sur corps planétaire

Belley, Katia January 2008 (has links)
Dans le cadre des futures missions d'exploration planétaire comportant un atterrissage, la sélection d'un site d'atterrissage sécuritaire en temps réel devient une technologie de plus en plus recherchée. Celle-ci permet d'augmenter les retombées scientifiques de la mission en donnant accès à des régions à plus haut potentiel scientifique. Elle permet aussi d'accroître les chances de réussite de la mission et d'augmenter la charge utile des équipements en rendant l'atterrissage plus sécuritaire. Parmi les méthodes développées pour faire la sélection d'un site d'atterrissage, celle proposée par Andrew Johnson du Jet Propulsion Laboratory pour évaluer le degré de sécurité de sites d'atterrissage à partir d'images lidar prises pendant la descente s'avère très intéressante. Il utilise une technique nommée moindres carrées médians pour calculer la pente et la rugosité des sites d'atterrissage. Cependant, le temps de calcul exigé par cette approche la rend difficile à exécuter en temps réel. Ce mémoire de maîtrise propose l'utilisation d'un système à base de RNA (réseaux de neurones artificiels) pour faire l'approximation de la méthode des moindres carrés médians. Une architecture comportant quatre RNA a été développée afin de déterminer la pente et la rugosité d'un site d'atterrissage. Trois RNA permettent d'évaluer les paramètres du plan médian afin d'estimer ces deux propriétés du terrain. Un réseau optionnel est spécialisé pour l'évaluation des sites comportant une grande rugosité. Des modules de prétraitement et post-traitement des données sont utilisés pour améliorer la performance des réseaux de neurones et des modules d'arbitrage servent à déterminer les deux sorties du système. Une solution est aussi proposée pour présélectionner une zone d'atterrissage sécuritaire afin de réduire le nombre de sites individuels à évaluer. Plusieurs types de réseaux de neurones ont été comparés pour résoudre la problématique. Des lignes directrices ont été établies permettant de choisir les réseaux de neurones les plus efficaces pour chacun des modules en fonction du temps de calcul disponible. Le système développé permet de diminuer considérablement le temps de calcul requis pour résoudre la problématique. De plus, la solution proposée peut facilement être adaptée en fonction des objectifs de la mission spatiale.

Page generated in 0.1228 seconds