• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 254
  • 254
  • 51
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 578
  • 578
  • 378
  • 365
  • 118
  • 118
  • 115
  • 105
  • 98
  • 94
  • 90
  • 90
  • 89
  • 73
  • 70
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
261

Développement d’une méthodologie robuste d’inversion dédiée au CND par courants de Foucault / Development of a robust inversion methodology in nondestructive eddy current testing

Ahmed, Shamim 05 March 2018 (has links)
Ce travail de thèse porte sur l'étude et le développement de stratégies innovantes pour la résolution, basée sur l'utilisation de la simulation et de la théorie de l'apprentissage statistique, de problèmes inverses dans le domaine contrôle non destructif (CND) par méthodes électromagnétiques. L’approche générale adoptée consiste à estimer un ensemble des paramètres inconnus, constituant un sous-ensemble des paramètres décrivant le scénario de contrôle étudié. Dans les cas de CND, les trois applications classiquement visées sont la détection, la localisation et la caractérisation de défauts localisés dans le matériau inspecté. Ce travail concerne d’une part la localisation et la caractérisation des fissures et d’autre part l'estimation de certains paramètres de sonde difficiles à maîtriser ou inconnus. Dans la littérature, de nombreuses méthodes permettant de remonter aux paramètres inconnus ont été étudiées. Les approches d'optimisation standard sont basées sur la minimisation d'une fonction de coût, décrivant l'écart entre les mesures et les données simulées avec un solveur numérique. Les algorithmes les plus répandus se fondent sur des approches itératives déterministes ou stochastiques. Cette thèse considère le problème de l'estimation de paramètres inconnus dans une perspective d'apprentissage statistique/automatique. L’approche supervisée adoptée est connue sous le nom de d’apprentissage par l'exemple (LBE en anglais). Elle se compose d’une première phase, dite hors ligne, pendant laquelle un « modèle inverse » est construit sur la base de la connaissance d’un ensemble de couples entrée/sortie connu, appelé ensemble d’entraînement. Une fois la phase d’apprentissage terminée et le modèle généré, le modèle est utilisé dans une phase dite en ligne pour prédire des sorties inconnues (les paramètres d'intérêt) en fonction de nouvelles entrées (signaux CND mesurés appartenant à un second ensemble dit de test) en temps quasi-réel. Lorsqu’on considère des situations pratiques d'inspection, en raison du grand nombre de variables impliquées, la création d'un modèle précis et robuste n’est pas une tâche triviale (problème connu comme la malédiction de la dimensionnalité). Grâce à une étude approfondie et systématique, l’approche développée dans cette thèse a conduit à la mise en place de différentes solutions capables d’atteindre une bonne précision dans l’estimation des paramètres inversés tout en conservant de très bonnes performances en temps de calcul. Le schéma LBE proposé dans cette thèse a été testé avec succès sur un ensemble des cas réels, en utilisant à la fois des données synthétiques bruitées et des mesures expérimentales. / The research activity of the PhD thesis focuses on the study and development of innovative strategies for the solution of inverse problems arising in the field of Non-Destructive Testing and Evaluation (NDT-NDE), based on the use of statistical learning theory. Generally speaking, the objective of the optimization stage is the retrieval of the unknown parameters within the studied electromagnetic scenario. In the case of NDT-NDE, the optimization problem, in terms of parameters to estimate, is divided into three stages, namely detection, localization and characterization. This work mainly addresses localization and characterization of crack(s) and/or estimation of probe(s) parameters. Unknown parameters, constituting a subset of the parameters set describing the electromagnetic scenario, are robustly estimated using several approaches. Standard optimization approaches are based on the minimization, by means of iterative approaches like stochastic and/or deterministic algorithms, of a cost function describing the discrepancy between measurements and prediction. This thesis considers the estimation problem in a machine learning perspective, adopting well known Learning-By-Example (LBE) paradigm. In a so-called offline phase, a surrogate inverse model is first fitted on a set of known input/output couples, generated through numerical simulations. Then, in a so-called online phase, the model predicts unknown outputs (the parameters of interest) based on new inputs (measured NDT signals) in quasi-real time. When considering practical inspection situations, due to the large number of variables involved (known as curse of dimensionality), obtaining an accurate and robust model is not a trivial task. This thesis carries out a deep and systematic study of different strategies and solutions to achieve simultaneously good accuracy and computational time efficiency in the parameters estimation. Moreover, a particular emphasis is put on the different approaches adopted for mitigating the curse of dimensionality issue. The proposed LBE schema has been tested with success on a wide set of practical problems, using both synthetic noisy data and experimental measurements.
262

The study of the social cues exchanged during natural interaction / L'étude des signaux sociaux lors d'interactions naturelles

Fang, Sheng 05 February 2018 (has links)
L'objectif de la thèse consiste à étudier les indices sociaux échangés lors d'interactions naturelles. Cette étude a deux principaux défis. Le premier défi réside dans la sélection des indices sociaux. Il y a des centaines de milliers de signaux sociaux. Il est important de savoir quels signaux sociaux sont essentiels pour comprendre l'interaction sociale. Le deuxième défi concerne la modélisation de l'interaction sociale. Pendant la thèse, nous nous concentrons sur ces deux défis et réalisons 3 applications: la reconnaissance des rôles, la prédiction de la personnalité et l'estimation de la cohésion. Dans l'application de la reconnaissance de rôle, nous proposons une nouvelle approche en combinant un modèle d'apprentissage automatique génératif et discriminatif. Par rapport aux approches conventionnelles, la nouvelle approche a non seulement la capacité de traiter des données de séries temporelles et de modéliser la synchronie des signaux sociaux, mais aussi une forte capacité de discrimination.Dans l'application de la prédiction de la personnalité, nous proposons une nouvelle catégorisation des caractéristiques, qui divise les signaux sociaux en trois groupes, les caractéristiques intra-personnelles, les caractéristiques dyadiques et les caractéristiques de One_VS_All. Cette catégorisation aide à comprendre la relation entre les traits de personnalité / impressions sociales et les catégories d'indices sociaux.La dernière application, appelée estimation de la cohésion, prédit la cohésion entre les participants aux réunions. Nous recueillons des annotations de la cohésion des réunions dans une base de données publique et estimons la cohésion avec un ensemble de caractéristiques abondantes. / The goal of this Ph.D. work is to study the social cues exchanged during natural interaction. This study has 2 main challenges. The first challenge lies in the selection of social cues. There are hundreds of thousands social cues. It's important to find out which social signals are essential to understand social interaction. The second challenge concerns the modelling of social interaction. During the Ph.D. work, we focus on these two challenge and realize 3 applications: role recognition, personality prediction and cohesion estimation.In the application of role recognition, we propose a new approach by combining a generative and a discriminative machine learning model. Compared to conventional approaches, the new approach has not only the ability to process time-series data and model the synchrony of social signals, but also a strong capacity in discrimination.In the application of personality prediction, we propose a new feature categorization, which divides the social signals into 3 groups, Intra-Personal features, Dyadic features, and One_VS_All features. This categorization helps to understand the relation between personality traits/social impressions and the categories of social cues.The last application, named cohesion estimation, predicts the cohesion between the participants in small scale meetings. We collect annotations of cohesion of meetings in a public database and estimate the cohesion with an abundant feature set.
263

Les méthodes de caching distribué dans les réseaux small cells / Distributed caching methods in small cell networks

Bastug, Ejder 14 December 2015 (has links)
Cette thèse explore le caching proactif, l'un des principaux paradigmes des réseaux cellulaires 5G utilisé en particulier le déploiement des réseaux à petites cellules (RPCs). Doté de capacités de prévisions en combinaison avec les récents développements dans le stockage, la sensibilité au contexte et les réseaux sociaux, le caching distribué permet de réduire considérablement les pics de trafic dans la demande des utilisateurs en servant de manière proactive ces derniers en fonction de leurs demandes potentielles, et en stockant les contenus à la fois dans les stations de base et dans les terminaux des utilisateurs. Pour montrer la faisabilité des techniques de caching proactif, nous abordons le problème sous deux angles différents, à savoir théorique et pratique.Dans la première partie de cette thèse, nous utiliserons des outils de géométrie stochastique pour modéliser et analyser les gains théoriques résultant du stockage dans les stations de base. Nous nous focalisons en particulier sur 1-) les réseaux ``niveau-simple" dans lesquels de petites stations de base ayant une capacité de stockage limitée, 2-) Réseaux ``niveau-multiples" avec un backbone à capacité limitée et 3-) Les réseaux ``niveau-multiples groupés" à deux topologies différentes: déploiements en fonction de la couverture et en fonction de la capacité. Nous y caractérisons les gains de stockage en termes de débit moyen fourni et de délai moyen, puis nous montrons différents compromis en fonction du nombre de stations de base, de la taille de stockage, du facteur de popularité des contenus et du débit des contenus ciblés. Dans la seconde partie de la thèse, nous nous focalisons à une approche pratique du caching proactif et nous focalisons sur l'estimation du facteur de popularité des contenus et les aspects algorithmiques. En particulier, 1-) nous établissons dans un premier lieu les gains du caching proactif à la fois au niveau des stations de base qu'au niveau des terminaux utilisateurs, en utilisant des outils récents d'apprentissage automatique exploitant le transfert des communications appareil-à-appareil (AàA); 2-) nous proposons une approche d'apprentissage sur la base de la richesse des informations transmises entre terminaux (que nous désignons par domaine source) dans le but d'avoir une meilleure estimation de la popularité des différents contenus et des contenus à stocker de manière stratégique dans les stations de base (que nous désignons par domaine cible); 3-) Enfin, pour l'estimation de la popularité des contenus en pratique, nous collectons des données de trafic d'usagers mobiles d'un opérateur de télécommunications sur plusieurs de ses stations de base pendant un certain nombre d'observations. Cette grande quantité de données entre dans le cadre du traitement ``Big Data" et nécessite l'utilisation de nouveaux mécanismes d'apprentissage automatique adaptés à ces grandes masses de données. A ce titre, nous proposons une architecture parallélisée dans laquelle l'estimation de la popularité des contenus et celle du stockage stratégique au niveau des stations de base sont faites simultanément. Nos résultats et analyses fournissent des visions clés pour le déploiement du stockage de contenus dans les petites stations de base, l'une des solutions les plus prometteuses des réseaux cellulaires mobiles hétérogènes 5G. / This thesis explores one of the key enablers of 5G wireless networks leveraging small cell network deployments, namely proactive caching. Endowed with predictive capabilities and harnessing recent developments in storage, context-awareness and social networks, peak traffic demands can be substantially reduced by proactively serving predictable user demands, via caching at base stations and users' devices. In order to show the effectiveness of proactive caching techniques, we tackle the problem from two different perspectives, namely theoretical and practical ones.In the first part of this thesis, we use tools from stochastic geometry to model and analyse the theoretical gains of caching at base stations. In particular, we focus on 1) single-tier networks where small base stations with limited storage are deployed, 2) multi-tier networks with limited backhaul, and) multi-tier clustered networks with two different topologies, namely coverage-aided and capacity-aided deployments. Therein, we characterize the gains of caching in terms of average delivery rate and mean delay, and show several trade-offs as a function of the number of base stations, storage size, content popularity behaviour and target content bitrate. In the second part of the thesis, we take a more practical approach of proactive caching and focus on content popularity estimation and algorithmic aspects. In particular: 1) We first investigate the gains of proactive caching both at base stations and user terminals, by exploiting recent tools from machine learning and enabling social-network aware device-to-device (D2D) communications; 2) we propose a transfer learning approach by exploiting the rich contextual information extracted from D2D interactions (referred to as source domain) in order to better estimate the content popularity and cache strategic contents at the base stations (referred to as target domain); 3) finally, to estimate the content popularity in practice, we collect users' real mobile traffic data from a telecom operator from several base stations in hours of time interval. This amount of large data falls into the framework of big data and requires novel machine learning mechanisms to handle. Therein, we propose a parallelized architecture in which content popularity estimation from this data and caching at the base stations are done simultaneously.Our results and analysis provide key insights into the deployment of cache-enabled small base stations, which are seen as a promising solution for 5G heterogeneous cellular networks.
264

Learning Image-to-Surface Correspondence / Apprentissage de Correspondances Image-Surface

Guler, Riza Alp 08 March 2019 (has links)
Cette thèse se concentre sur le développement demodèles de représentation dense d’objets 3-D àpartir d’images. L’objectif de ce travail estd’améliorer les modèles surfaciques 3-D fournispar les systèmes de vision par ordinateur, enutilisant de nouveaux éléments tirés des images,plutôt que les annotations habituellementutilisées, ou que les modèles basés sur unedivision de l’objet en différents parties.Des réseaux neuronaux convolutifs (CNNs) sontutilisés pour associer de manière dense les pixelsd’une image avec les coordonnées 3-D d’unmodèle de l’objet considéré. Cette méthodepermet de résoudre très simplement unemultitude de tâches de vision par ordinateur,telles que le transfert d’apparence, la localisationde repères ou la segmentation sémantique, enutilisant la correspondance entre une solution surle modèle surfacique 3-D et l’image 2-Dconsidérée. On démontre qu’une correspondancegéométrique entre un modèle 3-D et une imagepeut être établie pour le visage et le corpshumains. / This thesis addresses the task of establishing adense correspondence between an image and a 3Dobject template. We aim to bring vision systemscloser to a surface-based 3D understanding ofobjects by extracting information that iscomplementary to existing landmark- or partbasedrepresentations.We use convolutional neural networks (CNNs)to densely associate pixels with intrinsiccoordinates of 3D object templates. Through theestablished correspondences we effortlesslysolve a multitude of visual tasks, such asappearance transfer, landmark localization andsemantic segmentation by transferring solutionsfrom the template to an image. We show thatgeometric correspondence between an imageand a 3D model can be effectively inferred forboth the human face and the human body.
265

L’amélioration des performances des systèmes sans fil 5G par groupements adaptatifs des utilisateurs / Performance improvement of 5G Wireless Systems through adaptive grouping of users

Hajri, Salah Eddine 09 April 2018 (has links)
5G est prévu pour s'attaquer, en plus d'une augmentation considérable du volume de trafic, la tâche de connecter des milliards d'appareils avec des exigences de service hétérogènes. Afin de relever les défis de la 5G, nous préconisons une utilisation plus efficace des informations disponibles, avec plus de sensibilisation par rapport aux services et aux utilisateurs, et une expansion de l'intelligence du RAN. En particulier, nous nous concentrons sur deux activateurs clés de la 5G, à savoir le MIMO massif et la mise en cache proactive. Dans le troisième chapitre, nous nous concentrons sur la problématique de l'acquisition de CSI dans MIMO massif en TDD. Pour ce faire, nous proposons de nouveaux schémas de regroupement spatial tels que, dans chaque groupe, une couverture maximale de la base spatiale du signal avec un chevauchement minimal entre les signatures spatiales des utilisateurs est obtenue. Ce dernier permet d'augmenter la densité de connexion tout en améliorant l'efficacité spectrale. MIMO massif en TDD est également au centre du quatrième chapitre. Dans ce cas, en se basant sur les différents taux de vieillissement des canaux sans fil, la périodicité d'estimation de CSI est supplémentaire. Nous le faisons en proposant un exploité comme un degré de liberté supplémentaire. Nous le faisons en proposant une adaptation dynamique de la trame TDD en fonction des temps de cohérence des canaux hétérogènes. Les stations de bases MIMO massif sont capables d'apprendre la meilleure politique d’estimation sur le uplink pour de longues périodes. Comme les changements de canaux résultent principalement de la mobilité de l'appareil, la connaissance de l'emplacement est également incluse dans le processus d'apprentissage. Le problème de planification qui en a résulté a été modélisé comme un POMDP à deux échelles temporelles et des algorithmes efficaces à faible complexité ont été fournis pour le résoudre. Le cinquième chapitre met l'accent sur la mise en cache proactive. Nous nous concentrons sur l'amélioration de l'efficacité énergétique des réseaux dotes de mise en cache en exploitant la corrélation dans les modèles de trafic en plus de la répartition spatiale des demandes. Nous proposons un cadre qui établit un compromis optimal entre la complexité et la véracité dans la modélisation du comportement des utilisateurs grâce à la classification adaptative basée sur la popularité du contenu. Il simplifie également le problème du placement de contenu, ce qui se traduit par un cadre d'allocation de contenu rapidement adaptable et économe en énergie. / 5G is envisioned to tackle, in addition to a considerable increase in traffic volume, the task of connecting billions of devices with heterogeneous service requirements. In order to address the challenges of 5G, we advocate a more efficient use of the available information, with more service and user awareness, and an expansion of the RAN intelligence. In particular, we focus on two key enablers of 5G, namely massive MIMO and proactive caching. In the third chapter, we focus on addressing the bottleneck of CSI acquisition in TDD Massive MIMO. In order to do so, we propose novel spatial grouping schemes such that, in each group, maximum coverage of the signal’s spatial basis with minimum overlapping between user spatial signatures is achieved. The latter enables to increase connection density while improving spectral efficiency. TDD Massive MIMO is also the focus of the fourth chapter. Therein, based on the different rates of wireless channels aging, CSI estimation periodicity is exploited as an additional DoF. We do so by proposing a dynamic adaptation of the TDD frame based on the heterogeneous channels coherence times. The Massive MIMO BSs are enabled to learn the best uplink training policy for long periods. Since channel changes result primarily from device mobility, location awareness is also included in the learning process. The resulting planning problem was modeled as a two-time scale POMDP and efficient low complexity algorithms were provided to solve it. The fifth chapter focuses on proactive caching. We focus on improving the energy efficiency of cache-enabled networks by exploiting the correlation in traffic patterns in addition to the spatial repartition of requests. We propose a framework that strikes the optimal trade-off between complexity and truthfulness in user behavior modeling through adaptive content popularity-based clustering. It also simplifies the problem of content placement, which results in a rapidly adaptable and energy efficient content allocation framework.
266

Computational foundations of anthropomorphic locomotion / Fondements calculatoires de la locomotion anthropomorphe

Carpentier, Justin 01 September 2017 (has links)
La locomotion anthropomorphe est un processus complexe qui met en jeu un très grand nombre de degrés de liberté, le corps humain disposant de plus de trois cents articulations contre une trentaine chez les robots humanoïdes. Pris dans leur ensemble, ces degrés de liberté montrent une certaine cohérence rendant possible la mise en mouvement du système anthropomorphe et le maintien de son équilibre, dans le but d'éviter la chute. Cette thèse met en lumière les fondements calculatoires à l'origine de cette orchestration. Elle introduit un cadre mathématique unifié permettant à la fois l'étude de la locomotion humaine, et la génération de trajectoires locomotrices pour les robots humanoïdes. Ce cadre consiste en une réduction de la dynamique corps-complet du système pour ne considérer que sa projection autour du centre de gravité, aussi appelée dynamique centroïdale. Bien que réduite, nous montrons que cette dynamique centroïdale joue un rôle central dans la compréhension et la formation des mouvements locomoteurs. Pour ce faire, nous établissons dans un premier temps les conditions d'observabilité de cette dynamique, c'est-à-dire que nous montrons dans quelle mesure cette donnée peut être appréhendée à partir des capteurs couramment employés en biomécanique et en robotique. Forts de ces conditions d'observabilité, nous proposons un estimateur capable de reconstruire la position non-biaisée du centre de gravité. A partir de cet estimateur et de l'acquisition de mouvements de marche sur divers sujets, nous mettons en évidence la présence d'un motif cycloïdal du centre de gravité dans le plan sagittal lorsque l'humain marche de manière nominale, c'est-à-dire sans y penser. La présence de ce motif suggère l'existence d'une synergie motrice jusqu'alors ignorée, soutenant la théorie d'une coordination générale des mouvements pendant la locomotion. La dernière contribution de cette thèse porte sur la locomotion multi-contacts. Les humains ont une agilité remarquable pour effectuer des mouvements locomoteurs qui nécessitent l'utilisation conjointe des bras et des jambes, comme lors de l'ascension d'une paroi rocheuse. Comment doter les robots humanoïdes de telles capacités ? La difficulté n'est certainement pas technologique, puisque les robots actuels sont capables de développer des puissances mécaniques suffisantes. Leurs performances, évaluées tant en termes de qualité des mouvements que de temps de calcul, restent très limitées. Dans cette thèse, nous abordons le problème de génération de trajectoires multi-contacts sous la forme d'un problème de commande optimale. L'intérêt de cette formulation est de partir du modèle réduit de la dynamique centroïdale tout en répondant aux contraintes d'équilibre. L'idée originale consiste à maximiser la vraisemblance de cette dynamique réduite vis-à-vis de la dynamique corps-complet. Elle repose sur l'apprentissage d'une mesure d'occupation qui reflète les capacités cinématiques et dynamiques du robot. Elle est effective : l'algorithmique qui en découle est compatible avec des applications temps réel. L'approche a été évaluée avec succès sur le robot humanoïde HRP-2, sur plusieurs modes de locomotions, démontrant ainsi sa polyvalence. / Anthropomorphic locomotion is a complex process that involves a very large number of degrees of freedom, the human body having more than three hundred joints against thirty in humanoid robots. Taken as a whole, these degrees of freedom show a certain coherence making it possible to set the anthropomorphic system in motion and maintain its equilibrium, in order to avoid falling. This thesis highlights the computational foundations behind this orchestration. It introduces a unified mathematical framework allowing both the study of human locomotion and the generation of locomotive trajectories for humanoid robots. This framework consists of a reduction of the body-complete dynamics of the system to consider only its projection around the center of gravity, also called centroid dynamics. Although reduced, we show that this centroidal dynamics plays a central role in the understanding and formation of locomotive movements. To do this, we first establish the observability conditions of this dynamic, that is to say that we show to what extent this data can be apprehended from sensors commonly used in biomechanics and robotics. Based on these observability conditions, we propose an estimator able to reconstruct the unbiased position of the center of gravity. From this estimator and the acquisition of walking motions on various subjects, we highlight the presence of a cycloidal pattern of the center of gravity in the sagittal plane when the human is walking nominally, that is, to say without thinking. The presence of this motif suggests the existence of a motor synergy hitherto unknown, supporting the theory of a general coordination of movements during locomotion. The last contribution of this thesis is on multi-contact locomotion. Humans have remarkable agility to perform locomotive movements that require joint use of the arms and legs, such as when climbing a rock wall. How to equip humanoid robots with such capabilities? The difficulty is certainly not technological, since current robots are able to develop sufficient mechanical powers. Their performances, evaluated both in terms of quality of movement and computing time, remain very limited. In this thesis, we address the problem of generating multi-contact trajectories in the form of an optimal control problem. The interest of this formulation is to start from the reduced model of centroid dynamics while responding to equilibrium constraints. The original idea is to maximize the likelihood of this reduced dynamic with respect to body-complete dynamics. It is based on learning a measurement of occupation that reflects the kinematic and dynamic capabilities of the robot. It is effective: the resulting algorithmic is compatible with real-time applications. The approach has been successfully evaluated on the humanoid robot HRP-2, on several modes of locomotion, thus demonstrating its versatility.
267

Contributions to generative models and their applications

Che, Tong 10 1900 (has links)
Generative models are a large class of machine learning models for unsupervised learning. They have various applications in machine learning and artificial intelligence. In this thesis, we discuss many aspects of generative models and their applications to other machine learning problems. In particular, we discuss several important topics in generative models, including how to stabilize discrete GAN training with importance sampling, how to do better sampling from GANs using a connection with energy-based models, how to better train auto-regressive models with the help of an energy-based model formulation, as well as two applications of generative models to other machine learning problems, one about residual networks, the other about safety verification. / Les modèles génératifs sont une grande classe de modèles d’apprentissage automatique pour l’apprentissage non supervisé. Ils ont diverses applications dans l’apprentissage automatique et l’intelligence artificielle. Dans cette thèse, nous discutons de nombreux aspects des modèles génératifs et de leurs applications à d’autres problèmes d’apprentissage automatique. En particulier, nous discutons de plusieurs sujets importants dans les modèles génératifs, y compris comment stabiliser la formation GAN discrète avec un échantillonnage d’importance, comment faire un meilleur échantillonnage à partir de GAN en utilisant une connexion avec des modèles basés sur l’énergie, comment mieux former des modèles auto-régressifs avec l’aide d’une formulation de modèle basée sur l’énergie, ainsi que deux applications de modèles génératifs à d’autres problèmes d’apprentissage automatique, l’une sur les réseaux résiduels, l’autre sur la vérification de la sécurité.
268

Adaptive learning of tensor network structures

Hashemizadehaghda, Seyed Meraj 10 1900 (has links)
Les réseaux tensoriels offrent un cadre puissant pour représenter efficacement des objets de très haute dimension. Les réseaux tensoriels ont récemment montré leur potentiel pour les applications d’apprentissage automatique et offrent une vue unifiée des modèles de décomposition tensorielle courants tels que Tucker, tensor train (TT) et tensor ring (TR). Cependant, l’identification de la meilleure structure de réseau tensoriel à partir de données pour une tâche donnée est un défi. Dans cette thèse, nous nous appuyons sur le formalisme des réseaux tensoriels pour développer un algorithme adaptatif générique et efficace pour apprendre conjointement la structure et les paramètres d’un réseau de tenseurs à partir de données. Notre méthode est basée sur une approche simple de type gloutonne, partant d’un tenseur de rang un et identifiant successivement les bords du réseau tensoriel les plus prometteurs pour de petits incréments de rang. Notre algorithme peut identifier de manière adaptative des structures avec un petit nombre de paramètres qui optimisent efficacement toute fonction objective différentiable. Des expériences sur des tâches de décomposition de tenseurs, de complétion de tenseurs et de compression de modèles démontrent l’efficacité de l’algorithme proposé. En particulier, notre méthode surpasse l’état de l’art basée sur des algorithmes évolutionnaires introduit dans [26] pour la décomposition tensorielle d’images (tout en étant plusieurs ordres de grandeur plus rapide) et trouve des structures efficaces pour compresser les réseaux neuronaux en surpassant les approches populaires basées sur le format TT [30]. / Tensor Networks (TN) offer a powerful framework to efficiently represent very high-dimensional objects. TN have recently shown their potential for machine learning applications and offer a unifying view of common tensor decomposition models such as Tucker, tensor train (TT) and tensor ring (TR). However, identifying the best tensor network structure from data for a given task is challenging. In this thesis, we leverage the TN formalism to develop a generic and efficient adaptive algorithm to jointly learn the structure and the parameters of a TN from data. Our method is based on a simple greedy approach starting from a rank one tensor and successively identifying the most promising tensor network edges for small rank increments. Our algorithm can adaptively identify TN structures with small number of parameters that effectively optimize any differentiable objective function. Experiments on tensor decomposition, tensor completion and model compression tasks demonstrate the effectiveness of the proposed algorithm. In particular, our method outperforms the state-of-the- art evolutionary topology search introduced in [26] for tensor decomposition of images (while being orders of magnitude faster) and finds efficient structures to compress neural networks outperforming popular TT based approaches [30].
269

Dynamics of learning and generalization in neural networks

Pezeshki, Mohammad 08 1900 (has links)
Les réseaux neuronaux sont remarquablement performants pour une grande variété de tâches d'apprentissage automatique et ont eu un impact profond sur la définition même de l'intelligence artificielle (IA). Cependant, malgré leur rôle important dans l'état actuel de l'IA, il est important de réaliser que nous sommes encore loin d'atteindre une intelligence de niveau humain. Une étape cruciale à l'amélioration de la performance des réseaux neuronaux consiste à faire progresser notre compréhension théorique, qui est en retard par rapport aux développements pratiques. Les dynamiques d'optimisation complexes des réseaux neuronaux, qui résultent d’interactions en haute dimension entre les nombreux paramètres du réseau, constituent un défi majeur pour l'élaboration des fondements théoriques de l'apprentissage profond. Ces dynamiques non triviales donnent lieu à des comportements empiriques déroutants qui, dans certains cas, contrastent fortement avec les prédictions théoriques. L'absence de surapprentissage dans les réseaux sur-paramétrés, leur recours à des corrélations fallacieuses et les courbes de généralisation non monotones font partie des comportements de généralisation des réseaux neuronaux qui laissent perplexe. Dans cette thèse, notre objectif est d'étudier certains de ces phénomènes perplexes en tant que pièces différentes d'un même casse-tête; un casse-tête dans lequel chaque phénomène sert de signal d'orientation pour développer une meilleure compréhension des réseaux neuronaux. Nous présentons trois articles en vue d’atteindre cet objectif; Le premier article sur multi-scale feature learning dynamics étudie les raisons qui sous-tendent la courbe de généralisation à double descente observée dans les réseaux neuronaux modernes. L'une des principales conclusions est que la double descente à travers les époques peut être attribuée à l'apprentissage de traits caractéristiques distincts à différentes échelles : Alors que les représentations faciles/rapides à apprendre sont en sur-apprentissage, les représentations plus complexes/lentes commencent à bien apprendre, ce qui entraîne une deuxième descente de l'erreur sur l’ensemble de test. Le deuxième article sur la famine de gradient identifie un phénomène fondamental qui peut entraîner une inclination à l'apprentissage dans les réseaux neuronaux. La famine de gradient se produit lorsqu'un réseau neuronal apprend à minimiser la perte en ne capturant qu'un sous-ensemble des traits caractéristiques pertinents à la classification, malgré la présence d'autres traits caractéristiques informatifs qui ne sont pas découverts. La famine de gradient a des conséquences bénéfiques et néfastes dont nous discutons. Le troisième article sur les méthodes simples de ré-équilibrage des données présente une étude empirique sur le problème de la généralisation à des groupes sous-représentés lorsque les données d'entraînement souffrent de déséquilibres importants. Ce travail porte sur les modèles qui généralisent bien en moyenne mais ne parviennent pas à généraliser à des groupes minoritaires. Notre principale conclusion est que des méthodes simples de ré-équilibrage de données permettent d'atteindre l’état de l’art pour la précision sur les groupes minoritaires, ce qui appelle à une examination plus approfondie des valeurs de référence et des méthodes de recherche sur la généralisation en-dehors du support de la distribution. Nos résultats permettent de mieux comprendre la mécanique interne des réseaux neuronaux et d'identifier les obstacles à la construction de modèles plus fiables, et ont des implications pratiques quant à l'entraînement des réseaux neuronaux. / Neural networks perform remarkably well in a wide variety of machine learning tasks and have had a profound impact on the very definition of artificial intelligence (AI). However, despite their significant role in the current state of AI, it is important to realize that we are still far from achieving human-level intelligence. A critical step in further improving neural networks is to advance our theoretical understanding which is in fact lagging behind our practical developments. A key challenge in building theoretical foundations for deep learning is the complex optimization dynamics of neural networks, resulting from the high-dimensional interactions between a large number of network parameters. Such non-trivial dynamics lead to puzzling empirical behaviors that, in some cases, appear in stark contrast with existing theoretical predictions. Lack of overfitting in over-parameterized networks, their reliance on spurious correlations, and double-descent generalization curves are among the perplexing generalization behaviors of neural networks. In this dissertation, our goal is to study some of these perplexing phenomena as different pieces of the same puzzle. A puzzle in which every phenomenon serves as a guiding signal towards developing a better understanding of neural networks. We present three articles towards this goal; The first article on multi-scale feature learning dynamics investigates the reasons underlying the double-descent generalization curve observed in modern neural networks. A central finding is that epoch-wise double descent can be attributed to distinct features being learned at different scales: as fast-learning features overfit, slower-learning features start to fit, resulting in a second descent in test error. The second article on gradient starvation identifies a fundamental phenomenon that can result in a learning proclivity in neural networks. Gradient starvation arises when a neural network learns to minimize the loss by capturing only a subset of features relevant for classification, despite the presence of other informative features which fail to be discovered. We discuss how gradient starvation can have both beneficial and adverse consequences on generalization performance. The third article on simple data balancing methods conducts an empirical study on the problem of generalization to underrepresented groups when the training data suffers from substantial imbalances. This work looks into models that generalize well on average but fail to generalize to minority groups of examples. Our key finding is that simple data balancing methods already achieve state-of-the-art accuracy on minority groups which calls for closer examination of benchmarks and methods for research in out-of-distribution generalization. These three articles take steps towards bringing insights into the inner mechanics of neural networks, identifying the obstacles in the way of building reliable models, and providing practical suggestions for training neural networks.
270

Une approche sémantique de détection de maliciel Android basée sur la vérification de modèles et l'apprentissage automatique

El Hatib, Souad 02 February 2024 (has links)
Le nombre croissant de logiciels malveillants Android s’accompagne d’une préoccupation profonde liée aux problèmes de la sécurité des terminaux mobiles. Les enjeux deviennent sans conteste de plus en plus importants, suscitant ainsi beaucoup d’attention de la part de la communauté des chercheurs. En outre, la prolifération des logiciels malveillants va de pair avec la sophistication et la complexité de ces derniers. En effet, les logiciels malveillants plus élaborés, tels que les maliciels polymorphes et métamorphiques, utilisent des techniques d’obscurcissement du code pour créer de nouvelles variantes qui préservent la sémantique du code original tout en modifiant sa syntaxe, échappant ainsi aux méthodes de détection usuelles. L’ambition de notre recherche est la proposition d’une approche utilisant les méthodes formelles et l’apprentissage automatique pour la détection des maliciels sur la plateforme Android. L’approche adoptée combine l’analyse statique et l’apprentissage automatique. En effet, à partir des applications Android en format APK, nous visons l’extraction d’un modèle décrivant de manière non ambiguë le comportement de ces dernières. Le langage de spécification formelle choisi est LNT. En se basant sur le modèle généré, les comportements malicieux exprimés en logique temporelle sont vérifiés à l’aide d’un vérificateur de modèle. Ces propriétés temporelles sont utilisées comme caractéristiques par un algorithme d’apprentissage automatique pour classifier les applications Android. / The ever-increasing number of Android malware is accompanied by a deep concern about security issues in the mobile ecosystem. Unquestionably, Android malware detection has received much attention in the research community and therefore it becomes a crucial aspect of software security. Actually, malware proliferation goes hand in hand with the sophistication and complexity of malware. To illustrate, more elaborated malware like polymorphic and metamorphic malware, make use of code obfuscation techniques to build new variants that preserve the semantics of the original code but modify it’s syntax and thus escape the usual detection methods. In the present work, we propose a model-checking based approach that combines static analysis and machine learning. Mainly, from a given Android application we extract an abstract model expressed in terms of LNT, a process algebra language. Afterwards, security related Android behaviours specified by temporal logic formulas are checked against this model, the satisfaction of a specific formula is considered as a feature, finally machine learning algorithms are used to classify the application as malicious or not.

Page generated in 0.4709 seconds