• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 174
  • 125
  • 14
  • Tagged with
  • 321
  • 186
  • 167
  • 145
  • 111
  • 79
  • 67
  • 67
  • 59
  • 48
  • 46
  • 39
  • 35
  • 34
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Sélection contextuelle de services continus pour la robotique ambiante / Contextual selection of continuous services applied to ambient robotics

Cogrel, Benjamin 18 November 2013 (has links)
La robotique ambiante s'intéresse à l'introduction de robots mobiles au sein d'environnements actifs où ces derniers fournissent des fonctionnalités alternatives ou complémentaires à celles embarquées par les robots mobiles. Cette thèse étudie la mise en concurrence des fonctionnalités internes et externes aux robots, qu'elle pose comme un problème de sélection de services logiciels. La sélection de services consiste à choisir un service ou une combinaison de services parmi un ensemble de candidats capables de réaliser une tâche requise. Pour cela, elle doit prédire et évaluer la performance des candidats. Ces performances reposent sur des critères non-fonctionnels comme la durée d'exécution, le coût ou le bruit. Ce domaine applicatif a pour particularité de nécessiter une coordination étroite entre certaines de ses fonctionnalités. Cette coordination se traduit par l'échange de flots de données entre les fonctionnalités durant leurs exécutions. Les fonctionnalités productrices de ces flots sont modélisées comme des services continus. Cette nouvelle catégorie de services logiciels impose que les compositions de services soient hiérarchiques et introduit des contraintes supplémentaires pour la sélection de services. Cette thèse met en évidence la présence d'un important couplage non-fonctionnel entre les performances des instances de services de différents niveaux, même lorsque les flots de données sont unidirectionnels. L'approche proposée se concentre sur la prédiction de la performance d'une instance de haut-niveau sachant son organigramme à l'issue de la sélection. Un organigramme regroupe l'ensemble des instances de services sollicitées pour réaliser une tâche de haut-niveau. L'étude s'appuie sur un scénario impliquant la sélection d'un service de positionnement en vue de permettre le déplacement d'un robot vers une destination requise. Pour un organigramme considéré, la prédiction de performance d'une instance de haut-niveau de ce scénario introduit les exigences suivantes : elle doit (i)être contextuelle en tenant compte, par exemple, du chemin suivi pour atteindre la destination requise, (ii) prendre en charge le remplacement d'une instance de sous-service suite à un échec ou, par extension, de façon opportuniste. En conséquence, cette sélection de services est posée comme un problème de prise de décision séquentielle formalisé à l'aide de processus de décision markoviens à horizon fini. La dimensionnalité importante du contexte en comparaison à la fréquence des déplacements du robot rend inadaptées les méthodes consistant à apprendre directement une fonction de valeur ou une fonction de transition. L'approche proposée repose sur des modèles de dynamique locaux et exploite le chemin de déplacement calculé par un sous-service pour estimer en ligne les valeurs des organigrammes disponibles dans l'état courant. Cette estimation est effectuée par l'intermédiaire d'une méthode de fouille stochastique d'arbre, Upper Confidence bounds applied to Trees / Ambient robotics aims at introducing mobile robots in active environments where the latter provide new or alternative functionalities to those shipped by mobile robots. This thesis studies the competition between robot and external functionalities, which is set as a service selection problem. Service selection consists in choosing a service or a combination of services among a set of candidates able to fulfil a given request. To do this, it has to predict and evaluate candidate performances. These performances are based on non-functional requirements such as execution time, cost or noise. This application domain requires tight coordination between some of its functionalities. Tight coordination involves setting data streams between functionalities during their execution. In this proposal, functionalities producing data streams are modelled as continuous services. This new service category requires hierarchical service composition and adds some constraints to the service selection problem. This thesis shows that an important non-functional coupling appears between service instances at different levels, even when data streams are unidirectional. The proposed approach focuses on performance prediction of an high-level service instance given its organigram. This organigram gathers service instances involved in the high-level task processing. The scenario included in this study is the selection of a positioning service involved in a robot navigation high-level service. For a given organigram, performance prediction of an high-level service instance of this scenario has to: (i) be contextual by, for instance, considering moving path towards the required destination, (ii) support service instance replacement after a failure or in an opportunist manner. Consequently, this service selection is set as a sequential decision problem and is formalized as a finite-horizon Markov decision process. Its high contextual dimensionality with respect to robot moving frequency makes direct learning of Q-value functions or transition functions inadequate. The proposed approachre lies on local dynamic models and uses the planned moving path to estimate Q-values of organigrams available in the initial state. This estimation is done using a Monte-Carlo tree search method, Upper Confidence bounds applied to Trees
142

Phronesis, a diagnosis and recovery tool for system administrators / Phronesis, un outil de diagnostic et de résolution pour les administrateurs systèmes

Haen, Christophe 24 October 2013 (has links)
Le système online de l'expérience LHCb repose sur une large infrastructure informatique hétérogène, composée de milliers de serveurs sur lesquels de nombreuses applications différentes sont exécutées. Certaines applications sont critiques (prise de données, contrôle du détecteur), d'autres secondaires (serveurs web). Administrer un tel système et s'assurer de son bon fonctionnement représente une lourde charge de travail pour une petite équipe d'experts. Des recherches ont été menées afin d'automatiser certaines tâches d'administration système. En 2001, IBM définit les « self-objectives » sensés conduire à l' «autonomic computing» (informatique autonome). Dans ce contexte, nous présentons un framework basé sur l'intelligence artificielle et l'apprentissage par renforcement pour surveiller et diagnostiquer de manière non intrusive les systèmes et logiciels basés sur Linux. De plus, notre approche d’expérience partagée ainsi que notre architecture suivant le paradigme Objet permettent d'augmenter considérablement la vitesse d'apprentissage et de corréler les problèmes. / The LHCb online system relies on a large and heterogeneous IT infrastructure made from thousands of servers on which many different applications are running. They run a great variety of tasks : critical ones such as data taking and secondary ones like web servers. The administration of such a system and making sure it is working properly represents a very important workload for the small expert-operator team. Research has been performed to try to automatize (some) system administration tasks, starting in 2001 when IBM defined the so-called “self objectives” supposed to lead to “autonomic computing”. In this context, we present a framework that makes use of artificial intelligence and machine learning to monitor and diagnose at a low level and in a non intrusive way Linux-based systems and their interaction with software. Moreover, the shared experience approach we use, coupled with an "object oriented paradigm" architecture increases a lot our learning speed, and highlight relations between problems.
143

Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images / Keyword visual representation for interactive image retrieval and image annotation

Nguyen, Nhu Van 09 September 2011 (has links)
En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps. / As regard image retrieval today, we often manipulate large volumes of images, which may vary or even update continuously. In an image database, we end up with both old and new images, the first possibly already indexed and annotated and the latter waiting for indexing or annotation. Since the database is not annotated consistently, it is difficult to use text queries. We present in this work different techniques to interact, navigate and search in this type of image databases. First, a model for short term interaction is used to improve the accuracy of the system. Second, based on a model of long terminteraction, we propose to combine semantic concepts and visual features to search for images by text, visual content or a mix between text and visual content. This model of image retrieval can iteratively refine the annotation of images.We identify four contributions in this work. The first contribution is a system for multimodal retrieval of images which includes different kinds of data, like visual content and text. This system can be queried by images, by keywords or by hybrid text/visual queries. The second contribution is a novel technique of relevance feedback combining 2 classic techniques: query point movement and query expansion. This technique profits for non-pertinent feedback and combines the advantages of both classic techniques and improve performance for interactive image retrieval. The third contribution is a model based on visual representations of keywords (KVR: Keyword Visual Representation) that create links between textand visual content, based on long term interaction. With the strategy of incremental learning, this model provides an association between semantic concepts and visual features that help improve the accuracy of image annotation and image retrieval. Moreover, the visual representation of textual concept gives users the ability to query the system by text queries or mixed queries text / images, even if the image database is only partially annotated. The fourth contribution, under the assumption that knowledge is not available early in most image retrieval systems, is a mechanism for incremental construction of knowledge from scratch. We do not separate phases of retrieval and annotation, and the user can makequeries from the start of the system, while allowing the system to learn incrementally when it is used. The contributions above are completed by an interface for viewing and querying mixing textual and visual content. Although at present only two types of information are used, the text and visual content, the genericity of the proposed model allows its extension to other types of external information, such as location (GPS) and time.
144

Multi-objective sequential decision making / La prise de décisions séquentielles multi-objectif

Wang, Weijia 11 July 2014 (has links)
La présente thèse porte sur l'étude de prise de décisions séquentielles multi-Objectif (MOSDM). La motivation de ce travail est double. D'un côté, la prise de décision, par exemple, dans les domaines de robotique et de planification, concerne l'optimisation séquentielle. De l'autre côté, nombreuses applications dans le monde réel sont plus naturellement formulés en termes d'optimisation multi-Objectif (MOO). La méthode proposée dans la thèse adapte le cadre bien connue de recherche Monte-Carlo arborescente (MCTS) à l'optimisation multi-Objectif, dans lequel multiple séquences de décision optimales sont développées dans un seul arbre de recherche. Le principal défi est de proposer une nouvelle récompense, capable de guider l'exploration de l'arbre bien que le problème de MOO n'applique pas un ordre total entre les solutions. La contribution principale de cette thèse est de proposer et d'étudier expérimentalement ces deux récompenses : l'indicateur de hypervolume et la récompense de dominance Pareto, qui sont inspirées de la littérature de MOO et basés sur une archive de solutions antérieures (archives Pareto). L'étude montre la complémentarité de ces deux récompenses. L'indicateur de hypervolume souffre de sa complexité algorithmique. Cependant, cet indicateur fournit des informations à grains fins de la qualité des solutions à l'égard de l'archive actuelle. Bien au contraire, la complexité de la récompense de dominance Pareto est linéaire, mais cette récompense fournit des informations de plus en plus rare au long de la recherche. Les preuves de principe de l'approche sont donnés sur les problèmes articiaux et les défis internationaux, et confirment la valeur de l'approche. En particulier, MOMCTS est capable de découvrir les politiques se trouvant dans les régions non-Convexes du front Pareto, qui contraste avec l'état de l'art: les algorithmes d'apprentissage par renforcement multi-Objectif existants sont basés sur scalarization linéaire et donc ne sont pas capables de explorer ces régions non-Convexes. Enfin, MOMCTS a fait honorablement la concurrence avec l'état de l'art sur la compétition internationale de MOPTSP 2013. / This thesis is concerned with multi-Objective sequential decision making (MOSDM). The motivation is twofold. On the one hand, many decision problems in the domains of e.g., robotics, scheduling or games, involve the optimization of sequences of decisions. On the other hand, many real-World applications are most naturally formulated in terms of multi-Objective optimization (MOO). The proposed approach extends the well-Known Monte-Carlo tree search (MCTS) framework to the MOO setting, with the goal of discovering several optimal sequences of decisions through growing a single search tree. The main challenge is to propose a new reward, able to guide the exploration of the tree although the MOO setting does not enforce a total order among solutions. The main contribution of the thesis is to propose and experimentally study two such rewards, inspired from the MOO literature and assessing a solution with respect to the archive of previous solutions (Pareto archive): the hypervolume indicator and the Pareto dominance reward. The study shows the complementarity of these two criteria. The hypervolume indicator suffers from its known computational complexity; however the proposed extension thereof provides fine-Grained information about the quality of solutions with respect to the current archive. Quite the contrary, the Pareto-Dominance reward is linear but it provides increasingly rare information. Proofs of principle of the approach are given on artificial problems and challenges, and confirm the merits of the approach. In particular, MOMCTS is able to discover policies lying in non-Convex regions of the Pareto front, contrasting with the state of the art: existing Multi-Objective Reinforcement Learning algorithms are based on linear scalarization and thus fail to sample such non-Convex regions. Finally MOMCTS honorably competes with the state of the art on the 2013 MOPTSP competition.
145

Etude exploratoire de la discrimination par les quantités de réponses itérées chez l'humain / Exploratory study of discrimination by the quantities of iterated responses in humans

Mekkass, Francis 09 December 2016 (has links)
Cette thèse se propose d’étudier la discrimination des comportements par les quantités de réponses itérées. Ce champ de recherche s’inscrit dans celui, plus large, de la discrimination des comportements par les quantités. Nous avons tout d’abord cherché à explorer la façon dont les comportements peuvent être discriminés par des quantités différentes d’itérations de réponses et de quelle façon l’installation ou non de cette discrimination peut être mise en correspondance avec une évolution de l’entropie du débit des réponses itérées. Ensuite, nous avons exploré la dynamique des réponses itérées en fonction de la quantité des itérations requises. Après cela, nous avons cherché à savoir s’il était possible de mettre en correspondance l’existence de dynamiques de réponses propres à des quantités avec l’installation ou non d’une discrimination des comportements par des couples différents composés de ces mêmes quantités. Enfin, en vue d’explorer en quoi l’installation d’’une dynamique des réponses permettait l’installation d’une discrimination des comportements, nous avons perturbé, en modifiant la topographie des réponses requises, l’installation de cette dynamique de réponses, et en avons mesuré les effets sur l’installation de la discrimination de comportements par ces quantités de réponses itérées. Les résultats montrent que l’évolution de l’entropie des débits de réponses itérées est orientée en fonction de l’installation ou non d’une discrimination des comportements par des quantités différentes d’itérations de réponses requises : l’entropie diminue lorsque la discrimination par des quantités de réponses itérées est installée, et augmente dans le cas contraire. Ce résultat n’est vrai que pour les participants ayant atteint au moins une fois le critère de décision que nous nous étions fixé pour juger de l’installation de la discrimination. L’analyse de la dynamique des réponses itérées en fonction de chaque quantité d’itérations requise montre qu’il existe presque systématiquement une dynamique propre à chaque quantité d’itérations de réponses requise, pour tous les participants, cette dynamique de réponses étant également propre à la topographie de la réponse requise. La perturbation de l’installation de la dynamique des réponses a, en outre, un effet sur l’installation de la discrimination des comportements par les quantités d’itérations de réponses. Au regard de ces résultats, nous pouvons conclure qu’il existe une correspondance entre l’installation ou non de la discrimination par des quantités de réponses itérées et l’évolution de l’entropie des débits de ces réponses itérées. Néanmoins, tandis que nous pouvons conclure à la pertinence d’analyser la dynamique des réponses itérées pour en étudier la complexité, la mise en correspondance entre celle-ci et la façon dont chaque quantité d’itérations de réponses prend ou non le contrôle de comportements spécifiques n’est pas possible à ce stade, bien que des pistes vers de futures études aient été proposées, pour explorer plus avant cette relation / This dissertation focuses on discrimination of behaviors by iterated responses, which falls in the scope of field of discrimination by quantities. First, we investigate how discrimination by several couples of iterated responses quantities could be related with the evolution of instantaneous rates of iterated responses entropy. Then, iterated responses dynamic was analyzed for several iterated responses quantities, and response topographies. The third experiment investigates the correspondence between specific dynamics of responses exhibited in fixed-ratio schedules and discrimination by couples of quantities of iterated responses. At last, effects of the disruption of the installation of the dynamic of responses on discrimination by these quantities of iterated responses have been measured. Results show that discrimination by quantities of iterated responses is possible, and that specific dynamics of responses match specific quantities of iterated responses. Although correspondence between such dynamics and discrimination have not been demonstrated, effects of disruption of dynamic of responses installation have been observed suggesting that a link between dynamic of responses and discrimination exists.
146

Etude du conditionnement rétrograde dans une procédure de renforcement conditionné / A study of backward conditioning in a conditioned reinforcement preparation

Prevel, Arthur 01 December 2017 (has links)
Chez l’espèce humaine comme pour de nombreuses autres espèces animales, lorsque des stimuli environnementaux précèdent de façon régulière la présentation d’événements importants pour un individu, ces stimuli vont acquérir sous certaines conditions la capacité à évoquer des comportements dits d’anticipation. Cette capacité est considérée par de nombreux auteurs comme ayant une haute valeur adaptative, favorisant le contact avec des événements appétitifs et permettant l’évitement d’événements aversifs. Ces dernières décennies, deschercheurs ont initié un rapprochement entre le phénomène d’anticipation et le conditionnement Pavlovien. Ce rapprochement repose à la fois sur une similarité dans les caractéristiques des événements mis en jeux mais surtout sur de nombreux effets et phénomènes semblables, amenant ces auteurs à considérer que les comportements ditsd’anticipation, d’une façon générale, reposeraient sur le processus Pavlovien. Leconditionnement Pavlovien offre une littérature extrêmement riche dont l’une des principalesquestions de recherche concerne le problème des conditions à l’apparition du processus.Parmi les hypothèses existantes, l’Hypothèse de l’Information est sans aucun doute l’une desplus importantes par son influence. Selon cette hypothèse, un apprentissage associatifPavlovien n’aura lieu que lorsqu’un événement important sera présenté de façon inattendu à un sujet, et l’apprentissage, ou les associations apprises, ne porteront que sur des stimuli prédictifs de l’événement important (i.e. permettant son anticipation). A travers deux expériences appliquant une procédure de conditionnement rétrograde à une procédure de renforcement conditionné, nous avons cherché à tester les propositions faites par cette hypothèse. Nos résultats vont directement à l’encontre de ces propositions et vont au contraire dans le sens de deux autres propositions théoriques faites sur le conditionnement Pavlovien,illustrées par le modèle SOP et l’Hypothèse du Codage Temporel. Ces deux propositions sont testées au sein d’une troisième et dernière expérience, dont les implications pour ces modèles comme pour la conceptualisation du conditionnement Pavlovien et de l’anticipation de façon générale sont discutées. / In human and non-human animals, environmental stimuli that reliably accompany the presentation of significant events are able after repeated exposures of eliciting anticipatory behaviors. Many authors underlined the adaptive value of anticipatory responses, and suggested a connection with Pavlovian conditioning. Linking anticipatory behaviors to Pavlovian conditioning is supported by the similarity in procedure (i.e. a pairing between a neutral stimulus with a significant event), but also on the common effects and phenomena, and the authors assume that Pavlovian conditioning is the process underlying the anticipation of events. This assumption is at the heart of the Information Hypothesis, and more generally of a functional and predictive perspective of Pavlovian conditioning. According to the Information Hypothesis, Pavlovian conditioning only occurs when an unexpected significant event is presented, and learning (i.e. the formation of association) would be about stimuli that allow the anticipation of the significant event. Using a backward conditioning procedure in a conditioned reinforcement preparation, we tested the assumptions made by the Information Hypothesis. The results found argue against the Information Hypothesis and, in contrast, support the assumption made by two others types of leaning models, illustrated by the Temporal Coding Hypothesis and the SOP model. The Temporal Coding Hypothesis and SOP are tested in a third experiment. Implications for Pavlovian conditioning models and anticipatory behaviors in general are discussed.
147

Evaluation structurale des murs de soutènement en maçonnerie / Stability assessment of masonry retaining walls

Terrade, Benjamin 15 December 2017 (has links)
Partout où la pierre est facilement disponible, on trouve des constructions en maçonnerie de pierre. Suivant les coutumes et les usages, les blocs de pierres sont assemblés bruts, simplement ébauchés ou parfaitement taillés, avec ou sans l'ajout d'un liant. Supplantée par le béton dans les constructions neuves depuis le milieu du XX} siècle, les ouvrages en maçonnerie demeurent majoritaires dans le patrimoine bâti français, un patrimoine qu'il convient d'entretenir rationnellement. L'objectif de ce travail de thèse est de poursuivre l'élaboration d'un cadre scientifique rigoureux et opérationnel afin de donner aux décideurs et aux gestionnaires les outils nécessaires pour mener à bien leur mission. Nous proposons ici deux outils d'évaluation de la stabilité d'ouvrages de soutènement en maçonnerie basés sur l'utilisation conjointe du calcul à la rupture avec des méthodes d'homogénéisation. Dans un premier temps, nous mettons d'abord au point un outil analytique permettant de dimensionner des ouvrages neufs ou d'évaluer la stabilité d'ouvrages peu déformés. Cet outil permet également de dimensionner des solutions de renforcement par clouage lorsque cela est jugé nécessaire. Dans un deuxième temps, nous implémentons cet outil dans un code numérique afin de lui donner la souplesse nécessaire à l'étude d'ouvrages non-conventionnels, de grandes taille ou fortement pathologique. Enfin, nous mettons en oeuvre plusieurs campagnes expérimentales qui nous fournissent les données nécessaires à la validation de ces modèles de calcul / Wherever stone is readily available, we encounter stone masonry buildings. Depending on customs or dedicated use, the blocks are used raw, lightly faced or perfectly cut, with or without the use of mortar. Althougth concrete has replaced masonry in new construction for some decades, the better part of the French built heritage is made of masonry, an heritage we are responsible for. This works aims at contributing to create a reliable scientific frame for that purpose. This thesis uses the yield design theory alongside with homogenisation techniques to study the stability of stone masonry earth retaining walls. First, we provide an analytical tool suitable for designing new structures or assessing the stability of existing ones that are still in good shape. Should it be needed, this tools allows for the design of a strengthening solution based on soil-nailing. Then, we implement it in a finite element code to give it the versatility required to study unconventionnal structures or structures badly damaged. We then present several experimental campaigns aiming at validating the proposed tools
148

Self-Adaptive Honeypots Coercing and Assessing Attacker Behaviour / Paradigme de pot de miel adaptatif permettant d'étudier et d'évaluer le comportement et compétences des pirates informatiques

Wagener, Gérard 22 June 2011 (has links)
Les communautés de la sécurité informatique parlent de "pirates informatiques", mais en réalité, très peu est connu au sujet de leurs compétences. Durant la dernière décennie, le nombre d'attaques a augmenté de façon exponentielle et les pots de miels ont été alors introduits afin de recueillir des informations sur les attaquants. Ces pots de miel viennent en des saveurs différentes en fonction de leur potentiel d'interaction. Cette thèse abordera le paradigme des pots de miel adaptatifs pouvant changer leur comportement dans l’intention de tromper les attaquants en dévoilant le plus de renseignements possibles sur eux-mêmes. Plutôt que d'être autorisé simplement pour effectuer des attaques, les attaquants sont confrontés à des interférences stratégiques. En utilisant des critères mesurables, les compétences et les capacités de l'attaquant peuvent être évaluées par des pots de miel adaptatifs. Nous avons modélisé les interactions des attaquants. L'idée clé derrière la modélisation des interactions des attaquants élaborée dans cette thèse est d'utiliser la théorie des jeux pour définir la configuration d'un pot de miel adaptatif. Nous avons utilisé des mécanismes d'apprentissage par renforcement dans le but de trouver le meilleur comportement face à des attaquants. Un pot de miel adaptatif est capable d'adopter des stratégies comportementales au niveau de l’exécution de commandes par l'attaquant. Nos résultats expérimentaux montrent que ces stratégies dépendent des paramètres contextuels qui peuvent ainsi servir pour construire des pots de miel intelligents / Information security communities are always talking about "attackers" but in reality very little is known about their skills.In the last decade the number of attacks has increased exponentially and honeypots were introduced in order to gather information about attackers. Honeypots come in different flavors with respect to their interaction potential. Choosing the best trade-off between attacker freedom and honeypot restrictions is challenging. In this dissertation, we address the issue ofself-adaptive honeypots that can change their behavior and lure attackers into revealing as much information as possible about themselves. Rather than being allowed simply to carry out attacks, attackers are challenged by strategic interference from adaptive honeypots. The observation of the attackers' reactions is particularly interesting and, using derivedmeasurable criteria, the attacker's skills and capabilities can be assessed by the honeypot operator. We formally model the interactions of attackers with a compromised system. The key idea is to leverage game-theoretic concepts to define the configuration and reciprocal actions of high-interaction honeypots. We have also leveraged reinforcement learningmachine learning in order to arrive at the best behavior when facing attackers. Our experimental results show that behavioral strategies are dependent on contextual parameters and can serve as advanced building blocks forintelligent honeypots
149

Techniques avancées d'apprentissage automatique basées sur la programmation DC et DCA / Advanced machine learning techniques based on DC programming and DCA

Ho, Vinh Thanh 08 December 2017 (has links)
Dans cette thèse, nous développons certaines techniques avancées d'apprentissage automatique dans le cadre de l'apprentissage en ligne et de l'apprentissage par renforcement (« reinforcement learning » en anglais -- RL). L'épine dorsale de nos approches est la programmation DC (Difference of Convex functions) et DCA (DC Algorithm), et leur version en ligne, qui sont reconnues comme de outils puissants d'optimisation non convexe, non différentiable. Cette thèse se compose de deux parties : la première partie étudie certaines techniques d'apprentissage automatique en mode en ligne et la deuxième partie concerne le RL en mode batch et mode en ligne. La première partie comprend deux chapitres correspondant à la classification en ligne (chapitre 2) et la prédiction avec des conseils d'experts (chapitre 3). Ces deux chapitres mentionnent une approche unifiée d'approximation DC pour différents problèmes d'optimisation en ligne dont les fonctions objectives sont des fonctions de perte 0-1. Nous étudions comment développer des algorithmes DCA en ligne efficaces en termes d'aspects théoriques et computationnels. La deuxième partie se compose de quatre chapitres (chapitres 4, 5, 6, 7). Après une brève introduction du RL et ses travaux connexes au chapitre 4, le chapitre 5 vise à fournir des techniques efficaces du RL en mode batch basées sur la programmation DC et DCA. Nous considérons quatre différentes formulations d'optimisation DC en RL pour lesquelles des algorithmes correspondants basés sur DCA sont développés. Nous traitons les problèmes clés de DCA et montrons l'efficacité de ces algorithmes au moyen de diverses expériences. En poursuivant cette étude, au chapitre 6, nous développons les techniques du RL basées sur DCA en mode en ligne et proposons leurs versions alternatives. Comme application, nous abordons le problème du plus court chemin stochastique (« stochastic shortest path » en anglais -- SSP) au chapitre 7. Nous étudions une classe particulière de problèmes de SSP qui peut être reformulée comme une formulation de minimisation de cardinalité et une formulation du RL. La première formulation implique la norme zéro et les variables binaires. Nous proposons un algorithme basé sur DCA en exploitant une approche d'approximation DC de la norme zéro et une technique de pénalité exacte pour les variables binaires. Pour la deuxième formulation, nous utilisons un algorithme batch RL basé sur DCA. Tous les algorithmes proposés sont testés sur des réseaux routiers artificiels / In this dissertation, we develop some advanced machine learning techniques in the framework of online learning and reinforcement learning (RL). The backbones of our approaches are DC (Difference of Convex functions) programming and DCA (DC Algorithm), and their online version that are best known as powerful nonsmooth, nonconvex optimization tools. This dissertation is composed of two parts: the first part studies some online machine learning techniques and the second part concerns RL in both batch and online modes. The first part includes two chapters corresponding to online classification (Chapter 2) and prediction with expert advice (Chapter 3). These two chapters mention a unified DC approximation approach to different online learning algorithms where the observed objective functions are 0-1 loss functions. We thoroughly study how to develop efficient online DCA algorithms in terms of theoretical and computational aspects. The second part consists of four chapters (Chapters 4, 5, 6, 7). After a brief introduction of RL and its related works in Chapter 4, Chapter 5 aims to provide effective RL techniques in batch mode based on DC programming and DCA. In particular, we first consider four different DC optimization formulations for which corresponding attractive DCA-based algorithms are developed, then carefully address the key issues of DCA, and finally, show the computational efficiency of these algorithms through various experiments. Continuing this study, in Chapter 6 we develop DCA-based RL techniques in online mode and propose their alternating versions. As an application, we tackle the stochastic shortest path (SSP) problem in Chapter 7. Especially, a particular class of SSP problems can be reformulated in two directions as a cardinality minimization formulation and an RL formulation. Firstly, the cardinality formulation involves the zero-norm in objective and the binary variables. We propose a DCA-based algorithm by exploiting a DC approximation approach for the zero-norm and an exact penalty technique for the binary variables. Secondly, we make use of the aforementioned DCA-based batch RL algorithm. All proposed algorithms are tested on some artificial road networks
150

Apprentissage par renforcement développemental / Developmental reinforcement learning

Zimmer, Matthieu 15 January 2018 (has links)
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur / Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space

Page generated in 0.0483 seconds