Global ETD Search

1	Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs Buffet, Olivier 10 September 2003 (has links) (PDF) Cette thèse s'est intéressée à deux domaines de l'intelligence artificielle : d'une part l'apprentissage par renforcement (A/R), et d'autre part les systèmes multi-agents (SMA). Le premier permet de concevoir des agents (entités intelligentes) en se basant sur un signal de renforcement qui récompense les décisions menant au but fixé, alors que le second concerne l'intelligence qui peut venir de l'interaction d'un groupe d'entités (dans la perspective que le tout soit plus que la somme de ses parties). Chacun de ces deux outils souffre de diverses difficultés d'emploi. Le travail que nous avons mené a permis de montrer comment chacun des deux outils peut servir à l'autre pour répondre à certains de ces problèmes. On a ainsi conçu les agents d'un SMA par A/R, et organisé l'architecture d'un agent apprenant par renforcement sous la forme d'un SMA. Ces deux outils se sont avérés très complémentaires, et notre approche globale d'une conception “progressive” a prouvé son efficacité. [INFO] Computer Science apprentissage par renforcement systèmes multi-agents processus de décision markoviens sélection d'action apprentissage progressif
2	Optimisation des Systèmes Partiellement Observables dans les Réseaux Sans-fil : Théorie des jeux, Auto-adaptation et Apprentissage Habachi, Oussama 28 September 2012 (has links) (PDF) La dernière décennie a vu l'émergence d'Internet et l'apparition des applications multimédia qui requièrent de plus en plus de bande passante, ainsi que des utilisateurs qui exigent une meilleure qualité de service. Dans cette perspective, beaucoup de travaux ont été effectués pour améliorer l'utilisation du spectre sans fil.Le sujet de ma thèse de doctorat porte sur l'application de la théorie des jeux, la théorie des files d'attente et l'apprentissage dans les réseaux sans fil,en particulier dans des environnements partiellement observables. Nous considérons différentes couches du modèle OSI. En effet, nous étudions l'accès opportuniste au spectre sans fil à la couche MAC en utilisant la technologie des radios cognitifs (CR). Par la suite, nous nous concentrons sur le contrôle de congestion à la couche transport, et nous développons des mécanismes de contrôle de congestion pour le protocole TCP. [INFO:INFO_OH] Computer Science/Other Théorie des jeux Apprentissage Auto organisation Processus de décision Markoviens POMDP POSG Evaluation de performances
3	Prefetching control for on-demand contents distribution : a Markov decision process study / Contrôle du préchargement pour la distribution de contenus à la demande : une approche par les processus de décision markoviens Morad, Olivia 17 September 2014 (has links) Le contexte de la thèse porte sur le contrôle des réseaux de distribution de contenu à la demande. La performance des systèmes distribués interactifs dépend essentiellement sur la prévision du comportement de l'utilisateur et la bande passante en tant que ressource de réseau critique. Le préchargement est une approche prédictive bien connu dans le World Wide Web ce qui évite les délais de réponse en exploitant un temps d'arrêt que permet d'anticiper les futures demandes de l'utilisateur et prend avantage des ressources réseau disponibles. Le contrôle de préchargement est une opération vitale pour les systèmes à la demande interactifs où la réponse instantanée est le facteur crucial pour la réussite du système. Le contrôleur en ce type de système interactif fonctionne dans un environnement incertain et rend séquences de décisions à court et long terme effets stochastique. La difficulté est alors de déterminer à chaque état du système les contenus préchargés dans le cache. Le plan de préchargement pendant une session en flux continu interactif peut être modélisé comme un problème de décision séquentielle par les processus de décision de Markov (MDP). Nous nous concentrons sur le problème de contrôle de préchargement, dans lequel le contrôleur cherche à atteindre l'état du système à coût zéro aussi vite que possible. Nous modélisons ce problème de contrôle comme un problème de programmation dynamique stochastique négatif dans lequel nous minimisons le coût total prévu. Dans ce contexte, nous avons abordé les questions de recherche suivantes: 1) Comment fournir un politique de préchargement optimale/ approximative optimale qui maximise l'utilisation de la bande passante tout en minimisant les coûts de blocage et de la latence de l'utilisateur engagés sur le chemin? 2) Comment exploiter la structure du modèle de contrôle de préchargement pour aider efficacement calculer la politique de contrôle de préchargement avec la réduction des efforts de calcul et la mémoire de stockage? 3) Comment mener une étude d'évaluation pour évaluer le préchargement de différents algorithmes heuristiques basée sur le contexte de l'optimisation au lieu du cadre de l'empirique / simulation. Pour l'étude de notre problème de recherche, nous avons développé notre modèle MDP de préchargement, PREF-CT, nous avons établi ses propriétés théoriques et nous avons résolu par l'algorithme Value Iteration comme algorithme MDP pour calculer la politique de préchargement optimale. Pour calcul de la politique de préchargement optimale efficace, nous avons détecté une structure spéciale qui réalise un modèle de contrôle plus compact. Cette structure spéciale permet de développer deux algorithmes différents stratégiquement qui améliorent la complexité du calcul de la politique de préchargement optimale: - la première est « ONE-PASS » le second est « TREE-DEC ». Pour surmonter le problème de la dimensionnalité résultant du calcul de la politique de préchargement optimale, nous avons proposé l'algorithme de préchargement heuristique: « Relevant Blocks Prefetching » (RBP). Pour évaluer et comparer le préchargement politiques calculés par des algorithmes de préchargement heuristiques différents, nous avons présenté un cadre fondé sur des différentes mesures de performance. Nous avons appliqué le cadre proposé sous différentes configurations de coûts et différents comportements des utilisateurs pour évaluer les politiques de préchargement calculées par notre algorithme de préchargement proposé; RBP. Par rapport aux politiques de préchargement optimales, l'analyse expérimentale a prouvé des performances significatives des politiques de préchargement de l'heuristique du RBP algorithme. En outre, l'algorithme heuristique de préchargement; RBP se distingue par une propriété de clustériser qui est important pour réduire considérablement la mémoire nécessaire pour stocker la politique de préchargement. / The thesis context is concerned with the control of theOn-demand contents distribution networks. The performance of suchinteractive distributed systems basically depends on the prediction ofthe user behavior and the bandwidth as a critical network resource.Prefetching is a well-known predictive approach in the World Wide Webwhich avoids the response delays by exploiting some downtime thatpermits to anticipate the user future requests and takes advantage ofthe available network resources. Prefetching control is a vitaloperation for the On-demand interactive systems where the instantaneousresponse is the crucial factor for the system success. The controller insuch type of interactive system operates in an uncertain environment andmakes sequences of decisions with long and short term stochasticeffects. The difficulty, then, is to determine at every system statewhich contents to prefetch into the cache. The prefetching plan duringan interactive streaming session can be modeled as a sequential decisionmaking problem by a Markov Decision Process (MDP). We focus on theprefetching control problem in which the controller seeks to reach aZero-Cost system state as quickly as possible. We model this controlproblem as a Negative Stochastic Dynamic Programming problem in which weminimize the undiscounted total expected cost. Within this context, weaddressed the following research questions: 1) How to provide anoptimal/approximate-optimal prefetching policy that, maximizes thebandwidth utilization while minimizes the user's blocking and latencycosts incurred along the way? 2) How to exploit structure in theprefetching control model to help efficiently compute such prefetchingcontrol policy with both computational efforts and storage memoryreduction? 3) How to conduct a performance evaluation study to evaluatedifferent prefetching heuristic algorithms based on the context of thecontrol optimization rather than the context of theempirical/simulation. For studying our research problem, we developedour MDP prefetching control model, PREF-CT, we established itstheoretical properties and we solved it by the Value Iteration algorithmas MDP algorithm for computing the optimal prefetching policy. Forcomputing the optimal prefetching policy efficiently, we detected aspecial structure that achieves more compact control model. This specialstructure permits to develop two strategically different algorithmswhich improve the complexities of computing the optimal prefetchingpolicy: - the first one is the ONE-PASS which is based mainly on solvinga system of linear equations simultaneously in only one iteration,whereas the second is the TREE-DEC which is based on Markov decisiontree decomposition in which sequential sets of systems of equations aresolved. For overcoming the problem of the curse of dimensionalityresulting from the computation of the optimal prefetching policy, weproposed the prefetching heuristic algorithm: the Relevant BlocksPrefetching algorithm (RBP). For evaluating and comparing prefetchingpolicies computed by different prefetching heuristic algorithms, wepresented a framework based on different performance measures. Weapplied the suggested framework under different costs configurations anddifferent user behaviors to evaluate the prefetching policies computedby our proposed prefetching heuristic algorithm; the RBP. Compared tothe optimal prefetching policies, the experimental analysis provedsignificant performance of the prefetching policies of the RBP heuristicalgorithm. In addition, the RBP prefetching heuristic algorithm isdistinguished by a clustering property which is of importance to reducesignificantly the memory necessary to store the prefetching policy tothe controller. Préchargement Contrôle optimal Processus de décision Markoviens Contenu à la demand Distribution Prefetching Optimal Control Markov Decision Process On-Demand contents Distribution
4	Optimisation des Systèmes Partiellement Observables dans les Réseaux Sans-fil : Théorie des jeux, Auto-adaptation et Apprentissage / Optimization of Partially Observable Systems in Wireless Networks : Game Theory, Self-adaptivity and Learning Habachi, Oussama 28 September 2012 (has links) La dernière décennie a vu l'émergence d'Internet et l'apparition des applications multimédia qui requièrent de plus en plus de bande passante, ainsi que des utilisateurs qui exigent une meilleure qualité de service. Dans cette perspective, beaucoup de travaux ont été effectués pour améliorer l'utilisation du spectre sans fil.Le sujet de ma thèse de doctorat porte sur l'application de la théorie des jeux, la théorie des files d'attente et l'apprentissage dans les réseaux sans fil,en particulier dans des environnements partiellement observables. Nous considérons différentes couches du modèle OSI. En effet, nous étudions l'accès opportuniste au spectre sans fil à la couche MAC en utilisant la technologie des radios cognitifs (CR). Par la suite, nous nous concentrons sur le contrôle de congestion à la couche transport, et nous développons des mécanismes de contrôle de congestion pour le protocole TCP. / Since delay-sensitive and bandwidth-intense multimedia applications have emerged in the Internet, the demand for network resources has seen a steady increase during the last decade. Specifically, wireless networks have become pervasive and highly populated.These motivations are behind the problems considered in this dissertation.The topic of my PhD is about the application of game theory, queueing theory and learning techniques in wireless networks under some QoS constraints, especially in partially observable environments.We consider different layers of the protocol stack. In fact, we study the Opportunistic Spectrum Access (OSA) at the Medium Access Control (MAC) layer through Cognitive Radio (CR) approaches.Thereafter, we focus on the congestion control at the transport layer, and we develop some congestion control mechanisms under the TCP protocol.The roadmap of the research is as follows. Firstly, we focus on the MAC layer, and we seek for optimal OSA strategies in CR networks. We consider that Secondary Users (SUs) take advantage of opportunities in licensed channels while ensuring a minimum level of QoS. In fact, SUs have the possibility to sense and access licensed channels, or to transmit their packets using a dedicated access (like 3G). Therefore, a SU has two conflicting goals: seeking for opportunities in licensed channels, but spending energy for sensing those channels, or transmitting over the dedicated channel without sensing, but with higher transmission delay. We model the slotted and the non-slotted systems using a queueing framework. Thereafter, we analyze the non-cooperative behavior of SUs, and we prove the existence of a Nash equilibrium (NE) strategy. Moreover, we measure the gap of performance between the centralized and the decentralized systems using the Price of Anarchy (PoA).Even if the OSA at the MAC layer was deeply investigated in the last decade, the performance of SUs, such as energy consumption or Quality of Service (QoS) guarantee, was somehow ignored. Therefore, we study the OSA taking into account energy consumption and delay. We consider, first, one SU that access opportunistically licensed channels, or transmit its packets through a dedicated channel. Due to the partial spectrum sensing, the state of the spectrum is partially observable. Therefore, we use the Partially Observable Markov Decision Process (POMDP) framework to design an optimal OSA policy for SUs. Specifically, we derive some structural properties of the value function, and we prove that the optimal OSA policy has a threshold structure.Thereafter, we extend the model to the context of multiple SUs. We study the non-cooperative behavior of SUs and we prove the existence of a NE. Moreover, we highlight a paradox in this situation: more opportunities in the licensed spectrum may lead to worst performances for SUs. Thereafter, we focus on the study of spectrum management issues. In fact, we introduce a spectrum manager to the model, and we analyze the hierarchical game between the network manager and SUs.Finally, we focus on the transport layer and we study the congestion control for wireless networks under some QoS and Quality of Experience (QoE) constraints. Firstly, we propose a congestion control algorithm that takes into account applications' parameters and multimedia quality. In fact, we consider that network users maximize their expected multimedia quality by choosing the congestion control strategy. Since users ignore the congestion status at bottleneck links, we use a POMDP framework to determine the optimal congestion control strategy.Thereafter, we consider a subjective measure of the multimedia quality, and we propose a QoE-based congestion control algorithm. This algorithm bases on QoE feedbacks from receivers in order to adapt the congestion window size. Note that the proposed algorithms are designed based on some learning methods in order to face the complexity of solving POMDP problems. Théorie des jeux Apprentissage Auto organisation Processus de décision Markoviens POMDP POSG Evaluation de performances Game theory Learning Self-adaptivity Markov decision process POMDP POSG 519.3 621.382 004.6
5	Chaînes de Markov et processus de décision markoviens pour le contrôle de congestion et de puissance Prabhu, Balakrishna J. 04 October 2005 (has links) (PDF) Cette thèse contient quelques applications des chaînes de Markov et des processus de décision markoviens pour la contrôle de congestion et de puissance. D´abord nous étudions le comportement de la taille de la fenêtre d´une source qui utilise l´algorithme MIMD. Nous montrons que le logarithme de la taille de la fenêtre suit une récurrence stochastique additive, et est une chaîne de Markov. Nous montrons aussi que le débit obtenu par une source est proportionnel à l´inverse de la probabilité de perte d´un paquet. Ensuite, nous analysons le processus de la taille de la fenêtre d´un algorithme de contrôle de congestion en temps continu. Nous pourvoyons des conditions sous lesquelles deux algorithmes ont le même comportement. Puis, nous étudions le processus de rapport de deux sources qui utilisent l´algorithme MIMD et qui partagent la capacité d´un goulot d´étranglement. Pour les sources hétérogènes, nous montrons que l´intensité du processus de perte de paquet doit être supérieure à une constante qui dépend des paramètres des algorithmes pour que l´indice d´équité s´améliore. Ensuite, nous présentons un modèle stochastique pour obtenir la distribution jointe du nombre instantané de paquets et sa moyenne mobile. Ensuite, nous étudions un problème de commande optimale en temps discret. Un appareil mobile veut transmettre des paquets et conserver son énergie en même temps. Nous montrons que la politique optimale est un contrôle à seuil. Enfin, par simulations, nous étudions le délai des flots TCP sur la voie descendante de l´UMTS lorsque deux politiques différentes de commutation de canaux sont utilisées. Modélisation stochastique chaînes de Markov processus de décision markoviens algorithmes de contrôle de congestion MIMD équité file d'attente RED séparation d'échelle de temps UMTS politiques de commutation de canaux
6	Optimisation de vecteurs propres de Perron et applications : du référencement de pages web à la chronothérapie Fercoq, Olivier 17 September 2012 (has links) (PDF) Les moteurs de recherche jouent un rôle essentiel sur le Web. Ils rassemblent des informations sur les pages web et pour chaque requête d'un internaute, ils donnent une liste ordonnée de pages pertinentes. Ils utilisent divers algorithmes pour classer les pages en fonction de leur contenu textuel ou de la structure d'hyperlien du Web. Ici, nous nous concentrons sur les algorithmes qui utilisent cette structure d'hyperliens, comme le PageRank, HITS, SALSA et HOTS. La notion fondamentale pour tous ces algorithmes est le graphe du web. C'est le graphe orienté qui a un noeud pour chaque page web et un arc entre les noeuds i et j si il y a un hyperlien entre les pages i et j. Le problème original considéré dans cette thèse est l'optimisation du référencement des pages d'un site web donné. Il consiste à trouver une stratégie optimale de liens qui maximise une fonction scalaire d'un classement donné sous des contraintes de design. Le PageRank, HITS et SALSA classent les pages par un vecteur de Perron, c'est-à-dire qu'ils correspondent au vecteur propre principal d'une matrice à coefficients positifs. Quand on optimise le référencement, on optimise donc une fonction scalaire du vecteur propre de Perron sur un ensemble de matrices positives irréductibles. La matrice est construite à partir du graphe du web, donc commander les hyperliens revient à commander la matrice elle-même. Nous étudions d'abord un problème général d'optimisation du PageRank avec une fonction d'utilité correspondant au revenu total du site et des contraintes de design. Ce cas est d'un intérêt particulier car pour de nombreux sites la valeur du PageRank est corrélée au chiffre d'affaires. Nous avons réduit le problème d'optimisation du PageRank à des problèmes de décision markoviens dont les ensembles d'action sont définis implicitement comme étant les points extrêmes de polytopes qui ont un oracle de séparation polynomial. Nous montrons que de tels problèmes de décision markoviens sont solubles en temps polynomial et nous donnons un algorithme qui passe à l'échelle pour la résolution effective du problème d'optimisation du PageRank sur de grandes bases de données. Ensuite, nous étudions le problème général de l'optimisation d'une fonction scalaire du vecteur propre de Perron sur un ensemble de matrices positives irréductibles. Cela couvre tous les classements par vecteur de Perron, HITS et SALSA compris. Nous montrons que la matrice des dérivées partielles de la fonction objectif a un petit rang et peut être calculée par un algorithme qui a les mêmes propriétés de convergence que la méthode de la puissance utilisée pour calculer le classement. Nous donnons un algorithme d'optimisation qui couple les itérations puissance et gradient et nous prouvons sa convergence vers un point stationnaire du problème d'optimisation. En considérant HOTS comme un vecteur de Perron non linéaire, nous montrons que l'algorithme HOTS converge géométriquement et nous résolvons l'optimisation locale de HOTS. Finalement, nous étendons le domaine d'application des méthodes d'optimisation du vecteur propre et de la valeur propre de Perron à l'optimisation de la chimiothérapie, sous l'hypothèse que les cellules se comportent différemment suivant l'heure de la journée. Nous voulons profiter de cette caractéristique pour minimiser le taux de croissance des cellules cancéreuses tout en maintenant le taux de croissance des cellules saines au dessus d'un seuil de toxicité donné. L'objectif et la contrainte peuvent s'écrire comme les valeurs propres de Floquet de modèles d'EDP structurés en âge avec des coefficients périodiques, qui sont approchés par des valeurs propres de Perron dans le problème discrétisé. Nous cherchons des stratégies d'injection de médicament localement optimales par une méthode des multiplicateurs où les minimisations sans contrainte sont faites en utilisant l'algorithme couplant les itérations puissance et gradient développé dans le cadre de l'optimisation du référencement. optimisation PageRank processus de décision markoviens dynamiques de population problèmes de grande taille

1

Page generated in 0.1257 seconds