Stochastic Optimization in Dynamic Environments : with applications in e-commerce

Bastani, Spencer, Andersson, Olov January 2007 (has links)
In this thesis we address the problem of how to construct an optimal algorithm for displaying banners (i.e advertisements shown on web sites). The optimization is based on the revenue each banner generates, with the aim of selecting those banners which maximize future total revenue. Banner optimality is of major importance in the e-commerce industry, in particular on web sites with heavy traffic. The 'micropayments' from showing banners add up to substantial profits due to the large volumes involved. We provide a broad, up-to-date and primarily theoretical treatment of this global optimization problem. Through a synthesis of mathematical modeling, statistical methodology and computer science we construct a stochastic 'planning algorithm'. The superiority of our algorithm is based on empirical analysis conducted by us on real internet-data at TradeDoubler AB, as well as test-results on a selection of stylized data-sets. The algorithm is flexible and adapts well to new environments.


Nguyen Thi, Phuong Khanh 06 November 2012 (has links) (PDF)
Cette thèse s'attache à étudier la problématique de la décision de maintenance pour des systèmes soumis à évolution technologique incertaine, rapprochant attentes opérationnelles liées à la maintenance et préoccupations stratégiques d'investissement. Nous tirons bénéfice de la flexibilité et du caractère dynamique du principe d'options réelles traditionnellement appliqué au domaine de la finance en les évaluant par le biais de processus de décision markoviens non stationnaires. Plus précisément, les modèles présentés permettent d'adapter dynamiquement la décision de maintenance pour des systèmes soumis à de fortes évolutions technologiques, cette décision étant liée à la notion de saut technologique, au choix de la génération technologique à mettre en place ainsi qu'à la vélocité et l'incertitude du marché. L'option de maintenance peut alors se substituer à une décision hâtive d'investissement. D'autre part, on analyse les décisions en fonction des différentes natures d'obsolescence qu'elle soit subjective, définie par le ratio performances actuelles et espérées, ou objective dans le cas d'incompatibilité matérielle, notamment des pièces de rechange. Enfin, grâce à ces modèles, on peut étudier l'influence de la qualité et du niveau de connaissance du marché sur les politiques de maintenance et d'investissement en offrant la possibilité d'enrichir ponctuellement l'information.

Gestion des stocks et de la production intégrant des retours de produits

Vercraene, Samuel 01 October 2012 (has links) (PDF)
De nombreux retours de produits dus au recyclage et à la réutilisation des déchets se développent dans le but de préserver les ressources naturelles limitées de notre planète. Ces nouveaux flux interagissant avec les flux de production traditionnels, il est important de les piloter de façon à satisfaire au mieux les demandes des clients et minimiser l'encours dans la chaîne logistique. Nos travaux s'inscrivent dans cette démarche. Nous nous plaçons dans un contexte où la capacité de production est limitée et nous considérons un problème opérationnel de gestion des stocks et de la production intégrant des flux de retours. Nous modélisons trois problèmes de production et de stockage à temps continu, avec des capacités de production limitées, des délais aléatoires et des coûts linéaires. Le premier prenant en compte la probabilité qu'un produit puisse être réutilisé comme produit fini ou seulement comme produit semi-fini (par partie), le deuxième présentant un problème où la réutilisation d'un retour comme produit fini nécessite une étape de remise à neuf et le troisième modélisant un système où les clients préviennent à l'avance du renvoi potentiel de leurs produits. Outre la caractérisation des politiques optimales de gestion, une part importante de nos contributions réside dans l'évaluation des performances de différentes politiques heuristiques et l'étude de l'impact de la capacité de production sur celles-ci. Enfin, nous nous servons dans tout ce document d'outils permettant la caractérisation des politiques optimales. La dernière partie de ce document vise à développer ces outils et à permettre l'étude de l'effet des paramètres d'un système formulé en processus de décision Markovien sur la politique optimale de celui-ci.

PAC-optimal, Non-parametric Algorithms and Bounds for Exploration in Concurrent MDPs with Delayed Updates

Pazis, Jason January 2015 (has links)
<p>As the reinforcement learning community has shifted its focus from heuristic methods to methods that have performance guarantees, PAC-optimal exploration algorithms have received significant attention. Unfortunately, the majority of current PAC-optimal exploration algorithms are inapplicable in realistic scenarios: 1) They scale poorly to domains of realistic size. 2) They are only applicable to discrete state-action spaces. 3) They assume that experience comes from a single, continuous trajectory. 4) They assume that value function updates are instantaneous. The goal of this work is to bridge the gap between theory and practice, by introducing an efficient and customizable PAC optimal exploration algorithm, that is able to explore in multiple, continuous or discrete state MDPs simultaneously. Our algorithm does not assume that value function updates can be completed instantaneously, and maintains PAC guarantees in realtime environments. Not only do we extend the applicability of PAC optimal exploration algorithms to new, realistic settings, but even when instant value function updates are possible, our bounds present a significant improvement over previous single MDP exploration bounds, and a drastic improvement over previous concurrent PAC bounds. We also present Bellman error MDPs, a new analysis methodology for online and offline reinforcement learning algorithms, and TCE, a new, fine grained metric for the cost of exploration.</p> / Dissertation

Elicitation and planning in Markov decision processes with unknown rewards / Elicitation et planification dans les processus décisionnel de MARKOV avec récompenses inconnues

Alizadeh, Pegah 09 December 2016 (has links)
Les processus décisionnels de Markov (MDPs) modélisent des problèmes de décisionsséquentielles dans lesquels un utilisateur interagit avec l’environnement et adapte soncomportement en prenant en compte les signaux de récompense numérique reçus. La solutiond’unMDP se ramène à formuler le comportement de l’utilisateur dans l’environnementà l’aide d’une fonction de politique qui spécifie quelle action choisir dans chaque situation.Dans de nombreux problèmes de décision du monde réel, les utilisateurs ont despréférences différentes, donc, les gains de leurs actions sur les états sont différents et devraientêtre re-décodés pour chaque utilisateur. Dans cette thèse, nous nous intéressonsà la résolution des MDPs pour les utilisateurs ayant des préférences différentes.Nous utilisons un modèle nommé MDP à Valeur vectorielle (VMDP) avec des récompensesvectorielles. Nous proposons un algorithme de recherche-propagation qui permetd’attribuer une fonction de valeur vectorielle à chaque politique et de caractériser chaqueutilisateur par un vecteur de préférences sur l’ensemble des fonctions de valeur, où levecteur de préférence satisfait les priorités de l’utilisateur. Etant donné que le vecteurde préférences d’utilisateur n’est pas connu, nous présentons plusieurs méthodes pourrésoudre des MDP tout en approximant le vecteur de préférence de l’utilisateur.Nous introduisons deux algorithmes qui réduisent le nombre de requêtes nécessairespour trouver la politique optimale d’un utilisateur: 1) Un algorithme de recherchepropagation,où nous propageons un ensemble de politiques optimales possibles pourle MDP donné sans connaître les préférences de l’utilisateur. 2) Un algorithme interactifd’itération de la valeur (IVI) sur les MDPs, nommé algorithme d’itération de la valeurbasé sur les avantages (ABVI) qui utilise le clustering et le regroupement des avantages.Nous montrons également comment l’algorithme ABVI fonctionne correctement pourdeux types d’utilisateurs différents: confiant et incertain.Nous travaillons finalement sur une méthode d’approximation par critére de regret minimaxcomme méthode pour trouver la politique optimale tenant compte des informationslimitées sur les préférences de l’utilisateur. Dans ce système, tous les objectifs possiblessont simplement bornés entre deux limites supérieure et inférieure tandis que le systèmeine connaît pas les préférences de l’utilisateur parmi ceux-ci. Nous proposons une méthodeheuristique d’approximation par critère de regret minimax pour résoudre des MDPsavec des récompenses inconnues. Cette méthode est plus rapide et moins complexe queles méthodes existantes dans la littérature. / Markov decision processes (MDPs) are models for solving sequential decision problemswhere a user interacts with the environment and adapts her policy by taking numericalreward signals into account. The solution of an MDP reduces to formulate the userbehavior in the environment with a policy function that specifies which action to choose ineach situation. In many real world decision problems, the users have various preferences,and therefore, the gain of actions on states are different and should be re-decoded foreach user. In this dissertation, we are interested in solving MDPs for users with differentpreferences.We use a model named Vector-valued MDP (VMDP) with vector rewards. We propose apropagation-search algorithm that allows to assign a vector-value function to each policyand identify each user with a preference vector on the existing set of preferences wherethe preference vector satisfies the user priorities. Since the user preference vector is notknown we present several methods for solving VMDPs while approximating the user’spreference vector.We introduce two algorithms that reduce the number of queries needed to find the optimalpolicy of a user: 1) A propagation-search algorithm, where we propagate a setof possible optimal policies for the given MDP without knowing the user’s preferences.2) An interactive value iteration algorithm (IVI) on VMDPs, namely Advantage-basedValue Iteration (ABVI) algorithm that uses clustering and regrouping advantages. Wealso demonstrate how ABVI algorithm works properly for two different types of users:confident and uncertain.We finally work on a minimax regret approximation method as a method for findingthe optimal policy w.r.t the limited information about user’s preferences. All possibleobjectives in the system are just bounded between two higher and lower bounds while thesystem is not aware of user’s preferences among them. We propose an heuristic minimaxregret approximation method for solving MDPs with unknown rewards that is faster andless complex than the existing methods in the literature.

Principals' Perceptions and Self-efficacy in Relation to School Security

Jones, Julian 01 January 2015 (has links)
Principals in the nation's schools have been tasked with managing crisis incidents that may occur with students and others on their campuses on a daily basis. The purposes of this study were to determine the differences, if any, that existed in Central Florida public school principals' perceptions regarding school security, their perceived confidence to address critical crisis incidents on their campuses, their perceptions of the likelihood critical incidents would occur, their perceptions of interaction with law enforcement, the critical incidents they fear the most, and their perceptions of factors impacting the incidents they fear the most. Principal subgroup mean responses to the Principal Safety and Security Perceptions Survey in the three areas of Bandura's (1997) triadic reciprocal causation were examined in the context of principals' gender, longevity, student enrollment, grade configuration, free and reduced lunch rate, presence of a law enforcement officer, and presence of a security plan. Findings revealed significant differences between categorical groups of principals in multiple areas. It was determined that significant differences in principals' perceptions warrant further study. Recommendations for practice include security policy development and practical application of noted trends.

Decision-Theoretic Meta-reasoning in Partially Observable and Decentralized Settings

Carlin, Alan Scott 01 February 2012 (has links)
This thesis examines decentralized meta-reasoning. For a single agent or multiple agents, it may not be enough for agents to compute correct decisions if they do not do so in a timely or resource efficient fashion. The utility of agent decisions typically increases with decision quality, but decreases with computation time. The reasoning about one's computation process is referred to as meta-reasoning. Aspects of meta-reasoning considered in this thesis include the reasoning about how to allocate computational resources, including when to stop one type of computation and begin another, and when to stop all computation and report an answer. Given a computational model, this translates into computing how to schedule the basic computations that solve a problem. This thesis constructs meta-reasoning strategies for the purposes of monitoring and control in multi-agent settings, specifically settings that can be modeled by the Decentralized Partially Observable Markov Decision Process (Dec-POMDP). It uses decision theory to optimize computation for efficiency in time and space in communicative and non-communicative decentralized settings. Whereas base-level reasoning describes the optimization of actual agent behaviors, the meta-reasoning strategies produced by this thesis dynamically optimize the computational resources which lead to the selection of base-level behaviors.

Utveckling av en projektivitetsmodell : om organisationers förmåga att tillämpa projektarbetsformen

Ljung, Lennart January 2003 (has links)
I dagens affärsdrivande organisationer genomförs projekt inte enbart för att skapa förändringar av organisation, arbetssätt eller infrastruktur. Marknadens rörlighet och kundspecifika krav på komplexa produkter, medför att projekt även genomförs inom den ordinarie operativa verksamheten för att hantera temporära, komplexa engångsuppgifter i form av både kundorder och produktutvecklingar. Projektarbetsformen kan öka engagemanget och samarbetet över organisationsgränserna, men det är vanligt att organisationer även upplever problem med projekten. En stor del av problemen kan antas bero på organisationens förmåga att tillämpa projektarbetsformen – organisationens projektivitet. Avhandlingens övergripande forskningsfråga lyder: Hur kan en organisations projektivitet beskrivas i en modell? Med utgångspunkt i Ericsson Infotechs projektivitetsmodell har syftet med forskningsarbetet varit att utveckla en ny projektivitetsmodell som skall kunna tillämpas vid fortsatt utveckling av en metod för projektivitetsanalys. En explorativ studie har genomförts i fem etapper, där valideringen av modellversioner varit ett viktigt inslag. Resultatet av arbetet är dels ett utvecklat projektbegrepp med en klar åtskillnad mellan projektuppgift och projektarbetsform, dels en multidimensionell projektivitetsmodell (MDP-modellen) med fyra dimensioner: projektfunktioner, triader, influerande faktorer samt organisatoriskt lärande. Avhandlingens resultat är avsett att ligga till grund för framtida forskning inom området, exempelvis fortsatt utveckling av en projektivitetsanalys eller organisatorisk lärande genom tillämpning av projektmodeller.

Potential and challenges of compound semiconductor characterization by application of non-contacting characterization techniques / Möglichkeiten, Herausforderungen und Grenzen der Verbindungshalbleitercharakterisierung mittels kontaktloser Verfahren

Anger, Sabrina 22 April 2016 (has links) (PDF)
Trotz der im Vergleich zu Silizium überragenden elektronischen Eigenschaften von Verbindungshalbleitern, ist die Leistung der daraus gefertigten elektrischen Bauelemente aufgrund der vorhandenen, die elektronischen Materialeigenschaften beeinflussenden Defekte nach wie vor begrenzt. Die vorliegende Arbeit trägt dazu bei, das bestehende ökonomische Interesse an einem besseren Verständnis der die Bauelementeleistung limitierenden Defekte zu befriedigen, indem sie die Auswirkungen dieser Defekte auf die elektronischen und optischen Materialeigenschaften von Indiumphosphid (InP) und Siliziumkarbid (SiC) aufzeigt. Zur Klärung der Effekte finden in der Arbeit sich ergänzende elektrische und optische Charakterisierungsmethoden Anwendung, von denen die meisten kontaktlos und zerstörungsfrei arbeiten und sich daher prinzipiell auch für Routineanalysen eignen. Die erzielten Ergebnisse bestätigen und ergänzen Literaturdaten zum Defektinventar in InP und SiC nutzbringend. So wird insbesondere das Potential der elektrischen Charakterisierung mittels MDP und MD-PICTS, welche in der Arbeit erstmals für die Defektcharakterisierung von InP und SiC eingesetzt wurden, nachgewiesen. Die experimentellen Studien werden dabei bedarfsorientiert durch eine theoretische Betrachtung des entsprechenden Signalentstehungsmechanismuses ergänzt. / Although the electronic properties of compound semiconductors exceed those of Silicon, the performance of respective electronic devices still is limited. This is due to the presence of various growth-induced defects in compound semiconductors. In order to satisfy the economic demand of an improved insight into limiting defects this thesis contributes to a better understanding of material inherent defects in commonly used Indium Phosphide (InP) and Silicon Carbide (SiC) by revealing their effects on electronic and optical material properties. On that account various complementary electrical and optical characterization techniques have been applied to both materials. Most of these techniques are non-contacting and non-destructive. So, in principle they are qualified for routine application. Characterization results that are obtained with these techniques are shown to either confirm published results concerning defects in InP and SiC or beneficially complement them. Thus, in particular the potential of electrical characterization by MDP and MD-PICTS measurements is proofed. Both techniques have been applied for the first time for defect characterization of InP and SiC during these studies. The respective experiments are complemented by a theoretical consideration of the corresponding signal development mechanism in order to develop an explanation approach for occasionally occurring experimental imperfection also arising during silicon characterization from time to time.

Des algorithmes presque optimaux pour les problèmes de décision séquentielle à des fins de collecte d'information / Near-Optimal Algorithms for Sequential Information-Gathering Decision Problems

Araya-López, Mauricio 04 February 2013 (has links)
Cette thèse s'intéresse à des problèmes de prise de décision séquentielle dans lesquels l'acquisition d'information est une fin en soi. Plus précisément, elle cherche d'abord à savoir comment modifier le formalisme des POMDP pour exprimer des problèmes de collecte d'information et à proposer des algorithmes pour résoudre ces problèmes. Cette approche est alors étendue à des tâches d'apprentissage par renforcement consistant à apprendre activement le modèle d'un système. De plus, cette thèse propose un nouvel algorithme d'apprentissage par renforcement bayésien, lequel utilise des transitions locales optimistes pour recueillir des informations de manière efficace tout en optimisant la performance escomptée. Grâce à une analyse de l'existant, des résultats théoriques et des études empiriques, cette thèse démontre que ces problèmes peuvent être résolus de façon optimale en théorie, que les méthodes proposées sont presque optimales, et que ces méthodes donnent des résultats comparables ou meilleurs que des approches de référence. Au-delà de ces résultats concrets, cette thèse ouvre la voie (1) à une meilleure compréhension de la relation entre la collecte d'informations et les politiques optimales dans les processus de prise de décision séquentielle, et (2) à une extension des très nombreux travaux traitant du contrôle de l'état d'un système à des problèmes de collecte d'informations / The purpose of this dissertation is to study sequential decision problems where acquiring information is an end in itself. More precisely, it first covers the question of how to modify the POMDP formalism to model information-gathering problems and which algorithms to use for solving them. This idea is then extended to reinforcement learning problems where the objective is to actively learn the model of the system. Also, this dissertation proposes a novel Bayesian reinforcement learning algorithm that uses optimistic local transitions to efficiently gather information while optimizing the expected return. Through bibliographic discussions, theoretical results and empirical studies, it is shown that these information-gathering problems are optimally solvable in theory, that the proposed methods are near-optimal solutions, and that these methods offer comparable or better results than reference approaches. Beyond these specific results, this dissertation paves the way (1) for understanding the relationship between information-gathering and optimal policies in sequential decision processes, and (2) for extending the large body of work about system state control to information-gathering problems

