Global ETD Search

1	Apprentissage automatique pour la prise de décisions / Machine learning for decisions-making under uncertainty Sani, Amir 12 May 2015 (has links) La prise de décision stratégique concernant des ressources de valeur devrait tenir compte du degré d'aversion au risque. D'ailleurs, de nombreux domaines d'application mettent le risque au cœur de la prise de décision. Toutefois, ce n'est pas le cas de l'apprentissage automatique. Ainsi, il semble essentiel de devoir fournir des indicateurs et des algorithmes dotant l'apprentissage automatique de la possibilité de prendre en considération le risque dans la prise de décision. En particulier, nous souhaiterions pouvoir estimer ce dernier sur de courtes séquences dépendantes générées à partir de la classe la plus générale possible de processus stochastiques en utilisant des outils théoriques d'inférence statistique et d'aversion au risque dans la prise de décision séquentielle. Cette thèse étudie ces deux problèmes en fournissant des méthodes algorithmiques prenant en considération le risque dans le cadre de la prise de décision en apprentissage automatique. Un algorithme avec des performances de pointe est proposé pour une estimation précise des statistiques de risque avec la classe la plus générale de processus ergodiques et stochastiques. De plus, la notion d'aversion au risque est introduite dans la prise de décision séquentielle (apprentissage en ligne) à la fois dans les jeux de bandits stochastiques et dans l'apprentissage séquentiel antagoniste. / Strategic decision-making over valuable resources should consider risk-averse objectives. Many practical areas of application consider risk as central to decision-making. However, machine learning does not. As a result, research should provide insights and algorithms that endow machine learning with the ability to consider decision-theoretic risk. In particular, in estimating decision-theoretic risk on short dependent sequences generated from the most general possible class of processes for statistical inference and through decision-theoretic risk objectives in sequential decision-making. This thesis studies these two problems to provide principled algorithmic methods for considering decision-theoretic risk in machine learning. An algorithm with state-of-the-art performance is introduced for accurate estimation of risk statistics on the most general class of stationary--ergodic processes and risk-averse objectives are introduced in sequential decision-making (online learning) in both the stochastic multi-arm bandit setting and the adversarial full-information setting. Bandit manchot (Mathématiques) Aversion au risque Algorithme d'apprentissage incrémental 519.6
2	Selection Adaptative d'Operateurs pour l'Optimisation Fialho, Álvaro 22 December 2010 (has links) (PDF) Les Algorithmes Évolutionnaires sont des algorithmes d'optimisation qui ont déjà montré leur efficacité dans plusieurs domaines; mais leur performance dépend du réglage de plusieurs paramètres. Cette thèse est consacrée au développement de techniques pour automatiser ce réglage par le biais de l'apprentissage automatique. Plus spécifiquement, nous avons travaillé sur un sous-problème: étant donné un ensemble d'opérateurs, cela consiste à choisir lequel doit être appliqué pour la génération de chaque nouvelle solution, basé sur la performance connue de chaque opérateur. Cette approche est utilisée en ligne, au cours de la résolution du problème, en utilisant exclusivement l'histoire du processus d'optimisation courant pour décider parmi les différents opérateurs; ce paradigme est couramment référencé comme Sélection Adaptative d'Opérateurs (SAO). Pour faire de la SAO, deux composants sont nécessaires. L'Affectation de Crédit définit comment récompenser les opérateurs selon l'impact de leur application sur le processus de recherche. La Sélection d'Opérateurs règle leur choix selon les récompenses reçues ultérieurement. En résumé, la contribution principale de cette thèse consiste dans la proposition et l'analyse de différentes approches pour la SAO, basées sur le paradigme de Bandit Manchot (BM); nous avons proposé plusieurs modifications pour transformer un algorithme BM en une technique à la fois performante dans l'environnement dynamique de la SAO, et robuste par rapport aux caractéristiques des problèmes diverses. La dernière méthode, appelé AUC-MAB, est capable de suivre efficacement le meilleur opérateur sans nécessiter d'un réglage spécifique pour chaque problème. [INFO] Computer Science algorithms évolutionnaires contrôle de paramètres en-ligne selection adaptative d'operateurs bandit manchot
3	Cognitive radio for coexistence of heterogeneous wireless networks / Radio cognitive pour la coexistence de réseaux radio hétérogènes Boldrini, Stefano 10 April 2014 (has links) Dans un scénario avec plusieurs réseaux sans fil de différentes technologies, ce travail a comme objectif la conception d'un moteur cognitif capable de reconnaitre l'environnement radio et de sélectionner un réseau avec le but final de maximiser la "qualité d'expérience" (QoE) de l'utilisateur. Un accent particulier est mis sur la simplicité de tous les éléments impliqués, du hardware aux algorithmes, afin de garder la faisabilité pratique de ce dispositif.Deux aspects ont été étudiés. Pour la reconnaissance de l'environnement radio une identification de réseau et une classification automatique sur la base de caractéristiques de la couche MAC a été proposée et testée. En ce qui concerne la sélection du réseau, des "Key Performance Indicators" (KPIs), qui sont des paramètres de la couche application, ont étés pris en compte afin d'obtenir la QoE désirée. Un modèle général pour la sélection du réseau a été proposé et testé avec de différents types de trafic par des simulations et par la réalisation d'un démonstrateur (application pour Android). De plus, comme il y a le problème de quand mesurer pour estimer la performance d'un réseau et quand l'utiliser effectivement pour transmettre et recevoir, le problème du bandit manchot ("Multi-armed bandit", MAB) a été appliqué à ce contexte et un nouveau modèle de MAB a été proposé afin de mieux répondre aux cas réels considérés. L'impact du nouveau modèle, qui introduit la distinction de deux actions différentes, mesurer et utiliser, a été testé par des simulations en utilisant des algorithmes déjà disponibles dans la littérature et deux algorithmes conçus spécifiquement. / In a scenario where multiple wireless networks of different technologies are available, this work addresses the problem of the design of a cognitive engine, core of a cognitive radio device, able to perform the surrounding radio environment recognition and the network selection with the final goal of maximization of final user Quality of Experience (QoE). Particular focus is put on the requirement of simplicity of all the elements involved, from hardware to algorithms, in order to keep in mind the importance of its practical realizability.Two aspects were investigated. For the surrounding radio environment recognition step, a network identification and automatic classification method based on MAC layer features was proposed and tested. As regards the network selection, Key Performance Indicators (KPIs), i.e. application layer parameters, were considered in order to obtain the desired goal of QoE. A general model for network selection was proposed and tested for different traffic types, both with simulations and a practical realization of a demonstrator (implemented as an application for Android OS). Moreover, as a consequence of the originated problem of when measuring to estimate a network performance and when effectively using the network for data transmission and reception purposes, the multi-armed bandit problem (MAB) was applied to this context and a new MAB model was proposed, in order to better fit the considered real cases scenarios. The impact of the new model, that introduces the distinction of two different actions, to measure and to use, was tested through simulations using algorithms already available in literature and two specifically designed algorithms. Radio cognitive Sélection des réseaux radio Caractéristiques de la couche MAC Qualité d'expérience Problème du bandit manchot Cognitive radio Wireless network selection MAC features Quality of Experience Multi-armed bandit 378.242
4	DRARS, a dynamic risk-aware recommender system / DRARS, un système de recommandation dynamique sensible au risque Bouneffouf, Djallel 19 December 2013 (has links) L’immense quantité d'information générée et gérée au quotidien par les systèmes d'information et leurs utilisateurs conduit inéluctablement à la problématique de surcharge d'information. Dans ce contexte, les systèmes de recommandation traditionnels fournissent des informations pertinentes aux utilisateurs. Néanmoins, avec la propagation récente des dispositifs mobiles (smartphones et tablettes), nous constatons une migration progressive des utilisateurs vers la manipulation d'environnements pervasifs. Le problème avec les approches de recommandation traditionnelles est qu'elles n'utilisent pas toute l'information disponible pour produire des recommandations. Davantage d’informations contextuelles pourraient être utilisées dans le processus de recommandation pour aboutir à des recommandations plus précises. Les systèmes de recommandation sensibles au contexte (CARS) combinent les caractéristiques des systèmes sensibles au contexte et des systèmes de recommandation afin de fournir des informations personnalisées aux utilisateurs dans des environnements ubiquitaires. Dans cette perspective où tout ce qui concerne l'utilisateur est dynamique, les contenus qu’il manipule et son environnement, deux questions principales doivent être adressées : i) Comment prendre en compte l'évolution des contenus de l’utilisateur? et ii) Comment éviter d’être intrusif, en particulier dans des situations critiques? En réponse à ces questions, nous avons développé un système de recommandation dynamique et sensible au risque appelé DRARS (Dynamic Risk-Aware Recommender System), qui modélise la recommandation sensible au contexte comme un problème de bandit. Ce système combine une technique de filtrage basée sur le contenu et un algorithme de bandit contextuel. Nous avons montré que DRARS améliore la stratégie de l'algorithme UCB (Upper Confidence Bound), le meilleur algorithme actuellement disponible, en calculant la valeur d'exploration la plus optimale pour maintenir un bon compromis entre exploration et exploitation basé sur le niveau de risque de la situation courante de l'utilisateur. Nous avons mené des expériences dans un contexte industriel avec des données réelles et des utilisateurs réels et nous avons montré que la prise en compte du niveau de risque de la situation de l'utilisateur augmentait significativement la performance du système de recommandation / The vast amount of information generated and maintained everyday by information systems and their users leads to the increasingly important concern of overload information. In this context, traditional recommender systems provide relevant information to the users. Nevertheless, with the recent dissemination of mobile devices (smartphones and tablets), there is a gradual user migration to the use of pervasive computing environments. The problem with the traditional recommendation approaches is that they do not utilize all available information for producing recommendations. More contextual parameters could be used in the recommendation process to result in more accurate recommendations. Context-Aware Recommender Systems (CARS) combine characteristics from context-aware systems and recommender systems in order to provide personalized recommendations to users in ubiquitous environments. In this perspective where everything about the user is dynamic, his/her content and his/her environment, two main issues have to be addressed: i) How to consider content evolution? and ii) How to avoid disturbing the user in risky situations?. In response to these problems, we have developed a dynamic risk sensitive recommendation system called DRARS (Dynamic Risk-Aware Recommender System), which model the context-aware recommendation as a bandit problem. This system combines a content-based technique and a contextual bandit algorithm. We have shown that DRARS improves the Upper Confidence Bound (UCB) policy, the currently available best algorithm, by calculating the most optimal exploration value to maintain a trade-off between exploration and exploitation based on the risk level of the current user's situation. We conducted experiments in an industrial context with real data and real users and we have shown that taking into account the risk level of users' situations significantly increases the performance of the recommender system Apprentissage automatique Système de recommandation Apprentissage par renforcement Bandit manchot Bandit manchot contextuel UCB Système sensible au risque Machine learning Recommender system Context-aware recommender system Reinforcement learning Multi-armed bandit Contextual multi-armed bandit UCB Risk awareness
5	On recommendation systems in a sequential context / Des Systèmes de Recommandation dans un Contexte Séquentiel Guillou, Frédéric 02 December 2016 (has links) Cette thèse porte sur l'étude des Systèmes de Recommandation dans un cadre séquentiel, où les retours des utilisateurs sur des articles arrivent dans le système l'un après l'autre. Après chaque retour utilisateur, le système doit le prendre en compte afin d'améliorer les recommandations futures. De nombreuses techniques de recommandation ou méthodologies d'évaluation ont été proposées par le passé pour les problèmes de recommandation. Malgré cela, l'évaluation séquentielle, qui est pourtant plus réaliste et se rapproche davantage du cadre d'évaluation d'un vrai système de recommandation, a été laissée de côté. Le contexte séquentiel nécessite de prendre en considération différents aspects non visibles dans un contexte fixe. Le premier de ces aspects est le dilemme dit d'exploration vs. exploitation: le modèle effectuant les recommandations doit trouver le bon compromis entre recueillir de l'information sur les goûts des utilisateurs à travers des étapes d'exploration, et exploiter la connaissance qu'il a à l'heure actuelle pour maximiser le feedback reçu. L'importance de ce premier point est mise en avant à travers une première évaluation, et nous proposons une approche à la fois simple et efficace, basée sur la Factorisation de Matrice et un algorithme de Bandit Manchot, pour produire des recommandations appropriées. Le second aspect pouvant apparaître dans le cadre séquentiel surgit dans le cas où une liste ordonnée d'articles est recommandée au lieu d'un seul article. Dans cette situation, le feedback donné par l'utilisateur est multiple: la partie explicite concerne la note donnée par l'utilisateur concernant l'article choisi, tandis que la partie implicite concerne les articles cliqués (ou non cliqués) parmi les articles de la liste. En intégrant les deux parties du feedback dans un modèle d'apprentissage, nous proposons une approche basée sur la Factorisation de Matrice, qui peut recommander de meilleures listes ordonnées d'articles, et nous évaluons cette approche dans un contexte séquentiel particulier pour montrer son efficacité. / This thesis is dedicated to the study of Recommendation Systems under a sequential setting, where the feedback given by users on items arrive one after another in the system. After each feedback, the system has to integrate it and try to improve future recommendations. Many techniques or evaluation methods have already been proposed to study the recommendation problem. Despite that, such sequential setting, which is more realistic and represent a closer framework to a real Recommendation System evaluation, has surprisingly been left aside. Under a sequential context, recommendation techniques need to take into consideration several aspects which are not visible for a fixed setting. The first one is the exploration-exploitation dilemma: the model making recommendations needs to find a good balance between gathering information about users' tastes or items through exploratory recommendation steps, and exploiting its current knowledge of the users and items to try to maximize the feedback received. We highlight the importance of this point through the first evaluation study and propose a simple yet efficient approach to make effective recommendation, based on Matrix Factorization and Multi-Armed Bandit algorithms. The second aspect emphasized by the sequential context appears when a list of items is recommended to the user instead of a single item. In such a case, the feedback given by the user includes two parts: the explicit feedback as the rating, but also the implicit feedback given by clicking (or not clicking) on other items of the list. By integrating both feedback into a Matrix Factorization model, we propose an approach which can suggest better ranked list of items, and we evaluate it in a particular setting. Systèmes de Recommandation Recommandation Séquentielle Filtrage Collaboratif Factorisation de Matrice Bandit Manchot Feedback Séquentiel Apprentissage de Classement Recommendation Systems Sequential Recommendation Collaborative Filtering Matrix Factorization Multi-Armed Bandits Sequential Feedback Learning to Rank

1

Page generated in 0.0525 seconds