Global ETD Search

1	Analyse mustirésolution de données de classements / Multiresolution analysis of ranking data Sibony, Eric 14 June 2016 (has links) Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs. / This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications Classements Apprentissage des préférences Analyse multirésolution Ondelettes Rankings Preference learning Multiresolution analysis Wavelets
2	Robust Preference Learning-based Reinforcement Learning / Apprentissage par renforcement robuste reposant sur l'apprentissage par préférences Akrour, Riad 30 September 2014 (has links) Les contributions de la thèse sont centrées sur la prise de décisions séquentielles et plus spécialement sur l'Apprentissage par Renforcement (AR). Prenant sa source de l'apprentissage statistique au même titre que l'apprentissage supervisé et non-supervisé, l'AR a gagné en popularité ces deux dernières décennies en raisons de percées aussi bien applicatives que théoriques. L'AR suppose que l'agent (apprenant) ainsi que son environnement suivent un processus de décision stochastique Markovien sur un espace d'états et d'actions. Le processus est dit de décision parce que l'agent est appelé à choisir à chaque pas de temps du processus l'action à prendre. Il est dit stochastique parce que le choix d'une action donnée en un état donné n'implique pas le passage systématique à un état particulier mais définit plutôt une distribution sur l'espace d'états. Il est dit Markovien parce que cette distribution ne dépend que de l'état et de l'action courante. En conséquence d'un choix d'action, l'agent reçoit une récompense. Le but de l'AR est alors de résoudre le problème d'optimisation retournant le comportement qui assure à l'agent une récompense maximale tout au long de son interaction avec l'environnement. D'un point de vue pratique, un large éventail de problèmes peuvent être transformés en un problème d'AR, du Backgammon (cf. TD-Gammon, l'une des premières grandes réussites de l'AR et de l'apprentissage statistique en général, donnant lieu à un joueur expert de classe internationale) à des problèmes de décision dans le monde industriel ou médical. Seulement, le problème d'optimisation résolu par l'AR dépend de la définition préalable d'une fonction de récompense adéquate nécessitant une expertise certaine du domaine d'intérêt mais aussi du fonctionnement interne des algorithmes d'AR. En ce sens, la première contribution de la thèse a été de proposer un nouveau cadre d'apprentissage, allégeant les prérequis exigés à l'utilisateur. Ainsi, ce dernier n'a plus besoin de connaître la solution exacte du problème mais seulement de pouvoir désigner entre deux comportements, celui qui s'approche le plus de la solution. L'apprentissage se déroule en interaction entre l'utilisateur et l'agent. Cette interaction s'articule autour des trois points suivants : i) L'agent exhibe un nouveau comportement ii) l'expert le compare au meilleur comportement jusqu'à présent iii) l'agent utilise ce retour pour mettre à jour son modèle des préférences puis choisit le prochain comportement à démontrer. Afin de réduire le nombre d'interactions nécessaires entre l'utilisateur et l'agent pour que ce dernier trouve le comportement optimal, la seconde contribution de la thèse a été de définir un critère théoriquement justifié faisant le compromis entre les désirs parfois contradictoires de prendre en compte les préférences de l'utilisateur tout en exhibant des comportements suffisamment différents de ceux déjà proposés. La dernière contribution de la thèse est d'assurer la robustesse de l'algorithme face aux éventuelles erreurs d'appréciation de l'utilisateur. Ce qui arrive souvent en pratique, spécialement au début de l'interaction, quand tous les comportements proposés par l'agent sont loin de la solution attendue. / The thesis contributions resolves around sequential decision taking and more precisely Reinforcement Learning (RL). Taking its root in Machine Learning in the same way as supervised and unsupervised learning, RL quickly grow in popularity within the last two decades due to a handful of achievements on both the theoretical and applicative front. RL supposes that the learning agent and its environment follow a stochastic Markovian decision process over a state and action space. The process is said of decision as the agent is asked to choose at each time step an action to take. It is said stochastic as the effect of selecting a given action in a given state does not systematically yield the same state but rather defines a distribution over the state space. It is said to be Markovian as this distribution only depends on the current state-action pair. Consequently to the choice of an action, the agent receives a reward. The RL goal is then to solve the underlying optimization problem of finding the behaviour that maximizes the sum of rewards all along the interaction of the agent with its environment. From an applicative point of view, a large spectrum of problems can be cast onto an RL one, from Backgammon (TD-Gammon, was one of Machine Learning first success giving rise to a world class player of advanced level) to decision problems in the industrial and medical world. However, the optimization problem solved by RL depends on the prevous definition of a reward function that requires a certain level of domain expertise and also knowledge of the internal quirks of RL algorithms. As such, the first contribution of the thesis was to propose a learning framework that lightens the requirements made to the user. The latter does not need anymore to know the exact solution of the problem but to only be able to choose between two behaviours exhibited by the agent, the one that matches more closely the solution. Learning is interactive between the agent and the user and resolves around the three main following points: i) The agent demonstrates a behaviour ii) The user compares it w.r.t. to the current best one iii) The agent uses this feedback to update its preference model of the user and uses it to find the next behaviour to demonstrate. To reduce the number of required interactions before finding the optimal behaviour, the second contribution of the thesis was to define a theoretically sound criterion making the trade-off between the sometimes contradicting desires of complying with the user's preferences and demonstrating sufficiently different behaviours. The last contribution was to ensure the robustness of the algorithm w.r.t. the feedback errors that the user might make. Which happens more often than not in practice, especially at the initial phase of the interaction, when all the behaviours are far from the expected solution. Apprentissage par renforcement Apprentissage par préférences Interaction homme-machine Robotique Reinforcement Learning Preference Learning Human-Computer Interaction Robotics
3	Méta-optimisation pour la calibration automatique de modèles énergétiques bâtiment pour le pilotage anticipatif / Meta-optimisation for automatic calibration for building energetic models in order to proceed to anticipative management Le Mounier, Audrey 29 June 2016 (has links) Face aux enjeux climatiques actuels, le secteur bâtiment est encouragé à réduire sa consommation énergétique tout en préservant le confort des occupants. C’est dans ce contexte que s’inscrit le projet ANR PRECCISION qui vise au développement d’outils et de méthodes pour la gestion énergétique optimisée des bâtiments qui nécessitent l’utilisation de modèles thermiques dynamiques. Les travaux de thèse, effectués entre le G2Elab et le G-SCOP, se sont focalisés sur les problématiques liées à l’estimation paramétrique de ces modèles. En effet, les incertitudes liées aux phénomènes mal maîtrisés et la nature des modèles rendent le calibrage des paramètres des modèles délicat. Cette procédure complexe n’est à ce jour pas systématisable : les modèles auto-regressifs ont une faible capacité d'extrapolation car leur structure est inadaptée, tandis que les modèles physiques sont non-linéaires par rapport à de nombreux paramètres : les estimations conduisent à des optimums locaux fortement dépendant de l'initialisation. Pour lever ce verrou, plusieurs approches ont été explorées à partir de modèles physiques adaptés pour lesquels des études sur l’identifiabilité ont été menées sur une plateforme expérimentale : PREDIS MHI. Différentes stratégies d'optimisation sont alors proposées visant à déterminer les paramètres qui peuvent être recalés. La première approche repose sur une analyse a priori de la dispersion paramétrique, la seconde repose sur une procédure de méta-optimisation qui détermine dynamiquement, au fur et à mesure d'une séquence d'optimisations, les paramètres à recaler. Les résultats sont analysés et comparés à diverses approches (modèles universels, identification « naïve » de tous les paramètres d’un modèle physique, algorithme génétique, …) à travers différents cas d'application. / In order to tackle the actual climate issues, the building field is encouraged to reduce his energetic consumption without changing the occupant’s comfort. In this context, the aim of the ANR PRECCISION project is to develop tools and methods for energetic management of the buildings which needs the use of dynamical thermal models. The PHD works, realise between the G2Elab and the G-SCOP, was focused on models parametric estimation issues. Indeed, uncertainties due to unknown phenomena and the nature of models lead to difficulties for the calibration of the models. Nowadays, this complex procedure is still not automatable: auto-regressive models have a low capacity to extrapolate because of their inadequate structure, whereas the physical models are non-linear regarding many parameters: estimations lead towards local optimums which highly depend on the initial point. In order to eliminate these constraints, several approaches have been explored with physical models adapted for which identifiability studies have been reached on an experimental platform: PREDIS MHI. Different optimisation strategies will be proposed in order to determine the parameters which can be estimated. The first approach uses an analyse a priori of the parametric dispersion, the second one use a meta optimisation which dynamicaly determined as the optimisation sequence, the parameters which can be readjusted. The results are analysed and compared to several approaches (universal models, “simple” identification of all the parameters of a physical model, genetic algorithm …) in different application cases. Estimation paramétrique Analyse de signature électrique Parametric estimation Learning of the occupants preferences Electrical signature analysis 620
4	Algorithmes efficaces pour l’apprentissage de réseaux de préférences conditionnelles à partir de données bruitées / Efficient algorithms for learning conditional preference networks from noisy data Labernia, Fabien 27 September 2018 (has links) La croissance exponentielle des données personnelles, et leur mise à disposition sur la toile, a motivé l’émergence d’algorithmes d’apprentissage de préférences à des fins de recommandation, ou d’aide à la décision. Les réseaux de préférences conditionnelles (CP-nets) fournissent une structure compacte et intuitive pour la représentation de telles préférences. Cependant, leur nature combinatoire rend leur apprentissage difficile : comment apprendre efficacement un CP-net au sein d’un milieu bruité, tout en supportant le passage à l’échelle ?Notre réponse prend la forme de deux algorithmes d’apprentissage dont l’efficacité est soutenue par de multiples expériences effectuées sur des données réelles et synthétiques.Le premier algorithme se base sur des requêtes posées à des utilisateurs, tout en prenant en compte leurs divergences d’opinions. Le deuxième algorithme, composé d’une version hors ligne et en ligne, effectue une analyse statistique des préférences reçues et potentiellement bruitées. La borne de McDiarmid est en outre utilisée afin de garantir un apprentissage en ligne efficace. / The rapid growth of personal web data has motivated the emergence of learning algorithms well suited to capture users’ preferences. Among preference representation formalisms, conditional preference networks (CP-nets) have proven to be effective due to their compact and explainable structure. However, their learning is difficult due to their combinatorial nature.In this thesis, we tackle the problem of learning CP-nets from corrupted large datasets. Three new algorithms are introduced and studied on both synthetic and real datasets.The first algorithm is based on query learning and considers the contradictions between multiple users’ preferences by searching in a principled way the variables that affect the preferences. The second algorithm relies on information-theoretic measures defined over the induced preference rules, which allow us to deal with corrupted data. An online version of this algorithm is also provided, by exploiting the McDiarmid's bound to define an asymptotically optimal decision criterion for selecting the best conditioned variable and hence allowing to deal with possibly infinite data streams. Apprentissage de préférences Apprentissage en ligne Préférences bruitées Borne de McDiarmid Preference learning Conditional preference networks Online learning Noisy preferences McDiarmid’s bound 006.3

1

Page generated in 0.1238 seconds