• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 174
  • 126
  • 14
  • Tagged with
  • 322
  • 187
  • 168
  • 146
  • 112
  • 79
  • 68
  • 68
  • 60
  • 48
  • 47
  • 40
  • 35
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
221

Stratégies optimistes en apprentissage par renforcement

Filippi, Sarah 24 November 2010 (has links) (PDF)
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
222

Machine Learning and Statistical Decision Making for Green Radio / Apprentissage statistique et prise de décision pour la radio verte

Modi, Navikkumar 17 May 2017 (has links)
Cette thèse étudie les techniques de gestion intelligente du spectre et de topologie des réseaux via une approche radio intelligente dans le but d’améliorer leur capacité, leur qualité de service (QoS – Quality of Service) et leur consommation énergétique. Les techniques d’apprentissage par renforcement y sont utilisées dans le but d’améliorer les performances d’un système radio intelligent. Dans ce manuscrit, nous traitons du problème d’accès opportuniste au spectre dans le cas de réseaux intelligents sans infrastructure. Nous nous plaçons dans le cas où aucune information n’est échangée entre les utilisateurs secondaires (pour éviter les surcoûts en transmissions). Ce problème particulier est modélisé par une approche dite de bandits manchots « restless » markoviens multi-utilisateurs (multi-user restless Markov MAB -multi¬armed bandit). La contribution principale de cette thèse propose une stratégie d’apprentissage multi-joueurs qui prend en compte non seulement le critère de disponibilité des canaux (comme déjà étudié dans la littérature et une thèse précédente au laboratoire), mais aussi une métrique de qualité, comme par exemple le niveau d’interférence mesuré (sensing) dans un canal (perturbations issues des canaux adjacents ou de signaux distants). Nous prouvons que notre stratégie, RQoS-UCB distribuée (distributed restless QoS-UCB – Upper Confidence Bound), est quasi optimale car on obtient des performances au moins d’ordre logarithmique sur son regret. En outre, nous montrons par des simulations que les performances du système intelligent proposé sont améliorées significativement par l’utilisation de la solution d’apprentissage proposée permettant à l’utilisateur secondaire d’identifier plus efficacement les ressources fréquentielles les plus disponibles et de meilleure qualité. Cette thèse propose également un nouveau modèle d’apprentissage par renforcement combiné à un transfert de connaissance afin d’améliorer l’efficacité énergétique (EE) des réseaux cellulaires hétérogènes. Nous formulons et résolvons un problème de maximisation de l’EE pour le cas de stations de base (BS – Base Stations) dynamiquement éteintes et allumées (ON-OFF). Ce problème d’optimisation combinatoire peut aussi être modélisé par des bandits manchots « restless » markoviens. Par ailleurs, une gestion dynamique de la topologie des réseaux hétérogènes, utilisant l’algorithme RQoS-UCB, est proposée pour contrôler intelligemment le mode de fonctionnement ON-OFF des BS, dans un contexte de trafic et d’étude de capacité multi-cellulaires. Enfin une méthode incluant le transfert de connaissance « transfer RQoS-UCB » est proposée et validée par des simulations, pour pallier les pertes de récompense initiales et accélérer le processus d’apprentissage, grâce à la connaissance acquise à d’autres périodes temporelles correspondantes à la période courante (même heure de la journée la veille, ou même jour de la semaine par exemple). La solution proposée de gestion dynamique du mode ON-OFF des BS permet de diminuer le nombre de BS actives tout en garantissant une QoS adéquate en atténuant les fluctuations de la QoS lors des variations du trafic et en améliorant les conditions au démarrage de l’apprentissage. Ainsi, l’efficacité énergétique est grandement améliorée. Enfin des démonstrateurs en conditions radio réelles ont été développés pour valider les solutions d’apprentissage étudiées. Les algorithmes ont également été confrontés à des bases de données de mesures effectuées par un partenaire dans la gamme de fréquence HF, pour des liaisons transhorizon. Les résultats confirment la pertinence des solutions d’apprentissage proposées, aussi bien en termes d’optimisation de l’utilisation du spectre fréquentiel, qu’en termes d’efficacité énergétique. / Future cellular network technologies are targeted at delivering self-organizable and ultra-high capacity networks, while reducing their energy consumption. This thesis studies intelligent spectrum and topology management through cognitive radio techniques to improve the capacity density and Quality of Service (QoS) as well as to reduce the cooperation overhead and energy consumption. This thesis investigates how reinforcement learning can be used to improve the performance of a cognitive radio system. In this dissertation, we deal with the problem of opportunistic spectrum access in infrastructureless cognitive networks. We assume that there is no information exchange between users, and they have no knowledge of channel statistics and other user's actions. This particular problem is designed as multi-user restless Markov multi-armed bandit framework, in which multiple users collect a priori unknown reward by selecting a channel. The main contribution of the dissertation is to propose a learning policy for distributed users, that takes into account not only the availability criterion of a band but also a quality metric linked to the interference power from the neighboring cells experienced on the sensed band. We also prove that the policy, named distributed restless QoS-UCB (RQoS-UCB), achieves at most logarithmic order regret. Moreover, numerical studies show that the performance of the cognitive radio system can be significantly enhanced by utilizing proposed learning policies since the cognitive devices are able to identify the appropriate resources more efficiently. This dissertation also introduces a reinforcement learning and transfer learning frameworks to improve the energy efficiency (EE) of the heterogeneous cellular network. Specifically, we formulate and solve an energy efficiency maximization problem pertaining to dynamic base stations (BS) switching operation, which is identified as a combinatorial learning problem, with restless Markov multi-armed bandit framework. Furthermore, a dynamic topology management using the previously defined algorithm, RQoS-UCB, is introduced to intelligently control the working modes of BSs, based on traffic load and capacity in multiple cells. Moreover, to cope with initial reward loss and to speed up the learning process, a transfer RQoS-UCB policy, which benefits from the transferred knowledge observed in historical periods, is proposed and provably converges. Then, proposed dynamic BS switching operation is demonstrated to reduce the number of activated BSs while maintaining an adequate QoS. Extensive numerical simulations demonstrate that the transfer learning significantly reduces the QoS fluctuation during traffic variation, and it also contributes to a performance jump-start and presents significant EE improvement under various practical traffic load profiles. Finally, a proof-of-concept is developed to verify the performance of proposed learning policies on a real radio environment and real measurement database of HF band. Results show that proposed multi-armed bandit learning policies using dual criterion (e.g. availability and quality) optimization for opportunistic spectrum access is not only superior in terms of spectrum utilization but also energy efficient.
223

Model-based hyperparameter optimization

Crouther, Paul 04 1900 (has links)
The primary goal of this work is to propose a methodology for discovering hyperparameters. Hyperparameters aid systems in convergence when well-tuned and handcrafted. However, to this end, poorly chosen hyperparameters leave practitioners in limbo, between concerns with implementation or improper choice in hyperparameter and system configuration. We specifically analyze the choice of learning rate in stochastic gradient descent (SGD), a popular algorithm. As a secondary goal, we attempt the discovery of fixed points using smoothing of the loss landscape by exploiting assumptions about its distribution to improve the update rule in SGD. Smoothing of the loss landscape has been shown to make convergence possible in large-scale systems and difficult black-box optimization problems. However, we use stochastic value gradients (SVG) to smooth the loss landscape by learning a surrogate model and then backpropagate through this model to discover fixed points on the real task SGD is trying to solve. Additionally, we construct a gym environment for testing model-free algorithms, such as Proximal Policy Optimization (PPO) as a hyperparameter optimizer for SGD. For tasks, we focus on a toy problem and analyze the convergence of SGD on MNIST using model-free and model-based reinforcement learning methods for control. The model is learned from the parameters of the true optimizer and used specifically for learning rates rather than for prediction. In experiments, we perform in an online and offline setting. In the online setting, we learn a surrogate model alongside the true optimizer, where hyperparameters are tuned in real-time for the true optimizer. In the offline setting, we show that there is more potential in the model-based learning methodology than in the model-free configuration due to this surrogate model that smooths out the loss landscape and makes for more helpful gradients during backpropagation. / L’objectif principal de ce travail est de proposer une méthodologie de découverte des hyperparamètres. Les hyperparamètres aident les systèmes à converger lorsqu’ils sont bien réglés et fabriqués à la main. Cependant, à cette fin, des hyperparamètres mal choisis laissent les praticiens dans l’incertitude, entre soucis de mise en oeuvre ou mauvais choix d’hyperparamètre et de configuration du système. Nous analysons spécifiquement le choix du taux d’apprentissage dans la descente de gradient stochastique (SGD), un algorithme populaire. Comme objectif secondaire, nous tentons de découvrir des points fixes en utilisant le lissage du paysage des pertes en exploitant des hypothèses sur sa distribution pour améliorer la règle de mise à jour dans SGD. Il a été démontré que le lissage du paysage des pertes rend la convergence possible dans les systèmes à grande échelle et les problèmes difficiles d’optimisation de la boîte noire. Cependant, nous utilisons des gradients de valeur stochastiques (SVG) pour lisser le paysage des pertes en apprenant un modèle de substitution, puis rétropropager à travers ce modèle pour découvrir des points fixes sur la tâche réelle que SGD essaie de résoudre. De plus, nous construisons un environnement de gym pour tester des algorithmes sans modèle, tels que Proximal Policy Optimization (PPO) en tant qu’optimiseur d’hyperparamètres pour SGD. Pour les tâches, nous nous concentrons sur un problème de jouet et analysons la convergence de SGD sur MNIST en utilisant des méthodes d’apprentissage par renforcement sans modèle et basées sur un modèle pour le contrôle. Le modèle est appris à partir des paramètres du véritable optimiseur et utilisé spécifiquement pour les taux d’apprentissage plutôt que pour la prédiction. Dans les expériences, nous effectuons dans un cadre en ligne et hors ligne. Dans le cadre en ligne, nous apprenons un modèle de substitution aux côtés du véritable optimiseur, où les hyperparamètres sont réglés en temps réel pour le véritable optimiseur. Dans le cadre hors ligne, nous montrons qu’il y a plus de potentiel dans la méthodologie d’apprentissage basée sur un modèle que dans la configuration sans modèle en raison de ce modèle de substitution qui lisse le paysage des pertes et crée des gradients plus utiles lors de la rétropropagation.
224

Performance and strut efficiency factor of concrete deep beams reinforced with GFRP bars / Performance et facteur d'efficacité de la bielle de poutres profondes en béton armé avec des barres de PRFV

Mohamed, Khaled Ahmed January 2015 (has links)
Abstract : Deep reinforced concrete beams are commonly used as transfer girders or bridge bents, at which its safety is often crucial for the stability of the whole structure. Such elements are exposed to the aggressive environment in northern climates causing steel-corrosion problems due to the excessive use of de-icing salts. Fiber-reinforced polymers (FRP) emerged as non-corroded reinforcing materials to overcome such problems in RC elements. The present study aims to address the applicability of concrete deep beams totally reinforced with FRP bars. Ten full-scale deep beams with dimensions of 1200 × 300 × 5000 mm were constructed and tested to failure under two-point loading. Test variables were shear-span depth ratio (equal to 1.47, 1.13, and 0.83) and different configurations of web reinforcement (including vertical and/or horizontal web reinforcement). Failure of all specimens was preceded by crushing in the concrete diagonal strut, which is the typical failure of deep beams. The test results indicated that, all web reinforcement configurations employed in the tested specimens yielded insignificant effects on the ultimate strength. However, strength of specimens containing horizontal-only web reinforcement were unexpectedly lower than that of specimens without web reinforcement. The web reinforcement’s main contribution was significant crack-width control. The tested specimens exhibited reasonable deflection levels compared to the available steel-reinforced deep beams in the literature. The development of arch action was confirmed through the nearly uniform strain distribution along the length of the longitudinal reinforcement in all specimens. Additionally, the basic assumption of the strut-and-tie model (STM) was adequately used to predict the strain distribution along the longitudinal reinforcement, confirming the applicability of the STM for FRP-reinforced deep beams. Hence, a STM based model was proposed to predict the strength of FRP-reinforced deep beams using the experimental data, in addition to the available experimentally tested FRP-reinforced deep beams in the literature. Assessment of the available STMs in code provisions was conducted identifying the important parameters affecting the strut efficiency factor. The tendency of each parameter (concrete compressive strength, shear span-depth ratio, and strain in longitudinal reinforcement) was individually evaluated against the efficiency factor. Strain energy based calculations were performed to identify the appropriate truss model for detailing FRP-reinforced deep beams, hence, only four specimens with vertical web reinforcement exhibited the formation of two-panel truss model. The proposed model was capable to predict the ultimate capacity of the tested deep beams. The model was also verified against a compilation of a data-base of 172 steel-reinforced deep beams resulting in acceptable level of adequacy. The ultimate capacity and performance of the tested deep beams were also adequately predicted employing a 2D finite element program (VecTor2), which provide a powerful tool to predict the behavior of FRP-reinforced deep beams. The nonlinear finite element analysis was used to confirm some hypotheses associated with the experimental investigations. / Résumé : Les poutres profondes en béton armé (BA) sont couramment utilisées comme poutre de transfert ou coude de pont, comme quoi sa sécurité est souvent cruciale pour la sécurité de l’ensemble de la structure. Ces éléments sont exposés à un environnement agressif dans les climats nordiques causant des problèmes de corrosion de l’acier en raison de l’utilisation excessive de sels de déglaçage. Les polymères renforcés de fibres (PRF) sont apparus comme des matériaux de renforcement non corrodant pour surmonter ces problèmes dans les BA. La présente étude vise à examiner la question de l'applicabilité des poutres profondes en béton complètement renforcées de barres en PRF. Dix poutres profondes à grande échelle avec des dimensions de 1200 × 300 × 5000 mm ont été construites et testées jusqu’à la rupture sous chargement en deux points. Les variables testées comprenaient différents ratios de cisaillement porté/profondeur (égal à 1.47, 1.13 et 0.83) ainsi que différentes configurations d’armature dans l’âme (incluant un renforcement vertical avec ou sans renforcement horizontal). La rupture de tous les spécimens a été précédée par l’écrasement du béton dans le mât diagonal, ce qui est la rupture typique pour les poutres profondes en BA. Les résultats ont révélé que toutes les configurations de renforcement de l’âme employées dans les spécimens d'essais avaient un effet négligeable sur la résistance ultime. Toutefois, la résistance des spécimens contenant uniquement un renforcement horizontal était étonnamment inférieure à celle des spécimens sans renforcement. La contribution principale du renforcement de l’âme était dans le contrôle de la largeur de fissuration. Les spécimens examinés présentaient une déflexion raisonnable par rapport à ce qui est disponible pour les poutres profondes renforcées en acier dans la littérature. Le développement de l'effet d'arche a été confirmé par la distribution quasi uniforme des déformations le long du renforcement longitudinal dans tous les spécimens. En outre, l'hypothèse de base du modèle des bielles et tirants (MBT) a été utilisée adéquatement pour prédire la distribution de déformation le long du renforcement longitudinal, confirmant l'applicabilité du MBT pour les poutres profondes armées de PRF. Par conséquent, un modèle basé sur un MBT a été proposé afin de prédire la résistance des poutres profondes renforcées de PRF en utilisant les données expérimentales en plus de la mise à l'épreuve expérimentalement des poutres profondes renforcées de PRF trouvées dans la littérature. Une évaluation des MTB disponibles dans les dispositions des codes a été menée afin de déterminer les paramètres importants affectant le facteur d'efficacité de la bielle. La tendance de chaque paramètre (la résistance à la compression du béton, le ratio de cisaillement porté/profondeur, et la déformation dans le renforcement longitudinal) a été évaluée individuellement contre le facteur d'efficacité. Des calculs basés sur l’énergie des déformations ont été effectués pour identifier le modèle de treillis approprié afin de détailler les poutres profondes renforcées de PRF. Par conséquent, seulement quatre spécimens avec un renforcement vertical dans l’âme présentaient la formation de modèles avec deux panneaux de treillis. Le modèle proposé a été capable de prédire la capacité ultime des poutres profondes testées. Le modèle a également été vérifié contre une base de données de 172 poutres profondes renforcées en acier aboutissant en un niveau acceptable de pertinence. La capacité ultime et la performance des poutres profondes testées ont été également adéquatement prédites employant un programme d'éléments finis en 2D (VecTor2), ce qui fournira un puissant outil pour prédire le comportement des poutres profondes renforcées de PRF. L'analyse non linéaire par éléments finis a été utilisée afin de confirmer certaines hypothèses associées à l'étude expérimentale.
225

Monte Carlo Tree Search pour les problèmes de décision séquentielle en milieu continus et stochastiques

Couetoux, Adrien 30 September 2013 (has links) (PDF)
Dans cette thèse, nous avons étudié les problèmes de décisions séquentielles, avec comme application la gestion de stocks d'énergie. Traditionnellement, ces problèmes sont résolus par programmation dynamique stochastique. Mais la grande dimension, et la non convexité du problème, amènent à faire des simplifications sur le modèle pour pouvoir faire fonctionner ces méthodes. Nous avons donc étudié une méthode alternative, qui ne requiert pas de simplifications du modèle: Monte Carlo Tree Search (MCTS). Nous avons commencé par étendre le MCTS classique (qui s'applique aux domaines finis et déterministes) aux domaines continus et stochastiques. Pour cela, nous avons utilisé la méthode de Double Progressive Widening (DPW), qui permet de gérer le ratio entre largeur et profondeur de l'arbre, à l'aide de deux méta paramètres. Nous avons aussi proposé une heuristique nommée Blind Value (BV) pour améliorer la recherche de nouvelles actions, en utilisant l'information donnée par les simulations passées. D'autre part, nous avons étendu l'heuristique RAVE aux domaines continus. Enfin, nous avons proposé deux nouvelles méthodes pour faire remonter l'information dans l'arbre, qui ont beaucoup amélioré la vitesse de convergence sur deux cas tests. Une part importante de notre travail a été de proposer une façon de mêler MCTS avec des heuristiques rapides pré-existantes. C'est une idée particulièrement intéressante dans le cas de la gestion d'énergie, car ces problèmes sont pour le moment résolus de manière approchée. Nous avons montré comment utiliser Direct Policy Search (DPS) pour rechercher une politique par défaut efficace, qui est ensuite utilisée à l'intérieur de MCTS. Les résultats expérimentaux sont très encourageants. Nous avons aussi appliqué MCTS à des processus markoviens partiellement observables (POMDP), avec comme exemple le jeu de démineur. Dans ce cas, les algorithmes actuels ne sont pas optimaux, et notre approche l'est, en transformant le POMDP en MDP, par un changement de vecteur d'état. Enfin, nous avons utilisé MCTS dans un cadre de méta-bandit, pour résoudre des problèmes d'investissement. Le choix d'investissement est fait par des algorithmes de bandits à bras multiples, tandis que l'évaluation de chaque bras est faite par MCTS. Une des conclusions importantes de ces travaux est que MCTS en continu a besoin de très peu d'hypothèses (uniquement un modèle génératif du problème), converge vers l'optimum, et peut facilement améliorer des méthodes suboptimales existantes.
226

Les bases neuronales de l’apprentissage décisionnel au sein des ganglions de la base : étude électrophysiologique et comportementale chez le primate non humain / The neural bases of decision learning in the basal ganglia : an electrophysiological and behavioral approach in the non-human primate

Laquitaine, Steeve 08 November 2010 (has links)
Une question fondamentale en neuroscience, ainsi que dans de nombreuses disciplines s’intéressant à la compréhension du comportement, telles que la psychologie, l’Economie, et la sociologie, concerne les processus décisionnels par lesquels les animaux et les humains sélectionnent des actions renforcées positivement ou négativement. Les processus décisionnels ainsi que leur base neuronale demeurent mal compris. D’autre part de nombreuses études ont révélé que les humains ainsi que les animaux prennent souvent des décisions sous-optimales. Notre principal objectif a été de comprendre la raison de ces comportements sous-optimaux. Par ailleurs, l’altération des processus sous-tendant la prise de décision, entraîne des pathologies. La compréhension des mécanismes décisionnels est essentielle au développement de stratégies de traitements plus efficaces. Dans cette étude nous avons proposé une nouvelle approche de l’étude des comportements décisionnels, basée sur l’hétérogénéité des préférences créées au cours de l’apprentissage du choix. Puis nous avons corrélé l’activité du putamen et du globus pallidus interne aux comportements préalablement décrits. Nos résultats montrent que bien que les primates apprennent à identifier la meilleure option et convergent vers une stratégie optimale dans un nombre important de sessions, ils n’arrivent pas en moyenne à optimiser leur comportement. Nous avons montré que ce comportement suboptimal des primates est caractérisé par la création de préférences irrationnelles par ces derniers pour des paramètres non pertinents de l’environnement. Nous avons finalement montré que bien qu’un faible nombre de neurones du putamen encode la valeur de l’action, leur contribution à l’activité de population est faible. L’activité du putamen reflète les futures performances des primates et prédit donc la formation des comportements irrationnels et rationnels. / A fundamental question in neuroscience, as well as in various fields such as economics, psychology and sociology, concerns the decision making processes by which animals and humans select actions based on reward and punishment. Both decision making processes and their neural basis are still poorly understood. Also, both human and animals often make suboptimal decisions in many tasks studied. Our first aim is to improve the understanding of why such sub-optimal decisions are made. Also, the alteration of decision making processes causes diseases, the understanding of whose mechanisms is essential in developing better treatment strategies. In this report, we propose a new approach which consists in extracting the neural substrates of choice behavior heterogeneity in between sessions. Our results show that although primates learn on average to identify the best option and converge to an optimal policy in a consequent number of sessions, they fail on average to optimize their behavior. We revealed that this suboptimal behavior was characterized by an unexpected high behavioral heterogeneity during the task that was due to the creation of irrelevant preferences by the monkeys. We finally show that although a few neurons of the putamen encode the action value, their contribution to the overall population activity is weak. Putamen activity rather reflects the futures performances and predicts the creation of rational and irrational behaviors.
227

Valorisation économique de la propriété industrielle : cas de l'industrie pharmaceutique en tunisie / Economic valuation of industrial property : tunisian pharmaceutical case

Ben gamra, Seima 14 January 2011 (has links)
La présente recherche vise à comprendre le processus ou le mécanisme de valorisation de la propriété industrielle aussi bien dans les pays développés que dans les pays en développement suite à la conclusion de l’accord historique ADPIC.L’analyse de données factuelles se rapportant à la protection de la propriété industrielle pharmaceutique en Tunisie nous oriente vers une modélisation possible de l’industrie pharmaceutique tunisienne.La recherche identifie deux voies ou stratégies d’exploitation des brevets : « license in » ou « license out ». Cependant, c’est le dépôt de brevet par les nationaux résidents qui fait défaut en Tunisie dans le domaine pharmaceutique, dominé par les biotechnologies à l’échelle mondiale.Le rapprochement des industries locales avec des partenaires scientifiques internationaux pourrait être une voie possible de valorisation. / We aim in this research to study how to assess the value of a patent in developed countries as well as in emerging ones, mainly according to the TRIPS.Modelization of the pharmaceutical industry in Tunisia has been possible when analyzing data evidence from pharmaceuticals patents in Tunisia.This research identify two strategies to capitalize on patents: « license in » ou « license out ».However, only few local industries in Tunisia are willing to file patents, even ifbiotechnologies dominate global pharmaceutical market.Being in touch with international scientific partners, signing contracts could help to valorize industrial property in Tunisia.
228

Reconnaître pour choisir, orienter et rencontrer : mères, guérisseurs et biomédecins à l’épreuve des rencontres et reconnaissances en milieux pédiatriques camerounais

Wamba, André 01 1900 (has links)
Si hier les guérisseurs revendiquaient uniquement le besoin de reconnaissance, aujourd’hui, ils se battent plutôt pour que la reconnaissance qui leur a été accordée par l’État soit capable d’intégrer les conceptions africaines de la maladie et des thérapies ; de les protéger au même titre que les biomédecins dans l’exercice de leur profession ; de protéger les malades en cas de préjudices moral et physique. Ils craignent que la reconnaissance [accordée] ne soit pas reconnue juridiquement par une loi camerounaise qui régule leurs pratiques de soins. Dans la mesure où, sans une reconnaissance juridique et institutionnelle, il leur est impossible de se maintenir dans l’espace [public] de sociabilité thérapeutique ; de changer, à partir de la position illégitime, leurs conditions de praticiens précaires, et surtout leur relation aux usagers de soins [les mères] et aux biomédecins. Dans cette perspective, on se demande quelles sont les modalités d’intéressement ou de désintéressement mutuel qui permettent aux guérisseurs – affaiblis institutionnellement – et aux biomédecins – fortement reconnus – d’évoluer vers une réciprocité de perspectives. L’étude cherche à identifier les modes d’arrachement à l’affaiblissement institutionnel, en s’intéressant, d’un côté, aux processus de capacitation et de renforcement de la légitimité ; et de l’autre, à l’impact de ce renforcement, d’abord, sur la redéfinition des objets et figures de la rencontre et de la reconnaissance, et ensuite, sur la reconfiguration de l’espace de soins et du profil du thérapeute camerounais contemporain. Pour répondre à cet objectif, nous avons sollicité le cadre théorique de la sociologie des épreuves d’inspiration pragmatiste [Thévenot, Boltanski, Gennard et Cantelli] et de l’anthropologie capacitaire [Ricœur]. Les observations de consultations en Maisons de Soins [chez les guérisseurs] et au Centre Mère et Enfant [Hôpital pédiatrique] et les entretiens individuels effectués à Yaoundé [Cameroun] ont engendré une réflexion sur le sens que donnent les mères, guérisseurs et biomédecins au fait de rencontrer ou de refuser de rencontrer un soignant. L’analyse des données recueillies inscrit la rencontre dans l’axe de la reconnaissance capacitaire [des compétences], permettant ainsi d’envisager une pluralité de figures de la reconnaissance et de la rencontre. Elle indique aussi que si la formation à l’identité professionnelle biomédicale constitue pour les guérisseurs une tactique de renforcement de leur légitimité, l’inscription en médecines africaines de certains biomédecins [résistants ou non conformistes] les prédisposent à une résistance institutionnelle aux normes biomédicales ; ce qui permet de nuancer, au regard de la pluralisation et de la diversification des rationalités en jeu, la compréhension du caractère monolithique des institutions. Il en résulte une réflexion sur le brouillage des frontières entre les médecines africaines et la biomédecine, ce brouillage ayant alors comme conséquences, entre autres, une possible fragmentation ou morcellement de ces médecines en termes de «biomodernisation» des médecines africaines et de «traditionalisation» de la biomédecine en contexte africain. / If yesterday the need for recognition was the core claim among traditional health practitioners, today, their quest resides in the recognition not only of their practice but also of the African conceptions of diseases and therapies; in their protection as profesionnals (such as biomedical health practictioners); in the protection of patients in case of moral or physical prejudices. The traditional health practitioners fear that their recognition will not extend to or be sanctioned by Cameroonian law, which regulates their care practices. Without legal and institutional recognition, it is impossible for these practitioners to remain in the social care space; to change, from their illegitimate position, their condition of precarious practitioners, and especially their relationship to biomedical health practitioners. Thus, what are the modalities of mutual interestedness or disinterestedness that allow traditional [institutionally weakened] and biomedical practitioners [strongly recognized] to evolve towards reciprocity of perspectives? The study is seeking to identify modes of wrenching from the institutional weakening, focusing, on one hand, on empowerment and reinforcing processes of healers’ legitimacy; and on the other hand, to the impact of empowerment on the redefinition of objects and figures of encounter and of recognition, on the reconfiguration of social care space and the profile of the therapist. To achieve this objective, we have sought the reference framework of sociology of proofs and the anthropology of capacity of Ricœur. The observations of consultations in «Maisons de Soins» and to the «Centre Mère et Enfant» and interviews have led to a reflection on the interpretation associated by mothers, traditional and biomedical health practitioners to what it means to consult or refuse to consult traditional healer or biomedical practitioner. The analysis of data situates the encounter in the axis of capacity of recognition, allowing us to consider multiple figures of recognition and of encounter. It shows that if the adoption of the biomedical professional identity constitutes for traditional health practitioners a tactic of reinforcement of their legitimacy, the integration in African medicines of some biomedical health practitioners predispose them to an institutional resistance to biomedical norms; making it possible to nuance the comprehension of the monolithic character of institutions, given pluralization and diversification of rationalities at stake. This results in a reflection on blurring of frontiers of African medicines and biomedicine, thus giving place to a possible fragmentation of these medicines in terms in terms of biomodernization of African medicines and traditionalization of biomedicine.
229

Sequential prediction for budgeted learning : Application to trigger design / Prédiction séquentielle pour l'apprentissage budgété : Application à la conception de trigger

Benbouzid, Djalel 20 February 2014 (has links)
Cette thèse aborde le problème de classification en apprentissage statistique sous un angle nouveau en rajoutant une dimension séquentielle au processus de classification. En particulier, nous nous intéressons au cas de l'apprentissage à contraintes de budget (ou apprentissage budgété) où l'objectif est de concevoir un classifieur qui, tout en apportant des prédictions correctes, doit gérer un budget computationnel, consommé au fur et à mesure que les différents attributs sont acquis ou évalués. Les attributs peuvent avoir des coûts d'acquisition différents et il arrive souvent que les attributs les plus discriminatifs soient les plus coûteux. Le diagnostic médical et le classement de pages web sont des exemples typiques d'applications de l'apprentissage budgété. Pour le premier, l'objectif est de limiter le nombre de tests médicaux que le patient doit endurer et, pour le second, le classement doit se faire dans un temps assez court pour ne pas faire fuir l'usager. Au cours de cette thèse, nous nous sommes intéressés à des contraintes de budget atypiques, que la conception de trigger nous a motivés à investiguer. Les triggers sont un type de classifieurs rapides, temps-réel et sensibles aux coûts qui ont pour objectif de filtrer les données massives que les accélérateurs de particules produisent et d'en retenir les événements les plus susceptibles de contenir le phénomène étudié, afin d'être enregistrés pour des analyses ultérieures. La conception de trigger impose des contraintes computationnelles strictes lors de la classification mais, surtout, exhibe des schémas complexes de calcul du coût de chaque attributs. Certains attributs sont dépendants d'autres attributs et nécessitent de calculer ces derniers en amont, ce qui a pour effet d'augmenter le coût de la classification. De plus, le coût des attributs peut directement dépendre de leur valeur concrète. On retrouve ce cas de figure lorsque les extracteurs d'attributs améliorent la qualité de leur sortie avec le temps mais peuvent toujours apporter des résultats préliminaires. Enfin, les observations sont regroupées en sacs et, au sein du même sac, certaines observations partagent le calcul d'un sous-ensemble d'attributs. Toutes ces contraintes nous ont amenés à formaliser la classification sous un angle séquentiel.Dans un premier temps, nous proposons un nouveau cadriciel pour la classification rapide en convertissant le problème initial de classification en un problème de prise décision. Cette reformulation permet d'un part d'aborder la séquentialité de manière explicite, ce qui a pour avantage de pouvoir aisément incorporer les différentes contraintes que l'on retrouve dans les applications réelles, mais aussi d'avoir à disposition toute une palette d'algorithmes d'apprentissage par renforcement pour résoudre le nouveau problème. Dans une seconde partie, nous appliquons notre modèle de classification séquentielle à un problème concret d'apprentissage à contraintes de budget et démontrant les bénéfices de notre approche sur des données simulées (à partir de distributions simplifiées) de l'expérience LHCb (CERN). / Classification in machine learning has been extensively studied during the pastdecades. Many solutions have been proposed to output accurate classifiers and toobtain statistical grantees on the unseen observations. However, when machinelearning algorithms meet concrete industrial or scientific applications, new computationalcriteria appear to be as important to satisfy as those of classificationaccuracy. In particular, when the output classifier must comply with a computationalbudget needed to obtain the features that are evaluated at test time, wetalk about “budgeted” learning. The features can have different acquisition costsand, often, the most discriminative features are the costlier. Medical diagnosis andweb-page ranking, for instance, are typical applications of budgeted learning. Inthe former, the goal is to limit the number of medical tests evaluate for patients,and in the latter, the ranker has limited time to order documents before the usergoes away.This thesis introduces a new way of tackling classification in general and budgetedlearning problems in particular, through a novel framework lying in theintersection of supervised learning and decision theory. We cast the classificationproblem as a sequential decision making procedure and show that this frameworkyields fast and accurate classifiers. Unlike classical classification algorithms thatoutput a “one-shot” answer, we show that considering the classification as a seriesof small steps wherein the information is gathered sequentially also providesa flexible framework that allows to accommodate different types of budget constraintsin a “natural” way. In particular, we apply our method to a novel type ofbudgeted learning problems motivated by particle physics experiments. The particularityof this problem lies in atypical budget constraints and complex cost calculationschemata where the calculation of the different features depends on manyfactors. We also review similar sequential approaches that have recently known aparticular interest and provide a global perspective on this new paradigm.
230

Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial / Learning dynamics for Monte Carlo Tree Search : application to combinatorial games

Fabbri, André 22 October 2015 (has links)
Depuis son introduction pour le jeu de Go, Monte Carlo Tree Search (MCTS) a été appliqué avec succès à d'autres jeux et a ouvert la voie à une famille de nouvelles méthodes comme Mutilple-MCTS ou Nested Monte Carlo. MCTS évalue un ensemble de situations de jeu à partir de milliers de fins de parties générées aléatoirement. À mesure que les simulations sont produites, le programme oriente dynamiquement sa recherche vers les coups les plus prometteurs. En particulier, MCTS a suscité l'intérêt de la communauté car elle obtient de remarquables performances sans avoir pour autant recours à de nombreuses connaissances expertes a priori. Dans cette thèse, nous avons choisi d'aborder MCTS comme un système apprenant à part entière. Les simulations sont alors autant d'expériences vécues par le système et les résultats sont autant de renforcements. L'apprentissage du système résulte alors de la complexe interaction entre deux composantes : l'acquisition progressive de représentations et la mobilisation de celles-ci lors des futures simulations. Dans cette optique, nous proposons deux approches indépendantes agissant sur chacune de ces composantes. La première approche accumule des représentations complémentaires pour améliorer la vraisemblance des simulations. La deuxième approche concentre la recherche autour d'objectifs intermédiaires afin de renforcer la qualité des représentations acquises. Les méthodes proposées ont été appliquées aux jeu de Go et du Clobber solitaire impartial. La dynamique acquise par le système lors des expérimentations illustre la relation entre ces deux composantes-clés de l'apprentissage / Monte Carlo Tree Search (MCTS) has been initially introduced for the game of Go but has now been applied successfully to other games and opens the way to a range of new methods such as Multiple-MCTS or Nested Monte Carlo. MCTS evaluates game states through thousands of random simulations. As the simulations are carried out, the program guides the search towards the most promising moves. MCTS achieves impressive results by this dynamic, without an extensive need for prior knowledge. In this thesis, we choose to tackle MCTS as a full learning system. As a consequence, each random simulation turns into a simulated experience and its outcome corresponds to the resulting reinforcement observed. Following this perspective, the learning of the system results from the complex interaction of two processes : the incremental acquisition of new representations and their exploitation in the consecutive simulations. From this point of view, we propose two different approaches to enhance both processes. The first approach gathers complementary representations in order to enhance the relevance of the simulations. The second approach focuses the search on local sub-goals in order to improve the quality of the representations acquired. The methods presented in this work have been applied to the games of Go and Impartial Solitaire Clobber. The results obtained in our experiments highlight the significance of these processes in the learning dynamic and draw up new perspectives to enhance further learning systems such as MCTS

Page generated in 0.0298 seconds