Global ETD Search

221	Renforcement des dalles épaisses en cisaillement Provencher, Philippe 17 April 2018 (has links) La gestion des infrastructures routières en béton armé pose un problème important en Amérique du Nord. En effet, en plus de la dégradation des ouvrages causée par le vieillissement usuel (effet mécanique et exposition aux agents agressifs), la croissance des charges et du volume du trafic routier depuis la conception de ces ouvrages a entrainé une accélération de cette dégradation. Qui plus est, l'intégration récente dans les équations de calcul de résistance de certains mécanismes, notamment l'effet d'échelle en cisaillement amène des interrogations sur la capacité en cisaillement de certains types d'ouvrages, notamment les dalles épaisses sans armature de cisaillement. Suite à l'effondrement du Viaduc de la Concorde en 2006, une structure à dalle épaisse sans armature de cisaillement, le Ministère des Transports du Québec (MTQ), conjointement avec l'Université Laval, a entrepris une étude sur le renforcement en cisaillement de dalles épaisses (sans armature de cisaillement). La méthode étudiée consiste à insérer des barres d'armature crénelées dans des trous verticaux préalablement injectés d'époxy et percés à partir de la face supérieure des dalles. Pour réaliser cette étude, trois groupes de dalles de geometries différentes ont été confectionnés. La moitié de ces dalles a alors été renforcée avec la méthode décrite précédemment tandis que les autres dalles agissaient à titre de dalles témoins. L'ensemble des dalles a ensuite été soumis à des essais de flexion en trois points pour en déterminer le comportement sous sollicitation en cisaillement. Les résultats obtenus démontrent qu'un renforcement en cisaillement à l'aide de barres d'armature droites permet d'augmenter la charge et la flèche atteinte à l'ultime. Un tel renforcement permet aussi d'observer des fissures de cisaillement à une charge bien inférieure à la charge ultime, ce qui n'est pas le cas pour les dalles non renforcées, dont la rupture en cisaillement survient dès l'apparition d'une fissure de cisaillement. L'étude des dalles ainsi renforcées permet également d'observer un comportement post-pic beaucoup plus fragile que celui rencontré pour des dalles renforcées de façon usuelle en cisaillement avec des étriers fermés conventionnels. TA 7.5 UL 2011 P969 Cisaillement (Mécanique) Béton armé -- Fissuration Barres d'armature Solides -- Mécanismes de renforcement Résistance des matériaux
222	Machine Learning and Statistical Decision Making for Green Radio / Apprentissage statistique et prise de décision pour la radio verte Modi, Navikkumar 17 May 2017 (has links) Cette thèse étudie les techniques de gestion intelligente du spectre et de topologie des réseaux via une approche radio intelligente dans le but d’améliorer leur capacité, leur qualité de service (QoS – Quality of Service) et leur consommation énergétique. Les techniques d’apprentissage par renforcement y sont utilisées dans le but d’améliorer les performances d’un système radio intelligent. Dans ce manuscrit, nous traitons du problème d’accès opportuniste au spectre dans le cas de réseaux intelligents sans infrastructure. Nous nous plaçons dans le cas où aucune information n’est échangée entre les utilisateurs secondaires (pour éviter les surcoûts en transmissions). Ce problème particulier est modélisé par une approche dite de bandits manchots « restless » markoviens multi-utilisateurs (multi-user restless Markov MAB -multi¬armed bandit). La contribution principale de cette thèse propose une stratégie d’apprentissage multi-joueurs qui prend en compte non seulement le critère de disponibilité des canaux (comme déjà étudié dans la littérature et une thèse précédente au laboratoire), mais aussi une métrique de qualité, comme par exemple le niveau d’interférence mesuré (sensing) dans un canal (perturbations issues des canaux adjacents ou de signaux distants). Nous prouvons que notre stratégie, RQoS-UCB distribuée (distributed restless QoS-UCB – Upper Confidence Bound), est quasi optimale car on obtient des performances au moins d’ordre logarithmique sur son regret. En outre, nous montrons par des simulations que les performances du système intelligent proposé sont améliorées significativement par l’utilisation de la solution d’apprentissage proposée permettant à l’utilisateur secondaire d’identifier plus efficacement les ressources fréquentielles les plus disponibles et de meilleure qualité. Cette thèse propose également un nouveau modèle d’apprentissage par renforcement combiné à un transfert de connaissance afin d’améliorer l’efficacité énergétique (EE) des réseaux cellulaires hétérogènes. Nous formulons et résolvons un problème de maximisation de l’EE pour le cas de stations de base (BS – Base Stations) dynamiquement éteintes et allumées (ON-OFF). Ce problème d’optimisation combinatoire peut aussi être modélisé par des bandits manchots « restless » markoviens. Par ailleurs, une gestion dynamique de la topologie des réseaux hétérogènes, utilisant l’algorithme RQoS-UCB, est proposée pour contrôler intelligemment le mode de fonctionnement ON-OFF des BS, dans un contexte de trafic et d’étude de capacité multi-cellulaires. Enfin une méthode incluant le transfert de connaissance « transfer RQoS-UCB » est proposée et validée par des simulations, pour pallier les pertes de récompense initiales et accélérer le processus d’apprentissage, grâce à la connaissance acquise à d’autres périodes temporelles correspondantes à la période courante (même heure de la journée la veille, ou même jour de la semaine par exemple). La solution proposée de gestion dynamique du mode ON-OFF des BS permet de diminuer le nombre de BS actives tout en garantissant une QoS adéquate en atténuant les fluctuations de la QoS lors des variations du trafic et en améliorant les conditions au démarrage de l’apprentissage. Ainsi, l’efficacité énergétique est grandement améliorée. Enfin des démonstrateurs en conditions radio réelles ont été développés pour valider les solutions d’apprentissage étudiées. Les algorithmes ont également été confrontés à des bases de données de mesures effectuées par un partenaire dans la gamme de fréquence HF, pour des liaisons transhorizon. Les résultats confirment la pertinence des solutions d’apprentissage proposées, aussi bien en termes d’optimisation de l’utilisation du spectre fréquentiel, qu’en termes d’efficacité énergétique. / Future cellular network technologies are targeted at delivering self-organizable and ultra-high capacity networks, while reducing their energy consumption. This thesis studies intelligent spectrum and topology management through cognitive radio techniques to improve the capacity density and Quality of Service (QoS) as well as to reduce the cooperation overhead and energy consumption. This thesis investigates how reinforcement learning can be used to improve the performance of a cognitive radio system. In this dissertation, we deal with the problem of opportunistic spectrum access in infrastructureless cognitive networks. We assume that there is no information exchange between users, and they have no knowledge of channel statistics and other user's actions. This particular problem is designed as multi-user restless Markov multi-armed bandit framework, in which multiple users collect a priori unknown reward by selecting a channel. The main contribution of the dissertation is to propose a learning policy for distributed users, that takes into account not only the availability criterion of a band but also a quality metric linked to the interference power from the neighboring cells experienced on the sensed band. We also prove that the policy, named distributed restless QoS-UCB (RQoS-UCB), achieves at most logarithmic order regret. Moreover, numerical studies show that the performance of the cognitive radio system can be significantly enhanced by utilizing proposed learning policies since the cognitive devices are able to identify the appropriate resources more efficiently. This dissertation also introduces a reinforcement learning and transfer learning frameworks to improve the energy efficiency (EE) of the heterogeneous cellular network. Specifically, we formulate and solve an energy efficiency maximization problem pertaining to dynamic base stations (BS) switching operation, which is identified as a combinatorial learning problem, with restless Markov multi-armed bandit framework. Furthermore, a dynamic topology management using the previously defined algorithm, RQoS-UCB, is introduced to intelligently control the working modes of BSs, based on traffic load and capacity in multiple cells. Moreover, to cope with initial reward loss and to speed up the learning process, a transfer RQoS-UCB policy, which benefits from the transferred knowledge observed in historical periods, is proposed and provably converges. Then, proposed dynamic BS switching operation is demonstrated to reduce the number of activated BSs while maintaining an adequate QoS. Extensive numerical simulations demonstrate that the transfer learning significantly reduces the QoS fluctuation during traffic variation, and it also contributes to a performance jump-start and presents significant EE improvement under various practical traffic load profiles. Finally, a proof-of-concept is developed to verify the performance of proposed learning policies on a real radio environment and real measurement database of HF band. Results show that proposed multi-armed bandit learning policies using dual criterion (e.g. availability and quality) optimization for opportunistic spectrum access is not only superior in terms of spectrum utilization but also energy efficient. Accès opportuniste au spectre (AOS) Radio Cognitive (RC) Apprentissage par Machine (AM) Apprentissage par Renforcement (AR) Radio Verte Upper Confidence Bound (UCB) Bandit Machot (BM) Opportunistic Spectrum Access Cognitive Radio (CR) Renforcement Learning (RL) Green Radio Upper Confidence Bound (UCB) Multi-armed bandit (MAB)
223	Stratégies optimistes en apprentissage par renforcement Filippi, Sarah 24 November 2010 (has links) (PDF) Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art. [MATH] Mathematics Apprentissage statistique Apprentissage par renforcement Processus de Décisions Markovien Bandit Analyse du Regret Algorithmes model-based optimistes Divergence de Kullback-Leibler
224	Machine Learning and Statistical Decision Making for Green Radio / Apprentissage statistique et prise de décision pour la radio verte Modi, Navikkumar 17 May 2017 (has links) Cette thèse étudie les techniques de gestion intelligente du spectre et de topologie des réseaux via une approche radio intelligente dans le but d’améliorer leur capacité, leur qualité de service (QoS – Quality of Service) et leur consommation énergétique. Les techniques d’apprentissage par renforcement y sont utilisées dans le but d’améliorer les performances d’un système radio intelligent. Dans ce manuscrit, nous traitons du problème d’accès opportuniste au spectre dans le cas de réseaux intelligents sans infrastructure. Nous nous plaçons dans le cas où aucune information n’est échangée entre les utilisateurs secondaires (pour éviter les surcoûts en transmissions). Ce problème particulier est modélisé par une approche dite de bandits manchots « restless » markoviens multi-utilisateurs (multi-user restless Markov MAB -multi¬armed bandit). La contribution principale de cette thèse propose une stratégie d’apprentissage multi-joueurs qui prend en compte non seulement le critère de disponibilité des canaux (comme déjà étudié dans la littérature et une thèse précédente au laboratoire), mais aussi une métrique de qualité, comme par exemple le niveau d’interférence mesuré (sensing) dans un canal (perturbations issues des canaux adjacents ou de signaux distants). Nous prouvons que notre stratégie, RQoS-UCB distribuée (distributed restless QoS-UCB – Upper Confidence Bound), est quasi optimale car on obtient des performances au moins d’ordre logarithmique sur son regret. En outre, nous montrons par des simulations que les performances du système intelligent proposé sont améliorées significativement par l’utilisation de la solution d’apprentissage proposée permettant à l’utilisateur secondaire d’identifier plus efficacement les ressources fréquentielles les plus disponibles et de meilleure qualité. Cette thèse propose également un nouveau modèle d’apprentissage par renforcement combiné à un transfert de connaissance afin d’améliorer l’efficacité énergétique (EE) des réseaux cellulaires hétérogènes. Nous formulons et résolvons un problème de maximisation de l’EE pour le cas de stations de base (BS – Base Stations) dynamiquement éteintes et allumées (ON-OFF). Ce problème d’optimisation combinatoire peut aussi être modélisé par des bandits manchots « restless » markoviens. Par ailleurs, une gestion dynamique de la topologie des réseaux hétérogènes, utilisant l’algorithme RQoS-UCB, est proposée pour contrôler intelligemment le mode de fonctionnement ON-OFF des BS, dans un contexte de trafic et d’étude de capacité multi-cellulaires. Enfin une méthode incluant le transfert de connaissance « transfer RQoS-UCB » est proposée et validée par des simulations, pour pallier les pertes de récompense initiales et accélérer le processus d’apprentissage, grâce à la connaissance acquise à d’autres périodes temporelles correspondantes à la période courante (même heure de la journée la veille, ou même jour de la semaine par exemple). La solution proposée de gestion dynamique du mode ON-OFF des BS permet de diminuer le nombre de BS actives tout en garantissant une QoS adéquate en atténuant les fluctuations de la QoS lors des variations du trafic et en améliorant les conditions au démarrage de l’apprentissage. Ainsi, l’efficacité énergétique est grandement améliorée. Enfin des démonstrateurs en conditions radio réelles ont été développés pour valider les solutions d’apprentissage étudiées. Les algorithmes ont également été confrontés à des bases de données de mesures effectuées par un partenaire dans la gamme de fréquence HF, pour des liaisons transhorizon. Les résultats confirment la pertinence des solutions d’apprentissage proposées, aussi bien en termes d’optimisation de l’utilisation du spectre fréquentiel, qu’en termes d’efficacité énergétique. / Future cellular network technologies are targeted at delivering self-organizable and ultra-high capacity networks, while reducing their energy consumption. This thesis studies intelligent spectrum and topology management through cognitive radio techniques to improve the capacity density and Quality of Service (QoS) as well as to reduce the cooperation overhead and energy consumption. This thesis investigates how reinforcement learning can be used to improve the performance of a cognitive radio system. In this dissertation, we deal with the problem of opportunistic spectrum access in infrastructureless cognitive networks. We assume that there is no information exchange between users, and they have no knowledge of channel statistics and other user's actions. This particular problem is designed as multi-user restless Markov multi-armed bandit framework, in which multiple users collect a priori unknown reward by selecting a channel. The main contribution of the dissertation is to propose a learning policy for distributed users, that takes into account not only the availability criterion of a band but also a quality metric linked to the interference power from the neighboring cells experienced on the sensed band. We also prove that the policy, named distributed restless QoS-UCB (RQoS-UCB), achieves at most logarithmic order regret. Moreover, numerical studies show that the performance of the cognitive radio system can be significantly enhanced by utilizing proposed learning policies since the cognitive devices are able to identify the appropriate resources more efficiently. This dissertation also introduces a reinforcement learning and transfer learning frameworks to improve the energy efficiency (EE) of the heterogeneous cellular network. Specifically, we formulate and solve an energy efficiency maximization problem pertaining to dynamic base stations (BS) switching operation, which is identified as a combinatorial learning problem, with restless Markov multi-armed bandit framework. Furthermore, a dynamic topology management using the previously defined algorithm, RQoS-UCB, is introduced to intelligently control the working modes of BSs, based on traffic load and capacity in multiple cells. Moreover, to cope with initial reward loss and to speed up the learning process, a transfer RQoS-UCB policy, which benefits from the transferred knowledge observed in historical periods, is proposed and provably converges. Then, proposed dynamic BS switching operation is demonstrated to reduce the number of activated BSs while maintaining an adequate QoS. Extensive numerical simulations demonstrate that the transfer learning significantly reduces the QoS fluctuation during traffic variation, and it also contributes to a performance jump-start and presents significant EE improvement under various practical traffic load profiles. Finally, a proof-of-concept is developed to verify the performance of proposed learning policies on a real radio environment and real measurement database of HF band. Results show that proposed multi-armed bandit learning policies using dual criterion (e.g. availability and quality) optimization for opportunistic spectrum access is not only superior in terms of spectrum utilization but also energy efficient. Accès opportuniste au spectre (AOS) Radio Cognitive (RC) Apprentissage par Machine (AM) Apprentissage par Renforcement (AR) Radio Verte Upper Confidence Bound (UCB) Bandit Machot (BM) Opportunistic Spectrum Access Cognitive Radio (CR) Renforcement Learning (RL) Green Radio Upper Confidence Bound (UCB) Multi-armed bandit (MAB)
225	Model-based hyperparameter optimization Crouther, Paul 04 1900 (has links) The primary goal of this work is to propose a methodology for discovering hyperparameters. Hyperparameters aid systems in convergence when well-tuned and handcrafted. However, to this end, poorly chosen hyperparameters leave practitioners in limbo, between concerns with implementation or improper choice in hyperparameter and system configuration. We specifically analyze the choice of learning rate in stochastic gradient descent (SGD), a popular algorithm. As a secondary goal, we attempt the discovery of fixed points using smoothing of the loss landscape by exploiting assumptions about its distribution to improve the update rule in SGD. Smoothing of the loss landscape has been shown to make convergence possible in large-scale systems and difficult black-box optimization problems. However, we use stochastic value gradients (SVG) to smooth the loss landscape by learning a surrogate model and then backpropagate through this model to discover fixed points on the real task SGD is trying to solve. Additionally, we construct a gym environment for testing model-free algorithms, such as Proximal Policy Optimization (PPO) as a hyperparameter optimizer for SGD. For tasks, we focus on a toy problem and analyze the convergence of SGD on MNIST using model-free and model-based reinforcement learning methods for control. The model is learned from the parameters of the true optimizer and used specifically for learning rates rather than for prediction. In experiments, we perform in an online and offline setting. In the online setting, we learn a surrogate model alongside the true optimizer, where hyperparameters are tuned in real-time for the true optimizer. In the offline setting, we show that there is more potential in the model-based learning methodology than in the model-free configuration due to this surrogate model that smooths out the loss landscape and makes for more helpful gradients during backpropagation. / L’objectif principal de ce travail est de proposer une méthodologie de découverte des hyperparamètres. Les hyperparamètres aident les systèmes à converger lorsqu’ils sont bien réglés et fabriqués à la main. Cependant, à cette fin, des hyperparamètres mal choisis laissent les praticiens dans l’incertitude, entre soucis de mise en oeuvre ou mauvais choix d’hyperparamètre et de configuration du système. Nous analysons spécifiquement le choix du taux d’apprentissage dans la descente de gradient stochastique (SGD), un algorithme populaire. Comme objectif secondaire, nous tentons de découvrir des points fixes en utilisant le lissage du paysage des pertes en exploitant des hypothèses sur sa distribution pour améliorer la règle de mise à jour dans SGD. Il a été démontré que le lissage du paysage des pertes rend la convergence possible dans les systèmes à grande échelle et les problèmes difficiles d’optimisation de la boîte noire. Cependant, nous utilisons des gradients de valeur stochastiques (SVG) pour lisser le paysage des pertes en apprenant un modèle de substitution, puis rétropropager à travers ce modèle pour découvrir des points fixes sur la tâche réelle que SGD essaie de résoudre. De plus, nous construisons un environnement de gym pour tester des algorithmes sans modèle, tels que Proximal Policy Optimization (PPO) en tant qu’optimiseur d’hyperparamètres pour SGD. Pour les tâches, nous nous concentrons sur un problème de jouet et analysons la convergence de SGD sur MNIST en utilisant des méthodes d’apprentissage par renforcement sans modèle et basées sur un modèle pour le contrôle. Le modèle est appris à partir des paramètres du véritable optimiseur et utilisé spécifiquement pour les taux d’apprentissage plutôt que pour la prédiction. Dans les expériences, nous effectuons dans un cadre en ligne et hors ligne. Dans le cadre en ligne, nous apprenons un modèle de substitution aux côtés du véritable optimiseur, où les hyperparamètres sont réglés en temps réel pour le véritable optimiseur. Dans le cadre hors ligne, nous montrons qu’il y a plus de potentiel dans la méthodologie d’apprentissage basée sur un modèle que dans la configuration sans modèle en raison de ce modèle de substitution qui lisse le paysage des pertes et crée des gradients plus utiles lors de la rétropropagation. Reinforcement learning Hyperparameter optimization Optimal control Deep learning Meta-learning Model-based reinforcement learning Bilevel optimization Apprentissage par renforcement Optimisation des hyperparamètres Contrôle optimal L'apprentissage en profondeur Méta-apprentissage Optimisation à deux niveaux
226	Domain adaptation in reinforcement learning via causal representation learning Côté-Turcotte, Léa 07 1900 (has links) Les progrès récents en apprentissage par renforcement ont été substantiels, mais ils dépendent souvent de l'accès à l'état. Un état est un ensemble d'informations qui fournit une description concise et complète de l'environnement, englobant tous les détails pertinents nécessaires pour que l'agent puisse prendre des décisions éclairées. Cependant, de telles données détaillées sont rarement disponibles dans les situations réelles. Les images offrent une forme de données plus réaliste et accessible, mais leur complexité pose d'importants défis dans le développement de politiques robustes et efficaces. Les méthodes d'apprentissage de représentation se sont révélées prometteuses pour améliorer l'efficacité des politiques basées sur les données de pixels. Néanmoins, les politiques peinent toujours à généraliser à de nouveaux domaines, rendant l'application de l'apprentissage par renforcement basé sur les pixels impraticable pour des scénarios du monde réel. Cela souligne le besoin urgent de s'attaquer à l'adaptation de domaine dans l'apprentissage par renforcement basé sur les pixels. Cette thèse examine le potentiel de l'apprentissage de représentation causale pour améliorer l'adaptation de domaine dans l'apprentissage par renforcement. L'idée sous-jacente est que pour que les agents s'adaptent efficacement à de nouveaux domaines, ils doivent être capables d'extraire des informations de haut niveau à partir de données brutes et de comprendre les dynamiques causales qui régulent l'environnement. Pour étudier cela, nous évaluons quatre algorithmes distincts d'apprentissage de représentation causale, chacun conçu pour capturer un niveau de structure plus détaillé dans l'espace latent, évaluant leur impact sur la performance d'adaptation de domaine. Le processus implique d'abord d'apprendre une représentation causale puis de former l'agent d'apprentissage par renforcement sur cette représentation. La performance d'adaptation de domaine de ces agents est évaluée dans deux environnements de conduite autonome : CarRacing et CARLA. Nos résultats soutiennent que l'apprentissage d'une représentation latente améliore nettement l'efficacité et la robustesse dans l'apprentissage par renforcement basé sur les pixels. De plus, ils indiquent qu'apprendre une structure causale dans l'espace latent contribue à une meilleure performance d'adaptation de domaine. Cependant, la promesse de la représentation causale pour améliorer l'adaptation de domaine est tempérée par leurs demandes computationnelles substantielles. De plus, lorsque des observations de plusieurs domaines sont disponibles, cette approche ne dépasse pas l'efficacité des méthodes plus simples. Nous avons également trouvé que les agents entraînés sur des représentations qui conservent toutes les informations de l'espace latent ont tendance à surpasser les autres, suggérant que les représentations dissociées sont préférables aux représentations invariantes. / Recent advancements in reinforcement learning have been substantial, but they often depend on access to the state. A state is a set of information that provides a concise and complete description of the environment, encompassing all relevant details necessary for the agent to make informed decisions. However, such detailed data is rarely available in real-world settings. Images present a more realistic and accessible data form, but their complexity introduces considerable challenges in developing robust and efficient policies. Representation learning methods have shown promise in enhancing the efficiency of policies based on pixel data. Nonetheless, policies continue to struggle to generalize to new domains, making the application of pixel-based reinforcement learning impractical for real-world scenarios. This highlights the urgent need to address domain adaptation in pixel-based reinforcement learning. This thesis investigates the potential of causal representation learning in improving domain adaptation in reinforcement learning. The underlying premise is that for reinforcement learning agents to adapt to new domains effectively, they must be able to extract high-level information from raw data and comprehend the causal dynamics that regulate the environment. We evaluate four distinct causal representation learning algorithms, each aimed at uncovering a more intricate level of structure within the latent space, to assess their impact on domain adaptation performance. This involves first learning a causal representation, followed by training the reinforcement learning agent on this representation. The domain adaptation performance of these agents is evaluated within two autonomous driving environments: CarRacing and CARLA. Our results support that learning a latent representation enhances efficiency and robustness in pixel-based RL. Moreover, it indicates that understanding complex causal structures in the latent space leads to improved domain adaptation performance. However, the promise of advanced causal representation in augmenting domain adaptation is tempered by its substantial computational demands. Additionally, when observations from multiple domains are available, this approach does not exceed the effectiveness of simpler methods. We also found that agents trained on representations that retain all information tend to outperform others, suggesting that disentangled representations are preferable to invariant representations. Apprentissage par renforcement Causalité Adaptation de domaines Apprentissage auto-supervisé Apprentissage de représentations Apprentissage de representaions causales Apprentissage automatique Reinforcement learning Causality Domain adaptation Self-supervised learning Representation learning Invariant representation learning Disentangled representation learning Causal representation learning Model-free reinforcement learning Machine learning
227	Performance and strut efficiency factor of concrete deep beams reinforced with GFRP bars / Performance et facteur d'efficacité de la bielle de poutres profondes en béton armé avec des barres de PRFV Mohamed, Khaled Ahmed January 2015 (has links) Abstract : Deep reinforced concrete beams are commonly used as transfer girders or bridge bents, at which its safety is often crucial for the stability of the whole structure. Such elements are exposed to the aggressive environment in northern climates causing steel-corrosion problems due to the excessive use of de-icing salts. Fiber-reinforced polymers (FRP) emerged as non-corroded reinforcing materials to overcome such problems in RC elements. The present study aims to address the applicability of concrete deep beams totally reinforced with FRP bars. Ten full-scale deep beams with dimensions of 1200 × 300 × 5000 mm were constructed and tested to failure under two-point loading. Test variables were shear-span depth ratio (equal to 1.47, 1.13, and 0.83) and different configurations of web reinforcement (including vertical and/or horizontal web reinforcement). Failure of all specimens was preceded by crushing in the concrete diagonal strut, which is the typical failure of deep beams. The test results indicated that, all web reinforcement configurations employed in the tested specimens yielded insignificant effects on the ultimate strength. However, strength of specimens containing horizontal-only web reinforcement were unexpectedly lower than that of specimens without web reinforcement. The web reinforcement’s main contribution was significant crack-width control. The tested specimens exhibited reasonable deflection levels compared to the available steel-reinforced deep beams in the literature. The development of arch action was confirmed through the nearly uniform strain distribution along the length of the longitudinal reinforcement in all specimens. Additionally, the basic assumption of the strut-and-tie model (STM) was adequately used to predict the strain distribution along the longitudinal reinforcement, confirming the applicability of the STM for FRP-reinforced deep beams. Hence, a STM based model was proposed to predict the strength of FRP-reinforced deep beams using the experimental data, in addition to the available experimentally tested FRP-reinforced deep beams in the literature. Assessment of the available STMs in code provisions was conducted identifying the important parameters affecting the strut efficiency factor. The tendency of each parameter (concrete compressive strength, shear span-depth ratio, and strain in longitudinal reinforcement) was individually evaluated against the efficiency factor. Strain energy based calculations were performed to identify the appropriate truss model for detailing FRP-reinforced deep beams, hence, only four specimens with vertical web reinforcement exhibited the formation of two-panel truss model. The proposed model was capable to predict the ultimate capacity of the tested deep beams. The model was also verified against a compilation of a data-base of 172 steel-reinforced deep beams resulting in acceptable level of adequacy. The ultimate capacity and performance of the tested deep beams were also adequately predicted employing a 2D finite element program (VecTor2), which provide a powerful tool to predict the behavior of FRP-reinforced deep beams. The nonlinear finite element analysis was used to confirm some hypotheses associated with the experimental investigations. / Résumé : Les poutres profondes en béton armé (BA) sont couramment utilisées comme poutre de transfert ou coude de pont, comme quoi sa sécurité est souvent cruciale pour la sécurité de l’ensemble de la structure. Ces éléments sont exposés à un environnement agressif dans les climats nordiques causant des problèmes de corrosion de l’acier en raison de l’utilisation excessive de sels de déglaçage. Les polymères renforcés de fibres (PRF) sont apparus comme des matériaux de renforcement non corrodant pour surmonter ces problèmes dans les BA. La présente étude vise à examiner la question de l'applicabilité des poutres profondes en béton complètement renforcées de barres en PRF. Dix poutres profondes à grande échelle avec des dimensions de 1200 × 300 × 5000 mm ont été construites et testées jusqu’à la rupture sous chargement en deux points. Les variables testées comprenaient différents ratios de cisaillement porté/profondeur (égal à 1.47, 1.13 et 0.83) ainsi que différentes configurations d’armature dans l’âme (incluant un renforcement vertical avec ou sans renforcement horizontal). La rupture de tous les spécimens a été précédée par l’écrasement du béton dans le mât diagonal, ce qui est la rupture typique pour les poutres profondes en BA. Les résultats ont révélé que toutes les configurations de renforcement de l’âme employées dans les spécimens d'essais avaient un effet négligeable sur la résistance ultime. Toutefois, la résistance des spécimens contenant uniquement un renforcement horizontal était étonnamment inférieure à celle des spécimens sans renforcement. La contribution principale du renforcement de l’âme était dans le contrôle de la largeur de fissuration. Les spécimens examinés présentaient une déflexion raisonnable par rapport à ce qui est disponible pour les poutres profondes renforcées en acier dans la littérature. Le développement de l'effet d'arche a été confirmé par la distribution quasi uniforme des déformations le long du renforcement longitudinal dans tous les spécimens. En outre, l'hypothèse de base du modèle des bielles et tirants (MBT) a été utilisée adéquatement pour prédire la distribution de déformation le long du renforcement longitudinal, confirmant l'applicabilité du MBT pour les poutres profondes armées de PRF. Par conséquent, un modèle basé sur un MBT a été proposé afin de prédire la résistance des poutres profondes renforcées de PRF en utilisant les données expérimentales en plus de la mise à l'épreuve expérimentalement des poutres profondes renforcées de PRF trouvées dans la littérature. Une évaluation des MTB disponibles dans les dispositions des codes a été menée afin de déterminer les paramètres importants affectant le facteur d'efficacité de la bielle. La tendance de chaque paramètre (la résistance à la compression du béton, le ratio de cisaillement porté/profondeur, et la déformation dans le renforcement longitudinal) a été évaluée individuellement contre le facteur d'efficacité. Des calculs basés sur l’énergie des déformations ont été effectués pour identifier le modèle de treillis approprié afin de détailler les poutres profondes renforcées de PRF. Par conséquent, seulement quatre spécimens avec un renforcement vertical dans l’âme présentaient la formation de modèles avec deux panneaux de treillis. Le modèle proposé a été capable de prédire la capacité ultime des poutres profondes testées. Le modèle a également été vérifié contre une base de données de 172 poutres profondes renforcées en acier aboutissant en un niveau acceptable de pertinence. La capacité ultime et la performance des poutres profondes testées ont été également adéquatement prédites employant un programme d'éléments finis en 2D (VecTor2), ce qui fournira un puissant outil pour prédire le comportement des poutres profondes renforcées de PRF. L'analyse non linéaire par éléments finis a été utilisée afin de confirmer certaines hypothèses associées à l'étude expérimentale. Concrete FRP bars Deep beams Web reinforcement Arch action Strut-an-tie model Efficiency factor FEM Design Shear strength Béton Barres de PRF Poutre profonde Renforcement de l'âme Effet d'arche Bielle et tirant Facteur d'efficacité MEF Conception Résistance au cisaillement
228	Monte Carlo Tree Search pour les problèmes de décision séquentielle en milieu continus et stochastiques Couetoux, Adrien 30 September 2013 (has links) (PDF) Dans cette thèse, nous avons étudié les problèmes de décisions séquentielles, avec comme application la gestion de stocks d'énergie. Traditionnellement, ces problèmes sont résolus par programmation dynamique stochastique. Mais la grande dimension, et la non convexité du problème, amènent à faire des simplifications sur le modèle pour pouvoir faire fonctionner ces méthodes. Nous avons donc étudié une méthode alternative, qui ne requiert pas de simplifications du modèle: Monte Carlo Tree Search (MCTS). Nous avons commencé par étendre le MCTS classique (qui s'applique aux domaines finis et déterministes) aux domaines continus et stochastiques. Pour cela, nous avons utilisé la méthode de Double Progressive Widening (DPW), qui permet de gérer le ratio entre largeur et profondeur de l'arbre, à l'aide de deux méta paramètres. Nous avons aussi proposé une heuristique nommée Blind Value (BV) pour améliorer la recherche de nouvelles actions, en utilisant l'information donnée par les simulations passées. D'autre part, nous avons étendu l'heuristique RAVE aux domaines continus. Enfin, nous avons proposé deux nouvelles méthodes pour faire remonter l'information dans l'arbre, qui ont beaucoup amélioré la vitesse de convergence sur deux cas tests. Une part importante de notre travail a été de proposer une façon de mêler MCTS avec des heuristiques rapides pré-existantes. C'est une idée particulièrement intéressante dans le cas de la gestion d'énergie, car ces problèmes sont pour le moment résolus de manière approchée. Nous avons montré comment utiliser Direct Policy Search (DPS) pour rechercher une politique par défaut efficace, qui est ensuite utilisée à l'intérieur de MCTS. Les résultats expérimentaux sont très encourageants. Nous avons aussi appliqué MCTS à des processus markoviens partiellement observables (POMDP), avec comme exemple le jeu de démineur. Dans ce cas, les algorithmes actuels ne sont pas optimaux, et notre approche l'est, en transformant le POMDP en MDP, par un changement de vecteur d'état. Enfin, nous avons utilisé MCTS dans un cadre de méta-bandit, pour résoudre des problèmes d'investissement. Le choix d'investissement est fait par des algorithmes de bandits à bras multiples, tandis que l'évaluation de chaque bras est faite par MCTS. Une des conclusions importantes de ces travaux est que MCTS en continu a besoin de très peu d'hypothèses (uniquement un modèle génératif du problème), converge vers l'optimum, et peut facilement améliorer des méthodes suboptimales existantes. optimisation apprentissage par renforcement énergie
229	Les bases neuronales de l’apprentissage décisionnel au sein des ganglions de la base : étude électrophysiologique et comportementale chez le primate non humain / The neural bases of decision learning in the basal ganglia : an electrophysiological and behavioral approach in the non-human primate Laquitaine, Steeve 08 November 2010 (has links) Une question fondamentale en neuroscience, ainsi que dans de nombreuses disciplines s’intéressant à la compréhension du comportement, telles que la psychologie, l’Economie, et la sociologie, concerne les processus décisionnels par lesquels les animaux et les humains sélectionnent des actions renforcées positivement ou négativement. Les processus décisionnels ainsi que leur base neuronale demeurent mal compris. D’autre part de nombreuses études ont révélé que les humains ainsi que les animaux prennent souvent des décisions sous-optimales. Notre principal objectif a été de comprendre la raison de ces comportements sous-optimaux. Par ailleurs, l’altération des processus sous-tendant la prise de décision, entraîne des pathologies. La compréhension des mécanismes décisionnels est essentielle au développement de stratégies de traitements plus efficaces. Dans cette étude nous avons proposé une nouvelle approche de l’étude des comportements décisionnels, basée sur l’hétérogénéité des préférences créées au cours de l’apprentissage du choix. Puis nous avons corrélé l’activité du putamen et du globus pallidus interne aux comportements préalablement décrits. Nos résultats montrent que bien que les primates apprennent à identifier la meilleure option et convergent vers une stratégie optimale dans un nombre important de sessions, ils n’arrivent pas en moyenne à optimiser leur comportement. Nous avons montré que ce comportement suboptimal des primates est caractérisé par la création de préférences irrationnelles par ces derniers pour des paramètres non pertinents de l’environnement. Nous avons finalement montré que bien qu’un faible nombre de neurones du putamen encode la valeur de l’action, leur contribution à l’activité de population est faible. L’activité du putamen reflète les futures performances des primates et prédit donc la formation des comportements irrationnels et rationnels. / A fundamental question in neuroscience, as well as in various fields such as economics, psychology and sociology, concerns the decision making processes by which animals and humans select actions based on reward and punishment. Both decision making processes and their neural basis are still poorly understood. Also, both human and animals often make suboptimal decisions in many tasks studied. Our first aim is to improve the understanding of why such sub-optimal decisions are made. Also, the alteration of decision making processes causes diseases, the understanding of whose mechanisms is essential in developing better treatment strategies. In this report, we propose a new approach which consists in extracting the neural substrates of choice behavior heterogeneity in between sessions. Our results show that although primates learn on average to identify the best option and converge to an optimal policy in a consequent number of sessions, they fail on average to optimize their behavior. We revealed that this suboptimal behavior was characterized by an unexpected high behavioral heterogeneity during the task that was due to the creation of irrelevant preferences by the monkeys. We finally show that although a few neurons of the putamen encode the action value, their contribution to the overall population activity is weak. Putamen activity rather reflects the futures performances and predicts the creation of rational and irrational behaviors. Prise de décision Apprentissage par renforcement Préférence Rationalité Exploration-exploitation Ganglion de la base Electrophysiologie Primate non-humain Decision-making Reinforcement learning Preference Rationality Exploration-exploitation trade-off Basal Ganglia Electrophysiology Non-human primate
230	Valorisation économique de la propriété industrielle : cas de l'industrie pharmaceutique en tunisie / Economic valuation of industrial property : tunisian pharmaceutical case Ben gamra, Seima 14 January 2011 (has links) La présente recherche vise à comprendre le processus ou le mécanisme de valorisation de la propriété industrielle aussi bien dans les pays développés que dans les pays en développement suite à la conclusion de l’accord historique ADPIC.L’analyse de données factuelles se rapportant à la protection de la propriété industrielle pharmaceutique en Tunisie nous oriente vers une modélisation possible de l’industrie pharmaceutique tunisienne.La recherche identifie deux voies ou stratégies d’exploitation des brevets : « license in » ou « license out ». Cependant, c’est le dépôt de brevet par les nationaux résidents qui fait défaut en Tunisie dans le domaine pharmaceutique, dominé par les biotechnologies à l’échelle mondiale.Le rapprochement des industries locales avec des partenaires scientifiques internationaux pourrait être une voie possible de valorisation. / We aim in this research to study how to assess the value of a patent in developed countries as well as in emerging ones, mainly according to the TRIPS.Modelization of the pharmaceutical industry in Tunisia has been possible when analyzing data evidence from pharmaceuticals patents in Tunisia.This research identify two strategies to capitalize on patents: « license in » ou « license out ».However, only few local industries in Tunisia are willing to file patents, even ifbiotechnologies dominate global pharmaceutical market.Being in touch with international scientific partners, signing contracts could help to valorize industrial property in Tunisia. Brevet pharmaceutique Propriété industrielle Valorisation industrielle Marché de technologies Adpic Renforcement et harmonisation des DPI Valeur du brevet Pharmaceutical patent Industrial property Industrial development Market of technologies Trips Patent value Intellectual property (IP) management.

Search results