Global ETD Search

181	Renforcement des matrices polymères et des matériaux composites par des nanoparticules Vivet, Alexandre 15 June 2012 (has links) (PDF) Le fil conducteur de mon activité de recherche est l'étude des interactions entre le procédé de mise en œuvre, la microstructure et les propriétés des matériaux. Depuis 2004, je me suis concentré sur l'incorporation de nanoparticules inorganiques dans des matrices polymères et des matériaux composites composés d'une matrice et d'un renfort fibreux. Plusieurs mots-clés reviennent régulièrement tout le long de ce mémoire. Ils sont l'ossature de mon travail : * mesure de la morphologie et de la dispersion effectives des nanoparticules après mélange dans une matrice. Elles sont rarement prises en compte. En général on se contente de la taille des particules élémentaires sans tenir compte des phénomènes d'agrégation et d'agglomération durant la mise en œuvre. Les techniques d'analyse d'image peuvent apporter des informations micro et nano-scopiques pertinentes pour expliquer des comportements macroscopiques jugés au premier abord aberrants ; * modélisation des microstructures. L'augmentation des moyens de calcul permet d'envisager des simulations à grande échelle par dynamique moléculaire mais elles sont encore très couteuses. L'utilisation de la mécanique des milieux continus, à une échelle bien en-deçà des hypothèses fondatrices, est une solution alternative et pertinente du point de vue du ratio qualité/temps de calcul ; * comportement sous sollicitations mécaniques. Le but final de ces nouveaux matériaux est l'allègement des structures. Il est donc essentiel de connaître et d'être capable de prévoir leurs comportements sous sollicitations afin d'alimenter correctement les concepteurs de systèmes et de produits intégrant ces matériaux. Les essais mécaniques à l'échelle macroscopique restent aujourd'hui le meilleur moyen de déterminer ces lois de comportement. A ceci s'ajoute le développement d'essais mécaniques originaux nécessaires pour étudier ces matériaux aux structures et propriétés nouvelles. nanoparticule composite modélisation de microstructure renforcement mécanique
182	Approche à base d'agents pour l'ingénierie et le contrôle de micro-réseaux Basso, Gillian 09 December 2013 (has links) (PDF) La gestion d'énergie est un sujet de plus en plus important dans notre société. Nous faisons actuellement face à un nombre croissant de problèmes tels que l'épuisement des réserves pétrolières, le réchauffement climatique ou encore la diminution de la qualité de l'énergie (principalement due aux coupures pendant les pics de consommation). Les smartgrids sont une des solutions à ces problèmes. En ajoutant une communication bidirectionnelle et de nouvelles capacités en matière de technologies de l'information et de la communication, il est possible de créer un système autonome de gestion intelligente de l'énergie.Les travaux décrits dans ce mémoire s'intéressent particulièrement à la gestion des microgrids à l'aide de systèmes multi-agents (SMA). Les microgrids sont des réseaux de faibles puissances, composés de petits producteurs d'énergie décentralisés (éventuellement renouvelables) et de consommateurs. Ces réseaux peuvent être reliés (ou non) au réseau global ce qui ajoute à leur complexité. De par leurs complexités et leurs répartitions géographiques, les smartgrids, comme les microgrids, ne peuvent pas être gérés facilement par des systèmes centralisés. Les intelligences artificielles distribuées et plus particulièrement les SMA apparaissent comme un moyen cohérent de résoudre les problèmes liés aux smartgrids.Dans un premier temps, nous avons défini une approche mettant en oeuvre des boucles de rétroaction. Une boucle de rétroaction apparaît dans les systèmes complexes qui peuvent être définis avec plusieurs niveaux d'abstraction. Deux niveaux sont ainsi en interaction. Le niveau micro regroupe un ensemble d'agents ayant des comportements qui, une fois combinés, influeront sur l'état du système. Le niveau macro traite ces influences pour définir un nouvel état du système qui influera sur le comportement des agents du niveau micro. Cette boucle de rétroaction permet de séparer les comportements sur plusieurs niveaux.Cette approche est utilisée pour définir un problème de gestion offre-demande dans un microgrid. Ce problème permet de prendre en compte un ensemble d'objectifs qui sont actuellement traités de manière indépendante. Enfin, une application utilisant un SMA a été développée. Cette approche peut s'intégrer dans ce problème. Elle a pour but d'assurer la stabilité du réseau à tout instant grâce au contrôle de systèmes de stockage.Dans un second temps, un simulateur de réseau électrique permettant le contrôle dynamique des périphériques a été développé. Ce simulateur repose sur trois grands principes. Le premier est une modélisation à base d'agents du simulateur lui-même, pour représenter la complexité des réseaux électriques. Le second principe repose sur l'utilisation du paradigme holonique afin de prendre en compte les multiples niveaux inhérents aux réseaux électriques. Enfin, le troisième principe est inspiré du modelé influence/réaction et propose une technique qui permet de gérer les actions simultanées, éventuellement conflictuelles, au sein des SMA. Smart grid Microgrid Système multi-agent Simulation boucle de rétroaction Apprentissage par renforcement
183	L’évolution des procédures décisionnelles du Parlement européen : 1952-1986 / The Evolution of Decision Procedures of the European Parliament : 1952-1986 Shim, Sung-Eun 01 June 2015 (has links) Le Parlement européen (PE) n’a occupé en 1957 qu’une place secondaire, ce qui entraînait une grande déception auprès des parlementaires, mettant en cause ses pouvoirs consultatifs qui ne portait qu’un sens symbolique. En valorisant la démocratie et la séparation des pouvoirs, le PE pourrait sortir de l’impasse à travers l’exploitation maximale de la procédure consultative. Jusqu’à l’Acte unique européen, le champ d’application de la consultation ne cesse de s’élargir. Idem pour l’augmentation des revendications du respect de son droit d’information et de consultation envers le Conseil. Le manque de moyens juridiques de contraindre le Conseil à accepter les avis du PE, qui se voient systématiquement refusés, nécessite le changement de position parlementaire dans les années 70 dans les relations entre les deux institutions. Les nouvelles procédures à effets juridiques, telles que la reconsultation, le droit d’approbation sur les accords internationaux et la codécision, ont été revendiquées, pourtant de manière irrégulière. Les mesures pour le renforcement des pouvoirs budgétaires se voient s’adopter, de sorte qu’elles favorisent non seulement le contrôle parlementaire en la matière, mais aussi le renforcement des pouvoirs dans les questions non-budgétaires : les pouvoirs législatifs. Le droit d’information et le pouvoir de consultation sur les activités budgétaires, ainsi que le contrôle effectif sur les budgets et leurs dépenses, font eux aussi l’objet de revendications parlementaires. Le Conseil européen et la Cour des comptes étaient également invoquées comme destinataires de ces revendications afin de persuader le Conseil et la Commission. Cette présente analyse démontre que le PE, tel qu’il est aujourd’hui, est un résultat de la collaboration dans les premières décennies avec les autres institutions et les grandes figures des États membres, lesquels jouent un rôle important pour orienter la discussion dans les Communautés. / The nature of the secondary place reserved for the European Parliament (EP) in 1957 brought about a big disappointment of the European representatives and critics of its consultative powers only of, then, symbolic significance. Putting emphasis on the principles of democracy and separation of powers, the EP attempted to come out of impasse by using at maximum the consultative procedures. Until the Single European Act, the demands of the EP on respect for information and consultation obligation by the Council continue to increase. Also was asserted an extended application of consultative procedure to the issues, for which the EP had not been obligatorily consulted by the Council. Lack of legal means to make the Council accept the opinions and demands of the EP, which had scarcely been adopted by the Council, can explain the position change of the EP during the 70s vis-à-vis the Council and the Commission. The new procedures with legal effects, such as re-consultation, the power of approbation regarding of international agreements and co-decision, have been insisted, but not consistently.Reinforcement of the EP’s budgetary powers aimed not only at enhancement of parliamentary control in the budgetary activities of the European Communities, but also at reinforcement of non-budgetary powers: legislative powers. The parliamentary demands for the respect by the Council of information and consultation obligations and for effective control over budgets and expenditures were part of the EP’s struggles to be justly recognized in the map of European political institutions. When the European Council and the Court of Auditors were also addressed the sort of demands, the EP aimed to persuade thereby the Council and the Commission.This present analysis shows that the EP, as is today, is a result of the collaboration with other institutions and important figures of the Member States, which played an important role to guide the discussion in the Communities. Résolutions parlementaires Renforcement de pouvoirs Pouvoirs budgétaires Pouvoirs législatifs Procédure de consultation Parlement européen Resolution of the European Parliament Reinforcement of powers Budgetary powers Legislative powers Consultation procedure European Parliament 320
184	Le contrôle juridictionnel du respect par les États membres des droits fondamentaux garantis par l'Union européenne / Judicial review of compliance by Member States regarding the fundamental rights guaranteed by the European Union Mainnevret, Romain 11 December 2017 (has links) La présente thèse démontre l’existence d’un véritable contrôle juridictionnel du respect par les États membres des droits fondamentaux garantis par l’Union européenne. Elle repose principalement sur le raisonnement selon lequel le contrôle juridictionnel s’est renforcé, en lien avec le processus d’intégration caractérisant le système juridique de l’Union. Le droit français est étudié en tant que droit constitutif de ce système. Historiquement, la Cour de justice a commencé à produire les normes de référence du contrôle par le biais du renvoi préjudiciel. Ce contrôle a émergé progressivement, il a un champ d’application fondé sur celui du droit de l’Union. Ce dernier est, par principe, son périmètre d’exercice. Indissociable de ces bases jurisprudentielles, le contrôle juridictionnel connait un renforcement global qui a pour caractéristique d’être intégratif. Cette évolution s’engage par l’entrée en vigueur du traité de Lisbonne et la force juridique contraignante qu’il confère à la Charte des droits fondamentaux. Il en résulte la consécration du contrôle juridictionnel dans le droit « dispositionnel ». Ce renforcement se poursuit par un élargissement du contrôle, initié par ce traité et produit par différents juges du système juridique de l’Union. Le contrôle opéré par les juges de droit commun se développe incontestablement, tandis que la Cour de justice a peu l’occasion d’intervenir dans le cadre du recours en manquement. De nouveaux organes de contrôle apparaissent avec leurs singularités. Il s’agit du juge constitutionnel et de la Cour européenne des droits de l’homme. / This thesis demonstrates the existence of a genuine judicial review of compliance by Member States regarding fundamental rights guaranteed by the European Union. It is based mainly on the reasoning that this control has been reinforced, in line with the integration process characterizing the Union's legal system; French law, as a constituent right of this system, is studied. Historically, the Court of Justice started to produce the reference standards for control by means of the reference for a preliminary ruling, allowing them to progressively emerge, adhering to the scope of EU law. This framework is, in principle, the scope of its exercise. The integrative strengthening of the review, inseparable from these legal bases, entails the entry into force of the Treaty of Lisbon and the binding legal force of the Charter of Fundamental Rights.. The recognition of review in “dispositional” law is a strong illustration of this. It has continued with this expansion, initiated by this treaty, and also brought about by different judges within the Union’s legal system. This has weakened the principle of its exercise within the scope of the Union’s law. Furthermore, this strengthening has been amplified by an overall consolidation of the courts’ review function. Indeed, it’s common law judges – in principle, ordinary national judges – who operate as a review on developments, in particular; a contrario, the Court of Justice has not had much of a chance to do so within the framework of this action, failing to fulfil its obligations. Yet, - the demonstration continues – new review bodies emerge. These will be the constitutional judge, and in the longer term, the European Court of Human Rights. Droits fondamentaux Système juridique Intégration normative et fonctionnelle Renforcement intégratif - normative and functional integration European Union Fundamental rights Legal system Ius commune 341.242
185	Modèle profond pour le contrôle vocal adaptatif d'un habitat intelligent / Deep model for adaptive vocal control of a smart home Brenon, Alexis 14 December 2017 (has links) Les habitats intelligents, résultants de la convergence de la domotique, de l'informatique ubiquitaire et de l'intelligence artificielle, assistent leurs habitants dans les situations du quotidien pour améliorer leur qualité de vie.En permettant aux personnes dépendantes et âgées de rester à domicile plus longtemps, ces habitats permettent de fournir une première réponse à des problèmes de société comme la dépendance due au vieillissement de la population.En nous plaçant dans un habitat contrôlé par la voix, l'habitat doit répondre aux requêtes d’un utilisateur concernant un ensemble d’actions pouvant être automatisées (contrôle des lumières, des volets, des dispositifs multimédia, etc.).Pour atteindre cet objectif, le système de contrôle de l'habitat a besoin de prendre en compte le contexte dans lequel un ordre est donné mais également de connaitre les habitudes et préférences de l’utilisateur.Pour cela, le système doit pouvoir agréger les informations issues du réseau de capteurs domotiques hétérogènes et prendre en compte le comportement (variable) de l'utilisateur.La mise au point de systèmes de contrôle intelligent d'un habitat est particulièrement ardue du fait de la grande variabilité concernant aussi bien la topologie des habitats que les habitudes des utilisateurs.Par ailleurs, l'ensemble des informations contextuelles doivent être représentées dans un référentiel commun dans un objectif de raisonnement et de prise de décision.Pour répondre à ces problématiques, nous proposons de développer un système qui d'une part modifie continuellement son modèle de manière à s'adapter à l'utilisateur, et qui d'autre part utilise directement les données issues des capteurs à travers une représentation graphique. L'intérêt et l'originalité de cette méthode sont de ne pas nécessiter d'inférence pour déterminer le contexte.Notre système repose ainsi sur une méthode d'apprentissage par renforcement profond qui couple un réseau de neurones profond du type convolutif permettant l'extraction de données contextuelles, avec un mécanisme d'apprentissage par renforcement pour la prise de décision.Ce mémoire présente alors deux systèmes, un premier reposant uniquement sur l'apprentissage par renforcement et montrant les limites de cette approche sur des environnements réels pouvant comporter plusieurs milliers d'états possibles.L'introduction de l'apprentissage profond a permis la mise au point du second système, ARCADES, dont les bonnes performances montrent la pertinence d'une telle approche, tout en ouvrant de nombreuses voies d'améliorations. / Smart-homes, resulting of the merger of home-automation, ubiquitous computing and artificial intelligence, support inhabitants in their activity of daily living to improve their quality of life.Allowing dependent and aged people to live at home longer, these homes provide a first answer to society problems as the dependency tied to the aging population.In voice controlled home, the home has to answer to user's requests covering a range of automated actions (lights, blinds, multimedia control, etc.).To achieve this, the control system of the home need to be aware of the context in which a request has been done, but also to know user habits and preferences.Thus, the system must be able to aggregate information from a heterogeneous home-automation sensors network and take the (variable) user behavior into account.The development of smart home control systems is hard due to the huge variability regarding the home topology and the user habits.Furthermore, the whole set of contextual information need to be represented in a common space in order to be able to reason about them and make decisions.To address these problems, we propose to develop a system which updates continuously its model to adapt itself to the user and which uses raw data from the sensors through a graphical representation.This new method is particularly interesting because it does not require any prior inference step to extract the context.Thus, our system uses deep reinforcement learning; a convolutional neural network allowing to extract contextual information and reinforcement learning used for decision-making.Then, this memoir presents two systems, a first one only based on reinforcement learning showing limits of this approach against real environment with thousands of possible states.Introduction of deep learning allowed to develop the second one, ARCADES, which gives good performances proving that this approach is relevant and opening many ways to improve it. Habitat intelligent Prise de décision en contexte Apprentissage par renforcement Apprentissage profond Smart home Decision system Context aware Reinforcement learning Deep learning 004
186	Apprentissage actif sous contrainte de budget en robotique et en neurosciences computationnelles. Localisation robotique et modélisation comportementale en environnement non stationnaire / Active learning under budget constraint in robotics and computational neuroscience. Robotic localization and behavioral modeling in non-stationary environment Aklil, Nassim 27 September 2017 (has links) La prise de décision est un domaine très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. En neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. En robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant en robotique ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont souvent pas prises en compte à l’heure actuelle. Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite. Dans le but d’envisager un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot. / Decision-making is a highly researched field in science, be it in neuroscience to understand the processes underlying animal decision-making, or in robotics to model efficient and rapid decision-making processes in real environments. In neuroscience, this problem is resolved online with sequential decision-making models based on reinforcement learning. In robotics, the primary objective is efficiency, in order to be deployed in real environments. However, in robotics what can be called the budget and which concerns the limitations inherent to the hardware, such as computation times, limited actions available to the robot or the lifetime of the robot battery, are often not taken into account at the present time. We propose in this thesis to introduce the notion of budget as an explicit constraint in the robotic learning processes applied to a localization task by implementing a model based on work developed in statistical learning that processes data under explicit constraints, limiting the input of data or imposing a more explicit time constraint. In order to discuss an online functioning of this type of budgeted learning algorithms, we also discuss some possible inspirations that could be taken on the side of computational neuroscience. In this context, the alternation between information retrieval for location and the decision to move for a robot may be indirectly linked to the notion of exploration-exploitation compromise. We present our contribution to the modeling of this compromise in animals in a non-stationary task involving different levels of uncertainty, and we make the link with the methods of multi-armed bandits. Apprentissage par renforcement Apprentissage budgétisé Apprentissage profond Neurosciences computationnelles Compromis exploration/exploitation Policy gradient Budgeted learning Computational neuroscience Deep learning 629.89
187	Shaping robot behaviour with unlabeled human instructions / Façonnage de comportement robotique basé sur des signaux instructifs non labellisées Najar, Anis 30 March 2017 (has links) La plupart des systèmes d'apprentissage interactifs actuels s'appuient sur des protocoles prédéfinis qui peuvent être contraignants pour l'utilisateur. Cette thèse aborde le problème de l'interprétation des instructions, afin de relâcher la contrainte de prédéterminer leurs significations. Nous proposons un système permettant à un humain de guider l'apprentissage d'un robot, à travers des instructions non labellisées. Notre approche consiste à ancrer la signification des signaux instructifs dans le processus d'apprentissage de la tâche et à les utiliser simultanément pour guider l'apprentissage. Cette approche offre plus de liberté à l'humain dans le choix des signaux qu'il peut utiliser, et permet de réduire les efforts d'ingénierie en supprimant la nécessité d'encoder la signification de chaque signal instructif.Nous implémentons notre système sous la forme d'une architecture modulaire, appelée TICS, qui permet de combiner différentes sources d'information: une fonction de récompense, du feedback évaluatif et des instructions non labellisées. Cela offre une plus grande souplesse dans l'apprentissage, en permettant à l'utilisateur de choisir entre différents modes d'apprentissage. Nous proposons plusieurs méthodes pour interpréter les instructions, et une nouvelle méthode pour combiner les feedbacks évaluatifs avec une fonction de récompense prédéfinie.Nous évaluons notre système à travers une série d'expériences, réalisées à la fois en simulation et avec de vrais robots. Les résultats expérimentaux démontrent l'efficacité de notre système pour accélérer le processus d'apprentissage et pour réduire le nombre d'interactions avec l'utilisateur. / Most of current interactive learning systems rely on predeﬁned protocols that constrain the interaction with the user. Relaxing the constraints of interaction protocols can therefore improve the usability of these systems.This thesis tackles the question of interpreting human instructions, in order to relax the constraints about predetermining their meanings. We propose a framework that enables a human teacher to shape a robot behaviour, by interactively providing it with unlabeled instructions. Our approach consists in grounding the meaning of instruction signals in the task learning process, and using them simultaneously for guiding the latter. This approach has a two-fold advantage. First, it provides more freedom to the teacher in choosing his preferred signals. Second, it reduces the required engineering efforts, by removing the necessity to encode the meaning of each instruction signal. We implement our framework as a modular architecture, named TICS, that offers the possibility to combine different information sources: a predeﬁned reward function, evaluative feedback and unlabeled instructions. This allows for more ﬂexibility in the teaching process, by enabling the teacher to switch between different learning modes. Particularly, we propose several methods for interpreting instructions, and a new method for combining evaluative feedback with a predeﬁned reward function. We evaluate our framework through a series of experiments, performed both in simulation and with real robots. The experimental results demonstrate the effectiveness of our framework in accelerating the task learning process, and in reducing the number of required interactions with the teacher. Apprentissage interactif Interaction homme-robot Façonnage Feedbacks évaluatifs Instructions non labellisées Apprentissage par renforcement Interactive learning systems Evaluative feedback Reinforcement learning 629.8
188	Evaluation du systéme Nb-Ti-Al + Si : influence de la composition chimique et du dopage au silicium sur les transformations de phase / Evaluation of the Nb-Ti-Al + Si system : influence of the chemical composition et silicon doping ont the phase transformations Sikorav, Laurence 15 December 2017 (has links) Les alliages intermétalliques réfractaires à base de niobium sont considérés comme ayant un bon potentiel pour les applications à haute température grâce à un bon compromis entre une bonne résistance à haute température et une bonne ductilité à température ambiante. En outre, cette famille d'alliages présente également un point de fusion élevé et une faible densité. De ce fait, ils sont de bons candidats pour les applications dans les aubes de turbine à basse pression pour une plage de température comprise entre 800 et 1000 ° C. Le but de cette étude est d'étudier les changements de composition chimique, en particulier la précipitation de phase O-Ti2AlNb et les effets d'addition de silicium sur les microstructures et les propriétés mécaniques à haute température. L’étude commence par une première prospective sur les alliages montrant le plus de potentiel pour les applications visées. Les alliages étudiés doivent présenter un bon équilibre entre ductilité induite par le titane qui empêche la précipitation de la phase d-Nb3Al fragile, et une quantité élevée de niobium pour maintenir de bonnes propriétés mécaniques à haute température. Les alliages étudiés sont dopés avec 1 %at Si pour améliorer la résistance aux températures élevées et maintenir une ductilité acceptable à température ambiante. Nous nous intéressons également à l’influence des teneurs en aluminium et silicium sur les transformations de phase. Le système est renforcé par mise en ordre A2 ? B2, par effet de solution solide ou par durcissement structural de la phase O-Ti2AlNb. La cinétique de précipitation de cette phase O-Ti2AlNb est dépendante de la composition chimique. En particulier l’ajout de silicium permet un élargissement du domaine de précipitation et accélère sa cinétique de précipitation. / Niobium based refractory intermetallic alloys are considered as having great potentials for high temperature applications based on a good balance of high temperature strength and low-temperature damage tolerance. Moreover this family of alloys also exhibits a high melting point and a low density; hence they are good candidates for low pressure turbine blade applications over the temperature range of 800–1000 °C. The aim of this study is to investigate the chemical composition changes, especially the O-Ti2AlNb phase precipitation and the silicon addition effects on the microstructures and high temperature mechanical properties. This study starts with a first prospective on the chemical compositions of alloys showing the highest potential for applications wanted. The studied alloys show a good balance between the ductility at room temperature induced by titanium which stopped the fragile intermetallic d-Nb3Al precipitation; and a high niobium content to maintain good high temperature mechanical properties. Two alloys are doped with 1 %at Si to improve high temperature strength and keep an acceptable ductility at room temperature. The result indicates on the more promising alloy chemical composition. We also investigate the influence of aluminum and silicon content on phase transformation. The system is reinforced by chemical ordering A2 ? B2, by solid solution or by precipitation hardening of O-Ti2AlNb. The kinetic of precipitation of this O-Ti2AlNb relied on the chemical composition. In particular, the addition of silicon enlarges the O-Ti2AlNb precipitation domain and accelerates the kinetic of precipitation. Système Nb-Ti-Al Renforcement en température O-Ti2AlNb T-T-T Simulation thermodynamiques Nb-Ti-Al system O-Ti2AlNb High temperature reinforcement 546.3
189	Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain / Intracerebral dynamics of human reinforcement learning Gueguen, Maëlle 01 December 2017 (has links) Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissage par récompenses et celui par évitement des punitions. Le but de cette thèse était d’étudier la dynamique cérébrale de l’apprentissage par renforcement chez l’homme. Pour ce faire, nous avons utilisé des enregistrements intracérébraux réalisés chez des patients épileptiques pharmaco-résistants pendant qu’ils réalisaient une tâche d’apprentissage probabiliste. Dans les deux premières études, nous avons d’investigué la dynamique de l’encodage des signaux de renforcement, et en particulier à celui des erreurs de prédiction des récompenses et des punitions. L’enregistrement de potentiels de champs locaux dans le cortex a mis en évidence le rôle central de l’activité à haute-fréquence gamma (50-150Hz). Les résultats suggèrent que le cortex préfrontal ventro-médian est impliqué dans l’encodage des erreurs de prédiction des récompenses alors que pour l’insula antérieure, le cortex préfrontal dorsolatéral sont impliqués dans l’encodage des erreurs de prédiction des punitions. De plus, l’activité neurale de l’insula antérieure permet de prédire la performance des patients lors de l’apprentissage. Ces résultats sont cohérents avec l’existence d’une dissociation au niveau cortical pour le traitement des renforcements appétitifs et aversifs lors de la prise de décision. La seconde étude a permis d’étudier l’implication de deux noyaux limbiques du thalamus au cours du même protocole cognitif. L’enregistrement de potentiels de champs locaux a mis en évidence le rôle des activités basse fréquence thêta dans la détection des renforcements, en particulier dans leur dimension aversive. Dans une troisième étude, nous avons testé l’influence du risque sur l’apprentissage par renforcement. Nous rapportons une aversion spécifique au risque lors de l’apprentissage par évitement des punitions ainsi qu’une diminution du temps de réaction lors de choix risqués permettant l’obtention de récompenses. Cela laisse supposer un comportement global tendant vers une aversion au risque lors de l’apprentissage par évitement des punitions et au contraire une attirance pour le risque lors de l’apprentissage par récompenses, suggérant que les mécanismes d’encodage du risque et de la valence pourraient être indépendants. L’amélioration de la compréhension des mécanismes cérébraux sous-tendant la prise de décision est importante, à la fois pour mieux comprendre les déficits motivationnels caractérisant plusieurs pathologies neuropsychiatriques, mais aussi pour mieux comprendre les biais décisionnels que nous pouvons exhiber. / We make decisions every waking day of our life. Facing our options, we tend to pick the most likely to get our expected outcome. Taking into account our past experiences and their outcome is mandatory to identify the best option. This cognitive process is called reinforcement learning. To date, the underlying neural mechanisms are debated. Despite a consensus on the role of dopaminergic neurons in reward processing, several hypotheses on the neural bases of reinforcement learning coexist: either two distinct opposite systems covering cortical and subcortical areas, or a segregation of neurons within brain regions to process reward-based and punishment-avoidance learning.This PhD work aimed to identify the brain dynamics of human reinforcement learning. To unravel the neural mechanisms involved, we used intracerebral recordings in refractory epileptic patients during a probabilistic learning task. In the first study, we used a computational model to tackle the brain dynamics of reinforcement signal encoding, especially the encoding of reward and punishment prediction errors. Local field potentials exhibited the central role of high frequency gamma activity (50-150Hz) in these encodings. We report a role of the ventromedial prefrontal cortex in reward prediction error encoding while the anterior insula and the dorsolateral prefrontal cortex encoded punishment prediction errors. In addition, the magnitude of the neural response in the insula predicted behavioral learning and trial-to-trial behavioral adaptations. These results are consistent with the existence of two distinct opposite cortical systems processing reward and punishments during reinforcement learning. In a second study, we recorded the neural activity of the anterior and dorsomedial nuclei of the thalamus during the same cognitive task. Local field potentials recordings highlighted the role of low frequency theta activity in punishment processing, supporting an implication of these nuclei during punishment-avoidance learning. In a third behavioral study, we investigated the influence of risk on reinforcement learning. We observed a risk-aversion during punishment-avoidance, affecting the performance, as well as a risk-seeking behavior during reward-seeking, revealed by an increased reaction time towards appetitive risky choices. Taken together, these results suggest we are risk-seeking when we have something to gain and risk-averse when we have something to lose, in contrast to the prediction of the prospect theory.Improving our common knowledge of the brain dynamics of human reinforcement learning could improve the understanding of cognitive deficits of neurological patients, but also the decision bias all human beings can exhibit. Apprentissage par renforcement StéréoEEG Oscillations cérébrales Insula antérieure Thalamus Cortex orbitofrontal Reinforcement learning StereoEEG Brain oscillations Anterior insula Thalamus Orbitofrintal cortex 570 610 150
190	Apprentissage automatique en ligne pour un dialogue homme-machine situé / Online learning for situated human-machine dialogue Ferreira, Emmanuel 14 December 2015 (has links) Un système de dialogue permet de doter la Machine de la capacité d'interagir de façon naturelle et efficace avec l'Homme. Dans cette thèse nous nous intéressons au développement d'un système de dialogue reposant sur des approches statistiques, et en particulier du cadre formel des Processus Décisionnel de Markov Partiellement Observable, en anglais Partially Observable Markov Decision Process (POMDP), qui à ce jour fait office de référence dans la littérature en ce qui concerne la gestion statistique du dialogue. Ce modèle permet à la fois une prise en compte améliorée de l'incertitude inhérente au traitement des données en provenance de l'utilisateur (notamment la parole) et aussi l'optimisation automatique de la politique d'interaction à partir de données grâce à l'apprentissage par renforcement, en anglais Reinforcement Learning (RL). Cependant, une des problématiques liées aux approches statistiques est qu'elles nécessitent le recours à une grande quantité de données d'apprentissage pour atteindre des niveaux de performances acceptables. Or, la collecte de telles données est un processus long et coûteux qui nécessite généralement, pour le cas du dialogue, la réalisation de prototypes fonctionnels avec l'intervention d'experts et/ou le développement de solution alternative comme le recours à la simulation d'utilisateurs. En effet, très peu de travaux considèrent à ce jour la possibilité d'un apprentissage de la stratégie de la Machine de part sa mise en situation de zéro (sans apprentissage préalable) face à de vrais utilisateurs. Pourtant cette solution présente un grand intérêt, elle permet par exemple d'inscrire le processus d'apprentissage comme une partie intégrante du cycle de vie d'un système lui offrant la capacité de s'adapter à de nouvelles conditions de façon dynamique et continue. Dans cette thèse, nous nous attacherons donc à apporter des solutions visant à rendre possible ce démarrage à froid du système mais aussi, à améliorer sa capacité à s'adapter à de nouvelles conditions (extension de domaine, changement d'utilisateur,...). Pour ce faire, nous envisagerons dans un premier temps l'utilisation de l'expertise du domaine (règles expertes) pour guider l'apprentissage initial de la politique d'interaction du système. De même, nous étudierons l'impact de la prise en compte de jugements subjectifs émis par l'utilisateur au fil de l'interaction dans l'apprentissage, notamment dans un contexte de changement de profil d'utilisateur où la politique préalablement apprise doit alors pouvoir s'adapter à de nouvelles conditions. Les résultats obtenus sur une tâche de référence montrent la possibilité d'apprendre une politique (quasi-)optimale en quelques centaines d'interactions, mais aussi que les informations supplémentaires considérées dans nos propositions sont à même d'accélérer significativement l'apprentissage et d'améliorer la tolérance aux bruits dans la chaîne de traitement. Dans un second temps nous nous intéresserons à réduire les coûts de développement d'un module de compréhension de la parole utilisé dans l'étiquetage sémantique d'un tour de dialogue. Pour cela, nous exploiterons les récentes avancées dans les techniques de projection des mots dans des espaces vectoriels continus conservant les propriétés syntactiques et sémantiques, pour généraliser à partir des connaissances initiales limitées de la tâche pour comprendre l'utilisateur. Nous nous attacherons aussi à proposer des solutions afin d'enrichir dynamiquement cette connaissance et étudier le rapport de cette technique avec les méthodes statistiques état de l'art. Là encore nos résultats expérimentaux montrent qu'il est possible d'atteindre des performances état de l'art avec très peu de données et de raffiner ces modèles ensuite avec des retours utilisateurs dont le coût peut lui-même être optimisé. / A dialogue system should give the machine the ability to interactnaturally and efficiently with humans. In this thesis, we focus on theissue of the development of stochastic dialogue systems. Thus, we especiallyconsider the Partially Observable Markov Decision Process (POMDP)framework which yields state-of-the-art performance on goal-oriented dialoguemanagement tasks. This model enables the system to cope with thecommunication ambiguities due to noisy channel and also to optimize itsdialogue management strategy directly from data with Reinforcement Learning (RL)methods.Considering statistical approaches often requires the availability of alarge amount of training data to reach good performance. However, corpora of interest are seldom readily available and collectingsuch data is both time consuming and expensive. For instance, it mayrequire a working prototype to initiate preliminary experiments with thesupport of expert users or to consider other alternatives such as usersimulation techniques.Very few studies to date have considered learning a dialogue strategyfrom scratch by interacting with real users, yet this solution is ofgreat interest. Indeed, considering the learning process as part of thelife cycle of a system offers a principle framework to dynamically adaptthe system to new conditions in an online and seamless fashion.In this thesis, we endeavour to provide solutions to make possible thisdialogue system cold start (nearly from scratch) but also to improve its ability to adapt to new conditions in operation (domain extension, new user profile, etc.).First, we investigate the conditions under which initial expertknowledge (such as expert rules) can be used to accelerate the policyoptimization of a learning agent. Similarly, we study how polarized userappraisals gathered throughout the course of the interaction can beintegrated into a reinforcement learning-based dialogue manager. Morespecifically, we discuss how this information can be cast intosocially-inspired rewards to speed up the policy optimisation for bothefficient task completion and user adaptation in an online learning setting.The results obtained on a reference task demonstrate that a(quasi-)optimal policy can be learnt in just a few hundred dialogues,but also that the considered additional information is able tosignificantly accelerate the learning as well as improving the noise tolerance.Second, we focus on reducing the development cost of the spoken language understanding module. For this, we exploit recent word embedding models(projection of words in a continuous vector space representing syntacticand semantic properties) to generalize from a limited initial knowledgeabout the dialogue task to enable the machine to instantly understandthe user utterances. We also propose to dynamically enrich thisknowledge with both active learning techniques and state-of-the-artstatistical methods. Our experimental results show that state-of-the-artperformance can be obtained with a very limited amount of in-domain andin-context data. We also show that we are able to refine the proposedmodel by exploiting user returns about the system outputs as well as tooptimize our adaptive learning with an adversarial bandit algorithm tosuccessfully balance the trade-off between user effort and moduleperformance.Finally, we study how the physical embodiment of a dialogue system in a humanoid robot can help the interaction in a dedicated Human-Robotapplication where dialogue system learning and testing are carried outwith real users. Indeed, in this thesis we propose an extension of thepreviously considered decision-making techniques to be able to take intoaccount the robot's awareness of the users' belief (perspective taking)in a RL-based situated dialogue management optimisation procedure. Système de dialogue situé Apprentissage par renforcement en ligne Prise de perspective Situated dialogue system Online reinforcement learning Zero-Shot learning Perspective-taking

Search results