Global ETD Search

81	Learning competitive ensemble of information-constrained primitives Sodhani, Shagun 07 1900 (has links) No description available. Reinforcement Learning Hierarchical Reinforcement Learning Information Bottleneck Compositionality Modular network Apprentissage par renforcement Goulot d'étranglement de l'information Compositionnalité Réseaux modulaires
82	Lifelong learning of concepts in CRAFT Vasishta, Nithin Venkatesh 08 1900 (has links) La planification à des niveaux d’abstraction plus élevés est essentielle lorsqu’il s’agit de résoudre des tâches à long horizon avec des complexités hiérarchiques. Pour planifier avec succès à un niveau d’abstraction donné, un agent doit comprendre le fonctionnement de l’environnement à ce niveau particulier. Cette compréhension peut être implicite en termes de politiques, de fonctions de valeur et de modèles, ou elle peut être définie explicitement. Dans ce travail, nous introduisons les concepts comme un moyen de représenter et d’accumuler explicitement des informations sur l’environnement. Les concepts sont définis en termes de transition d’état et des conditions requises pour que cette transition ait lieu. La simplicité de cette définition offre flexibilité et contrôle sur le processus d’apprentissage. Étant donné que les concepts sont de nature hautement interprétable, il est facile d’encoder les connaissances antérieures et d’intervenir au cours du processus d’apprentissage si nécessaire. Cette définition facilite également le transfert de concepts entre différents domaines. Les concepts, à un niveau d’abstraction donné, sont intimement liés aux compétences, ou actions temporellement abstraites. Toutes les transitions d’état suffisamment importantes pour être représentées par un concept se produisent après l’exécution réussie d’une compétence. En exploitant cette relation, nous introduisons un cadre qui facilite l’apprentissage tout au long de la vie et le raffinement des concepts à différents niveaux d’abstraction. Le cadre comporte trois volets: Le sytème 1 segmente un flux d’expérience (par exemple une démonstration) en une séquence de compétences. Cette segmentation peut se faire à différents niveaux d’abstraction. Le sytème 2 analyse ces segments pour affiner et mettre à niveau son ensemble de concepts, lorsqu’applicable. Le sytème 3 utilise les concepts disponibles pour générer un graphe de dépendance de sous-tâches. Ce graphe peut être utilisé pour planifier à différents niveaux d’abstraction. Nous démontrons l’applicabilité de ce cadre dans l’environnement hiérarchique 2D CRAFT. Nous effectuons des expériences pour explorer comment les concepts peuvent être appris de différents flux d’expérience et comment la qualité de la base de concepts affecte l’optimalité du plan général. Dans les tâches avec des dépendances de sous-tâches complexes, où la plupart des algorithmes ne parviennent pas à se généraliser ou prennent un temps impraticable à converger, nous démontrons que les concepts peuvent être utilisés pour simplifier considérablement la planification. Ce cadre peut également être utilisé pour comprendre l’intention d’une démonstration donnée en termes de concepts. Cela permet à l’agent de répliquer facilement la démonstration dans différents environnements. Nous montrons que cette méthode d’imitation est beaucoup plus robuste aux changements de configuration de l’environnement que les méthodes traditionnelles. Dans notre formulation du problème, nous faisons deux hypothèses: 1) que nous avons accès à un ensemble de compétences suffisamment exhaustif, et 2) que notre agent a accès à des environnements de pratique, qui peuvent être utilisés pour affiner les concepts en cas de besoin. L’objectif de ce travail est d’explorer l’aspect pratique des concepts d’apprentissage comme moyen d’améliorer la compréhension de l’environnement. Dans l’ensemble, nous démontrons que les concepts d’apprentissage / Planning at higher levels of abstraction is critical when it comes to solving long horizon tasks with hierarchical complexities. To plan successfully at a given level of abstraction, an agent must have an understanding of how the environment functions at that particular level. This understanding may be implicit in terms of policies, value functions, and world models, or it can be defined explicitly. In this work, we introduce concepts as a means to explicitly represent and accumulate information about the environment. Concepts are defined in terms of a state transition and the conditions required for that transition to take place. The simplicity of this definition offers flexibility and control over the learning process. Since concepts are highly interpretable in nature, it is easy to encode prior knowledge and intervene during the learning process if necessary. This definition also makes it relatively straightforward to transfer concepts across different domains wherever applicable. Concepts, at a given level of abstraction, are intricately linked to skills, or temporally abstracted actions. All the state transitions significant enough to be represented by a concept occur only after the successful execution of a skill. Exploiting this relationship, we introduce a framework that aids in lifelong learning and refining of concepts across different levels of abstraction. The framework has three components: - System 1 segments a stream of experience (e.g. a demonstration) into a sequence of skills. This segmentation can be done at different levels of abstraction. - System 2 analyses these segments to refine and upgrade its set of concepts, whenever applicable. - System 3 utilises the available concepts to generate a sub-task dependency graph. This graph can be used for planning at different levels of abstraction We demonstrate the applicability of this framework in the 2D hierarchical environment CRAFT. We perform experiments to explore how concepts can be learned from different streams of experience, and how the quality of the concept base affects the optimality of the overall plan. In tasks with complex sub-task dependencies, where most algorithms fail to generalise or take an impractical amount of time to converge, we demonstrate that concepts can be used to significantly simplify planning. This framework can also be used to understand the intention of a given demonstration in terms of concepts. This makes it easy for the agent to replicate a demonstration in different environments. We show that this method of imitation is much more robust to changes in the environment configurations than traditional methods. In our problem formulation, we make two assumptions: 1) that we have access to a sufficiently exhaustive set of skills, and 2) that our agent has access to practice environments, which can be used to refine concepts when needed. The objective behind this work is to explore the practicality of learning concepts as a means to improve one’s understanding about the environment. Overall, we demonstrate that learning concepts can be a light-weight yet efficient way to increase the capability of a system. Skill Segmentation Demonstration Segmentation Concept Learning Planning Hierarchical Reinforcement Learning Reinforcement Learning Segmentation des compétences Segmentation de démonstration Apprentissage conceptuel Planification Apprentissage par renforcement
83	Reinforcement learning applied to the real world : uncertainty, sample efficiency, and multi-agent coordination Mai, Vincent 12 1900 (has links) L'immense potentiel des approches d'apprentissage par renforcement profond (ARP) pour la conception d'agents autonomes a été démontré à plusieurs reprises au cours de la dernière décennie. Son application à des agents physiques, tels que des robots ou des réseaux électriques automatisés, est cependant confrontée à plusieurs défis. Parmi eux, l'inefficacité de leur échantillonnage, combinée au coût et au risque d'acquérir de l'expérience dans le monde réel, peut décourager tout projet d'entraînement d'agents incarnés. Dans cette thèse, je me concentre sur l'application de l'ARP sur des agents physiques. Je propose d'abord un cadre probabiliste pour améliorer l'efficacité de l'échantillonnage dans l'ARP. Dans un premier article, je présente la pondération BIV (batch inverse-variance), une fonction de perte tenant compte de la variance du bruit des étiquettes dans la régression bruitée hétéroscédastique. La pondération BIV est un élément clé du deuxième article, où elle est combinée avec des méthodes de pointe de prédiction de l'incertitude pour les réseaux neuronaux profonds dans un pipeline bayésien pour les algorithmes d'ARP avec différences temporelles. Cette approche, nommée apprentissage par renforcement à variance inverse (IV-RL), conduit à un entraînement nettement plus rapide ainsi qu'à de meilleures performances dans les tâches de contrôle. Dans le troisième article, l'apprentissage par renforcement multi-agent (MARL) est appliqué au problème de la réponse rapide à la demande, une approche prometteuse pour gérer l'introduction de sources d'énergie renouvelables intermittentes dans les réseaux électriques. En contrôlant la coordination de plusieurs climatiseurs, les agents MARL obtiennent des performances nettement supérieures à celles des approches basées sur des règles. Ces résultats soulignent le rôle potentiel que les agents physiques entraînés par MARL pourraient jouer dans la transition énergétique et la lutte contre le réchauffement climatique. / The immense potential of deep reinforcement learning (DRL) approaches to build autonomous agents has been proven repeatedly in the last decade. Its application to embodied agents, such as robots or automated power systems, is however facing several challenges. Among them, their sample inefficiency, combined to the cost and the risk of gathering experience in the real world, can deter any idea of training embodied agents. In this thesis, I focus on the application of DRL on embodied agents. I first propose a probabilistic framework to improve sample efficiency in DRL. In the first article, I present batch inverse-variance (BIV) weighting, a loss function accounting for label noise variance in heteroscedastic noisy regression. BIV is a key element of the second article, where it is combined with state-of-the-art uncertainty prediction methods for deep neural networks in a Bayesian pipeline for temporal differences DRL algorithms. This approach, named inverse-variance reinforcement learning (IV-RL), leads to significantly faster training as well as better performance in control tasks. In the third article, multi-agent reinforcement learning (MARL) is applied to the problem of fast-timescale demand response, a promising approach to the manage the introduction of intermittent renewable energy sources in power-grids. As MARL agents control the coordination of multiple air conditioners, they achieve significantly better performance than rule-based approaches. These results underline to the potential role that DRL trained embodied agents could take in the energetic transition and the fight against global warming. Uncertainty estimation Estimation d'incertitude Multi agent reinforcement learning Apprentissage par renforcement profond Deep reinforcement learning Heteroscedastic regression Régression hétéroscédastique Demand response Régulation de fréquence Réseau électrique Power grid
84	Nanocomposites modèles silice-latex : Etude des propriétés rhéologiques et de la structure des charges et des chaînes par Diffusion de Neutrons aux Petits Angles. Tatou, Mouna 29 November 2010 (has links) (PDF) Pour comprendre les mécanismes microscopiques du renforcement dans les nanocomposites, nous avons mis en œuvre un système nanocomposite modèle composé de nanoparticules de silice incorporées dans une matrice du copolymère PMMA/PBuA faite par filmification d'un latex. La formation des échantillons se fait par évaporation du solvant - l'eau – du système colloïdal mixte latex et silice. La structure de la charge peut être contrôlée par le pH en solution et la fraction volumique de la silice. La combinaison de diffusion de neutrons aux petits angles et microscopie électronique à transmission nous a permis d'établir un diagramme du nombre d'agrégation de la silice. Les tests mécaniques en traction uni-axiale sur des échantillons de structure définie nous ont donné accès à la relation entre la structure des charges et la rhéologie des nanocomposites. L'augmentation du nombre d'agrégation moyen augmente le renforcement du module de Young, et mène à une rupture précoce des films. Un optimum entre fort renforcement et grande déformation avant rupture peut être trouvé en s'intéressant à l'énergie de rupture. Lorsque l'on étudie la structure des chaînes dans les nanocomposites, il faut créer le contraste moyen nul pour la silice en introduisant des chaînes deutériées D. Nous avons pu suivre l'interdiffusion des chaînes H et D durant le recuit dans deux systèmes. Pour suivre la dissolution des billes de latex dans le polymère fondu, nous avons mis en place une modélisation quantitative des données structurales. Elle montre que la présence de la silice limite la mobilité des chaînes dans les nanocomposites. Nanocomposites Microstructure Rhéologie Structure des chaînes Renforcement Interdiffusion de chaînes marquées DNPA
85	Analyse et Réduction de la Vulnérabilité Sismique des Structures Existantes : Renforcement par Collage de Tissus de Fibres de Carbone (TFC) Desprez, Cédric 21 July 2010 (has links) (PDF) La réduction de la vulnérabilité sismique des structures existantes est un enjeu majeur. Le renforcement d'éléments par Tissus de Fibres de Carbone (TFC) offre une réponse intéressante à cette problématique. Ces travaux proposent une stratégie simplifiée de modélisation non linéaire permettant de prédire le comportement d'une structure en béton armé renforcée par TFC. Celle-ci est fondée sur l'utilisation d'éléments finis poutres multifibres ainsi que de modèles d'endommagement et de plasticité. Le confortement d'éléments en flexion et le confinement des poteaux sont étudiés. Plus spécifiquement une loi constitutive cyclique pour béton confiné est proposée. Cette loi est fondée sur deux modèles, le premier basé sur la théorie de l'endommagement et le second sur une série d'études expérimentales. Cette approche est validée à travers deux cas d'études : une pile de pont renforcée et une analyse de vulnérabilité d'un ouvrage sous sollicitations statiques (poussée progressive) et dynamiques. [SPI] Engineering Sciences Renforcement TFC Béton armé Béton confiné Modélisation numérique Poutre multifibres Vulnérabilité sismique Chargement sismique Génie parasismique
86	Nanocomposites Silice/polymère : structure des charges, renforcement mécanique, conformation des chaînes et évolution sous déformation Jouault, Nicolas 03 November 2009 (has links) (PDF) L'amélioration des propriétés physiques des matériaux polymères par des charges nanométriques est un enjeu permanent tant d'un point de vue fondamental qu'industriel. Le renforcement mécanique dans les nanocomposites est du à deux contributions : la qualité de la dispersion des charges et la nature de l'interaction charge/polymère. Toutefois ses deux mécanismes sont difficiles à décorreler et l'enjeu expérimental est de synthétiser des systèmes modèles permettant d'étudier ces deux effets séparément. En optimisant nos conditions de préparations nous avons synthétisé des nanocomposites modèles constitués de particules de silice dispersées dans un polymère amorphe (Polystyrène PS ou Polymèthylméthacrylate PMMA). En combinant des techniques de diffusion du rayonnement aux petits angles (X et neutrons) avec de la microscopie électronique en transmission (MET) nous avons pu caractériser l'arrangement spatial des charges sur plusieurs échelles de tailles caractéristiques (du nanomètre à plusieurs microns). Parallèlement à cette caractérisation structurale nous avons étudié les propriétés mécaniques des nanocomposites sur une large gamme de déformation. Les résultats obtenus montrent qu'à haute concentration en particules nous observons une corrélation directe entre l'augmentation du module élastique avec la formation d'un réseau connecté de petits agrégats de particules. Aux faibles concentrations en particules, lorsque les agrégats sont très éloignés les uns des autres (non connectés), une transition de type solide est mesurée mettant ainsi en évidence une contribution non structurale du matériau à la sollicitation mécanique, attribuée à des modifications à longues portées de la dynamique des chaînes de polymère ou de la conformation des chaînes. La conformation des chaînes a été étudiée par DNPA et n'est pas affectée par la présence des charges. Enfin l'évolution de la structure et de la conformation a été suivie par DXPA et DNPA mettant en évidence certaines hétérogénéités dans le champ de déformation. nanocomposites structure renforcement mécanique conformation diffusion aux petits angles déformation
87	Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images Nguyen, Nhu Van 09 September 2011 (has links) (PDF) En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps. Recherche d'images multimodale Annotation interactive d'images Retour de pertinence Représentation de concepts Apprentissage par renforcement
88	Modélisation stochastique pour le raisonnement médical et ses applications à la télémédecine Rose, Cédric 27 May 2011 (has links) (PDF) La télémédecine est une approche nouvelle de la pratique médicale qui est particulièrement porteuse d'espoir face à l'enjeu sociétal posé par l'incidence croissante des maladies chroniques et l'évolution de la démographie médicale. Le développement de la télésurveillance médicale réalisée grâce au recueil de données physiologiques ou biologiques au domicile du patient implique de développer nos capacités à analyser un volume important de données. Le problème auquel s'intéresse cette thèse est d'établir ou d'apprendre automatiquement la fonction qui lie les données fournies par les capteurs à l'état de santé du patient. La difficulté principale tient à ce qu'il est difficile et souvent impossible d'établir de manière sûre l'état de santé d'un patient, la seule référence disponible étant alors celle que peut donner le médecin traitant. Nous montrons dans cette thèse que la modélisation stochastique et plus particulièrement le formalisme graphique bayésien permet d'aborder cette question sous trois angles complémentaires. Le premier est celui de la représentation explicite de l'expertise médicale. Cette approche est adaptée aux situations dans lesquelles les données ne sont pas accessibles et où il est donc nécessaire de modéliser directement la démarche du médecin. La seconde approche envisagée est celle de l'apprentissage automatique des paramètres du modèles lorsque suffisamment de données sur les sorties attendues sont disponibles. Nous nous intéressons enfin à la possibilité d'apprendre les actions pertinentes par renforcement sous les contraintes de la problématique médicale à savoir d'après l'observation de l'expert dans sa pratique normale. Nous étudions plus spécifiquement l'utilisation de la vraisemblance du modèle pour apprendre une représentation pertinente de l'espace d'états. [INFO] Computer Science Intelligence artificielle Modélisation stochastique Réseaux bayésiens dynamiques Apprentissage par renforcement Télémédecine Dialyse ECG Marche
89	Etude de l'estérification de la cellulose par une synthèse sans solvant.<br />Application aux matériaux nanocomposites. Berlioz, Sophie 17 December 2007 (has links) (PDF) L'estérification est une méthode connue pour contourner les difficultés liées à la mise en œuvre de la cellulose (faible compatibilité avec les matériaux apolaires, agrégation, hydrophilie). Notre étude a ainsi porté sur le développement d'un procédé en phase gazeuse (sans solvant) permettant le greffage de chlorure d'acide gras sur les hydroxyles de la cellulose. L'étude de cette réaction s'est faite à différentes échelles: de la fibre aux whiskers de cellulose. En premier lieu, le procédé a été étudié pour l'hydrophobisation du papier. Le développement d'une modélisation en parallèle des résultats expérimentaux a permis d'appréhender les cinétiques de diffusion et de greffage impliquées. L'estérification a ensuite été élargie à des substrats possédant de plus grandes surfaces spécifiques : les microfibrilles issues de pâte de bois, les whiskers (coton, tunicier) et la cellulose bactérienne. Les mesures du degré d'avancement de la réaction par RMN du solide et par gravimétrie ont montré que la densité de greffage était influencée non seulement par les conditions expérimentales mais également par la nature des substrats. Sous certaines conditions, une substitution pratiquement complète est possible. Les changements de morphologie et de structure induits par la réaction ont été étudiés par diffraction des rayons X, microscopie électronique à transmission et calorimétrie différentielle à balayage. Des caractérisations par analyse mécanique dynamique (DMTA) et par des tests de traction ont montré que l'incorporation de microfibrilles dérivatisées permet une amélioration significative des propriétés mécaniques d'un polyéthylène sans diminution majeure de sa résilience. estérification cellulose microfibrilles whiskers de cellulose synthèse sans<br />solvant renforcement des matériaux composites
90	Interactions polymère/silice : de la structure locale au renforcement mécanique d'hydrogels hybrides Rose, Séverine 14 June 2013 (has links) (PDF) Nous étudions les relations structure/propriétés d'hydrogels contenant des nanoparticules inorganiques. Les interactions spécifiques existant entre le poly(N,N-diméthylacrylamide) et des nanoparticules de silice sont à l'origine d'un fort renforcement mécanique des hydrogels, tant en termes de raideur que de résistance à la fracture. L'impact de l'introduction de nanoparticules de silice a été étudié d'un point de vue structural, thermodynamique et mécanique. Une étude détaillée des propriétés mécaniques des hydrogels hybrides à différentes échelles de temps a révélé une forte dépendance à la vitesse de sollicitation. Une modélisation du caractère viscoélastique de tels réseaux hybrides a été proposée et confrontée aux résultats expérimentaux, visant à décrire le comportement de ces doubles réseaux. Par ailleurs, une étude par techniques de diffusion de la lumière a été menée afin de caractériser la dynamique des nanoparticules de silice au sein des réseaux de polymère gonflés. Il a été démontré que le renforcement général des propriétés des hydrogels par les nanoparticules de silice est contrôlé par la dynamique de l'association PDMA/silice. [CHIM:MATE] Chimie/Matériaux hydrogels hybrides nanoparticules de silice interactions spécifiques renforcement mécanique diffusion de la lumière diffusion de neutrons

Search results