Global ETD Search

1	Caractérisation de la fatigue musculaire, réadaptation à l'effort et qualité de vie chez une population atteinte d'un cancer du sein / Characterization of muscle fatigue, exercise rehabilitation and quality of life in a population with breast cancer Hiraoui, Moadh 22 November 2017 (has links) L'objectif de ce travail était d'étudier les effets combinés d'un entrainement aérobie intermittent supervisé, d'un entrainement de renforcement musculaire et d'électrostimulation et d'un programme de marche continu à domicile, sur l'aptitude cardiorespiratoire, sur la fonction musculaire et la qualité de vie des patientes atteintes d'un cancer du sein au cours de traitement par chimiothérapie adjuvante. Les mesures ont été réalisées avant et après 6 semaines d'entrainement sur un groupe entrainé (n=20), et à 6 semaines d'intervalle sans modification de l'activité physique sur un groupe témoin (n= 12). Par comparaison avec les témoins, la première étude a montré les effets positifs de notre protocole d'entrainement sur l'aptitude aérobie et les besoins métaboliques de nos patientes entrainées. De même, la deuxième étude a révélé les importantes augmentations de la FMVi, du TE lors d'un test isométrique, et de la désoxygénation musculaire ΔHHb, suggérant une amélioration de l'utilisation de l'oxygène au niveau musculaire dans le groupe entrainé après six semaines d'entrainement. Par ailleurs, les résultats de la troisième étude ont confirmé les effets sur la fonction musculaire, en observant une amélioration de l'activité myoélectrique du vaste latéral, caractérisée par la diminution du RMS et l'augmentation du MPF lors de la phase du maintien à 50% de la FMVi, dans le groupe entrainé après les six semaines d'entrainement combiné aérobie et de renforcement musculaire. Enfin, dans la quatrième étude, nous avons observé une amélioration significative de la qualité de vie du groupe entrainé. Cette amélioration est caractérisée d'une part, par une augmentation de la qualité de vie globale et des scores aux échelles fonctionnelles, d'autre part, d'une réduction des scores des échelles de symptômes chez les cancéreuses traitées par chimiothérapie adjuvante / The objective of this investigation was to study the combined effects of supervised intermittent aerobic training, muscle strength training with electrostimulation and a continuous home-walking program, on cardiorespiratory fitness, muscle function and quality of life of patients with breast cancer during adjuvant chemotherapy period. Measurements were performed before and after 6 weeks of training on a trained group (n = 20), and 6 weeks apart without any change in physical activity on a control group (n = 12). Compared to controls, the first study showed the positive effects of our training protocol on the aerobic fitness and metabolic needs of our trained patients. Similarly, the second study revealed significant increases in MViC, ET in an isometric test, and muscle deoxygenating ΔHHb, suggesting an improvement in the use of oxygen in the muscle in the trained group after Six weeks of training. In addition, the results of the third study confirmed the effects on muscular function by observing an improvement in the myoelectric activity of the Vastus lateralis, characterized by the decrease of the RMS and the increase of the MPF during the holding phase of 50% of the MViC, in the trained group after the six weeks combined aerobic training and muscle strengthening. Finally, in the fourth study, we observed a significant improvement in the quality of life of the trained group. This improvement is characterized, on the one hand, by an increase in the overall quality of life and scores at the functional scales, and on the other hand by a reduction in the scores of symptom scales in cancer patients treated with adjuvant chemotherapy Renforcement musculaire Désoxygénation musculaire
2	Apprentissage séquentiel : bandits, statistique et renforcement / Sequential Learning : Bandits, Statistics and Reinforcement Maillard, Odalric-Ambrym 03 October 2011 (has links) Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états. / This thesis studies the following topics in Machine Learning: Bandit theory, Statistical learning and Reinforcement learning. The common underlying thread is the non-asymptotic study of various notions of adaptation : to an environment or an opponent in part I about bandit theory, to the structure of a signal in part II about statistical theory, to the structure of states and rewards or to some state-model of the world in part III about reinforcement learning. First we derive a non-asymptotic analysis of a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit that enables to match, in the case of distributions with finite support, the asymptotic distribution-dependent lower bound known for this problem. Now for a multi-armed bandit with a possibly adaptive opponent, we introduce history-based models to catch some weakness of the opponent, and show how one can benefit from such models to design algorithms adaptive to this weakness. Then we contribute to the regression setting and show how the use of random matrices can be beneficial both theoretically and numerically when the considered hypothesis space has a large, possibly infinite, dimension. We also use random matrices in the sparse recovery setting to build sensing operators that allow for recovery when the basis is far from being orthogonal. Finally we combine part I and II to first provide a non-asymptotic analysis of reinforcement learning algorithms such as Bellman-residual minimization and a version of Least-squares temporal-difference that uses random projections and then, upstream of the Markov Decision Problem setting, discuss the practical problem of choosing a good model of states. Jeux de bandits Apprentissage par renforcement
3	Rôle de la neurotensine dans le phénomène de sensibilisation à la morphine Lévesque, Karine January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Opiacés SR-48692 Locomotion Renforcement Dépendance
4	Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement Geist, Matthieu 09 November 2009 (has links) (PDF) L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de sa configuration est appelé une politique, et la fonction de valeur quantifie donc la qualité de cette politique. Ce parangon est très général, et permet de s'intéresser à un grand nombre d'applications, comme la gestion des flux de gaz dans un complexe sidérurgique, que nous abordons dans ce manuscrit. Cependant, sa mise en application pratique peut être difficile. Notamment, lorsque la description de l'environnement à contrôler est trop grande, une représentation exacte de la fonction de valeur (ou de la politique) n'est pas possible. Dans ce cas se pose le problème de la généralisation (ou de l'approximation de fonction de valeur) : il faut d'une part concevoir des algorithmes dont la complexité algorithmique ne soit pas trop grande, et d'autre part être capable d'inférer le comportement à suivre pour une configuration de l'environnement inconnue lorsque des situations proches ont déjà été expérimentées. C'est le problème principal que nous traitons dans ce manuscrit, en proposant une approche inspirée du filtrage de Kalman. [MATH] Mathematics apprentissage par renforcement filtrage de Kalman
5	Development and optimization of the tufting process for textile composite reinforcement / Contribution à l’étude du piquage pour renforcement des composites Liu, Lingshan 13 June 2017 (has links) Dans plusieurs industries, les composites 3D sont largement utilisés pour fabriquer les pièces composites épaisses et complexes. La technologie de piquage permet de lier des renforts secs ensemble ou de renforcer les composites dans l’épaisseur grâce à des fils structuraux. Cette thèse est consacrée au développement de cette technologie et à l'analyse de l'influence des paramètres de piquage sur les comportements de préformage et les propriétés mécaniques de la préforme et du composite piqués.Le procédé de piquage est décrit dans la thèse. La configuration d'équipement est conçue pour réaliser ce procédé. Les paramètres de piquage peuvent être contrôlés par l'utilisateur. L’influence de la profondeur de piquage sur les propriétés mécaniques des 3D préformes renforcées par le piquage est analysé. Des 3D échantillons composites sont piqués avec des profondeurs de piquage variées. Les résultats d’essais mécaniques en traction et l’analyse microscopique sur la section transverse de l’éprouvette montrent que la profondeur influence fortement les performances mécaniques des composites. Le contrôle de ces paramètres est indispensable pour optimiser l’utilisation du piquage et améliorer les propriétés des renforts assemblés. Les comportements de préformage du renforcement piqué dans le procédé d'emboutissage hémisphérique sont aussi analysés. L'influence des fils de piquage sur l’avalement des plis, le glissement entre les couches et le phénomène de plissement lors de la formation est démontrée. De plus, les orientations du fil de piquage ont affecté les résultats de formage, qui ont conduit à un défaut de désalignement dans la zone où le cisaillement dans le plan est fort. / Three-dimensional fabrics are widely used in several industries to manufacture thicker and more complex composite parts. Tufting technology is employed to bond dry reinforcements together or to reinforce the composites in the thickness by structural yarns. The thesis is dedicated to the development of tufting technology and the analysis of the influence of tufting parameters on preforming behaviours and mechanical properties of tufted preform and composite. The tufting process and the self-designed equipment configuration are described in detail in the thesis. The tufting parameters can be completely controlled by user. Influence of tufting length through the thickness on mechanical properties of 3D tufted preform and composite is analysed in this study. 3D composite samples are prepared with varied tufting length. Tensile tests are carried out to determine the influence of the tuft length on the mechanical performance of tufted samples. The tensile results and microscopic analysis on the cross section of 3D specimen show that the tuft length strongly influences on the mechanical properties of composite. Therefore, the control of these parameters is necessary to optimize the tufting process and thus improve the mechanical performance of assembled thick reinforcements. The preforming behaviours of tufted 3D reinforcement in the hemispherical stamping process are also analysed. The experimental data demonstrates the influence of tufting yarns on the material draw-in, interply sliding, and winkling phenomenon during forming. Furthermore, the orientations of tufting yarn affected the forming results, which leaded to misalignment defect in the zone of strong in-plane shear. Procédé de piquage Préformage Renforcement tridimensionnel 620.118
6	Algorithmes budgétisés d'itérations sur les politiques obtenues par classification / Budgeted classification-based policy iteration Gabillon, Victor 12 June 2014 (has links) Cette thèse étudie une classe d'algorithmes d'apprentissage par renforcement (RL), appelée « itération sur les politiques obtenues par classification » (CBPI). Contrairement aux méthodes standards de RL, CBPI n'utilise pas de représentation explicite de la fonction valeur. CBPI réalise des déroulés (des trajectoires) et estime la fonction action-valeur de la politique courante pour un nombre limité d'états et d'actions. En utilisant un ensemble d'apprentissage construit à partir de ces estimations, la politique gloutonne est apprise comme le produit d'un classificateur. La politique ainsi produite à chaque itération de l'algorithme, n'est plus définie par une fonction valeur (approximée), mais par un classificateur. Dans cette thèse, nous proposons de nouveaux algorithmes qui améliorent les performances des méthodes CBPI existantes, spécialement lorsque le nombre d’interactions avec l’environnement est limité. Nos améliorations se portent sur les deux limitations de CBPI suivantes : 1) les déroulés utilisés pour estimer les fonctions action-valeur doivent être tronqués et leur nombre est limité, créant un compromis entre le biais et la variance dans ces estimations, et 2) les déroulés sont répartis de manière uniforme entre les états déroulés et les actions disponibles, alors qu'une stratégie plus évoluée pourrait garantir un ensemble d'apprentissage plus précis. Nous proposons des algorithmes CBPI qui répondent à ces limitations, respectivement : 1) en utilisant une approximation de la fonction valeur pour améliorer la précision (en équilibrant biais et variance) des estimations, et 2) en échantillonnant de manière adaptative les déroulés parmi les paires d'état-action. / This dissertation is motivated by the study of a class of reinforcement learning (RL) algorithms, called classification-based policy iteration (CBPI). Contrary to the standard RL methods, CBPI do not use an explicit representation for value function. Instead, they use rollouts and estimate the action-value function of the current policy at a collection of states. Using a training set built from these rollout estimates, the greedy policy is learned as the output of a classifier. Thus, the policy generated at each iteration of the algorithm, is no longer defined by a (approximated) value function, but instead by a classifier. In this thesis, we propose new algorithms that improve the performance of the existing CBPI methods, especially when they have a fixed budget of interaction with the environment. Our improvements are based on the following two shortcomings of the existing CBPI algorithms: 1) The rollouts that are used to estimate the action-value functions should be truncated and their number is limited, and thus, we have to deal with bias-variance tradeoff in estimating the rollouts, and 2) The rollouts are allocated uniformly over the states in the rollout set and the available actions, while a smarter allocation strategy could guarantee a more accurate training set for the classifier. We propose CBPI algorithms that address these issues, respectively, by: 1) the use of a value function approximation to improve the accuracy (balancing the bias and variance) of the rollout estimates, and 2) adaptively sampling the rollouts over the state-action pairs. Jeux de bandits Apprentissage par renforcement 006.31
7	Approches par bandit pour la génération automatique de résumés de textes Godbout, Mathieu 02 February 2024 (has links) Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commence ce document en présentant BanditSum, une approche tirée de la litérature et qui voit la génération des résumés d'un ensemble de documents comme un problème de bandit contextuel. Ensuite, on introduit CombiSum, un nouvel algorithme qui formule la génération du résumé d'un seul document comme un bandit combinatoire. En exploitant la formule combinatoire, CombiSum réussit à incorporer la notion du potentiel extractif de chaque phrase à son entraînement. Enfin, on propose LinCombiSum, la variante linéaire de CombiSum qui exploite les similarités entre les phrases d'un document et emploie plutôt la formulation en bandit linéaire combinatoire. / This thesis discusses the use of bandit methods to solve the problem of training extractive abstract generation models. The extractive models, which build summaries by selecting sentences from an original document, are difficult to train because the target summary of a document is usually not built in an extractive way. It is for this purpose that we propose to see the production of extractive summaries as different bandit problems, for which there exist algorithms that can be leveraged for training summarization models.In this paper, BanditSum is first presented, an approach drawn from the literature that sees the generation of the summaries of a set of documents as a contextual bandit problem. Next,we introduce CombiSum, a new algorithm which formulates the generation of the summary of a single document as a combinatorial bandit. By exploiting the combinatorial formulation,CombiSum manages to incorporate the notion of the extractive potential of each sentence of a document in its training. Finally, we propose LinCombiSum, the linear variant of Com-biSum which exploits the similarities between sentences in a document and uses the linear combinatorial bandit formulation instead Résumés automatiques.
8	Planification optimiste pour systèmes déterministes / Optimistic planning for deterministic dystems Hren, Jean-François 21 June 2012 (has links) Dans le domaine de l'apprentissage par renforcement, la planification dans le cas de systèmes déterministes consiste à effectuer une recherche avant grâce à un modèle génératif du système considéré et ce pour trouver l'action à appliquer dans son état courant. Dans notre cas, cette recherche avant conduira à la construction d'un arbre des possibilités, sa racine correspondant à l'état courant du système. Dans le cas où les ressources computationnelles sont limitées et inconnues, il convient d'utiliser un algorithme cherchant à minimiser son regret. Autrement dit, un algorithme retournant une action à effectuer qui soit la plus proche possible de l'optimale en terme de qualité et en fonction des ressources computationnelles. Nous présentons l'algorithme de planification optimiste dans le cas où l'espace d'action est discret. Nous prouvons une borne inférieure et supérieure sur son regret dans le pire des cas ainsi que dans une classe particulière de problèmes. Nous présentons ensuite deux autres algorithmes inspirés de l'approche optimiste dans le cas où l'espace d'action est continu. / In the field of reinforcement learning, planning in the case of deterministic systems consists of doing a forward search using a generative model of the system so as to find the action to apply in its current state. In our case, the forward search leads us to build a look-ahead tree, its root being the current state of the system. If the computational resources are limited and unknown, we have to use an algorithm which tries to minimize its regret. In other words, an algorithm returning an action to apply which is as close as possible to the optimal one in term of quality and with respect to the computational resources used. We present the optimistic planing algorithm in the case of a discrete action space. We prove a lower and upper bound in the worst case and in a particular class of problems. Also we present two algorithms using the optimistic approach but in the case of a continuous action space. Apprentissage par renforcement Bornes supérieure et inférieure Minimisation du regret 006.31
9	Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement / Optimal control of production line in the iron and steel industry : a statistical approach of reinforcement learning Geist, Matthieu 09 November 2009 (has links) L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de sa configuration est appelé une politique, et la fonction de valeur quantifie donc la qualité de cette politique donc la qualité de cette politique. Ce parangon est très général, et permet de s'intéresser à un grand nombre d'applications, comme la gestion des flux de gaz dans un complexe sidérurgique, que nous abordons dans ce manuscrit. Cependant, sa mise en application pratique peut être difficile. Notamment, lorsque la description de l'environnement à contrôler est trop grande, une représentation exacte de la fonction de la valeur (ou de la politique) n'est pas possible. Dans ce cas se pose le problème de la généralisation (ou de l'approximation de fonction de valeur) : il faut d'une part concevoir des algorithmes dont la complexité algorithmique ne soit pas trop grande, et d'autre part être capable d'interférer le comportement à suivre pour une configuration de l'environnement inconnue lorsque des situations proches ont déjà été expérimentées. C'est le problème principal que nous traitons dans ce manuscrit, en proposant une approche inspirée du filtrage de Kalman / Reinforcement learning is the response of machine learning to the problem of optimal control. In this paradigm, an agent learns do control an environment by interacting with it. It receives evenly a numeric reward (or reinforcement signal), which is a local information about the quality of the control. The agent objective is to maximize a cumulative function of these rewards, generally modelled as a so-called value function. A policy specifies the action to be chosen in a particular configuration of the environment to be controlled, and thus the value function quantifies the quality of yhis policy. This paragon is very general, and it allows taking into account many applications. In this manuscript, we apply it to a gas flow management problem in the iron and steel industry. However, its application can be quite difficult. Notably, if the environment description is too large, an exact representation of the value function (or of the policy) is not possible. This problem is known as generalization (or value function approximation) : on the one hand, one has to design algorithms with low computational complexity, and on the other hand, one has to infer the behaviour the agent should have in an unknown configuration of the environment when close configurations have been experimented. This is the main problem we address in this manuscript, by introducing a family of algorithms inspired from Kalman filtering Apprentissage par renforcement Approximation Fonction de valeur Filtrage de Kalman
10	Les femmes déplacées par le conflit en Colombie : l'expérience associative comme levier d'empowerment Ricard-Guay, Alexandra January 2007 (has links) (PDF) Dans ce mémoire, nous avons exploré les stratégies locales de réponse au déplacement forcé entreprises par les personnes déplacées et tout spécialement, par les femmes déplacées en Colombie. Nous avons étudié en quoi l'expérience associative - en tant que stratégie de réponse au déplacement - peut jouer un rôle de levier d'empowerment pour les femmes déplacées. Nous avons limité nos études à une région, le Putumayo. Bien que le déplacement forcé puisse avoir un impact disproportionné sur les femmes, ces dernières semblent toutefois s'adapter plus rapidement à leur nouvel environnement. Elles trouvent de nouveaux espaces à travers des réseaux informels d'appui et de solidarité afin de subvenir aux besoins de leurs familles et de reconstruire leur projet de vie. Le fait de se lier à une organisation de personnes déplacées ou à une organisation communautaire constitue pour plusieurs d'entre elles une des premières étapes dans la formulation de leurs stratégies de réponse au déplacement. Parmi les principaux motifs derrière cette propension à s'organiser, nous identifions : rechercher une stabilisation socio-économique - ce qui peut impliquer la recherche d'un revenu stable, d'un accès à la terre et à un logement - et participer à un espace de socialisation. Pour cette étude exploratoire, nous avons réalisé une enquête terrain dans la région étudiée, le Putumayo, à l'été 2005. Nous y avons réalisé des entrevues, individuelles et de groupe, avec i) des femmes déplacées participant au sein d'organisations, ii) des représentants d ' O N G , d'organisations internationales et du H C R , ainsi que iii) des autorités locales. Nous avons également réalisé des journées d'obervation participative lors d'ateliers de capacitation et de formation auprès de femmes déplacées et non déplacées ; et nous avons participé à des réunions d'organisations de personnes déplacées. Deux constats résultent de notre étude-terrain concernant l'espace associatif de la population déplacée en général tout autant que l'espace associatif des femmes déplacées dans le Putumayo: 1) il y a une non-concordance entre, d'un côté, les objectifs d'empowerment poursuivis par plusieurs organisations présentes dans le Putumayo, via les ateliers de capacitation et le renforcement des capacités organisationnelles de la population déplacée et, de l'autre, les priorités des hommes et des femmes déplacés : 2) cette inadéquation est en grande partie due au fait que deux préalables ne sont souvent pas satisfaits : la sécurité alimentaire et l'accès à une source de revenu stable, autrement dit la stabilisation socio-économique. Cette question interpelle la tension qui existe entre deux types de stratégies d'intervention auprès des personnes déplacées : celles centrées sur les programmes de capacitation et celles axées sur les programmes de stabilisation économique, notamment d'appui à des projets générateurs de revenus. Dans une perspective différenciée selon le genre, on constate quelques particularités concernant l'expérience associative des femmes déplacées par rapport à la population en général. Cette expérience associative peut offrir un espace de socialisation propice à la création de réseau de solidarité et au renforcement de l'estime personnelle, deux vecteurs important du processus d 'empowerment. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Déplacement forcé, Colombie, Genre, Initiatives locales, Empowerment. Femme Guerre Migration forcée Participation sociale Renforcement Responsabilisation Socialisation Colombie

Search results