• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 165
  • 109
  • 49
  • 26
  • 14
  • Tagged with
  • 407
  • 312
  • 308
  • 282
  • 282
  • 248
  • 204
  • 197
  • 197
  • 194
  • 194
  • 150
  • 125
  • 112
  • 99
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
171

On the VC-dimension of Tensor Networks

Khavari, Behnoush 01 1900 (has links)
Les méthodes de réseau de tenseurs (TN) ont été un ingrédient essentiel des progrès de la physique de la matière condensée et ont récemment suscité l'intérêt de la communauté de l'apprentissage automatique pour leur capacité à représenter de manière compacte des objets de très grande dimension. Les méthodes TN peuvent par exemple être utilisées pour apprendre efficacement des modèles linéaires dans des espaces de caractéristiques exponentiellement grands [1]. Dans ce manuscrit, nous dérivons des limites supérieures et inférieures sur la VC-dimension et la pseudo-dimension d'une grande classe de Modèles TN pour la classification, la régression et la complétion . Nos bornes supérieures sont valables pour les modèles linéaires paramétrés par structures TN arbitraires, et nous dérivons des limites inférieures pour les modèles de décomposition tensorielle courants (CP, Tensor Train, Tensor Ring et Tucker) montrant l'étroitesse de notre borne supérieure générale. Ces résultats sont utilisés pour dériver une borne de généralisation qui peut être appliquée à la classification avec des matrices de faible rang ainsi qu'à des classificateurs linéaires basés sur l'un des modèles de décomposition tensorielle couramment utilisés. En corollaire de nos résultats, nous obtenons une borne sur la VC-dimension du classificateur basé sur le matrix product state introduit dans [1] en fonction de la dimension de liaison (i.e. rang de train tensoriel), qui répond à un problème ouvert répertorié par Cirac, Garre-Rubio et Pérez-García [2]. / Tensor network (TN) methods have been a key ingredient of advances in condensed matter physics and have recently sparked interest in the machine learning community for their ability to compactly represent very high-dimensional objects. TN methods can for example be used to efficiently learn linear models in exponentially large feature spaces [1]. In this manuscript, we derive upper and lower bounds on the VC-dimension and pseudo-dimension of a large class of TN models for classification, regression and completion. Our upper bounds hold for linear models parameterized by arbitrary TN structures, and we derive lower bounds for common tensor decomposition models (CP, Tensor Train, Tensor Ring and Tucker) showing the tightness of our general upper bound. These results are used to derive a generalization bound which can be applied to classification with low-rank matrices as well as linear classifiers based on any of the commonly used tensor decomposition models. As a corollary of our results, we obtain a bound on the VC-dimension of the matrix product state classifier introduced in [1] as a function of the so-called bond dimension (i.e. tensor train rank), which answers an open problem listed by Cirac, Garre-Rubio and Pérez-García [2].
172

Incorporating health factors into food recommendation : experiments on real-world data from a weight-loss app

Ling, Yabo 03 1900 (has links)
Les systèmes de recommandation typiques tentent d'imiter les comportements passés des utilisateurs pour faire des recommandations futures. Par exemple, dans le domaine des recommandations alimentaires, ces algorithmes de recommandation apprennent généralement d'abord l'historique de consommation de l'utilisateur, puis recommandent les aliments que l'utilisateur préfère. Bien qu'il existe de nombreux systèmes de recommandation d'aliments proposés dans la littérature, la plupart d'entre eux sont généralement des applications directes des algorithmes de recommandation génériques sur des ensembles de données alimentaires. Nous pensons que pour le problème de la recommandation alimentaire, les connaissances spécifiques au domaine joueraient un rôle vital dans la réussite d'un recommandeur alimentaire. Cependant, la plupart des modèles existants n'intègrent pas ces connaissances. Pour résoudre ce problème, dans cet article, nous intégrons des facteurs liés à la santé (tels que l'IMC des utilisateurs, les changements de poids sous-jacents, les calories des aliments candidats et les variétés d'aliments) dans des modèles de recommandations alimentaires séquentielles pour les utilisateurs qui souhaitent mieux gérer leur alimentation et poids. Les changements de poids sous-jacents des utilisateurs sont également traités comme leurs objectifs ou leurs intentions (perdre, maintenir ou prendre du poids). Le modèle proposé devrait adapter en douceur le flux d'articles recommandé vers l'objectif des utilisateurs en tenant compte des préférences de consommation et des facteurs de santé antérieurs de l'utilisateur. Pour étudier les meilleures stratégies pour incorporer des facteurs de santé spécifiques à un domaine dans les recommandations alimentaires, dans cette étude, nous proposons deux approches de modélisation: la recommandation du prochain article et la recommandation du prochain panier. Ces deux méthodes prennent la séquence passée d'aliments (noms d'aliments et calories) consommés par un utilisateur comme entrée et produisent une liste classée d'aliments pour le prochain aliment (Next-item) ou le lendemain (Next-basket). En outre, les recommandations de base sont améliorées sur la base des approches de pointe de chaque approche de modélisation, qui sont respectivement GRU4Rec~\cite{GRU4Rec} et LSTM hiérarchique. Pour étudier l'impact des facteurs de santé et ajuster le modèle vers un objectif, nous construisons des sous-modèles spécifiques pour chaque groupe d'utilisateurs en fonction de l'IMC et de l'intention. À savoir, les utilisateurs sont regroupés en obèses, en surpoids, normaux, sous-pondérés selon l'IMC. Leurs données (par semaines) sont segmentées en semaines de perte/gain/maintien de poids en fonction du changement de poids au cours de la semaine. Cette dernière segmentation vise à saisir les habitudes de consommation alimentaire liées au poids, qui est traité comme l'intention sous-jacente de l'utilisateur. Un modèle général formé sur l'ensemble des données historiques mixtes devrait capturer les habitudes générales de consommation alimentaire de tous les utilisateurs, tandis qu'un sous-modèle formé sur l'ensemble spécifique de données pour l'IMC et l'intention capture celles des groupes ou semaines correspondants. Pour un utilisateur au sein d'un groupe d'IMC et avec l'intention de changer de poids, nous appliquons le sous-modèle spécifique, combiné avec le modèle général, pour la recommandation alimentaire. Nos modèles sont formés sur une grande quantité de données de comportement alimentaire d'utilisateurs réels à partir d'une application de gestion du poids, où nous pouvons observer la consommation alimentaire quotidienne et le poids corporel de plusieurs utilisateurs. Lorsque nous combinons le modèle complet général avec les modèles spécifiques à l'IMC et spécifiques à l'intention avec un coefficient approprié, nous observons des améliorations significatives par rapport aux performances du modèle général basé à la fois sur la recommandation de l'article suivant et sur la recommandation du panier suivant. De plus, les sous-modèles spécifiques à l'IMC et spécifiques à l'intention se sont avérés utiles, ce qui donne de meilleurs résultats que le modèle complet général, tandis que les sous-modèles spécifiques à l'IMC ont plus d'impact que le modèle spécifique à l'intention. En pratique, pour un utilisateur qui a l'intention de perdre du poids, le système peut appliquer le modèle de résultat Perte de poids (avec l'IMC correspondant) à l'utilisateur. Cela tend à ajuster en douceur le modèle général de recommandation vers cet objectif. En outre, le niveau d'ajustement pourrait être contrôlé par le coefficient de combinaison de modèles. En d'autres termes, avec un coefficient plus élevé, le sous-modèle spécifique aura un impact plus important sur la prédiction du classement final des aliments, ce qui implique que le système donnera la priorité à la réalisation de l'objectif de l'utilisateur plutôt qu'à l'imitation de ses habitudes alimentaires précédentes. Cette stratégie est plus efficace que de toujours recommander certains types d'aliments hypocaloriques, qui ne sont pas appréciés par l'utilisateur. L'intention est alignée sur le résultat de poids réel au lieu de l'intention indiquée par l'utilisateur. Ce dernier s'avère beaucoup moins performant dans nos expérimentations. / Typical recommender systems try to mimic the past behaviors of users to make future recommendations. For example, in the food recommendation domain, those recommenders typically first learn the user’s previous consumption history and then recommend the foods the user prefers. Although there are lots of food recommender systems proposed in the literature, most of them are usually some direct applications of generic recommendation algorithms on food datasets. We argue that for the food recommendation problem, domain-specific knowledge would play a vital role in a successful food recommender. However, most existing models fail to incorporate such knowledge. To address this issue, in this paper, we incorporate health-related factors (such as users’ BMI, underlying weight changes, calories of the candidate food items, and food varieties) in sequential food recommendation models for users who want to better manage their body weight. The users' underlying weight changes are also as treated as their goals or intents (either losing, maintaining, or gaining weight). The proposed model is expected to smoothly adapt the recommended item stream toward the users’ goal by considering the user’s previous consumption preferences and health factors. To investigate the best strategies to incorporate domain-specific health factors into food recommenders, in this study, we propose two modeling approaches: Next-item Recommendation and Next-basket Recommendation. These two methods take the past sequence of foods (food names and calories) consumed by a user as the input and produce a ranked list of foods for the next one (Next-item) or the next day (Next-basket). Besides, the basic recommendations are improved based on the state-of-the-art approaches of each modeling approach, which are GRU4Rec~\cite{GRU4Rec} and hierarchical LSTM, respectively. To investigate the impact of health factors and tune the model toward a goal, we build specific sub-models for each group of users according to BMI and intent. Namely, users are grouped into Obese, Overweighted, Normal, Underweighted according to BMI. Their data (by weeks) are segmented into weight losing/gaining/maintaining weeks according to the weight change during the week. This latter segmentation aims to capture food consumption patterns related to weight outcome, which is treated as the user's underlying intent. A general model trained on the whole mixed historical data is expected to capture the general food consumption patterns of all the users, while a sub-model trained on the specific set of data for BMI and intent captures those of the corresponding groups or weeks. For a user within a BMI group and with the intent of weight change, we apply the specific sub-model, combined with the general model, for food recommendation. Our models are trained on a large amount of eating behavior data of real users from a weight management app, where we can observe the daily food consumption and the body weight of many users. When we combine the general full-model with the BMI-specific and intent-specific models with appropriate coefficient, we observe significant improvements compared with the performance of the general model based on both Next-item Recommendation and Next-basket Recommendation. Furthermore, both BMI-specific and intent-specific sub-models have been proved useful, which achieves better results than the general full-model, while BMI-specific sub-models are more impactful than the intent-specific model. In practice, for a user who intends to lose weight, the system can apply the Losing-weight outcome model (with the corresponding BMI) to the user. This tends to smoothly adjust the general recommendation model toward this goal. Besides, the adjustment level could be controlled by the coefficient of model combination. In other words, with a larger coefficient, the specific sub-model will have a greater impact on predicting the final food ranking list, implying that the system will prioritize achieving the user's goal over mimicking their previous eating habits. This strategy is more effective than always recommending some types of low-calorie foods, which are not liked by the user. The intent is aligned with the actual weight outcome instead of the indicated intention by the user. This latter turns out to be much less successful in our experiments.
173

Créer un corpus annoté en entités nommées avec Wikipédia et WikiData : de mauvais résultats et du potentiel

Pagès, Lucas 04 1900 (has links)
Ce mémoire explore l'utilisation conjointe de WikiData et de Wikipédia pour créer une ressource d'entités nommées (NER) annotée : DataNER. Il fait suite aux travaux ayant utilisé les bases de connaissance Freebase et DBpedia et tente de les remplacer avec WikiData, une base de connaissances collaborative dont la croissance continue est garantie par une communauté active. Malheureusement, les résultats du processus proposé dans ce mémoire ne sont pas à la hauteur des attentes initiales. Ce document décrit dans un premier temps la façon dont on construit DataNER. L'utilisation des ancres de Wikipédia permet d'identifier un grand nombre d'entités nommées dans la ressource et le programme NECKAr permet de les classifier parmi les classes LOC, PER, ORG et MISC en utilisant WikiData. On décrit de ce fait les détails de ce processus, dont la façon dont on utilise les données de Wikipédia et WikiData afin de produire de nouvelles entités nommées et comment calibrer les paramètres du processus de création de DataNER. Dans un second temps, on compare DataNER à d'autres ressources similaires en utilisant des modèles de NER ainsi qu'avec des comparaisons manuelles. Ces comparaisons nous permettent de mettre en valeur différentes raisons pour lesquelles les données de DataNER ne sont pas d'aussi bonne qualité que celles de ces autres ressources. On conclut de ce fait sur des pistes d'améliorations de DataNER ainsi que sur un commentaire sur le travail effectué, tout en insistant sur le potentiel de cette méthode de création de corpus. / This master's thesis explores the joint use of WikiData and Wikipedia to make an annotated named entities (NER) corpus : DataNER. It follows papers which have used the knowledge bases DBpedia and Freebase and attempts at replacing them with WikiData, a collaborative knowledge base with an active community guaranteeing its continuous growth. Unfortunately, the results of the process described in this thesis did not reach our initial expectations. This document first describes the way in which we build DataNER. The use of Wikipedia anchors enable us to identify a significant quantity of named entities in the resource and the NECKAr toolkit labels them with classes LOC, PER, ORG and MISC using WikiData. Thus, we describe the details of the corpus making process, including the way in which we infer more named entities thanks to Wikipedia and WikiData, as well as how we calibrate the making of DataNER with all the information at our availability. Secondly, we compare DataNER with other similar corpora using models trained on each of them, as well as manual comparisons. Those comparisons enable us to identify different reasons why the quality of DataNER does not match the one of those other corpora. We conclude by giving ideas as to how to enhance the quality of DataNER, giving a more personal comment of the work that has been accomplished and insisting on the potential of using Wikipedia and WikiData to automatically create a corpus.
174

Modeling meiotic recombination hotspots using deep learning

Takla, Emad 12 1900 (has links)
La recombinaison méiotique joue un rôle essentiel dans la ségrégation des chromosomes pendant la méiose et dans la création de nouvelles combinaisons du matériel génétique des espèces. Ses effets cause une déviation du principe de l'assortiment indépendant de Mendel; cependant, les mécanismes moléculaires impliqués restent partiellement incompris jusqu'à aujourd'hui. Il s'agit d'un processus hautement régulé et de nombreuses protéines sont impliquées dans son contrôle, dirigeant la recombinaison méiotique dans des régions génomiques de 1 à 2 kilobases appelées « hotspots ». Au cours des dernières années, l'apprentissage profond a été appliqué avec succès à la classification des séquences génomiques. Dans ce travail, nous appliquons l'apprentissage profond aux séquences d'ADN humain afin de prédire si une région spécifique d'ADN est un hotspot de recombinaison méiotique ou non. Nous avons appliqué des réseaux de neurones convolutifs sur un ensemble de données décrivant les hotspots de quatre individus non-apparentés, atteignant une exactitude de plus de 88 % avec une précision et un rappel supérieur à 90 % pour les meilleurs modèles. Nous explorons l'impact de différentes tailles de séquences d'entrée, les stratégies de séparation des jeux d'entraînement/validation et l’utilité de montrer au modèle les coordonnées génomiques de la séquence d'entrée. Nous avons exploré différentes manières de construire les motifs appris par le réseau et comment ils peuvent être liés aux méthodes classiques de construction de matrices position-poids, et nous avons pu déduire des connaissances biologiques pertinentes découvertes par le réseau. Nous avons également développé un outil pour visualiser les différents modèles afin d'aider à interpréter les différents aspects du modèle. Dans l'ensemble, nos travaux montrent la capacité des méthodes d'apprentissage profond à étudier la recombinaison méiotique à partir de données génomiques. / Meiotic recombination plays a critical role in the proper segregation of chromosomes during meiosis and in forming new combinations of genetic material within sexually-reproducing species. For a long time, its side effects were observed as a deviation from the Mendel’s principle of independent assortment; however, its molecular mechanisms remain only partially understood until today. We know that it is a highly regulated process and that many molecules are involved in this tight control, resulting in directing meiotic recombination into 1-2 kilobase genomic pairs regions called hotspots. During the past few years, deep learning was successfully applied to the classification of genomic sequences. In this work, we apply deep learning to DNA sequences in order to predict if a specific stretch of DNA is a meiotic recombination hotspot or not. We applied convolution neural networks on a dataset describing the hotspots of four unrelated male individuals, achieving an accuracy of over 88% with precision and recall above 90% for the best models. We explored the impact of different input sequence lengths, train/validation split strategies and showing the model the genomic coordinates of the input sequence. We explored different ways to construct the learnt motifs by the network and how they can relate to the classical methods of constructing position-weight-matrices, and we were able to infer relevant biological knowledge uncovered by the network. We also developed a tool for visualizing the different models output in order to help digest the different aspects of the model. Overall, our work shows the ability for deep learning methods to study meiotic recombination from genomic data.
175

Differentiable best response shaping

Aghajohari, Milad 07 1900 (has links)
Cette thèse est structurée en quatre sections. La première constitue une introduction au problème de la formation d'agents coopératifs non exploitables dans les jeux à somme non nulle. La deuxième section, soit le premier chapitre, fournit le contexte nécessaire pour discuter de l'étendue et des outils mathématiques requis pour explorer ce problème. La troisième section, correspondant au deuxième chapitre, expose un cadre spécifique, nommé Best Response Shaping, que nous avons élaboré pour relever ce défi. La quatrième section contient les conclusions que nous tirons de ce travail et nous y discutons des travaux futurs potentiels. Le chapitre introductif se divise en quatre sections. Dans la première, nous présentons le cadre d'apprentissage par renforcement (Reinforcement Learning) afin de formaliser le problème d'un agent interagissant avec l'environnement pour maximiser une récompense scalaire. Nous introduisons ensuite les Processus Décisionnels de Markov (Markov Decision Processes) en tant qu'outil mathématique pour formaliser le problème d'apprentissage par renforcement. Nous discutons de deux méthodes générales de solution pour résoudre le problème d'apprentissage par renforcement. Les premières sont des méthodes basées sur la valeur qui estiment la récompense cumulée optimale réalisable pour chaque paire action-état, et la politique serait alors apprise. Les secondes sont des méthodes basées sur les politiques où la politique est optimisée directement sans estimer les valeurs. Dans la deuxième section, nous introduisons le cadre d'apprentissage par renforcement multi-agents (Multi-Agent Reinforcement Learning) pour formaliser le problème de plusieurs agents tentant de maximiser une récompense cumulative scalaire dans un environnement partagé. Nous présentons les Jeux Stochastiques comme une extension théorique du processus de décision de Markov pour permettre la présence de plusieurs agents. Nous discutons des trois types de jeux possibles entre agents en fonction de la structure de leur système de récompense. Nous traitons des défis spécifiques à l'apprentissage par renforcement multi-agents. En particulier, nous examinons le défi de l'apprentissage par renforcement profond multi-agents dans des environnements partiellement compétitifs, où les méthodes traditionnelles peinent à promouvoir une coopération non exploitable. Dans la troisième section, nous introduisons le Dilemme du prisonnier itéré (Iterated Prisoner's Dilemma) comme un jeu matriciel simple utilisé comme exemple de jouet pour étudier les dilemmes sociaux. Dans la quatrième section, nous présentons le Coin Game comme un jeu à haute dimension qui doit être résolu grâce à des politiques paramétrées par des réseaux de neurones. Dans le deuxième chapitre, nous introduisons la méthode Forme de la Meilleure Réponse (Best Response Shaping). Des approches existantes, comme celles des agents LOLA et POLA, apprennent des politiques coopératives non exploitables en se différenciant grâce à des étapes d'optimisation prédictives de leur adversaire. Toutefois, ces techniques présentent une limitation majeure car elles sont susceptibles d'être exploitées par une optimisation supplémentaire. En réponse à cela, nous introduisons une nouvelle approche, Forme de la Meilleure Réponse, qui se différencie par le fait qu'un adversaire approxime la meilleure réponse, que nous appelons le "détective". Pour conditionner le détective sur la politique de l'agent dans les jeux complexes, nous proposons un mécanisme de conditionnement différenciable sensible à l'état, facilité par une méthode de questions-réponses (QA) qui extrait une représentation de l'agent basée sur son comportement dans des états d'environnement spécifiques. Pour valider empiriquement notre méthode, nous mettons en évidence sa performance améliorée face à un adversaire utilisant l'Arbre de Recherche Monte Carlo (Monte Carlo Tree Search), qui sert d'approximation de la meilleure réponse dans le Coin Game. / This thesis is organized in four sections.The first is an introduction to the problem of training non-exploitable cooperative agents in general-sum games. The second section, the first chapter, provides the necessary background for discussing the scope and necessary mathematical tools for exploring this problem. The third section, the second chapter, explains a particular framework, Best Response Shaping, that we developed for tackling this challenge. In the fourth section, is the conclusion that we drive from this work and we discuss the possible future works. The background chapter consists of four section. In the first section, we introduce the \emph{Reinforcement Learning } framework for formalizing the problem of an agent interacting with the environment maximizing a scalar reward. We then introduce \emph{Markov Decision Processes} as a mathematical tool to formalize the Reinforcement Learning problem. We discuss two general solution methods for solving the Reinforcement Learning problem. The first are Value-based methods that estimate the optimal achievable accumulative reward in each action-state pair and the policy would be learned. The second are Policy-based methods where the policy is optimized directly without estimating the values. In the second section, we introduce \emph{Multi-Agent Reinforcement Learning} framework for formalizing multiple agents trying to maximize a scalar accumulative reward in a shared environment. We introduce \emph{Stochastic Games} as a theoretical extension of the Markov Decision Process to allow multiple agents. We discuss the three types of possible games between agents based on the setup of their reward structure. We discuss the challenges that are specific to Multi-Agent Reinforcement Learning. In particular, we investigate the challenge of multi-agent deep reinforcement learning in partially competitive environments, where traditional methods struggle to foster non-exploitable cooperation. In the third section, we introduce the \emph{Iterated Prisoner's Dilemma} game as a simple matrix game used as a toy-example for studying social dilemmas. In the Fourth section, we introduce the \emph{Coin Game} as a high-dimensional game that should be solved via policies parameterized by neural networks. In the second chapter, we introduce the Best Response Shaping (BRS) method. The existing approaches like LOLA and POLA agents learn non-exploitable cooperative policies by differentiation through look-ahead optimization steps of their opponent. However, there is a key limitation in these techniques as they are susceptible to exploitation by further optimization. In response, we introduce a novel approach, Best Response Shaping (BRS), which differentiates through an opponent approximating the best response, termed the "detective." To condition the detective on the agent's policy for complex games we propose a state-aware differentiable conditioning mechanism, facilitated by a question answering (QA) method that extracts a representation of the agent based on its behaviour on specific environment states. To empirically validate our method, we showcase its enhanced performance against a Monte Carlo Tree Search (MCTS) opponent, which serves as an approximation to the best response in the Coin Game. This work expands the applicability of multi-agent RL in partially competitive environments and provides a new pathway towards achieving improved social welfare in general sum games.
176

Méthodes d'évaluation en extraction d'information ouverte

Lamarche, Fabrice 08 1900 (has links)
L’extraction d’information ouverte (OIE) est un domaine du traitement des langues naturelles qui a pour but de présenter les informations contenues dans un texte dans un format régulier permettant d’organiser, d’analyser et de réfléchir ces informations. De nombreux systèmes d’OIE existent et sont proposés, revendiquant des performances de plus en plus proches d’un idéal. Dans les dernières années, beaucoup de ces systèmes utilisent des architectures neuronales et leurs auteurs affirment être plus performant sur cette tâche que les méthodes précédentes. Afin d’établir ces performances et de les comparer les unes aux autres, il est nécessaire d’utiliser une référence. Celles-ci ont également évolué dans le temps et se veulent précises, objectives et proches de la réalité. Dans ce mémoire, nous proposons une nouvelle référence permettant de remédier à certaines limitations potentielles des méthodes d’évaluation actuelles. Cette référence comprend deux composantes principales soit une annotations manuelles de phrases candidates et une fonction permettant d’établir la concordance syntaxique entre différents faits extraits et annotés. De plus, nous proposons de nouvelles lignes directrice pour encadrer et mieux définir la tâche d’extraction d’information ouverte elle-même, ce qui permet de mieux quantifier et mesurer la quantité d’informations pertinentes extraites par les systèmes d’OIE. Nos expériences démontrent que notre référence suit de plus près ces lignes directrices que les références précédentes ,qu’elle parvient à mieux juger de la concordances entre les faits extraits et les faits annotés et qu’elle est plus souple dans son approche que la référence qui est à ce jour l’état de l’art. Notre nouvelle référence permet de tirer des conclusions intéressantes sur les performances réelles des systèmes d’extraction d'Information ouverte, notamment sur la réelle amélioration des systèmes plus récents par rapport aux méthodes classiques. / Open Information Extraction (OIE) is a field of natural language processing whose aim is to present the information contained in a text in a regular format that allows that information to be organized, analyzed and reflected upon. Numerous OIE systems exist, claiming everincreasing levels of performance. In order to establish their performance and compare them, it is necessary to use a reference. These have also evolved over time, and are intended to be precise and objective, making it possible to identify the best-performing systems. In this thesis, we identify some of the limitations of current evaluation methods and propose a new benchmark to remedy them. This new benchmark comprises two main components : a manual annotation of candidate sentences and a function to establish syntactic concordance between different extracted and annotated facts. In addition, we propose new guidelines to frame and better define the open information extraction task itself, enabling us to better quantify and measure the amount of relevant information extracted by OIE systems. Our experiment shows that our benchmark follows these guidelines more closely than previous benchmarks, is better at judging the match between extracted and annotated facts, and is more flexible than the current state-of-the-art benchmarks. Our new benchmark allows us to draw some interesting conclusions about the actual performance of open information extraction systems. We show that the latest systems are not necessarily the best.
177

Sample efficient reinforcement learning for biological sequence design

Nouri, Padideh 08 1900 (has links)
L’apprentissage par renforcement profond a mené à de nombreux résultats prometteurs dans l’apprentissage des jeux vidéo à partir de pixels, dans la robotique pour l’apprentissage de compétences généralisables et dans les soins de santé pour l’apprentissage de traitement dynamiques. Un obstacle demeure toutefois: celui du manque d’efficacité dans le nombre d’échantillons nécessaires pour obtenir de bons résultats. Pour résoudre ce problème, notre objectif est d’améliorer l’efficacité de l’apprentissage en améliorant les capacité d’acquisition de nouvelles données, un problème d’exploration. L’approche proposée consiste à : (1) Apprendre un ensemble diversifié d’environments (donnant lieu à un changement de dynamique) (2) Apprendre une politique capable de mieux s’adapter aux changements dans l’envi- ronnement, à l’aide du méta-apprentissage. Cette méthode peut avoir des impacts bénéfiques dans de nombreux problèmes du monde réel tels que la découverte de médicaments, dans laquelle nous sommes confrontés à un espace d’actions très grand. D’autant plus, la conception de nouvelles substances thérapeutiques qui sont fonctionnellement intéressantes nécessite une exploration efficace du paysage de la recherche. / Deep reinforcement learning has led to promising results in learning video games from pixels, robotics for learning generalizable skills, and healthcare for learning dynamic treatments. However, an obstacle remains the lack of efficiency in the number of samples required to achieve good results. To address this problem, our goal is to improve sample efficiency by improving the ability to acquire new data, an issue of exploration. The proposed approach is to: (1) Learn a diverse set of environments (resulting in a change of dynamics) (2) earn a policy that can better adapt to changes in the environment using meta-learning This method can benefit many real-world problems, such as drug discovery, where we face a large action space. Furthermore, designing new therapeutic substances that are functionally interesting requires efficient exploration of the research landscape
178

Emergence of language-like latents in deep neural networks

Lu, Yuchen 05 1900 (has links)
L'émergence du langage est considérée comme l'une des marques de l'intelligence humaine. Par conséquent, nous émettons l'hypothèse que l'émergence de latences ou de représentations similaires au langage dans un système d'apprentissage profond pourrait aider les modèles à obtenir une meilleure généralisation compositionnelle et hors distribution. Dans cette thèse, nous présentons une série d'articles qui explorent cette hypothèse dans différents domaines, notamment l'apprentissage interactif du langage, l'apprentissage par imitation et la vision par ordinateur. / The emergence of language is regarded as one of the hallmarks of human intelligence. Therefore, we hypothesize that the emergence of language-like latents or representations in a deep learning system could help models achieve better compositional and out-of-distribution generalization. In this thesis, we present a series of papers that explores this hypothesis in different fields including interactive language learning, imitation learning and computer vision.
179

Learning and planning with noise in optimization and reinforcement learning

Thomas, Valentin 06 1900 (has links)
La plupart des algorithmes modernes d'apprentissage automatique intègrent un certain degré d'aléatoire dans leurs processus, que nous appellerons le bruit, qui peut finalement avoir un impact sur les prédictions du modèle. Dans cette thèse, nous examinons de plus près l'apprentissage et la planification en présence de bruit pour les algorithmes d'apprentissage par renforcement et d'optimisation. Les deux premiers articles présentés dans ce document se concentrent sur l'apprentissage par renforcement dans un environnement inconnu, et plus précisément sur la façon dont nous pouvons concevoir des algorithmes qui utilisent la stochasticité de leur politique et de l'environnement à leur avantage. Notre première contribution présentée dans ce document se concentre sur le cadre de l'apprentissage par renforcement non supervisé. Nous montrons comment un agent laissé seul dans un monde inconnu sans but précis peut apprendre quels aspects de l'environnement il peut contrôler indépendamment les uns des autres, ainsi qu'apprendre conjointement une représentation latente démêlée de ces aspects que nous appellerons \emph{facteurs de variation}. La deuxième contribution se concentre sur la planification dans les tâches de contrôle continu. En présentant l'apprentissage par renforcement comme un problème d'inférence, nous empruntons des outils provenant de la littérature sur les m\'thodes de Monte Carlo séquentiel pour concevoir un algorithme efficace et théoriquement motiv\'{e} pour la planification probabiliste en utilisant un modèle appris du monde. Nous montrons comment l'agent peut tirer parti de note objectif probabiliste pour imaginer divers ensembles de solutions. Les deux contributions suivantes analysent l'impact du bruit de gradient dû à l'échantillonnage dans les algorithmes d'optimisation. La troisième contribution examine le rôle du bruit de l'estimateur du gradient dans l'estimation par maximum de vraisemblance avec descente de gradient stochastique, en explorant la relation entre la structure du bruit du gradient et la courbure locale sur la généralisation et la vitesse de convergence du modèle. Notre quatrième contribution revient sur le sujet de l'apprentissage par renforcement pour analyser l'impact du bruit d'échantillonnage sur l'algorithme d'optimisation de la politique par ascension du gradient. Nous constatons que le bruit d'échantillonnage peut avoir un impact significatif sur la dynamique d'optimisation et les politiques découvertes en apprentissage par renforcement. / Most modern machine learning algorithms incorporate a degree of randomness in their processes, which we will refer to as noise, which can ultimately impact the model's predictions. In this thesis, we take a closer look at learning and planning in the presence of noise for reinforcement learning and optimization algorithms. The first two articles presented in this document focus on reinforcement learning in an unknown environment, specifically how we can design algorithms that use the stochasticity of their policy and of the environment to their advantage. Our first contribution presented in this document focuses on the unsupervised reinforcement learning setting. We show how an agent left alone in an unknown world without any specified goal can learn which aspects of the environment it can control independently from each other as well as jointly learning a disentangled latent representation of these aspects, or factors of variation. The second contribution focuses on planning in continuous control tasks. By framing reinforcement learning as an inference problem, we borrow tools from Sequential Monte Carlo literature to design a theoretically grounded and efficient algorithm for probabilistic planning using a learned model of the world. We show how the agent can leverage the uncertainty of the model to imagine a diverse set of solutions. The following two contributions analyze the impact of gradient noise due to sampling in optimization algorithms. The third contribution examines the role of gradient noise in maximum likelihood estimation with stochastic gradient descent, exploring the relationship between the structure of the gradient noise and local curvature on the generalization and convergence speed of the model. Our fourth contribution returns to the topic of reinforcement learning to analyze the impact of sampling noise on the policy gradient algorithm. We find that sampling noise can significantly impact the optimization dynamics and policies discovered in on-policy reinforcement learning.
180

Leveraging self-supervision for visual embodied navigation with neuralized potential fields

Saavedra Ruiz, Miguel Angel 05 1900 (has links)
Une tâche fondamentale en robotique consiste à naviguer entre deux endroits. En particulier, la navigation dans le monde réel nécessite une planification à long terme à l'aide d'images RVB (RGB) en haute dimension, ce qui constitue un défi considérable pour les approches d'apprentissage de bout-en-bout. Les méthodes semi-paramétriques actuelles parviennent plutôt à atteindre des objectifs éloignés en combinant des modèles paramétriques avec une mémoire topologique de l'environnement, souvent représentée sous forme d'un graphe ayant pour nœuds des images précédemment vues. Cependant, l'utilisation de ces graphes implique généralement l'ajustement d'heuristiques d'élagage afin d'éviter les arêtes superflues, limiter la mémoire requise et permettre des recherches raisonnablement rapides dans le graphe. Dans cet ouvrage, nous montrons comment les approches de bout-en-bout basées sur l'apprentissage auto-supervisé peuvent exceller dans des tâches de navigation à long terme. Nous présentons initialement Duckie-Former (DF), une approche de bout-en-bout pour la navigation visuelle dans des environnements routiers. En utilisant un Vision Transformer (ViT) pré-entraîné avec une méthode auto-supervisée, nous nous inspirons des champs de potentiels afin de dériver une stratégie de navigation utilisant en entrée un masque de segmentation d'image de faible résolution. DF est évalué dans des tâches de navigation de suivi de voie et d'évitement d'obstacles. Nous présentons ensuite notre deuxième approche intitulée One-4-All (O4A). O4A utilise l'apprentissage auto-supervisé et l'apprentissage de variétés afin de créer un pipeline de navigation de bout-en-bout sans graphe permettant de spécifier l'objectif à l'aide d'une image. La navigation est réalisée en minimisant de manière vorace une fonction de potentiel définie de manière continue dans l'espace latent O4A. Les deux systèmes sont entraînés sans interagir avec le simulateur ou le robot sur des séquences d'exploration de données RVB et de contrôles non experts. Ils ne nécessitent aucune mesure de profondeur ou de pose. L'évaluation est effectuée dans des environnements simulés et réels en utilisant un robot à entraînement différentiel. / A fundamental task in robotics is to navigate between two locations. Particularly, real-world navigation can require long-horizon planning using high-dimensional RGB images, which poses a substantial challenge for end-to-end learning-based approaches. Current semi-parametric methods instead achieve long-horizon navigation by combining learned modules with a topological memory of the environment, often represented as a graph over previously collected images. However, using these graphs in practice typically involves tuning various pruning heuristics to prevent spurious edges, limit runtime memory usage, and allow reasonably fast graph queries. In this work, we show how end-to-end approaches trained through Self-Supervised Learning (SSL) can excel in long-horizon navigation tasks. We initially present Duckie-Former (DF), an end-to-end approach for visual servoing in road-like environments. Using a Vision Transformer (ViT) pretrained with a self-supervised method, we derive a potential-fields-like navigation strategy based on a coarse image segmentation model. DF is assessed in the navigation tasks of lane-following and obstacle avoidance. Subsequently, we introduce our second approach called One-4-All (O4A). O4A leverages SSL and manifold learning to create a graph-free, end-to-end navigation pipeline whose goal is specified as an image. Navigation is achieved by greedily minimizing a potential function defined continuously over the O4A latent space. O4A is evaluated in complex indoor environments. Both systems are trained offline on non-expert exploration sequences of RGB data and controls, and do not require any depth or pose measurements. Assessment is performed in simulated and real-world environments using a differential-drive robot.

Page generated in 0.0178 seconds