Spelling suggestions: "subject:"traitement duu langage"" "subject:"traitement dud langage""
21 |
From specialists to generalists : inductive biases of deep learning for higher level cognitionGoyal, Anirudh 10 1900 (has links)
Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles.
Avec suffisamment de données et de calculs, les réseaux de neurones actuels peuvent obtenir des résultats de niveau humain sur presque toutes les tâches. En ce sens, nous avons pu former des spécialistes capables d'effectuer très bien une tâche particulière, que ce soit le jeu de Go, jouer à des jeux Atari, manipuler le cube Rubik, mettre des légendes sur des images ou dessiner des images avec des légendes. Le prochain défi pour l'IA est de concevoir des méthodes pour former des généralistes qui, lorsqu'ils sont exposés à plusieurs tâches pendant l'entraînement, peuvent s'adapter rapidement à de nouvelles tâches inconnues. Sans aucune hypothèse sur la distribution génératrice de données, il peut ne pas être possible d'obtenir une meilleure généralisation et une meilleure adaptation à de nouvelles tâches (inconnues).
Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles.
Une possibilité fascinante est que l'intelligence humaine et animale puisse être expliquée par quelques principes, plutôt qu'une encyclopédie de faits. Si tel était le cas, nous pourrions plus facilement à la fois comprendre notre propre intelligence et construire des machines intelligentes. Tout comme en physique, les principes eux-mêmes ne suffiraient pas à prédire le comportement de systèmes complexes comme le cerveau, et des calculs importants pourraient être nécessaires pour simuler l'intelligence humaine. De plus, nous savons que les vrais cerveaux intègrent des connaissances a priori détaillées spécifiques à une tâche qui ne pourraient pas tenir dans une courte liste de principes simples. Nous pensons donc que cette courte liste explique plutôt la capacité des cerveaux à apprendre et à s'adapter efficacement à de nouveaux environnements, ce qui est une grande partie de ce dont nous avons besoin pour l'IA. Si cette hypothèse de simplicité des principes était correcte, cela suggérerait que l'étude du type de biais inductifs (une autre façon de penser aux principes de conception et aux a priori, dans le cas des systèmes d'apprentissage) que les humains et les animaux exploitent pourrait aider à la fois à clarifier ces principes et à fournir source d'inspiration pour la recherche en IA.
L'apprentissage en profondeur exploite déjà plusieurs biais inductifs clés, et mon travail envisage une liste plus large, en se concentrant sur ceux qui concernent principalement le traitement cognitif de niveau supérieur. Mon travail se concentre sur la conception de tels modèles en y incorporant des hypothèses fortes mais générales (biais inductifs) qui permettent un raisonnement de haut niveau sur la structure du monde. Ce programme de recherche est à la fois ambitieux et pratique, produisant des algorithmes concrets ainsi qu'une vision cohérente pour une recherche à long terme vers la généralisation dans un monde complexe et changeant. / Current neural networks achieve state-of-the-art results across a range of challenging problem domains.
Given enough data, and computation, current neural networks can achieve human-level results on mostly any task. In the sense, that we have been able to train \textit{specialists} that can perform a particular task really well whether it's the game of GO, playing Atari games, Rubik's cube manipulation, image caption or drawing images given captions. The next challenge for AI is to devise methods to train \textit{generalists} that when exposed to multiple tasks during training can quickly adapt to new unknown tasks. Without any assumptions about the data generating distribution it may not be possible to achieve better generalization and adaption to new (unknown) tasks.
A fascinating possibility is that human and animal intelligence could be explained by a few principles (rather than an encyclopedia). If that was the case, we could more easily both understand our own intelligence and build intelligent machines. Just like in physics, the principles themselves would not be sufficient to predict the behavior of complex systems like brains, and substantial computation might be needed to simulate human intelligence. In addition, we know that real brains incorporate some detailed task-specific a priori knowledge which could not fit in a short list of simple principles. So we think of that short list rather as explaining the ability of brains to learn and adapt efficiently to new environments, which is a great part of what we need for AI. If that simplicity of principles hypothesis was correct it would suggest that studying the kind of inductive biases (another way to think about principles of design and priors, in the case of learning systems) that humans and animals exploit could help both clarify these principles and provide inspiration for AI research.
Deep learning already exploits several key inductive biases, and my work considers a larger list, focusing on those which concern mostly higher-level cognitive processing. My work focuses on designing such models by incorporating in them strong but general assumptions (inductive biases) that enable high-level reasoning about the structure of the world. This research program is both ambitious and practical, yielding concrete algorithms as well as a cohesive vision for long-term research towards generalization in a complex and changing world.
|
22 |
Latent data augmentation and modular structure for improved generalizationLamb, Alexander 08 1900 (has links)
This thesis explores the nature of generalization in deep learning and several settings in which it fails. In particular, deep neural networks can struggle to generalize in settings with limited data, insufficient supervision, challenging long-range dependencies, or complex structure and subsystems. This thesis explores the nature of these challenges for generalization in deep learning and presents several algorithms which seek to address these challenges. In the first article, we show how training with interpolated hidden states can improve generalization and calibration in deep learning. We also introduce a theory showing how our algorithm, which we call Manifold Mixup, leads to a flattening of the per-class hidden representations, which can be seen as a compression of the information in the hidden states. The second article is related to the first and shows how interpolated examples can be used for semi-supervised learning. In addition to interpolating the input examples, the model’s interpolated predictions are used as targets for these examples. This improves results on standard benchmarks as well as classic 2D toy problems for semi-supervised learning. The third article studies how a recurrent neural network can be divided into multiple modules with different parameters and well separated hidden states, as well as a competition mechanism restricting updating of the hidden states to a subset of the most relevant modules on a specific time-step. This improves systematic generalization when the pattern distribution is changed between the training and evaluation phases. It also improves generalization in reinforcement learning. In the fourth article, we show that attention can be used to control the flow of information between successive layers in deep networks. This allows each layer to only process the subset of the previously computed layers’ outputs which are most relevant. This improves generalization on relational reasoning tasks as well as standard benchmark classification tasks. / Cette thèse explore la nature de la généralisation dans l’apprentissage en profondeur et
plusieurs contextes dans lesquels elle échoue. En particulier, les réseaux de neurones profonds
peuvent avoir du mal à se généraliser dans des contextes avec des données limitées, une
supervision insuffisante, des dépendances à longue portée difficiles ou une structure et des
sous-systèmes complexes.
Cette thèse explore la nature de ces défis pour la généralisation en apprentissage profond
et présente plusieurs algorithmes qui cherchent à relever ces défis.
Dans le premier article, nous montrons comment l’entraînement avec des états cachés
interpolés peut améliorer la généralisation et la calibration en apprentissage profond. Nous
introduisons également une théorie montrant comment notre algorithme, que nous appelons
Manifold Mixup, conduit à un aplatissement des représentations cachées par classe, ce qui
peut être vu comme une compression de l’information dans les états cachés.
Le deuxième article est lié au premier et montre comment des exemples interpolés peuvent
être utilisés pour un apprentissage semi-supervisé. Outre l’interpolation des exemples d’entrée,
les prédictions interpolées du modèle sont utilisées comme cibles pour ces exemples. Cela
améliore les résultats sur les benchmarks standard ainsi que sur les problèmes de jouets 2D
classiques pour l’apprentissage semi-supervisé.
Le troisième article étudie comment un réseau de neurones récurrent peut être divisé en
plusieurs modules avec des paramètres différents et des états cachés bien séparés, ainsi qu’un
mécanisme de concurrence limitant la mise à jour des états cachés à un sous-ensemble des
modules les plus pertinents sur un pas de temps spécifique. . Cela améliore la généralisation
systématique lorsque la distribution des modèles est modifiée entre les phases de entraînement
et d’évaluation. Il améliore également la généralisation dans l’apprentissage par renforcement.
Dans le quatrième article, nous montrons que l’attention peut être utilisée pour contrôler le
flux d’informations entre les couches successives des réseaux profonds. Cela permet à chaque
couche de ne traiter que le sous-ensemble des sorties des couches précédemment calculées
qui sont les plus pertinentes. Cela améliore la généralisation sur les tâches de raisonnement
relationnel ainsi que sur les tâches de classification de référence standard.
|
23 |
Latent variable language modelsTan, Shawn 08 1900 (has links)
No description available.
|
24 |
Contribution to automatic text classification : metrics and evolutionary algorithms / Contributions à la classification automatique de texte : métriques et algorithmes évolutifsMazyad, Ahmad 22 November 2018 (has links)
Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs. / This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive.
|
25 |
Certaines différences de langages dans les conversations réelles " : élèves-élèves" versus "élèves-chatbot" / Comparison of Real Time Conversations : "Student-student" versus "Student-chatbot"SILKEJ, Eirini January 2022 (has links)
Cette étude examine comment les élèves communiquent par écrit lorsqu'ils savent que leur interlocuteur est un autre élève humain par rapport à la façon dont ils communiquent lorsqu'ils savent que leur partenaire est un « chatbot », un agent conversationnel artificiel qui communique par écrit en utilisant le langage naturel. Les participants sont des lycéens d’un cours de français langue étrangère (FLE) en Suède. Les élèves ont écrit à leurs pairs via la messagerie instantanée (IM) et au chatbot via un site Webb. Les conversations ont été comparées, et leurs variables linguistiques ont été distinguées selon les dimensions suivantes : mots par message et par conversation, messages par conversation, diversité lexicale et fréquence d'émoticônes. Au cours des dernières années, tant les linguistes que les chercheurs en Intelligence Artificielle ont été contraints de traiter des problèmes de contexte, de syntaxe, de sémantique et de pragmatique (Rosenberg, 1975). Il existe des études qui abordent la question de la coopération entre la linguistique et le traitement automatique du langage naturel (TALN) qui se concentrent sur la façon dont les chatbots communiquent par écrit avec les humains. Cependant, cette étude est concentrée sur l'humain, évaluant la langue et distinguant les caractéristiques linguistiques utilisées du côté de l’humain conversant avec un chatbot. Les résultats ont montré que les messages élèves-chatbot contenaient moins de mots par message que ceux envoyés à un autre élève, mais les élèves ont envoyé plus de deux fois plus de messages au chatbot qu'à leurs pairs. L'étude a révélé qu'il existe un niveau de motivation plus élevé chez les élèves lorsqu'ils s'engagent dans des conversations avec l'agent artificiel par rapport aux autres étudiants.
|
26 |
On representation learning for generative models of textSubramanian, Sandeep 08 1900 (has links)
Cette thèse fait des petits pas dans la construction et la compréhension des systèmes d'apprentissage des représentations neuronales et des modèles génératifs pour le traitement du langage naturel. Il est présenté comme une thèse par article qui contient quatre travaux.
Dans le premier article, nous montrons que l'apprentissage multi-tâches peut être utilisé pour combiner les biais inductifs de plusieurs tâches d'apprentissage auto-supervisées et supervisées pour apprendre des représentations de phrases distribuées de longueur fixe à usage général qui obtiennent des résultats solides sur les tâches d'apprentissage par transfert en aval sans tout modèle de réglage fin.
Le deuxième article s'appuie sur le premier et présente un modèle génératif en deux étapes pour le texte qui modélise la distribution des représentations de phrases pour produire de nouveaux plongements de phrases qui servent de "contour neuronal" de haut niveau qui est reconstruit en mots avec un récurrent neuronal autorégressif conditionnel décodeur.
Le troisième article étudie la nécessité de représentations démêlées pour la génération de texte contrôlable. Une grande partie des systèmes de génération de texte contrôlables reposent sur l'idée que le contrôle d'un attribut (ou d'un style) particulier nécessite la construction de représentations dissociées qui séparent le contenu et le style. Nous démontrons que les représentations produites dans des travaux antérieurs qui utilisent la formation contradictoire du domaine ne sont pas dissociées dans la pratique. Nous présentons ensuite une approche qui ne vise pas à apprendre des représentations démêlées et montrons qu'elle permet d'obtenir des résultats nettement meilleurs que les travaux antérieurs.
Dans le quatrième article, nous concevons des modèles de langage de transformateur qui apprennent les représentations à plusieurs échelles de temps et montrent que ceux-ci peuvent aider à réduire l'empreinte mémoire importante de ces modèles. Il présente trois architectures multi-échelles différentes qui présentent des compromis favorables entre la perplexité et l'empreinte mémoire. / This thesis takes baby steps in building and understanding neural representation learning systems and generative models for natural language processing. It is presented as a thesis by article that contains four pieces of work.
In the first article, we show that multi-task learning can be used to combine the inductive biases of several self-supervised and supervised learning tasks to learn general-purpose fixed-length distributed sentence representations that achieve strong results on downstream transfer learning tasks without any model fine-tuning.
The second article builds on the first and presents a two-step generative model for text that models the distribution of sentence representations to produce novel sentence embeddings that serves as a high level ``neural outline'' that is reconstructed to words with a conditional autoregressive RNN decoder.
The third article studies the necessity of disentangled representations for controllable text generation. A large fraction of controllable text generation systems rely on the idea that control over a particular attribute (or style) requires building disentangled representations that separate content and style. We demonstrate that representations produced in previous work that uses domain adversarial training are not disentangled in practice. We then present an approach that does not aim to learn disentangled representations and show that it achieves significantly better results than prior work.
In the fourth article, we design transformer language models that learn representations at multiple time scales and show that these can help address the large memory footprint these models typically have. It presents three different multi-scale architectures that exhibit favorable perplexity vs memory footprint trade-offs.
|
27 |
A personality aware recommendation systemElourajini, Fahed 08 1900 (has links)
Les systèmes de recommandation conversationnels (CRSs) sont des systèmes qui fournissent
des recommandations personnalisées par le biais d’une session de dialogue en langage
naturel avec les utilisateurs. Contrairement aux systèmes de recommandation traditionnels
qui ne prennent comme vérité de base que les préférences anciennes des utilisateurs, les
CRS impliquent aussi les préférences actuelles des utilisateurs durant la conversation. Des
recherches récentes montrent que la compréhension de la signification contextuelle des
préférences des utilisateurs et des dialogues peut améliorer de manière significative les
performances du système de recommandation. Des chercheurs ont également montré un
lien fort entre les traits de personnalité des utilisateurs et les systèmes de recommandation.
La personnalité et les préférences sont des variables essentielles en sciences sociales. Elles
décrivent les différences entre les personnes, que ce soit au niveau individuel ou collectif.
Les approches récentes de recommandation basées sur la personnalité sont des systèmes non
conversationnels. Par conséquent, il est extrêmement important de détecter et d’utiliser les
traits de personnalité des individus dans les systèmes conversationnels afin d’assurer une
performance de recommandation et de dialogue plus personnalisée. Pour ce faire, ce travail
propose un système de recommandation conversationnel sensible à la personnalité qui est
basé sur des modules qui assurent une session de dialogue et recommandation personnalisée
en utilisant les traits de personnalité des utilisateurs. Nous proposons également une
nouvelle approche de détection de la personnalité, qui est un modèle de langage spécifique
au contexte pour détecter les traits des individus en utilisant leurs données publiées sur les
réseaux sociaux. Les résultats montrent que notre système proposé a surpassé les approches
existantes dans différentes mesures. / A Conversational Recommendation System (CRS) is a system that provides personalized
recommendations through a session of natural language dialogue turns with users. Unlike
traditional one-shot recommendation systems, which only assume the user’s previous
preferences as the ground truth, CRS uses both previous and current user preferences.
Recent research shows that understanding the contextual meaning of user preferences and
dialogue turns can significantly improve recommendation performance. It also shows a
strong link between users’ personality traits and recommendation systems. Personality
and preferences are essential variables in computational sociology and social science.
They describe the differences between people, both at the individual and collective level.
Recent personality-based recommendation approaches are traditional one-shot systems, or
“non conversational systems”. Therefore, there is a significant need to detect and employ
individuals’ personality traits within the CRS paradigm to ensure a better and more
personalized dialogue recommendation performance.
Driven by the aforementioned facts, this study proposes a modularized, personality-
aware CRS that ensures a personalized dialogue recommendation session using the users’
personality traits. We also propose a novel personality detection approach, which is a
context-specific language model for detecting individuals’ personality traits using their
social media data. The goal is to create a personality-aware and topic-guided CRS model
that performs better than the standard CRS models. Experimental results show that our
personality-aware conversation recommendation system has outperformed state-of-the-art
approaches in different considered metrics on the topic-guided conversation recommendation
dataset.
|
28 |
Apprentissage d'espaces sémantiquesMesnil, Grégoire 01 1900 (has links)
No description available.
|
29 |
Learning and time : on using memory and curricula for language understandingGulcehre, Caglar 05 1900 (has links)
No description available.
|
30 |
Better representation learning for TPMSRaza, Amir 10 1900 (has links)
Avec l’augmentation de la popularité de l’IA et de l’apprentissage automatique, le nombre
de participants a explosé dans les conférences AI/ML. Le grand nombre d’articles soumis
et la nature évolutive des sujets constituent des défis supplémentaires pour les systèmes
d’évaluation par les pairs qui sont cruciaux pour nos communautés scientifiques. Certaines
conférences ont évolué vers l’automatisation de l’attribution des examinateurs pour
les soumissions, le TPMS [1] étant l’un de ces systèmes existants. Actuellement, TPMS
prépare des profils de chercheurs et de soumissions basés sur le contenu, afin de modéliser
l’adéquation des paires examinateur-soumission.
Dans ce travail, nous explorons différentes approches pour le réglage fin auto-supervisé
des transformateurs BERT pour les données des documents de conférence. Nous démontrons
quelques nouvelles approches des vues d’augmentation pour l’auto-supervision dans le
traitement du langage naturel, qui jusqu’à présent était davantage axée sur les problèmes de
vision par ordinateur. Nous utilisons ensuite ces représentations d’articles individuels pour
construire un modèle d’expertise qui apprend à combiner la représentation des différents
travaux publiés d’un examinateur et à prédire leur pertinence pour l’examen d’un article
soumis. Au final, nous montrons que de meilleures représentations individuelles des papiers
et une meilleure modélisation de l’expertise conduisent à de meilleures performances dans
la tâche de prédiction de l’adéquation de l’examinateur. / With the increase in popularity of AI and Machine learning, participation numbers have
exploded in AI/ML conferences. The large number of submission papers and the evolving
nature of topics constitute additional challenges for peer-review systems that are crucial for
our scientific communities. Some conferences have moved towards automating the reviewer
assignment for submissions, TPMS [1] being one such existing system. Currently, TPMS
prepares content-based profiles of researchers and submission papers, to model the suitability
of reviewer-submission pairs.
In this work, we explore different approaches to self-supervised fine-tuning of BERT
transformers for conference papers data. We demonstrate some new approaches to augmentation
views for self-supervision in natural language processing, which till now has
been more focused on problems in computer vision. We then use these individual paper
representations for building an expertise model which learns to combine the representation
of different published works of a reviewer and predict their relevance for reviewing
a submission paper. In the end, we show that better individual paper representations
and expertise modeling lead to better performance on the reviewer suitability prediction task.
|
Page generated in 0.118 seconds