• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 169
  • 45
  • 36
  • 1
  • 1
  • Tagged with
  • 253
  • 253
  • 131
  • 129
  • 112
  • 99
  • 89
  • 87
  • 68
  • 55
  • 48
  • 48
  • 46
  • 43
  • 43
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
221

Training parsers for low-resourced languages : improving cross-lingual transfer with monolingual knowledge / Apprentissage d'analyseurs syntaxiques pour les langues peu dotées : amélioration du transfert cross-lingue grâce à des connaissances monolingues

Aufrant, Lauriane 06 April 2018 (has links)
Le récent essor des algorithmes d'apprentissage automatique a rendu les méthodes de Traitement Automatique des Langues d'autant plus sensibles à leur facteur le plus limitant : la qualité des systèmes repose entièrement sur la disponibilité de grandes quantités de données, ce qui n'est pourtant le cas que d'une minorité parmi les 7.000 langues existant au monde. La stratégie dite du transfert cross-lingue permet de contourner cette limitation : une langue peu dotée en ressources (la cible) peut être traitée en exploitant les ressources disponibles dans une autre langue (la source). Les progrès accomplis sur ce plan se limitent néanmoins à des scénarios idéalisés, avec des ressources cross-lingues prédéfinies et de bonne qualité, de sorte que le transfert reste inapplicable aux cas réels de langues peu dotées, qui n'ont pas ces garanties. Cette thèse vise donc à tirer parti d'une multitude de sources et ressources cross-lingues, en opérant une combinaison sélective : il s'agit d'évaluer, pour chaque aspect du traitement cible, la pertinence de chaque ressource. L'étude est menée en utilisant l'analyse en dépendance par transition comme cadre applicatif. Le cœur de ce travail est l'élaboration d'un nouveau méta-algorithme de transfert, dont l'architecture en cascade permet la combinaison fine des diverses ressources, en ciblant leur exploitation à l'échelle du mot. L'approche cross-lingue pure n'étant en l'état pas compétitive avec la simple annotation de quelques phrases cibles, c'est avant tout la complémentarité de ces méthodes que souligne l'analyse empirique. Une série de nouvelles métriques permet une caractérisation fine des similarités cross-lingues et des spécificités syntaxiques de chaque langue, de même que de la valeur ajoutée de l'information cross-lingue par rapport au cadre monolingue. L'exploitation d'informations typologiques s'avère également particulièrement fructueuse. Ces contributions reposent largement sur des innovations techniques en analyse syntaxique, concrétisées par la publication en open source du logiciel PanParser, qui exploite et généralise la méthode dite des oracles dynamiques. Cette thèse contribue sur le plan monolingue à plusieurs autres égards, comme le concept de cascades monolingues, pouvant traiter par exemple d'abord toutes les dépendances faciles, puis seulement les difficiles. / As a result of the recent blossoming of Machine Learning techniques, the Natural Language Processing field faces an increasingly thorny bottleneck: the most efficient algorithms entirely rely on the availability of large training data. These technological advances remain consequently unavailable for the 7,000 languages in the world, out of which most are low-resourced. One way to bypass this limitation is the approach of cross-lingual transfer, whereby resources available in another (source) language are leveraged to help building accurate systems in the desired (target) language. However, despite promising results in research settings, the standard transfer techniques lack the flexibility regarding cross-lingual resources needed to be fully usable in real-world scenarios: exploiting very sparse resources, or assorted arrays of resources. This limitation strongly diminishes the applicability of that approach. This thesis consequently proposes to combine multiple sources and resources for transfer, with an emphasis on selectivity: can we estimate which resource of which language is useful for which input? This strategy is put into practice in the frame of transition-based dependency parsing. To this end, a new transfer framework is designed, with a cascading architecture: it enables the desired combination, while ensuring better targeted exploitation of each resource, down to the level of the word. Empirical evaluation dampens indeed the enthusiasm for the purely cross-lingual approach -- it remains in general preferable to annotate just a few target sentences -- but also highlights its complementarity with other approaches. Several metrics are developed to characterize precisely cross-lingual similarities, syntactic idiosyncrasies, and the added value of cross-lingual information compared to monolingual training. The substantial benefits of typological knowledge are also explored. The whole study relies on a series of technical improvements regarding the parsing framework: this work includes the release of a new open source software, PanParser, which revisits the so-called dynamic oracles to extend their use cases. Several purely monolingual contributions complete this work, including an exploration of monolingual cascading, which offers promising perspectives with easy-then-hard strategies.
222

Recurrent neural models and related problems in natural language processing

Zhang, Saizheng 04 1900 (has links)
No description available.
223

Marqueurs discursifs de neurodégénérescence liée à la pathologie Alzheimer

Slegers, Antoine 06 1900 (has links)
La maladie d’Alzheimer (MA) et les aphasies progressives primaires (APP) s’accompagnent de perturbations du langage expressif parfois subtiles, mais précoces dans l’évolution de ces maladies neurodégénératives. Considérés dans une approche automatisée, ces changements pourraient constituer des marqueurs de dégénérescence identifiés de façon non invasive et peu onéreuse. À ce titre, ils font l’objet d’études visant à automatiser leur utilisation clinique. Cependant, l’intégration des marqueurs langagiers à une approche diagnostique centrée sur les biomarqueurs reste à faire. À cette fin, la présente thèse a deux objectifs. D’abord, recenser systématiquement les marqueurs du discours qui distinguent le mieux les personnes avec une MA de témoins en santé. Ensuite, appliquer une approche automatisée et à un large éventail de marqueurs de discours pour identifier, dans un groupe hétérogène de patients avec une APP, lesquels ont une pathologie Alzheimer sous-jacente. Afin de mettre en contexte ces deux objectifs, nous proposons une introduction générale comprenant les éléments suivants : la pathophysiologie de la MA et des APP, le rôle croissant des biomarqueurs dans la prise de décision clinique dans les maladies neurodégénératives, les études pionnières du discours en neurodégénérescence, ainsi que de récentes études computationnelles sur les marqueurs de discours dans la MA et les APP. Nos résultats font émerger un patron multidimensionnel (acoustique, lexical, syntaxique, sémantique et pragmatique) de changements langagiers qui distinguent les personnes avec une MA de témoins en santé, avec une prépondérance des marqueurs lexicosémantiques. Dans le groupe de patients avec une APP avec une imagerie amyloïde positive ou négative, nous mesurons ensuite le pouvoir de classification d’un court échantillon de discours et montrons qu’il peut être avantageusement comparé à d’autres biomarqueurs. Nous discutons du patron spécifique de marqueurs discriminants pour ce sous-groupe de patients, notamment l’importance des marqueurs psycholinguistiques pour prédire le résultat de l’imagerie amyloïde à partir du discours. / Alzheimer’s disease (AD) and primary progressive aphasias (PPA) feature changes in expressive language that appear early in the course of the disease. Within an automated analysis framework, these language changes could offer a non-invasive and inexpensive alternative to the collection of biomarkers which are not readily available in most settings. Current research is thus focused on the automated analysis of language data for clinical use. The usefulness of connected speech (CS) markers has not yet been established in a diagnostic perspective focused on biomarkers. To this aim, the present thesis contains two phases. First, we systematically review the CS markers that best differentiate persons with AD from healthy controls. Second, we automatically extract a wide array of CS markers in a heterogenous group of PPA patients by combining expert knowledge and the latest natural language processing software. A machine-learning classification approach identifies PPA patients for the presence of underlying AD pathology. The most discriminant CS features are identified. To integrate the two phases of the thesis, we provide a general introduction with the following sections: the pathophysiology of AD and PPAs, the growing importance of biomarkers in clinical decision-making for neurodegenerative diseases, the seminal studies of CS in neurodegenerative diseases, and the latest computational studies of CS markers in AD and PPA. Our results bring forth a multidimensional pattern (acoustic, lexical, syntactic, semantic, pragmatic) of language changes that distinguish people with AD from healthy controls, with an emphasis on lexical-semantic features. In the group of PPA patients with either positive or negative amyloid imaging, we then describe the classificatory power of a short sample of CS and show that it compares favorably to other biomarkers. We discuss the specific pattern of discriminant markers for this subgroup of patients, in particular the role of psycholinguistics.
224

Analyse de l’image de marque sur le Web 2.0 / Analyse of entities representation over the Web 2.0

Cossu, Jean-Valère 16 December 2015 (has links)
Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLab / Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.
225

Alzheimer prediction from connected speech extracts : assessment of generalisation to new data

Chafouleas, Geneviève 09 1900 (has links)
co-direction : Simona Brambati / Plusieurs avancées utilisant le discours obtenu de la tâche de description d’image ont été réalisées dans la détection de la maladie d’Alzheimer (AD). L’utilisation de caractéristiques linguistiques et acoustiques sélectionnées manuellement ainsi que l’utilisation de méthodologies d’apprentissage profond ont montré des résultats très prometteurs dans la classification des patients avec AD. Dans ce mémoire, nous comparons les deux méthodologies sur la scène Cookie Theft du Boston Aphasia Examination en entrainant des modèles avec des caractéristiques sélectionnées à partir des extraits textuels et audio ainsi que sur un modèle d’apprentissage profond BERT. Nos modèles sont entrainés sur l’ensemble de données ADReSS challenge plus récent et évaluées sur l’ensemble de données CCNA et vice versa pour mesurer la généralisation des modèles sur des exemples jamais vus dans des ensembles de données différents. Une évaluation détaillée de l’interprétabilité des modèles est effectuée pour déterminer si les modèles ont bien appris les représentations reliées à la maladie. Nous observons que les modèles ne performent pas bien lorsqu’ils sont évalués sur différents ensembles de données provenant du même domaine. Les représentations apprises des modèles entrainés sur les deux ensembles de données sont très différentes, ce qui pourrait expliquer le bas niveau de performance durant l’étape d’évaluation. Même si nous démontrons l’importance des caractéristiques linguistiques sur la classification des AD vs contrôle, nous observons que le meilleur modèle est BERT avec un niveau d’exactitude de 62.6% sur les données ADReSS challenge et 66.7% sur les données CCNA. / Many advances have been made in the early diagnosis of Alzheimer’s Disease (AD) using connected speech elicited from a picture description task. The use of hand built linguistic and acoustic features as well as Deep Learning approaches have shown promising results in the classification of AD patients. In this research, we compare both approaches on the Cookie Theft scene from the Boston Aphasia Examination with models trained with features derived from the text and audio extracts as well as a Deep Learning approach using BERT. We train our models on the newer ADReSS challenge dataset and evaluate on the CCNA dataset and vice versa in order to asses the generalisation of the trained model on unseen examples from a different dataset. A thorough evaluation of the interpretability of the models is performed to see how well each of the models learn the representations related to the disease. It is observed that the models do not perform well when evaluated on a different dataset from the same domain. The selected and learned representations from the models trained on either dataset are very different and may explain the low performance in the evaluation step. While we demonstrate the importance of linguistic features in the classification of AD vs non-AD, we find the best overall model is BERT which achieves a test accuracy of 62.6% on the ADRess challenge dataset and 66.7% on the CCNA dataset.
226

La protection des renseignements personnels dans l'exploitation des assistants vocaux.

Rouhana, Jad 09 1900 (has links)
Les assistants vocaux ont mis au jour une nouvelle manière pour l’humain d’interagir avec les technologies en n’utilisant que la voix. Une technologie qui est également évolutive et interactive grâce à l’intelligence artificielle. Nous verrons que les caractéristiques techniques et logicielles les composant concourent à une collecte massive de renseignements personnels par les entreprises. L’imprécision des politiques de confidentialité, l’absence d’information sur le mode de fonctionnement, l’imperfection du traitement automatique du langage naturel (ci-après le « TALN ») caractérisée par les faux positifs et les difficultés inhérentes à l’exercice par l’individu de certains de ses droits tendent à limiter l’effectivité des différentes lois existantes à l’assistant vocal. En outre, la possibilité pour plusieurs personnes d’interagir avec l’objet ainsi que son absence d’autonomie tendent à compliquer l’application des régimes de responsabilité civile, dont celui résultant du fait des biens. Cette apparition récente de l’assistant vocal n’a pour l’heure pas permis au juge de se prononcer pour faire évoluer les jurisprudences relatives au droit à la vie privée, à la protection des renseignements personnels et à la responsabilité civile. Celles déjà existantes ne semblent plus être adaptées à ce contexte technologique autour de l’assistant vocal, et plus généralement autour de la voix. C’est ainsi que le test de Oakes, permettant de déterminer le caractère raisonnable d’une violation des droits et libertés énoncés dans la Charte canadienne, repris pour être appliqué à la LPRPDE, apparaît comme étant inadapté à ce nouveau contexte technologique. Enfin, le manque de pouvoirs conférés aux autorités compétentes représente un obstacle majeur dans le suivi de l’application des règles de droit. / Voice assistants bring a new way for humans to interact with technology by only using their voice. Scalable and interactive technology thanks to artificial intelligence. We will see that the technical and software characteristics of voice assistants contribute to a massive collection of personal information by companies. The imprecision of confidentiality policies, the absence of information on the mode of operation, the imperfection of the Natural Language Processing characterized by false positives and the difficulties inherent in the exercise by individuals of some of their rights contribute to the mismatch between voice assistants and various existing laws. In addition, the possibility for people to interact with the object as well as its lack of autonomy tend to complicate the application of civil liability regimes, including that resulting from the act of thing. This recent appearance of voice assistants has so far not giving judges the possibility to rule on the right to privacy, protection of personal information and civil liability. Current case law doesn’t seem to be well adapted to the technological context around the voice assistant, and more generally the voice. The Oakes test, which was design to determining the reasonableness of a violation of the rights and freedoms set out in the Canadian Charter, appears to be unsuited to this new context. We will see that the lack of powers conferred on the competent authorities represents a major obstacle in monitoring the application of the rule of law.
227

Regroupement de textes avec des approches simples et efficaces exploitant la représentation vectorielle contextuelle SBERT

Petricevic, Uros 12 1900 (has links)
Le regroupement est une tâche non supervisée consistant à rassembler les éléments semblables sous un même groupe et les éléments différents dans des groupes distincts. Le regroupement de textes est effectué en représentant les textes dans un espace vectoriel et en étudiant leur similarité dans cet espace. Les meilleurs résultats sont obtenus à l’aide de modèles neuronaux qui affinent une représentation vectorielle contextuelle de manière non supervisée. Or, cette technique peuvent nécessiter un temps d’entraînement important et sa performance n’est pas comparée à des techniques plus simples ne nécessitant pas l’entraînement de modèles neuronaux. Nous proposons, dans ce mémoire, une étude de l’état actuel du domaine. Tout d’abord, nous étudions les meilleures métriques d’évaluation pour le regroupement de textes. Puis, nous évaluons l’état de l’art et portons un regard critique sur leur protocole d’entraînement. Nous proposons également une analyse de certains choix d’implémentation en regroupement de textes, tels que le choix de l’algorithme de regroupement, de la mesure de similarité, de la représentation vectorielle ou de l’affinage non supervisé de la représentation vectorielle. Finalement, nous testons la combinaison de certaines techniques ne nécessitant pas d’entraînement avec la représentation vectorielle contextuelle telles que le prétraitement des données, la réduction de dimensionnalité ou l’inclusion de Tf-idf. Nos expériences démontrent certaines lacunes dans l’état de l’art quant aux choix des métriques d’évaluation et au protocole d’entraînement. De plus, nous démontrons que l’utilisation de techniques simples permet d’obtenir des résultats meilleurs ou semblables à des méthodes sophistiquées nécessitant l’entraînement de modèles neuronaux. Nos expériences sont évaluées sur huit corpus issus de différents domaines. / Clustering is an unsupervised task of bringing similar elements in the same cluster and different elements in distinct groups. Text clustering is performed by representing texts in a vector space and studying their similarity in this space. The best results are obtained using neural models that fine-tune contextual embeddings in an unsupervised manner. However, these techniques require a significant amount of training time and their performance is not compared to simpler techniques that do not require training of neural models. In this master’s thesis, we propose a study of the current state of the art. First, we study the best evaluation metrics for text clustering. Then, we evaluate the state of the art and take a critical look at their training protocol. We also propose an analysis of some implementation choices in text clustering, such as the choice of clustering algorithm, similarity measure, contextual embeddings or unsupervised fine-tuning of the contextual embeddings. Finally, we test the combination of contextual embeddings with some techniques that don’t require training such as data preprocessing, dimensionality reduction or Tf-idf inclusion. Our experiments demonstrate some shortcomings in the state of the art regarding the choice of evaluation metrics and the training protocol. Furthermore, we demonstrate that the use of simple techniques yields better or similar results to sophisticated methods requiring the training of neural models. Our experiments are evaluated on eight benchmark datasets from different domains.
228

Autoencoders for natural language semantics

Bosc, Tom 09 1900 (has links)
Les auto-encodeurs sont des réseaux de neurones artificiels qui apprennent des représentations. Dans un auto-encodeur, l’encodeur transforme une entrée en une représentation, et le décodeur essaie de prédire l’entrée à partir de la représentation. Cette thèse compile trois applications de ces modèles au traitement automatique des langues : pour l’apprentissage de représentations de mots et de phrases, ainsi que pour mieux comprendre la compositionnalité. Dans le premier article, nous montrons que nous pouvons auto-encoder des définitions de dictionnaire et ainsi apprendre des vecteurs de définition. Nous proposons une nouvelle pénalité qui nous permet d’utiliser ces vecteurs comme entrées à l’encodeur lui-même, mais aussi de les mélanger des vecteurs distributionnels pré-entraînés. Ces vecteurs de définition capturent mieux la similarité sémantique que les méthodes distributionnelles telles que word2vec. De plus, l’encodeur généralise à un certain degré à des définitions qu’il n’a pas vues pendant l’entraînement. Dans le deuxième article, nous analysons les représentations apprises par les auto-encodeurs variationnels séquence-à-séquence. Nous constatons que les encodeurs ont tendance à mémo- riser les premiers mots et la longueur de la phrase d’entrée. Cela limite considérablement leur utilité en tant que modèles génératifs contrôlables. Nous analysons aussi des variantes architecturales plus simples qui ne tiennent pas compte de l’ordre des mots, ainsi que des mé- thodes basées sur le pré-entraînement. Les représentations qu’elles apprennent ont tendance à encoder plus nettement des caractéristiques globales telles que le sujet et le sentiment, et cela se voit dans les reconstructions qu’ils produisent. Dans le troisième article, nous utilisons des simulations d’émergence du langage pour étudier la compositionnalité. Un locuteur – l’encodeur – observe une entrée et produit un message. Un auditeur – le décodeur – tente de reconstituer ce dont le locuteur a parlé dans son message. Nous émettons l’hypothèse que faire des phrases impliquant plusieurs entités, telles que « Jean aime Marie », nécessite fondamentalement de percevoir chaque entité comme un tout. Nous dotons certains agents de cette capacité grâce à un mechanisme d’attention, alors que d’autres en sont privés. Nous proposons différentes métriques qui mesurent à quel point les langues des agents sont naturelles en termes de structure d’argument, et si elles sont davantage analytiques ou synthétiques. Les agents percevant les entités comme des touts échangent des messages plus naturels que les autres agents. / Autoencoders are artificial neural networks that learn representations. In an autoencoder, the encoder transforms an input into a representation, and the decoder tries to recover the input from the representation. This thesis compiles three different applications of these models to natural language processing: for learning word and sentence representations, as well as to better understand compositionality. In the first paper, we show that we can autoencode dictionary definitions to learn word vectors, called definition embeddings. We propose a new penalty that allows us to use these definition embeddings as inputs to the encoder itself, but also to blend them with pretrained distributional vectors. The definition embeddings capture semantic similarity better than distributional methods such as word2vec. Moreover, the encoder somewhat generalizes to definitions unseen during training. In the second paper, we analyze the representations learned by sequence-to-sequence variational autoencoders. We find that the encoders tend to memorize the first few words and the length of the input sentence. This limits drastically their usefulness as controllable generative models. We also analyze simpler architectural variants that are agnostic to word order, as well as pretraining-based methods. The representations that they learn tend to encode global features such as topic and sentiment more markedly, and this shows in the reconstructions they produce. In the third paper, we use language emergence simulations to study compositionality. A speaker – the encoder – observes an input and produces a message about it. A listener – the decoder – tries to reconstruct what the speaker talked about in its message. We hypothesize that producing sentences involving several entities, such as “John loves Mary”, fundamentally requires to perceive each entity, John and Mary, as distinct wholes. We endow some agents with this ability via an attention mechanism, and deprive others of it. We propose various metrics to measure whether the languages are natural in terms of their argument structure, and whether the languages are more analytic or synthetic. Agents perceiving entities as distinct wholes exchange more natural messages than other agents.
229

Evaluating approaches to solving proportional sentence analogies

Blain-Montesano, Yves 02 1900 (has links)
L'analogie, c'est-à-dire une correspondance entre deux entités, est considérée une capacité de raisonnement importante. L'analogie proportionnelle, écrite $a:b::c:d$ et qui se lit ``$a$ est à $b$ ce que $c$ est à $d$'', en est un cas particulier où la correspondance tient de par la relation entre les éléments de deux paires d'objets. Le mémoire évalue certaines méthodes issues de l'usage de représentations distributionnelles vectorielles dans la résolution d'analogies proportionnelles verbales et les mène à leur prolongement naturel, la phrase. Nous ciblons la compétence de modèles de langue et des représentations qui peuvent en être extraites à la résolution d'analogies proportionnelles formées sur la base de relations syntaxiques, sémantiques, ou de connaissance encyclopédique. Peu d'ensembles de données existent pour les analogies de phrase et sinon comprennent pour la plupart des analogies au niveau de la forme, composées de phrases construites à partir de gabarits, ou bien variant peu dans les relations sémantiques qui tiennent entre les phrases. Nous construisons donc un ensemble de données contenant des phrases en paires relationnelles qui nous permet de construire des analogies en appariant deux paires. Nous essayons différentes variations de méthodes qui comportent un objectif de recouvrement par un modèle vectoriel. D'autres méthodes de résolution d'analogies proportionnelles sont explorées par voie de génération de texte. Nous expérimentons par le peaufinement du modèle de langue Flan-T5, pré-entraîné sur des paires instruction-réponse, sur nos analogies par une tâche séquence à séquence, ainsi que par l'incitation avec peu d'exemples en utilisant des versions de ce modèle en variant la capacité jusque dans la gamme des milliards de paramètres. En somme, la performance observée est faible pour toutes les tâches. Nous concluons, de l'utilisation de plongements de phrase, quelques mises en garde similaires à celles que l'on trouve avec la résolution d'analogies verbales par plongements lexicaux. Nos expérimentations génératives démontrent l'importance de données à la fois de bonne qualité et de bonne quantité, ainsi que le potentiel de l'apprentissage en contexte. Nous ajoutons à cela un aperçu qualitatif de la disparité entre l'habileté de modèles probabilistes entraînés pour prédire, à partir d'une instruction, la séquence correcte, et celle d'un modèle peaufiné par la méthode d'apprentissage par renforcement avec commentaires humains, à savoir ChatGPT. / Analogy, the correspondence between two things, has been hailed as an important reasoning capability. Proportional analogy, denoted $a:b::c:d$, read ``$a$ is to $b$ as $c$ is to $d$'' is a special case of this where a correspondence is made in the relation that holds between the elements of two pairs. This thesis evaluates methods originating in the recent use of distributional vector representations for solving four-part word analogies, bringing them to their natural extension, sentences. Few datasets of proportional sentence analogies exist, typically comprising purely formal analogies or sentences constructed by templates, and where semantic relations are typically limited in the variety we would hope to capture. Thus, for the purposes of our experiments, we curate a dataset of pairs of sentences for which a given relation holds and from which analogies can be constructed by matching pairs within a relation together. We target the analogy-solving ability of language models and representations derived therefrom, specifically as regards proportional sentence analogies formed on the basis of syntax, semantics, or encyclopedic knowledge. Different variations on previous methods are explored, all based on retrieval of the solution in a vector space model. Other methods of solving proportional sentence analogies by generation are attempted. We experiment with finetuning the instruction-trained Flan-T5 language model on sentence analogies as a sequence-to-sequence task, as well as prompting model checkpoints up into the billion-parameter range with few-shot examples. Overall performance at the task is poor in both settings. We find that similar caveats which apply to analogical reasoning with word vectors apply to sentence embeddings as well. Our generative experiments show the importance of data of suitable quality and quantity, as well the potential of in-context learning. Some qualitative insights are shown as to the disparity in task ability of instruction-trained probabilistic language models and one finetuned by reinforcement learning with human feedback, namely ChatGPT.
230

Traitement automatique du langage naturel pour les textes juridiques : prédiction de verdict et exploitation de connaissances du domaine

Salaün, Olivier 12 1900 (has links)
À l'intersection du traitement automatique du langage naturel et du droit, la prédiction de verdict ("legal judgment prediction" en anglais) est une tâche permettant de représenter la question de la justice prédictive, c'est-à-dire tester les capacités d'un système automatique à prédire le verdict décidé par un juge dans une décision de justice. La thèse présente de bout en bout la mise en place d'une telle tâche formalisée sous la forme d'une classification multilabel, ainsi que différentes stratégies pour tenter d'améliorer les performances des classifieurs. Le tout se base sur un corpus de décisions provenant du Tribunal administratif du logement du Québec (litiges entre propriétaires et locataires). Tout d'abord, un prétraitement préliminaire et une analyse approfondie du corpus permettent d'en tirer les aspects métier les plus saillants. Cette étape primordiale permet de s'assurer que la tâche de prédiction de verdict a du sens, et de mettre en relief des biais devant être pris en considération pour les tâches ultérieures. En effet, à l'issue d'un premier banc d'essai comparant différents modèles sur cette tâche, ces derniers tendent à exacerber des biais préexistant dans le corpus (p. ex. ils donnent encore moins gain de cause aux locataires par rapport à un juge humain). Fort de ce constat, la suite des expériences vise à améliorer les performances de classification et à atténuer ces biais, en se focalisant sur CamemBERT. Pour ce faire, des connaissances du domaine cible (droit du logement) sont exploitées. Une première approche consiste à employer des articles de loi comme données d'entrée qui font l'objet de différentes représentations, mais c'est cependant loin d'être la panacée. Une autre approche employant la modélisation thématique s'intéresse aux thèmes pouvant être extraits à partir du texte décrivant les faits litigieux. Une évaluation automatique et manuelle des thèmes obtenus démontre leur informativité vis-à-vis des motifs amenant des justiciables à se rendre au tribunal. Avec ce constat, la dernière partie de notre travail revisite une nouvelle fois la tâche de prédiction de verdict en s'appuyant à la fois sur des systèmes de recherche d'information (RI), et des thèmes associés aux décisions. Les modèles conçus ici ont la particularité de s'appuyer sur une jurisprudence (décisions passées pertinentes) récoltée selon différents critères de recherche (p. ex. similarité au niveau du texte et/ou des thèmes). Les modèles utilisant des critères de RI basés sur des sacs-de-mots (Lucene) et des thèmes obtiennent des gains significatifs en termes de scores F1 Macro. Cependant, le problème d'amplification des biais persiste encore bien qu'atténué. De manière globale, l'exploitation de connaissances du domaine permet d'améliorer les performances des prédicteurs de verdict, mais la persistance de biais dans les résultats décourage le déploiement de tels modèles à grande échelle dans le monde réel. D'un autre côté, les résultats de la modélisation thématique laissent entrevoir de meilleurs débouchés pour ce qui relève de l'accessibilité et de la lisibilité des documents juridiques par des utilisateurs humains. / At the intersection of natural language processing and law, legal judgment prediction is a task that can represent the problem of predictive justice, or in other words, the capacity of an automated system to predict the verdict decided by a judge in a court ruling. The thesis presents from end to end the implementation of such a task formalized as a multilabel classification, along with different strategies attempting to improve classifiers' performance. The whole work is based on a corpus of decisions from the Administrative housing tribunal of Québec (disputes between landlords and tenants). First of all, a preliminary preprocessing and an in-depth analysis of the corpus highlight its most prominent domain aspects. This crucial step ensures that the verdict prediction task is sound, and also emphasizes biases that must be taken into consideration for future tasks. Indeed, a first testbed comparing different models on this task reveals that they tend to exacerbate biases pre-existing within the corpus (i.e. their verdicts are even less favourable to tenants compared with a human judge). In light of this, the next experiments aim at improving classification performance and at mitigating these biases, by focusing on CamemBERT. In order to do so, knowledge from the target domain (housing law) are exploited. A first approach consists in employing articles of law as input features which are used under different representations, but such method is far from being a panacea. Another approach relying on topic modeling focuses on topics that can be extracted from the text describing the disputed facts. An automatic and manual evaluation of topics obtained shows evidence of their informativeness about reasons leading litigants to go to court. On this basis, the last part of our work revisits the verdict prediction task by relying on both information retrieval (IR) system, and topics assigned to decisions. The models designed here have the particularity to rely on jurisprudence (relevant past cases) retrieved with different search criteria (e.g. similarity at the text or topics level). Models using IR criteria based on bags-of-words (Lucene) and topics obtain significant gains in terms of Macro F1 scores. However, the aforementioned amplified biases issue, though mitigated, still remains. Overall, the exploitation of domain-related knowledge can improve the performance of verdict predictors, but the persistence of biases in the predictions hinders the deployment of such models on a large scale in the real world. On the other hand, results obtained from topic modeling suggest better prospects for anything that can improve the accessibility and readability of legal documents by human users.

Page generated in 0.1625 seconds