Return to search

Lexicalisation souple en réalisation de texte

GenDR est un réalisateur de texte symbolique qui prend en entrée un graphe, une repré-
sentation sémantique, et génère les graphes sous forme d’arbres de dépendances syntaxiques
lui correspondant. L’une des tâches de GenDR lui permettant d’effectuer cette transduction
est la lexicalisation profonde. Il s’agit de choisir les bonnes unités lexicales exprimant les
sémantèmes de la représentation sémantique d’entrée. Pour ce faire, GenDR a besoin d’un
dictionnaire sémantique établissant la correspondance entre les sémantèmes et les unités lexi-
cales correspondantes dans une langue donnée.
L’objectif de cette étude est d’élaborer un module de lexicalisation souple construisant
automatiquement un dictionnaire sémantique du français riche pour GenDR, son dictionnaire
actuel étant très pauvre. Plus le dictionnaire de GenDR est riche, plus sa capacité à paraphra-
ser s’élargit, ce qui lui permet de produire la base de textes variés et naturels correspondant à
un même sens. Pour y parvenir, nous avons testé deux méthodes.
La première méthode consistait à réorganiser les données du Réseau Lexical du Français
sous la forme d’un dictionnaire sémantique, en faisant de chacun de ses noeuds une entrée
du dictionnaire et des noeuds y étant reliés par un type de lien lexical que nous appelons
fonctions lexicales paradigmatiques sémantiquement vides ses lexicalisations.
La deuxième méthode consistait à tester la capacité d’un modèle de langue neuronal
contextuel à générer des lexicalisations supplémentaires potentielles correspondant aux plus
proches voisins du vecteur calculé pour chaque entrée du dictionnaire afin de l’enrichir.
Le dictionnaire construit à partir du Réseau lexical du français est compatible avec GenDR
et sa couverture a été considérablement élargie. L’utilité des lexicalisations supplémentaires
générées par le modèle neuronal s’est avérée limitée, ce qui nous amène à conclure que le
modèle testé n’est pas tout à fait apte à accomplir le genre de tâche que nous lui avons de-
mandée. / GenDR is an automatic text realiser. Its input is a graph; a semantic representation, and
its output is the corresponding syntactic dependencies tree graphs. One of GenDR’s tasks
to operate this transduction successfully is called deep lexicalization, i.e. choosing the right
lexical units to express the input semantic representation’s semantemes. To do so, GenDR
needs access to a semantic dictionnary that maps the semantemes to the corresponding lexical
units in a given language.
This study aims to develop a flexible lexicalization module to build a rich French semantic
dictionary automatically for GenDR, its current one being very poor. The more data the
semantic dictionary contains, the more paraphrases GenDR is able to produce, which enables
it to generate the basis for natural and diverse texts associated to a same meaning. To achieve
this, we have tested two different methods.
The first one involved the reorganization of the French Lexical Network in the shape of a
semantic dictionary, by using each of the network’s nodes as a dictionary entry and the nodes
linked to it by a special lexical relationship we call semantically empty paradigmatic lexical
functions as its lexicalizations.
The second method involved testing a contextual neural language model’s ability to gen-
erate potential additional lexicalizations by calculating the vector of each of the dictionary
entries and generating its closest neighbours in order to expand the semantic dictionary’s
coverage.
The dictionary we built from the data contained in the French Lexical Network is com-
patible with GenDR and its coverage has been significantly broadened. Use of the additional
lexicalizations produced by the language model turned out to be limited, which brings us to
the conclusion that the tested model isn’t completely able to perform the task we’ve asked
from it.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32004
Date08 1900
CreatorsGazeau, Avril
ContributorsLareau, François
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0028 seconds