Return to search

Du texto vers la norme : traduire automatiquement le langage SMS

De nouvelles technologies comme le téléphone cellulaire ont révolutionné nos échanges comme jamais auparavant. Pour les utilisateurs, ces nouveaux canaux de communication représentent un contexte informel propice à l'exploration d'une forme récente d'écriture qui s'éloigne considérablement de la norme académique : le langage SMS. Devant l'ascension de cette forme d'expression, différentes méthodes ont été testées par le passé pour tenter de normaliser l'écrit SMS, c'est-à-dire le convertir en un français normé en vue de l'appliquer à d'éventuelles tâches de traitement automatique du langage. Or, très rares sont les études réalisées en français qui adoptent les réseaux de neurones comme solution de normalisation. La présente étude vise donc à produire un logiciel prototype pour normaliser automatiquement le langage SMS, en se servant d'une architecture encodeur-décodeur constituée de réseaux de neurones à mémoire à long et à court terme (LSTM). L'architecture neuronale est entraînée et évaluée sur la base du corpus belge de Fairon et al. (2006), en testant le mot et le caractère comme unités de base. Au-delà du logiciel prototype, cette étude se veut surtout une occasion d'explorer les points forts et les points faibles d'une telle approche neuronale dans le cadre de la normalisation du langage SMS. Avec un score BLEU-4 encourageant -- compte tenu de la taille limitée du corpus -- de près de 0,5, le modèle à base de mots est supérieur à celui à base de caractères. Malgré tout, la méthode produit un nombre considérable d'erreurs que nous attribuons en grande partie à la taille modeste du corpus, mais aussi à la nature même des réseaux de neurones.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/71032
Date20 December 2021
CreatorsMunger, Jessy
ContributorsLadouceur, Jacques
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
Typemémoire de maîtrise, COAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (xi, 159 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0027 seconds