• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Du texto vers la norme : traduire automatiquement le langage SMS

Munger, Jessy 02 February 2024 (has links)
De nouvelles technologies comme le téléphone cellulaire ont révolutionné nos échanges comme jamais auparavant. Pour les utilisateurs, ces nouveaux canaux de communication représentent un contexte informel propice à l'exploration d'une forme récente d'écriture qui s'éloigne considérablement de la norme académique : le langage SMS. Devant l'ascension de cette forme d'expression, différentes méthodes ont été testées par le passé pour tenter de normaliser l'écrit SMS, c'est-à-dire le convertir en un français normé en vue de l'appliquer à d'éventuelles tâches de traitement automatique du langage. Or, très rares sont les études réalisées en français qui adoptent les réseaux de neurones comme solution de normalisation. La présente étude vise donc à produire un logiciel prototype pour normaliser automatiquement le langage SMS, en se servant d'une architecture encodeur-décodeur constituée de réseaux de neurones à mémoire à long et à court terme (LSTM). L'architecture neuronale est entraînée et évaluée sur la base du corpus belge de Fairon et al. (2006), en testant le mot et le caractère comme unités de base. Au-delà du logiciel prototype, cette étude se veut surtout une occasion d'explorer les points forts et les points faibles d'une telle approche neuronale dans le cadre de la normalisation du langage SMS. Avec un score BLEU-4 encourageant -- compte tenu de la taille limitée du corpus -- de près de 0,5, le modèle à base de mots est supérieur à celui à base de caractères. Malgré tout, la méthode produit un nombre considérable d'erreurs que nous attribuons en grande partie à la taille modeste du corpus, mais aussi à la nature même des réseaux de neurones.

Page generated in 0.0326 seconds