Global ETD Search

Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPM

Les technologies numériques de l'information et de la communication sont de plus en plus utilisées. Certes, ces technologies offrent des moyens de communication pratiques, mais elles soulèvent des préoccupations concernant la protection de la vie privée et le respect en ligne. Les utilisations malveillantes des courriels ne cessent de croître et la quantité de spams a rendu pratiquement impossible d'analyser les courriels manuellement. Vu ces problématiques, le besoin de techniques automatisées, capables d'analyser des données est devenu primordial. Plusieurs applications se basant sur l'apprentissage automatique se sont établies pour analyser des données textuelles de grand volume. Les techniques du « Text Mining » analysent des données textuelles en utilisant des méthodes d'apprentissage automatique afin d'extraire les principales tendances. Cependant, les techniques de « Text Mining » ne sont capables d'être utilisées que si les données sont déjà préparées et bien structurées. Cette recherche a deux objectifs : 1) Concevoir un outil original de préparation de données qui offre et regroupe des fonctionnalités primordiales dans l'étape de préparation de données textuelles. Nous n'avons pas trouvé ces fonctionnalités dans d'autres outils de préparation de données (Sato, Alceste, WordStat, NLTK) ce qui a créé un besoin de concevoir notre logiciel. Nous l'avons appelé outil de Préparation de Données Textuelles basé sur la Programmation Modulaire, PDTPM. 2) Application des méthodes d'apprentissage automatiques dédiées au « Text Mining » pour classifier un ensemble de courriels et détecter les spams. Pour le premier objectif, après avoir étudié le processus de préparation de données, l'étude propose un outil de Préparation de Données Textuelles. Cette plateforme permet de considérer en entrée un ensemble de données textuelles brutes et de générer en sortie ces données sous une forme bien structurée qui consiste en une matrice de données documents-mots. En ce qui concerne le deuxième objectif de notre recherche, nous explorons des courriels d'une base de données publique, Lingspam, pour les classifier au moyen de méthodes d'apprentissage automatique en spams et courriels légitimes.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : text mining, apprentissage automatique, préparation des données textuelles, détection de spams, filtrage de courriels.

Apprentissage automatique

Classification automatique (Statistique)

Courrier électronique

Exploration de texte

Filtrage de l'information

Pourriel

Préparation des données (Informatique)

Identifer	oai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMUQ.5679
Date	01 1900
Creators	Ziri, Oussama
Source Sets	Library and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
Detected Language	French
Type	Mémoire accepté, NonPeerReviewed
Format	application/pdf
Relation	http://www.archipel.uqam.ca/5679/

Page generated in 0.0025 seconds

Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPM

Description

Links & Downloads

Tags

Additional Fields