Les travaux présentés se situent dans le cadre d'extraction de connaissance à partir de données. Un contexte d'étude intéressant et d'actualité a été choisi : les sites web adaptatifs. Pour mettre en oeuvre, de manière la plus automatique possible, de tels sites adaptés aux utilisateurs, nous décidons d'apprendre des modèles d'utilisateurs ou, plus précisément, de leurs types de navigations sur un site web donné. Ces modèles sont appris par inférence grammaticale. Les données disponibles liées au contexte du Web sont particulièrement difficiles à récupérer proprement. Nous choisissons de nous focaliser sur les fichiers de logs serveur en supprimant le bruit inhérent à ces derniers. L'inférence grammaticale peut généraliser ses données d'entrée pour obtenir de bons modèles de langages. Nous travaillons sur les mesures de similarité entre langages pour l'évaluation de la qualité des modèles appris. L'introduction d'une mesure euclidienne entre modèles de langages représentés sous forme d'automates permet de pallier les problèmes des métriques existantes. Des résultats théoriques montrent que cette mesure a les propriétés d'une vraie distance. Enfin, nous présentons divers résultats d'expérimentation sur des données du web que nous pré-traitons avant d'apprendre grâce à elles des modèles utilisateurs issus de l'inférence grammaticale stochastique. Les résultats obtenus sont sensiblement meilleurs que ceux présents dans l'état de l'art, notamment sur les tâches de prédiction de nouvelle page dans une navigation utilisateur.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00366586 |
Date | 12 December 2006 |
Creators | Murgue, Thierry |
Publisher | Ecole Nationale Supérieure des Mines de Saint-Etienne, Université Jean Monnet - Saint-Etienne |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0279 seconds