De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/4938 |
Date | January 2011 |
Creators | Au, Émilie |
Contributors | Wang, Shengrui, Bouguessa, Mohamed |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Mémoire |
Rights | © Émilie Au |
Page generated in 0.002 seconds