1 |
Des textes communautaires à la recommandation / From texts to recommendationPoirier, Damien 11 February 2011 (has links)
La thèse concerne la transformation de données textuelles non structurées en données structurées et exploitables par des systèmes de recommandation. Deux grandes catégories d'informations sont utilisées dans le domaine des moteurs de recommandation : les données descriptives de contenus comme les méta-données ou les tags (filtrage thématique), et les données d'usages qui peuvent être des notes ou encore des pages Web visitées par exemple (filtrage collaboratif). D'autres données sont présentes sur le Web et ne sont pas encore réellement exploitées. Avec l'émergence du Web 2.0, les internautes sont de plus en plus amenés à partager leurs sentiments, opinions, expériences sur des produits, personnalités, films, musiques, etc. Les données textuelles produites par les utilisateurs représentent potentiellement des sources riches d'informations qui peuvent être complémentaires des données exploitées actuellement par les moteurs de recommandation et peuvent donc ouvrir de nouvelles voies d'études dans ce domaine en plein essor. Notre objectif dans le cadre de la thèse est de produire, à partir de commentaires issus de sites communautaires (blogs ou forums), des matrices d'entrées pertinentes pour les systèmes de recommandation. L'idée sous-jacente est de pouvoir enrichir un système pour un service débutant, qui possède encore peu d'utilisateurs propres, et donc peu de données d'usages, par des données issues d'autres utilisateurs. Nous faisons tout d'abord un état de l'art de la recommandation automatique. Nous présentons ensuite le moteur ainsi que les données utilisées pour les expérimentations. Le chapitre suivant décrit les premières expérimentations en mode thématique. Nous faisons ensuite un nouvel état de l'art sur la classification d'opinion. Pour finir, nous décrivons les expérimentations menées pour l'approche collaborative à l'aide de la classification d'opinion. / The thesis is about the transformation of unstructured textual data in structured data in order to be used by a recommender system. Recommender systems can operate on two main types of data: content descriptors as metadata or tags (content-based filtering), and usage data as rates or visited Web pages for example (collaborative filtering). Other data exist on the Web which are not used yet. With the emergence of the Web 2.0, users share their feelings, opinions, experiences on products, personalities, movies, music, etc. (through comments for example). This textual data generated by users potentially represent rich sources of information which can supplement data exploited by recommender systems. The exploitation of this kind of data could open new paths in this burgeoning field. Our objective in this thesis is to generate matrices relevant for recommender systems. The underlying idea is to enrich a system for a beginner service, which has still few own users, then too little usage data, by information on other users on the Web. The thesis begins with a state of the art of automatic recommendation. Then, we present the recommender systems and the textual corpus used for experiments. The next chapter presents first experiments with the content-based filtering approach. The next part contains the state of the art of opinion mining. Finally, we describe experiments done with collaborative filtering approach using opinion classification.
|
2 |
Des textes communautaires à la recommandationPoirier, Damien 11 February 2011 (has links) (PDF)
La thèse concerne la transformation de données textuelles non structurées en données structurées et exploitables par des systèmes de recommandation. Deux grandes catégories d'informations sont utilisées dans le domaine des moteurs de recommandation : les données descriptives de contenus comme les méta-données ou les tags (filtrage thématique), et les données d'usages qui peuvent être des notes ou encore des pages Web visitées par exemple (filtrage collaboratif). D'autres données sont présentes sur le Web et ne sont pas encore réellement exploitées. Avec l'émergence du Web 2.0, les internautes sont de plus en plus amenés à partager leurs sentiments, opinions, expériences sur des produits, personnalités, films, musiques, etc. Les données textuelles produites par les utilisateurs représentent potentiellement des sources riches d'informations qui peuvent être complémentaires des données exploitées actuellement par les moteurs de recommandation et peuvent donc ouvrir de nouvelles voies d'études dans ce domaine en plein essor. Notre objectif dans le cadre de la thèse est de produire, à partir de commentaires issus de sites communautaires (blogs ou forums), des matrices d'entrées pertinentes pour les systèmes de recommandation. L'idée sous-jacente est de pouvoir enrichir un système pour un service débutant, qui possède encore peu d'utilisateurs propres, et donc peu de données d'usages, par des données issues d'autres utilisateurs. Nous faisons tout d'abord un état de l'art de la recommandation automatique. Nous présentons ensuite le moteur ainsi que les données utilisées pour les expérimentations. Le chapitre suivant décrit les premières expérimentations en mode thématique. Nous faisons ensuite un nouvel état de l'art sur la classification d'opinion. Pour finir, nous décrivons les expérimentations menées pour l'approche collaborative à l'aide de la classification d'opinion.
|
Page generated in 0.1009 seconds