Ce travail de recherche s'inscrit dans le cadre des méthodes de la linguistique de corpus et procède des besoins d'exploitation formulés dans le domaine du marketing à l'égard des conversations des internautes. Deux pistes sont poursuivies, la première relevant de leur description du point de vue de l'analyse des conversations et de la textométrie, la seconde visant des applications pratiques relatives à la fouille de textes. Une méthode de description systématique et automatisable est proposée, à partir de laquelle un procédé de mesure de l'engagement conversationnel des participants est mis en œuvre. L'étude des diagrammes d'engagement conversationnel (DEC) produits à partir de cette mesure permet d'observer des régularités typologiques dans les postures manifestées par les participants. Ce travail met également en exergue l'apport de la méthode textométrique pour l'acquisition de connaissances utiles à des fins de catégorisation automatique. Plusieurs analyses textométriques sont utilisées (spécificités, segments répétés, inventaires distributionnels) pour élaborer un modèle de connaissance dédié à la détection des intentions d'achat dans des fils de discussion issus d'un forum automobile. Les résultats obtenus, encourageants malgré la rareté des signaux exploitables au sein du corpus étudié, soulignent l'intérêt d'articuler des techniques d'analyse textométrique et de fouille de données textuelles au sein d'un même procédé d'acquisition de connaissances pour l'analyse automatique des conversations des internautes. / This research is part of the methods of corpus linguistics and proceeds from the needs expressed in the field of marketing regarding conversations of internet users. Two lines of research are investigated, the first falling under the perspective of conversation analysis and textometry, the second focuses on practical applications for text mining. A systematic and automated description is provided, from which a method of measuring participants' conversational engagement is implemented. The study of conversational engagement diagrams (CED) produced from this measure allows to observe typological regularities regarding how participants position themselves in conversations. This work also highlights the contribution of the textometric method for acquiring useful knowledge for supervised classification. Several textometric measures are used (specificity, repeated segments, distributional inventories) to develop a knowledge model for the detection of purchase intentions in discussions threads from an automotive forum. The results, encouraging despite the scarcity of usable signals in the corpus, underline the importance of articulating textometric analysis techniques and text mining in the same process of knowledge acquisition for automatic analysis of conversations of internet users.
Identifer | oai:union.ndltd.org:theses.fr/2017USPCA034 |
Date | 17 January 2017 |
Creators | Leenhardt, Marguerite |
Contributors | Sorbonne Paris Cité, Salem, André |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text, Collection |
Page generated in 0.0026 seconds