Return to search

Réutilisation d'entités nommées pour la réponse au courriel

La réponse automatique aux courriels est une solution envisagée pour faciliter le travail de certains services d’entreprises, tels que les services à la clientèle ou les relations avec des investisseurs, services confrontés à un grand nombre de courriels souvent répétitifs. Nous avons décidé d’adapter une approche de raisonnement à base de cas (CBR - Case-Based Reasoning) pour confronter ce problème. Cette approche vise à réutiliser des messages antérieurs pour répondre à de nouveaux courriels, en sélectionnant une réponse adéquate parmi les messages archivés et en l’adaptant pour la rendre pertinent par rapport au contexte de la nouvelle requête. L’objectif de nos travaux est de définir une démarche pour aider l’usager d’un système de réponse au courriel à réutiliser les entités nommées de courriels antécédents. Cependant, les entités nommées nécessitent une adaptation avant d’être réutilisées. Pour ce faire, nous effectuons deux tâches qui sont d’abord l’identification des portions modifiables du message antécédent et ensuite la sélection des portions qui seront adaptées pour construire la réponse à la requête. Les deux tâches nécessitent l’utilisation de connaissances. Notre problématique consiste à déterminer si les approches adaptatives, basées sur des techniques d’apprentissage automatique permettent d’acquérir des connaissances pour réutiliser efficacement des entités nommées. La première tâche d’identification des portions modifiables s’apparente à l’extraction d’information. Toutefois nous nous intéressons uniquement aux entités nommées et à leurs spécialisations. La seconde tâche, la sélection de portions à adapter, correspond à une catégorisation de textes dans laquelle nous utilisons la requête pour attribuer une classe à la réponse que nous devons construire. La classe nous indique quelles entités doivent être adaptées. ii Nous avons étudiés et comparées différentes approches pour les deux tâches. Ainsi, nous avons testés pour l’extraction, les approches manuelle et automatiques, de haut en bas (top-down) et de bas vers le haut (bottom-up) sur un corpus de courriels. Les résultats obtenus par l’approche manuelle sont excellents. Toutefois nous observons une dégradation pour les approches automatiques. Pour la catégorisation, Nous avons évalué différentes représentations des textes et des mots, l’utilisation de poids pour ces derniers, et l’impact d’une compression obtenue par l’utilisation de règles d’association. Les résultats obtenus sont généralement satisfaisants et nous indique que notre approche, composée des deux tâches décrites précédemment, pourrait s’appliquer à notre problème de réponse automatique aux courriels. / An automatic e-mail response system is a solution for improving the operations of certain business services, like customers’ services or investor relations. Those services are dealing with a large volume requests coming through e-mail messages, most of them being repetitive. We have decided to explore a CBR approach (Case-Based Reasoning) for this problem. Such an approach makes use of antecedent messages to respond to new incoming e-mails. Requests coming from customers or investors are often redundant; we could select an adequate answer among the archived messages, and then adapt it to make it coherent with the actual context of the new message request. In this project, we address the re-use problem, but more specifically the identification of named entity and their specialized roles. These entities are portions of text strongly depend on the context of the antecedent message, and hence need some adaptation to be re-used. We divide the reuse process in two tasks which are: a) the identification of modifiable portions of an antecedent message; b) the selection of portions to be adapted to build the answer of the request. For first task, we make use of information extraction techniques. But we will concentrate our efforts uniquely on the extraction of named entities and their specializations. For second task we make use of text classification techniques to decide which portions are subject to adaptation. This decision is based on the context of the request, words which compose it. We used different approaches for the two tasks. We tested manual and automatics top-down and bottom-up extraction techniques on an e-mail corpus for the identification of iv modifiable portions extraction task. Manual approach gives us excellent results. But, we notice a degradation of performance for automatic extraction techniques. For the selection of portions to be adapted, we compared made use of association rules and various word representation. Association rules use permits to compress data without degrades results a lot. Globally, results are good and indicate that our approach, desrcibes before, could be applied to our problem.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/18858
Date12 April 2018
CreatorsDanet, Laurent
ContributorsLamontagne, Luc
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
Typemémoire de maîtrise, COAR1_1::Texte::Thèse::Mémoire de maîtrise
Format92 p., application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0024 seconds