Return to search

Réutilisation d'entités nommées pour la réponse au courriel

La réponse automatique aux courriels est une solution envisagée pour faciliter le
travail de certains services d’entreprises, tels que les services à la clientèle ou les relations
avec des investisseurs, services confrontés à un grand nombre de courriels souvent
répétitifs. Nous avons décidé d’adapter une approche de raisonnement à base de cas (CBR -
Case-Based Reasoning) pour confronter ce problème. Cette approche vise à réutiliser des
messages antérieurs pour répondre à de nouveaux courriels, en sélectionnant une réponse
adéquate parmi les messages archivés et en l’adaptant pour la rendre pertinent par rapport
au contexte de la nouvelle requête.
L’objectif de nos travaux est de définir une démarche pour aider l’usager d’un
système de réponse au courriel à réutiliser les entités nommées de courriels antécédents.
Cependant, les entités nommées nécessitent une adaptation avant d’être réutilisées. Pour ce
faire, nous effectuons deux tâches qui sont d’abord l’identification des portions modifiables
du message antécédent et ensuite la sélection des portions qui seront adaptées pour
construire la réponse à la requête.
Les deux tâches nécessitent l’utilisation de connaissances. Notre problématique
consiste à déterminer si les approches adaptatives, basées sur des techniques
d’apprentissage automatique permettent d’acquérir des connaissances pour réutiliser
efficacement des entités nommées. La première tâche d’identification des portions
modifiables s’apparente à l’extraction d’information. Toutefois nous nous intéressons
uniquement aux entités nommées et à leurs spécialisations. La seconde tâche, la sélection
de portions à adapter, correspond à une catégorisation de textes dans laquelle nous utilisons
la requête pour attribuer une classe à la réponse que nous devons construire. La classe nous
indique quelles entités doivent être adaptées.
ii
Nous avons étudiés et comparées différentes approches pour les deux tâches. Ainsi,
nous avons testés pour l’extraction, les approches manuelle et automatiques, de haut en bas
(top-down) et de bas vers le haut (bottom-up) sur un corpus de courriels. Les résultats
obtenus par l’approche manuelle sont excellents. Toutefois nous observons une dégradation
pour les approches automatiques. Pour la catégorisation, Nous avons évalué différentes
représentations des textes et des mots, l’utilisation de poids pour ces derniers, et l’impact
d’une compression obtenue par l’utilisation de règles d’association. Les résultats obtenus
sont généralement satisfaisants et nous indique que notre approche, composée des deux
tâches décrites précédemment, pourrait s’appliquer à notre problème de réponse
automatique aux courriels. / An automatic e-mail response system is a solution for improving the operations of certain
business services, like customers’ services or investor relations. Those services are dealing
with a large volume requests coming through e-mail messages, most of them being
repetitive. We have decided to explore a CBR approach (Case-Based Reasoning) for this
problem. Such an approach makes use of antecedent messages to respond to new incoming
e-mails. Requests coming from customers or investors are often redundant; we could select
an adequate answer among the archived messages, and then adapt it to make it coherent
with the actual context of the new message request.
In this project, we address the re-use problem, but more specifically the identification of
named entity and their specialized roles. These entities are portions of text strongly depend
on the context of the antecedent message, and hence need some adaptation to be re-used.
We divide the reuse process in two tasks which are:
a) the identification of modifiable portions of an antecedent message;
b) the selection of portions to be adapted to build the answer of the request.
For first task, we make use of information extraction techniques. But we will concentrate
our efforts uniquely on the extraction of named entities and their specializations. For
second task we make use of text classification techniques to decide which portions are
subject to adaptation. This decision is based on the context of the request, words which
compose it.
We used different approaches for the two tasks. We tested manual and automatics top-down
and bottom-up extraction techniques on an e-mail corpus for the identification of
iv
modifiable portions extraction task. Manual approach gives us excellent results. But, we
notice a degradation of performance for automatic extraction techniques. For the selection
of portions to be adapted, we compared made use of association rules and various word
representation. Association rules use permits to compress data without degrades results a
lot. Globally, results are good and indicate that our approach, desrcibes before, could be
applied to our problem.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QQLA.2006/23631
Date05 1900
CreatorsDanet, Laurent
ContributorsLamontagne, Luc
PublisherUniversité Laval
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formattext/html, application/pdf
Rights© Laurent Danet, 2006

Page generated in 0.0015 seconds