Return to search

Regroupement de textes avec des approches simples et efficaces exploitant la représentation vectorielle contextuelle SBERT

Le regroupement est une tâche non supervisée consistant à rassembler les éléments semblables
sous un même groupe et les éléments différents dans des groupes distincts. Le regroupement
de textes est effectué en représentant les textes dans un espace vectoriel et en étudiant leur
similarité dans cet espace. Les meilleurs résultats sont obtenus à l’aide de modèles neuronaux
qui affinent une représentation vectorielle contextuelle de manière non supervisée. Or, cette
technique peuvent nécessiter un temps d’entraînement important et sa performance n’est
pas comparée à des techniques plus simples ne nécessitant pas l’entraînement de modèles
neuronaux.
Nous proposons, dans ce mémoire, une étude de l’état actuel du domaine. Tout d’abord,
nous étudions les meilleures métriques d’évaluation pour le regroupement de textes. Puis,
nous évaluons l’état de l’art et portons un regard critique sur leur protocole d’entraînement.
Nous proposons également une analyse de certains choix d’implémentation en regroupement
de textes, tels que le choix de l’algorithme de regroupement, de la mesure de similarité, de
la représentation vectorielle ou de l’affinage non supervisé de la représentation vectorielle.
Finalement, nous testons la combinaison de certaines techniques ne nécessitant pas d’entraînement avec la représentation vectorielle contextuelle telles que le prétraitement des données,
la réduction de dimensionnalité ou l’inclusion de Tf-idf.
Nos expériences démontrent certaines lacunes dans l’état de l’art quant aux choix des
métriques d’évaluation et au protocole d’entraînement. De plus, nous démontrons que l’utilisation de techniques simples permet d’obtenir des résultats meilleurs ou semblables à des
méthodes sophistiquées nécessitant l’entraînement de modèles neuronaux. Nos expériences
sont évaluées sur huit corpus issus de différents domaines. / Clustering is an unsupervised task of bringing similar elements in the same cluster and
different elements in distinct groups. Text clustering is performed by representing texts in a
vector space and studying their similarity in this space. The best results are obtained using
neural models that fine-tune contextual embeddings in an unsupervised manner. However,
these techniques require a significant amount of training time and their performance is not
compared to simpler techniques that do not require training of neural models.
In this master’s thesis, we propose a study of the current state of the art. First, we study
the best evaluation metrics for text clustering. Then, we evaluate the state of the art and take
a critical look at their training protocol. We also propose an analysis of some implementation
choices in text clustering, such as the choice of clustering algorithm, similarity measure,
contextual embeddings or unsupervised fine-tuning of the contextual embeddings. Finally,
we test the combination of contextual embeddings with some techniques that don’t require
training such as data preprocessing, dimensionality reduction or Tf-idf inclusion.
Our experiments demonstrate some shortcomings in the state of the art regarding the
choice of evaluation metrics and the training protocol. Furthermore, we demonstrate that the
use of simple techniques yields better or similar results to sophisticated methods requiring
the training of neural models. Our experiments are evaluated on eight benchmark datasets
from different domains.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/27952
Date12 1900
CreatorsPetricevic, Uros
ContributorsLanglais, Philippe
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.003 seconds