Sentence embedding models play a key role in the field of Natural Language Processing. They can be exploited for the resolution of several tasks like sentence paraphrasing, sentence similarity, and sentence clustering. Fine-tuning pre-trained models for sentence embedding extraction is a common practice that allows it to reach state-of-the-art performance on downstream tasks. Nevertheless, this practice usually requires labeled data sets. This thesis project aims to overcome this issue by introducing a novel technique for the automatic creation of a target set for fine-tuning sentence embedding models for a specific downstream task. The technique is evaluated on three distinct tasks: sentence paraphrasing, sentence similarity, and sentence clustering. The results demonstrate a significant improvement in sentence embedding models when employing the Smooth Inverse Frequency technique for automatic extraction and labeling of sentence pairs. In the paraphrasing task, the proposed technique yields a noteworthy enhancement of 2.3% in terms of F1-score compared to the baseline results. Moreover, it showcases a 0.2% improvement in F1-score when compared to the ideal scenario where real labels are utilized. For the sentence similarity task, the proposed method achieves a Pearson score of 0.71, surpassing the baseline model’s score of 0.476. However, it falls short of the ideal model trained with human annotations, which attains a Pearson score of 0.845. Regarding the clustering task, from a quantitative standpoint, the best model achieves a harmonic mean (calculated using DBCV and cophenetic score) of 0.693, outperforming the baseline score of 0.671. Nevertheless, the qualitative assessment did not demonstrate a substantial improvement for the clustering task, highlighting the need for exploring alternative techniques to enhance performance in this area. / Modeller för inbäddning av meningar spelar en nyckelroll inom området Natural Language språkbehandling. De kan utnyttjas för att lösa flera uppgifter som meningsparafrasering, meningslikhet och meningsklustring. Fin- och finjustering av förtränade modeller för extraktion av meningsinbäddning är en vanlig praxis som gör det möjligt att nå toppmoderna prestanda på nedströmsuppgifter. Denna metod kräver dock vanligtvis märkta datauppsättningar. Detta avhandlingsprojekt syftar till att lösa detta problem genom att introducera en ny teknik för det automatiska skapandet av en måluppsättning för finjustering av meningsinbäddningsmodeller för en specifik nedströmsuppgift. Tekniken utvärderas på tre olika uppgifter uppgifter: meningsparafrasering, meningslikhet och meningsklustring. Resultaten visar en betydande förbättring av modellerna för inbäddning av meningar när Smooth Inverse Frequency-tekniken används för automatisk extraktion och märkning av meningspar. I parafraseringsuppgiften ger den föreslagna tekniken en anmärkningsvärd förbättring på 2,3% när det gäller F1-score jämfört med baslinjens resultat. Dessutom visar den en förbättring på 0,2% i F1-score jämfört med det ideala scenariot där riktiga etiketter används. För meningslikhetsuppgiften uppnår den föreslagna metoden en Pearson-poäng på 0,71, vilket överträffar baslinjemodellens poäng på 0,476. Det faller dock under den ideala modellen som tränats med mänskliga anteckningar, vilket uppnår en Pearson-poäng på 0.845. När det gäller klustringsuppgiften uppnår den bästa modellen ur kvantitativ synvinkel ett harmoniskt medelvärde (beräknat med DBCV och cophenetic score) på 0,693, vilket överträffar baslinjens poäng på 0,671. Den kvalitativa bedömningen visade dock inte på någon väsentlig förbättring för klustringsuppgiften, vilket understryker behovet av att utforska alternativa tekniker för att förbättra prestandan inom detta område. Translated with www.DeepL.com/Translator (free version)
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-339783 |
Date | January 2023 |
Creators | Pellegrini, Vittorio |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:748 |
Page generated in 0.003 seconds