In this project, we address the task of nested noun phrase identification in English sentences, where a phrase is defined as a group of words functioning as one unit in a sentence. Prior research has extensively explored the identification of various phrases for language understanding and text generation tasks. Our aim is to tackle the novel challenge of identifying nested noun phrases within sentences. To accomplish this, we first review existing work on related topics such as partial parsing and noun phrase identification. Subsequently, we propose a novel approach based on transformer models to recursively identify nested noun phrases in sentences. We fine-tune a pre-trained uncased BERT model to detect phrase structures in a sentence and determine whether they represent noun phrases. Our recursive approach involves merging relevant segments of a sentence and assigning labels to the noun phrases at each step, facilitating the identification of nested structures. The evaluation of our model demonstrates promising results, achieving a high accuracy of up to 93.6% when considering all noun phrases in isolation and 90.9% when accounting for the predicted phrase structure of the sentence. Additionally, our model exhibits a recall rate of 83.5% and 81.2% at both levels, respectively. Overall, our model proves to be effective in identifying nested noun phrases, showcasing the potential of transformer-based models in phrase structure identification. Future research should explore further applications and enhancements of such models in this domain. / I detta projekt tar vi upp uppgiften att identifiera nästlade substantivfraser i engelska meningar, där en fras definieras som en grupp ord som fungerar som en enhet i en mening. Tidigare forskning har utförligt utforskat identifieringen av olika fraser för språkförståelse och textgenereringsuppgifter. Vårt mål är att ta itu med den nya utmaningen att identifiera nästlade substantivfraser i meningar. För att åstadkomma detta granskar vi först befintligt arbete med relaterade ämnen som partiell analys och identifiering av substantivfraser. Därefter föreslår vi en ny metod baserad på transformers-modeller för att rekursivt identifiera nästlade substantivfraser i meningar. Vi finjusterar en förtränad BERT-modell utan kapsling för att upptäcka frasstrukturer i en mening och avgöra om de representerar substantivfraser. Vårt rekursiva tillvägagångssätt innebär att sammanfoga relevanta segment av en mening och att tilldela etiketter till substantivfraserna vid varje steg, vilket underlättar identifieringen av nästlade strukturer. Utvärderingen av vår modell visar lovande resultat och uppnår en hög precision på upp till 93,6% när man tar hänsyn till alla substantivfraser isolerat och 90,9% när man tar hänsyn till meningens förutsagda frasstruktur. Dessutom uppvisar vår modell en täckning (recall) på 83,5% respektive 81,2% på båda nivåerna. Sammantaget visar vår modell sig vara effektiv för att identifiera nästlade substantivfraser, vilket visar potentialen hos transformers-modeller för identifiering av frasstruktur. Framtida forskning bör utforska ytterligare tillämpningar och förbättringar av sådana modeller på detta område.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-341880 |
Date | January 2023 |
Creators | Misra, Shweta |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:806 |
Page generated in 0.003 seconds