Return to search

Technical Term Extraction Using Measures of Neology / Facktermsdetektering medelst neologiska kriteria

This study aims to show that frequency of occurrence over time for technical terms differs from general language terms in the sense that technical terms are strongly biased to be recent occurrences, and that this difference can be exploited for the automatic identification and extraction of technical terms from text. To this end, we propose two features extracted from temporally labelled datasets designed to capture surface level n-gram neology. The analysis shows that these features, calculated over consecutive bigrams, are highly indicative of technical terms, which suggests that technical terms are strongly biased to be surface level neologisms. Finally, we implement a technical term extractor using the proposed features and compare its performance against a number of baselines. / Detta arbete ämnar visa att den tidsberoende frekvensen för facktermer skiljer sig från motsvarande frekvens för termer i vardagligt språk, i det avseendet att facktermer med hög sannolikhet är lingvistiska nybildningar, samt att denna iaktagelse kan nyttjas i syfte att automatiskt identifiera och extrahera facktermer i löptext. I detta syfte introducerar vi två särdrag extraherade från kronologiskt annoterade datamängder avsedda att fånga nybildningar av förekommande n-gram. Analysen visar att dessa särdrag, beräknade över konsekutiva bigram, är starkt indikativa för facktermer, vilket antyder att facktermer har en starkt tendens att vara nybildningar. Slutligtvis implementerar vi en facktermsextraktor baserad på dessa särdrag och jämför dess prestanda med ett antal referenssärdrag.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-184186
Date January 2016
CreatorsNorman, Christopher
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds