Return to search

Automatizovano izdvajanje semantike iz naučnih članaka u oblasti informatike / A scientific-research activities information system

<p style="text-align: justify; ">Cilj - Cilj istraživanja je razvoj modela, implementacija prototipa i verifikacija sistema za ekstrakciju metodologija iz naučnih članaka iz oblasti Informatike. Da bi se, pomoću tog sistema, naučnicima mogao obezbediti bolji uvid u metodologije u svojim oblastima potrebno je ekstrahovane metodolgije povezati sa metapodacima vezanim za publikaciju iz koje su ekstrahovani. Iz tih razloga istraživanje tako&ntilde;e za cilj ima i razvoj modela sistema za automatsku ekstrakciju metapodataka iz naučnih članaka. Metodologija - Ekstrahovane metodologije se kategorizuju u četiri kategorije: kategorizuju se u četiri semantičke kategorije: zadatak (Task), metoda (Method), resurs/osobina (Resource/Feature) i implementacija (Implementation). Sistem se sastoji od dva nivoa: prvi je automatska identifikacija metodolo&scaron;kih rečenica; drugi nivo vr&scaron;i prepoznavanje metodolo&scaron;kih fraza (segmenata). Zadatak ekstrakcije i<br />kategorizacije formalizovan je kao problem označavanja sekvenci i upotrebljena su četiri zasebna Conditional Random Fields modela koji su zasnovani na sintaktičkim frazama. Sistem je evaluiran na ručno anotiranom korpusu iz oblasti Automatske Ekstrakcije Termina koji se sastoji od 45 naučnih članaka. Sistem za automatsku ekstrakciju metapodataka zasnovan je na klasifikaciji. Klasifikacija metapodataka vr&scaron;i se u osam unapred definisanih sematičkih kategorija: Naslov, Autori, Pripadnost, Adresa, Email, Apstrakt, Ključne reči i Mesto publikacije. Izvr&scaron;eni su eksperimenti sa<br />svim standardnim modelima za klasifikaciju: naivni bayes, stablo odlučivanja, k-najbližih suseda i ma&scaron;ine potpornih vektora. Rezultati - Sistem za ekstrakciju<br />metodologija postigao je sledeće rezultate: F-mera od 53% za identifikaciju Task i Method kategorija (sa precizno&scaron;ću od 70%) dok su vrednosti za F-mere za Resource/Feature i Implementation kategorije bile 60% (sa precizno&scaron;ću od 67%) i 75% (sa precizno&scaron;ću od 85%) respektivno. Nakon izvr&scaron;enih klasifikacionih eksperimenata, za sistem za ekstrakciju metapodataka, utvr&ntilde;eno je da ma&scaron;ine potpornih vektora (SVM) pružaju najbolje performanse. Dobijeni rezultati SVM modela su generalno dobri, F-mera preko 85% kod skoro svih kategorija, a preko 90% kod većine. Ograničenja istraživanja/implikacije - Sistem za ekstrakciju metodologija, kao i sistem za esktrakciju metapodataka primenljivi su samo na naučne članke na<br />engleskom jeziku. Praktične implikacije - Predloženi modeli mogu se, pre svega, koristiti za analizu i pregled razvoja naučnih oblasti kao i za kreiranje sematički bogatijih informacionih sistema naučno-istraživačke delatnosti.<br />Originalnost/vrednost - Originalni doprinosi su sledeći: razvijen je model za ekstrakciju i semantičku kategorijzaciju metodologija iz naučnih članaka iz oblasti<br />Informatike, koji nije opisan u postojećoj literaturi. Izvr&scaron;ena je analiza uticaja različitih vrsta osobina na ekstrakciju metodolo&scaron;kih fraza. Razvijen je u potpunosti automatizovan sistem za ekstrakciju metapodataka u informacionim sistemima naučno-istraživačke delatnosti.</p> / <p style="text-align: justify; "> Purpose - The purpose of this research&nbsp;is model development, software&nbsp;prototype implementation and&nbsp;verification of the system for the&nbsp;identification of methodology mentions&nbsp;in scientific publications in a subdomain&nbsp;of automatic terminology&nbsp;extraction. In order to provide a better&nbsp;insight for scientists into the<br /> methodologies in their fields extracted&nbsp;methodologies should be connected&nbsp;with the metadata associated with the&nbsp;publication from which they are&nbsp;extracted. For this reason the purpose&nbsp;of this research was also a development&nbsp;of a system for the automatic extraction&nbsp;of metadata from scientific&nbsp;publications.&nbsp;Design/methodology/approach -&nbsp;Methodology mentions are categorized&nbsp;in four semantic categories: Task,&nbsp;Method, Resource/Feature and&nbsp;Implementation. The system comprises&nbsp;two major layers: the first layer is an&nbsp;automatic identification of&nbsp;methodological sentences; the second&nbsp;layer highlights methodological phrases&nbsp;(segments). Extraction and&nbsp;classification of the segments was&nbsp;171&nbsp;formalized as a sequence tagging&nbsp;problem and four separate phrase-based&nbsp;Conditional Random Fields were used&nbsp;to accomplish the task. The system has&nbsp;been evaluated on a manually&nbsp;annotated corpus comprising 45 full&nbsp;text articles. The system for the&nbsp;automatic extraction of metadata from&nbsp;scientific publications is based on&nbsp;classification. The metadata are&nbsp;classified eight pre-defined categories:<br /> Title, Authors, Affiliation, Address,&nbsp;Email, Abstract, Keywords and&nbsp;Publication Note. Experiments were&nbsp;performed with standard classification&nbsp;models: Decision Tree, Naive Bayes,&nbsp;K-nearest Neighbours and Support&nbsp;Vector Machines.&nbsp;Findings - The results of the system for&nbsp;methodology extraction show an Fmeasure&nbsp;of 53% for identification of&nbsp;both Task and Method mentions (with&nbsp;70% precision), whereas the Fmeasures&nbsp;for Resource/Feature and&nbsp;Implementation identification was 60%&nbsp;(with 67% precision) and 75% (with&nbsp;85% precision) respectively. As for the&nbsp;system for the automatic extraction of&nbsp;metadata Support Vector Machines&nbsp;provided the best performance. The Fmeasure&nbsp;was over 85% for almost all of&nbsp;the categories and over 90% for the&nbsp;most of them.&nbsp;Research limitations/implications -&nbsp;Both the system for the extractions of&nbsp;methodologies and the system for the&nbsp;extraction of metadata are only&nbsp;applicable to the scientific papers in&nbsp;English language.&nbsp;172&nbsp;Practical implications - The proposed&nbsp;models can be used in order to gain&nbsp;insight into a development of a&nbsp;scientific discipline and also to create&nbsp;semantically rich research activity<br /> information systems.&nbsp;Originality/Value - The main original&nbsp;contributions are: a novel model for the&nbsp;extraction of methodology mentions&nbsp;from scientific publications. The&nbsp;impact of the various types of features&nbsp;on the performance of the system was&nbsp;determined and presented. A fully&nbsp;automated system for the extraction of&nbsp;metadata for the rich research activity<br /> information systems was developed.</p>

Identiferoai:union.ndltd.org:uns.ac.rs/oai:CRISUNS:(BISIS)76735
Date14 September 2011
CreatorsKovačević Aleksandar
ContributorsKonjović Zora, Surla Dušan, Milosavljević Milan, Nenadić Goran, Milosavljević Branko, Vidaković Milan
PublisherUniverzitet u Novom Sadu, Fakultet tehničkih nauka u Novom Sadu, University of Novi Sad, Faculty of Technical Sciences at Novi Sad
Source SetsUniversity of Novi Sad
LanguageSerbian
Detected LanguageUnknown
TypePhD thesis
Formatapplication/pdf

Page generated in 0.003 seconds