Return to search

Analysis of the long term dynamics in thesaurus developments and its consequences

Die Arbeit analysiert die dynamische Entwicklung und den Gebrauch von Thesaurusbegriffen. Zusätzlich konzentriert sie sich auf die Faktoren, die die Zahl von Indexbegriffen pro Dokument oder Zeitschrift beeinflussen. Als Untersuchungsobjekt dienten der MeSH und die entsprechende Datenbank „MEDLINE“. Die wichtigsten Konsequenzen sind: 1. Der MeSH-Thesaurus hat sich durch drei unterschiedliche Phasen jeweils logarithmisch entwickelt. Solch einen Thesaurus sollte folgenden Gleichung folgen: „T = 3.076,6 Ln (d) – 22.695 + 0,0039d“ (T = Begriffe, Ln = natürlicher Logarithmus und d = Dokumente). Um solch einen Thesaurus zu konstruieren, muss man demnach etwa 1.600 Dokumente von unterschiedlichen Themen des Bereiches des Thesaurus haben. Die dynamische Entwicklung von Thesauri wie MeSH erfordert die Einführung eines neuen Begriffs pro Indexierung von 256 neuen Dokumenten. 2. Die Verteilung der Thesaurusbegriffe erbrachte drei Kategorien: starke, normale und selten verwendete Headings. Die letzte Gruppe ist in einer Testphase, während in der ersten und zweiten Kategorie die neu hinzukommenden Deskriptoren zu einem Thesauruswachstum führen. 3. Es gibt ein logarithmisches Verhältnis zwischen der Zahl von Index-Begriffen pro Aufsatz und dessen Seitenzahl für die Artikeln zwischen einer und einundzwanzig Seiten. 4. Zeitschriftenaufsätze, die in MEDLINE mit Abstracts erscheinen erhalten fast zwei Deskriptoren mehr. 5. Die Findablity der nicht-englisch sprachigen Dokumente in MEDLINE ist geringer als die englische Dokumente. 6. Aufsätze der Zeitschriften mit einem Impact Factor 0 bis fünfzehn erhalten nicht mehr Indexbegriffe als die der anderen von MEDINE erfassten Zeitschriften. 7. In einem Indexierungssystem haben unterschiedliche Zeitschriften mehr oder weniger Gewicht in ihrem Findability. Die Verteilung der Indexbegriffe pro Seite hat gezeigt, dass es bei MEDLINE drei Kategorien der Publikationen gibt. Außerdem gibt es wenige stark bevorzugten Zeitschriften. / This dissertation analyzes dynamic developments and use of thesauri. It focuses also on six effecting factors on the number of index terms per document or journal. MeSH and its corresponding well known database “MEDLINE” were established to conduct this research. The main consequences of statistical analyses are: 1. MeSH has developed logarithmically through three different phases. Such a thesaurus should follow the equation “T = 3,076.6 Ln(d) –22,695 + 0.0039d” (T = thesaurus terms, Ln = natural logarithm, and d = documents). To construct such a thesaurus, one needs to have at least 1,600 documents covering different topics of the thesaurus. The dynamic of thesauri such as MeSH is due to the persistent inclusion of one new term per indexing of 256 new documents. 2. The distribution of thesaurus terms yielded three classes: highly, normally, and rarely used terms. The last group is in a test phase, and only growth rates of most frequented terms in the first class and newer terms in the second class were becoming persistent over time. 3. There is a logarithmic relationship between the number of index terms per article and its pages, if the articles are between one and twenty-one pages. 4. Journal articles with abstracts received almost two more terms than those included into MEDLINE without abstracts. 5. The findability of non-English documents, such as articles written in German and indexed in an US-based database like MEDLINE, is less than that of English documents. The greatest difference is for articles with ten pages and the least is for those with twenty and more pages. 6. Journals with Impact Factors in the range from 0 to fifteen receive roughly the same number of index terms per page. 7. In an indexing system, different journals have more or less weight in their findability. Distribution of index terms per page has shown that there are three regions of journals in MEDLINE. In addition, few journals are the most favored ones and get more index term per page.

Identiferoai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/16314
Date20 August 2007
CreatorsTavakolizadeh-Ravari, Mohammad
ContributorsUmstätter, Walther, Funk, Robert
PublisherHumboldt-Universität zu Berlin, Philosophische Fakultät I
Source SetsHumboldt University of Berlin
LanguageEnglish
Detected LanguageGerman
TypedoctoralThesis, doc-type:doctoralThesis
Formatapplication/pdf

Page generated in 0.0028 seconds