Korpusdokumentation wird in dieser Arbeit als eine Voraussetzung für die Wiederverwendung von Korpora und als ein Bestandteil des Forschungsdatenmanagements verstanden, welches unter anderem die Veröffentlichung und Archivierung von Korpora umfasst. Verschiedene Forschungsdaten stellen ganz unterschiedliche Anforderungen an die Dokumentation und können auch unterschiedlich wiederverwendet werden. Ein geeignetes Anwendungsbeispiel stellen historische Textkorpora dar, da sie in vielen Fächern als empirische Grundlage für die Forschung genutzt werden können. Sie zeichnen sich im Weiteren durch vielfältige Unterschiede in ihrer Aufbereitung und durch ein komplexes Verhältnis zu der historischen Vorlage aus. Die Ergebnisse von Transkription und Normalisierung müssen als eigenständige Repräsentationen und Interpretationen im Vergleich zur Vorlage verstanden werden. Was müssen Forscherinnen und Forscher über ihr Korpus mit Hilfe von Metadaten dokumentieren, um dessen Erschließung und Wiederverwendung für andere Forscherinnen und Forscher zu ermöglichen? Welche Funktionen übernehmen dabei die Metadaten? Wie können Metadaten modelliert werden, um auf alle Arten von historischen Korpora angewendet werden zu können? Die Arbeit und ihre Fragestellung sind fest in einem interdisziplinären Kontext verortet. Für die Beantwortung der Forschungsfragen wurden Erkenntnisse und Methoden aus den Fachbereichen der Korpuslinguistik, der historischen Linguistik, der Informationswissenschaft sowie der Informatik theoretisch und empirisch betrachtet und für die Entwicklung eines Metamodells für Korpusmetadaten fruchtbar gemacht. Das im Rahmen dieser Arbeit in UML entwickelte Metamodell für Korpusmetadaten modelliert Metadaten von historischen textbasierten Korpora aus einer technisch-abstrakten, produktorientierten und überfachlichen Perspektive und ist in einer TEI-Spezifikation mit Hilfe der TEI-eigenen Modellierungssprache ODD realisiert. / Corpus documentation is a requirement for enabling corpus reuse scenarios and is a part of research data management which covers, among others, data publication and archiving. Different types of research data make differing demands on corpus documentation, and may be reused in various ways. Historical corpora represent an interesting and challenging use case because they are the foundation for empirical studies in many disciplines and show a great variety of reuse possibilities, of data creation, and of data annotation. Furthermore, the relation between the historical corpus and the historical original is complex. The transcription and normalisation of historical texts must be understood as independent representations and interpretations in their own right. Which kind of metadata information, then, must be included in a corpus documentation in order to enable intellectual access and reuse scenarios? What kind of role do metadata play? How can metadata be designed to be applicable to all types of historical corpora? These research questions can only be addressed with help of an interdisciplinary approach, considering findings and methods of corpus linguistics, historical linguistics, information science and computer science. The metamodel developed in this thesis models metadata of historical text-based corpora from a technical, abstract, and interdisciplinary point of view with help of UML. It is realised as a TEI-specification using the modelling language ODD.
Identifer | oai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/20173 |
Date | 11 September 2018 |
Creators | Odebrecht, Carolin |
Contributors | Lüdeling, Anke, Romary, Laurent |
Publisher | Humboldt-Universität zu Berlin |
Source Sets | Humboldt University of Berlin |
Language | German |
Detected Language | German |
Type | doctoralThesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | (CC BY 3.0 DE) Namensnennung 3.0 Deutschland, http://creativecommons.org/licenses/by/3.0/de/ |
Relation | 10.5281/zenodo.267999 |
Page generated in 0.0027 seconds