This paper presents a piece of software to automatically extract requirements captured in Microsoft Word files while using domain knowledge. In a subsequent step, these requirements are enhanced for implementation purposes and ultimately saved to ReqIF, an XML-based file format for the exchange of specification documents. ReqIF can be processed by a wide range of industry-standard requirements management tools. By way of this enhancement a formalization of both the document structure and selected elements of its natural language contents is achieved.
In its current version, the software was specifically developed for processing the Subset-026, a conceptually demanding specification document covering the core functionality of the pan-European train protection system ETCS.
Despite this initial focus, the two-part design of this thesis facilitates a generic applicability of its findings: Section 2 presents the fundamental challenges of weakly structured specification documents and devotes a large part to the computation of unique, but human-readable requirement identifiers. Section 3, however, delves into more domain-specific features, the text processing capabilities, and the actual implementation of this novel software.
Due to the open-source nature of the application, an adaption to other use-cases can be achieved with comparably little effort.:1 Introduction 13
1.1 Motivation 14
1.2 Previous formalization attempts 15
2 Processing specification documents 17
2.1 Structural considerations 17
2.1.1 The input format: DOC 18
2.1.2 Different parts of a specification document 20
2.1.3 The output format: ReqIF 20
2.2 Enhancing requirement content 23
2.2.1 Visualizing dependencies 25
2.2.2 Querying for data 25
2.3 Computing requirement identifiers 28
2.3.1 Unwinding complex structures: Tables 33
2.3.2 Unwinding complex structures: Other structures 37
2.3.3 Summary 38
3 The tool 41
3.1 Basic usage 41
3.1.1 Dealing with embedded media 43
3.2 ReqIF output 45
3.2.1 Data associated with a requirement artifact 46
3.2.2 Links between requirement artifacts 52
3.2.3 Issues with IBM DOORS 55
3.3 Content formalization 56
3.3.1 Detection of recurring elements 56
3.3.2 Sublist dependencies 58
3.3.3 Intra-cell requirements 59
3.3.4 Unformalizable elements 61
3.4 Inner workings 62
3.4.1 List hierarchy algorithm 64
3.4.2 Techniques for natural language content 69
3.5 Comparison to other tools 72
3.6 Applying this tool to other documents 74
3.7 EN 50128 tool qualification 76
4 Outlook 77
5 Conclusion 79
A Appendices 83
A.1 Postprocessing statistics data 83
A.1.1 Clean up spurious external links 83
A.1.2 Merge data of several tool runs 84
A.2 Subset-026 keywords 85
A.2.1 Legal obligation 85
A.2.2 Weak words 85
A.2.3 Other keywords for the implementerEnhanced-field 86
Lists of Figures, Tables and Listings 87
Glossary 89
Terms specific to this thesis 92
Bibliography 93 / Diese Arbeit befasst sich mit einer Software zur automatisierten Extraktion von Anforderungen aus Dokumenten im Microsoft Word Format unter Nutzung von Domänenwissen. In einem nachgelagerten Schritt werden diese Anforderungen für Implementierungszwecke aufgewertet und schließlich als ReqIF, einem XML-basierten Dateiformat zum Austausch von Spezifikationsdokumenten, gespeichert. ReqIF wird von zahlreichen branchenüblichen Anforderungsmanagementwerkzeugen unterstützt. Durch die Aufwertung wird eine Formalisierung der Struktur sowie ausgewählter Teile der natürlichsprachlichen Inhalte des Dokuments erreicht.
Die jetzige Version der Software wurde speziell für die Verarbeitung des Subset-026 entwickelt, eines konzeptionell anspruchsvollen Anforderungsdokuments zur Beschreibung der Kernfunktionalität des europaweiten Zugsicherungssystems ETCS.
Trotz dieser ursprünglichen Intention erlaubt die zweigeteilte Gestaltung der Arbeit eine allgemeine Anwendung der Ergebnisse: Abschnitt 2 zeigt die grundsätzlichen Herausforderungen in Bezug auf schwach strukturierte Anforderungsdokumente auf und widmet sich dabei ausführlich der Ermittlung von eindeutigen, aber dennoch menschenlesbaren Anforderungsidentifikatoren. Abschnitt 3 befasst sich hingegen eingehender mit den domänenspezifischen Eigenschaften, den Textaufbereitungsmöglichkeiten und der konkreten Implementierung der neuen Software.
Da die Software unter open-source Prinzipien entwickelt wurde, ist eine Anpassung an andere Anwendungsfälle mit relativ geringem Aufwand möglich.:1 Introduction 13
1.1 Motivation 14
1.2 Previous formalization attempts 15
2 Processing specification documents 17
2.1 Structural considerations 17
2.1.1 The input format: DOC 18
2.1.2 Different parts of a specification document 20
2.1.3 The output format: ReqIF 20
2.2 Enhancing requirement content 23
2.2.1 Visualizing dependencies 25
2.2.2 Querying for data 25
2.3 Computing requirement identifiers 28
2.3.1 Unwinding complex structures: Tables 33
2.3.2 Unwinding complex structures: Other structures 37
2.3.3 Summary 38
3 The tool 41
3.1 Basic usage 41
3.1.1 Dealing with embedded media 43
3.2 ReqIF output 45
3.2.1 Data associated with a requirement artifact 46
3.2.2 Links between requirement artifacts 52
3.2.3 Issues with IBM DOORS 55
3.3 Content formalization 56
3.3.1 Detection of recurring elements 56
3.3.2 Sublist dependencies 58
3.3.3 Intra-cell requirements 59
3.3.4 Unformalizable elements 61
3.4 Inner workings 62
3.4.1 List hierarchy algorithm 64
3.4.2 Techniques for natural language content 69
3.5 Comparison to other tools 72
3.6 Applying this tool to other documents 74
3.7 EN 50128 tool qualification 76
4 Outlook 77
5 Conclusion 79
A Appendices 83
A.1 Postprocessing statistics data 83
A.1.1 Clean up spurious external links 83
A.1.2 Merge data of several tool runs 84
A.2 Subset-026 keywords 85
A.2.1 Legal obligation 85
A.2.2 Weak words 85
A.2.3 Other keywords for the implementerEnhanced-field 86
Lists of Figures, Tables and Listings 87
Glossary 89
Terms specific to this thesis 92
Bibliography 93
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:28980 |
Date | 25 August 2015 |
Creators | Dorka, Moritz |
Contributors | Scholz, Sven, Schütte, Jörg, Technische Universität Dresden |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | English |
Detected Language | English |
Type | doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0028 seconds