Return to search

Question Answering auf dem Lehrbuch 'Health Information Systems' mit Hilfe von unüberwachtem Training eines Pretrained Transformers

Die Extraktion von Wissen aus Büchern ist essentiell und komplex. Besonders
in der Medizininformatik ist ein einfacher und vollständiger
Zugang zu Wissen wichtig. In dieser Arbeit wurde ein vortrainiertes
Sprachmodell verwendet, um den Inhalt des Buches Health Information
Systems von Winter u. a. (2023) effizienter und einfacher zugänglich
zu machen. Während des Trainings wurde die Qualität des Modells
zu verschiedenen Zeitpunkten evaluiert. Dazu beantwortete das Modell
Prüfungsfragen aus dem Buch und aus Modulen der Universität
Leipzig, die inhaltlich auf dem Buch aufbauen. Abschließend wurde
ein Vergleich zwischen den Trainingszeitpunkten, dem nicht weiter
trainierten Modell und dem Stand der Technik Modell GPT4 durchgeführt.
Mit einem MakroF1-Wert von 0,7 erreichte das Modell GPT4 die
höchste Korrektheit bei der Beantwortung der Klausurfragen. Diese
Leistung konnte von den anderen Modellen nicht erreicht werden. Allerdings
stieg die Leistung von einem anfänglichen MakroF1-Wert von
0,13 durch kontinuierliches Training auf 0,33. Die Ergebnisse zeigen eine
deutliche Leistungssteigerung durch diesen Ansatz und bieten eine
Grundlage für zukünftige Erweiterungen. Damit ist die Machbarkeit
der Beantwortung von Fragen zu Informationssystemen im Gesundheitswesen
und der Lösung einer Beispielklausur mit Hilfe von weiter
trainierten Sprachmodellen gezeigt, eine praktische Anwendung erreichen
diese Modelle jedoch nicht, da sowohl die Leistung unter dem
aktuellen Stand der Technik liegt als auch die hier vorgestellten Modelle
einen Großteil der gestellten Fragen nicht vollständig korrekt
beantworten können.:1 Einleitung
1.1 Gegenstand
1.2 Problemstellung
1.3 Motivation
1.4 Zielsetzung
1.5 Bezug zu ethischen Leitlinien der GMDS
1.6 Aufgabenstellung
1.7 Aufbau der Arbeit
2 Grundlagen 9
2.1 Sprachmodelle
2.1.1 Transformer-Modelle
2.1.2 Transformer-spezifische Architekturen
2.1.3 Eigenheiten von Transformer-Modellen
2.1.4 Eingaben von Transformer-Modellen
2.2 Neuronale Netze
2.2.1 Architektur
2.2.2 Funktionsweise
2.2.3 Training
2.3 Datenverarbeitung
2.3.1 Glossar der Daten
3 Stand der Forschung
3.1 Continual Pretraining
3.2 Aktuelle Modelle und deren Nutzbarkeit
3.3 Forschung und Probleme von Modellen
4 Lösungsansatz
4.1 Auswahl von Sprachmodellen
4.2 Datenkuration
4.2.1 Extraktion des Textes
4.2.2 Unverständliche Formate
4.2.3 Textpassagen ohne Wissen oder Kontext
4.2.4 Optionale Textentfernungen
4.2.5 Bleibende Texte
4.2.6 Formatierung von Text
4.2.7 Potentielle Extraktion von Fragen
4.3 Unüberwachtes Weitertrainieren
4.3.1 Ausführen der Training-Programme
4.4 Klausurfragen
4.5 Modellevaluation
5 Ausführung der Lösung
5.1 Herunterladen des Modells
5.2 Training des Modells
5.2.1 Konfiguration des Modells
5.2.2 Konfiguration der Trainingsdaten
5.2.3 Konfiguration des Trainings
5.2.4 Konfiguration des DeepSpeed Trainings
5.2.5 Verwendete Bibliotheken zum Training
5.2.6 Training auf einem GPU Computing Cluster
5.2.7 Probleme während des Trainings
5.3 Generierung von Antworten
5.3.1 Erstellung des Evaluierungsdatensatzes
5.4 Bewertung der generierten Antworten
5.5 Evaluation der Modelle
5.5.1 Kriterium: Korrektheit
5.5.2 Kriterium: Erklärbarkeit
5.5.3 Kriterium: Fragenverständnis
5.5.4 Kriterium: Robustheit
6 Ergebnisse
6.1 Analyse Korrektheit
6.1.1 Vergleich totaler Zahlen
6.1.2 Stärken und Schwächen der Modelle
6.1.3 Verbesserungen durch Training
6.1.4 Vergleich MakroF1
6.1.5 Zusammenfassung
6.2 Analyse Erklärbarkeit
6.3 Analyse Fragenverständnis
6.4 Analyse Robustheit
6.5 Zusammenfassung
7 Diskussion
7.1 Grenzen der Modelle
7.2 Probleme bei Kernfragen
7.3 Bewertung der Fragen mit Prüfungspunkten
7.4 Lösung des Problems
8 Ausblick
8.1 Modellvergrößerung
8.1.1 Training durch Quantisierung
8.2 Human Reinforcement Learning
8.3 Datensatzvergrößerung
8.4 Domänenspezifische Modelle
8.5 Adapter-basiertes Training
8.6 Textextraktion aus Kontext
8.7 Retrieval Augmented Generation
8.8 Zusammenfassung
Zusammenfassung

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:88274
Date27 November 2023
CreatorsKeller, Paul
ContributorsUniversität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds