Spelling suggestions: "subject:"retraining"" "subject:"pretrained""
1 |
Formation of a Receptive Vocabulary and its Effect on the Rate of Acquisition of its Expressive Counterpart in an Autistic ChildO'Banion, Dan R. 12 1900 (has links)
The purpose of this study was to examine the relationship between receptive oral expressive vocabularies. It was hypothesized that receptive discrimination pretraining has a greater influence on the reate of acquisition of its expressive vocal counterpart as compared to the reate of vocal acquisition of words without receptive pretraining.
|
2 |
Study of Pretraining Bias and FrequenciesTaware, Rutuja Murlidhar 10 July 2023 (has links)
Usage of language models in an in-context learning environment has been adapted for a wide range of tasks. Recent works have showcased the impact of pretraining data on the in-context performance of language models. In this work, we experiment with numbers having high and low frequencies in the pretraining data to understand the impact of term frequencies on the model's performance. We also experiment with random and adversarial demonstrations to understand the pretraining bias present in the model. Through these experiments, we showcase the importance of pretraining frequencies of the numbers present in the demonstrations and explain how highly frequent terms can be used in the demonstrations to achieve better task performance. Moreover, we also show the impact of pretraining bias on the model's performance and explain how the model overcomes this bias with more demonstrations. / Master of Science / Recent works focus on understanding and improving the arithmetic capabilities of the state-of-the-art (SOTA) systems in the domain of Natural Language Processing (NLP). This work focuses on designing and performing novel experiments to analyze the impact of training data on the performance of such systems. Through these experiments, this work showcases interesting properties of the SOTA systems which will promote future research to understand them better as well as help in creating better downstream applications.
|
3 |
Question Answering auf dem Lehrbuch 'Health Information Systems' mit Hilfe von unüberwachtem Training eines Pretrained TransformersKeller, Paul 27 November 2023 (has links)
Die Extraktion von Wissen aus Büchern ist essentiell und komplex. Besonders
in der Medizininformatik ist ein einfacher und vollständiger
Zugang zu Wissen wichtig. In dieser Arbeit wurde ein vortrainiertes
Sprachmodell verwendet, um den Inhalt des Buches Health Information
Systems von Winter u. a. (2023) effizienter und einfacher zugänglich
zu machen. Während des Trainings wurde die Qualität des Modells
zu verschiedenen Zeitpunkten evaluiert. Dazu beantwortete das Modell
Prüfungsfragen aus dem Buch und aus Modulen der Universität
Leipzig, die inhaltlich auf dem Buch aufbauen. Abschließend wurde
ein Vergleich zwischen den Trainingszeitpunkten, dem nicht weiter
trainierten Modell und dem Stand der Technik Modell GPT4 durchgeführt.
Mit einem MakroF1-Wert von 0,7 erreichte das Modell GPT4 die
höchste Korrektheit bei der Beantwortung der Klausurfragen. Diese
Leistung konnte von den anderen Modellen nicht erreicht werden. Allerdings
stieg die Leistung von einem anfänglichen MakroF1-Wert von
0,13 durch kontinuierliches Training auf 0,33. Die Ergebnisse zeigen eine
deutliche Leistungssteigerung durch diesen Ansatz und bieten eine
Grundlage für zukünftige Erweiterungen. Damit ist die Machbarkeit
der Beantwortung von Fragen zu Informationssystemen im Gesundheitswesen
und der Lösung einer Beispielklausur mit Hilfe von weiter
trainierten Sprachmodellen gezeigt, eine praktische Anwendung erreichen
diese Modelle jedoch nicht, da sowohl die Leistung unter dem
aktuellen Stand der Technik liegt als auch die hier vorgestellten Modelle
einen Großteil der gestellten Fragen nicht vollständig korrekt
beantworten können.:1 Einleitung
1.1 Gegenstand
1.2 Problemstellung
1.3 Motivation
1.4 Zielsetzung
1.5 Bezug zu ethischen Leitlinien der GMDS
1.6 Aufgabenstellung
1.7 Aufbau der Arbeit
2 Grundlagen 9
2.1 Sprachmodelle
2.1.1 Transformer-Modelle
2.1.2 Transformer-spezifische Architekturen
2.1.3 Eigenheiten von Transformer-Modellen
2.1.4 Eingaben von Transformer-Modellen
2.2 Neuronale Netze
2.2.1 Architektur
2.2.2 Funktionsweise
2.2.3 Training
2.3 Datenverarbeitung
2.3.1 Glossar der Daten
3 Stand der Forschung
3.1 Continual Pretraining
3.2 Aktuelle Modelle und deren Nutzbarkeit
3.3 Forschung und Probleme von Modellen
4 Lösungsansatz
4.1 Auswahl von Sprachmodellen
4.2 Datenkuration
4.2.1 Extraktion des Textes
4.2.2 Unverständliche Formate
4.2.3 Textpassagen ohne Wissen oder Kontext
4.2.4 Optionale Textentfernungen
4.2.5 Bleibende Texte
4.2.6 Formatierung von Text
4.2.7 Potentielle Extraktion von Fragen
4.3 Unüberwachtes Weitertrainieren
4.3.1 Ausführen der Training-Programme
4.4 Klausurfragen
4.5 Modellevaluation
5 Ausführung der Lösung
5.1 Herunterladen des Modells
5.2 Training des Modells
5.2.1 Konfiguration des Modells
5.2.2 Konfiguration der Trainingsdaten
5.2.3 Konfiguration des Trainings
5.2.4 Konfiguration des DeepSpeed Trainings
5.2.5 Verwendete Bibliotheken zum Training
5.2.6 Training auf einem GPU Computing Cluster
5.2.7 Probleme während des Trainings
5.3 Generierung von Antworten
5.3.1 Erstellung des Evaluierungsdatensatzes
5.4 Bewertung der generierten Antworten
5.5 Evaluation der Modelle
5.5.1 Kriterium: Korrektheit
5.5.2 Kriterium: Erklärbarkeit
5.5.3 Kriterium: Fragenverständnis
5.5.4 Kriterium: Robustheit
6 Ergebnisse
6.1 Analyse Korrektheit
6.1.1 Vergleich totaler Zahlen
6.1.2 Stärken und Schwächen der Modelle
6.1.3 Verbesserungen durch Training
6.1.4 Vergleich MakroF1
6.1.5 Zusammenfassung
6.2 Analyse Erklärbarkeit
6.3 Analyse Fragenverständnis
6.4 Analyse Robustheit
6.5 Zusammenfassung
7 Diskussion
7.1 Grenzen der Modelle
7.2 Probleme bei Kernfragen
7.3 Bewertung der Fragen mit Prüfungspunkten
7.4 Lösung des Problems
8 Ausblick
8.1 Modellvergrößerung
8.1.1 Training durch Quantisierung
8.2 Human Reinforcement Learning
8.3 Datensatzvergrößerung
8.4 Domänenspezifische Modelle
8.5 Adapter-basiertes Training
8.6 Textextraktion aus Kontext
8.7 Retrieval Augmented Generation
8.8 Zusammenfassung
Zusammenfassung
|
4 |
Pretraining a Neural Network for Hyperspectral Images Using Self-Supervised Contrastive Learning / Förträning av ett neuralt nätverk för hyperspektrala bilder baserat på självövervakad kontrastiv inlärningSyrén Grönfelt, Natalie January 2021 (has links)
Hyperspectral imaging is an expanding topic within the field of computer vision, that uses images of high spectral granularity. Contrastive learning is a discrim- inative approach to self-supervised learning, a form of unsupervised learning where the network is trained using self-created pseudo-labels. This work com- bines these two research areas and investigates how a pretrained network based on contrastive learning can be used for hyperspectral images. The hyperspectral images used in this work are generated from simulated RGB images and spec- tra from a spectral library. The network is trained with a pretext task based on data augmentations, and is evaluated through transfer learning and fine-tuning for a downstream task. The goal is to determine the impact of the pretext task on the downstream task and to determine the required amount of labelled data. The results show that the downstream task (a classifier) based on the pretrained network barely performs better than a classifier without a pretrained network. In the end, more research needs to be done to confirm or reject the benefit of a pretrained network based on contrastive learning for hyperspectral images. Also, the pretrained network should be tested on real-world hyperspectral data and trained with a pretext task designed for hyperspectral images.
|
5 |
Resource-efficient image segmentation using self-supervision and active learningMax, Muriel January 2021 (has links)
Neural Networks have been demonstrated to perform well in computer vision tasks, especially in the field of semantic segmentation, where a classification is performed on a per pixel-level. Using deep learning can reduce time and effort in comparison to manual segmentation, however, the performance of neural networks highly depends on the data quality and quantity, which is costly and time-consuming to obtain; especially for image segmentation tasks. In this work, this problem is addressed by investigating a combined approach of self-supervised pre-training and active learning aimed at selecting the most informative training samples. Experiments were performed using the Gland Segmentation and BraTS 2020 datasets. The results indicate that active learning can increase performance for both datasets when only a small percentage of labeled data is used. Furthermore, self-supervised pre-training improves model robustness as well as in some cases additionally boosts model performance. / Neurala nätverk har visats fungera bra för att lösa visionsbasesarade problem med datorer, särskilt inom bildsegmentering, där operationer utförs på en per pixelnivå. Att använda djupinlärning kan minska tid och ansträngning jämfört med manuell segmentering. Prestandan för dessa metoder är dock beror på kvaliteten och kvantiteten på den tillgängliga datan, vilket är kostsamt och tidskrävande att få fram. I detta arbete behandlar vi problemet om kostsam dataannotering genom att undersöka mer effektiva tillvägagångssätt för att träna dessa modeller på mindre annoterad data genom en kombination av självövervakad förträning och active learning - som kan användas för att finna de mest informativa träningspunkterna. Experiment utfördes med hjälp av datasetten Gland Segmentation och BraTS 2020. Resultaten indikerar attactive learning kan öka prestandan för båda datamängderna när endast ett fåtal datapunkter har annoterats och används för träning. Dessutom förbättrar självövervakad pre-training modellens robusthet och kan i vissa fall öka modellprestandan.
|
6 |
Utilizing Transformers with Domain-Specific Pretraining and Active Learning to Enable Mining of Product LabelsNorén, Erik January 2023 (has links)
Structured Product Labels (SPLs), the package inserts that accompany drugs governed by the Food and Drugs Administration (FDA), hold information about Adverse Drug Reactions (ADRs) that exists associated with drugs post-market. This information is valuable for actors working in the field of pharmacovigilance aiming to improve the safety of drugs. One such actor is Uppsala Monitoring Centre (UMC), a non-profit conducting pharmacovigilance research. In order to access the valuable information of the package inserts, UMC have constructed an SPL mining pipeline in order to mine SPLs for ADRs. This project aims to investigate new approaches to the solution to the Scan problem, the part of the pipeline responsible for extracting mentions of ADRs. The Scan problem is solved by approaching the problem as a Named Entity Recognition task, a subtask of Natural Language Processing. By using the transformer-based deep learning model BERT, with domain-specific pre-training, an F1-score of 0.8220 was achieved. Furthermore, the chosen model was used in an iteration of Active Learning in order to efficiently extend the available data pool with the most informative examples. Active Learning improved the F1-score to 0.8337. However, the Active Learning was benchmarked against a data set extended with random examples, showing similar improved scores, therefore this application of Active Learning could not be determined to be effective in this project.
|
7 |
Hierarchical Control of Simulated Aircraft / Hierarkisk kontroll av simulerade flygplanMannberg, Noah January 2023 (has links)
This thesis investigates the effectiveness of employing pretraining and a discrete "control signal" bottleneck layer in a neural network trained in aircraft navigation through deep reinforcement learning. The study defines two distinct tasks to assess the efficacy of this approach. The first task is utilized for pretraining specific parts of the network, while the second task evaluates the potential benefits of this technique. The experimental findings indicate that the network successfully learned three main macro actions during pretraining. flying straight ahead, turning left, and turning right, and achieved high rewards on the task. However, utilizing the pretrained network on the transfer task yielded poor performance, possibly due to the limited effective action space or deficiencies in the training process. The study discusses several potential solutions, such as incorporating multiple pretraining tasks and alterations of the training process as avenues for future research. Overall, this study highlights the challanges and opportunities associated with combining pretraining with a discrete bottleneck layer in the context of simulated aircraft navigation using reinforcement learning. / Denna studie undersöker effektiviteten av att använda förträning och en diskret "styrsignal" som fungerar som flaskhals i ett neuralt nätverk tränat i flygnavigering med hjälp av djup förstärkande inlärning. Studien definierar två olika uppgifter för att bedöma effektiviteten hos denna metod. Den första uppgiften används för att förträna specifika delar at nätverket, medan den andra uppgiften utvärderar de potentiella fördelarna med denna teknik. De experimentella resultaten indikerar att nätverket framgångsrikt lärde sig tre huvudsakliga makrohandlingar under förträningen: att flyga rakt fram, att svänga vänster och att svänga höger, och uppnådde höga belöningar för uppgiften. Men att använda det förtränade nätverket för den uppföljande uppgiften gav dålig prestation, möjligen på grund av det begränsade effektiva handlingsutrymmet eller begränsningar i träningsprocessen. Studien diskuterar flera potentiella lösningar, såsom att inkorporera flera förträningsuppgifter och ändringar i träningsprocessen, som möjliga framtida forskningsvägar. Sammantaget belyser denna studie de utmaningar och möjligheter som är förknippade med att kombinera förträning med ett diskret flaskhalslager inom kontexten av simulerad flygnavigering och förstärkningsinlärning.
|
8 |
Towards meaningful and data-efficient learning : exploring GAN losses, improving few-shot benchmarks, and multimodal video captioningHuang, Gabriel 09 1900 (has links)
Ces dernières années, le domaine de l’apprentissage profond a connu des progrès énormes dans des applications allant de la génération d’images, détection d’objets, modélisation du langage à la réponse aux questions visuelles. Les approches classiques telles que l’apprentissage supervisé nécessitent de grandes quantités de données étiquetées et spécifiques à la tâches. Cependant, celles-ci sont parfois coûteuses, peu pratiques, ou trop longues à collecter. La modélisation efficace en données, qui comprend des techniques comme l’apprentissage few-shot (à partir de peu d’exemples) et l’apprentissage self-supervised (auto-supervisé), tentent de remédier au manque de données spécifiques à la tâche en exploitant de grandes quantités de données plus “générales”. Les progrès de l’apprentissage profond, et en particulier de l’apprentissage few-shot, s’appuient sur les benchmarks (suites d’évaluation), les métriques d’évaluation et les jeux de données, car ceux-ci sont utilisés pour tester et départager différentes méthodes sur des tâches précises, et identifier l’état de l’art. Cependant, du fait qu’il s’agit de versions idéalisées de la tâche à résoudre, les benchmarks sont rarement équivalents à la tâche originelle, et peuvent avoir plusieurs limitations qui entravent leur rôle de sélection des directions de recherche les plus prometteuses. De plus, la définition de métriques d’évaluation pertinentes peut être difficile, en particulier dans le cas de sorties structurées et en haute dimension, telles que des images, de l’audio, de la parole ou encore du texte. Cette thèse discute des limites et des perspectives des benchmarks existants, des fonctions de coût (training losses) et des métriques d’évaluation (evaluation metrics), en mettant l’accent sur la modélisation générative - les Réseaux Antagonistes Génératifs (GANs) en particulier - et la modélisation efficace des données, qui comprend l’apprentissage few-shot et self-supervised. La première contribution est une discussion de la tâche de modélisation générative, suivie d’une exploration des propriétés théoriques et empiriques des fonctions de coût des GANs. La deuxième contribution est une discussion sur la limitation des few-shot classification benchmarks, certains ne nécessitant pas de généralisation à de nouvelles sémantiques de classe pour être résolus, et la proposition d’une méthode de base pour les résoudre sans étiquettes en phase de testing. La troisième contribution est une revue sur les méthodes few-shot et self-supervised de détection d’objets , qui souligne les limites et directions de recherche prometteuses. Enfin, la quatrième contribution est une méthode efficace en données pour la description de vidéo qui exploite des jeux de données texte et vidéo non supervisés. / In recent years, the field of deep learning has seen tremendous progress for applications ranging from image generation, object detection, language modeling, to visual question answering. Classic approaches such as supervised learning require large amounts of task-specific and labeled data, which may be too expensive, time-consuming, or impractical to collect. Data-efficient methods, such as few-shot and self-supervised learning, attempt to deal with the limited availability of task-specific data by leveraging large amounts of general data. Progress in deep learning, and in particular, few-shot learning, is largely driven by the relevant benchmarks, evaluation metrics, and datasets. They are used to test and compare different methods on a given task, and determine the state-of-the-art. However, due to being idealized versions of the task to solve, benchmarks are rarely equivalent to the original task, and can have several limitations which hinder their role of identifying the most promising research directions. Moreover, defining meaningful evaluation metrics can be challenging, especially in the case of high-dimensional and structured outputs, such as images, audio, speech, or text. This thesis discusses the limitations and perspectives of existing benchmarks, training losses, and evaluation metrics, with a focus on generative modeling—Generative Adversarial Networks (GANs) in particular—and data-efficient modeling, which includes few-shot and self-supervised learning. The first contribution is a discussion of the generative modeling task, followed by an exploration of theoretical and empirical properties of the GAN loss. The second contribution is a discussion of a limitation of few-shot classification benchmarks, which is that they may not require class semantic generalization to be solved, and the proposal of a baseline method for solving them without test-time labels. The third contribution is a survey of few-shot and self-supervised object detection, which points out the limitations and promising future research for the field. Finally, the fourth contribution is a data-efficient method for video captioning, which leverages unsupervised text and video datasets, and explores several multimodal pretraining strategies.
|
Page generated in 0.1607 seconds