In den letzten Jahren hat sich maschinelles Lernen als hilfreiches Werkzeug zur Vorhersage von simulierten Materialeigenschaften erwiesen. Somit können aufwendige Berechnungen mittels Dichtefunktionaltheorie umgangen werden und bereits bekannte Materialien besser verstanden oder sogar neuartige entdeckt werden. Eine zentrale Rolle spielt dabei der Deskriptor, ein möglichst interpretierbarer Satz von Materialkenngrößen. Diese Arbeit präsentiert einen Ansatz zur Auffindung von Deskriptoren für periodische Multikomponentensysteme, deren Eigenschaften durch die genaue atomare Anordnung mitbeinflusst wird. Primäre Features von Einzel-, Paar- und Tetraederclustern werden über die Superzelle gemittelt und weiter algebraisch kombiniert. Aus den so erzeugten Kandidaten wird mittels Dimensionalitätsreduktion ein geeigneter Deskriptor identifiziert. Zudem stellt diese Arbeit Strategien vor bei der Modellfindung Kreuzvalidierung einzusetzen, sodass stabilere und idealerweise besser generalisierbare Deskriptoren gefunden werden. Es werden außerdem mehrere Fehlermaße untersucht, die die Qualität der Deskriptoren bezüglich Genauigkeit, Komplexität der Formeln und Berücksichtung der atomaren Anordnung charakterisieren. Die allgemeine Methodik wurde in einer teilweise parallelisierten Python-Software implementiert. Als konkrete Problemstellungen werden Modelle für die Gitterkonstante und die Mischenergie von ternären Gruppe-IV Zinkblende-Legierungen "gelernt", mit einer Genauigkeit von 0.02 Å bzw. 0.02 eV. Datenbeschaffung, -analyse, und -bereinigung werden im Hinblick auf die Zielgrößen als auch auf die primären Features erläutert, sodass umfassende Analysen und die Parametrisierung der Methodik an diesem Testdatensatz durchgeführt werden können. Als weitere Anwendung werden Gitterkonstante und Bandlücken von binären Oktett-Verbindungen vorhergesagt. Die präsentierten Deskriptoren werden mit den Fehlermaßen evaluiert und ihre physikalische Relevanz wird abschließend disktutiert. / In the last years, machine learning methods have proven as a useful tool for the prediction of simulated material properties. They may replace effortful calculations based on density functional theory, provide a better understanding of known materials or even help to discover new materials. Here, an essential role is played by the descriptor, a desirably interpretable set of material parameters. This PhD thesis presents an approach to find descriptors for periodic multi-component systems where also the exact atomic configuration influences the physical characteristics. We process primary features of one-atom, two-atom and tetrahedron clusters by an averaging scheme and combine them further by simple algebraic operations. Compressed sensing is used to identify an appropriate descriptor out from all candidate features. Furthermore, we develop elaborate cross-validation based model selection strategies that may lead to more robust and ideally better generalizing descriptors. Additionally, we study several error measures which estimate the quality of the descriptors with respect to accuracy, complexity of their formulas and the capturing of configuration effects. These generally formulated methods were implemented in a partially parallelized Python program. Actual learning tasks were studied on the problem of finding models for the lattice constant and the energy of mixing of group-IV ternary compounds in zincblende structure where an accuracy of 0.02 Å and 0.02 eV is reached, respectively. We explain the practical preparation steps of data acquisition, analysis and cleaning for the target properties and the primary features, and continue with extensive analyses and the parametrization of the developed methodology on this test case. As an additional application we predict lattice constants and band gaps of octet binary compounds. The presented descriptors are assessed quantitatively by the error measures and, finally, their physical meaning is discussed.
Identifer | oai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/25838 |
Date | 16 August 2022 |
Creators | Hoock, Benedikt Andreas |
Contributors | Draxl, Claudia, Vybíral, Jan, Leser, Ulf |
Publisher | Humboldt-Universität zu Berlin |
Source Sets | Humboldt University of Berlin |
Language | English |
Detected Language | English |
Type | doctoralThesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | (CC BY-NC-ND 4.0) Attribution-NonCommercial-NoDerivatives 4.0 International, https://creativecommons.org/licenses/by-nc-nd/4.0/ |
Relation | https://git.physik.hu-berlin.de/hoock/benedikt-hoock-phd-project-machine-learning, 10.48550/arXiv.2206.12129, 10.17172/NOMAD/2022.05.20-1 |
Page generated in 0.0027 seconds