Spelling suggestions: "subject:"explorative datenanalyse"" "subject:"explorative batenanalyse""
1 |
A Bayesian approach to learning Hidden Markov model topology with applications to biological sequence analysisSchliep, Alexander. January 2002 (has links) (PDF)
Köln, University, Diss., 2001.
|
2 |
Anwendung immersiver Visualisierungssysteme zur Exploration geophysikalischer und geologischer DatenZehner, Björn. Unknown Date (has links) (PDF)
Universiẗat, Diss., 2002--Bonn.
|
3 |
Non-metric pairwise proximity dataLaub, Julian. Unknown Date (has links) (PDF)
Techn. University, Diss., 2004--Berlin.
|
4 |
Genome Expression Pathway Analysis Tool - Analyse und Visualisierung von Microarray Genexpressionsdaten unter genomischen, proteomischen und metabolischen Gesichtspunkten / Genom Expression Pathway Analysis Tool - Analysis and visualization of microarray gene expression data under genomic, proteomic and metabolic contextWeniger, Markus January 2007 (has links) (PDF)
Die Messung der Genexpression ist für viele Bereiche der Biologie und Medizin wichtig geworden und unterstützt Studien über Behandlung, Krankheiten und Entwicklungsstadien. Microarrays können verwendet werden, um die Expression von tausenden mRNA-Molekülen gleichzeitig zu messen und ermöglichen so einen Einblick und einen Vergleich der verschiedenen zellulären Bedingungen. Die Daten, die durch Microarray-Experimente gewonnen werden, sind hochdimensional und verrauscht, eine Interpretation der Daten ist deswegen nicht einfach. Obwohl Programme für die statistische Auswertung von Microarraydaten existieren, fehlt vielen eine Integration der Analyseergebnisse mit einer automatischen Interpretationsmöglichkeit. In dieser Arbeit wurde GEPAT, Genome Expression Pathway Analysis Tool, entwickelt, das eine Analyse der Genexpression unter dem Gesichtspunkten der Genomik, Proteomik und Metabolik ermöglicht. GEPAT integriert statistische Methoden zum Datenimport und -analyse mit biologischer Interpretation für Genmengen oder einzelne Gene, die auf dem Microarray gemessen werden. Verschiedene Typen von Oligonukleotid- und cDNAMicroarrays können importiert werden, unterschiedliche Normalisierungsmethoden können auf diese Daten angewandt werden, anschließend wird eine Datenannotation durchgeführt. Nach dem Import können mit GEPAT verschiedene statische Datenanalysemethoden wie hierarchisches, k-means und PCA-Clustern, ein auf einem linearen Modell basierender t-Test, oder ein Vergleich chromosomaler Profile durchgeführt werden. Die Ergebnisse der Analysen können auf Häufungen biologischer Begriffe und Vorkommen in Stoffwechselwegen oder Interaktionsnetzwerken untersucht werden. Verschiedene biologische Datenbanken wurden integriert, um zu jeder Gensonde auf dem Array Informationen zur Verfügung stellen zu können. GEPAT bietet keinen linearen Arbeitsablauf, sondern erlaubt die Benutzung von beliebigen Teilmengen von Genen oder biologischen Proben als Startpunkt einer neuen Analyse oder Interpretation. Dabei verlässt es sich auf bewährte Datenanalyse-Pakete, bietet einen modularen Ansatz zur einfachen Erweiterung und kann auf einem verteilten Computernetzwerk installiert werden, um eine große Zahl an Benutzern zu unterstützen. Es ist unter der LGPL Open-Source Lizenz frei verfügbar und kann unter http://gepat.sourceforge.net heruntergeladen werden. / The measurement of gene expression data is relevant to many areas of biology and medicine, in the study of treatments, diseases, and developmental stages. Microarrays can be used to measure the expression level of thousands of mRNAs at the same time, allowing insight into or comparison of different cellular conditions. The data derived out of microarray experiments is highly dimensional and noisy, and interpretation of the results can get tricky. Although programs for the statistical analysis of microarray data exist, most of them lack an integration of analysis results and biological interpretation. In this work GEPAT, Genome Expression Pathway Analysis Tool, was developed, offering an analysis of gene expression data under genomic, proteomic and metabolic context. GEPAT integrates statistical methods for data import and data analysis together with an biological interpretation for subset of genes or single genes measured on the chip. GEPAT imports various types of oligonucleotide and cDNA array data formats. Different normalization methods can be applied to the data, afterwards data annotation is performed. After import, GEPAT offers various statistical data analysis methods, as hierarchical, k-means and PCA clustering, a linear model based t-Test or chromosomal profile comparison. The results of the analysis can be interpreted by enrichment of biological terms, pathway analysis or interaction networks. Different biological databases are included, to give various informations for each probe on the chip. GEPAT offers no linear work flow, but allows the usage of any subset of probes and samples as start for a new data analysis or interpretation. GEPAT relies on established data analysis packages, offers a modular approach for an easy extension, and can be run on a computer grid to allow a large number of users. It is freely available under the LGPL open source license for academic and commercial users at http://gepat.sourceforge.net.
|
5 |
MultiView-Systeme zur explorativen Analyse unstrukturierter InformationSeeling, Christian January 2007 (has links)
Zugl.: Aachen, Techn. Hochsch., Diss., 2007
|
6 |
DNA microarrays: applications and novel approaches for analysis and interpretation / DNA Mikroarrays: Anwendungen und neue Ansätze für die Analyse und InterpretationEngelmann, Julia Cathérine January 2008 (has links) (PDF)
In der vorliegenden Dissertation wird die Entwicklung eines phylogenetischen DNA Microarrays, die Analyse von mehreren Microarray-Genexpressionsdatensätzen und neue Ansätze für die Datenanalyse und Interpretation der Ergebnisse vorgestellt. Die Entwicklung und Analyse der Daten eines phylogenetischen DNA Microarrays wird in der ersten Publikation dargestellt. Ich konnte zeigen, dass die Spezies-Detektion mit phylogenetischen Microarrays durch die Datenanalyse mit einem linearen Regressionsansatz signifikant verbessert werden kann. Standard-Methoden haben bislang nur Signalintensitäten betrachtet und eine Spezies als an- oder abwesend bezeichnet, wenn die Signalintensität ihres Messpunktes oberhalb eines willkürlich gesetzten Schwellenwertes lag. Dieses Verfahren ist allerdings aufgrund von Kreuz-Hybridisierungen nicht auf sehr nah verwandte Spezies mit hoher Sequenzidentität anwendbar. Durch die Modellierung des Hybridisierungs und Kreuz-Hybridisierungsverhaltens mit einem linearen Regressionsmodell konnte ich zeigen, dass Spezies mit einer Sequenzähnlichkeit von 97% im Markergen immer noch unterschieden werden können. Ein weiterer Vorteil der Modellierung ist, dass auch Mischungen verschiedener Spezies zuverlässig vorhergesagt werden können. Theoretisch sind auch quantitative Vorhersagen mit diesem Modell möglich. Um die großen Datenmengen, die in öffentlichen Microarray-Datenbanken abgelegt sind besser nutzen zu können, bieten sich Meta-Analysen an. In der zweiten Publikation wird eine explorative Meta-Analyse auf Arabidopsis thaliana-Datensätzen vorgestellt. Mit der Analyse verschiedener Datensätze, die den Einfluss von Pflanzenhormonen, Pathogenen oder verschiedenen Mutationen auf die Genexpression untersucht haben, konnten die Datensätze anhand ihrer Genexpressionsprofile in drei große Gruppen eingeordnet werden: Experimente mit Indol-3-Essigsäure (IAA), mit Pathogenen und andere Experimente. Gene, die charakteristisch für die Gruppe der IAA-Datensätze beziehungsweise für die Gruppe der Pathogen-Datensätze sind, wurden näher betrachtet. Diese Gene hatten Funktionen, die bereits mit Pathogenbefall bzw. dem Einfluss von IAA in Verbindung gebracht wurden. Außerdem wurden Hypothesen über die Funktionen von bislang nicht annotierten Genen aufgestellt. In dieser Arbeit werden auch Primäranalysen von einzelnen Arabidopsis thaliana Genexpressions-Datensätzen vorgestellt. In der dritten Publikation wird ein Experiment beschrieben, das durchgeführt wurde um herauszufinden ob Mikrowellen-Strahlung einen Einfluss auf die Genexpression einer Zellkultur hat. Dazu wurden explorative Analysemethoden angewendet. Es wurden geringe aber signifikante Veränderungen in einer sehr kleinen Anzahl von Genen beobachtet, die experimentell bestätigt werden konnten. Die Funktionen der regulierten Gene und eine Meta-Analyse mit öffentlich zugänglichen Datensätzen einer Datenbank deuten darauf hin, dass die pflanzliche Zellkultur die Strahlung als eine Art Energiequelle ähnlich dem Licht wahrnimmt. Des weiteren wird in der vierten Publikation die funktionelle Analyse eines Arabidopsis thaliana Genexpressionsdatensatzes beschrieben. Die Analyse der Genexpressions eines pflanzlichen Tumores zeigte, dass er seinen Stoffwechsel von aerob und auxotroph auf anaerob und heterotroph umstellt. Gene der Photosynthese werden im Tumorgewebe reprimiert, Gene des Aminosäure- und Fettstoffwechsels, der Zellwand und Transportkanäle werden so reguliert, dass Wachstum und Entwicklung des Tumors gefördert werden. In der fünften Publikation in dieser Arbeit wird GEPAT (Genome Expression Pathway Analysis Tool) beschrieben. Es besteht aus einer Internet- Anwendung und einer Datenbank, die das einfache Hochladen von Datensätzen in die Datenbank und viele Möglichkeiten der Datenanalyse und die Integration anderer Datentypen erlaubt. In den folgenden zwei Publikationen (Publikation 6 und Publikation 7) wird GEPAT auf humane Microarray-Datensätze angewendet um Genexpressionsdaten mit weiteren Datentypen zu verknüpfen. Genexpressionsdaten und Daten aus vergleichender Genom-Hybridisierung (CGH) von primären Tumoren von 71 Mantel-Zell-Lymphom (MCL) Patienten ermöglichte die Ermittlung eines Prädiktors, der die Vorhersage der Überlebensdauer von Patienten gegenüber herkömmlichen Methoden verbessert. Die Analyse der CGH Daten zeigte, dass auch diese für die Vorhersage der Überlebensdauer geeignet sind. Für den Datensatz von Patienten mit großzellig diffusem B-Zell-Lymphom DLBCL konnte aus den Genexpressionsdaten ebenfalls ein neuer Prädiktor vorgeschlagen werden. Mit den zwischen lang und kurz überlebenden Patienten differentiell exprimierten Genen der MCL Patienten und mit den Genen, die zwischen den beiden Untergruppen von DLBCL reguliert sind, wurden Interaktionsnetzwerke gebildet. Diese zeigen, dass bei beiden Krebstypen Gene des Zellzyklus und der Proliferation zwischen Patienten mit kurzer und langer Überlebensdauer unterschiedlich reguliert sind. / In this thesis, the development of a phylogenetic DNA microarray, the analysis of several gene expression microarray datasets and new approaches for improved data analysis and interpretation are described. In the first publication, the development and analysis of a phylogenetic microarray is presented. I could show that species detection with phylogenetic DNA microarrays can be significantly improved when the microarray data is analyzed with a linear regression modeling approach. Standard methods have so far relied on pure signal intensities of the array spots and a simple cutoff criterion was applied to call a species present or absent. This procedure is not applicable to very closely related species with high sequence similarity because cross-hybridization of non-target DNA renders species detection impossible based on signal intensities alone. By modeling hybridization and cross-hybridization with linear regression, as I have presented in this thesis, even species with a sequence similarity of 97% in the marker gene can be detected and distinguished from related species. Another advantage of the modeling approach over existing methods is that the model also performs well on mixtures of different species. In principle, also quantitative predictions can be made. To make better use of the large amounts of microarray data stored in public databases, meta-analysis approaches need to be developed. In the second publication, an explorative meta-analysis exemplified on Arabidopsis thaliana gene expression datasets is presented. Integrating datasets studying effects such as the influence of plant hormones, pathogens and different mutations on gene expression levels, clusters of similarly treated datasets could be found. From the clusters of pathogen-treated and indole-3-acetic acid (IAA) treated datasets, representative genes were selected which pointed to functions which had been associated with pathogen attack or IAA effects previously. Additionally, hypotheses about the functions of so far uncharacterized genes could be set up. Thus, this kind of meta-analysis could be used to propose gene functions and their regulation under different conditions. In this work, also primary data analysis of Arabidopsis thaliana datasets is presented. In the third publication, an experiment which was conducted to find out if microwave irradiation has an effect on the gene expression of a plant cell culture is described. During the first steps, the data analysis was carried out blinded and exploratory analysis methods were applied to find out if the irradiation had an effect on gene expression of plant cells. Small but statistically significant changes in a few genes were found and could be experimentally confirmed. From the functions of the regulated genes and a meta-analysis with publicly available microarray data, it could be suspected that the plant cell culture somehow perceived the irradiation as energy, similar to perceiving light rays. The fourth publication describes the functional analysis of another Arabidopsis thaliana gene expression dataset. The gene expression data of the plant tumor dataset pointed to a switch from a mainly aerobic, auxotrophic to an anaerobic and heterotrophic metabolism in the plant tumor. Genes involved in photosynthesis were found to be repressed in tumors; genes of amino acid and lipid metabolism, cell wall and solute transporters were regulated in a way that sustains tumor growth and development. Furthermore, in the fifth publication, GEPAT (Genome Expression Pathway Analysis Tool), a tool for the analysis and integration of microarray data with other data types, is described. It consists of a web application and database which allows comfortable data upload and data analysis. In later chapters of this thesis (publication 6 and publication 7), GEPAT is used to analyze human microarray datasets and to integrate results from gene expression analysis with other datatypes. Gene expression and comparative genomic hybridization data from 71 Mantle Cell Lymphoma (MCL) patients was analyzed and allowed proposing a seven gene predictor which facilitates survival predictions for patients compared to existing predictors. In this study, it was shown that CGH data can be used for survival predictions. For the dataset of Diffuse Large B-cell lymphoma (DLBCL) patients, an improved survival predictor could be found based on the gene expression data. From the genes differentially expressed between long and short surviving MCL patients as well as for regulated genes of DLBCL patients, interaction networks could be set up. They point to differences in regulation for cell cycle and proliferation genes between patients with good and bad prognosis.
|
7 |
Spatial classification methods for efficient infiltration measurements and transfer of measuring results / Räumlich orientierte Klassifikationsverfahren für effiziente Fremdwassermessungen und für die Übertragung von MessergebnissenFranz, Torsten 13 June 2007 (has links) (PDF)
A comprehensive knowledge about the infiltration situation in a sewer system is required for sustainable operation and cost-effective maintenance. Due to the high expenditures of infiltration measurements an optimisation of necessary measurement campaigns and a reliable transfer of measurement results to comparable areas are essential. Suitable methods were developed to improve the information yield of measurements by identifying appropriate measuring point locations and to assign measurement results to other potential measuring points by comparing sub-catchments and classifying reaches. The methods are based on the introduced similarity approach “Similar sewer conditions lead to similar infiltration/inflow rates” and on modified multivariate statistical techniques. The developed methods have a high degree of freedom against data needs. They were successfully tested on real and generated data. For suitable catchments it is estimated, that the optimisation potential amounts up to 40 % accuracy improvement compared to non-optimised measuring point configurations. With an acceptable error the transfer of measurement results was successful for up to 75 % of the investigated sub-catchments. With the proposed methods it is possible to improve the information about the infiltration status of sewer systems and to reduce the measurement related uncertainty which results in significant cost savings for the operator. / Für den nachhaltigen Betrieb und die kosteneffiziente Unterhaltung von Kanalnetzen ist eine genaue Bestimmung ihrer Fremdwassersituation notwendig. Eine Optimierung der dazu erforderlichen Messkampagnen und eine zuverlässige Übertragung der Messergebnisse auf vergleichbare Gebiete sind aufgrund der hohen Aufwendungen für Infiltrationsmessungen angezeigt. Dafür wurden geeignete Methoden entwickelt, welche einerseits den Informationsgehalt von Messungen durch die Bestimmung optimaler Messpunkte verbessern und andererseits Messresultate mittels Vergleichen von Teileinzugsgebieten und Klassifizierungen von Kanalhaltungen zu anderen potenziellen Messstellen zuordnen. Die Methoden basieren auf dem Ähnlichkeitsansatz “Ähnliche Kanaleigenschaften führen zu ähnlichen Fremdwasserraten” und nutzen modifizierte multivariate statistische Verfahren. Sie haben einen hohen Freiheitsgrad bezüglich der Datenanforderung. Die Methoden wurden erfolgreich anhand gemessener und generierter Daten validiert. Es wird eingeschätzt, dass das Optimierungspotenzial bei geeigneten Einzugsgebieten bis zu 40 % gegenüber nicht optimierten Mess-netzen beträgt. Die Übertragung der Messergebnisse war mit einem akzeptablen Fehler für bis zu 75 % der untersuchten Teileinzugsgebiete erfolgreich. Mit den entwickelten Methoden ist es möglich, den Kenntnisstand über die Fremdwassersituation eines Kanalnetzes zu verbessern und die messungsbezogene Unsicherheit zu verringern. Dies resultiert in Kostenersparnissen für den Betreiber.
|
8 |
Alternative Analysemöglichkeiten geographischer Daten in der Kartographie mittels Self-Organizing MapsKlammer, Ralf 25 August 2011 (has links) (PDF)
Die Kartographie ist eine Wissenschaft, die in ihrem Charakter starke interdisziplinäre Züge aufweist. Sie zeigt sich in den verschiedensten Facetten und wird darum in den unterschiedlichsten Wissenschaften angewandt. Markantester Charakter ist, schon per Definition, die Modellierung von geowissenschaftlichen Ereignissen und Sachverhalten. „A unique facility for the creation and manipulation of visual or virtual representations of geospace – maps – to permit the exploration, analysis, understanding and communication of information about that space.“(ICA 2003) Aus dieser Definition wird die Charakteristik einer Kommunikationswissenschaft (Brassel) deutlich. Gerade seit dem Paradigmenwechsel der 1970er Jahre fließen zahlreiche weitere Aspekte wie Informatik, Semiotik und Psychologie in das Verständnis von Kartographie ein. Dadurch wird die Karte nicht mehr als reines graphisches Mittel verstanden, sondern als Träger und Übermittler von Informationen verstanden. Der Kartennutzer und dessen Verständnis von Karten rücken dabei immer weiter in den Vordergrund und werden „Ziel“ der kartographischen Verarbeitung. Aus diesem Verständnis heraus, möchte ich in der folgenden Arbeit einen relativ neuen Einfluss und Aspekt der Kartographie vorstellen. Es handelt sich um das Modell der Self-Organizing Maps (SOM), welches erstmalig Anfang der 1980er Jahre von Teuvo Kohonen vorgestellt wurde und deshalb auch, von einigen Autoren, als Kohonenmaps bezeichnet wird. Dem Typus nach, handelt es sich dabei um künstliche neuronale Netze, welche dem Nervensystem des menschlichen Gehirns nachempfunden sind und damit allgemein als eine Art selbständiger, maschineller Lernvorgang angesehen werden können. Im Speziellen sind Self-Organizing Maps ein unüberwachtes Lernverfahren, das in der Lage ist völlig unbekannte Eingabewerte zu erkennen und zu verarbeiten. Durch diese Eigenschaft eignen sie sich als optimales Werkzeug für Data Mining sowie zur Visualisierung von hochdimensionalen Daten. Eine Vielzahl von Wissenschaftlern hat diesen Vorteil bereits erkannt und das Modell in ihre Arbeit einbezogen oder auf dessen Verwendbarkeit analysiert. Deshalb möchte in dieser Arbeit, einige dieser Verwendungsmöglichkeiten und den daraus resultierenden Vorteil für die Kartographie aufzeigen.
|
9 |
Alternative Analysemöglichkeiten geographischer Daten in der Kartographie mittels Self-Organizing MapsKlammer, Ralf 21 July 2010 (has links)
Die Kartographie ist eine Wissenschaft, die in ihrem Charakter starke interdisziplinäre Züge aufweist. Sie zeigt sich in den verschiedensten Facetten und wird darum in den unterschiedlichsten Wissenschaften angewandt. Markantester Charakter ist, schon per Definition, die Modellierung von geowissenschaftlichen Ereignissen und Sachverhalten. „A unique facility for the creation and manipulation of visual or virtual representations of geospace – maps – to permit the exploration, analysis, understanding and communication of information about that space.“(ICA 2003) Aus dieser Definition wird die Charakteristik einer Kommunikationswissenschaft (Brassel) deutlich. Gerade seit dem Paradigmenwechsel der 1970er Jahre fließen zahlreiche weitere Aspekte wie Informatik, Semiotik und Psychologie in das Verständnis von Kartographie ein. Dadurch wird die Karte nicht mehr als reines graphisches Mittel verstanden, sondern als Träger und Übermittler von Informationen verstanden. Der Kartennutzer und dessen Verständnis von Karten rücken dabei immer weiter in den Vordergrund und werden „Ziel“ der kartographischen Verarbeitung. Aus diesem Verständnis heraus, möchte ich in der folgenden Arbeit einen relativ neuen Einfluss und Aspekt der Kartographie vorstellen. Es handelt sich um das Modell der Self-Organizing Maps (SOM), welches erstmalig Anfang der 1980er Jahre von Teuvo Kohonen vorgestellt wurde und deshalb auch, von einigen Autoren, als Kohonenmaps bezeichnet wird. Dem Typus nach, handelt es sich dabei um künstliche neuronale Netze, welche dem Nervensystem des menschlichen Gehirns nachempfunden sind und damit allgemein als eine Art selbständiger, maschineller Lernvorgang angesehen werden können. Im Speziellen sind Self-Organizing Maps ein unüberwachtes Lernverfahren, das in der Lage ist völlig unbekannte Eingabewerte zu erkennen und zu verarbeiten. Durch diese Eigenschaft eignen sie sich als optimales Werkzeug für Data Mining sowie zur Visualisierung von hochdimensionalen Daten. Eine Vielzahl von Wissenschaftlern hat diesen Vorteil bereits erkannt und das Modell in ihre Arbeit einbezogen oder auf dessen Verwendbarkeit analysiert. Deshalb möchte in dieser Arbeit, einige dieser Verwendungsmöglichkeiten und den daraus resultierenden Vorteil für die Kartographie aufzeigen.:1.) Einleitung ...........................................................................................2
2.) Aufbau und Funktionsweise von SOM ............................................ 5
2.1.) Was sind Self-Organizing Maps? ................................................5
2.2.) Funktionsweise ............................................................................7
2.3.) Visualisierung des trainierten Kohonen-Netz .......................... 11
2.4.) Software ..................................................................................... 12
3. Möglichkeiten für die Kartographie................................................ 14
3.1 Geowissenschaftliches Data Mining ........................................... 15
3.2 Visualisierung von Daten............................................................. 17
4. explorative Datenanalyse geographischer Daten .......................... 19
4.1 SOM als Geovisualisierung .......................................................... 19
4.1.1 U-Matrix-Darstellung .............................................................22
4.1.2 Projektionen (Netzdarstellungen) ........................................26
4.1.3 2D & 3D-Plots .........................................................................28
4.1.4 Komponentenebenen ...........................................................29
4.2 Geo-SOM & andere Möglichkeiten zur Verarbeitung von
geowissenschaftlichen Daten ................................................... 32
4.2.1 Hierarchische SOMs ...............................................................33
4.2.2 Geo-enforced SOM ................................................................34
4.2.3 Geo-SOM ................................................................................35
4.3 SOM & GIS .................................................................................... 38
5. Datenverarbeitende Anwendungen ............................................... 40
5.1 Klassifizierung von Fernerkundungsdaten................................. 40
5.2 Kantendetektion in Satellitenbildern......................................... 43
5.3 Auswertung von Zeitreihen & Monitoring................................. 47
5.4 Klassifikation von SAR-Daten...................................................... 49
5.5 Generalisierung............................................................................ 50
5.6 Problem des Handlungsreisenden (Travelling Salesman
Problem)..................................................................................... 52
6. SOM als Kartenmetapher zur Visualisierung nicht-geographischer
Daten .............................................................................................. 54
7. Zusammenfassung............................................................................ 62
X. Quellenverzeichnis ........................................................................... 63
X.I Literaturnachweise ....................................................................... 63
X.II Lehrinhalte aus dem Internet ..................................................... 69
X.III Softwarelösungen ...................................................................... 69
|
10 |
Score-Based Approaches to Heterogeneity in Psychological ModelsArnold, Manuel 30 May 2022 (has links)
Statistische Modelle menschlicher Kognition und Verhaltens stützen sich häufig auf aggregierte Daten und vernachlässigen dadurch oft Heterogenität in Form von Unterschieden zwischen Personen oder Gruppen. Die Nichtberücksichtigung vorliegender Heterogenität kann zu verzerrten Parameterschätzungen und zu falsch positiven oder falsch negativen Tests führen. Häufig kann Heterogenität mithilfe von Kovariaten erkannt und vorhergesagt werden. Allerdings erweist sich die Identifizierung von Prädiktoren von Heterogenität oft als schwierige Aufgabe. Zur Lösung dieses Problems schlage ich zwei neue Ansätze vor, um individuelle und gruppenspezifische Unterschiede mithilfe von Kovariaten vorherzusagen.
Die vorliegende kumulative Dissertation setzt sich aus drei Projekten zusammen. Projekt 1 widmet sich dem Verfahren IPC-Regression (Individual Parameter Contribution), welches die Exploration von Parameterheterogenität in Strukturgleichungsmodellen (SEM) mittels Kovariaten erlaubt. Unter anderem evaluiere ich IPC-Regression für dynamische Panel-Modelle, schlage eine alternative Schätzmethode vor und leite IPCs für allgemeine Maximum-Likelihood-Schätzer her. Projekt 2 veranschaulicht, wie IPC-Regression in der Praxis eingesetzt werden kann. Dazu führe ich schrittweise in die Implementierung von IPC-Regression im ipcr-Paket für die statistische Programmiersprache R ein. Schließlich werden in Projekt 3 SEM-Trees weiterentwickelt. SEM-Trees sind eine modellbasierte rekursive Partitionierungsmethode zur Identifizierung von Kovariaten, die Gruppenunterschiede in SEM-Parametern vorhersagen. Die bisher verwendeten SEM-Trees sind sehr rechenaufwendig. In Projekt 3 kombiniere ich SEM-Trees mit unterschiedlichen Score-basierten Tests. Die daraus resultierenden Score-Guided-SEM-Tees lassen sich deutlich schneller als herkömmlichen SEM-Trees berechnen und zeigen bessere statistische Eigenschaften. / Statistical models of human cognition and behavior often rely on aggregated data and may fail to consider heterogeneity, that is, differences across individuals or groups. If overlooked, heterogeneity can bias parameter estimates and may lead to false-positive or false-negative findings. Often, heterogeneity can be detected and predicted with the help of covariates. However, identifying predictors of heterogeneity can be a challenging task. To solve this issue, I propose two novel approaches for detecting and predicting individual and group differences with covariates.
This cumulative dissertation is composed of three projects. Project 1 advances the individual parameter contribution (IPC) regression framework, which allows studying heterogeneity in structural equation model (SEM) parameters by means of covariates. I evaluate the use of IPC regression for dynamic panel models, propose an alternative estimation technique, and derive IPCs for general maximum likelihood estimators. Project 2 illustrates how IPC regression can be used in practice. To this end, I provide a step-by-step introduction to the IPC regression implementation in the ipcr package for the R system for statistical computing. Finally, Project 3 progresses the SEM tree framework. SEM trees are a model-based recursive partitioning method for finding covariates that predict group differences in SEM parameters. Unfortunately, the original SEM tree implementation is computationally demanding. As a solution to this problem, I combine SEM trees with a family of score-based tests. The resulting score-guided SEM trees compute quickly, solving the runtime issues of the original SEM trees, and show favorable statistical properties.
|
Page generated in 0.108 seconds