1 |
Validitätsaspekte bei der Messung von SchreibkompetenzenCanz, Thomas 21 October 2015 (has links)
Die Arbeit stellt eine nationale Bildungsstudie zur Erfassung von Schreibkompetenzen vor und untersucht das angewandte Verfahren auf drei ausgewählte Validitätsaspekte. In Studie I wird geprüft, ob es sich bei Schreibkompetenz sowie den Schreibkompetenzdimensionen Inhalt, Stil und sprachliche Richtigkeit um textmusterunabhängige oder textmusterspezifische Konstrukte handelt. Darüber hinaus wird die interne Struktur von Schreibkompetenz betrachtet. Die vorwiegend auf Modellvergleichen basierenden Analysen zeigen, dass es sich bei allgemeinen Schreibkompetenzen sowie bei inhaltlichen und stilistischen Schreibkompetenzen um textmusterspezifische Konstrukte handelt, bei der orthografisch-grammatischen Schreibkompetenz hingegen um ein textmusterunabhängiges Konstrukt. Für alle Textmuster zeigt sich eine zweidimensionale Struktur. In Studie II wird untersucht, inwiefern Lesefähigkeiten bei der Messung von Schreibkompetenzen aufgrund der textuellen Präsentation der Aufgabeninstruktion miterfasst werden. Der Einfluss der Lesekompetenz wird dabei als Zusammenhangsstärke zwischen Lese- und Schreibkompetenz in Abhängigkeit von leseschwierigkeitsquantifizierenden Merkmale via Mehrebenen¬moderatoranalysen geprüft. Es zeigen sich statistisch bedeutsame, aber praktisch kaum relevante Effekte für zwei der Merkmale: syntaktische Komplexität und Seltenheit der Wörter. In Studie III wird untersucht, ob eine von der sprachlichen Richtigkeit unabhängige Beurteilung inhaltlicher und stilistischer Schreibkompetenzen erfolgt oder ob Halo-Effekte zutage treten. In Anschlussanalysen wird geprüft, ob diese Halo-Effekte von Art und Anzahl der Fehler, Textlänge, Textkomplexität und Textmuster abhängen. Es zeigen sich keine Urteilsverzerrungen bei der inhaltlichen, jedoch bei der stilistischen Bewertung. Diese Verzerrungen sind größer bei syntaktisch komplexeren Texten und bei höherer Fehleranzahl, vor allem unter Vorliegen grammatischer Fehler und syntaktisch relevanter Zeichensetzungsfehler. / The dissertation presents a national educational study assessing writing competencies in German. The underlying process of measuring writing competencies is investigated regarding three selected aspects of validity. The first study addresses the question, whether writing competence as well as the writing competence dimensions, i.e. contentual, stylistic and orthographic-grammatic writing competencies are discourse mode dependent or independent constructs. Additionally the internal structure of writing competence is investigated. Analyses, predominantly based on comparison of IRT-models, reveal that general writing competencies as well as the contentual and stylistic dimensions are discourse-mode-specific constructs, whereas the orthographic-grammatic writing competence is discourse mode independent. The second study raises the question to what extent, due to the fact that the writing task instructions are given textually, reading competencies are included when measuring writing. Therefore two-level moderator analyses are computed, modelling the correlation between reading and writing competence dependent on reading difficulty quantifying aspects. Statistically significant but practically hardly relevant effects obtain for two of these aspects: syntactic complexity of the instruction text and (in)frequency of the used words. The third study investigates whether the evaluation of contentual and stylistic writing competencies takes place regardless of orthographic and grammatic features of the underlying texts or whether halo effects occur. Further analyses examine possible rating shifts in dependence of error types, error amount, text length, text complexity and discourse type. The results reveal that stylistic, but not contentual rating shifts occur. These shifts are more pronounced in regard to syntactically more complex texts as well as higher error quantities and arise particularly under the presence of grammatical and syntactically relevant punctuation errors.
|
2 |
Differenzielle Validität von Mathematiktestaufgaben für Kinder mit nicht-deutscher FamilienspracheHaag, Nicole 18 December 2015 (has links)
Verschiedene Schulleistungsstudien stellten für Kinder mit nicht-deutscher Familiensprache bereits in der Grundschule substanzielle Disparitäten im Bereich Mathematik fest. Diese Disparitäten führten zu der Frage, ob die verwendeten Testverfahren zu hohe sprachliche Hürden für Kinder mit nicht-deutscher Familiensprache aufweisen und daher nicht ausreichend in der Lage sind, die Kompetenzen dieser Gruppe valide zu erfassen. In dieser kumulativen Arbeit wurde geprüft, inwiefern die sprachliche Komplexität von Mathematikaufgaben in der Grundschule einen benachteiligenden Einfluss auf die Erfassung der Mathematikleistung von Kindern mit nicht-deutscher Familiensprache darstellt. Zunächst wurde geprüft, ob die in nationalen Schulleistungsstudien verwendeten Aufgaben für diese Gruppe differenziell valide sind. Daran anschließend wurde untersucht, ob sich itemspezifische Kompetenznachteile durch die sprachlichen Merkmale der Aufgaben erklären lassen. In der vorliegenden Arbeit konnte gezeigt werden, dass die differenzielle Validität der betrachteten Testverfahren für Kinder mit nicht-deutscher Familiensprache insgesamt gering ausgeprägt ist. Ferner wurde festgestellt, dass sich die einzelnen sprachlichen Merkmale der Aufgaben sowohl spezifisch als auch gemeinsam auf die differenzielle Validität auswirken. Der größte Anteil der itemspezifischen Kompetenznachteile wurde durch mehrere Merkmale gemeinsam aufgeklärt. Eine experimentelle Teilstudie zeigte, dass eine sprachliche Vereinfachung nicht geeignet scheint, um die Kompetenznachteile von Kindern mit nicht-deutscher Familiensprache substanziell zu verringern. Ein Vergleich der Effekte sprachlicher Merkmale von Mathematikaufgaben auf die Mathematikleistungen von Kindern mit nicht-deutscher Familiensprache zwischen der dritten und der vierten Klassenstufe ergab, dass sich die sprachliche Komplexität der Aufgaben vor allem für jüngere Grundschulkinder unabhängig von ihrer Familiensprache benachteiligend auswirkte. / Large-scale assessment studies have repeatedly documented performance disadvantages of language minority students in German elementary schools. The substantial achievement gap has led to concerns regarding the validity of large-scale assessment items for language minority students. It may be the case that these performance differences are, in part, due to high language demands of the test items. These items may selectively disadvantage language minority students in the testing situation. This dissertation project investigated the connection between the academic language demands of mathematics test items and the test performance of monolingual students and language minority students. First, it was investigated whether the test items were differentially valid for language minority students. Moreover, the connection between the differential validity and the linguistic complexity of the test items was tested. The findings indicated that overall, differential validity of the examined tests for language minority students was low. However, the test items’ language demands were related to differential validity. The largest proportion of item-specific performance disadvantages was explained by confounded combinations of several linguistic features. Additionally, unique effects of descriptive, lexical, and grammatical features were identified. An experimental study showed that linguistic simplification did not seem to be a promising method to substantially reduce the performance differences between language minority students and German monolingual students. A comparison of differential effects of mathematics items’ language demands for language minority students over two adjacent grade levels indicated that the impact of academic language demands seemed to depend on grade level rather than on language minority student status. Regardless of their home language, younger students seemed to struggle more with linguistically complex test items than older students.
|
3 |
Trendschätzung in Large-Scale Assessments bei differenziellem ItemfunktionierenSachse, Karoline A. 27 February 2020 (has links)
Differenzielles Itemfunktionieren bedeutet für die Trendschätzung durch Linking in querschnittlich angelegten Large-Scale Assessments eine Voraussetzungsverletzung. Solche Voraussetzungsverletzungen können sich negativ auf die Eigenschaften von Trendschätzern auswirken, woraus sich Einschränkungen für die Interpretierbarkeit der Trendschätzung ergeben können. Die vorliegende Arbeit umfasst, eingebettet in einen Rahmungstext, drei Einzelbeiträge, die sich mit der Prüfung der Auswirkung differenziellen Itemfunktionierens unterschiedlicher Provenienz auseinandersetzen.
Im ersten Einzelbeitrag wird die Interaktion von Linkingdesigns und Linkingmethoden mit zwischen Ländern und über die Zeit unsystematisch unterschiedlich funktionierenden Items untersucht. Dabei zeigte sich, dass die Wahl des Designs von großer Bedeutung sein kann, während der Performanzunterschied zwischen gängigen Linkingmethoden marginal war. Darüber hinaus führte der häufig praktizierte Ausschluss von differenziell funktionierenden Items zu einem Effizienzverlust.
Im zweiten Einzelbeitrag wird die Unsicherheit der Trendschätzung, die entsteht, wenn Items zwischen Ländern und über die Zeit unsystematisch unterschiedlich funktionieren, quantifiziert und in die Berechnung der zugehörigen Standardfehler integriert.
Im dritten Einzelbeitrag wird betrachtet, wie differenziellem Itemfunktionieren begegnet werden kann, das durch fehlende Werte und wechselnde Ausfallmechanismen zustande kommt. Wurden die fehlenden Werte inadäquat behandelt, verloren die Trendschätzer ihre Erwartungstreue und Konsistenz sowie an Effizienz.
In der Summe wird in der vorliegenden Arbeit identifiziert und hervorgehoben, dass es in den untersuchten Bedingungen je nach Art des differenziellen Itemfunktionierens effektive Möglichkeiten des Umgangs mit diesem gibt, die potenziellen Einschränkungen bei der validen Interpretation der Trendschätzung zumindest teilweise entgegenwirken können. / Differential item functioning signifies a violation of the prerequisites required for trend
estimation, which involves the linking of cross-sectional large-scale assessments. Such
violations can negatively affect the properties of the trend estimators. Hence, the interpretability of trend estimates will be limited under such circumstances. Embedded within an overarching framework, three individual contributions that examine and deal with the effects of differential item functioning from different origins are presented in the current dissertation.
The first article examines the interactions of linking designs and linking methods with
items that show unsystematic and differential functioning between countries and across
time. It showed that the choice of the design can be of great importance, whereas the
difference in performance between common linking methods was marginal. In addition,
the exclusion of differentially functioning items, an approach that is frequently used in
practice, led to a loss of efficiency.
In the second contribution, the uncertainty for the trend estimation resulting from
items that show unsystematic and differential functioning between countries and across
time is quantified and incorporated into the calculation of the trends' standard errors.
The third article focuses on differential item functioning that is induced by missing
values and nonresponse mechanisms that change over time. When the missing values were
treated inappropriately, the trend estimators lost their unbiasedness, their consistency, and
their efficiency.
In sum, this dissertation identifies and emphasizes the ideas that, depending on the
type of differential item functioning, there are effective ways to deal with it under the
investigated conditions, and these can at least partially counteract potential limitations
so that the trend estimates can still be interpreted validly.
|
4 |
Essays zu methodischen Herausforderungen im Large-Scale AssessmentRobitzsch, Alexander 21 January 2016 (has links)
Mit der wachsenden Verbreitung empirischer Schulleistungsleistungen im Large-Scale Assessment gehen eine Reihe methodischer Herausforderungen einher. Die vorliegende Arbeit untersucht, welche Konsequenzen Modellverletzungen in eindimensionalen Item-Response-Modellen (besonders im Rasch-Modell) besitzen. Insbesondere liegt der Fokus auf vier methodischen Herausforderungen von Modellverletzungen. Erstens, implizieren Positions- und Kontexteffekte, dass gegenüber einem eindimensionalen IRT-Modell Itemschwierigkeiten nicht unabhängig von der Position im Testheft und der Zusammenstellung des Testheftes ausgeprägt sind und Schülerfähigkeiten im Verlauf eines Tests variieren können. Zweitens, verursacht die Vorlage von Items innerhalb von Testlets lokale Abhängigkeiten, wobei unklar ist, ob und wie diese in der Skalierung berücksichtigt werden sollen. Drittens, können Itemschwierigkeiten aufgrund verschiedener Lerngelegenheiten zwischen Schulklassen variieren. Viertens, sind insbesondere in low stakes Tests nicht bearbeitete Items vorzufinden. In der Arbeit wird argumentiert, dass trotz Modellverletzungen nicht zwingend von verzerrten Schätzungen von Itemschwierigkeiten, Personenfähigkeiten und Reliabilitäten ausgegangen werden muss. Außerdem wird hervorgehoben, dass man psychometrisch häufig nicht entscheiden kann und entscheiden sollte, welches IRT-Modell vorzuziehen ist. Dies trifft auch auf die Fragestellung zu, wie nicht bearbeitete Items zu bewerten sind. Ausschließlich Validitätsüberlegungen können dafür Hinweise geben. Modellverletzungen in IRT-Modellen lassen sich konzeptuell plausibel in den Ansatz des Domain Samplings (Item Sampling; Generalisierbarkeitstheorie) einordnen. In dieser Arbeit wird gezeigt, dass die statistische Unsicherheit in der Modellierung von Kompetenzen nicht nur von der Stichprobe der Personen, sondern auch von der Stichprobe der Items und der Wahl statistischer Modelle verursacht wird. / Several methodological challenges emerge in large-scale student assessment studies like PISA and TIMSS. Item response models (IRT models) are essential for scaling student abilities within these studies. This thesis investigates the consequences of several model violations in unidimensional IRT models (especially in the Rasch model). In particular, this thesis focuses on the following four methodological challenges of model violations. First, position effects and contextual effects imply (in comparison to unidimensional IRT models) that item difficulties depend on the item position in a test booklet as well as on the composition of a test booklet. Furthermore, student abilities are allowed to vary among test positions. Second, the administration of items within testlets causes local dependencies, but it is unclear whether and how these dependencies should be taken into account for the scaling of student abilities. Third, item difficulties can vary among different school classes due to different opportunities to learn. Fourth, the amount of omitted items is in general non-negligible in low stakes tests. In this thesis it is argued that estimates of item difficulties, student abilities and reliabilities can be unbiased despite model violations. Furthermore, it is argued that the choice of an IRT model cannot and should not be made (solely) from a psychometric perspective. This also holds true for the problem of how to score omitted items. Only validity considerations provide reasons for choosing an adequate scoring procedure. Model violations in IRT models can be conceptually classified within the approach of domain sampling (item sampling; generalizability theory). In this approach, the existence of latent variables need not be posed. It is argued that statistical uncertainty in modelling competencies does not only depend on the sampling of persons, but also on the sampling of items and on the choice of statistical models.
|
Page generated in 0.0807 seconds