4.2 Gütekriterien eines psychologischen Tests

4.2.1 Hauptgütekriterien

Die Objektivität eines Tests ist ein essenzielles Qualitätsmerkmal, da es sicherstel- len soll, dass die Testleistungen verschiedener ProbandInnen vergleichbar sind. Ein Test ist objektiv, wenn er – unabhängig von den Personen, die den Test durch- führen bzw. leiten, auswerten und interpretieren – immer zum selben Messergeb- nis gelangt (vgl. Moosbrugger & Kelava, 2012, S. 8).

Die Reliabilität eines Tests kann mithilfe des Reliabilitätskoeffizienten, welcher einen Wert zwischen Null und Eins annimmt, festgestellt werden. Je näher ein Wert bei Eins liegt, desto zuverlässiger und genauer (d. h. freier von jeglichen Messfehlern) misst der Test das zu erfassende Persönlichkeits- oder Verhaltens- merkmal (vgl. Lienert & Raatz, 2011, S. 9 f.; Moosbrugger & Kelava, 2012, S. 11).

Ein Test ist valide bzw. gültig, wenn er tatsächlich erfasst, was er erfassen soll. Bei der Validität eines Testes kann zwischen der Inhalts-, Konstrukt- und der Kri- teriumsvalidität unterschieden werden. Inhaltsvalidität ist dann gegeben, wenn ein einzelnes Testitem oder der Test insgesamt das zu messende Merkmal oder Kon- strukt – und zwar nur das –hinreichend genau erfasst (z. B. die Überprüfung der Rechtschreibkenntnisse anhand eines Diktates). Mit der Konstruktvalidität eines Testes ist sichergestellt, dass der Rückschluss des während der Testung beobach- teten Verhaltens des getesteten Individuums auf deren latente psychologische Per- sönlichkeitsmerkmale wissenschaftlich fundiert ist. Aufgrund des Testanspruchs sollte bei Vorliegen der Kriteriumsvalidität eines Tests seine Testleistung mit ei- nem Kriterium oder mehreren Kriterien wie bspw. Schulnoten korrelieren (vgl. Bühner, 2011, S. 61 ff.; Echterhoff, 2013, S. 86 f.; Moosbrugger & Kelava, 2012, S. 15 f.).

Die hier genannten Hauptgütekriterien sind zueinander und voneinander abhängig, denn wenn sich z. B. herausstellt, dass die Objektivität eines Tests mangels ent- sprechender Standardisierung der Verfahrensbedingungen nicht gegeben ist, kann er mit an Sicherheit grenzender Wahrscheinlichkeit auch keine für die Testung gültigen Ergebnisse liefern, was wiederrum auch Einfluss auf seine Validität nimmt (vgl. Bühner, 2011, S. 71).

Während es für die einzelnen Hauptgütekriterien – wie vorhin bereits erwähnt – Kennzahlen zur Bestimmung gibt, gilt das für die nachfolgenden Nebengütekrite- rien dagegen nicht (vgl. Lienert & Ratz, 2011, S. 7 & S. 13).

4.2.2 Nebengütekriterien

Die Normierung eines Tests versucht die Frage nach Vergleichsdaten zur Interpre- tation einzelner Testergebnisse zu lösen. Dazu bilden Vergleichsdaten, die anhand einer repräsentativen Stichprobe aus verschiedenen Teilpopulationen einer Bevöl- kerung erhoben wurden, Normen, anhand derer dann die individuellen Testergeb- nisse beurteilt und interpretiert werden können.

Ein Beispiel dafür ist die schulische Notenvergabe, wenn die Benotung anhand einer zuvor durchgeführten Punkteermittlung pro SchülerIn erfolgt, um eine über die Klasse ausgewogene Notenverteilung, bei der weder die guten noch die schlechten Noten überwiegen, zu erhalten. Die SchülerInnen bekommen bei dieser Vorgangsweise eine Information darüber, wie sie verhältnismäßig zu ihren Klas- senkollegInnen stehen, aber nicht in welchem Grad sie ihr Leistungsziel erreicht haben. Um letzteres zu erhalten, müssten die Noten nach kriteriumsorientierten Gesichtspunkten (die Lehrkräfte erstellen im Vorhinein einen Kriterienkatalog für die Benotung) verteilt werden. (vgl. Rost, 2004, S. 41).

Das Gütekriterium der Vergleichbarkeit eines Tests ist erreicht, wenn mindestens eine weitere Paralleltestform oder validitätsähnliche Tests existieren, mit denen die erzielten Testergebnisse ein und derselben Testperson verglichen werden kön- nen (vgl. Lienert & Raatz, 2011, S. 12).

Ein Test ist ökonomisch, wenn seine Durchführung zeitlich angemessen und we- nig materialintensiv ist, seine Handhabung einfach und in einer Gruppe durch- führbar ist und er obendrein schnell und praktisch ausgewertet werden kann (ebd.). Bühner (2011, S. 72) verweist in diesem Zusammenhang auf das compu- tergestützte adaptive Testen, wo aus ökonomischen Gründen Testpersonen nur mehr jene Aufgaben zur Bearbeitung vorgelegt werden, deren Schwierigkeitsgrad der Merkmalsausprägung des jeweiligen Individuums entspricht.

Der Grad der Nützlichkeit eines Tests bemisst sich gewissermaßen daran, inwie- fern er für die Messung oder Vorhersage eines Persönlichkeitsmerkmals oder Verhaltens eine Alleinstellung (kein anderer Test kann diese Funktion überneh-

men) oder einer Alternative (d. h. auch andere Tests könnten die Forschungsfrage untersuchen) einnimmt (vgl. Lienert & Raatz, 2011, S. 13).

Nachdem die Qualitätsanforderungen an psychologische Testungen in Form for- mulierter Gütekriterien nun behandelt wurden, widmet sich das nächste Kapitel einem ähnlichen Thema, nämlich einem psychometrischen Messmodell, welches aufgrund der Tatsache, dass es im Gegensatz zu vielen psychologischen Testver- fahren überprüfbar ist, eine Besonderheit in diesem Bereich darstellt (vgl. Kubinger, 2014b, S. 1375; Moosbrugger, 2012a, S. 228): Mithilfe des soge- nannten „Rasch-Modells“ kann nämlich noch in der Phase der Testkonstruktion beurteilt werden, ob eine psychologische Testung seinen gestellten Qualitätsan- forderungen genügt oder gegebenenfalls Verbesserungen vorgenommen werden müssen. Dieses Messmodell wird daher verständlicherweise nicht nur im Bereich der Testkonstruktionen (z. B. für die PISA-Studie der OECD) eingesetzt, sondern auch für die Überprüfung bereits vorhandener psychologischer Test um letztend- lich Fehlschlüsse aus Testergebnissen zu vermeiden (vgl. Strobl, 2012, S. 2 f.). 4.3 Rasch-Modell

Das Rasch-Modell geht zurück auf den dänischen Statistiker Georg Rasch und gilt als eines der Grundmodelle der Item-Response-Theory (IRT), die auch als Proba- bilistische Testtheorie bekannt ist (vgl. Kubinger, 2014b, S. 1375).

Das dichotome Rasch-Modell, das auch als „Einparameter-Logistisches Modell“ oder „1PL-Modell“ bekannt ist, ist das einfachste Messmodell aus der Gruppe der Latent-Trait-Modelle1 in der Probabilistischen Testtheorie. Mit seiner Hilfe kön- nen auf Grundlage beobachtbarer („manifester“) Variablen, wie bspw. dem Ant- wortverhalten einer Testperson („response“) auf eine an sie gestellte Aufgabe, Rückschlüsse auf nicht beobachtbare („latente“) individuelle Fähigkeits- oder

1

Bei der Betrachtung der latenten Dimension wird zwischen Latent-Class- und Latent- Trait-Modellen unterschieden. Während sich erstere „qualitativer kategorialer latenter Klassen zur Charakterisierung von Personenunterschieden“ bedienen, werden in den Latent-Trait-Modellen die latenten Variablen als quantitativ kontinuierlich angenom- men und aus diesem Grund zur Erklärung von Verhaltensunterschieden herangezogen (Moosbrugger, 2012a, S. 232 f.).

Persönlichkeitsmerkmale gezogen werden (vgl. Kubinger, 2014b, S. 1375). Das Antwortverhalten einer Testperson wird demnach in Beziehung mit ihrer aus den vorliegenden Testdaten geschätzten Personenfähigkeit gestellt (vgl. Kauertz, 2014, S. 342).

Damit diese latenten Eigenschaften für die Forschung jedoch überhaupt erst messbar werden, müssen zuvor genügend Informationen („Indikatoren“) zu diesen „interessierenden“ Merkmalen gesammelt werden (vgl. Sälzer, 2016, S. 43 f.).

4.3.1 Modellgleichung

Im dichotomen Rasch-Modell hängt die Lösungswahrscheinlichkeit einer Aufgabe

i von den numerisch dargestellten Ausprägungen zweier Parameter ab, die übli-

cherweise auf einer gemeinsamen Skala aufgetragen werden: nämlich dem Perso- nenparameter 𝜃𝑣 („Theta“), welcher für die Fähigkeit, Einstellung oder Dispositi- on einer Person 𝜐 steht, und dem Aufgabenparameter 𝛽𝑖, welcher auch als „Auf-

gabenschwierigkeit“ oder „Itemschwierigkeit“ bezeichnet wird und die Schwie- rigkeit oder Anforderung der jeweiligen Aufgabe i ausdrückt (vgl. Moosbrugger, 2012a, S. 233; Strobl, 2012, S. 7). Das manifeste Antwortverhalten einer Person 𝜐 auf das Item i wird dabei – da es sich um ein dichotomes Messmodell der Proba- bilistischen Testtheorie handelt – mit einem von zwei möglichen Werten codiert: 𝑥𝑣𝑖 = 1 („ja“ bzw. „richtig“), wenn das Item richtig gelöst bzw. 𝑥𝑣𝑖 = 0 („nein“ bzw. „falsch“), wenn es nicht gelöst werden konnte (vgl. Bühner, 2011, S. 495; Kubinger, 2014b, S. 1375). Das Rasch-Modell erlaubt demzufolge mindestens intervallskalierte Messungen, was bedeutet, dass die Messwerte für weitere Be- rechnungen wie bspw. die des Mittelwerts verwendet werden können (vgl. Strobl, 2012, S. 26).

Diese für das Rasch-Modell getroffenen Annahmen sind in eine mathematische Gleichung gefasst, der „itemcharakteristischen Funktion“, um sie empirisch über- prüfbar zu machen. Die Modellgleichung für das Rasch-Modell lautet daher (Kol- ler et al., 2012, S. 9 & S. 261 ff.):

𝑃(𝑋𝑣𝑖 = 𝑥𝑣𝑖|𝜃𝑣, 𝛽𝑖) =exp[𝑥𝑣𝑖(𝜃𝑣 − 𝛽𝑖)] 1 + exp(𝜃𝑣− 𝛽𝑖) = 𝑝𝑣𝑖

Der linke Teil der Gleichung 𝑃(𝑋𝑣𝑖= 𝑥𝑣𝑖|𝜃𝑣, 𝛽𝑖) = 𝑝𝑣𝑖 stellt die Lösungswahr-

scheinlichkeit als bedingte Wahrscheinlichkeit dar, die einerseits vom Personen- parameter 𝜃𝑣 und andererseits vom Aufgabenparameter 𝛽𝑖 beeinflusst wird. Der rechte Teil der Gleichung wird als logistische Funktion dargestellt, die in ihrer Grundform 𝑒

𝑥

1+𝑒𝑥 lautet und – weil eine Wahrscheinlichkeit berechnet wird – Werte

zwischen 0 und 1 annehmen kann. Sowohl im Zähler als auch im Nenner dieser Funktion ist die Subtraktion des Aufgabenparameters vom Personenparameter angeführt (𝜃𝑣− 𝛽𝑖). Die Differenz dieser Berechnung lässt die Aussage zu, ob die Lösungswahrscheinlichkeit vorwiegend durch den Personen- oder den Aufgaben- parameter bedingt ist: Ist die Personenfähigkeit ausgeprägter als die Aufgaben- schwierigkeit (𝜃𝑣− 𝛽𝑖 > 0, also 𝜃𝑣 > 𝛽𝑖), wird das Ergebnis als positive Diffe-

renz bezeichnet, im umgekehrten Fall (die Aufgabe ist schwerer als die Person fähig, also 𝜃𝑣 − 𝛽𝑖 < 0, also 𝜃𝑣 < 𝛽𝑖) handelt es sich um eine negative Differenz

(vgl. Strobl, 2012, S. 8 ff.).

 Beispiel 1: Der Testperson 1 mit dem Personenparameter 0 wird das Item 1 mit der Aufgabenschwierigkeit 1 vorgelegt. Die Aufgabe ist demzufolge also schwieriger als die Person fähig ist (𝜃1− 𝛽1 < 0). Die Wahrscheinlichkeit, dass Testperson 1 das Item 1 lösen kann, liegt bei 26,9 %. 𝑃(𝑋𝑣𝑖 = 𝑥𝑣𝑖|𝜃𝑣, 𝛽𝑖) =exp[𝑥𝑣𝑖(𝜃𝑣 − 𝛽𝑖)] 1 + exp(𝜃𝑣− 𝛽𝑖) = exp[𝑥11(0 − 1)] 1 + exp(0 − 1) = exp[𝑥11(−1)] 1 + exp(−1) == 0,368 1 + 0,368= 0,269

 Beispiel 2: Die Testperson 2 ist genauso fähig wie die Testaufgabe 1 schwie- rig ist (𝜃2− 𝛽1 = 0). Die Lösungswahrscheinlichkeit beträgt in diesem Fall

50,0 %. 𝑃(𝑋𝑣𝑖 = 𝑥𝑣𝑖|𝜃𝑣, 𝛽𝑖) =exp[𝑥𝑣𝑖(𝜃𝑣 − 𝛽𝑖)] 1 + exp(𝜃𝑣− 𝛽𝑖) = exp[𝑥21(1 − 1)] 1 + exp(1 − 1) = exp[𝑥21(0)] 1 + exp(0) = 1,000 1 + 1,000= 0,500

 Beispiel 3: Die Testperson 3 ist mit einem Personenparameter von 2 fähiger als die Aufgabe 1 schwierig ist (𝜃3− 𝛽1 > 0). Die Lösungswahrscheinlich-

keit errechnet sich daher mit 73,1 %.

𝑃(𝑋𝑣𝑖= 𝑥𝑣𝑖|𝜃𝑣, 𝛽𝑖) =exp[𝑥𝑣𝑖(𝜃𝑣− 𝛽𝑖)] 1 + exp(𝜃𝑣 − 𝛽𝑖) = exp[𝑥31(2 − 1)] 1 + exp(2 − 1) = exp[𝑥31(1)] 1 + exp(1) = 2,718 1 + 2,718= 0,731

Die folgende Abbildung 10 stellt die Ergebnisse dieser Berechnungen grafisch anhand einer Item Characteristic Curve (Itemcharakteristikkurve, ICC) dar und verdeutlicht gleichzeitig die Korrelation der Personenfähigkeit mit der Lösungs- wahrscheinlichkeit bei einer gegebenen konstanten Aufgabenschwierigkeit. Hier- für werden die Daten für die Personenfähigkeit von minus unendlich bis plus un- endlich auf der x-Achse eingetragen, während die y-Achse die Wahrscheinlich- keit, mit der ein Item gelöst werden wird, abbildet (vgl. Koller et al., 2012, S. 13 f.).

Wie der ICC entnommen werden kann, steigt die Wahrscheinlichkeit, eine Aufga- be 1 richtig zu lösen bei gleichbleibender Schwierigkeit (𝛽1= 1), aber zuneh- mender Personenfähigkeit, an. Da in diesem Fall die Testperson 1 (𝜃1 = 0) aber weniger fähig als die Testaufgabe 1 schwierig ist (siehe x-Achse), ist auch die auf der y-Achse aufgetragene Lösungswahrscheinlichkeit geringer ausgeprägt. Im Unterschied dazu überwiegt die Personenfähigkeit von Testperson 3 die Itemschwierigkeit der Aufgabe 1, was sich in einer höheren Lösungswahrschein- lichkeit ausdrückt.

Abbildung 10: ICC für ein Item mit der Aufgabenschwierigkeit 1 (in Anlehnung an Strobl, 2012, S. 10)

Das Testergebnis einer Person bemisst sich allerdings nicht nur anhand ihrer Fä- higkeit oder der Schwierigkeit einer Aufgabe, sondern unterliegt auch dem Zufall: Ein und dieselbe Testperson kann bei gleichbleibender Personenfähigkeit an zwei verschiedenen Tagen unterschiedliche Testergebnisse bei einer an beiden Tagen identen Testung erzielen, weil ihr bspw. auch einmal Flüchtigkeitsfehler unterlau- fen können (vgl. Strobl, 2012, S. 6 f.).

In der Praxis ist es üblich, dass nicht nur ein Testitem, sondern gleich mehrere Aufgaben visuell nebeneinander dargestellt werden (vgl. Abbildung 11). Abhän- gig von ihrem individuellen Schwierigkeitsgrad sind sie bei gleich bleibender Per- sonenfähigkeit parallel nach links (die Aufgabe ist leichter) oder rechts (die Auf- gabe ist schwieriger) verschoben. Ferner ist erkennbar, dass ihre Steigung ident ist, was darauf zurückzuführen ist, dass in der Modellgleichung jede Aufgabe nur durch einen einzigen Parameter 𝛽𝑖 gekennzeichnet ist, dessen Wert aber veränder- lich ist (vgl. Strobl, 2012, S. 10 ff.).

0,00 0,20 0,40 0,60 0,80 1,00 -4 -3 -2 -1 0 1 2 3 4 L ösung swa hrsc he inl ichke it latente Dimension 𝜃1= 0 𝜃2 = 1 𝜃3 = 2

Abbildung 11: Aufgabencharakteristische Kurven für mehrere Aufgaben (in Anlehnung an Strobl, 2012, S. 11)

Anhand der in der obigen Abbildung 11 dargestellt ICCs ist erkennbar, dass ihre individuelle Steigung im mittleren Bereich am höchsten ist. Dieser Anstieg wird als Trennschärfe bezeichnet (vgl. Strobl, 2012, S. 36). Auf Itemebene kann auf- grund der Trennschärfe eines Items schlussgefolgert werden, wie gut das Ant- wortverhalten auf eine einzelne Aufgabenstellung das Ergebnis eines gesamten Tests repräsentiert. Testpersonen, welche bspw. einen hohen Wert auf einer trenn- scharfen einzelnen Aufgabenstellung erreichen, weisen auch einen hohen Gesamt- testwert auf (vgl. Echterhoff, 2013, S. 87).

In der folgenden Abbildung 12 sind jeweils eine ICC für eine Aufgabe mit einer höheren und für eine Aufgabe mit einer niedrigen Trennschärfe dargestellt. Die linke Grafik veranschaulicht, dass sich bei einer Aufgabe mit höherer Trennschär- fe starke Unterschiede in Bezug auf ihre Lösungswahrscheinlichkeit ergeben, ob- wohl es sich bei den für die Aufgabenbearbeitung ausgewählten Personen um zwei handelt, deren Fähigkeiten nahe beieinander liegen (vgl. Strobl, 2012, S. 11). Für die Interpretation der Personenfähigkeit bedeutet das, dass Items mit einer höheren Trennschärfe im Gegensatz zu Items geringerer Trennschärfe besser zwi- schen fähigeren und weniger fähigen Personen unterscheiden bzw. „diskriminie- ren“ (Koller et al., 2012, S. 5).

0,00 0,20 0,40 0,60 0,80 1,00 -4 -2 0 2 4 L ösung swa hrsc he inl ichke it latente Dimension Item 1 Item 2 Item 3 Item 4

Abbildung 12: ICCs für zwei Aufgaben mit höherer (linke Grafik) und niedriger (rechte Grafik) Trennschärfe (Quelle: Strobl, 2012, S. 12)

Obwohl in einer Testung vorwiegend Items mit möglichst hohen Trennschärfen eingesetzt werden sollen, ist dabei zu beachten, dass die Trennschärfe eines Items negativ mit seiner jeweiligen Aufgabenschwierigkeit korreliert: Je geringer die Trennschärfe der jeweiligen Aufgabenstellung ausfällt, desto größer ist ihre item- spezifische Schwierigkeit. Diese Feststellung ist für diese Diplomarbeit von Be- deutung, da die Erweiterung eines bereits bestehenden Aufgabenpools durch die Konzeption und Bewertung weiterer Testitems zur Kompetenzmessung im Unter- richtsfach Unternehmensrechnung thematisiert: Ein Aufgabenpool, welcher eine breite Streuung an Aufgabenschwierigkeiten aufweisen soll und daher mit einer Vielzahl unterschiedlicher Testitems ausgestattet sein muss, hat folglich mit Ab- strichen bezüglich der Trennschärfe seiner einzelnen Items zu rechnen (vgl. Echterhoff, 2013, S. 87).

4.3.2 Qualitätskriterien im Rasch-Modell

Wie bereits in Kapitel 4.2 angesprochen, gibt es bestimmte Anforderungen an die Qualität psychologischer Testungen. Auch im Rasch-Modell entscheidet die „rich- tige Eichung“ durch Qualitätskriterien darüber, wie objektiv und genau die Mes- sung der latenten Eigenschaften erfolgt und ob der untersuchte Datensatz Rasch- Modellgeltung erlangt (Koller et al., 2012, S. 4 und S. 26). Letzteres ist dann bspw. der Fall, wenn er nach erfolgter Modellprüfung keine Aufgaben mehr ent- hält, die einzelne Personengruppen bevorzugen oder benachteiligen könnten. An- dernfalls müssen die einzelnen als modellverletzend identifizierten Items entfernt

oder durch andere Rasch-skalierbare Items ersetzt werden, um doch noch eine Übereinstimmung des Testkonstrukts mit den folgenden Qualitätsanforderungen des Rasch-Modells zu erzeugen (vgl. Strobl, 2012, S. 2 f.).

Die Eindimensionalität bzw. Itemhomogenität stellt eine der zentralen (Quali- täts-)Eigenschaften im Rasch-Modell dar. Erkennbar ist die Eindimensionalität einerseits in der Modellgleichung, wo Personen- und Aufgabenparameter vonei- nander subtrahiert werden (𝜃𝑣 − 𝛽𝑖) und andererseits anhand der visuellen Dar-

stellung der itemcharakteristischen Funktion. Da sowohl die Personenfähigkeit 𝜃𝑣 als auch die Aufgabenschwierigkeit 𝛽𝑖 durch jeweils einen einzigen Parameter abgebildet werden und auf ein- und derselben Skala messen, werden beide Para- meter grafisch auf der x-Achse aufgetragen. Itemhomogenität ist gegeben, wenn alle Testitems inhaltlich das gleiche latente Merkmal messen, sie daher homogen sind und daher untereinander positiv korrelieren. Zum Beispiel darf ein Test zur Mathematik-Kompetenz nur diese Kompetenz und nicht gleichzeitig auch die Sprachkompetenz erheben (vgl. Koller et al., 2012, S. 15; Rost, 2004, S. 100; Strobl, 2012, S. 23).

„Ein Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung in diesem Item komplett auf die Fähigkeitsausprägung auf der latenten Variable zurückzuführen ist und nicht auf andere Va- riablen.“ (Bühner, 2011, S. 57)

Bei der Erstellung von Testaufgaben ist neben ihrer Eindimensionalität auch auf deren lokale stochastische Unabhängigkeit zu achten (vgl. Koller et al., 2012, S 16). Der Begriff „stochastisch“ bedeutet „zufallsabhängig“ (vgl. DUDEN, 2001, S. 950). Damit Aufgaben dem Rasch-Modell entsprechen, muss sichergestellt werden, dass ihre Lösungswahrscheinlichkeit nur vom jeweiligen Item selbst ab- hängt und daher unabhängig von anderen Aufgaben ist (vgl. Koller et al., 2012, S. 5). Selbiges gilt für die Unabhängigkeit der Testpersonen: Die Wahrscheinlich- keit, mit welcher die jeweilige Testperson eine bestimmte Aufgabe lösen kann, darf nur von ihrer eigenen Personenfähigkeit und der Aufgabenschwierigkeit ab- hängen, nicht allerdings davon, welche Aufgaben sie bereits gelöst hat oder noch lösen wird. Es dürfen weder Lernprozesse stattfinden, noch Aufgaben so aufge-

baut sein, dass erst die Lösung einer Aufgabe die Bearbeitung oder Lösung der nächsten Aufgabe ermöglicht (vgl. Kubinger, 2014b, S. 1375).

„Zwei Ereignisse sind stochastisch unabhängig, wenn der Ausgang des einen Ereignisses die Wahrscheinlichkeit für das Eintreten des an- deren Ereignisses nicht beeinflusst.“ (Duller, 2019, S. 200)

Ein weiteres Qualitätskriterium ist die Spezifische Objektivität. Vergleiche von Fähigkeitsausprägungen zweier Testpersonen dürfen nicht davon abhängen, an- hand welcher Aufgabe sie gemessen werden, weil z. B. die Personenfähigkeit bei Person A immer höher ausgeprägt ist als bei Person B – unabhängig von der Itemauswahl. Selbiges gilt für den Vergleich der Aufgabenschwierigkeit zweier Aufgaben: Die Ermittlung ihrer Differenz muss unabhängig von den ausgewählten Personen erfolgen (vgl. Strobl, 2012, S. 20). Zusammenfassend kann daher gesagt werden, dass es unerheblich ist, ob Testaufgaben mit niedrigeren oder höheren Schwierigkeitsgraden aus dem Itempool herangezogen werden um Vergleiche zwischen den Fähigkeitsausprägungen zweier ProbandInnen (𝜃𝑣− 𝜃𝑤) anzustel- len oder Testpersonen mit niedrigeren oder höheren Fähigkeitsausprägungen aus der Population ausgewählt werden um den Unterschied der Aufgabenschwierig- keit zwischen zwei Items aus dem Aufgabenpool (𝛽𝑖− 𝛽𝑗) ermitteln zu können (vgl. Moosbrugger, 2012a, S. 247). Die spezifische Objektivität wird aus diesem Grund häufig auch als Stichprobenunabhängigkeit bezeichnet. Bei Geltung des Rasch-Modells muss die Auswahl der Testpersonen oder -items nicht mehr zufäl- lig erfolgen um verlässliche Parameterschätzungen zu ermöglichen (vgl. Koller et al., 2012, S. 19).

In dem Rasch-Modell entsprechenden Datensätzen trifft die Annahme der „Sub-

gruppeninvarianz1“ zu, welche gegeben ist, wenn sich der Personenparameter

auch über Subgruppen, wie bspw. Frauen und Männer, hinweg nicht verändert, also die Existenz von Subgruppen die Schätzung der Personenfähigkeit nicht be- einflusst. Die Annahme der Subgruppeninvarianz ist verletzt, wenn Testaufgaben zwischen den gebildeten Subgruppen unterschiedlich „funktionieren“, d. h., wenn

1

Invarianz bedeutet die Unveränderlichkeit bspw. von Größen in der Mathematik (vgl. DUDEN, 2001, S. 458).

sie in den unterschiedlichen Personengruppen nicht die gleiche Fähigkeit anspre- chen (z. B. (mutter-)sprachliche Kompetenz). In der Literatur wird auch der Be- griff des Differential Item Functioning (DIF) verwendet, um auf unfaire Testin- strumente hinzuweisen. Erkennbar ist eine DIF-Aufgabe bspw. daran, dass sie von Personengruppen mit identer Fähigkeitsausprägung als unterschiedlich schwierig wahrgenommen wird. DIF-Items benachteiligen folglich mindestens eine an der Testung teilgenommene Personengruppe und müssen daher entweder modifiziert oder gänzlich aus dem Test ausgeschlossen werden (vgl. Koller et al., 2012, S. 20; Strobl, 2012, S. 22 f.).

Bei Vorliegen einer Rasch-Modell-Konformität für die Datenmatrix wird diese als

„suffiziente“ bzw. „erschöpfende“ Statistik bezeichnet (vgl. Strobl, 2012, S. 15).

Bei einem Test werden beispielsweise v = 1, 2, 3, 4, 5, … n Personen zu i = 1, 2, 3, … k Items getestet. Die Anzahl der Personen n, welche der Anzahl der Zeilen im Datensatz entspricht, multipliziert mit der Anzahl der Testitems k, welche mit der Anzahl der Spalten im Datensatz übereinstimmt, ergibt eine sogenannte Da- tenmatrix im Ausmaß n * k (siehe Abbildung 13). Die einzelnen Dateneinträge in der Datenmatrix stellen das jeweilige Antwortverhalten einer Testperson 𝜐 auf eine Testaufgabe i dar und werden deshalb als 𝑥𝑣𝑖 bezeichnet (vgl. Koller et al., 2012, S. 9 f.).

Relevant sind dabei aber weniger die Daten aus dem Inneren der Datenmatrix, als die jeweiligen Randsummen der Spalten bzw. Zeilen (vgl. Koller et al., 2012, S. 26): Die Zeilen-Randsumme rv beinhaltet für jede Testperson 𝜐 alle Informatio-

nen über das interessierende Merkmal „Personenfähigkeit“, während die Spalten- Randsumme ci für jede Testaufgabe i die gesamte Information über ihre jeweilige

Schwierigkeit bereithält. Bei Rasch-skalierten Tests ist daher die Frage, welche Aufgaben der jeweilige Proband gelöst oder nicht gelöst hat unerheblich, bedeut- sam für die Schätzung der jeweiligen Personenfähigkeit ist nur die Anzahl richtig gelöster Aufgaben (vgl. Strobl, 2012, S. 15). Folglich werden Personen mit glei- chem Personenscore rv dieselbe Fähigkeitsausprägung 𝜃𝑣 und umgekehrt Items

mit gleichem Itemscore auch derselbe Aufgabenparameter 𝛽𝑖 zugeschrieben (vgl. Koller et al., 2012, S. 26).

Zur näheren beispielhaften Erklärung wurde in der folgenden Datenmatrix (siehe Abbildung 14), für die die Rasch-Modell-Konformität angenommen wird, das auf jedes der insgesamt sechs Testitems gezeigte Antwortverhalten der insgesamt acht TestteilnehmerInnen mit den Werten 0 oder 1 codiert. Testperson 3 weist bei die- ser Testung mit der Zeilen-Randsumme 𝑟𝑣=3 = 6 den höchsten Personenscore und damit die höchste Personenfähigkeit auf, da sie alle an sie gestellten Aufgaben richtig lösen konnte. Für Testperson 5 hingegen zeigt die Zeilen-Randsumme 𝑟𝑣=5 = 1 den niedrigsten Personenscore und damit verbunden auch die niedrigste Personenfähigkeit an. Diese Testperson hatte nur eine von insgesamt sechs ge- stellten Aufgaben richtig lösen können.

Item 6 erweist sich bei dieser Testung mit einer Spalten-Randsumme von 𝑐𝑖=6= 2 als die schwierigste Aufgabe aus dem gesamten Itempool, da es nur zwei

der insgesamt acht Testpersonen richtig löst konnten, wohingegen sich Item 5 mit einer Spalten-Randsumme von 𝑐𝑖=5= 7 als das leichteste Item herauskristallisiert. Insgesamt sieben von acht TestteilnehmerInnen hatten es richtig lösen können.

Abbildung 14: Datenmatrix eines Tests mit sechs Aufgaben und acht TeilnehmerInnen (in Anleh-

Im Dokument Konzeption und Bewertung von Testitems zur Kompetenzmessung im Unterrichtsfach Unternehmensrechnung / eingereicht von Barbara Wurzer-Ramsauer (Seite 41-67)