6.2 Modellprüfung

6.2.4 Streudiagramm der Aufgabenparameter („grafischer

Das Streudiagramm der Aufgabenparameter stellt das grafische Gegenstück zum mathematischen Andersen-Likelihood-Ratio-Test dar (vgl. Helm & Wimmer, 2011/2012, S. 27) und gehört im Gegensatz zu den bisher vorgestellten Testver- fahren der Gruppe der nicht inferenzstatistischen Modelltests an (vgl. Bühner, 2011, S. 528). Es gilt als das einfachste Überprüfungsverfahren für Items ob ihrer Gültigkeit im Rasch-Modell (vgl. Strobl, 2012, S. 40).

Ausgangspunkt für dieses Testverfahren ist wie beim LRT die Überlegung, dass die Items unabhängig von der gewählten Teilstichprobe immer die gleiche Eigen- schaft oder Fähigkeit erheben und sich die geschätzten Aufgabenparameter beim Vergleich zwischen den Personengruppen folglich nicht unterscheiden. Der Vor- teil dieses Verfahrens liegt in der anschaulichen Darstellung der Items hinsichtlich ihrer Modellgültigkeit (vgl. Bühner, 2011, S. 539). Allerdings können bei der gra- fischen Modellkontrolle – im Gegensatz zum LRT und Wald-Test, bei welchen

eine Vielzahl von Gruppen verglichen werden können – nur zwei Personensub- gruppen in einen direkten Vergleich treten (vgl. Strobl, 2012, S. 42 ff.)

Die grafische Darstellung entspricht einem Streudiagramm, in dem die Schätzun- gen der Aufgabenparameter der zwei gewählten Teilstichproben aufgetragen wer- den. Idealerweise liegen die Punkte auf oder ausreichend weit genug an der 45°-Geraden, um die Annahme der Subgruppeninvarianz für die jeweilige Perso- nengruppe bestätigen zu können. Je weiter weg sich dagegen ein Datenpunkt von der Regressionsgeraden befindet, desto schlechter wird seine Itemqualität einge- schätzt. Als Hilfsmittel für die Entscheidung über die Modellkonformität der ein- zelnen Punkte dient hierzu eine zusätzliche grafische Darstellung der Konfiden- zintervalle in Ellipsenform. Solange die Ellipsenfläche die 45°-Gerade überlappt, gilt das jeweilige Item als Rasch-Modell-konform. Die Basis für die Durchfüh- rung des grafischen Modelltests bilden die Daten des zunächst unbedingt zu durchlaufendenden LRT, des Signifikanztestes zur Prüfung der Subgruppeninva- rianz. Gestartet wird die Erstellung des Streudiagramms über die Funktion „good- ness-of-fit“, welche die Güte der Modellgleichung beschreibt (vgl. Koller et al., 2012, S. 79 ff.; Bühner, 2011, S. 539).

Für die nachfolgende Darstellung der Streudiagramme wurde die Stichprobe an- hand der Teilungskriterien „Median der Rohwerte Personenscore“ und „Ge- schlecht“ – analog des LRT – in zwei Teilstichproben aufgeteilt. Aufgrund der Notwendigkeit, eine große Vielzahl an Items grafisch darzustellen, sind die Grafi- ken für die Buchungs- und Gewinnauswirkungsaufgaben getrennt dargestellt. Die- se Aufteilung nimmt allerdings – im Unterschied zu den Teilungskriterien – kei- nen Einfluss auf die Berechnungen, sondern dient lediglich zur Wahrung der Übersichtlichkeit.

Die ersten beiden Streudiagramme zeigen das 95 % Konfidenzintervall in Ellip- senform jeweils für die Buchungsaufgaben (linkes Diagramm) und die Gewinn- auswirkungsaufgaben (rechtes Diagramm) für das Splitkriterium Median der Rohwerte vor Entfernen der signifikanten Items oder jener, deren Schwierigkeits-

grad mangels eines angemessenen Antwortmusters nicht verlässlich geschätzt werden konnte, an.

Abbildung 34: Streudiagramme der Itemparameter, Konfidenzniveau 95 %, Teilungskriterium „Median der Rohwerte“ (Quelle: eigene Darstellung in eRm)

Auffällig ist an diesen Grafiken, dass die Ellipsenfläche sich in ihrer Größe unter- scheiden, was den unterschiedlich weiten Konfidenzintervallen geschuldet ist (vgl. Hosoya, 2015, S. 13) und manche Konfidenzellipsen die 45°-Gerade nicht überlappen, was darauf hinweist, dass das Rasch-Modell für diese dahinterliegen- den Items keine Gültigkeit besitzt.

Anhand der folgenden Streudiagramme in Abbildung 35 ist klar ersichtlich, dass bei den Buchungsaufgaben das Item 1 (BU 1.1 – Verbuchung Bareinlage) und bei den Gewinnauswirkungsaufgaben die Items 19 (GA 1.3 – Gewinnauswirkung Einzelwertberichtigung), 23 (GA 2.3 – Gewinnauswirkung Forderungsabschrei- bung) und 41 (GA 7.3 Gewinnauswirkung sonstige Rückstellung) zentrale Eigen- schaften des Rasch-Modells verletzen. Während die Konfidenzellipsen der Items 1 und 41 auf der jeweils linken Seite der Regressionsgeraden liegen, sind die Items 19 und 23 rechts von ihr angeordnet, was bedeutet, dass die Items 1 und 41 von leistungsschwächeren SchülerInnen leichter zu lösen waren als von leistungs- stärkeren, während es sich bei den Items 19 und 23 genau umgekehrt verhält.

Abbildung 35: Streudiagramme der Itemparameter für Gewinnauswirkungsaufgaben, Konfidenz- niveau 95 %, Teilungskriterium „Median der Rohwerte“ (Quelle: eigene Darstellung in eRm)

Die nächsten Streudiagramme der Aufgabenparameter in Abbildung 36 visualisie- ren die grafische Modelltestung anhand des Teilungskriteriums des Geschlechts der TestteilnehmerInnen. Das Konfidenzintervall beträgt dabei wieder 95 % und die Items sind wieder getrennt nach Buchungsaufgaben und Gewinnauswirkungs- aufgaben dargestellt, wobei auf den ersten Blick ersichtlich wird, dass bei den Buchungsaufgaben alle Konfidenzellipsen die 45°-Gerade überlappen und daher alle Items Rasch-skalierbar sind.

Abbildung 36: Streudiagramm der Itemparameter für Buchungsaufgaben, Konfidenzniveau 95 %, Teilungskriterium „Geschlecht“ (Quelle: eigene Darstellung in eRm)

Gegenteilig verhält es sich bei den Gewinnauswirkungsaufgaben, bei denen die Items 35 (GA 3.5 – Gewinnauswirkung Urlaubsrückstellung) und 47 (GA 7.2 – Gewinnauswirkung Fremdwährungsverbindlichkeiten) keine Berührung mit der Regressionsgerade aufweisen (vgl. Abbildung 37). Beide Aufgaben sind oberhalb der 45°-Geraden verortet, was bedeutet, dass sich die Schätzungen der Itempara- meter dieser Aufgaben systematisch zwischen den Gruppen unterscheiden. Beide Items weisen einen geringen Wert auf der x-Achse, dafür aber einen hohen Wert auf der y-Achse auf, was bedeutet, dass diese Items für die weiblichen Testteil- nehmerinnen „statistisch signifikant“ (Helm & Wimmer, 2011/2012, S. 27) schwerer zu lösen sind als für Gruppe der männlichen Testteilnehmer und folglich Differential Item Functioning vorliegt.

Abbildung 37: Streudiagramme der Itemparameter für Gewinnauswirkungsaufgaben, Konfidenz- niveau 95 %, Teilungskriterium „Geschlecht“ (Quelle: eigene Darstellung in eRm)

Insgesamt fällt auf, dass die nach diesen durchgeführten grafischen Modelltests nach den Splitkriterien Median der Rohwerte Personenscore und Geschlecht aus- zuschließenden Items mit jenen ident sind, deren Signifikanzwerte beim ersten Durchlauf des Wald-Tests unterhalb des p-Wertes von .05 lagen und als Rasch- Modell verletzende Items identifiziert worden waren.

Nach Durchführung wiederholter Modellgeltungstests und Entfernung aller signi- fikanten Items stellen sich die endgültigen Streudiagramme der Aufgabenparame- ter für die Buchungsaufgaben (linkes Diagramm) und die Gewinnauswirkungs-

aufgaben (rechtes Diagramm) für das Splitkriterium Median der Rohwerte Perso- nenscore, wie in der Abbildung 38 grafisch dargestellt, dar. Im Gegensatz zur ers- ten durchgeführten grafischen Modellkontrolle (siehe Abbildung 33) berühren oder überlappen alle Konfidenzellipsen die Regressionsgerade, womit alle ver- bliebenen Items als Rasch-skalierbar gelten.

Abbildung 38: Streudiagramme der Itemparameter für alle verbliebenen Aufgaben, Konfidenzni- veau 95 %, Teilungskriterium „Median der Rohwerte“ (Quelle: eigene Darstellung in eRm)

Auch bei den Streudiagrammen der Aufgabenparameter nach dem Teilungskrite- rium Geschlecht in Abbildung 39 sind nach Ausschluss aller identifizierten signi- fikanten Items keinerlei Modellverletzungen mehr erkennbar.

Abbildung 39: Streudiagramme der Itemparameter für alle verbliebenen Aufgaben, Konfidenzni- veau 95 %, Teilungskriterium „Geschlecht“ (Quelle: eigene Darstellung in eRm)

Im Dokument Konzeption und Bewertung von Testitems zur Kompetenzmessung im Unterrichtsfach Unternehmensrechnung / eingereicht von Barbara Wurzer-Ramsauer (Seite 107-113)