7. Konstruktion des Vignettentests zur Erfassung professioneller Kompetenz

7.3. Design der Testentwicklung

7.3.5. Pilotstudie an der Pädagogischen Hochschule Heidelberg

Im Anschluss an die Expertengespräche (Kapitel 7.3.2 und 7.3.4) und die Anpassungen der Vignetten und Items wurde der Vignettentest, bestehend aus zehn Vignetten für „Feedback geben“ und elf Vignetten für „Diagnostizieren können“, zum Pretesting 529 an der Pädagogischen Hochschule Heidelberg eingesetzt. Beim Fragebogen-Pretest bzw. bei einer Pilotierung handelt es sich um die Testung eines Fragebogens vor dessen Einsatz in der eigentlichen Erhebung. Pretests sind wesentliche Bestandteile der Fragebogenentwicklung und geben Auskunft über:

 die Verständlichkeit der Fragen,

 das Interesse und die Aufmerksamkeit der Befragten allgemein und speziell bei einzelnen Fragen,

 die Häufigkeitsverteilungen der Antworten, ob also die Skalenbreite ausgenutzt wird und

 die Zeitdauer der Befragung.

Die Aspekte lieferten brauchbare Hinweise bezüglich der Funktionsfähigkeit des Fragebogens und damit der Qualität (Validität) der erhobenen Daten.530 Durch die Überprüfung von Fragebögen in Form von Pretests lässt sich herausfinden, ob Fragebögen wirklich das messen, was sie vorgeben zu messen, und von den Daten reliable und valide Antworten zu erwarten sind.531

„Die Simulation der Haupterhebung (…)“532, fand Ende des Sommersemesters 2016 mit 68

Studierenden statt. Die Pilotierung sollte Aussagen über die Akzeptanz des Testes bei den Studierenden und Informationen in Bezug auf die Umsetzung liefern. Die entwickelten Vignetten wurden auf zwei Testversionen verteilt. Die Versionen A und C beinhalteten jeweils

529 Siehe hierzu den Artikel von Timo Lenzner/Cornelia Neuert/Wanda Otto: Kognitives Pretesting (Version 1.0). 2014, S. 1-7. https://www.ssoar.info/ssoar/bitstream/handle/document/39372/ssoar-2014-lenzner_et_al- Kognitives_Pretesting.pdf?sequence=1, aufgerufen am 2.09.2018.

530 Vgl. ebd., S. 1. 531 Ebd.

148

fünf Vignetten zu „Feedback geben“ und sechs Vignetten zu „Diagnostizieren können“ und die Versionen B und D je fünf Vignetten für beide Facette, sodass jede einzelne Unterrichtssituation von gleich vielen Studierenden beurteilt wurde. Alle Vignetten lagen in schriftlicher Form vor. In den Versionen A und C sowie B und D rotierten die Vignetten, um eventuelle Ermüdungserscheinungen bei den Studierenden auszuschließen. Durch die Pilotstudie wurden der Erhebungsablauf und die Durchführbarkeit im Hinblick auf den Einsatz des Testinstrumentes im Rahmen einer Seminarsitzung (max. 90 Minuten) erprobt. Im Vorfeld der Pilotierung wurde der Test bereits an einer Handvoll Studierender (N = 5) eingesetzt. Daraus ergab sich eine Bearbeitungszeit für den Testbogen von etwa 80 Minuten. Diese Studierenden wurden nicht zu den Probanden*innen der Pilotierung gezählt, sondern als eine Art Versuchsobjekt betrachtet und unmittelbar nach der Bearbeitung des Tests angesprochen, um weitere Informationen über die Wahrnehmung - bezogen auf Vignetten und Items - zu gewinnen.

Insgesamt wurden 28 Männer und 39 Frauen befragt. Die Fragebogenbearbeitung fand bis auf wenige Ausnahmen in Seminarveranstaltungen satt und nahm etwa 60 bis 70 Minuten in Anspruch. Die Befragung fand in Form eines Paper-pencil-Verfahrens und einer socis- survey533-Erhebung statt.

Bei der Pilotierung wurde durch die Testleitung versäumt, das Alter der Studierenden abzufragen, sodass darüber keine deskriptiven Aussagen getroffen werden können. Ebenso gab es kein explizites Item, das die Semesteranzahl der Studierenden abfragte. Die Studierenden wurden vor der Befragung durch die Testleitung mündlich aufgefordert, ihre Semesteranzahl auf dem Fragebogen zu vermerken.

Semester Häufigkeit Prozent

1 5 7.5 2 3 4.5 3 5 7.5 4 2 3.0 5 1 0.7 6 3 4.5 7 2 3.0 8 3 5.2

533 Bei socis survey handelt es sich um ein im Internet frei verfügbares Software Paket, das eine hohe Flexibilität bei der Gestaltung von Fragebögen bietet.

149

9 1 1.5

Ohne Angaben 42 62.7

Tabelle 12: Verteilung der Probanden*innen über die Studiensemester

Da es sich bei dieser Untersuchung um eine Querschnittuntersuchung handelte, wurden Studierende vom ersten bis zum neunten Semester und Examenskandidaten*innen befragt534.

Auf Items in Bezug auf Praxiserfahrungen bzw. Teilnahme an Praktika wurde verzichtet. Um einen Referenzwert für die kognitive Belastung zu erhalten, wurde am Ende der Befragung die Beanspruchung der Teilnehmer*innen über eine Selbsteinschätzungsskala erhoben.

Wie beanspruchend war die Beantwortung der Testfragen für Sie? Einschätzung auf einer sechs-stufigen Likert-

Skala von 1= „überhaupt nicht beanspruchend“ bis 6= „sehr beanspruchend“.

Abbildung 20: Subjektive Einschätzungen der Studierenden bezüglich der Beanspruchung des Testinstruments

Wie nicht anders zu erwarten, wurde die Testung von den Studierenden als anspruchsvoll (M = 4.35; SD = 1.09) empfunden. Die angegebene Beanspruchung resultierte aus dem Textumfang, dem Hineindenken in die unterschiedlichen Unterrichtssituationen und Items und der langen

534 In der Stichprobe sind Bachelorstudenten*innen, Lehramtsstudenten*innen der Prüfungsordnung 2011 und Gymnasialstudenten*innen der Universität Heidelberg enthalten.

150

Bearbeitungszeit von etwa 60 bis 70 Minuten.535 Die gefühlte starke Beanspruchung gab zu

denken, wie umfangreich der finale Testbogen zu gestalten sei, damit die „(…) Motivation, alle Fragen korrekt zu beantworten, als auch die Konzentration der Befragten nicht beeinträchtigt wird.“536

Auch wenn die Beanspruchung durch den Test als hoch eingestuft wurde, wurde die Sinnhaftigkeit des Testinstrumentes zur Erhebung geschichtsdidaktischen Wissens bei Geschichtsstudenten*innen bestätigt (siehe Abbildung 23).537

Wie sinnvoll finden Sie die Beantwortung der Testfragen, um geschichtsdidaktisches Wissen von Studierenden zu erfassen? Einschätzung auf einer sechsstufigen Likert-Skala von 1= „überhaupt nicht sinnvoll“ bis 6= „Sehr

sinnvoll“.

Abbildung 21: Subjektive Einschätzung der Studierenden bezüglich der Sinnhaftigkeit des Testunstruments

Die Teilnehmer*innen der Pilotstudie attestierten dem entwickelten Test mit einem Mittelwert von M = 4.56 (SD = 1.27) auf der sechsstufigen Likert-Skala das Potenzial, fachdidaktische Kompetenzen zu erfassen. Nach der Einschätzung der Studierenden fand bei der Bearbeitung

535 So wurde zum Beispiel angemerkt: „Ich persönlich hätte ein Vorgehen mit Videoausschnitten von Unterrichtssequenzen vielleicht zielführender gefunden.“

536 Peter Prüfer/Margit Rexroth: Zwei-Phasen-Pretesting. In: ZUMA-Arbeitsbericht (2000), S. 17. 537 Vgl. Resch (Anm. 9), S. 133.

151

der Unterrichtsvignetten historisches Denken statt.538 So war eine Teilnehmerin der Meinung:

„Ich finde den Test sinnvoll, da einem bewusst wird, wie unterschiedlich die Antworten zu ein und demselben Thema sein können.“539

Zwei klare Ziele spielten bei der Pilotierung eine bedeutende Rolle: Optimierung und Auswahl der Items. Durch die Daten konnten erste Referenzwerte ermittelt werden. So war es in einem ersten Schritt möglich, Items zu selektieren und die Handlungsalternativen in allen Vignetten auf sechs Items zu standardisieren.

Da auf eine quantitative Experten*innenbefragung verzichtet wurde, lag für die Reduzierung der Items kein Referenzmaß in Form einer Expertennorm vor. Es wurde ein anderes Vorgehen gewählt und die Items wurden aufgrund ihrer Eindeutigkeit selektiert. Daher fand eine Betrachtung der Häufigkeiten der gewählten Items in SPSS statt. Für den Ausschluss von Items wurden die statistischen Mittel der Standardabweichung und des Modalwertes 540 herangezogen. Als Kriterien für die Itemreduzierung wurden angesetzt:

 in der Regel keine Mehrgipfeligkeit,541

 falls möglich eine angemessene Verteilung der Modalwerte über die Skala von Eins bis Sechs,

 Standardabweichungen möglichst SD < 1.5.

Alle Items wurden anhand dieser Kriterien betrachtet und für den finalen Test ausgewählt. Es stellte sich heraus, dass das Kriterium der Mehrgipfeligkeit nicht immer ein strikter Grund für das Aussortieren von Items ist. Bei manchen Vignetten wurde deutlich, dass sich die Gipfel nebeneinander auf der Skala befanden, sodass z. B. gleich viele Studierende ein Item auf Drei bzw. Vier der Skala einstuften. In diesen Fällen wurden die Items nicht zwangsläufig selektiert, da es nicht möglich war, einen Unterschied zwischen der dritten und der vierten Stufe der Skala festzulegen. Die Items wurden beibehalten, wenn sich die Studierenden tendenziell einig waren. Nach dieser Datenauswertung, die zur Reduzierung der Items auf je sechs pro Unterrichtsvignette führte, wurde die Anzahl der im finalen Test verbleibenden Vignetten festgelegt. Diese Entscheidung erfolgte in einer projektinternen Gruppe (N = 4) anhand der in Kapitel 7.3.2 vorgeschlagenen Kriterien der fachdidaktischen Relevanz und der Alltagsnähe. Das finale Testinstrument umfasste zwölf Unterrichtsvignetten mit jeweils sechs geschlossenen

538 Ebd., S. 134.

539 Entnommen aus einem Testheft der Pilotstudie.

540 Beim Modalwert handelt es sich um den Wert, der bei einem Item am häufigsten von den Studierenden auf der Likert-Skala gewählt wurde.

152

Items. Die Vignetten wurden bei allen Befragungen eingesetzt, um einen hohen Grad an Standardisierung zu erfüllen.

Die Tabelle liefert einen Überblick über die im Test verbliebenen Vignetten:

Unterrichtsvignette Konstruktfacette Kognitiver Prozess Schulform/Klasse Oskar Schindler „Feedback

geben“ Urteilsbildung Realschule Klasse 10 Spanische Kolonialherrschaft „Feedback geben“ Urteilsbildung Gemeinschaftsschule Klasse 7 Leben in einer mittelalterlichen Stadt „Feedback geben“ Konstruktionscharakter von Darstellungen Werkrealschule Klasse 7

Ludwig XIV. „Feedback geben“ Darstellungen Realschule Klasse 8 Familiengeschicht- liche Quelle „Feedback geben“ Quellenkritik Realschule Klasse 9 Eichmann „Feedback geben“ Urteilsbildung Gemeinschaftsschule Klasse 9 Altsteinzeit „Diagnostizieren können“ Konstruktionscharakter von Darstellungen Realschule Klasse 6 Treitschkestraße „Diagnostizieren können“ Urteilsbildung Gymnasium Klasse 9 Der Fall Oskar

Gröning „Diagnostizieren können“ Urteilsbildung Werkrealschule Klasse 10 Quelle oder Darstellung „Diagnostizieren können“ Unterscheidung Quelle/ Darstellung Realschule Klasse 6 Industrialisierung „Diagnostizieren können“ Bildbeschreibung Werkrealschule Klasse 8 Zeitstrahl „Diagnostizieren können“ Chronologie/Ordnungs- konzepte Realschule Klasse 9 Tabelle 13: Übersicht über die eingesetzten Vignetten

Im Dokument Feedback und Diagnose beim historischen Lehren und Lernen - Entwicklung eines Vignettentests zur Erfassung professioneller Kompetenz bei angehenden Lehrkräften (Seite 150-155)