5. Diagnose

5.2. Diagnostische Gütekriterien

Die im Unterricht anfallenden diagnostischen Anforderungen sind mit unterschiedlichen Zielsetzungen verknüpft. Es lassen sich in diesem Zusammenhang zwei grundlegende Formen314 voneinander abgrenzen:

310 Vgl. Tina Hascher: Diagnostische Kompetenz im Lehrberuf. In: Christian Kraler/Michael Schratz (Hrsg.): Wissen erwerben, Kompetenzen entwickeln. Münster 2008, S. 71-86, hier S. 75f.

311 Vgl. Tina. Hascher: Diagnostizieren in der Schule. In: Adolf Bartz u. a.: PraxisWissen SchulLeitung. Bonn 2005, S. 1-8.

312 Vgl. Hascher (Anm. 310), S.75.

313 Vgl. Heinrichs (Anm. 302), S.11. „Bei statusdiagnostischen Fragestellungen steht die Erfassung des Zustandes einer Person zu einem bestimmten Zeitpunkt im Vordergrund, um auf dieser Basis Entscheidungen fällen zu können. (…) So eignen sich statusdiagnostische Fragestellungen insbesondere, um den Lernstand von Schülerinnen und Schülern zu erheben und Qualifikationen zuzuweisen (…).“

88 1. Diagnose zur Verbesserung des Lernens 2. Diagnose zur Erteilung von Qualifikationen

Stuft man Lehrerurteile als diagnostische Verfahren ein, müssen sie sich an Kriterien orientieren, durch die sich die Qualität des Urteils ablesen lässt. Wenn es um die Erteilung von Qualifikationen oder Zugangsberechtigungen, z. B. durch eine Klassenarbeit oder für den Übergang in die weiterführende Schule, geht, müssen diagnostischen Beurteilungen fair und transparent sein und die gebräuchlichen Gütekriterien erfüllen. Die Lehrkraft gibt in diesem Fall ein explizites Urteil ab. Sie stützt sich dabei auf geeignete Informationen und Daten, die nur für diesen Zweck, erhoben wurden.315 Anschließend werden die Informationen mit einem Vergleichsmaßstab316 in Beziehung gesetzt.

Um Verzerrungen oder Fehlbeurteilungen in der Wahrnehmung von Lehrpersonen ausschließen zu können, wurden aus dem Feld der Pädagogischen Diagnostik Kriterien entwickelt, die die Genauigkeit und Verlässlichkeit von Lehrerurteilen gewährleisten sollen. Auch bei alltäglichen, informellen und eher spontanen diagnostischen Urteilssituationen müssen sich Lehrpersonen an den allgemeingültigen Kriterien wie Objektivität, Reliabilität und Validität orientieren. So die Theorie - wie und ob sich diese allgemeingültigen Gütekriterien in den alltäglichen Unterricht transportieren lassen, bleibt noch unklar, da es in den oft spontan ablaufenden Geschehen nicht möglich ist, die Kriterien zu erfüllen.

Objektivität

„Eine Messung ist dann objektiv, wenn intersubjektive Einflüsse der Untersucher möglichst ausgeschaltet werden.“317 Bei diesem Kriterium muss ein Grad an Unabhängigkeit gegeben

sein. Die Aussage über die Leistungsfeststellung sollte unabhängig und objektiv von der Lehrperson bzw. deren persönlicher Haltung geschehen. Objektivität ist gegeben, wenn verschiedene Lehrpersonen in ihren Feststellungen über den gleichen Sachverhalt übereinstimmen. Wenn Kollegen*innen feststellen, dass ihre diagnostischen Urteile in Form einer Beobachtung nicht übereinstimmen und vorgenommene Befragungen unterschiedliche Einschätzungen liefern, handelt es sich um keine objektive Messung. Vor allem bei Multiple- Choices-Tests oder bei geschlossenen Fragen (eindeutige Ereignisse, Jahreszahlen), die leicht überprüfbar und vergleichbar sind, wird das Kriterium der Objektivität erfüllt. Werden die durch die Schüler*innen zu bearbeitenden Fragen offener und die gewählte Testart freier,

315 Friedrich Wilhelm Schrader/Andreas Helmke: Alltägliche Leistungsbeurteilung durch Lehrer. In: Franz Emanuel Weinert (Hrsg.): Leistungsmessungen in Schulen. Weinheim 2001, S. 45-58, hier S. 45.

316 Siehe Bezugsnorm, Kapitel 5.3.

89

beispielsweise durch Interpretationen oder Sinndeutungen der gestellten Aufgaben, wird es schwieriger, dieses Gütekriterium zu erfüllen. Sollte keine Objektivität gegeben sein, können Einschätzungen auch nicht zuverlässig und gültig sein.318

Überträgt man dieses Gütekriterium auf den Geschichtsunterricht und hier auf geschichtswissenschaftliche Operationen wie Urteilsbildung (Sach- und Werturteil), wird deutlich, dass die Anwendung von Objektivität auf diese Denkoperationen bei Kindern und Jugendlichen nicht standardisiert zu übernehmen ist, da es bei der Urteilsbildung nicht um ein richtig oder falsch geht, sondern um die individuellen Begründungen und Einschätzungen der Schülerin bzw. des Schülers, die durchaus unterschiedlich von Lehrpersonen beurteilt werden können. Bei Geschichte in Form von Narration(en) handelt es sich immer um Interpretationen und Sinnbildung(en) von Zusammenhängen, die auch individuell beurteilt und interpretiert werden können.

Reliabilität

„Unter Zuverlässigkeit oder Reliabilität einer Messung versteht man den Grad der Sicherheit oder Genauigkeit, mit dem ein bestimmtes Merkmal gemessen werden kann.“319 Lehrpersonen sollten auch nach einigen Monaten zu den gleichen Korrekturergebnissen kommen – dann lässt sich das Urteil als reliabel einschätzen. Um die Genauigkeit des Messergebnisses zu gewährleisten, müssen Messfehler, wie z. B. Zeit oder Umfeld, auch im Falle eines wiederholten Einsatzes ausgeschlossen werden. Zum Beispiel sollte die in einer Klassenarbeit gemessene Leistung bei allen Schüler*innen konstant bleiben, unabhängig davon, ob die Arbeit in der ersten oder sechsten Stunde geschrieben wurde. Hier können, z. B. an heißen Tagen Differenzen auftun, die dann allerdings nicht an den Konstruktionskriterien des Testes liegen, sondern an den äußerlichen Bedingungen. Die Zuverlässigkeit und Exaktheit einer Messung bedeutet an sich nicht viel, da sie nur aussagt, wie genau gemessen wurde, nicht aber, was eigentlich gemessen wurde oder ob das Ergebnis richtig oder falsch ist. Beim Kriterium Reliabilität handelt es sich um die Voraussetzung für das wichtigste Gütekriterium, die Validität. Übertragen wir die Reliabilität auf den konstruierten Vignettentest, dann kann man davon ausgehen, dass sich dieses Gütekriterium als erfüllbar einordnen lässt. Wenn davon ausgegangen werden kann, dass die angehenden Geschichtslehrkräfte über ein entsprechendes Wissen bezüglich der Beurteilung von Narrationen und Urteilsbildung verfügen, wird es zu

318 Christian Lorenz: Diagnostische Kompetenz von Grundschullehrkräften. Strukturelle Aspekte und Bedingungen. Bamberg 2011, S. 28.

90

keinen fundamentalen Veränderungen kommen und die erzielten Testergebnisse der Studierenden werden somit immer ähnlich ausfallen.

Validität

„Die Gültigkeit oder Validität eines Verfahrens sagt aus, ob tatsächlich das gemessen wird, was man messen will, und nicht irgendwas anderes.“320 Validität ist in Bezug auf diagnostische

Urteile der Lehrperson dann erfüllt, wenn es sich beim Festgestellten auch um das handelt, was festgestellt werden sollte. Messungen sind dann valide, wenn sie das zu messende Merkmal auch tatsächlich repräsentieren. Im Geschichtsunterricht gestellte Aufgaben bzw. Tests, in denen z. B. ein chronologisches Bewusstsein überprüft werden soll, müssen dies auch tun. Es müssen hierfür Aufgabenformate gewählt werden, die den Schüler*innen ermöglichen, die geforderten Kompetenzen abbilden zu können. Die Gefahr besteht, dass eine Reduzierung auf Aufgaben oder Testformate erfolgt, in denen lediglich die Reproduktion von historischen Daten und Jahreszahlen im Vordergrund steht. Die Validität wäre in diesem Fall nicht erfüllt. Validität gilt als das wichtigste Kriterium für ein Untersuchungsverfahren und unterteilt sich nochmals in vier Arten von Gültigkeiten: Inhalts-, Übereinstimmungs-, Vorhersage- und Konstruktgültigkeit.321

Bei der Validität handelt es sich um ein schwer zu erfüllendes Kriterium. Lehrpersonen sind mit einer Fülle von unterschiedlichen Lernergebnissen bzw. einer Varianz an individuellen Lernprozessen in ihrem Unterricht konfrontiert; hinzu kommt der Umgang mit unterschiedlichen Medien, Materialien, Quellen, Darstellungen etc. Daraus erfolgte bei der Vignetten- und Itemkonstruktion eine Fokussierung bei Diagnosen im Geschichtsunterricht auf zwei zentrale Bereiche: den Umgang der Schüler*innen mit (eigenen) Narrationen und dem Bilden von Urteilen (Analyse-Sachurteil-Werturteil).

Nach der Betrachtung dieser drei Kriterien ergaben sich wichtige Eckpfeiler, die bei der Vignettenkonstruktion zu beachten sind. So war es bedeutend und eine große Herausforderung, die Unterrichtssituation genau, präzise und eindeutig so zu beschreiben, dass jeder Leserin bzw. jedem Leser, von der Testteilnehmerin bzw. vom Testteilnehmer bis hin zur Expertin bzw. zum Experten, die Unterrichtssituation plausibel und verständlich war. Dies wurde durch eine Beschreibung der Klasse, des unterrichtlichen Kontextes und der Zielbeschreibung realisiert. Dadurch konnten nicht alle Schwierigkeiten beseitigt werden. Das soll an einer Zielbeschreibung deutlich gemacht werden: Thematisierung der Schwierigkeit

320 Ebd., S. 57.

91

der Bildung eines Werturteils am Beispiel Oskar Schindlers. Wenn Lehrer*innen Urteile der Schüler*innen in Bezug auf Oskar Schindler lesen, dann lässt sich dies nicht mit richtig oder falsch bewerten. Bei einem Werturteil handelt es sich nicht um ein Ergebnis, das mit einer Lösung abgeglichen werden kann. Aus diesem Grunde kann es nicht eindeutig als richtig oder falsch bewertet werden. Bei der Werturteilsbildung stehen die angemessene Begründung des getroffenen Urteils und die Strategien der Argumentation im Vordergrund: bezieht die Schülerin bzw. der Schüler z. B. weitere Informationen in seine Beurteilung ein, verknüpft er die Informationen stringent und bezieht er seinen Standpunkt auf die Gegenwart? So unterschiedlich wie die Urteile der Schüler*innen in dieser Angelegenheit ausfallen, so unterschiedlich können auch die Beurteilungen durch Studierende, Lehrer*innen und Experten*innen ausfallen.

Außer den drei Kriterien Objektivität, Reliabilität und Validität lassen sich in der Literatur weitere Gütekriterien (Normierung, Vergleichbarkeit, Ökonomie und Nützlichkeit) diagnostischer Urteile finden322.

Die beschriebenen Kriterien gelten auch für Diagnosen, die sich auf die Verbesserung des alltäglichen Lernens beziehen und quasi beiläufig im Unterricht getroffen werden, sog. implizite Diagnosen. In diesen Fällen sind die Ansprüche an ihre Aussagekraft bescheidener.323

Implizite Diagnosen verlangen kein ausdrückliches Urteil. Der Urteilsvorgang läuft stark verkürzt ab. Schülerleistungen oder Erwartungen an die Klasse werden mit aktuellen Beobachtungen abgeglichen, registriert, verknüpft und intuitiv eingeschätzt. Da diese Entscheidungen während des Unterrichts in der Regel sehr schnell getroffen werden, sind sie selten gründlich überdacht. Diese spontanen Diagnosen erfolgen auf der Grundlage eingeübter Denkroutinen mit einem niedrigen Grad an bewusster Aufmerksamkeit und Kontrolle.324 Ähnlich wie bei „Feedback geben“ handelt es sich bei „Diagnostizieren können“ um eine dem alltäglichen Unterrichtsgeschehen entspringende Kompetenzfacette. Die Lehrkraft muss die Gütekriterien diagnostischer Urteile kennen, allerdings sind spontane Diagnosen, die aus dem Unterrichtsgeschehen entstehen, nur schwer anhand der länger vorzubereitenden Gütekriterien zu strukturieren.

322 Vgl. ebd., S. 60.

323 Vgl. Andreas Helmke: Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. 6. Auflage. Seelze 2015, S. 124.

324 Friedrich Wilhelm Schrader/Andreas Helmke: Diagnostische Kompetenz von Lehrern. Komponenten und Wirkung. In: Empirische Pädagogik 1 (1987), S. 27-52, hier S. 46.

92

Im Dokument Feedback und Diagnose beim historischen Lehren und Lernen - Entwicklung eines Vignettentests zur Erfassung professioneller Kompetenz bei angehenden Lehrkräften (Seite 90-95)