1. Ein historischer Einblick in das Testen und Bewerten von Fremdsprachen
Barbara Hinger
Kann-Beschreibungen
Ich kann
die historische Entwicklung des Sprachentestens in groben Zügen skizzieren.
die drei Sprachtestparadigmen nach Spolsky (1976) erklären.
aktuelle Desiderate der Sprachtestforschung beschreiben.
Die Forschungsliteratur zu Testen und Bewerten von Fremdsprachen kann bislang nur wenige Arbeiten nennen, die sich systematisch mit der geschichtlichen Entwicklung dieses Bereichs auseinandersetzen. Dabei verweisen die meisten AutorInnen zunächst auf die allgemeine Geschichte des Testens und Bewertens, die bereits in der Zeit der kaiserlichen Dynastien Chinas vor über 2000 Jahren, und damit sehr früh, einsetzte. Die damals etablierten Testverfahren dienten dem Zweck, die Bestqualifizierten – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Klasse oder Familie – für den Staatsdienst auszuwählen (vgl. Spolsky 2008, 445; s. auch Fulcher 2010, 1ff.; Kunnan 2008, 135; O’Sullivan 2012). Dieses Chinesische PrinzipNormorientierte Bewertung bei der Auswahl der Besten nach dem Chinesischen Prinzip (Macaulay 1853; Spolsky 1995) machte in anderen asiatischen Ländern, wie Korea oder Japan, ebenfalls Furore. Nach Europa gebracht wurde das Prinzip der Auswahl der Besten von den Jesuiten, die es geschickt mit dem hier im Mittelalter vorherrschenden Treviso-Prinzip (Spolsky 2008, 444) verbanden. Diesem ging es nicht um das Feststellen der Bestqualifizierten, sondern um den Nachweis der Leistung von SchülerInnen am Ende eines Lernjahres: Je nach Erfolg der SchülerInnen bezahlte die Stadt das Gehalt der verantwortlichen Lehrperson. Damit standen der curriculare Inhalt und dessen Umsetzung im Mittelpunkt: Erfüllten die SchülerInnen die Vorgaben zu den Lehrinhalten, hatten sie bestanden. Aus heutiger Sicht kann vermutet werden, hier einen Vorläufer kriterienorientierterTreviso-Prinzip als Vorläufer kriterienorientierter Bewertung, inhaltsvalider Verfahren vorzufinden, bei dem die Testkriterien auf dem Curriculum basieren und die gelehrten Inhalte mit jenen der Prüfungen übereinstimmen sollten. Demgegenüber wäre die chinesische Art des Überprüfens wohl als normorientiert zu charakterisieren: Die Leistung des Einzelnen wurde vermutlich zur Leistung der Gesamtheit der TestteilnehmerInnen in Beziehung gesetzt. War ein Jahrgang leistungsschwächer, konnte eine Person mittlerer Leistung eher zu den Besten zählen als in einem Jahrgang mit einer leistungsstarken Gruppe. Im weiteren Lauf der Geschichte bleiben beide Zugänge zum Testen und Bewerten erhalten. Sie finden sich auch in aktuellen Debatten und begleiten die Auseinandersetzungen insbesondere in Zeiten von Änderungen und Umbrüchen in einem Prüfsystem. Grundsätzlich ging es jedoch im Chinesischen Prinzip wie im Treviso-System darum, Günstlingswirtschaft durch Fähigkeits- und Leistungsnachweise zu ersetzen und damit einer subjektiv gehaltenen oder auf sozialen Faktoren beruhenden Auswahl eine Objektivierung der Leistungsbewertung gegenüber zu stellen. Diese zielte letztendlich auf Chancengleichheit ab (vgl. O’Sullivan 2012, 9). Historisch gesehen gelang es damit in China, den Einfluss der Aristokratie zurückzudrängen und eine kaisertreue Beamtenschaft zu etablieren (vgl. Kunnan 2008, 136). Auch das Auftreten einer education industry, die die verschiedenen Tests erstellte, war – inklusive negativer Rückkoppelungen (Washback) (s. Abschnitt 4.2.2) – schon zu beobachten (vgl. O’Sullivan 2012, 9f.).
Aufgaben zur Überprüfung bestimmter sprachlicher Fertigkeiten waren in den chinesischen Tests bereits inkludiert. So musste nachgewiesen werden, dass man in der Lage war, einen politischen Essay zu schreiben oder Gedichte anhand formaler Vorgaben wie Reimbildung zu verfassen (vgl. Kunnan 2008, 136).
In Europa trugen vor allem die Universitäten zur Verbreitung von Tests und Prüfungen beiVerbreitung von Tests und Prüfungen durch Universitäten und neu etablierte staatliche Bildungssysteme. Die Umgestaltung respektive Neuetablierung staatlicher Bildungssysteme, wie in Frankreich, Preußen und Österreich insbesondere im 18. Jahrhundert, und die damit einhergehende Ausweitung und Öffnung der Schulsysteme zogen ähnliche Effekte nach sich. Interessanterweise hinkte das britische System hier zeitlich gesehen hinterher, wie O’Sullivan ausführt:
Testing became a bigger issue in Britain in the 19th century when the establishment realized they needed to select people according to capability and end the practice of patronage (the French and Germans had already come to that conclusion almost half a century earlier). The introduction of competitive examinations to the civil service in the UK was preceded by the Oxford University Commission, which led to the introduction of examinations within the education system in 1850, […]. (O’Sullivan 2012, 10)
In Großbritannien wurden Anfang des 20. Jahrhunderts Tests für Englisch als Fremdsprache für Personen eingeführt, die aus den Kolonien stammten und eine Ausbildung im britischen Bildungssystem anstrebten (vgl. O’Sullivan 2012, 11). In den USA reichen erste Vorläufer von large-scale language tests respektive Sprachtests für eine hohe Anzahl an TestteilnehmerInnen in die zweite Hälfte des 19. Jahrhunderts zurück (vgl. Kunnan 2008, 136f.)Vorläufer von large-scale language tests ab der 2. Hälfte des 19. Jahrhunderts in den USA. Diese Sprachtests waren Kinder ihrer Zeit und nutzten Prüfformate, die die damals vorherrschende Fremdsprachenvermittlung, also die Grammatik-Übersetzungs-Methode, widerspiegelten. An dieser Art der Überprüfung von Sprache kam bereits früh Kritik auf, sodass neue Aufgabenformate wie ‚Richtig/Falsch‘-, ‚Einfach- oder Mehrfachwahl‘- und ‚Bemerke den Fehler‘-Aufgaben entwickelt wurden (vgl. Kunnan 2008, 137), von denen man sich eine objektivere Beurteilung der Fremdsprachenkenntnisse erhoffte. Übersetzungsaufgaben wurden dennoch beibehalten. Einen deutlichen Wendepunkt in der Geschichte des Sprachentestens setzte der Zweite WeltkriegZweiter Weltkrieg als Wendepunkt in der Entwicklung der Sprachtestung. Insbesondere in den USA wurde nun in einem großangelegten Programm, dem Army Specialized Training Program, wissenschaftlich an der Entwicklung von Sprachtests gefeilt (vgl. Kunnan 2008, 138). Diese Arbeit ging einher mit der Etablierung der Audiolingualen Methode als neuem Sprachlehr- und -lernansatz. Dieser war ebenfalls wissenschaftlich begründet und basierte auf einer engen Kooperation zwischen hochangesehenen Linguisten des Strukturalismus, wie Bloomberg und Fries, und exzellenten Psychologen der behavioristischen Schule, wie B.F. Skinner.
In der Entwicklung des Testens und Bewertens von Sprache muss an dieser Stelle auf die erste Systematisierung der Geschichte von Sprachtests verwiesen werden, die von Spolsky (1976) vorgelegt wurde und uns gleichzeitig in die Gegenwart des Sprachentestens führt. Spolsky unterscheidet drei Perioden des SprachentestensDrei Perioden des Sprachentestens:
Diese Unterteilung kann einerseits als geschichtliche Entwicklung und damit als Abfolge auf globaler Ebene gesehen werden. Je nach lokal-nationalen Bedingungen können sich die drei Perioden andererseits aber auch überlappen und/oder gleichzeitig und nebeneinander existieren (vgl. Spolsky 1976, 11). Auch wenn Spolsky zum einen zwar darauf verweist, dass es sich bei seiner Einteilung um eine grobe Generalisierung handelt (vgl. ebd.), und er zum anderen mittlerweile von seiner zunächst getroffenen Einteilung mit sehr differenzierten Begründungen abrückt (vgl. Spolsky 2017), erscheint es im Folgenden doch nützlich, die Charakterisierung der drei Perioden etwas näher zu betrachten.
Das vorwissenschaftliche SprachentestenSubjektive Bewertung von mündlichen und schriftlichen Performanzen im vorwissenschaftlichen Sprachentest-Paradigma zeichnet sich durch einen subjektiven Zugang zur Bewertung von sprachlichen Leistungen aus. Die Bewertung kommt ohne statistisch begründbare Auswertungsverfahren aus. Benotet wird die Sprachleistung beispielsweise anhand schriftlicher Performanzen der Lernenden oder nach einer kurzen mündlichen Äußerung. Sprachprüfungen liegen eindeutig in der Hand der Lehrpersonen und erfordern keine weitere Expertise: Wenn jemand eine Sprache lehren...