Klassenarbeiten : Wie können digitale Tools Lehrkräfte bei Korrekturen entlasten?

Können Algorithmen die Korrekturen der Lehrkräfte ersetzen? Und wenn ja, warum werden in der Praxis nicht viel häufiger digitale Klassenarbeiten geschrieben? Über diese Fragen sprach das Schulportal mit Bildungsforscher Olaf Köller, Direktor des Leibniz-Instituts für die Pädagogik der Naturwissenschaften und Mathematik (IPN) an der Christian-Albrechts-Universität zu Kiel und Co-Vorsitzender der Ständigen Wissenschaftlichen Kommission (SWK). 

Schüler sitzen im Klassenraum am Computer
Es gibt Algorithmen, mit denen in Windeseile geschriebene Texte von Schülerinnen und Schülern ausgewertet und bewertet werden können.
©iStock

Deutsches Schulportal: Korrekturen von Klassenarbeiten rauben den Lehrkräften viel Zeit und sind auch fehleranfällig – wäre eine digitale Auswertung von digital geschriebenen Klassenarbeiten nicht effizienter?
Olaf Köller:
Multiple-Choice-Aufgaben oder geschlossene Fragen können schon lange automatisch ausgewertet werden, vorausgesetzt, solche Klassenarbeiten oder Tests werden von den Schülerinnen und Schülern am Rechner geschrieben. Interessanter sind die aktuellen Entwicklungen im Bereich von geschriebenen Texten. Gerade diese sind ja in Fächern wie Deutsch, Englisch oder Geschichte besonders korrekturintensiv. Mithilfe von computerlinguistischen Methoden, also mit natürlicher Sprachverarbeitung und Machine Learning, wurden inzwischen Algorithmen entwickelt, mit denen in Windeseile geschriebene Texte von Schülerinnen und Schülern ausgewertet und bewertet werden können.

Wie funktioniert das bei Aufgaben, für die es nicht die eine richtige Antwort gibt?
Das geht nur mit intensivem Training des Computers. Wir geben der Maschine viele Beispieltexte, die von Menschen übereinstimmend bewertet wurden. Das heißt, Expertinnen und Experten sind zum selben Urteil über die Güte des Textes gekommen. Anhand dieser Ratings kann man die Maschine so trainieren, dass sie unter Berücksichtigung vieler Textmerkmale zur gleichen Bewertung kommt wie die Menschen. Irgendwann werden wir dahin kommen, dass wir die Menschen nicht mehr zur Vorbereitung des Machine Learnings brauchen. Aber so weit sind wir noch nicht. Noch brauchen wir das Trainingsmaterial von menschlichen Bewerterinnen und Bewertern, die im Übrigen vorher intensiv trainiert werden müssen.

Derzeit versuchen wir in unserer Forschungsarbeit, die Algorithmen so zu entwickeln, dass sie auch auf ähnliche Aufgaben übertragen werden können, um den Aufwand des Trainings zu reduzieren. Zudem gehen wir der Frage nach, wie viele bewertete Beispieltexte tatsächlich nötig sind, um einen stabilen Vorhersagealgorithmus zu entwickeln. Bislang hat man dafür immer sehr große Textkorpora von etwa 1.000 Schülerarbeiten benötigt. Unser Ziel ist es, schon mit 100 Texten zu robusten Algorithmen zu kommen. Wenn uns das gelingt, können wir in kurzer Zeit hunderte von Aufgaben zum Lernen und für Klassenarbeiten produzieren, die den Lehrerinnen und Lehrern über ein Portal zur Verfügung gestellt werden. Wir sind da zuversichtlich, denn es werden momentan immense Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP) gemacht.

Ist das vergleichbar mit ChatGPT?
In gewisser Weise ja, wenn auch die Algorithmen von ChatGPT etwas anders funktionieren. Hier kann man das Programm bitten, Texte nach bestimmten Kriterien auszuwerten, beispielsweise nach sprachlichen, inhaltlichen und stilistischen Kriterien. ChatGPT gibt dann eine formative Rückmeldung, tut sich aber schwer mit Noten. Das formative Assessment funktioniert auch ohne ein Training anhand von menschlichen Bewertungen. Die Schülerinnen und Schüler erhalten beispielsweise eine Rückmeldung, wie sie ihren argumentativen Text weiter verbessern können.

Wir erforschen derzeit, unter welchen Bedingungen ChatGPT für eine formative Rückmeldung funktioniert. Wenn man ChatGPT vorab einige gute Texte gibt und dazu Deskriptoren, wodurch sich ein guter argumentativer Text auszeichnet, klappt das schon ganz gut. Auf diese Weise kann ChatGPT den Schülerinnen und Schülern genau sagen, was fehlt, um ihren Text weiter zu verbessern. Inwieweit die Schülerinnen und Schüler diese Rückmeldung dann annehmen und tatsächlich weiter an ihrem Text arbeiten, hat die Maschine natürlich nicht in der Hand.

Daran scheitern wir aktuell noch in vielen unserer Untersuchungen. Wir geben den Schülerinnen und Schülern zwar bereits automatisiert formative Rückmeldungen, aber diese werden oft gar nicht richtig aufgenommen und weiterverarbeitet. Deshalb haben wir jetzt eine Zeitvorgabe getestet, mit der die Schülerinnen und Schüler gezwungen sind, 20 bis 30 Minuten an dem Text weiterzuarbeiten, bevor sie ihn absenden können. Die Ergebnisse werden dadurch deutlich besser.

Vielleicht braucht es da eben doch die Lehrkraft, die die Schülerinnen und Schüler durch eine persönliche Rückmeldung motiviert?
Ja natürlich, aber auch dabei kann die Software behilflich sein. Die automatisierten Rückmeldungen für die Schülerinnen und Schüler gehen ja auch an die Lehrkraft. Dabei werden auffällige Arbeiten von Schülerinnen und Schülern extra gekennzeichnet. So bekommt die Lehrkraft einen Hinweis, bei wem sie genauer hinschauen sollte, wo es besondere Probleme gibt. Lehrerinnen und Lehrer kennen in der Regel ihre Schülerinnen und Schüler. Entsprechend haben sie auch Erwartungen an die Arbeiten. Wenn Georg oder Gabi etwa das ganze Schuljahr blendend performt haben, wird das von der Lehrkraft auch in der Arbeit erwartet. Wenn das digitale System dann eine glatte Eins signalisiert, muss sich die Lehrkraft die Arbeiten nicht so genau ansehen. Interessant sind die Fälle, bei denen es erwartungswidrige Ergebnisse gibt. Und bei den Schülerinnen und Schülern, die bekanntermaßen lernschwächer sind, kann die Lehrkraft auf einen Blick sehen, wo genau die Problemstellen liegen, sodass sie darauf eingehen kann. Wir bezeichnen das als semiautomatisiert, das heißt, die Lehrkraft bleibt immer im Spiel und unterstützt auf Grundlage der Informationen, die die Maschine liefert, den Schüler oder die Schülerin.

Wird dadurch möglicherweise die Bewertung auch objektiver und gerechter?
Ja. Es gibt zum Beispiel diesen berühmten Kontrasteffekt bei den Bewertungen. Wenn eine Lehrkraft gerade einen sehr guten Text gelesen hat, fällt die Bewertung des nachfolgenden Textes oft zu schlecht aus. Ein anderer Effekt ist, dass oft die sprachliche Richtigkeit oder Falschheit das Globalurteil überlagert. Bei orthografischen oder grammatikalischen Mängeln wird der Text insgesamt zu schlecht bewertet. Das passiert der Maschine nicht, sie kennt keine Kontrasteffekte und lässt sich auch nicht blenden, wenn hier und da ein Komma fehlt. Sie bleibt ‚objektiv‘.

Wie gehen Sie bei Ihren Forschungsarbeiten vor, testen Sie das mit Versuchsklassen aus?
Genau. Wir gehen mit einem Satz Laptops in die Klassen. Derzeit arbeiten wir intensiv an den Aufgaben zum naturwissenschaftlichen Argumentieren zu Fragestellungen wie etwa ‚Sollte man Atomkraftwerke laufen lassen oder nicht?‘ Dazu bekommen die Schülerinnen und Schüler Arbeitsmaterial. Wenn die Schülerinnen und Schüler die Argumentation fertig geschrieben haben, wird der Text durch den Algorithmus geprüft. Dann kommt die Rückmeldung, was schon gut gemacht ist, wo vielleicht noch ein oder zwei Begründungen fehlen. Oder auch, wo noch mal geprüft werden sollte, ob die Begründung die Aussage tatsächlich stützt. Die Lehrkräfte haben ein Dashboard und können nach der ersten Runde sehen, bei wie vielen Schülerinnen und Schülern noch Probleme bestehen. Das gleiche passiert nach der Überarbeitung. Die Lehrerinnen und Lehrer bekommen sofort visualisiert, wie der Arbeitsstand der Klasse aussieht, ohne dass sie durch die Reihen laufen und allen über die Schulter schauen müssen. Sie können diese Zeit besser zu nutzen, um bei denen, die Probleme haben, spezifisch zu intervenieren.

Könnten diese digital codierten Klassenarbeiten und formativen Assessments in Zeiten des Lehrermangels Kapazitäten freisetzen, die dringend gebraucht werden?
In der letzten Stellungnahme der Ständigen Wissenschaftlichen Kommission zum Thema Lehrkräftemangel haben wir betont, dass wir bei älteren Schülerinnen und Schülern viel Potenzial beim selbstregulierten und hybriden Lernen sehen. Da helfen solche Systeme, die automatisiert Rückmeldung geben, sehr. Gleichzeitig ist es bei solchen Formaten wichtig, dass die Lehrkraft weiß, dass die Schülerinnen und Schüler tatsächlich an der Aufgabe arbeiten und nicht gerade etwas ganz anderes machen. Das Monitoring durch die Lehrkraft kann so gewährleistet sein, selbst wenn sie nicht vor Ort ist. Das ist auch eine große Chance für mehr Eigenständigkeit des Lernens.

Welchen Effekt hat die Schnelligkeit der Rückmeldung durch die Maschine?
Ich frage Lehrkräfte oft, ob sie den Schülerinnen und Schülern Rückmeldung zu den Hausaufgaben geben. Meist lautet die Antwort: Nein. Bestenfalls kontrollieren sie, ob die Hausaufgaben überhaupt erledigt wurden. Um genauer reinzuschauen, fehlt die Zeit. Die Digitalisierung schafft hier ganz neue Möglichkeiten. Die Schülerinnen und Schüler bekommen unmittelbar die Rückmeldung, und wir wissen aus der Forschung, je zeitnäher die Rückmeldung zu einem Arbeitsergebnis kommt, desto lernförderlicher ist sie. Und nicht zu vergessen: Auch die Lehrkraft bekommt für ihre eigene Arbeit schneller eine Rückmeldung.

Was denken Sie, wie lange es noch dauert, bis diese digitalen textbasierten Klassenarbeiten in der Fläche eingesetzt werden?
Ich denke, dass es eine Frage von zwei bis drei Jahren ist, bis diese Tools zumindest in bestimmten Fächern in der Sekundarstufe I und II eingesetzt werden können.

Doch selbst wenn die Technik so weit ist, heißt es ja nicht, dass die Lehrkräfte sie auch anwenden. In Mathematik beispielsweise wäre es ja längst möglich, digitale Tests zu schreiben, trotzdem wird es kaum gemacht. Woran liegt das?
Es gibt zum Beispiel „Bettermarks“ im Fach Mathematik oder „FeedBook“, ein Englisch-Workbook, das auf künstlicher Intelligenz basiert, das bereits in der Praxis eingesetzt wird. Wir haben auch im Bereich Physik eine Anwendung entwickelt, die anhand von Kurzantworten der Schülerinnen und Schüler am Computer Feedback gibt, damit sie weiterlernen können. Flächendeckend ist das aber bei Weitem noch nicht in der Anwendung, hier müssen wir dringend weiter vorankommen. Dass diese Entwicklung momentan so stockt, liegt auch am Versagen der Politik von Bund und Ländern. Die Ständige Wissenschaftliche Kommission hatte vorgeschlagen, länderübergreifende Zentren digitaler Bildung einzurichten, die die Forschungsarbeiten weitertreiben und gleichzeitig Fortbildungen für Lehrkräfte bieten. Aber Bund und Länder streiten sich um Zuständigkeiten, sodass das ganze Projekt auf Halde liegt.

Die Arbeitserleichterung im Bereich Korrekturen müsste doch ein schlagkräftiges Argument für die Akzeptanz unter den Lehrkräften sein?
Wie entlastend die digitalen Systeme sein können, erfahren viele Lehrkräfte gerade. Die VERA-Vergleichsarbeiten schreiben die Schülerinnen und Schüler inzwischen am Computer, und sie werden auch digital ausgewertet. Wenn die Lehrkraft bei den offenen Formaten die erste richtige Antwort einer Schülerin, eines Schülers als richtig codiert hat, dann sucht das System automatisch alle anderen ähnlichen Antworten und codiert sie entsprechend. Diese muss sich die Lehrkraft dann nicht mehr ansehen. Bei den geschlossenen Antwortformaten funktioniert die Auswertung ohnehin automatisch.

Wie rechtssicher wären denn Noten, die von den Maschinen gegeben werden?
Die Diskussion über die Rechtssicherheit von Noten wird in den Vereinigten Staaten schon sehr lange geführt, wo mittlerweile viele Tests für die Studienzulassung von Maschinen ausgewertet werden. Dort muss immer eine Doppelcodierung vorliegen, also einmal von der Maschine und einmal vom Menschen. Doch wenn wir an die Abiturprüfungen denken, die alle doppelt korrigiert werden müssen, könnte man hier zumindest eine Korrektur von der Maschine übernehmen lassen. Die zweite erfolgt dann durch die Lehrkraft. Wenn die Maschine schon eine Note vergeben hat, könnte die Lehrkraft wohl auch schneller validieren, ob sie sich der Note anschließt oder nicht. Natürlich kann auch die Maschine irren. Bei zentralen Abschlussarbeiten werden wir nicht ohne Menschen auskommen, aber wir können die Menschen entlasten durch die Maschine. Man könnte auf jeden Fall zu Verfahren kommen, die für die Lehrkraft deutlich weniger Zeitaufwand pro Klausur bedeuten.

Ist der Datenschutz möglicherweise auch eine Hürde?
Der Datenschutz ist vor allem deshalb ein Problem, weil die Schulen befürchten, dass die Daten, die entstehen, gehackt und missbraucht werden könnten. In diesem Fall stellt sich die Frage, wer dafür haftet. Dafür müssen wir Wege finden. Wer schließt die Lizenzvereinbarung ab und wer geht im Worst Case in die Haftung? Es gibt die Tendenz der Kultusministerien, das zu zentralisieren und geprüfte Software für alle Schulen zugänglich auf einem Server abzulegen. Ich halte das für gefährlich. Im Falle eines Cyber-Angriffs könnte so das gesamte Schulsystem eines Landes lahmgelegt werden.

Und dann gibt es noch eine Ebene von emotionalem Datenschutz. Einige Lehrkräfte haben Hemmungen, jederzeit auf die Daten ihrer Schülerinnen und Schüler zugreifen zu können und den Arbeitsstand zu überprüfen. Obwohl es im Alltag ihre Aufgabe ist, die Schülerinnen und Schüler zu monitoren, schrecken sie vor dem „gläsernen Schüler oder der gläsernen Schülerin“ am Computer zurück. Allerdings kann man auch hier entsprechende Einstellungen vornehmen, sodass nicht alle Daten für die Lehrkraft verfügbar sind.

Zur Person

Porträt Olaf Köller vor Bücherwand
Bildungsforscher Olaf Köller vom IPN Kiel
©IPN