Wie gut können Lehrkräfte KI-generierte Texte erkennen?

KI-generierter Text oder doch nicht?

Mit der Verbreitung generativer #KI stellt sich die Frage, wie gut Menschen, insbesondere Lehrende, in der Lage sind, KI-generierte Texte zu erkennen. Eine aktuelle Studie von Fleckenstein et al. (2024) [1] geht dieser Fragestellung nach und beleuchtet die Auswirkungen von KI auf die akademische Integrität und Bewertungspraxis. In diesem Beitrag stelle ich die Methodik und Ergebnisse der Studie vor und diskutiere die daraus resultierenden Implikationen für die #Bildung. [2]

Studie und Methodik

Die Studie untersucht, ob Lehrende in der Lage sind, KI-generierte Texte von Schülertexten zu unterscheiden. Dabei wurden zwei separate Studien durchgeführt, um sowohl angehende als auch erfahrene Lehrerinnen und Lehrer zu analysieren.

Teilnehmende:

Materialien:

Vorgehensweise:

Die Lehrkräfte bewerteten insgesamt vier Texte hinsichtlich der Quellenerkennung, ihrer Sicherheit bei der Identifikation und der Qualität der Texte. Sie wurden gebeten, anzugeben, ob sie glaubten, dass der Text von einem Schüler oder einer KI verfasst wurde, und wie sicher sie sich ihrer Entscheidung waren. Darüber hinaus bewerteten sie die sprachliche und strukturelle Qualität sowie den Inhalt der Texte.

„Our findings demonstrate that with relatively little prompting, current AI can generate texts that are not detectable for teachers, which poses a challenge to schools and universities in grading student essays.“ („Unsere Ergebnisse zeigen, dass die aktuelle KI mit relativ wenig Input Texte generieren kann, die für Lehrkräfte nicht erkennbar sind, was eine Herausforderung für Schulen und Universitäten bei der Bewertung von Schüleraufsätzen darstellt.“, S. 1.)

Resultate

Die Studie liefert mehrere aufschlussreiche Ergebnisse über die Fähigkeit von Lehrkräften, KI-generierte Texte zu erkennen, sowie über ihre Bewertung dieser Texte.

Quellenerkennung:Lehramtsstudierende erkannten 45,1 % der KI-generierten Texte korrekt. – Erfahrene Lehrkräfte erkannten 37,8 % der KI-generierten Texte korrekt, hatten jedoch eine höhere Trefferquote bei Schülertexten (73,0 %).

Erkennungssicherheit: Beide Gruppen zeigten eine erhebliche Selbstüberschätzung (Überkonfidenz). Die Lehrkräfte schätzten ihre Fähigkeit, die Texte korrekt zuzuordnen, auf ein Sicherheitsniveau von etwa 77 bis 80 %, unabhängig davon, ob ihre Einschätzungen richtig oder falsch waren.

Bewertung der Textqualität: Interessanterweise bewerteten Lehrkräfte die qualitativ hochwertigen KI-generierten Texte oft positiver als die Schülertexte. Niedrigere Qualität bei KI-Texten führte häufiger zu der Annahme, dass es sich um Schülertexte handelte.

„The overconfidence in teachers’ judgments regarding the real source of the text implies a need for better training and awareness regarding AI-generated content.” („Die Selbstüberschätzung in den Urteilen der Lehrkräfte bezüglich der tatsächlichen Quelle des Textes deutet auf einen Bedarf an besserer Schulung und Sensibilisierung in Bezug auf KI-generierte Inhalte hin.“, S. 6.)

Diese Ergebnisse verdeutlichen die Schwierigkeiten, die sowohl angehende als auch erfahrene Lehrkräfte haben, wenn es darum geht, KI-generierte Texte von Schülertexten zu unterscheiden. Die Diskrepanz zwischen dem Selbstvertrauen der Lehrkräfte und ihrer tatsächlichen Fähigkeit, KI-generierte Texte zu erkennen, zeigt auf, dass es dringend notwendig ist, Lehrkräfte besser auf diese Herausforderung vorzubereiten.

Empfehlungen

Die Ergebnisse führen zu wichtigen Empfehlungen, um den Herausforderungen durch die Nutzung von KI in Schülerarbeiten zu begegnen:

1. Erkennungsprobleme angehen: Die Studie zeigt, dass sowohl angehende als auch erfahrene Lehrkräfte Schwierigkeiten haben, KI-generierte Texte von Schülertexten zu unterscheiden. Es ist daher essenziell, dass Lehrkräfte besser geschult werden, um die Merkmale von KI-Texten zu erkennen. Dies könnte durch spezielle Fortbildungen und Workshops erreicht werden.

2. Bewusstsein für Überkonfidenz schaffen: Die Selbstüberschätzung der Lehrkräfte bei der Einschätzung der Textquellen zeigt, dass ein erhöhtes Bewusstsein für die eigenen Begrenzungen notwendig ist. Lehrkräfte sollten ermutigt werden, ihre Einschätzungen kritisch zu hinterfragen und weitere diagnostische Werkzeuge zu nutzen, um die Quelle von Texten besser beurteilen zu können.

3. Neue Bewertungsmethoden entwickeln: Um die Risiken des Einsatzes von KI in Schülerarbeiten zu verringern, sollten neue Bewertungsmethoden entwickelt werden. Dazu gehören: – Integration von mündlichen Prüfungen: Diese können sicherstellen, dass Schüler das Verständnis und die Fähigkeit haben, über ihre schriftlichen Arbeiten zu sprechen, was eine reine Nutzung von KI erschwert. – Fokussierung auf Prozessbewertung: Anstatt nur das Endprodukt zu bewerten, sollten Lehrkräfte den gesamten Schreibprozess der Schüler überwachen und bewerten, um den Einsatz von KI besser nachvollziehen zu können.

4. Lehrpläne anpassen: Die Lehrpläne sollten angepasst werden, um einen Schwerpunkt auf kritisches Denken und das Verständnis von Inhalten zu legen. Dies könnte dazu beitragen, dass Schüler weniger versucht sind, auf KI zurückzugreifen, und stattdessen ihre eigenen Fähigkeiten entwickeln.

Durch diese Massnahmen kann die Integrität der akademischen Bewertungen gewahrt und die Qualität des Lernprozesses verbessert werden.

Zusammenfassung


Fussnoten [1] https://doi.org/10.1016/j.caeai.2024.100209 [2] Ich stütze mich bei meinen Ausführungen u. a. auch auf die kurze Zusammenfassung der Studie, welche Prof. Barbara Geyer, FH Burgenland, auf LinkedIn gepostet hat: https://www.linkedin.com/posts/barbara-geyer_die-erkennbarkeit-von-ki-generierten-texten-activity-7198973184967118850-0Wxk

Bildquelle 1. Aaron Burden auf Unsplash.

Disclaimer Teile dieses Texts wurden mit Deepl Write (Korrektorat und Lektorat) überarbeitet. Mit ChatGPT 4o wurden eine Zusammenfassung der Studie erstellt und die beiden Zitate übersetzt.

Topic #Erwachsenenbildung


Folge mir auf Mastodon | Pixelfed | Bookwyrm