Netzkolumne: Wenn Thomas Bernhard twittert

Uns gehen die guten Wörter aus. Die Kulturpessimisten unter uns wussten schon lange, dass kluge Gedanken, ins Internet geschrieben, eine rare Ressource sind. Mittlerweile erreichen diese Bedenken aber auch die Gemeinde der KI-Forscher. Denn die brauchen schlaue - oder zumindest halbwegs kohärente - Sätze als Rohstoff für ihre Software.

Sogenannte "Large language models" (LLMs) sind in der Lage, Blogartikel zu so gut wie jedem Fachthema zu schreiben, Marketingbotschaften herauszuposaunen, Dialoge zu führen oder Twitter-Postings im Stil von Thomas Bernhard zu verfassen. Um ein breites Spektrum abzudecken, füttern die Hersteller ihre Software mit Abermillionen Wikipedia-Seiten, E-Books oder wissenschaftlichen Studien. Anhand von Milliarden Parametern wertet die künstliche Intelligenz nach dem Ende dieses sogenannten Trainings aus, mit welcher Wahrscheinlichkeit ein Wort auf das vorherige folgt. Das, was der menschliche Leser dann im besten Fall als kohärente Antwort auf sein persönliches Anliegen begreift, ist in Wahrheit also nur eine mathematische Abfolge.

Mittlerweile sind die LLMs so gut darin, Verständnis vorzutäuschen, dass manch menschlicher Nutzer bereits den Irrglauben verfolgt, er hätte es mit einem Bewusstsein zu tun. Menschen weltweit sind wahlweise fasziniert oder verängstigt ob der Möglichkeiten. Was statt der KI-Genesis wesentlich wahrscheinlicher ist: eine Art von textueller Hyperinflation. Schon heute klagen Nutzer über KI-generierten Spam.

Die Qualität des Outputs ist bedingt durch die des Inputs. Und nun?

Open AI, das Entwicklungsunternehmen des aktuell leistungsfähigsten Modells GPT-4, hält Informationen darüber, mit welchen und wie vielen Daten das System trainiert wurde, zurück. Dem Vorgänger mit der Seriennummer 3 dienten jedenfalls eine halbe Billion Wörter und deren Kombinationen als Basis. Diese Masse an Text, die LLMs zum Funktionieren benötigen, macht aber deutlich, was man als normaler Nutzer kaum zu begreifen vermag: Auch online geschriebene Texte sind irgendwann alle gelesen. Bedeutet das, dass eine Technologie, in die momentan Unsummen von Kapital und Hoffnung investiert werden, von vorneherein limitiert ist? Bereits im Jahr 2026, so eine kürzlich veröffentlichte Studie, könnte es so weit sein und der Vorrat an qualitativ hochwertigen Inhalten zur Neige gehen.

Was passiert nun, wenn die KIs zunächst auf die B-Waren-Wörter losgelassen werden? Würde die vermeintliche Maschinenmagie in faulen Zauber umschlagen? Denn wie so oft gilt auch hier: Die Qualität des Outputs ist bedingt durch die des Inputs. Und dann? Könnte man künftige KIs auch mit Inhalten trainieren, die selbst wiederum von KIs erstellt wurden? Oder schafft man damit eine Rückkopplungsschleife des schlechten Geschmacks und fragwürdigen Stils? Die an der Studie beteiligten Wissenschaftler meinen jedenfalls, dass sich der derzeitige Trend zu immer leistungsfähigeren KIs "verlangsamen könnte, wenn die Dateneffizienz nicht drastisch verbessert wird oder neue Datenquellen verfügbar werden".

In einer nicht unwahrscheinlichen Zukunft der unerschöpflichen, stets personalisierbaren Inhalte, die KIs beinahe in Echtzeit produzieren können, müssen sich Menschen als Erzähler von Geschichten eine neue Rolle suchen. Kulturproduktion dient nie mehr nur als Selbstzweck, sondern von nun an immer auch dem Anlernen von künstlichen Intelligenzen. Spielt man den Gedanken konsequent zu Ende, landet man bei einer bekannten Fiktion: In den "Matrix"-Filmen waren die Menschen nur noch Energieproduzenten für die übermächtigen Maschinen, nicht mehr als lebende Batterien. In der Realität könnte uns ein ähnliches Schicksal blühen. Nur dient man dann nicht als Mini-Kraftwerk, sondern als Wörterbuch.