Das hohle Genie: Wie Sie die größte Schwäche der KI zu Ihrer kreativen Stärke machen

Kürzlich las ich am Rande eines Interviews mit einem führenden KI-Forscher den Satz, die aktuellen Systeme seien vor allem „Meister der kontextfreien Synthese“. Dabei fiel mir eine eigene Erfahrung wieder ein: Für einen Auftrag versuchte ich, die Mannaz-Rune zu generieren. Dieses Zeichen steht nicht nur für den Buchstaben „M“, sondern trägt auch die tiefere Bedeutung „Mensch“. Nach etlichen Versuchen gab ich auf. Die KI lieferte zwar stilistisch brillante, atmosphärisch dichte Bilder im germanischen Stil, doch das Symbol selbst war jedes Mal falsch – eine visuell plausible, aber semantisch bedeutungslose Kalligrafie. In diesem Moment wurde mir klar, dass der Forscher den Nagel auf den Kopf getroffen hatte. Die wahre Kraft und zugleich die größte Gefahr dieser Systeme liegt nicht in dem, was sie können, sondern in dem, was ihnen fundamental fehlt: Verständnis. Dieser blinde Fleck im Herzen der Maschine, diese Schwäche der KI ist kein Fehler, der bald behoben wird. Er ist das eigentliche Betriebssystem.
Kein Bug, sondern das Betriebssystem
Um zu verstehen, warum dieser blinde Fleck kein Fehler ist, sondern das Fundament, auf dem diese Systeme ruhen, hilft ein Blick in die Funktionsweise. Diese Schlussfolgerung ist zwar meine eigene, aber sie ist die logische Konsequenz aus der Beobachtung des Forschers. Stellen Sie sich eine einfache Textdatei auf einem Computer vor. Sie enthält keine Buchstaben, sondern nur eine Kette von Zahlen. Die Zahl 65 steht für ein „A“, die 66 für ein „B“. Erst das Betriebssystem und die Schriftartendatei geben der Zahl 65 die visuelle Form eines „A“. Der Computer selbst „weiß“ nichts von einem „A“.
Ein Bildgenerator funktioniert nach einem ungleich komplexeren, aber im Kern verwandten Prinzip. Er „weiß“ nicht, was eine „Sonne“ ist – ein glühender Gasball. Er hat lediglich gelernt, dass auf das Wort „Sonne“ in seinem gigantischen Trainingsdatensatz extrem oft eine Ansammlung von Pixeln folgt, die wir als gelben Kreis interpretieren. Die KI operiert auf einer rein statistischen Ebene von Mustern, Formen und Farben. Sie ist ein Wahrscheinlichkeitsrechner, kein Verstehensapparat. Ihr „blinder Fleck“ für Bedeutung ist also kein Defekt in einem ansonsten verstehenden System. Es ist das System selbst.
Die Ästhetik der leeren Form
Noch deutlicher als bei meinem Runen-Experiment wird dieses Prinzip, wenn man versucht, komplexe asiatische Schriftzeichen zu generieren. Einem westlichen Betrachter ohne Sprachkenntnisse wird die KI oft verblüffend authentisch wirkende japanische oder chinesische Kalligrafien präsentieren. Die Strichführung, die Balance, die Ästhetik – alles scheint zu stimmen. Ein Muttersprachler jedoch erkennt sofort den „Zeichensalat“: bedeutungslose Strichkombinationen, die zwar wie Schrift aussehen, aber keinerlei Information tragen. Die KI hat die sinnliche Erscheinungsform in einer nie dagewesenen Perfektion gemeistert. Die Funktion im Zeichensystem aber, durch die ein Zeichen überhaupt erst Bedeutung erhält, bleibt ihr völlig verschlossen. Sie liefert eine leere Form.
Gilt das auch für die neue Generation?
Nun ist meine Beobachtung mit der Rune schon etwas her und es stellt sich die Frage: Gilt diese These vom blinden Fleck auch noch für die neueste Generation von Bildsystemen wie OpenAIs GPT Image 1.5 oder Nano Banana Pro? Diese Modelle arbeiten nicht mehr vorwiegend auf Basis von Diffusion wie Midjourney 7, sondern sind tief mit einem großen Sprachmodell (LLM) wie GPT-4o verzahnt. Die Antwort ist ein klares „Jein“ und offenbart die nächste Stufe der Entwicklung.
Das LLM agiert hier als brillanter Übersetzer und Regisseur. Es nimmt unsere Anweisungen in natürlicher Sprache – etwa „Ein blauer Würfel links neben einer roten Kugel auf einem Holztisch“ – und zerlegt sie in eine präzise, strukturierte Anweisung für den nachgeschalteten Bildgenerator. Das Sprachmodell versteht die räumlichen und logischen Beziehungen im Satz besser und gibt sie weiter. Das Ergebnis ist eine drastisch verbesserte Anweisungsbefolgung („Prompt Adherence“). Der Bildgenerator selbst muss die natürliche Sprache nicht mehr interpretieren; er bekommt ein perfektes Briefing. Und so konnte auch unser Ausgangsbild ohne Nachbearbeitung entstehen.

Der blinde Fleck wird dadurch aber nicht eliminiert, er wird elegant umschifft. Das Kernproblem der fehlenden Bedeutung bleibt. Ein perfektes Beispiel ist das verbesserte Text-Rendering. GPT Image 1.5 kann nun Slogans wie „Morning Fuel“ fehlerfrei auf eine Kaffeetüte rendern. Das liegt daran, dass das LLM die exakte Zeichenfolge „M-o-r-n-i-n-g-F-u-e-l“ kennt und diese Information an den Bildgenerator weitergibt. Dieser führt den Befehl aus. Aber weder das LLM noch der Bildgenerator „verstehen“, was Kaffee mit dem Gefühl von Energie am Morgen zu tun hat. Sie replizieren eine gelernte Assoziation, ohne den dahinterliegenden Sinn zu erfassen. Der blinde Fleck ist also noch da, er wird nur durch die präzise Steuerung des LLM besser kaschiert.
Die neue Urteilskraft im Workflow
Für uns als Kreativschaffende bedeutet das: Die Verhandlung mit der Maschine wird komplexer. Wir prompten nicht mehr nur einen Bildgenerator, sondern führen einen Dialog mit einem Sprachmodell, das wiederum einen Bildgenerator steuert. Die Gefahr der kognitiven Entlastung wächst. Weil die neuen Systeme so überzeugend plausible und korrekte Ergebnisse liefern, sinkt unsere Bereitschaft, diese kritisch zu hinterfragen.
Die entscheidende menschliche Fähigkeit ist daher nicht mehr nur die Generierung von Optionen, sondern mehr denn je die qualifizierte Selektion. Es ist das geschulte Auge, das aus hundert maschinell erzeugten Belanglosigkeiten die eine, bedeutungsvolle Komposition herausfiltert. Es ist die intellektuelle und ästhetische Anstrengung, dem kontextfreien Output der Maschine einen menschlichen Kontext zu verleihen. Unsere Zukunft als Kreative hängt nicht davon ab, ob wir die Maschine bedienen können, sondern ob wir ihre fundamentalen Defizite verstehen und sie in unseren Dienst stellen, anstatt uns von ihrer oberflächlichen Perfektion einlullen zu lassen.


Wittgenstein schrieb, die Bedeutung eines Wortes sei sein Gebrauch. Man kann darüber streiten, ob das zutrifft oder nicht. Aber wenn es zutrifft, dann wäre es auch beim Gebrauch durch Menschen die Erkennung sprachlicher Muster, welche Wörter also häufig davor und danach kommen, die festlegen, was etwas „bedeutet“. Auf dieser Basis kann ich auch etwas „verstehen“, das ich selbst nie erlebt oder wahrgenommen habe und kann damit sogar Emotionen verbinden.
Ohne nun Menschen und künstliche neuronale Netze gleichsetzen zu wolen, stellt sich doch die Frage, wie groß die Unterschiede wirklich sind.
Hat da gerade jemand „Wittgenstein“ gesagt …?
In seinen „Philosophischen Untersuchungen“ will Wittgenstein schon darauf hinaus, dass sich Wörter einer Sprache auf eine konkrete Praxis beziehen und sich erst in einer tatsächlich gelingenden Kommunikation erweist, dass jemand sie richtig verstanden hat. Unter Punkt 19 und Folgenden beschreibt er die Situation eines Maurers, der seinen Helfer anweist, ihm das benötigte Material („Bring mir eine Platte!“) zu holen, und ob der Helfer versteht, zeigt sich eben darin, ob er das Gewünschte bringt. So lange man nur redet und es allein darum geht, ob den Wörtern die richtigen anderen Wörter folgen, ist noch nichts bewiesen.
Allerdings hätte Wittgenstein kein prinzipielles Problem mit der KI gehabt: „Könnte eine Maschine denken? – Könnte sie Schmerzen haben? – Nun, soll der menschliche Körper so eine Maschine heißen? Er kommt doch am nächsten dazu, so eine Maschine zu sein.“ (359) „Aber eine Maschine kann doch nicht denken! – Ist das ein Erfahrungssatz? Nein. Wir sagen nur vom Menschen, und was ihm ähnlich ist, es denke. Wir sagen es auch von Puppen und wohl auch von Geistern. Sieh das Wort »denken« als Instrument an!“ (360)
Wittgenstein hat Aussagen der Art „Nur ich kann wissen, ob ich Schmerzen habe!“ widersprochen, denn damit macht man einen Kategorienfehler oder die Aussage ist falsch. Andere können sehr wohl wissen, ob ich Schmerzen habe – bestimmte Anzeichen deuten stark darauf hin –, müssen es aber nicht, und sie können sich auch irren. Ich habe habe Schmerzen oder habe sie nicht, und wenn ich sage „Ich weiß, dass ich Schmerzen habe“, ist das entweder eine unnötig komplizierte Art, „Ich habe Schmerzen“ zu sagen, oder es ist falsch – „wissen“ ist hier das falsche Wort. (Wenn „Ich weiß, dass ich Schmerzen habe“ nicht dasselbe wie „Ich habe Schmerzen“ bedeutete, müsste es Situationen geben, in denen ich Schmerzen habe, aber nicht weiß, dass ich sie habe – was keinen Sinn ergäbe –, oder dass ich zu wissen meine, Schwerzen zu habe, aber tatsächlich gar keine Schmerzen habe – was ebenfalls keinen Sinn ergäbe.)
Der Bedeutungsmystizismus, den Wittgenstein bekämpft hat, steckt hinter einem großen Teil der KI-Kritik, die auf „Eine Maschine kann doch nicht denken/fühlen/etc.“ hinaus läuft, und insofern läuft diese Kritik, sofern man Wittgenstein zustimmt, ins Leere. Aber die KI-Modelle, mit denen wir es heutzutage zu tun haben, kennen ja tatsächlich keine Lebenspraxis, in der sie morgens stöhnen würden: „Spricht mich nicht vor meiner zweiten Tasse Kaffee an!“. Nur gibt es deshalb noch lange keine prinzipiellen Beschränkungen dessen, was Maschinen könnten, und die Limits des Verstehens, die es tatsächlich gibt, gelten nicht nur für Maschinen. Ein Außerirdischer, der niemals schläft und keine besondere Reaktion auf Koffein zeigt, könnte bestenfalls beobachten, wie unser Tagesrhythmus aussieht und wie sich der Kaffeekonsum darauf auswirkt. Aber damit könnte er uns immerhin im richtigen Moment einen Kaffee bringen, obwohl er das, worum es geht, nicht nachvollziehen kann. So ergeht es auch einer KI, die vielleicht tut, was sie soll, auch wenn sie nicht weiß, warum es das Richtige ist (und ebenso wenig versteht, warum es manchmal das Falsche ist, das sie tut).
„…was ihnen fundamental fehlt: Verständnis“
Ich nenne das einfach fehlende Intelligenz. Deshalb ist KI ein prinzipiell irreführender Begriff, erweckt derzeit und zumindest mittelfristig nicht erfüllbare Erwartungen. Solange die Software Asimovs Robotergesetze nicht verstehen kann man nicht von Intelligenz sprechen.
Unter Intelligenz wird ja die Kompetenz zur Lösung von Problemen verstanden, und dabei schneiden aktuelle KI-Modelle bereits recht gut ab. Verstehen ist etwas anderes. Um wirklich zu verstehen, was ein anderer sagt oder tut, muss man mit diesem eine gemeinsame Welt teilen und ähnliche Erfahrungen gemacht haben. So wie das Konzept von Kaffee als „Morning Fuel“ nur derjenige versteht, der selbst schon einmal „Ich bin noch gar nicht richtig wach – erst mal Kaffee kochen!“ gedacht hat. Ein LLM lebt aber in keiner Welt und schon gar nicht in der Welt seiner menschlichen Benutzer, und es macht auch keine Erfahrungen. Es kann zwar Verständnis heucheln, nutzt dazu aber Erfahrungen aus zweiter Hand. Das KI-Modell spielt eine Rolle, genauso wie ein Schauspieler in Shakespeares „Richard III“, der „Mein Königreich für ein Pferd“ verspricht, obwohl er gar kein König ist und vielleicht nicht einmal reiten kann.
Zur Relevanz von Asimovs drei Gesetzen der Robotik hatte ich hier schon einmal etwas geschrieben: https://www.docma.info/blog/herrscher-diener-oder-mutter