BlogHintergrundKI

Das hohle Genie: Wie Sie die größte Schwäche der KI zu Ihrer kreativen Stärke machen

Kürzlich las ich am Rande eines Interviews mit einem führenden KI-Forscher den Satz, die aktuellen Systeme seien vor allem „Meister der kontextfreien Synthese“. Dabei fiel mir eine eigene Erfahrung wieder ein: Für ein Projekt versuchte ich, die Mannaz-Rune zu generieren. Dieses Zeichen steht nicht nur für den Buchstaben „M“, sondern trägt auch die tiefere Bedeutung „Mensch“. Nach etlichen Versuchen gab ich auf. Die KI lieferte zwar stilistisch brillante, atmosphärisch dichte Bilder im germanischen Stil, doch das Symbol selbst war jedes Mal falsch – eine visuell plausible, aber semantisch bedeutungslose Kalligrafie. In diesem Moment wurde mir klar, dass der Forscher den Nagel auf den Kopf getroffen hatte. Die wahre Kraft und zugleich die größte Gefahr dieser Systeme liegt nicht in dem, was sie können, sondern in dem, was ihnen fundamental fehlt: Verständnis. Dieser blinde Fleck im Herzen der Maschine, diese Schwäche der KI ist kein Fehler, der bald behoben wird. Er ist das eigentliche Betriebssystem.

Kein Bug, sondern das Betriebssystem

Um zu verstehen, warum dieser blinde Fleck kein Fehler ist, sondern das Fundament, auf dem diese Systeme ruhen, hilft ein Blick in die Funktionsweise. Diese Schlussfolgerung ist zwar meine eigene, aber sie ist die logische Konsequenz aus der Beobachtung des Forschers. Stellen Sie sich eine einfache Textdatei auf einem Computer vor. Sie enthält keine Buchstaben, sondern nur eine Kette von Zahlen. Die Zahl 65 steht für ein „A“, die 66 für ein „B“. Erst das Betriebssystem und die Schriftartendatei geben der Zahl 65 die visuelle Form eines „A“. Der Computer selbst „weiß“ nichts von einem „A“.

Ein Bildgenerator funktioniert nach einem ungleich komplexeren, aber im Kern verwandten Prinzip. Er „weiß“ nicht, was eine „Sonne“ ist – ein glühender Gasball. Er hat lediglich gelernt, dass auf das Wort „Sonne“ in seinem gigantischen Trainingsdatensatz extrem oft eine Ansammlung von Pixeln folgt, die wir als gelben Kreis interpretieren. Die KI operiert auf einer rein statistischen Ebene von Mustern, Formen und Farben. Sie ist ein Wahrscheinlichkeitsrechner, kein Verstehensapparat. Ihr „blinder Fleck“ für Bedeutung ist also kein Defekt in einem ansonsten verstehenden System. Es ist das System selbst.

Die Ästhetik der leeren Form

Noch deutlicher als bei meinem Runen-Experiment wird dieses Prinzip, wenn man versucht, komplexe asiatische Schriftzeichen zu generieren. Einem westlichen Betrachter ohne Sprachkenntnisse wird die KI oft verblüffend authentisch wirkende japanische oder chinesische Kalligrafien präsentieren. Die Strichführung, die Balance, die Ästhetik – alles scheint zu stimmen. Ein Muttersprachler jedoch erkennt sofort den „Zeichensalat“: bedeutungslose Strichkombinationen, die zwar wie Schrift aussehen, aber keinerlei Information tragen. Die KI hat die sinnliche Erscheinungsform in einer nie dagewesenen Perfektion gemeistert. Die Funktion im Zeichensystem aber, durch die ein Zeichen überhaupt erst Bedeutung erhält, bleibt ihr völlig verschlossen. Sie liefert eine leere Form.

Gilt das auch für die neue Generation?

Nun ist meine Beobachtung mit der Rune schon etwas her und es stellt sich die Frage: Gilt diese These vom blinden Fleck auch noch für die neueste Generation von Bildsystemen wie OpenAIs GPT Image 1.5 oder Nano Banana Pro? Diese Modelle arbeiten nicht mehr vorwiegend auf Basis von Diffusion wie Midjourney 7, sondern sind tief mit einem großen Sprachmodell (LLM) wie GPT-4o verzahnt. Die Antwort ist ein klares „Jein“ und offenbart die nächste Stufe der Entwicklung.

Das LLM agiert hier als brillanter Übersetzer und Regisseur. Es nimmt unsere Anweisungen in natürlicher Sprache – etwa „Ein blauer Würfel links neben einer roten Kugel auf einem Holztisch“ – und zerlegt sie in eine präzise, strukturierte Anweisung für den nachgeschalteten Bildgenerator. Das Sprachmodell versteht die räumlichen und logischen Beziehungen im Satz besser und gibt sie weiter. Das Ergebnis ist eine drastisch verbesserte Anweisungsbefolgung („Prompt Adherence“). Der Bildgenerator selbst muss die natürliche Sprache nicht mehr interpretieren; er bekommt ein perfektes Briefing. Und so konnte auch unser Ausgangsbild ohne Nachbearbeitung entstehen.

Der blinde Fleck wird dadurch aber nicht eliminiert, er wird elegant umschifft. Das Kernproblem der fehlenden Bedeutung bleibt. Ein perfektes Beispiel ist das verbesserte Text-Rendering. GPT Image 1.5 kann nun Slogans wie „Morning Fuel“ fehlerfrei auf eine Kaffeetüte rendern. Das liegt daran, dass das LLM die exakte Zeichenfolge „M-o-r-n-i-n-g-F-u-e-l“ kennt und diese Information an den Bildgenerator weitergibt. Dieser führt den Befehl aus. Aber weder das LLM noch der Bildgenerator „verstehen“, was Kaffee mit dem Gefühl von Energie am Morgen zu tun hat. Sie replizieren eine gelernte Assoziation, ohne den dahinterliegenden Sinn zu erfassen. Der blinde Fleck ist also noch da, er wird nur durch die präzise Steuerung des LLM besser kaschiert.

Die neue Urteilskraft im Workflow

Für uns als Kreativschaffende bedeutet das: Die Verhandlung mit der Maschine wird komplexer. Wir prompten nicht mehr nur einen Bildgenerator, sondern führen einen Dialog mit einem Sprachmodell, das wiederum einen Bildgenerator steuert. Die Gefahr der kognitiven Entlastung wächst. Weil die neuen Systeme so überzeugend plausible und korrekte Ergebnisse liefern, sinkt unsere Bereitschaft, diese kritisch zu hinterfragen.

Die entscheidende menschliche Fähigkeit ist daher nicht mehr nur die Generierung von Optionen, sondern mehr denn je die qualifizierte Selektion. Es ist das geschulte Auge, das aus hundert maschinell erzeugten Belanglosigkeiten die eine, bedeutungsvolle Komposition herausfiltert. Es ist die intellektuelle und ästhetische Anstrengung, dem kontextfreien Output der Maschine einen menschlichen Kontext zu verleihen. Unsere Zukunft als Kreative hängt nicht davon ab, ob wir die Maschine bedienen können, sondern ob wir ihre fundamentalen Defizite verstehen und sie in unseren Dienst stellen, anstatt uns von ihrer oberflächlichen Perfektion einlullen zu lassen.

Christoph Künne

Christoph Künne, von Haus aus Kulturwissenschaftler, forscht seit 1991 unabhängig zur Theorie und Praxis der Post-Photography. Er gründete 2002 das Kreativ-Magazin DOCMA zusammen mit Doc Baumann und hat neben unzähligen Artikeln in europäischen Fachmagazinen rund um die Themen Bildbearbeitung, Fotografie und Generative KI über 20 Bücher veröffentlicht.

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Das könnte Dich interessieren
Schließen
Schaltfläche "Zurück zum Anfang"