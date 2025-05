Während ich vom massiven Entwicklungsschub bei den generativen Bild-KIs (Midjourney & Co.), dem beeindruckenden neuen Videomodell Veo 3 und den Large Language Models (ChatGPT & Co.) beeindruckt bin, so lässt mich die KI als Künstler in Teilen doch etwas gelangweilt zurück. Ein paar Gedanken dazu.

Langeweile, KI-Influencer und das Stochern im unendlichen Bilder-Haufen. Bilder: KI-generiert

Langweilige Gebrauchsgrafiken

Für journalistische Dokumentationen, für Erinnerungsfotos und Reisereportagen werden immer noch echte Fotos von echten Szenen benötigt. Das alles ersetzt künstliche Intelligenz nie.

Generative KIs sind jedoch genial für Autoren, um schnell Gebrauchsgrafiken wie Artikelaufmacher, Blog-Illustrationen oder Buchcover zu erstellen. Damit generierte Bilder sind schnell verfügbar, kostengünstig und benötigen keine langwierige Beauftragung von Illustratoren oder Abstimmungsprozesse mit ihnen. Deshalb sind auch in diesem Blog-Beitrag fast alle Bilder KI-generiert.

Generische Buchcover für Sachbücher und Romane wie dieses hypothetische Buch kann heute jedes Kind per KI generieren. Dass Spezialisten für Illustration und Dass Spezialisten für Illustration und Typographie sowohl die Grafik als auch die Schrift deutlich gekonnter gestalten würden, interessiert in der oberflächlichen und schnelllebigen Zeit heute wohl kaum noch irgendjemanden. OUMUAMUA kennen Sie? Das Ding soll übrigens das Sonnensystem doch noch nicht verlassen haben. Bild: KI-generiert

Illustratoren werden nur noch für hochwertige, anspruchsvolle und einzigartige Anforderungen benötigt. Die großen Könner dieses Faches werden daher zwar nicht arbeitslos, aber deren Arbeiten machten auch vorher nicht den Großteil des Grafikmaterials in den Medien aus.

Was früher generische Stockbilder waren, sind jetzt eben generische KI-Illustrationen – meist langweilig, weil nur Beiwerk. Übrigens sind inzwischen beinahe 50 Prozent der Bilder auf Adobe Stock KI-generiert, sodass Adobe bereits den Upload beschränkt (mehr dazu bei www.alltageinesfotoproduzenten.de).

Der Anteil KI-generierter Bilder bei Adobe Stock wuchs von 2023 bis heute auf fast 50 Prozent.

Diagramm: Robert Kneschke

Dass KI-generierte Grafiken bereits die Onlinemedien dominieren, fällt wohl nur uns Menschen vom Foto- und Grafik-Fach auf. Den Durchschnittskonsumenten dürfte das kaum interessieren. Für den sind Illustrationen, wie zuvor erwähnt, nur langweiliges Beiwerk.

Langweiliger Prozess

Generelle Vermittlungs- und Verständnisprobleme

Jedes generative KI-Modell hat im Training wahrscheinlich tausendfach mehr Bilder gesehen und „gelernt“ als ich und alle Leser dieses Blogbeitrags zusammen in ihrem ganzen Leben. Aber noch hat keines eine Ahnung von der echten Welt und kann schon daher – trotz noch so penibel genauer Beschreibung – nicht alles so umsetzen, wie man es sich vorstellt.

KIs sind auch nur Menschen

Obwohl ich beispielsweise Ihnen als Menschen, liebe Leserinnen und Leser, ein konkretes Bild höchst präzise beschreiben könnte, das ich gerade vor Augen habe, würde sich jeder von Ihnen etwas anderes vorstellen. Denn jeder Mensch hat eine unterschiedliche biologische, gesellschaftliche, familiäre/soziale, bildungstechnische (et cetera pp.) Vorgeschichte und deshalb andere Neuronenverknüpfungen, die zwangsläufig zu völlig verschiedenen Bildern führen.

Und DAS ist bei KI-Systemen nicht so viel anders. Mein seit Jahren bemühter, zwar unlustiger, aber doch treffender Schenkelklopfer-Witz „Computer sind auch nur Menschen“ wird – auch angesichts offenbar zunehmender Halluzinationen (mehr dazu) – immer mehr zur Realität, auch wenn die „Hardware“ und deren Funktionsweise unterschiedlich ist.

Jury-Mitglied statt Künstler sein

Man muss also immer wieder den Prompt ändern, immer mehr Informationen dazu geben, immer neu generieren lassen, nur um wieder von vorn anzufangen – weil die Ergebnisse nicht der eigenen Vorstellung entsprechen.

Das hauptsächliche Problem daran: Für mich fühlt sich diese Art der Bildgenerierung an, wie das Herumstochern in einer riesigen Stockfoto-Datenbank. Letztlich kuratiert man nur eine Bildauswahl aus einem unendlichen, generierten Bildbestand. Künstlerisch gesehen finde ich das wenig befriedigend und geradezu langweilig.

Als Kurator trifft man nur eine Auswahl, man erschafft nichts Eigenes – so wie „KI-Künstler“, die Bilder nur durch Eingeben eines Prompts erzeugen. Bild: KI-generiert

Und so würde es mir keinerlei Freude machen, wenn ich mit einem komplett KI-generierten Bild einen Bilder-Wettbewerb gewinnen würde. Denn ich wäre eher die Jury als der Künstler. Insofern langweilig.

Umsetzungsprobleme

Gezielt prompten?

Insbesondere Midjourney hat den Trick optimiert, Usern trotz schlecht formulierten Prompts und trotz mitunter mauer Prompt-Treue immer doch gut aussehende Ergebnisse zu präsentieren. Kurze Prompts, die der KI viel Freiheit gewähren, erzeugen dabei mitunter die eindrucksvollsten Ergebnisse. Man muss dann nur solange mit kleineren Prompt-Variationen neu generieren, bis halbwegs das Gewünschte herumkommt. Man kommt zum Ziel, aber auf ziemlich langweilige Art und Weise!

Langeweile. Bild: KI-generiert

Bilder durch Chatten generieren

Midjourney erlaubt erst seit Version 7 im Draft Mode (Beta) eine Prompteingabe und Bildoptimierung in natürlicher Sprache. ChatGPT und Grok – um nur zwei Beispiele multimodaler KIszu nennen – können das schon länger.

Beide ermöglichen eine natürlich-sprachliche Interaktion zum Verändern der Bildergebnisse. Statt also den Ausgangsprompt immer weiter abzuwandeln und neu anzuwenden, kann man hier der KI, die sich an die zuvor erfolgte Kommunikation erinnert, einfach sagen, was man ändern möchte: „Das zuvor generierte Bild mit etwas mehr Weitwinkel“, „Tausche den Dinosaurier gegen ein Känguru“ oder „Mache den Hintergrund unschärfer“.

Das ist deutlich intuitiver und funktioniert in Einzelfällen erstaunlich gut – macht aber die Ergebnisse (aktuell) im Allgemeinen nicht unbedingt besser. Wird schnell langweilig, wenn man trotz des vielen „Gesabbels“ 😉 nicht zum gewünschten Ergebnis kommt.

So wie in diesem Beispiel: Nach unendlichen, erfolglosen Gesprächen mit ChatGPT, bei dem Versuch, meinen Alltag in Form einer Polly-Pocket-Schatulle dazustellen, gab ich irgendwann auf. Denn ChatGPT generierte zu viele Katzen, zu wenige Katzen, falsche Monitore, extrem fehlerhafte Repräsentationen meiner selbst und dem Typen mit der Brille. 😉 Ich nahm dann einfach alle bisherigen KI-Ergebnisse und vereinigte die jeweils besten Elemente in einer fast schon traditionellen Fotomontage:

Life of Olaf. 😉 © Fotomontage aus KI-generierten Elementen

Nicht ganz so langweilig: Versatzstücke generieren

Der Fotomontage-Ansatz funktioniert tatsächlich relativ gut für mich. So wie ich KI für das Generieren kompletter Bilder langweilig finde, so genial ist sie mitunter für Montage-Versatzstücke geeignet. Hier mal ein Element entfernen, dort mal etwas Rauch oder Feuer hinzufügen, die Kleidung per Prompt ändern oder eine Szene komplett aus generativen Füllungen in Photoshop zusammensetzen: All das macht mehr Spaß, als alle benötigten Elemente über die Jahre zu fotografieren (wie ich es früher tat) oder die Elemente aus Stockfotos zusammenzusuchen, dann aufwendig freizustellen und einzumontieren. Das Generieren von Versatzstücken und das Kombinieren mit traditionellen Techniken hatte ich mit den ersten Stable Diffusion-Modellen und einem Laptop mit RTX-NVidia-GPU (mehr darüber) bei diesem Bild mal ausprobiert:

Aus meiner Planet X Serie: Hier habe ich viele verschiedene, u. a. mit Stable Diffusion erzeugte, Elemente in Photoshop zu etwas Neuem zusammengesetzt und erweitert. © Olaf Giermann

Die neue Möglichkeit, passende Bildelemente per KI zu generieren, hat in der Tat meine persönliche Einstellung zur Fotografie und mein Fotografieverhalten nachhaltig verändert:

Vom Wert der Fotografie: Wie 3D und KI meine Einstellung zum Fotografieren verändert haben.

Heute fotografiere ich dank KI und 3D kaum noch Versatzstücke für Fotomontagen, sondern tatsächlich den Moment, den ich festhalten möchte. © Olaf Giermann

Langeweile mangels Immersion

Problematisch kann im Schaffensprozess von KI-Bildern auch die fehlende Immersion aufgrund des ständigen Wechsels zwischen Bild und Sprache sein.

Als Kind hatte ich Stunden mit Stiften, Pinseln und Papier (und nicht zu vergessen: mit Büchern!) verbracht. Ähnlich erging es mir später mit Photoshop und 3D-Programmen. Über Ausprobieren, Versuch und Irrtum sowie einfachem Machen vergaß ich die Zeit. Eben war es noch Abend und plötzlich wurde es schon wieder hell. Ein treffender Begriff für eine solche Versunkenheit ist „Immersion“ – heute häufig im Zusammenhang mit fesselnden PC- oder Konsolenspielen benutzt.

Bei wirklicher Immersion vergisst man leicht die Zeit. © KI-generiert.

Eine solche Immersion fühle ich beim Verwenden von generativer KI nicht oder kaum. Beim KI-Prompten langweilt mich das Variieren des Prompts, das Erstellen/Suchen/Kombinieren/Laden/Tauschen von Referenzbildern genauso schnell wie das Ausbessern aller fehlerhaften Elemente.

Ich bin als Schreiberling und Erklärungsmensch 😉 ein Freund der Sprache und erfreue mich an Poesie und Lyrik. Deshalb kann ich in der Regel verständlich beschreiben, was ich vor meinem inneren Auge sehe. Aber der Wechsel zwischen meinen visuellen und sprachlichen Cortex-Arealen nimmt – mir zumindest – immer etwas von der Immersion. Wahrscheinlich insbesondere deshalb, weil jede KI immer noch jeden Prompt und jedes Referenzbild und jeden Referenzstil nicht wirklich treffend versteht.

Es ist eben etwas anderes, ob man mit künstlerischer Absicht etwa einen Bleistift so lange auf einem Blatt Papier herumbewegt, bis man dort sieht, was man vor Augen hatte, oder ob man auf immer neue Weise in wechselnden Programmen beschreiben muss, was man eigentlich wollte.

Bald Langeweile für Hollywood und Influencer?

Übrigens können Influencer sich warm anziehen. Mit der Perfektion und vergleichsweise günstiger Erschaffung KI-generierter Schönheiten werden sie kaum mithalten können.

Noch vor wenigen Jahren stellten wir in DOCMA bereits aufwendig zu erstellende 3D-Influencer vor. Das ist durch künstliche Intelligenz viel einfacher und für jeden machbar geworden.

Schauen Sie sich diese 10 Videobeispiele an, die alle mit Veo 3 generiert wurden. Dabei handelt es sich um das neueste KI-Modell von Google DeepMind zur Text-zu-Video-Generierung, das am 20. Mai 2025 vorgestellt wurde. Da fehlt nicht mehr viel, dass es auch der Filmindustrie an den Kragen geht und einzelne Creators ihre abendfüllenden Spielfilm-Ideen einfach per KI umsetzen können. Irre!

KI-generierte Influencer. Schauen Sie sich die Videos im X-Thread an. Beeindruckend!

We are cooked.



100% AI🤯 Veo 3



10 wild examples:



1. Nothing is real anymore pic.twitter.com/JBdImj9jz1 — Min Choi (@minchoi) May 24, 2025

https://x.com/minchoi/status/192606575694232796

Fazit

Trotz mancher Langeweile hat die künstliche Intelligenz inzwischen einen festen Platz im kreativen Schaffen und wird uns nicht mehr verlassen. Problematisch wird es – und diese Ansätze sind schon zu erkennen – wenn Menschen sich gänzlich abhängig von ihr machen, Antworten nicht hinterfragen, komplette Texte und ganze Bilder von ihr generieren lassen und so jede Fertigkeit zu logischem und kreativem Denken verlieren. Und DAS wäre doch der Höhepunkt der Langeweile. Oder? 😉