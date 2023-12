Zufällig entdeckte Doc Baumann kürzlich in der Galerie der KI-Plattform „Deep Dream Generator“ ein Bild mit dem goldenen Schriftzug „Merry Christmas“. Fehlerfrei und mit perfekt geformten Buchstaben. Das ist bislang nicht selbstverständlich – aber Schritt für Schritt lernen die Systeme all jene Fehler auszumerzen, an denen sich anfangs KI-Bilder leicht erkennen ließen.

Prompt für Deep Dream Generator/AIVision: »The words „Mit den besten Wünschen für ein friedliches Jahr 2024“ built of huge white marble blocks, with strong perspective (as in the title of the movie Ben Hur)«, danach mit der Outpainting-Funktion von Photoshop 2024 seitlich erweitert



In einem Kommentar zu einem Beitrag von mir im DOCMA-Blog schrieb jemand kürzlich: „Für mich ist die KI ein Armutszeugnis für Kreativkrüppel, die sich wichtig machen wollen.“ Ich sehe das nicht so – im Gegenteil finde ich viele Umsetzungen von Prompts ziemlich kreativ. Oder sagen wir mal so: Wenn wir nicht wüssten, dass Bilder von einer KI generiert wurden, hätten wir oft kaum Bedenken, sie als kreative Lösungen zu bezeichnen. Womit sich dann die Frage stellt, ob eine perfekte Simulation sich in ihrer Wahrnehmung wesentlich von „Echtem“ unterscheidet.

Ich bin jedenfalls oft voll der Bewunderung für das, was KI aus meinen Vorgaben macht, und obwohl ich zumindest rudimentär verstehe, was da im Hintergrund abläuft, empfinde ich mitunter so etwas wie Respekt vor den detailreichen Umsetzungen – auch wenn ich weiß, dass da eigentlich gar kein klar fassbares Subjekt ist, dem ich diesen Respekt entgegenbringen kann. (Der oben erwähnte Kommentar behauptet übrigens auch, KI-Bilder würden wie bei einem Puzzle aus den Fotos des Trainingsmaterials zusammengestückelt – eine zwar naheliegende, aber falsche Annahme, aus der dann oft ebenso falsche Schlussfolgerungen gezogen werden.)

Nachdem ich den „Merry-Christmas“-Schriftzug bei Deep Dream Generator gesehen hatte, wollte ich mit dem (teuren) Modell AIVision sofort ausprobieren, ob das auch mit weniger emblematischen Wörtern funktioniert. Wobei ich dann übermütig den gewünschten Text gleich auf Deutsch eingab: »The words „Mit den besten Wünschen für ein friedliches Jahr 2024“ built of huge white marble blocks, with strong perspective (as in the title of the movie Ben Hur)«.

Prompt für Deep Dream Generator/AIVision: »The words „Mit den besten Wünschen für ein friedliches Jahr 2024“ built of huge white marble blocks, with strong perspective (as in the title of the movie Ben Hur)«

Auf den ersten Blick fand ich das Ergebnis ziemlich beeindruckend. Zwar war der Perspektive-Effekt mit den gigantischen Steinblöcken nicht so umgesetzt worden, wie ich mir das vorgestellt hatte, und die an den Seiten herabfallenden Brocken erschienen mir als schlechtes Omen für das neue Jahr, aber Deep Dream Generator hatte schon mal „verstanden“, dass die Zahl 2024 eine zentrale Bedeutung erhalten sollte, und die erzeugten Buchstaben waren keine verdrehten Phantasiegebilde, die nur vage an tatsächliche Schriftzeichen erinnern, sondern echte, zufriedenstellend konstruierte Lettern.

Plakat für den Film „Ben Hur“ 1959 (Wikipedia)

Nur leider zeigte sich dann bei genauerer Betrachtung, dass da nicht stand „mit den besten Wünschen für ein friedliches Jahr 2024“, sondern: „Mit den best Vanisher fir ain freddlichee Yarr …“. Na ja, die gute Absicht ist erkennbar, wenn auch nicht nach Inhalt, sondern nach Gehör umgesetzt. Wie ich bei Google lernte, gibt es „Vanisher“ übrigens tatsächlich. Es ist zum Beispiel der Name einer Marvel-Comic-Figur sowie die Bezeichnung eines Zauberkastens, mit dem man Dinge verschwinden lassen kann. „Fir ain freddlichee“ dagegen klingt für mich vage Jiddisch.

Also einen Gang runterschalten und den Prompt diesmal lieber komplett auf Englisch formulieren: „With the best wishes for a peaceful year…“. Und, hurra!, es klappte. Dazu diese gewaltige Szenerie, irgendwo zwischen Antike und Star Wars (mit Photoshops Outpainting seitlich erweitert). Ich war mal wieder tief beeindruckt. Nun gut, ein Tippfehler hatte sich eingeschlichen: „peaaceful“. Aber immerhin.

So richtig würdigen kann man das eigentlich erst, wenn man dasselbe mit anderen KI-Systemen versucht. Auch auf Deep Dream Generator kommen mit anderen Modellen weniger gute Ergebnisse heraus (und selbst mit AIVision nicht jedes Mal verwendbare). Da heißt es dann statt 2024 schon mal 2204 oder gar, auf kleinen Marmorwürfelchen, 204/20224.

20224 gibt, Zufall oder nicht, jedenfalls gut lesbar, auch das neue Stable Diffusion aus – mit einem Bokeh-Feuerwerk im Hintergrund. Firefly bietet nach etlichen Durchgängen zumindest ein etwas zerrupftes 2024 an, die anderen Schriftzeichen dagegen haben nur rudimentär etwas mit den vertrauten lateinischen zu tun, und auch der hineininterpretierbare Inhalt ist weit von der Vorgabe entfernt. Bei NightCafe ist es mit dem Stable-Diffusion-XL-Modell nicht besser.

Identischer Prompt wie zuvor in Stable Diffusion XL



Identischer Prompt wie zuvor in Adobe Firefly



Identischer Prompt wie oben in Wombo, Modell Baroque 2



Links: Identischer Prompt wie oben in Wombo, Modell Baroque 2 / rechts: ebenfalls identischer Prompt in Deep Dream Generator/ DigitaldaVinci, mit dem Bild links als Vorgabe



Auch bei Wombo unterscheiden sich die Resultate stark je nach verwendetem KI-Modell, wirklich Lesbares kommt nie heraus. Bemerkenswert ist dagegen, was Deep Dream Generator in seiner Variante „Digital da Vinci“ aus dem Wombo-Bild herausholt. Neben phantasievoll konstruierten ostasiatischen Zeichen entsteht der ursprüngliche Text, wenn auch nicht fehlerlos und seltsam verstreut. Auf diese „evolve“-Funktion von Deep Dream Generator werde ich in meinem kommenden Blog-Beitrag ausführlicher eingehen.

In diesem Sinne docmatische Grüße: „Mit den best Vanisher fir ain freddlichee Yarr 2024!“