KI-Prompt Inspiration: Describe
Wie formuliert man einen KI-Prompt richtig? Nun, klare Regeln gibt es (noch) nicht, aber einige Experten haben inzwischen Systeme erdacht, wie man vorgehen kann. In der nächsten DOCMA werden wir dazu einen ausführlichen Beitrag bringen. Aber was macht man ohne solch ein System? Einfach sprachlich loslegen, wie einem der Schnabel gewachsen ist? Das funktioniert zwar, aber meist nur, wenn die eigenen Ansprüche nicht sonderlich hoch sind.
KI-Bildbeschreibung mit ChatGPT
Alternativen? Sich von einer anderen KI helfen lassen. So kann man etwa Bilder, die sehr bekannt sind, und einen eindeutigen Titel haben, von ChatGPT beschreiben lassen. Natürlich möglichst gleich in englischer Sprache, damit man das Ergebnis direkt in ein Text-2-Image-System kopieren kann. Ein Beispiel: „Der Kuss“ von Robert Doisneau

Ganz so einfach mit Copy und Paste geht das allerdings doch nicht, aber man bekommt durch Kürzungen dennoch schnell einen brauchbaren Text-Prompt:

Wir sehen: Die Idee funktioniert im Prinzip, die Bilder haben entfernt mit dem Original zu tun – zumindest thematisch. Aber auf Details sollte man nicht zu sehr achten.
KI-Bildbeschreibung mit Midjourney
Seit ein paar Tagen hat nun auch Midjourney eine Bildbeschreibungs-Funktion. Allerdings ist man dort nicht auf bekannte Bilder mit eindeutigen Titeln angewiesen, sondern kann einfach eigene Motive hochladen und sie sich beschreiben lassen. Der Befehl dazu lautet: »/describe [BILD]«

Zu sehen ist eine Frau nachts in einem Auto. Schauen wir mal, was Midjourneys neuer Befehl daraus macht …
Kleiner Hinweis: Bilder mit viel Haut mag das System gar nicht und verweigert die Beschreibung. Also bitte nur züchtige Motive verwenden.

Midjourney hat vier Beschreibungen erzeugt, die man per Klick auf das jeweilige Zahlenfeld berechnen lassen kann.

Thema getroffen, aber der Teil des Konzepts, der beschreibt, was man mit seinen Händen beim Autofahren tut, ist hier und bei den meisten anderen noch ein wenig trainingsbedürftig.

Insgesamt recht gut getroffen – selbst die Darstellung des Autofahrens.

Kennt jemand „Lisa Jackson“? Ich habe bei Google nur eine Autorin gefunden, aber die sieht ganz anders aus. In jedem Fall ist Lisa keine passionierte Chauffeurin.

Abgesehen von Details zeigt sich deutlich: Zumindest bei diesem Beispiel hat die Inhalts- und Stilübertragung ganz ordentlich funktioniert. Andere Test-Bespiele haben den Eindruck verfestigt. Die neue „Describe“-Funktion von Midjourney scheint also ein brauchbarer Ansatz zu sein, um das Bescheibungs-Prompt-Problem besser in den Griff zu bekommen.
Zum Vergleich: ein Versuch mit dem Kuss von Robert Doisneau

Das erinnert sehr an die Bilder oben.

Bunt und im Look eher an ein kommunistisches Klassenkampfepos erinnernd.

Schon näher am Ziel! Vor allem deshalb, weil sich der Kamerastandpunkt etwas nach hinten verlagert hat und man mehr von dem Paar sieht.

Der eher knappe Prompt führt nicht zu treffenderen Resultaten.
Im DOCMAshop finden Sie alle Infos zum aktuellen Heft: Das ausführliche Inhaltsverzeichnis, einige Seiten als Kostprobe sowie alle Möglichkeiten, das gedruckte Heft zu abonnieren. Erfahren Sie dort auch mehr über unsere preiswerten Online-Abos – jetzt ab 3,99 € pro Monat.

Aus den Bildern kann man schließen, dass die Lerndatenbank mit vielen Köpfen und nur wenigen Autos gespeist wurde. Man sieht viele verkrümmte und unmögliche Lenkräder, doch keine verbogene Nase.
So geschieht es eben, wenn man nichts, absolut nichts erkennt.
KI ist eben ein Synonym für natürliche Dummheit.
Mit Lisa Jackson könnte sie gemeint sein: https://www.gettyimages.de/fotos/lisa-jackson-model
Aber wieso erkennt Midjourney da ein GIF? Und soll mit „leica i“ die Leica I von 1925 gemeint sein? Aber was spräche dann dafür, dass das Bild mit einer Schraubleica entstanden wäre?
Naja die KI kann mal besser mal schlechter sein, bei den sich küssenden sieht man in einem Bild wie zwei Nasen sehr künstlerisch sich verschmelzen. Sieht sehr nach Salvador Dali aus.