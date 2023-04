Wie formuliert man einen KI-Prompt richtig? Nun, klare Regeln gibt es (noch) nicht, aber einige Experten haben inzwischen Systeme erdacht, wie man vorgehen kann. In der nächsten DOCMA werden wir dazu einen ausführlichen Beitrag bringen. Aber was macht man ohne solch ein System? Einfach sprachlich loslegen, wie einem der Schnabel gewachsen ist? Das funktioniert zwar, aber meist nur, wenn die eigenen Ansprüche nicht sonderlich hoch sind.

KI-Bildbeschreibung mit ChatGPT

Alternativen? Sich von einer anderen KI helfen lassen. So kann man etwa Bilder, die sehr bekannt sind, und einen eindeutigen Titel haben, von ChatGPT beschreiben lassen. Natürlich möglichst gleich in englischer Sprache, damit man das Ergebnis direkt in ein Text-2-Image-System kopieren kann. Ein Beispiel: „Der Kuss“ von Robert Doisneau

Ganz so einfach mit Copy und Paste geht das allerdings doch nicht, aber man bekommt durch Kürzungen dennoch schnell einen brauchbaren Text-Prompt:

Midjourney Prompt: »A wide angle lens black and white photograph taken in 1950, captures a tender moment between a young couple sharing a passionate kiss in the busy streets of Paris, France. In the foreground of the image, the couple is oblivious to their surroundings as they embrace each other. The man, dressed in a dapper suit, has his right arm around the woman, while his left hand gently cradles her face. The woman, wearing a stylish dress, has her arms wrapped around the man’s neck, further drawing him in. Their eyes are closed, emphasizing the emotion and intimacy of the moment.The backdrop of the photograph is the bustling Parisian street near the Hôtel de Ville, a prominent and historic building that serves as the city’s administrative center. The street is filled with pedestrians, bicycles, and cars, highlighting the contrast between the private, romantic moment shared by the couple and the dynamic, public setting around them. –ar 3:2 –s 750 –q 2 –v 5«

Wir sehen: Die Idee funktioniert im Prinzip, die Bilder haben entfernt mit dem Original zu tun – zumindest thematisch. Aber auf Details sollte man nicht zu sehr achten.

KI-Bildbeschreibung mit Midjourney

Seit ein paar Tagen hat nun auch Midjourney eine Bildbeschreibungs-Funktion. Allerdings ist man dort nicht auf bekannte Bilder mit eindeutigen Titeln angewiesen, sondern kann einfach eigene Motive hochladen und sie sich beschreiben lassen. Der Befehl dazu lautet: »/describe [BILD]«

Zu sehen ist eine Frau nachts in einem Auto. Schauen wir mal, was Midjourneys neuer Befehl daraus macht …

Kleiner Hinweis: Bilder mit viel Haut mag das System gar nicht und verweigert die Beschreibung. Also bitte nur züchtige Motive verwenden.

Midjourney hat vier Beschreibungen erzeugt, die man per Klick auf das jeweilige Zahlenfeld berechnen lassen kann.

»a model sitting in the driver’s seat of a vintage car, in the style of bioluminescence, freakshow, national geographic photo, high quality photo, candid atmosphere, maria kreyn, stock photo –ar 10:7 –s 750 –q 2 –v 5«

Thema getroffen, aber der Teil des Konzepts, der beschreibt, was man mit seinen Händen beim Autofahren tut, ist hier und bei den meisten anderen noch ein wenig trainingsbedürftig.

»a person is driving a night car for some reason, in the style of retro glamour, vibrant portraiture, freakshow, national geographic photo, pre-world war ii school of paris, photo taken with provia, chiaroscuro portraitures –ar 10:7 –s 750 –q 2 –v 5«

Insgesamt recht gut getroffen – selbst die Darstellung des Autofahrens.

»lisa jackson driving nighttime at a red light 2016, in the style of matthias haker, retro glamour, amy earles, ivan albright, stockphoto, candid atmosphere, 1940s–1950s –ar 10:7 –s 750 –q 2 –v 5«

Kennt jemand „Lisa Jackson“? Ich habe bei Google nur eine Autorin gefunden, aber die sieht ganz anders aus. In jedem Fall ist Lisa keine passionierte Chauffeurin.

»gif of a blonde sitting inside an old car, in the style of chiaroscuro lighting, traditional portraiture, leica i, carnivalesque, national geographic photo, stock photo, high quality photo –ar 10:7 –s 750 –q 2 –v 5«

Abgesehen von Details zeigt sich deutlich: Zumindest bei diesem Beispiel hat die Inhalts- und Stilübertragung ganz ordentlich funktioniert. Andere Test-Bespiele haben den Eindruck verfestigt. Die neue „Describe“-Funktion von Midjourney scheint also ein brauchbarer Ansatz zu sein, um das Bescheibungs-Prompt-Problem besser in den Griff zu bekommen.

Zum Vergleich: ein Versuch mit dem Kuss von Robert Doisneau

»person on march 22, 1961 the photograph is a black and white image of two people kissing, in the style of post-world war ii school of paris, street style realism, 1940s–1950s, emphasizes emotion over realism, back button focus, feminine affluence, frayed –ar 29:23 –s 750 –q 2 –v 5«

Das erinnert sehr an die Bilder oben.

»young couple outside, french paris, in the style of post-world war ii art, photobash, emotional narrative, notable sense of movement, detailed crowd scenes, school of london, love and romance –ar 29:23 –s 750 –q 2 –v 5«

Bunt und im Look eher an ein kommunistisches Klassenkampfepos erinnernd.

»a couple of people walking beside each other hugging, in the style of post-world war ii school of paris, emotional and dramatic scenes, françois boquet, 1940s–1950s, john chamberlain, candid shots of famous figures, silvestro lega –ar 29:23 –s 750 –q 2 –v 5«

Schon näher am Ziel! Vor allem deshalb, weil sich der Kamerastandpunkt etwas nach hinten verlagert hat und man mehr von dem Paar sieht.

»the kiss, by jules seargent & claire reynaud 1952, in the style of urban emotions, candid atmosphere –ar 29:23 –s 750 –q 2 –v 5«

Der eher knappe Prompt führt nicht zu treffenderen Resultaten.