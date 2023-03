Midjourney, einer der beleibtesten und von den Ergebnissen her eindrucksvollsten Dienste für KI generierte Bilder, ist ab sofort in der Version 5 nutzbar.

Lange Prompts

Der Prompt zu den Bildern: »a bustling street in London in the 1960s but there is a Volkwagon T-Roc that has timetravelled to that location. The street is crowded with people and other cars, and there are iconic landmarks like Big Ben and the Tower Bridge visible in the distance. Suddenly, a sleek beige Volkswagen T-Roc in a vintage design pulls into view, turning heads as it weaves its way through the traffic. The car is a striking shade of beige, with a black roof and classic chrome detailing. The driver and passengers are dressed in sharp, mod-inspired clothing, with bold patterns and colors. The car looks perfectly at home among the other classic vehicles on the road, but also stands out as a symbol of modernity and innovation.«

Midjourney 5 besteht auf langen Prompts. Bisher ist das Program in der Version 4 ausgesprochen „kreativ“, wenn der Benutzer besonders kurze Prompts eingibt. Die neue Version setzt nun aber voll auf ausführliche (leider immer noch englische) Prompt-Texte. Zuvor in Version 4 hatte man guten Chancen, mit einem kurzen Text-Prompt wie „beautyfull celebrity“ ein ziemlich schickes Porträt zu generieren. Weitere Angaben hinzuzufügen barg die Gefahr das Bild zu verschlechtern.

Midjourney 5 setzt dagegen auf möglichst viel Detailinfomation. Hier können die Prompts also im Grunde gar nicht ausführlich genug sein. Wichtig ist auch: Bei Version 4 reichte die Aneinanderreihung von Merkmalen, die man nicht einmal durch Kommata trennen musste. Version 5 legt dagegen viel Wert Wert auf vollständige Sätze. Außerdem soll die Wirkung von Worten die zuvor der Qualitätsverbesserung dienten wie „HDR“, „8k“ oder „Oktane Render“ wirkungslos bleiben.

Midjourney 5: Bessere fotografische Qualität

Der Prompt zu beiden Bildern: »a 42 year old female photomodel, with detailed skin, long Curly messy red hair, intense round eyes, pronounced cheekbones, strong fine contoured lips, wearing an semitransparent white shirt, micro detail, psychosexual pose«

Der Grund dafür liegt in der verbesserten fotografischen Qualität. Ganz gleich, wieviel Text man eingibt, die Ergebnisse erinnern an Fotos, solange dem Algorithmus nicht eine Korrektur wie etwa ein »in style of a comicbook/ a drawing/ a painting« oder ähnliches verordnet wird.

»Donald Duck driving in his car on an sunny day to the supermarket, Disney comic style«

In unserem Comic-Beispiel werden zwei Aspekte deutlich: Midjourneys Version 5 liefert mehr Details, aber Kinderkrankheiten wie das von der KI teils unverstandene Konzept des Autofahrens sind noch nicht behoben.

Der Prompt: »beautiful celebrity, wearing festive evening gown, sitting in a leather wing chair, showing both hands, Sticking out her tongue«

Dafür haben die Entwickler viel Trainingsenergie in die Verbesserung des Fingerproblems und in die Erweiterung der Ausdrucksfähigkeiten von Figuren gesteckt. An einem Beispiel, in dem die dargestellte Figur ihre Hände zeigen und die Zunge herausstrecken soll, wird das ziemlich deutlich.

Der Prompt: »birds eye perspective on mountain lake in front of the matterhorn, wideangel lens, f/22, sunny wether, trees and shrubs on the left an on the right of the image«

Die fotografische Anmutung eines Bildes muss nicht nur Vorzüge haben. Vor allem, wenn dabei optische Aspekte wie die Verzerrung ins Speil kommen. Bei einer Landschaftsdarstellung wie hier ist das Fehlen von Fotorealismus also nicht unbedingt ein Negativkriterium.

Skalierung und Qualitätsoptimierung

Neu ist auch, dass die Upscale-Funktion nicht mehr leicht von der Vorschau abweichende Ergebnisse erzeugt. Jetzt werden schon die vier Standard-Auswahlmotive in voller Auflösung gerechnet.

Außerdem ist es jetzt möglich auch extreme Quer- oder Hochformate mit dem »–ar« Befehl zu definieren.

»female samurai wearing armor with weapons and preparing for a fight, in the background you can see the armory in semidarkness, scene in cinematic dramatic light«

Wer die doppelte Menge an Rechenzeit investiert, hat die Option mit dem Befehl »–q 2« die Qualität noch ein klein wenig zu verbessern. Allerdings können sich dabei auch einige Details verändern.

Musterfunktion

Mit der der neuen Musterfunktion »–tile« lassen sich auf die Schnelle an allen Seiten anschlussfähige Wiederholungsstrukturen für Tapeten, Desktop-Hintergründe oder als Texturgundlagen für Photoshop- oder 3D-Projekte erzeugen. Da die Bild-Kacheln 1024 x 1024 Pixel groß sind, kann man die Muster auch für hochwertigere Anwendungen einsetzen.

»detailed funny comic universe –tile –v 5«

Bildgewichtung

Freunde der Kombination von Bildvorlagen mit Multiprompts, also Promptbefehlen, die mit mehreren durch doppelte Doppelpunkte getrennten Segmenten arbeiten, kennen Gewichtungen. Bisher konnte man jedoch nur Textbereiche in ihrer Bedeutung für die Promptausführung gewichten, aber keine Bildvorlagen. Das hat sich nun mit dem Befehl »–iw« geändert.

Um davon eine Vorstellung zu bekommen, hier ein kleines Experiment. Ich habe ein Foto von mir vor neutralem Hintergrund als Basis genommen und lasse Midjourney 5 daraus ein Propaganda Porträt machen.

»https://s.mj.run/cSgzVQFJ1FE in style of propaganda portrait –v 5«

Zugegeben, ich hatte mich etwas männlicher in Erinnerung. Aber das Bild mixt die Textinterpretation im Prompt mit der Bildvorgabe automatisch 1:1.

»https://s.mj.run/cSgzVQFJ1FE in style of propaganda portrait –v 5 –iw 2«

Mit dem Einsatz der Bildgewichtung und durch Setzen des Wertes auf 2, also »–iw 2« lässt sich der Einfluss des Ausgangsbildes maximieren und ich sehe etwas männlicher aus. Dafür aber nicht mehr sonderlich propagandistisch.

»https://s.mj.run/cSgzVQFJ1FE in style of propaganda portrait –v 5 –iw 0.5«

Reduziere ich den Bild-Einflussfaktor auf »0.5« bleibt fast nur noch die Pose und der neutrale Hintergrund übrig.

Fazit

Gut war Midjourney schon länger, aber jetzt wird die Software nicht mehr nur den Illustratoren, sondern auch der Fotobranche gefährlich. Solange es auf grafische Zielsetzungen ankommt, hat Version 4 hier und da noch Vorzüge. Die Domäne der im Alpha-Test laufenden Version 5 sind hochwertige, detailreiche Illustrationen und fotografische Abbildungen.

Was wir hier sehen ist nur der Start. Die Bildergebnisse können sich im Lauf der Verbesserungen in den nächsten Wochen noch stark verändern. Bisher läuft die Version 5 nicht als Standard-Modus. Ohnehin steht sie aktuell nur den zahlenden Kunden von Midjourney zur Verfügung. Man darf also gespannt bleiben.