Manchmal ertappe ich mich dabei, wie ich auf Ranglisten starre, als wären sie das Orakel von Delphi. Besonders faszinierend ist dies bei den neuen Werkzeugen der Bildmagier, den Text-zu-Bild-Generatoren. Sie versprechen, die Qualität von KI-Bildgeneratoren objektiv zu messen, und tut dies mit der brutalen Eleganz eines Schachturniers. Doch was verrät uns der Punktestand wirklich über die Kunst, aus Worten Welten zu erschaffen?

Die Idee ist so einfach wie genial: Statt technischer Benchmarks, die oft so aussagekräftig sind wie der Wetterbericht von gestern, treten hier die Text-zu-Bild-Generatoren im direkten Duell gegeneinander an. Nutzer bewerten blind, welches von zwei Bildern, die zum selben Befehl gehören, sie bevorzugen. Aus Millionen solcher Urteile entsteht eine Rangliste nach dem Elo-System, das wir vom Schach kennen. Es misst nicht die theoretische Stärke, sondern die tatsächliche Überzeugungskraft im Auge des Betrachters. Wie in einem Roman von Umberto Eco, in dem Zeichen und Symbole die wahre Währung sind, kämpfen die Algorithmen hier um das symbolische Kapital der menschlichen Präferenz.

Die neue Hackordnung der Bildschöpfer

Ein Blick auf die aktuelle Rangliste vom Juni 2025 von artificialanalyses enthüllt eine bemerkenswerte Dynamik. An der Spitze thront nicht mehr ein einzelner, unangefochtener Champion, sondern eine Gruppe von Spezialisten, die sich in Nuancen unterscheiden. OpenAIs GPT-4o führt mit einem Elo-Wert von 1.166, dicht gefolgt von Seedream 3.0 mit 1.163 Punkten. Diese Zahlen wirken abstrakt, doch sie bedeuten, dass der Unterschied in der wahrgenommenen Qualität für die meisten Menschen kaum noch eine Rolle spielt. Die wahre Geschichte erzählen die Details dahinter.

Während die Spitzenmodelle in der Gunst der Nutzer fast gleichauf liegen, zeigen sich die für den kreativen Alltag entscheidenden Unterschiede woanders. So hat sich Google mit Imagen 3 und 4 auf einen erstaunlichen Fotorealismus spezialisiert, der selbst für geschulte Augen kaum noch von einer echten Fotografie zu unterscheiden ist. Ideogram wiederum glänzt, wenn es darum geht, lesbaren Text in Bilder zu integrieren – eine notorische Schwachstelle vieler Konkurrenten. Und Midjourney, obwohl in diesem speziellen Ranking nicht mehr in den Top 10 vertreten, bleibt für viele Kreative die erste Wahl, wenn es um eine eigenständige, künstlerische Ästhetik geht.

Die feinen Unterschiede in der Praxis

Für uns, die wir täglich mit Bildern arbeiten, bedeutet dies eine neue Form der strategischen Entscheidung. Die Frage ist nicht mehr nur: Welche Text-zu-Bild-Generatoren sind die besten? Sondern: Welches ist das richtige für diese spezifische Aufgabe? Ein Modefotograf, der eine Kampagne im Stil der 70er Jahre visualisieren will, greift vielleicht zu Midjourney. Ein Marketing-Team, das schnell Produktbilder mit präzisem Branding benötigt, wird die Fähigkeiten von Imagen 3 zu schätzen wissen. Und ein Grafiker, der ein Plakat mit Typografie entwirft, findet bei Ideogram sein Glück.

Die Kosten und die Geschwindigkeit sind dabei die harten Währungen, die diese weichen Faktoren erden. Ein Midjourney-Abonnement beginnt bei etwa 10 Dollar im Monat, wobei ein Bild zwischen 20 und 60 Sekunden benötigt. DALL-E 3, integriert in ChatGPT Plus, ist mit rund 20 Dollar monatlich dabei und liefert Bilder in etwa 20 Sekunden. Stable Diffusion 3, oft auf diversen Plattformen oder lokal betrieben, kann Bilder in unter 35 Sekunden hervorbringen, wobei die Kosten stark vom Anbieter abhängen. Diese Zahlen machen die Wahl des Werkzeugs zu einer kalkulierten Entscheidung zwischen Zeit, Geld und dem gewünschten ästhetischen Ergebnis. Die Rangliste ist somit weniger eine absolute Wahrheit als vielmehr eine grobe Landkarte der Möglichkeiten, die uns hilft, durch das immer dichter werdende Dickicht der KI-Modelle zu navigieren.