Blog

Mal mir ein Bild!

Michael J. Hußmann30. November 2022

2 Minuten Lesezeit

In grauer Vorzeit musste man Bilder noch selbst malen oder zeichnen; später genügte es, erinnerungswerte Szenen zu fotografieren. Heute sagt man einem KI-System, was man sehen möchte, und es generiert das Gewünschte – in jedem beliebigen Stil. Mal mir ein Bild! Aber ganz so einfach ist es dann doch nicht.

Mal mir ein Bild! — DOCMA 104: Wissenslücken der KI

In DOCMA 104 (ab dem 7. Dezember am Kiosk zu finden) gehen wir in einem Schwerpunkt darauf ein, wie sich Verfahren der Künstlichen Intelligenz auf die Zukunft des Bildermachens auswirken werden. In Wissenslücken der KI (Seite 66–69) gebe ich den Spielverderber und zeige die Grenzen auf, die generative KI-Systeme wie Stable Diffusion noch immer haben – und warum sich diese auch nicht so einfach überwinden lassen.

Solche Systeme wurden mit Millionen von Bildern trainiert – Fotos, Gemälden, Zeichnungen und Illustrationen –, wissen aber nichts über die dreidimensionale Welt, die sie abbilden. Sie können nach diesem Training zwar neue Ansichten von Menschen, Tieren und den verschiedensten Objekten erzeugen, aber da sie nichts über Anatomie oder die Gesetze der Physik wissen, unterlaufen ihnen regelmäßig Fehler – beispielsweise sind in einem Bild, das Stable Diffusion nach der Vorgabe „A photograph of Hellboy dancing in a club“ durchaus erkennbare Versionen des Comic- und Film-Charakters zu sehen, nur wachsen ihm die charakteristischen, gestutzten Hörner aus den Augen. Das neuronale Netz „weiß“, dass da irgendwo Hörner hingehören, aber nicht genau, wohin.

Bisweilen sind die Ergebnisse zwar einerseits unbefriedigend, aber andererseits faszinierend, weil die KI dann doch mehr zu ahnen scheint, als sie wirklich wissen kann. Beispielsweise kennt Stable Diffusion offenbar nicht die Hamburger Elbphilharmonie, was nicht weiter überraschend ist – vermutlich war die KI nicht mit Bildern dieses Konzerthauses trainiert worden. Zum Prompt „Batman on the roof of the Elbphilharmonie“ generiert sie also kein Bild des mittlerweile ikonischen Bauwerks, aber die Ergebnisse erwecken dennoch den Eindruck, als hätte die KI eine vage Idee, was gemeint sein könnte:

Man erkennt eine aus verschiedenen Gebäuden wahllos zusammengewürfelte Großstadt, und bei genauerem Hinsehen auch einen Fluss; selbst die geschwungene Dachform des Konzertsaals ist zu erahnen. Zwar ist es weder Hamburg noch die Elbphilharmonie, aber eben auch nicht etwas völlig anderes. Es ist ein bisschen so, als hätte man einen Künstler, der die Elbphilharmonie noch nie gesehen, aber schon einiges darüber gehört hat, ein Bild davon anfertigen lassen. Zu erklären, wie die KI frei assoziierend zu diesem Ergebnis gekommen ist, dürfte aber selbst ihren Entwicklern nicht leicht fallen.

Mal mir ein Bild? Um herauszufinden, wie solche Systeme arbeiten und welchen Funktionsprinzipien sie ihre Fähigkeiten und Schwächen verdanken, habe ich zwei KI-Experten, Dr. Thomas Käster und Kai Röhr von der Lübecker Pattern Recognition Company (bekannt durch deren KI-basierte Bildverwaltung Excire) befragt; das Interview („Lesen aus dem Kaffeesatz“) finden Sie auf den Seiten 70–73.

Schlagworte

Michael J. Hußmann30. November 2022

2 Minuten Lesezeit

Christoph Künne
Das war eigentlich nicht als Product-Placement gedacht, denn...
Thomas Hintze
Lieber Christoph Künne, warum dieses offensive product place...
Jürgen Grill
Absolut richtig, ...leider. Einzig die Hoffnung, für das per...
Peter Gradischnigg
Wurde in der Zwischenzeit besser, allerdings kam es früher a...
Peter Gradischnigg
Könnte das iPhone 17 Pro meine letzte Kamera sein? Technisch...
un_docma
Hallo, nur um die Katalogfunktion geht: probieren Sie mal Da...
StefanKomarek
Adobe scheint die Zeichen der Zeit erkannt zu haben. Die kla...
Michael J. Hußmann
Ja, die Schlagwörter werden von Lightroom zwar auch im IPTC-...
Uwe Karmann
Ach ja, ein hatte ich vergessen. Adobe ist wenigstens sehr s...
Uwe Karmann
Ich bin zwar kein Profi, aber Adobe, insbesondere Lightroom...

Michael J. Hußmann

Ähnliche Artikel

Excire Foto 2027: KI-gestützte Bildverwaltung mit Texterkennung, neuer Weltkarte und überarbeiteter Oberfläche

Concept to Vector – Mit KI in Adobe Illustrator von grober Skizze zur Vektorgrafik

ON1 präsentiert ON1 Photo Raw 2026.4 mit KI-Modul zur Bildrestaurierung und neuem Home-Modul

Vividon: KI-gestütztes Photoshop-Plugin verändert Beleuchtung nach der Aufnahme

Schreibe einen Kommentar Antwort abbrechen