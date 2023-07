Vor einem Monat stellte Doc Baumann hier einige der neuen KI-Funktionen von Photoshop vor. Besonders das Outpainting, also das Ergänzen von Bildbereichen einer Szene bei Vergrößerung der Arbeitsfläche, hatte ihn begeistert. Angesichts der offenkundigen Mängel fragte ein Leser ungehalten, wie Baumann denn so einen „Klumpen von Mist“ gut finden könne. Die Antwort finden Sie hier.

Nur eines dieser Bilder zeigt wirklich das Rote Kliff auf Sylt. Die Proportionen des Originalfotos waren wie hier gezeigt; der im Bild oben links markierte Bereich wurde isoliert, der Rest gelöscht, dann das ganze Umfeld mit Photoshops generativer Füllungs-KI ergänzt. Schauen Sie genau hin und entscheiden Sie, welches das Original war. (Auflösung am Ende.) | Foto: Doc Baumann

Normalerweise ist Bildkritik ja mein Metier. Aber warum soll sie nicht auch einmal von jemand anderem kommen? Etwa von Peter Wießenthaner, der mein Outpainting-Resultat des Kolosseums ganz schlecht fand und meine Begeisterung überhaupt nicht nachvollziehen konnte.

Damals reagierte er umgehend auf meinen Beitrag:

„Guten Tag,

hier meine Meinung zum ,Rom-Bild‘: Es sind enorm viele Fehler, die die KI hergestellt hat. Wie kann Doc-Baumann das gut finden?

Ich sende Ihnen mein Bild mit der Analyse per Email zu.

MfG

Peter Wießenthaner“

Schauen wir, was sich an den Enden seiner gelben Pfeile findet, kann man nicht abstreiten, dass das ziemlich mangelhaft ist. Hat also Herr Wießenthaner recht mit seiner Kritik?

In meiner Vorstellung der Photoshop Beta hatte ich das Outpainting am recht komplexen Beispiel des Kolosseums demonstriert. Leser Peter Wießenthaner entdeckte darin zahlreiche KI-Mängel.

Nehmen wir ein anderes Beispiel: Ein Freund von mir schafft die Marathon-Strecke in knapp fünf Stunden. Das begeistert mich; ich würde nach der Hälfte der Zeit schon wegen Rückenschmerzen aufgeben; sehr fraglich, wieviele von den 42 Kilometern ich da bereits geschafft hätte. Doch der Sportreporter Paul Thiesenwaner kommentiert das nur knapp: „Fünf Stunden? Lächerlich! Der Weltrekord liegt bei knapp zwei Stunden. Schon vor 100 Jahren waren es knapp drei.“ Immer noch viel besser als die Zeit meines Freundes.

Das Recht auf Begeisterung ist also eine Frage des Maßstabs. Ich würde die Strecke nicht in fünf Stunden schaffen. Und ebenso wenig würde ich – oder irgend jemand anders – innerhalb einer halben Minute vier Bildergänzungen montieren können, um ein angeschnittenes Foto des Kolosseums auf doppelte Breite zu ergänzen. Auch nicht mit frei erfundenen, aber dennoch von Stimmigkeit, Perspektive, Beleuchtung usw. her passenden Phantasieelementen.

Dies als Maßstab zugrundelegend, scheint meine Begeisterung also durchaus angemessen. Ebenso kann ich etwa die Texte von Chat GPT faszinierend finden, auch wenn ich weiß, dass noch jede Menge sachlicher Fehler drin stecken. Dafür formuliert die KI besser und macht deutlich weniger Rechtschreib- und Zeichensetzungsfehler als die meisten Menschen, mit denen ich zu tun habe und die sich ihrer natürlichen Intelligenz bedienen.

Generative KI hat Probleme mit vielen Darstellungen, Menschen überhaupt, Gesichtern, Händen usw. Aber zum einen ist das Verfahren gerade mal rund ein Jahr alt, zum anderen handelt es sich beim neuen Photoshop um eine Beta-Version. Insofern nehme ich nicht in den Fokus, was sie alles – noch – nicht kann, sondern bin nach wie vor begeistert über das, was sie kann. Nehme ich dann als Maßstab die Bilder, die man so sieht, von Alltagsmedien bis Ausstellungen, muss ich leider sagen, dass ich mich von der Qualität her meist für die KI-Bilder entscheiden würde. Diese Entwicklung ist durchaus problematisch und sogar gefährlich, unter den verschiedensten Aspekten. Aber im Blindtest hätten die meisten menschengemachten Werke kaum noch eine Chance. Und in ein, zwei Jahren …

Also, die von Herrn Wiesenthaner angemerkten Mängel sind zweifellos vorhanden und dürfen und sollen auch kritisiert werden (wofür Adobe ja sogar extra für jedes Ergebnis eine Daumen-hoch-, Daumen-runter-Bewertung ermöglicht, um die KI weiter lernen zu lassen. Was nun wiederum ganz gut zur Geschichte des Kolosseums zu passen scheint, wie man aus vielen Filmen mit diesen Gesten weiß – Historiker sind inzwischen allerdings überwiegend der Ansicht, das habe so nie stattgefunden.)

Das von mir gewählte Motiv war ja auch recht komplex und damit beim gegenwärtigen Stand fehleranfällig. Daher habe ich es nun mal mit einem anderen Motiv versucht: einem Blick vom Roten Kliff auf Sylt.

Das Foto hatte ursprünglich die Proportionen, die im Bild oben zu sehen sind. Dann habe ich den Bereich, der im oberen Bild links durch einen Rahmen markiert ist, auf eine neue Ebene dupliziert und den Rest gelöscht, dann den verbleibenden Teil des Bildes ausgewählt, die Auswahl um 20 Pixel verkleinert, sie umgekehrt (ausgewählt war also bis auf die schmalen Randstreifen der leere Bereich der Arbeitsfläche) und schließlich Photoshop aufgefordert, diesen Rest generativ zu füllen.

Wären diese Füllungen nun – mit den Worten von Herrn Wießenthaner – ein „Klumpen von Mist“, sollte es auf den ersten Blick leicht möglich sein zu erkennen, welches der vier Bilder das Original ist. Nun …?

Oder ist das Original gar das Bild unten – und habe ich mit derselben KI-Funktion Himmel, Hund, Stiefel, Rucksack, Sonnenbrille und Möwen rausgerechnet? Oder umgekehrt mit entsprechenden Prompts reinrechnen lassen?

Rein- oder rausgerechnet? Vom Outpainting des Hintergrundes einmal abgesehen – habe ich Himmel und Möwen, Sonnenbrille, Rucksack, Stiefel und Hund mit Photoshops KI in den oberen Bildern ersetzt? Oder umgekehrt hier per Prompt generiert?

Und hier nun die Auflösung: Das echte Foto ist das linke in der zweiten Reihe; entsprechend wurden die eben aufgezählten Bildelement per Prompt und Auswahl ergänzt. Tut mir leid, lieber Herr Wießenthaner – ich bin immer noch schwer begeistert!