Es ist zweifellos richtig, dass bilderzeugende KI eine große Gefahr darstellt, sowohl für die Glaubwürdigkeit von Bildern als Abbild der sichtbaren Realität als auch für die wirtschaftliche Situation von Fotografen und Grafikern. So weit herrscht Einigkeit. Hinsichtlich der Begründungen und Folgerungen kann man jedoch unterschiedlicher Meinung sein. Ein kritischer Kommentar von Doc Baumann zur Position des Deutschen Fotorates.

Der folgende Prompt ist eine logisch unerfüllbare Anforderung an die KI: »_a portrait, the difference between a real photo and a AI generated image, as a sharp and detailed photo,dramatic_light,narrow_dof«, denn die KI müsste ein Bild generieren, dass über ihre eigenen Möglichkeiten hinausgeht

Mein Kommentar zu dieser Positionsbestimmung, das sei gleich vorausgeschickt, ist keine Stellungnahme der DOCMA-Redaktion, sondern gibt nur meine eigenen Überlegungen dazu wieder, als Kunstwissenschaftler mit dem Hintergrund von 40 Jahren Erfahrung mit digitaler Bildbearbeitung. Sie können den vollständigen Text des Verbandes hier nachlesen.

Zunächst einmal sind die Bedenken des Fotorates durchaus nachvollziehbar. Er betont einleitend sogar, dass er „der Weiterentwicklung bildgebender Techniken grundsätzlich offen gegenübersteht“. Und in Vertretung der Interessen seiner Mitglieder, also der Fotografen, ist es seine legitime Aufgabe, sich für deren wirtschaftliches Überleben zu engagieren. Und ebenso, darauf hinzuweisen, dass die von den Fotografen produzierten Bilder zum Teil ihren Wert daraus beziehen, sichtbare Wirklichkeit unverfälscht wiederzugeben. (Für Studio- und Werbefotografie zum Beispiel trifft diese Voraussetzung nicht zu.)

Natürlich könnte man alles, was mit KI-generierten Bildern zu tun hat, pauschal zurückweisen. Ich erinnere mich an den Kommentar eines Facebook-Lesers, der uns vorwarf, überhaupt darüber zu berichten sei schon eine Schande! (Ich weiß nicht, ob er noch lebt – wenn man den Kopf so tief in den Sand steckt, müsste man inzwischen eigentlich erstickt sein.) Eine solche Forderung nach Totalboykott hätte sicherlich gewisse Erfolgsaussichten. Ähnlich denen nach der Erfindung der Schrift, weil sie Denken und Erinnern überflüssig mache, der des Buchdrucks, weil keine Schreiber mehr gebraucht wurden, der grafischen Vervielfältigungstechniken, später der Fotografie, weil sie Maler und Zeichner ersetzte, Desktop Publishing, das die Menschen in der Druckvorstufe arbeitslos machte, und so fort.

Es ist ja noch gar nicht so lange her, dass vergleichbare vehemente Diskussionen darüber geführt wurden, die damals neue digitale Fotografie produziere nur tote und glatte Bilder; ich erinnere mich gut an entsprechende Podiumsdiskussionen. Zu nicht geringen Teilen hatten die Vorbehalte damit zu tun, dass recht unsauber die digitale Aufnahmetechnik in einen Topf geworfen wurde mit der in der Tat sehr viel einfacheren digitalen Nachbearbeitung und auch Manipulierbarkeit. Wer redet heute noch über diese vorgeblichen Mängel der digitalen Fotografie?

Deren hauptsächliche wirtschaftliche Folgen waren für die Hersteller, dass man keine Filme, Entwicklerchemie, Fotopapiere und dergleichen mehr brauchte. Dass Bildoptimierung von der stinkenden Dunkelkammer besser und breiter steuerbar an den Monitor verlagert wurde, dürfte langfristig kaum jemand beklagt haben. Der Akt und Prozess der Auffindung, Auswahl und Ausführung der Motivwahl dagegen blieb in den Händen der Fotografen.

Und da ändert sich in der Tat bei KI-generierten Bildern einiges. Motive und Rahmenbedingungen werden nicht mehr in der Realität aufgesucht, sondern nur noch als Verbalisierung der eigenen Vorstellungskraft als Prompt eingegeben. Und das kann nun – besser oder schlechter – nahezu jeder.

Auch das Modul „Photorealistic“ aus Deep Dream Generator erzeugt zwei nahezu gleiche Porträts – welches davon wohl das „echte Foto“ sein soll und welches das KI-generierte?

Foto oder Nicht-Foto?

In dem Statement heißt es: „Dem Deutschen Fotorat ist wichtig, zwischen kamerabasierten Fotografien und synthetisch erzeugten KI-Bildern zu unterscheiden, denn Fotografien entstehen ausschließlich durch die Abbildung von Licht in einer Kamera. KI-generierte Bilder sind daher keine Fotografien und sollten nicht so bezeichnet werden, auch wenn sie durch ihre foto-realistische Darstellung diesen Eindruck vermitteln. Weil die qualitativen Grenzen verschwinden, ist eine klare Differenzierung zwischen Fotografien einerseits und generierten Bildern andererseits für deren Einordnung und Wahrnehmung von entscheidender Bedeutung und stärkt die Medien-kompetenz der Betrachter.“

Man könnte nun darüber streiten, ob ein Foto tatsächlich durch die Abbildung von Licht entsteht. Ich würde eher sagen, dass Licht das Medium ist, das die Abbildung (oder bereits die Wahrnehmung) von Oberflächen ermöglicht. Eine Symphonie definiert man ja auch nicht als Wiedergabe von Schallwellen. Und der Hinweis auf das Verschwinden der qualitativen Grenzen bedeutet das Eingeständnis, dass die Ergebnisse der KI nicht mehr schlechter sind als Fotos.

Aber davon einmal abgesehen, würde ich zustimmen; deswegen habe ich digitale Montagen nie als „Fotomontagen“ bezeichnet Fotorealistische 3D-Bilder entstehen ebenfalls nicht durch wirkliches Licht, wenn auch alle Körper- und Schlagschatten, Glanz und Textur dadurch zustande kommen, dass die Software den Weg virtueller Lichtstrahlen verfolgt. Lesen Sie dazu auch den aufschlussreichen Beitrag meines Kollegen Michael J. Hußmann.

Das Problem ist, dass man einem Bild am Monitor oder in einem gedruckten Medium nicht ansieht, wie es entstanden ist: als tatsächliches Foto, als Bildmontage, als 3D-Rendering oder dank generativer KI. Betrachter benötigen also Informationen, die nicht Bestandteil des Bildes selber sind, sondern von außen hinzukommen. (Sofern nicht gerade die Anzahl der Finger oder Beine auf einen KI-Ursprung hinweist – ich habe mich in letzter Zeit häufiger dabei ertappt, dass ich bei Fotos (?) anfange, die Finger abzuzählen.)

Der kreative Schöpfungsakt

Weiter schreibt der Fotorat: „Ohne den kreativen Schöpfungsakt von Menschen durch Einbeziehung neuer Bildwerke und die Formulierung origineller Prompts verleiten KI-Bildgeneratoren zur Reproduktion und Variation des Vorhandenen, da sie ihre Bilder stets im Rückgriff auf bereits existierende Inhalte generieren.“

Dieser Satz ist nun allerdings mehrfach fragwürdig, mal ganz davon abgesehen, dass er auch Trends und Moden der Fotografie betreffen könnte. So wird zwar oft behauptet, KI könne nicht kreativ sein, da sie ihre Ergebnisse nur aus der Rekombination vorhandenen Materials erzeuge. Aber erstens bin ich immer wieder überrascht, mit welchen Kompositionselementen KI aufwartet, die gar nicht in meinem Prompt enthalten waren (bei einem menschlichen Auftragnehmer würde man in diesen Fällen ohne weiteres von einer kreativen Interpretation des Auftrags sprechen) – und zweitens müsste belegt werden, ob Menschen überhaupt wesentlich anders vorgehen und durch welche Parameter sich „Neues“ von bereits Vorhandenem unterscheidet.

Hinzu kommt das Problem, dass hier „die Formulierung origineller Prompts“ verlangt wird. Das ist aber kein Erkenntnisgewinn, sondern eine Selbstverständlichkeit. Würden Auftraggeber von Fotografen oder Grafikern immer wieder dieselben Bilder fordern, würden diese auch nur „im Rückgriff auf bereits existierende Inhalte generiert“ werden.

Meine besten Ideen habe ich oft morgens nach dem Aufwachen in einer Art Halbschlafzustand, in dem mein Gehirn frei assoziiert (Wenn ich sie nicht gleich aufschreibe, habe ich sie später wieder vergessen, obwohl sie so evident erschienen). Das ist aber keine besondere Leistung, für die ich mich anstrengen muss – im Gegenteil, mein eigenes neuronales Netz produziert auf der Basis seines lebenslang erworbenen Trainingsmaterials ganz entspannt bisher vielleicht nicht realisierte Verknüpfungen.

Was unterscheidet KI von Fotografie?

Der Fotorat zitiert die Gesetzeslage, wohl eher zustimmend als kritisch: „Es müssen Lösungen erarbeitet werden, wie die Grenze zu ziehen ist zwischen urheberrechtlich schutzfähiger menschlicher, rechner-assistierter Gestaltung und mutmaßlich rein Rechner-generiertem Maschinenerzeugnis, an dem nach verbreiteter Rechtsauffassung kein Urheberrecht erworben werden kann.“

„Rechner-assistiert“? Wo verläuft da die Grenze zum anerkannt schöpferischen Werk? Wenn ich ein paar KI-Artefakte in Photoshop oder Affinity retuschiere und damit überzählige Finger und Gliedmaßen aus dem Bild entferne? Reicht das oder darf’s ein bisschen mehr sein?

Ich will an dieser Stelle nicht die Argumentation eines Artikels über KI und Kunst von mir vorwegnehmen, der in der übernächsten DOCMA erscheinen wird. Ich möchte aber hier schon andeuten, dass Fotografen und ihre Interessenvertretungen sehr vorsichtig sein sollten, wenn sie zwischen urheberrechtlich schützenswerten Werken und anderem „mutmaßlich rein Rechner-generiertem Maschinenerzeugnis“ unterscheiden wollen. Denn das Ergebnis des Nachdenkens über Schützenswertes könnte ihnen auf die Füße fallen. Um das Ergebnis meiner Überlegungen in einem Satz vorwegzunehmen: Wenn Fotografien Kunstwerke sind, sind es KI-Bilder ebenso – und wenn KI-Bilder nicht als Kunstwerke schützenswert wären, dann träfe dasselbe auf Fotografien zu.

Ich will hier auch nicht weiter darauf eingehen, wie das Verhältnis von Sprache (Prompt) und Bild (Gemälde, Foto oder KI-Bild) aussieht. Aber ich bin davon überzeugt, dass es in der Regel völlig falsch verstanden wird, etwa wenn die Rede davon ist, Bilder würden „lügen“. Lügen kann man nur mit Aussagen. Ein Bild von Trump, der gerade von Polizisten verhaftet wird, ist keine Lüge, nur seine Beschreibung wäre es: hier würde Trump gerade von Polizisten verhaftet. Man kann ein Foto von Einstein korrekt mit dem Satz beschreiben: „Dies ist nicht die Mona Lisa.“ Der Unterschied zwischen Sprache und Bild zeigt sich bereits daran, dass ich von „(irgend)einem Polizisten“ zwar sprechen kann – im Bild aber nur einen ganz bestimmten zeigen kann, der dann eine Mütze trägt, einen Helm oder gar keine Kopfbedeckung, eine blaue oder eine schwarze Uniform.

KI ist gut darin, irgendein Objekt – und dann wiederum unvermeidlich ein bestimmtes – wiederzugeben, jedoch (noch) weitaus weniger gut darin, ein ganz bestimmtes zu zeigen. Selbst der ausgefeilteste Prompt führt einstweilen nicht zu dem Bild, das unseren Vorstellungen bei der Formulierung exakt entspricht. Dass die Umsetzung allerdings dennoch sehenswerte, mitunter sensationelle Resultate generiert, ist eine andere Sache. Mit Gemälden und Zeichnungen dagegen erreichen wir das Ziel der Übereinstimmung von Absicht und Ergebnis, und auch mit einer digitalen Montage.

Das Trainingsmaterial

So richtig die Vermutung wahrscheinlich ist, KI-Bilder würden viele Fotografen und Grafiker arbeitslos machen, so falsch scheint bei vielen die Vorstellung darüber zu sein, wie beim Trainieren von KI Trainingsmaterial eingesetzt wird und wie auf dieser Grundlage neue Bilder entstehen.

So behauptet der Fotorat unter anderen: „Die ungefragte Ausbeutung ihres urheberrechtlich geschützten Bildmaterials mittels Datamining für allgemein zugängliche Bildgeneratoren bedeutet für Fotografen einen existenzgefährdenden wirtschaftlichen Verlust.“ Erstens ist nicht die Verwendung des Bildmaterials existenzgefährdend; es gäbe wohl genügend unproblematische Quellen, selbst wenn viele Rechteinhaber ihre Teilnahme verweigerten. Zweitens scheint die Verwendung als Trainingsmaterial durch entsprechende Gesetze zum Datamining abgesichert zu sein (was nicht notwendig bedeuten würde, dass diese Regelung angemessen ist).

Vor allem aber herrschen unzutreffende Vorstellungen darüber, wie KI mit Trainingsmaterial umgeht.

Um chatGPT als Beispiel zu nehmen: Durch das Trainieren mit einer gewaltigen Anzahl von Texten lernt das neuronale Netz nicht, was zum Beispiel ein Fotoapparat ist – aber es lernt, in welchen Zusammenhängen von ihm gesprochen beziehungsweise geschrieben wird. Wörter werden in Zahlenwerte umgerechnet und dann wird auf der Basis der vom Nutzer eingegebenen Sätze die Wahrscheinlichkeit bestimmt, wie das jeweils nächste Wort lauten sollte. Dabei kommen im Idealfall korrekte Antwort-Sätze heraus, aufgrund der Komplexität des neuronalen Netzes aber jedes Mal mit anderen Wörtern ausgedrückt, bei identischem Inhalt. Es wäre unsinnig zu behaupten, weil in einem chat-Bot-Satz Wörter vorkommen, die ich selbst einmal in einem – urheberrechtlich geschützten – Text verwendet habe, die KI würde mein Recht am geistigen Eigentum verletzen.

Bei generativer Bild-KI ist es ähnlich: Sie bastelt nicht aus vielen verschiedenen Kamera-Bildern in Form einer Montage oder Collage eine neue Kamera zusammen, bei der ich als – unfreiwilliger – Bildlieferant vielleicht einen kleinen Teil als aus meinem Foto entnommen wiedererkennen könnte (das kann bei Millionen Bildern zufällig auch mal passieren). Sie beginnt mit bedeutungslosem Rauschen, in dem sich sozusagen Kristallisationskerne bilden, um die herum nach der erlernten Wahrscheinlichkeit winzige Bildelemente andocken. Daher sieht auch hier jedes erneut generierte Bild mit demselben Prompt anders aus.

Das ist so, als hätte ich einen Stapel ausgedruckter eigener Fotos durch einen Aktenvernichter mit Diagonalschnitt gejagt und jemand habe diesen Sack voller winziger Schnipsel aus dem Papiermüll geholt und daraus eine Collage zusammengeklebt. Der Vergleich hinkt zwar etwas, aber er zeigt ganz gut, wie gering der Anteil der Urheber am Ergebnis ist.

Nicht einmal deren größte Leistung ist sonderlich bedeutsam, nämlich die Verschlagwortung der Bilder. Die KI muss ja erst einmal lernen, dass dem Begriff „Kamera“ bestimmte Bilder entsprechen. Ohne diese Paarung keine neuen Kamera-Bilder. Hat die KI das aber erst einmal auf der Basis eines Grundstocks gelernt, kann sie auch neue Kamera-Fotos im Trainingsmaterial verdauen und korrekt zuordnen. Verschlagwortung mag den Lernprozess beschleunigen und erleichtern, sie ist aber später weder immer nötig noch dürfte sie von irgendjemandem als sonderlich kreative Leistung eingeordnet werden. Mit dieser Aufgabe könnte man auch eine Zehnjährige betrauen.

Die Kennzeichnungspflicht

Die Forderung nach einer Kennzeichnungspflicht klingt erst einmal gut. Unter jedem medial verbreiteten KI-Bild sollte drunterstehen, dass es ein solches ist. Wer hätte da was gegen, außer Menschen bösen Willens?

Aber so einfach ist es nicht. Dieselbe Diskussion hatten wir vor 20 Jahren schon einmal, als es um digitale Montagen ging. Das damals geforderte „M“ gibt es bis heute nicht. Das Problem ist die Grenzziehung: Viele veröffentlichte Fotos würden wir nicht gern in dem Zustand anschauen, wie sie aus der Kamera kommen (wie auch immer man das definieren mag). Sie werden also bearbeitet, geschärft, Kontrast, Tonwerte, Farben der eigenen Erinnerung an die aufgenommene Szene angepasst. Oder dem Publikumsgeschmack mit Looks und Stilen.

Wo ist da die Grenze? Sie lässt sich nicht pauschal festlegen. Ein HDR-Foto ist etwas ausgesprochen Künstliches – und nähert doch nur das Abgebildete der direkten visuellen Wahrnehmung an. Nun gut – aber wenigstens darf nicht gestempelt, retuschiert oder montiert werden. Auch nicht ein störendes Element, das mit der Bildaussage überhaupt nichts zu tun hat. Als könnte die Wahl von Ausschnitt, Moment und Aufnahme-Parametern die Bildaussage für die Betrachter nicht viel gravierender beeinflussen.

Die Grenzziehung ist nicht durch die technischen Mittel und den Grad des Eingriffs definiert, sondern durch die Vertrauenswürdigkeit des Mediums und des Bildproduzenten. Aber wie will man die festlegen?

Das ist so, als fordere man, alle unehrlichen Anlageberater sollten auf Briefkopf, Webseite und Türschild den unübersehbaren Hinweis anbringen: geprüft unehrlicher Berater. Wenn das also nicht da steht, kann man sich fest darauf verlassen, es mit einer vertrauenswürdigen Person zu tun zu haben. Echt jetzt? Natürlich würden böse Menschen und Medien diese Hinweise nicht verwenden und so den Anschein erwecken, ihre Bilder seien echt.

Und was überhaupt diese Kennzeichnungen betrifft: Selbst sogenannte Qualitätsmedien schreiben inzwischen bei der Verwendung etwa eines Gemäldes von Holbein oder Rembrandt nicht mehr deren Namen unters Bild, sondern den der Bilddatenbank, von der sie die Lizenz erworben haben. So lange solche Zustände legal sind, braucht man über andere Kennzeichnungen gar nicht erst nachzudenken.

Das bedeutet nicht, dass die Bedenken unangebracht wären. Was heute bereits mit Montagen möglich ist, wird künftig mit KI noch leichter realisierbar sein. Manipulation und demokratiegefährdendem Einsatz solcher Bilder, Videos, Texte und anderer Daten stehen wir dann recht hilflos gegenüber. Profis können heute mit Mühe noch KI-Generiertes von Fotos unterscheiden – in kaum einem Jahr dürfte das nicht mehr möglich sein, wenn „generative Adversarial Networks“ (GANs) eingesetzt werden. GANs bestehen aus zwei neuronalen Netzen: einem Generator-Netz und einem Diskriminator-Netz. Der Generator erstellt Bilder oder andere Datensätze, während der Diskriminator versucht, zwischen den generierten Daten und echten Daten zu unterscheiden. So werden beide zunehmend besser – Meldungen über KI, die KI-Bilder entlarvt, sind nur sehr kurzfristig Anlass zum Jubeln, da genau das, was sie leisten, unvermeidlich zur Optimierung der bildgenerierenden KI eingesetzt werden wird.

Und mein Lösungsvorschlag, wie wir diesen Gefahren entgehen? Ich habe keinen außer den üblichen, Sensibilisierung und so. Aber was soll das bedeuten, wenn dokumentarische Fotos und KI-Erzeugnisse visuell ununterscheidbar werden? Auch der gute Rat, die Vertrauenswürdigkeit des Urhebers oder Mediums zu hinterfragen, bringt in der Praxis wenig, wenn zahllose Menschen offensichtlich nicht vertrauenswürdigen Medien vertrauen.

Fazit

So bleibt die gerechtfertigte Angst vor Arbeitslosigkeit und die Befürchtung, irgendwann die teure Kamera- und Studioausstattung bei ebay nur noch zum Ramschpreis loszuwerden. Ob es einem gefällt oder nicht, der Zug ist nicht mehr aufzuhalten, und gesetzliche Maßnahmen zum Schutz von Fotografen und Grafikern wird es ebenso wenig geben wie bei der Einführung von Industrierobotern.

In meinem fortgeschrittenen Alter kann ich das leicht mit Abstand betrachten. Aber da es primär um Wirtschaftsgüter und nicht um Kunst geht, werden sich einfach die Bedingungen der kapitalistischen Ökonomie durchsetzen. Warum sollte man einen Grafiker oder einen Fotografen beauftragen, wenn man ein vergleichbares Ergebnis schneller mit KI-Hilfe generiert hat, als es dauern würde, ihm auch nur zu erklären, was man gern haben möchte? In einem Bruchteil der Zeit, mit der Auswahlmöglichkeit zwischen beliebig vielen Varianten, zu einem Bruchteil des Preises? Und– auch wenn das kaum jemand gern hört – oft deutlich besser.

Anders als in Gerhard Hauptmanns Drama „Die Weber“, das die Ablösung der Handweberei durch Maschinenwebstühle thematisierte, wird das resultierende Elend in unserem Sozialstaat zumindest nicht dazu führen, dass wir unseren geliebten Schoßhund in den Kochtopf stecken müssen.

Firefly reagiert auf die Eingabe desselben Prompts ebenfalls mit zwei nebeneinandergestellten Frauenporträts, allerdings mit unterschiedlichen.