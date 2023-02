Getty Images verklagt Stability AI, weil deren Stable Diffusion offenbar auch mit Gettys urheberrechtlich geschützten Bildern trainiert wurde. Dabei hat sich die KI selbst entlarvt, indem sie den generierten Bildern Gettys Wasserzeichen hinzufügte.

Sportfotos – nur echt mit (per KI nachempfundenem) Getty-Logo.

12 Millionen seiner Bilder, so wirft Getty Stability AI in der Klageschrift vor, wären für das Training von Stable Diffusion benutzt worden, einschließlich der dazugehörigen Metadaten. Diese Bilder sind ja im Internet frei verfügbar, als Vorschaubilder mit Wasserzeichen, damit ein potentieller Käufer weiß, wofür er sein Geld ausgibt, aber deshalb darf man sie noch lange nicht für eigene Zwecke nutzen, ohne eine Lizenz zu erwerben. Lustigerweise hat Stable Diffusion beim Training auch gelernt, dass beispielsweise Szenen aus Fussballspielen typischerweise ein Getty-Images-Logo als Wasserzeichen tragen, und so fügt es dieses gut erkennbar in seine Kreationen ein. Nur der Name des Fotografen, der darunter stehen müsste, scheint aus teils frei erfunden Zeichen zu bestehen.

Das ärgert Getty Images, weil sie neben ihren Bildern auch noch ihr Markenzeichen missbraucht sehen, aber es unterstreicht auch noch einmal, wie „dumm“ die künstliche Intelligenz im Grunde immer noch ist. Wenn irgendein beliebiges Detail in vielen Bildern ähnlicher Art auftaucht, lernt die KI, dass es dazu gehört, auch wenn es keinen Bezug zum Thema hat und – wie ein Wasserzeichen – nicht einmal Teil des eigentlichen Bildes ist. Ich störe mich ja oft an den aufdringlichen Wasserzeichen, mit denen manche Künstler ihre Werke verunzieren, aber unter dem Aspekt des Abfischens durch KI-Firmen ergibt das durchaus Sinn. Wenn die KI den wiedererkennbaren Stil eines bestimmten Künstlers mit seinem Wasserzeichen assoziieren gelernt hat, wird es dieses Wasserzeichen reproduzieren, wann immer es ähnliche Bilder generiert – selbst dann, wenn man den Künstler gar nicht ausdrücklich im Prompt („Ein Foto im Stil von …“) erwähnt hat.

Die Anatomie ist verbesserungswürdig, aber an das sportfoto-typische Getty-Logo hat die KI immerhin gedacht.

Es heißt ja, dass generative KI-Systeme die Bilder aus dem Trainingsmaterial in Atome zerlegen und die Teile später in ganz neuer Weise zusammensetzen; sie würden urheberrechtlich geschützte Bilder also nie 1:1 reproduzieren. Von der Tendenz her stimmt das auch, aber es gibt Ausnahmen, wie gerade eine Forschergruppe herausfand. Manchmal genügt die Eingabe eines Eigennamens als Prompt, um ein bestimmtes im Training verwendetes Foto zu reproduzieren.

Stable Diffusion schafft es, ein Trainingsfoto einigermaßen präzise zu reproduzieren. (Quelle: https://t.co/LQuTtAskJ9)

So etwas ist aus mehr als einem Grund unerwünscht. Konflikte mit dem Urheberrecht sind dabei nur ein Aspekt, denn solche Reproduktionen gelten bei KI-Systemen ganz generell als Mangel. Wenn man ein großes neuronales Netz mit einem kleinen Trainingskorpus von vielleicht nur 1000 Paaren aus Eingaben und den dazu gewünschten Ausgaben füttert, wird es dieses Trainingsmaterial einfach auswendig lernen. Es erkennt dann zuverlässig jedes der 1000 Beispiele und produziert dazu die vorgegebenen Ergebnisse. Dass es tatsächlich überhaupt nicht verallgemeinert und gar nichts Nützliches gelernt hat, zeigt sich erst, wenn es bei Eingaben ganz ähnlicher Art, die jedoch im Trainingskorpus nicht vorkamen, völlig versagt. Nur indem man die Größe des neuronalen Netzes an seine Aufgabe anpasst, erzwingt man mit dem Training eine Generalisierungsleistung – ist es zu groß, lernt es die Beispiele bloß auswendig, und ist es zu klein, kann die geforderte Generalisierungsleistung nicht erbracht werden.

Systeme wie Stable Diffusion sind natürlich gut an ihre Aufgabe angepasst, aber in seltenen Einzelfällen können sie sich immer noch durch Auswendiglernen aus der Affäre ziehen. Das zeigt dann an, dass sie an dieser Stelle nicht verallgemeinern konnten, hier also eine Schwäche haben. Der Ärger mit den Urheberrechtsinhabern kommt dann lediglich noch erschwerend hinzu.