BlogKI

Andreas Müller-Pohle: Künstlich intelligente Bilderwelt

Andreas Müller-Pohle: Künstlich intelligente Bilderwelt

Die größte Transformation unserer Zeit ist die von der natürlichen zur künstlichen Intelligenz – ein epochaler Vorgang, in dessen Zentrum ein ebenso altvertrautes wie vertrauenswürdiges Medium steht: die Fotografie.

Es war eine drastische Warnung, mit der das Center for AI Safety, eine gemeinnützige Forschungseinrichtung mit Sitz in San Francisco, die Öffentlichkeit aufschreckte: Der Gefahr der „Auslöschung durch künstliche Intelligenz“ müsse weltweit die gleiche Priorität eingeräumt werden wie Pandemien oder einem Atomkrieg. Hunderte renommierte Fachleute schlossen sich der Erklärung an, darunter Geoffrey Hinton, einer der Pioniere des Deep Learning, der kurz zuvor seine langjährige Zusammenarbeit mit Google beendet hatte, um fortan frei über die existentiellen Gefahren der künstlichen Intelligenz sprechen zu können. Das war im Mai 2023.

Mahner und Beschwichtiger

Hinton ist einer der profiliertesten Mahner vor den Bedrohungen einer Technologie, die im Gewand harmloser Text- und Bildschöpfungen daherkommt – und die doch das Zeug hat, so ziemlich alles auf den Kopf zu stellen, was unser abendländisches Wertesystem ausmacht. Man muss dazu gar nicht in die ferne Zukunft blicken. Es genügt, sich die Dynamik der Gegenwart vor Augen zu führen. Und die ist verwirrend genug. Hier stehen den Mahnern die Beschwichtiger gegenüber, die alles für einen Hype, eine vorübergehende Welle oder auch nur einen Rülpser der digitalen Revolution halten, die doch schon mehr als drei Jahrzehnte zurückliege und uns keine Angst mehr zu machen brauche.

Wieso sollten wir sie auch fürchten? Künstliche Intelligenz steckt schon jetzt in fast jedem Gerät, in jeder anspruchsvollen Softwareanwendung, sie ist aus kaum einem technologisch relevanten Bereich der Gesellschaft mehr wegzudenken. Ob in der medizinischen Diagnostik, in der Sprachverarbeitung oder in der Industrierobotik – sie hilft uns im Alltag wie im Arbeitsleben. Doch sie ist getarnt, wie ein Virus, das sich schleichend ausbreitet und nicht ruht, bis es den befallenen Körper vollständig unter Kontrolle hat.

Weltweites Aufsehen erregte Ende 2022 die Veröffentlichung von ChatGPT, einem Programm, das aus Myriaden vorhandener Trainingsdaten Sprache erzeugen kann – nicht im Sinne eines wie immer gearteten semantischen Verstehens, sondern rein formal und statistisch entlang gelernter syntaktischer Strukturen. Seither schießen künstlich intelligente Texte wie Pilze aus dem Boden, wobei Mail- oder Geschäftsanwendungen noch die am wenigsten interessanten sind. Schon werden Romane damit geschrieben oder Gedichte. Ja, sogar Theaterstücke.

Die Welt der Bilder war Monate zuvor von intelligenten Generatoren wie DALL-E 2, Midjourney und Stable Diffusion erschüttert worden, mit denen sich Bilder durch Texteingaben, so genannten Prompts, erzeugen lassen. Und auch Video- und Soundgeneratoren sind unterwegs, das Universum der Sinne zu erobern – Dutzende Programme und Tools – verblüffend und verstörend schon jetzt und doch erst in den ersten Stadien ihrer Entwicklung.

Dass die künstliche Intelligenz, deren Geschichte bis in die Mitte des vorigen Jahrhunderts zurückreicht, erst jetzt und mit aller Wucht über uns hereinbricht, hat vor allem mit drei Faktoren zu tun: der Verfügbarkeit gigantischer Datenmengen (Big Data) als Produkte der sozialen Medien, des Onlinehandels und anderer Bereiche; der rasanten Steigerung der Hardwareleistung, ermöglicht durch neue Grafikprozessoren und Speichertechnologien; und den Fortschritten im Bereich des maschinellen Lernens, insbesondere des Deep Learning.

Super-Black-Box

Es sind vor allem die Fortschritte der selbstlernenden Systeme, denen sich die derzeitige exponentielle Entwicklung der künst­lichen Intelligenz verdankt, Systeme, die ihre Leistung aufgrund ihrer Erfahrungen ständig verbessern können und sich dadurch selbst beschleunigen, mit unabsehbaren Folgen für die Beherrschbarkeit der in Gang gesetzten Prozesse.

Die schier grenzenlose Komplexität neuronaler Netze und das eskalierende Tempo der sie antreibenden Forschung machen die künstliche Intelligenz zu einer Black Box neuer Qualität. Schon ihr Prototyp, der Fotoapparat, war eine nur mit technologischem Wissen verständliche Camera obscura. Der Computer, die nächste Stufe, verdunkelte sein Inneres im Schatten von Codes, die allein von ihren Programmierern, dieser neuen Klasse von Literaten und Schriftgelehrten, beherrscht wurde. Und die künstliche Intelligenz? Sie funktioniert, doch selbst ihre Schöpfer verstehen nicht mehr gänzlich, wie und warum: eine Super-Black-Box.

In vielen Bereichen spielt dies keine Rolle, in anderen eine existentielle, etwa beim autonomen Fahren. Entscheidungen über Leben und Tod, im Dunkel einer Black Box getroffen – diese Vorstellung erfüllt uns zu Recht mit Grausen. Und hier liegt auch die ethische Crux der künstlichen Intelligenz: Ohne die Durchdringung ihrer Prozesse, ohne ihre Planbarkeit und Nachvollziehbarkeit, ist an wirksame Regeln und Gesetze zu unserem Schutz nicht zu denken.

Solche Regeln und Gesetze werden in der Fotografie, der angewandten Fotografie im Besonderen, heftig diskutiert und stehen paradigmatisch für eine Vielzahl von Berufsgruppen, denen durch die neuen Potentiale der künstlichen Intelligenz der Boden unter den Füßen weggezogen wird. Im Fadenkreuz steht ein Berufsstand, dessen Kompetenz, das Herstellen von Kamerabildern, in vielen Anwendungsbereichen absehbar nicht mehr benötigt wird und dessen Kapital, das Bild- und Autorenrecht, in Windeseile zerrinnt.

Simulierte Fotografie

Zwei Bildwelten stehen sich gegenüber: auf der einen Seite die Fotografie mittels Kamera, auf der anderen die Bilderzeugung mittels Computer, hier das Lichtbild, dort das Datenbild. Es sind zwei höchst ungleiche Geschwister. Denn jene Daten, die nun von den Algorithmen der künstlichen Intelligenz gefressen und verdaut werden, sind die bis heute geschätzten über 12 Billionen Fotos (sowie alle sonstigen Arten von Bildern), die sich im Speicher der Geschichte angesammelt haben und dort als sedimentierte Datenmasse zur Verfügung stehen.

So anders ist das neue, künstlich intelligente Bild, dass wir es nicht mehr „Fotografie“ nennen können. Die Fotografie, wie wir sie kennen, ob analog oder digital, ob mit der Kamera oder dem Smartphone aufgenommen, ist das Produkt eines festgehaltenen Lichtereignisses, ein optischer Abdruck der äußeren Welt, basierend auf der Sinneswahrnehmung eines menschlichen Akteurs und seiner direkten, primären, authentischen Beziehung zu ihr. Fotografien sind zweidimensionale Ausschnitte aus einer vierdimensionalen Raumzeit; sie sind per se analytisch.

Demgegenüber ist das künstlich intelligente Bild das Produkt neuronaler Algorithmen und statistisch prozessierter Daten. Seine Beziehung zur äußeren Welt ist indirekt, sekundär, abgeleitet. Es kann Fotografie simulieren, aber nicht verkörpern: ein Bild basierend auf mentalen Eingaben eines menschlichen Akteurs und seiner inszenierten Beziehung zur Welt. Künstlich intelligente Bilder sind zweidimensionale Montagen aus Daten anderer zweidimensionaler Flächen; sie sind per se synthetisch.

Noch ist ein neues Vokabular nicht etabliert. Der Fotografie Merkmale wie intelligent, generiert oder algorithmisch hinzuzufügen, führt in die Sackgasse, denn auch ein richtiges Attribut kann ein falsches Substantiv nicht retten. „Synthografie“ und „Promptografie“ wurden als Alternativen vorgeschlagen – warten wir ab, welche sich letztlich durchsetzen wird.

Mit dem Übergang vom Lichtbild zum Datenbild geht die Abschaffung des Autors, der Autorin einher – wieder einmal, und diesmal endgültig. Denn wenn jedes neue Bild ein Kompositum aus bereits existierenden Bildwerken ist, wird jeder ihrer Schöpfer zum potentiellen Autor – wenn auch nur infinitesimal, wenn auch homöopathisch verdünnt wie ein Tropfen Blut im Ozean.

Weiterlesen oder die Ausgabe kaufen

Zeig mehr

Ähnliche Artikel

5 Kommentare

  1. Na ja, wenn man außer acht lässt, dass es so was wie digitale Bildbearbeitung oder 3D-generierte Bilder gibt, und die schon seit Jahrzehnten dafür sorgen, dass das Vertrauen in die fotografische Wiedergabe der sichtbaren Realität längst den Bach runtergegangen ist, kann man das so schreiben. Die neue Qualität ist doch nicht die mögliche Verzerrung dieser Wiedergabe der Welt, sondern dass es jetzt einfacher, schneller und auch von Laien (re)produzierbar möglich geworden ist – also eine Art „Demokratisierung der Manipulation“ (auf die wir natürlich gern verzichtet hätten, aber das haben Werkzeuge nun mal so an sich, dass sie leider auch missbraucht werden können).

    1. Ich sprach von der künstlichen Intelligenz als einer „Black Box neuer Qualität“, einer Super-Black-Box, bei der selbst deren Schöpfer nicht mehr gänzlich verstehen, wie die in ihr ablaufenden Prozesse funktionieren. Von einer „Verzerrung“ war nicht die Rede und auch nicht von „Manipulation“ – zwei im Zusammenhang mit KI-generierten Bildern ohnehin ungeeignete und irreführende Begriffe.

  2. „Es sind vor allem die Fortschritte der selbstlernenden Systeme“

    Aktuelle KI-Systeme sind nicht selbstlernend. Die Lernverfahren sind extern und kein Teil des ausgelieferten KI-Systems.

    „Systeme, die ihre Leistung aufgrund ihrer Erfahrungen ständig verbessern können und sich dadurch selbst beschleunigen.“

    KI-Systeme, wie wir sie kennen, lernen im Einsatz nichts hinzu und werden dabei weder besser noch schneller.

    „Die schier grenzenlose Komplexität neuronaler Netze und das eskalierende Tempo der sie antreibenden Forschung machen die künstliche Intelligenz zu einer Black Box neuer Qualität. Schon ihr Prototyp, der Fotoapparat, war eine nur mit technologischem Wissen verständliche Camera obscura.“

    Der Fotoapparat als Prototyp einer bildgenerierenden KI? Meint der Autor das ernst, wenn er doch wenige Absätze später die fundamentalen Unterschiede zwischen der fotografischen Abbildung und der Bildgenerierung durch ein neuronales Netz betont? Und dann schlägt die Metaphorik Purzelbäume: Der Fotoapparat sei eine unverständliche Camera obscura? Die Camera obscura war ein Vorläufer des Fotoapparats; sie erzeugte bereits Bilder auf optischem Wege, konnte sie aber noch nicht dauerhaft festhalten. Dunkel, also „obskur“, ist sie nur, weil man die erzeugten Bilder besser erkennt, wenn man das Umgebungslicht abschirmt.

    „Der Computer, die nächste Stufe, verdunkelte sein Inneres im Schatten von Codes, die allein von ihren Programmierern, dieser neuen Klasse von Literaten und Schriftgelehrten, beherrscht wurde.“

    Weitere Purzelbäume der Metaphorik … Der Computer als nächster Stufe zwischen Fotoapparat und generativer KI? „Im Schatten von Codes“ – ernsthaft? Aber OK, dass der Autor nichts davon versteht, macht er so immerhin deutlich.

    „Und die künstliche Intelligenz? Sie funktioniert, doch selbst ihre Schöpfer verstehen nicht mehr gänzlich, wie und warum: eine Super-Black-Box. In vielen Bereichen spielt dies keine Rolle, in anderen eine existentielle, etwa beim autonomen Fahren. Entscheidungen über Leben und Tod, im Dunkel einer Black Box getroffen – diese Vorstellung erfüllt uns zu Recht mit Grausen.“

    Dass selbst die KI-Entwickler zunächst nicht wissen, wie ihre neuronalen Netze tun, was sie tun, ist so weit richtig. Sie können es herauszufinden versuchen, was nicht einfach ist. Aber wenn wir einem anderen Menschen gegenüber stehen, in den wir ja auch nicht hineinschauen können, sind wir in einer vergleichbaren Situation. Soll ich mich einem wildfremden Taxifahrer anvertrauen, über dessen Fahrkünste ich nichts weiß? Bei einem KI-System weiß ich immerhin, dass es in Tausenden oder Millionen exakter Kopien im Einsatz ist, und wenn sich diese bislang bewährt haben, kann ich mich einigermaßen sicher fühlen. Taxifahrer dagegen sind Individuen; jeder verhält sich anders und ist heute vielleicht anders drauf als gestern.

    „So anders ist das neue, künstlich intelligente Bild, dass wir es nicht mehr „Fotografie“ nennen können.“

    Korrekt, aber auch eine Trivialität.

    „Fotografien sind zweidimensionale Ausschnitte aus einer vierdimensionalen Raumzeit“

    Eigentlich keine Ausschnitte, sondern Abbildungen, aber egal …

    „Demgegenüber ist das künstlich intelligente Bild das Produkt neuronaler Algorithmen und statistisch prozessierter Daten. Seine Beziehung zur äußeren Welt ist indirekt, sekundär, abgeleitet.“

    Was ganz ähnlich auch für die bildende Kunst gilt, denn ein Gemälde oder eine Grafik ist ja keine fotografische Abbildung der Welt – keine direkte Abbildung und oft überhaupt keine Abbildung der wirklichen Welt.

    „Künstlich intelligente Bilder sind zweidimensionale Montagen aus Daten anderer zweidimensionaler Flächen“

    KI-generierte Bilder sind keine Montagen (wie es sie schon seit langer Zeit und nicht erst seit Photoshop gibt), und sie enthalten keine existierenden Bilder (mit denen das KI-System trainiert worden ist) als Bestandteile. Wie das Training und die Bildgenerierung tatsächlich funktionieren, habe ich in „Wo kommen die Bilder her?“ (DOCMA 107, ab Seite 68) erklärt.

    „Denn wenn jedes neue Bild ein Kompositum aus bereits existierenden Bildwerken ist, wird jeder ihrer Schöpfer zum potentiellen Autor“

    KI-Bilder sind zwar, wie erwähnt, nicht aus im Training verwendeten Bildern zusammengesetzt und daher keine echten Komposita, aber sie sind tatsächlich nicht ohne die Bildschöpfungen denkbar, die ihnen vorangegangen sind. Was aber ganz genauso für Fotos und für Werke der bildenden Kunst gilt.

    1. Konstruktive Debatten leben von Ideen und Argumenten. Hier liegt das Gegenteil vor – ein Sammelsurium sinnlos aneinandergereihter Zitatfetzen bar jedes theoretischen Interesses. Wie soll man darauf antworten? Vielleicht mit ein paar Richtigstellungen:

      >> „Es sind vor allem die Fortschritte der selbstlernenden Systeme“ / „Aktuelle KI-Systeme sind nicht selbstlernend. Die Lernverfahren sind extern und kein Teil des ausgelieferten KI-Systems.“

      Autonome KI-Systeme sind durchaus in der Lage, selbständig aus ihren Daten zu lernen, ihre Lernalgorithmen anzupassen und ihre Leistung iterativ zu verbessern. Das Konzept der „selbstlernenden Systeme“ ist eines der richtungsweisendsten in der aktuellen KI-Forschung.

      >> „Systeme, die ihre Leistung aufgrund ihrer Erfahrungen ständig verbessern können und sich dadurch selbst beschleunigen.“ / „KI-Systeme, wie wir sie kennen, lernen im Einsatz nichts hinzu und werden dabei weder besser noch schneller.“

      Autonome Autos sind eines von zahlreichen Beispielen, die das Gegenteil beweisen.

      >> „Die schier grenzenlose Komplexität neuronaler Netze und das eskalierende Tempo der sie antreibenden Forschung machen die künstliche Intelligenz zu einer Black Box neuer Qualität. Schon ihr Prototyp, der Fotoapparat, war eine nur mit technologischem Wissen verständliche Camera obscura.“ / „Der Fotoapparat als Prototyp einer bildgenerierenden KI? Meint der Autor das ernst, wenn er doch wenige Absätze später die fundamentalen Unterschiede zwischen der fotografischen Abbildung und der Bildgenerierung durch ein neuronales Netz betont? Und dann schlägt die Metaphorik Purzelbäume: Der Fotoapparat sei eine unverständliche Camera obscura? Die Camera obscura war ein Vorläufer des Fotoapparats; sie erzeugte bereits Bilder auf optischem Wege, konnte sie aber noch nicht dauerhaft festhalten. Dunkel, also „obskur“, ist sie nur, weil man die erzeugten Bilder besser erkennt, wenn man das Umgebungslicht abschirmt.“

      Was ist daran so schwer zu verstehen: Der Fotoapparat ist der Prototyp einer Black Box. Und die künstliche Intelligenz ist eine Black Box neuer Qualität, eine Super-Black-Box.

      >> „Der Computer, die nächste Stufe, verdunkelte sein Inneres im Schatten von Codes, die allein von ihren Programmierern, dieser neuen Klasse von Literaten und Schriftgelehrten, beherrscht wurde.“ / „Weitere Purzelbäume der Metaphorik … Der Computer als nächster Stufe zwischen Fotoapparat und generativer KI? „Im Schatten von Codes“ – ernsthaft? Aber OK, dass der Autor nichts davon versteht, macht er so immerhin deutlich.“

      Die Stufen der Argumentation sind: Camera Obscura – Fotoapparat – Computer – Systeme der künstlichen Intelligenz. Das Kompliment gebe ich gerne zurück.

      >> „Und die künstliche Intelligenz? Sie funktioniert, doch selbst ihre Schöpfer verstehen nicht mehr gänzlich, wie und warum: eine Super-Black-Box. In vielen Bereichen spielt dies keine Rolle, in anderen eine existentielle, etwa beim autonomen Fahren. Entscheidungen über Leben und Tod, im Dunkel einer Black Box getroffen – diese Vorstellung erfüllt uns zu Recht mit Grausen.“ / „Dass selbst die KI-Entwickler zunächst nicht wissen, wie ihre neuronalen Netze tun, was sie tun, ist so weit richtig. Sie können es herauszufinden versuchen, was nicht einfach ist. Aber wenn wir einem anderen Menschen gegenüber stehen, in den wir ja auch nicht hineinschauen können, sind wir in einer vergleichbaren Situation. Soll ich mich einem wildfremden Taxifahrer anvertrauen, über dessen Fahrkünste ich nichts weiß? Bei einem KI-System weiß ich immerhin, dass es in Tausenden oder Millionen exakter Kopien im Einsatz ist, und wenn sich diese bislang bewährt haben, kann ich mich einigermaßen sicher fühlen. Taxifahrer dagegen sind Individuen; jeder verhält sich anders und ist heute vielleicht anders drauf als gestern.“

      Ein amüsanter Vergleich, doch ist der Taxifahrer ein eher unpassendes Beispiel für eine Black Box, es sei denn, er ist mit einem autonom fahrenden Auto unterwegs.

      >> „So anders ist das neue, künstlich intelligente Bild, dass wir es nicht mehr „Fotografie“ nennen können.“ / „Korrekt, aber auch eine Trivialität.“

      Wer die gegenwärtige Fotodebatte nicht kennt, mag es für trivial halten.

      >> „Fotografien sind zweidimensionale Ausschnitte aus einer vierdimensionalen Raumzeit“ / „Eigentlich keine Ausschnitte, sondern Abbildungen, aber egal …“

      Fotografien sind immer Ausschnitte aus der Raumzeit, eigentlich und uneigentlich. Dass sie auch Abbildungen sind, ändert daran nichts.

      >> „Demgegenüber ist das künstlich intelligente Bild das Produkt neuronaler Algorithmen und statistisch prozessierter Daten. Seine Beziehung zur äußeren Welt ist indirekt, sekundär, abgeleitet.“ / „Was ganz ähnlich auch für die bildende Kunst gilt, denn ein Gemälde oder eine Grafik ist ja keine fotografische Abbildung der Welt – keine direkte Abbildung und oft überhaupt keine Abbildung der wirklichen Welt.“

      Ein Gemälde ist keine Fotografie und ein mit künstlicher Intelligenz generiertes Bild ebenfalls nicht. Natürlich kann man alles in einen Topf werfen, dann bekommt man Eintopf. Für ein Menü braucht es schon etwas Differenzierung.

      >> „Künstlich intelligente Bilder sind zweidimensionale Montagen aus Daten anderer zweidimensionaler Flächen“ / „KI-generierte Bilder sind keine Montagen (wie es sie schon seit langer Zeit und nicht erst seit Photoshop gibt), und sie enthalten keine existierenden Bilder (mit denen das KI-System trainiert worden ist) als Bestandteile. Wie das Training und die Bildgenerierung tatsächlich funktionieren, habe ich in „Wo kommen die Bilder her?“ (DOCMA 107, ab Seite 68) erklärt.“

      KI-generierte Bilder entstehen aus Datenmustern anderer Bilder, daher der gemeinverständliche Begriff „Montage“. Dass diese existierende Bilder als „Bestandteile“ enthalten, wird von mir nicht behauptet (wenngleich sie, je nachdem, womit ein Algorithmus trainiert wurde, durchaus auch Elemente von Bildern enthalten können).

      >> „Denn wenn jedes neue Bild ein Kompositum aus bereits existierenden Bildwerken ist, wird jeder ihrer Schöpfer zum potentiellen Autor“ / „KI-Bilder sind zwar, wie erwähnt, nicht aus im Training verwendeten Bildern zusammengesetzt und daher keine echten Komposita, aber sie sind tatsächlich nicht ohne die Bildschöpfungen denkbar, die ihnen vorangegangen sind. Was aber ganz genauso für Fotos und für Werke der bildenden Kunst gilt.“

      Sie sind, wie erwähnt, insofern Komposita, als sie aus Daten anderer Bilder gerechnet werden. Dass jedwede kreative Leistung nicht ohne vorangegangene kreative Leistungen entsteht, ist ein Gemeinplatz, steht aber auf einem anderen Blatt.

      Fazit: Mühsame Besserwisserei ohne Erkenntnisgewinn. Die wichtige Debatte über die medialen und gesellschaftlichen Zusammenhänge der künstlichen Intelligenz kommt so keinen Schritt weiter. Wer sich dafür interessiert, dem empfehle ich die in der nächsten Ausgabe von European Photography erscheinende Umfrage „Fotografie / Kunst / Künstliche Intelligenz: Szenarien für die Zukunft“ mit Lev Manovich, Fred Ritchin, Roland Meyer, Pamela Scorzin und anderen – Leuten, die nicht nur anspruchsvoll denken, sondern sich auch profund auskennen.

Schreiben Sie einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Back to top button