Blog

KI in der Bildbearbeitung: Wirklich intelligent?

Immer mehr Aufgaben in der Bildbearbeitung, für die bislang menschliche Intelligenz nötig schien, können heutzutage von künstlicher Intelligenz übernommen werden – oder jedenfalls wird das behauptet: KI in der Bildbearbeitung. Wie intelligent sind die dazu meist eingesetzten neuronalen Netze wirklich?

Die Idee, intelligentes Verhalten mit sogenannten neuronalen Netzen zu simulieren, deren Aufbau durch das Nervensystem des Menschen (und vieler Tierarten) inspiriert ist, geht schon eine lange Zeit zurück. Vor rund 30 Jahren bahnte sich im wissenschaftlichen Fachgebiet der Künstlichen Intelligenz ein Paradigmenwechsel an. Neben die symbolische KI, die Wissen durch symbolische Ausdrücke zu repräsentieren versuchte, die sich nach bestimmten Regeln umformen ließen und logische Schlussfolgerungen erlaubten, trat als Konkurrent der Konnektionismus. Dessen Vertreter arbeiteten stattdessen mit Netzwerken sehr simpler, universell verwendbarer Elemente, die sich ähnlich wie Nervenzellen verhalten. Die künstlichen Neuronen können sich in ihrer Aktivierung gegenseitig verstärken oder abschwächen und allein damit recht komplexe Aufgaben der Informationsverarbeitung ausführen.

Neuronale Netze werden typischerweise nicht „programmiert“, also von ihrem Entwickler gezielt auf eine bestimmte Art verschaltet; vielmehr werden sie trainiert und erwerben ihre Fähigkeiten in einem Lernprozess. Man geht von einer weitgehend zufälligen Verschaltung mit zufälligen Gewichtungen der Verbindungen zwischen den Neuronen aus und lässt das neuronale Netz dann eine Serie typischer Inputs verarbeiten, für die der gewünschte Output bekannt ist. Aus der Abweichung zwischen tatsächlichem und erwünschtem Output ergibt sich ein Fehlerwert, der genutzt wird, um die Verschaltungen so abzuändern, dass sich ihr Output dem vorgegebenen Soll schrittweise annähert.

Wenn neuronale Netze zu komplex werden, wird es allerdings immer schwieriger, sie das gewünschte Verhalten erlernen zu lassen, weshalb man heutzutage oft mehrere Netze kombiniert, die jeweils einzeln trainiert werden können. Ein Netz übernimmt dann eine Vorverarbeitung, auf der das nachgeschaltete Netz aufbaut.

Das Hauptproblem jeglicher Systeme, die ihre Fähigkeiten durch maschinelles Lernen erwerben, liegt darin, dass zunächst niemand weiß, mit welchen Methoden und nach welchen Kriterien sie zu ihrem Ergebnis kommen. Lernverfahren neigen dazu, Abkürzungen zu bevorzugen – oder sagen wir es direkter: zu mogeln. Chinesische Wissenschaftler meinten, einem neuronalen Netz beigebracht zu haben, die Physiognomie potentieller Straftäter von der gesetzestreuer Bürger zu unterscheiden. Die zum Training genutzten Verbrechergesichter stammten aus den Bilddatenbanken von Gefängnissen, und die Abgebildeten trugen sämtlich T-Shirts – die übliche Sträflingskleidung. Allein darauf reagierte das neuronale Netzwerk; die Gesichter selbst schaute es gar nicht an. Erst wenn man ein Netzwerk aufwendig analysiert, stellt man fest, was es wirklich gelernt hat.

Die Technologie neuronaler Netze entstammt der KI-Forschung und sie ist direkt vom menschlichen Nervensystem inspiriert. Heißt das aber auch, dass sie ein wirklich intelligentes Verhalten zeigt? Die klassische Definition von künstlicher Intelligenz lautet ja, dass sich Computersysteme in einer Weise verhalten, die beim Menschen Intelligenz voraussetzt. Charakteristische Unterschiede zwischen menschlicher und künstlicher Intelligenz lassen sich anhand des Kolorierungsverfahrens für Schwarzweißbilder zeigen, das Doc Baumann vor wenigen Tagen vorgestellt hat. Nehmen wir diesen Versuch, das Schwarzweißfoto eines Leuchtturms realistisch einzufärben – links zeigt ein Farbfoto die realen Farben, rechts sehen wir die Kolorierung durch das neuronale Netz:

KI in der Bildbearbeitung
Dem Ergebnis ist anzusehen, dass das neuronale Netz hier ratlos war; es hat lediglich mittelgraue Zonen, in den roten wie auch den weißen Teilen des Leuchtturms, zaghaft rötlich eingefärbt. Kein Mensch wäre so vorgegangen – aber warum?

Wir verfügen über eine Fülle an Weltwissen auf verschiedenen Ebenen, auf das wir bei einer solchen Aufgabe zurückgreifen können. Wir sind beispielsweise sehr gut darin, aus den Körperschatten abzuleiten, welche dreidimensionale Form ein Gegenstand hat, und allein auf dieser Basis würden wir als plausibel annehmen, dass der Leuchtturm die Form eines Kegelstumpfs hat. Wir würden weiterhin feststellen, dass der Schattenwurf ausreicht, um die auf der linken Seite dunkleren Tonwerte zu erklären; es spricht also alles dafür, dass die Streifen jeweils einheitlich lackiert sind. Dagegen gibt es keine natürliche Erklärung für den abrupten Helligkeitswechsel entlang der Vertikalen, weshalb wir davon ausgehen, dass der Kegelstumpf streifenweise unterschiedlich angemalt ist.

Darüber hinaus verfügen wir über ein noch spezifischeres Weltwissen, das uns das Motiv als Leuchtturm erkennen lässt, und dieses Weltwissen sagt uns auch, dass solche Leuchttürme meist rot und weiß gestreift sind. Damit haben wir alle nötigen Informationen, um das Bild realistisch zu kolorieren. Das neuronale Netz hingegen wertet nur Tonwerte aus; ihm fehlt jegliches Weltwissen, weshalb die Ergebnisse weitgehend Glückssache sind.

KI in der BildbearbeitungZwar können neuronale Netze durchaus überzeugendere Ergebnisse bringen, so zum Beispiel ein jüngst auf der Konferenz SIGGRAPH 2018 vorgestelltes Kolorierungsverfahren, das farbige Referenzbilder nutzt, um Schwarzweißbilder nach einem ähnlichen Muster einzufärben. Das links gezeigte Schwarzweißbild wird nach diesem Verfahren ganz unterschiedlich koloriert, je nachdem, was für ein Referenzbild vorgegeben wird. Hier sind einige Beispiele, in denen jeweils links das Referenzbild und rechts das kolorierte Ergebnis zu sehen ist:

KI in der Bildbearbeitung
KI in der Bildbearbeitung
KI in der Bildbearbeitung
Die Ergebnisse sind offenbar immer so gut, wie es das Referenzbild erlaubt, und wir können dem neuronalen Netz auf die Sprünge helfen, indem wir ihm eine passende Referenz vorgeben. Eigenes Weltwissen hat es damit aber nicht gewonnen.

Es ist ein generelles Problem aller auf maschinellem Lernen basierenden KI-Verfahren, dass sie trainiert wurden, ein einziges, isoliertes Problem zu lösen, ohne darüber hinausgehendes Wissen zu berücksichtigen. Als hochspezialisierte Fachidioten können solche Verfahren teilweise der menschlichen Intelligenz überlegen sein, aber bisweilen versagen sie auch in einer eklatanten Weise, wie man sie von Menschen nicht kennt. Das kann nicht verwundern, denn das Entwicklungsziel war ja eben eine isolierte Fähigkeit, und nicht etwa eine allgemeine Intelligenz.

Das heißt nun aber nicht, dass man eine wirklich, wenn auch nur künstlich intelligente Bildbearbeitung verwirklichen könnte, wenn man sich nur mehr an der menschlichen Intelligenz orientierte. Unser Gehirn ist zwar sehr gut darin, visuelle Informationen in Sekundenbruchteilen auszuwerten und uns damit einen Eindruck von unserer Umwelt zu vermitteln – ein Eindruck, der präzise genug ist, dass wir uns unfallfrei und zielgerichtet bewegen können. Bildbearbeitung ist dabei aber nur ein Randaspekt. Auch der visuelle Cortex unseres Gehirns betreibt Bildbearbeitung, aber Bilder sind nur ein Mittel zum Zweck, nämlich den, Objekte und Szenen zu erkennen. Nachdem wir den oben abgebildeten Leuchtturm gesehen haben, erinnern wir uns an einen typischen Leuchtturm mit roten und weißen Streifen (wissen Sie noch, wie viele rote und weiße Streifen es waren, ohne nach oben zu scrollen?), nicht an konkrete Bilder; vom Schattenwurf haben wir bereits abstrahiert.

KI in der Bildbearbeitung? Eine künstlich intelligente Bildbearbeitung dürfte nicht nur die Fähigkeiten simulieren, die jeder Mensch hat, so eindrucksvoll diese auch bereits sein mögen; sie müsste vielmehr das Wissen und die Fähigkeiten eines erfahrenen Bildbearbeiters nachbilden. Damit wären wir aber bei einem ganz anderen Teilgebiet der Künstlichen Intelligenz angelangt, nämlich den Expertensystemen, die in den 80er Jahren des vorigen Jahrhunderts ein Schwerpunkt dieser Fachrichtung waren. Die Expertensysteme gehörten allerdings zur symbolischen KI, also dem Ansatz, zu dem die neuronalen Netze den Kontrapunkt bildeten.

Schlagworte
Zeig mehr

Michael J. Hußmann

Michael J. Hußmann gilt als führender Experte für die Technik von Kameras und Objektiven im deutschsprachigen Raum. Er hat Informatik und Linguistik studiert und für einige Jahre als Wissenschaftler im Bereich der Künstlichen Intelligenz gearbeitet.

Ähnliche Artikel

Kommentar

  1. Zwei weiße und ein roter Streifen; ohne Nachschauen 😉
    Das Thema KI ist für mich eher mit Angst denn mit Bewunderung besetzt.
    Wenn ich mir überlege, was heute schon Algorythmen bei den Menschen anrichten möchte ich mir gar nicht ausmalen (aus nicht mit Photoshop) was falsch programmierete KI langfristig anrichten kann!
    Ich frage mich auch, warum wir Menschen so scharf darauf sind uns selbst entbehrlich zu machen.

Schreibe einen Kommentar

Das könnte Dich interessieren

Close
Close