BlogKI

KI ohne Gedächtnis

Bei aller künstlichen Intelligenz: KI-Systemen auf der Basis neuronaler Netze fehlt bislang etwas ganz Entscheidendes – ein Gedächtnis. Da eine Intelligenz ohne Gedächtnis aber nicht viel wert wäre, müssen sie sich mit Tricks behelfen.

In Winterschläfer (1997), einem frühen Film Tom Tykwers, zeigt dessen Hauptfigur René die seltsame Angewohnheit, sein ganzes Alltagsleben zu fotografieren – Winterschläfer stammt aus der Zeit vor der Erfindung der Smartphones, seit der so etwas ja ganz normal scheint. Abends vor dem Schlafengehen geht René in die Dunkelkammer, entwickelt den am Tag belichteten Film und schaut sich die Bilder an. Erst im weiteren Verlauf der Geschichte erfährt man, warum: Er hat nach einem Unfall einen Hirnschaden zurückbehalten, aufgrund dessen die Inhalte seines Kurzzeitgedächtnisses nicht in das Langzeitgedächtnis übernommen werden. Er braucht die Fotos, damit er am Ende des Tages noch weiß, was er in den Stunden zuvor erlebt und getan hat. Eine solche Verlagerung des Gedächtnisses in ein externes Archiv nutzen auch KI-Systeme, um den Makel zu überspielen, sich nicht erinnern zu können, was sie eben erst getan haben.

Die heute üblicherweise eingesetzten Deep Neural Networks bestehen aus mehreren Schichten künstlicher Neuronen und sind in diesem Sinne „tief“, aber ihre Arbeitsweise ist im Grundsatz simpel. Um die KI zu starten, werden Zahlenwerte eingegeben und in den Schichten des neuronalen Netzes auf eine komplexe Weise miteinander verrechnet, bis in der letzten Schicht die Ausgabewerte erscheinen. Danach ist die Berechnung beendet und das Netzwerk bereit für neue Aufgaben. Es funktioniert wie Kaffeekochen: Oben kommen gemahlener Kaffee und heißes Wasser hinein und unten tropft der Kaffee heraus.

Nach jeder solchen Berechnung befindet sich das neuronale Netzwerk wieder in seinem Ausgangszustand; es hat kein Gedächtnis und merkt sich weder die Berechnung noch ihr Ergebnis. Das gilt für bildgenerierende Diffusionsverfahren ebenso wie für große Sprachmodelle wie ChatGPT und Gemini. Wenn einem das Produkt einer generativen KI gefällt und man mehr Bilder dieser Art will, muss man das Bild selbst als Vorgabe einspeisen, denn die KI weiß bereits nicht mehr, was sie eben getan hat.

Bei großen Sprachmodellen ist das ein Problem: Sie erzeugen in jedem Durchlauf von Daten durch das Netz nur jeweils ein Wort (genauer gesagt ein Token, das auch ein bloßer Wortbestandteil sein kann). Wenn eine Reihe in mehreren Durchläufen erzeugter Wörter einen Sinn oder auch nur einen grammatischen Satz ergeben soll, ist ein Gedächtnis jedoch unabdingbar. Die KI muss wissen, wie sie den Satz begonnen hat, damit sie ihn sinnvoll fortsetzen kann, und da man der KI ja Fragen stellen will, muss sie auch diese im Gedächtnis behalten, um eine dazu passende Antwort zu finden.

Weil das neuronale Netz als solches über kein Gedächtnis verfügt, wird dieses ausgelagert. So wie René in Tykwers Winterschläfer seine Fotos betrachtet, weil er sich nicht an die Ereignisse von gestern erinnert, verbindet man Output und Input des Netzes und speist neben den Benutzereingaben auch den Output der KI als Input ein. Das heißt, man muss der KI immer wieder sagen, welche Ausgaben sie bis zu diesem Zeitpunkt geliefert hat. Zu einer Frage des Benutzers findet die KI dann das erste Wort der Antwort und setzt diese in jedem weiteren Durchlauf mit einem weiteren Wort fort, bis ein Ende-Token erreicht ist. Die Länge der Texte, die als Eingabe akzeptiert werden, ist in den letzten Jahren immer weiter heraufgesetzt worden, so dass oft ein gesamter Chatverlauf als Eingabe dient, aus der die KI jeweils ein einziges neues Wort generiert.

Von einer der menschlichen Intelligenz ebenbürtigen Leistung sind solche Systeme noch weit entfernt. Menschen (und auch viele Tiere) verfügen über ein komplex strukturiertes Gedächtnis, das für einen großen Teil ihrer Intelligenz verantwortlich ist. Die Inhalte des Kurzzeitgedächtnisses, die für alles wichtig sind, das man gerade tut, übernimmt das Gehirn in kondensierter Form in das Langzeitgedächtnis, wobei über den Moment hinaus irrelevante Details weggelassen werden.

Das Langzeitgedächtnis wiederum ist seinerseits komplex strukturiert. Im prozeduralen Gedächtnis sind motorische Fähigkeiten wie Laufen und Fahrradfahren gespeichert, die wir, nachdem wir sie in der Kindheit erworben haben, ohne nachzudenken beherrschen, aber höchstens ansatzweise verbalisieren können. Das semantische Gedächtnis umfasst Faktenwissen, während das episodische Gedächtnis Ereignisse unseres Lebens enthält, als grobe Unterteilung in Lebensphasen wie die Schulzeit oder die erste Liebe wie auch als Erinnerung an einzelne Ereignisse wie die Einschulung oder den ersten Kuss. Spezielle place cells (eigentlich Gruppen von Neuronen statt einzelne Zellen) stehen für bestimmte Orte und werden aktiviert, wenn wir uns am jeweiligen Ort befinden oder an ihn denken – das gilt übrigens auch für fiktive Orte wie Mordor oder Tatooine. Daneben gibt es diverse andere spezialisierte Gedächtnisbereiche wie ein Gedächtnis für Gesichter – wenn dieses gestört ist, ist man gesichtsblind und erkennt selbst Freunde und Bekannte nicht, obwohl die visuelle Wahrnehmung ansonsten nicht beeinträchtigt ist. Alle diese Komponenten des Gedächtnisses sind auf vielfältige Weise miteinander verknüpft, so dass die Aktivierung eines Gedächtnisinhalts auch zur Aktivierung anderer Erinnerungen führt.

Es ist letztendlich unser Gedächtnis, das uns als Person ausmacht, und wenn wir es durch eine Form der Demenz verlieren, leidet darunter auch unsere Persönlichkeit und Identität. Aktuelle KI-Systeme verfügen über nichts dergleichen, und so bleiben sie weit von einer menschlichen Intelligenz entfernt. Sie kommen ihr nicht näher als die Wikipedia, trotz des immensen enzyklopädischen Wissens, das diese enthält.


Im DOCMAshop finden Sie alle Infos zum aktuellen Heft: Das ausführliche Inhaltsverzeichnis, einige Seiten als Kostprobe sowie alle Möglichkeiten, das gedruckte Heft zu abonnieren. Erfahren Sie dort auch mehr über unsere preiswerten Online-Abos – jetzt ab 3,99 € pro Monat.

Zeig mehr

Michael J. Hußmann

Michael J. Hußmann gilt als führender Experte für die Technik von Kameras und Objektiven im deutschsprachigen Raum. Er hat Informatik und Linguistik studiert und für einige Jahre als Wissenschaftler im Bereich der Künstlichen Intelligenz gearbeitet.

Ähnliche Artikel

2 Kommentare

  1. Lieber Michael,
    du hast in deinem Blogbeitrag einige wichtige Punkte zur Diskussion über die aktuellen Grenzen von KI-Systemen auf Basis neuronaler Netze angesprochen. Deine Ausführungen zum Fehlen eines integrierten Gedächtnisses und den verwendeten Umgehungstricks sind durchaus zutreffend – sofern sie die Webschnittstellen von chatGPT, Gemini, Claude … betreffen und die Bilder generierenden Systeme sowieso.

    Allerdings gibt es in den letzten Jahren auch bemerkenswerte Fortschritte in der KI-Forschung, die eine differenziertere Betrachtung des Themas erfordern. Zahlreiche Arbeiten beschäftigen sich gezielt mit Möglichkeiten, leistungsfähigere Gedächtnis- und Wissensrepräsentationssysteme für KI zu schaffen und diese im Zusammenhang mit den Programmierschnittstellen der Sprachmodelle zu verwenden.

    Embedding-Modelle erlauben es beispielsweise, Wissensinhalte als dichte Vektoren zu kodieren und effizient in Datenbanken zu speichern. Derartige Vektordatenbanken ermöglichen dann eine assoziative Suche nach relevanten Inhalten zu einer Benutzeranfrage, ähnlich den Prozessen im menschlichen Gedächtnis. Noch besser lassen sich Wissensgraphen mit Verknüpfungen zwischen Konzepten und Entitäten für strukturierte Repräsentationen nutzen.

    Ich arbeite gerade an einem System, das die Vorzüge von Embedding-Vektoren, Graphendatenbanken und assoziativen Verknüpfungen kombinieren soll. Relevante Informationen zu einer Benutzeräußerung können so schnell gefunden und in den Kontext des großen Sprachmodells eingespeist werden, um informiertere und fundiertere Antworten zu generieren. Das System soll sich so auch an Informationen erinnern können, über die vor Monaten mal gesprochen wurde. Aber auch das Thema „Vergessen“ ist wichtig, da der Gesprächskontext (analog zum Arbeitsgedächtnis) immer von Äußerungen gereinigt werden muss, die mit dem aktuellen Thema nichts zu tun haben.

    Natürlich stellen elaborierte Formen des Gedächtnisses, wie das menschliche Gehirn sie ausbildet, nach wie vor eine enorme Herausforderung für die KI-Forschung dar. Aber die Behauptung, KI-Systeme hätten „nichts dergleichen“, greift heute zu kurz.

    Mit freundlichen Grüßen
    Peter Winkler

    1. In der Tat: Hier geht es nicht um eine prinzipielle Beschränkung von KI-Systemen auf Basis neuronaler Netze. Meine Darstellung bezieht sich auf die aktuell gängigen Architekturen solcher Systeme.

Schreiben Sie einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Back to top button