Blog

Sensorgeflüster: Ereignisse statt Bilder

Wenn man die aktuellen Entwicklungen in der Sensortechnologie verfolgt, stößt man nur selten auf Neuerungen, die klassische Bildsensoren betreffen, wie sie in unseren Kameras stecken. Ein großer Teil der Forschung gilt neuen Konzepten wie beispielsweise ereignisbasierten Sensoren, deren Arbeitsweise der unserer Augen näher kommt.

Als ich 1978 in Hamburg mein Studium der Informatik begann, gab es nur einen Arbeitsbereich, der sich bereits mit Künstlicher Intelligenz beschäftigte – oder, genauer gesagt, mit Computer Vision, also einer Nachbildung unseres Gesichtssinns, mit dem wir unsere Umgebung erkennen. Entsprechend dem damaligen Stand der Technik lieferte eine analoge Videokamera die dazu nötigen Daten, 50 Halbbilder pro Sekunde, die digitalisiert und zu 25 vollständigen Bildern pro Sekunde zusammengesetzt werden mussten, bevor die Bilder ausgewertet werden konnten. Die Kamera war auf die Straße vor dem Fachbereich Informatik gerichtet, und die selbstgestellte Aufgabe bestand darin, vorbeifahrende Autos zu identifizieren.

An dieser Methodik änderte sich zunächst wenig, außer dass späteren Wissenschaftlergenerationen digitale Videokameras mit höherer Auflösung und Bildqualität zur Verfügung standen. Das Konzept, Videobilder auszuwerten, erscheint vielleicht natürlich, weil uns die Technologie von Videokameras vertraut ist, aber mit der Art und Weise, wie wir selbst die Welt sehen und erkennen, hat sie wenig zu tun. Die Stäbchen- und Zapfenzellen unserer Netzhaut arbeiten nicht synchron, liefern ihre Signale also nicht alle gleichzeitig, im Takt einer festen Framerate ab. Ryad Benosman, Professor am Robotics Institute der Carnegie Mellon University, verglich herkömmliche Sensoren jüngst mit einer Burg, auf deren Mauern Wachtposten nach möglichen Angreifern Ausschau halten: Wann immer ein Trommler die Trommel schlägt, rufen alle, was sie gerade sehen. Die meisten haben aber gar nichts Relevantes entdeckt, und wenn einer von ihnen tatsächlich einen sich nähernden Feind erspäht hat, ist es schwer, dies im allgemeinen Gebrüll herauszuhören. Genauso verschwenden herkömmliche Kameras ihre Auflösung auf die Teile einer Szene, in denen überhaupt nichts passiert, während sie schnelle Bewegungen aufgrund ihrer festen Bildrate nur grob erfassen.

Sensorgeflüster: Ereignisse statt Bilder
Ein ereignisbasierter Sensor erfasst nur Veränderungen im Bild (rechts), diese aber mit einer hohen Frequenz. Aus Teilen der Szene, in denen sich nichts verändert, werden gar keine Daten geliefert. (Bild: Prophesee)

Unsere Augen arbeiten völlig anders. Wirklich scharf und fein aufgelöst sehen wir nur in einem sehr kleinen Bereich, so dass wir unsere Umgebung mit schnellen Augenbewegungen abtasten müssen, aber nicht etwa systematisch von links nach rechts und von oben nach unten; vielmehr gehen wir selektiv vor. Zonen, in denen sich nichts zu verändern scheint – was wir mit den Sinneszellen im größeren, weniger fein auflösenden Teil der Netzhaut erkennen können –, kontrollieren wir nur in größeren Abständen; stattdessen konzentrieren wir uns auf Bereiche, die entweder intrinsisch interessant sind oder in denen sich gerade etwas bewegt. Im Ergebnis erzeugen unsere Augen keine Bilder, sondern sie ermöglichen uns, Gegenstände zu erkennen. Und zwar Gegenstände, die für uns relevant sind, denn unser Gesichtssinn hat eine lange evolutionäre Geschichte, in der es vor allem darauf ankam, möglichst schnell Fressfeinde, Nahrung und mögliche Sexualpartner auszumachen.

Sensorgeflüster: Ereignisse statt Bilder
Ein herkömmlicher Sensor tastet den Hintergrund, in dem sich kaum etwas verändert, unnötig oft ab und erzeugt damit eine hohe Datenrate, während die Bewegung des Golfers im Vordergrund nur in wenige Phasen aufgelöst wird. (Illustration: Prophesee)

Ereignisbasierte Sensoren arbeiten prinzipiell ähnlich. Ihre Pixel werden nicht mit der Frequenz einer festen Framerate ausgelesen, sondern melden sich selbst, wenn sich etwas verändert – und zwar um so häufiger, je schneller die Veränderung ist. Damit reduziert sich die zu bewältigende Datenrate drastisch, und dennoch können schnelle Bewegungen räumlich wie zeitlich fein aufgelöst werden.

Sony hat nun zusammen mit der Firma Prophesee den ereignisbasierten Sensor IMX636ES entwickelt, der vor allem für industrielle Anwendungen gedacht ist. Für den Einsatz in der Fotografie oder für Videoaufnahmen eignet er sich naturgemäß nicht, zumal seine Auflösung mit 0,92 Megapixeln sehr niedrig ist. Das heißt nun aber nicht, dass der ereignisbasierte Ansatz in der Kameratechnik völlig uninteressant wäre. Aktuelle spiegellose Systemkameras nutzen den Sensor ja nicht nur für die eigentlichen Aufnahmen sowie die Erzeugung von Live-View-Sucherbildern zwischen den Aufnahmen, sondern versuchen auch, einmal fokussierte Motive zu erkennen und durch das Bildfeld zu verfolgen. Für diesen Zweck wäre ein ereignisbasierter Sensor exzellent geeignet. Vielleicht wird es in Zukunft möglich sein, die Sensorpixel flexibler zu nutzen, so dass alle oder eine Auswahl von ihnen in einem ereignisbasierten Modus betrieben werden, aber immer noch klassische Stand- und Videobilder ausgelesen werden können.


Das aktuelle DOCMA-Heft mit vielen Videos – jetzt auch als E-Paper oder als wöchentlicher Content-Letter verfügbar

Verschaffen Sie sich einen Eindruck von der neuen Ausgabe im DOCMAshop. Sie finden dort eine Auswahl von Seiten und das Inhaltsverzeichnis der DOCMA 101. Erfahren Sie auch mehr über unsere preiswerten Online- und Print-Abos – jetzt ab 3,99 € pro Monat.

Zeig mehr

Michael J. Hußmann

Michael J. Hußmann gilt als führender Experte für die Technik von Kameras und Objektiven im deutschsprachigen Raum. Er hat Informatik und Linguistik studiert und für einige Jahre als Wissenschaftler im Bereich der Künstlichen Intelligenz gearbeitet.

Ähnliche Artikel

Schreibe einen Kommentar

Das könnte Dich interessieren
Schließen
Schaltfläche "Zurück zum Anfang"