KISoftware

ChatGPT o3 als Geo-Detektiv: OpenAIs neue Modelle entschlüsseln den Aufnahmeort von Fotos

OpenAI sorgt mit mit spannenden Funktionen seiner neuen Modelle ChatGPT o3 und o4-mini einmal mehr für Gesprächsstoff. Neben verbesserten Denkprozessen („Reasoning“) integrieren diese Modelle nun visuelle Informationen tiefgreifender. Eine Fähigkeit sticht dabei besonders hervor und verbreitet sich aktuell rasant in Nutzerberichten: die verblüffend präzise Lokalisierung von Aufnahmeorten direkt aus dem Bildinhalt heraus. Was steckt technisch dahinter, und welche Implikationen ergeben sich für die professionelle Arbeit mit Bildern?

Die Nachricht, dass ChatGPT nun oft mit hoher Genauigkeit den Entstehungsort eines Fotos identifizieren kann, ging fast ein wenig in der Ankündigung der neuen Modellgenerationen o3 und o4-mini unter. Doch gerade diese Fähigkeit fasziniert und beunruhigt zugleich. Für Fotografen, Bildbearbeiter und alle, die sich intensiv mit visuellen Medien beschäftigen, ist das mehr als nur eine technische Spielerei. Es berührt Kernfragen der Bildanalyse, der Informationsgewinnung aus Pixeldaten und nicht zuletzt des Datenschutzes.

Visuelle Detektivarbeit im Detail

Entscheidend ist: Die KI greift dabei explizit nicht auf Metadaten wie EXIF-GPS-Tags zurück, die ohnehin oft fehlen oder entfernt wurden. Ebenso wenig sollen Informationen aus früheren Chats mit dem Nutzer herangezogen werden. Stattdessen fußt die Ortsbestimmung auf einer deutlich verfeinerten Bildanalyse durch die Modelle o3 und o4-mini. Frühere ChatGPT-Versionen konnten zwar auch schon Hinweise liefern, erreichten aber bei weitem nicht die aktuelle Präzision.

Die neuen Modelle zerlegen das Bild quasi in seine relevanten Bestandteile. Einzelne Bildausschnitte werden gezielt untersucht, Details vergrößert und selbst unscheinbare Elemente wie Beschriftungen auf Schildern, Plakaten oder Speisekarten analysiert und interpretiert. Die KI identifiziert charakteristische Architektur, Vegetation, Straßenschilder oder andere lokale Merkmale. Neu ist dabei vor allem die Fähigkeit, verschiedene Werkzeuge – die interne Wissensdatenbank, die Websuche und die Bildanalysefähigkeiten – autonom zu kombinieren, um den wahrscheinlichsten Aufnahmeort zu ermitteln. Bemerkenswert ist zudem, dass relevante Informationen, insbesondere Text, selbst aus qualitativ mäßigen oder unscharfen Vorlagen extrahiert werden können. Hier zeigt sich eine deutliche Verbesserung gegenüber früheren Ansätzen, die oft an mangelnder Bildqualität scheiterten.

Zwischen beeindruckender Präzision und Fehlinterpretation

Erste eigene Erfahrungsberichte zeichnen ein gemischtes Bild. In vielen Fällen liefert ChatGPT 03 tatsächlich erstaunlich genaue Ortsangaben, die weit über eine grobe regionale Zuordnung hinausgehen. Die KI kann mitunter Straßenkreuzungen oder spezifische Gebäude benennen. Gleichzeitig erlebt man aber aber klare (wenn auch sehr überzeugend dargebotene) Fehleinschätzungen. Insbesondere bei Innenaufnahmen oder Bildern mit wenigen eindeutigen geografischen Markern scheint die KI sehr anfällig für Verwechslungen zu sein, etwa wenn architektonische Stile oder Aufnahmestandorte falsch zugeordnet werden. Die Trefferquote ist also keineswegs perfekt und hängt stark vom Bildinhalt, der Bildschärfe und der Eindeutigkeit der sichtbaren Hinweise ab. Es bleibt abzuwarten, wie sich die Genauigkeit mit der Weiterentwicklung der Modelle und dem Training an umfangreicheren Datensätzen verbessert. Gemessen an den Fähigkeiten von ChatGPT4 ist der Entwicklungssprung allerdings enorm. Nicht unterschlagen sollte man jedoch auch, dass eine Bildrecherche mit ChatGPT o3 durchaus fünf Minuten und länger dauern kann.

Eine Fähigkeit mit zwei Seiten

Abseits der technischen Faszination wirft diese Entwicklung unweigerlich Fragen bezüglich Datenschutz und Privatsphäre auf. Die Möglichkeit, den Aufnahmeort eines Fotos auch ohne explizite Geodaten zu bestimmen, könnte missbraucht werden, um Rückschlüsse auf den Aufenthaltsort von Personen zu ziehen, die dies nicht wünschen. Gerade im Kontext von Social Media Plattformen wie Instagram oder Facebook, wo täglich Milliarden Bilder geteilt werden, ist dies ein bedenkenswerter Aspekt. Es unterstreicht einmal mehr die Notwendigkeit eines bewussten Umgangs mit der Veröffentlichung visueller Informationen im Netz.

Für Fotografen und Bildbearbeiter bedeutet dies auch, sich der potenziellen „Lesbarkeit“ ihrer Bilder in Bezug auf den Aufnahmeort bewusst zu sein, selbst wenn Metadaten entfernt wurden. Was früher nur durch aufwändige manuelle Recherche oder lokales Wissen möglich war, könnte nun automatisiert und (bald auch) in Sekundenschnelle erfolgen. Dies könnte für bestimmte journalistische oder dokumentarische Arbeiten relevant sein, aber eben auch Risiken bergen. Ist eine hundertprozentige Standorterkennung überhaupt erstrebenswert? Das sollte man durchaus hinterfragen.

Die Fähigkeit von ChatGPT, Aufnahmeorte aus Bildern zu deduzieren, markiert einen weiteren Schritt in der Evolution multimodaler KI-Systeme. Während die Präzision noch variabel ist, zeigt das Potenzial der Technologie, visuelle Informationen tiefgreifend zu analysieren und mit externem Wissen zu verknüpfen. Für Kreative im visuellen Bereich eröffnet dies einerseits neue Möglichkeiten, etwa bei der Recherche, der Verifikation von Bildquellen oder der Analyse von Bildmaterial, andererseits schärft es das Bewusstsein für die Informationen, die – gewollt oder ungewollt – in jedem Bild stecken. Die Diskussion über die Implikationen dieser Technologie hat gerade erst begonnen.

Zeig mehr

Christoph Künne

Christoph Künne, von Haus aus Kulturwissenschaftler, forscht seit 1991 unabhängig zur Theorie und Praxis der Post-Photography. Er gründete 2002 das Kreativ-Magazin DOCMA zusammen mit Doc Baumann und hat neben unzähligen Artikeln in europäischen Fachmagazinen rund um die Themen Bildbearbeitung, Fotografie und Generative KI über 20 Bücher veröffentlicht.

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Schaltfläche "Zurück zum Anfang"