KISoftware

Bagel rüttelt am KI-Thron – Ein multimodales Open-Source-Kraftpaket

Während die etablierten Größen wie OpenAI, Google und Anthropic ihre Spitzenmodelle größtenteils hinter Bezahlschranken und proprietären Lizenzen verbergen, wagt ByteDance, der chinesische Konzern hinter der populären Plattform TikTok, einen bemerkenswerten Vorstoß. Mit Bagel präsentieren sie ein multimodales KI-Modell, das nicht nur als Open-Source-Projekt frei verfügbar ist, sondern auch in direkter Konkurrenz zu Schwergewichten wie GPT-4o von OpenAI positioniert wird. Für Anwender im Bereich Fotografie und Bildbearbeitung könnte dies eine spannende Alternative mit weitreichenden Implikationen bedeuten. Vorausgesetzt natürlich, das funktioniert wie versprochen.

Technische Finesse unter der Haube

Hinter dem unscheinbaren Namen Bagel verbirgt sich eine beachtliche technische Leistung. Das Modell operiert mit 7 Milliarden aktiven Parametern, die aus einem Gesamtpool von 14 Milliarden Parametern stammen. Diese Architektur basiert auf dem Mixture-of-Experts-Prinzip (MoE), das eine effiziente Ressourcennutzung bei gleichzeitig hoher Leistungsfähigkeit ermöglicht. Im Kern handelt es sich um ein großes Sprachmodell (LLM), das durch ein umfangreiches Vortraining mit multimodalen Datensätzen – also Text- und Bildinformationen – seine besonderen Fähigkeiten erlangt hat. Dieser Ansatz, Text- und Bildverständnis tief in der Modellarchitektur zu verankern, unterscheidet Bagel von Systemen, die separate Module für unterschiedliche Modalitäten nutzen und diese eher oberflächlich koppeln.

Das Universalwerkzeug für den kreativen Workflow?

ByteDance selbst beschreibt Bagel als ein „unified generation and understanding model“. Diese Bezeichnung deutet bereits an, wo die Stärken des Systems liegen sollen: Es fungiert gleichzeitig als Chatbot für textbasierte Interaktionen, als Bildgenerator zur Visualisierung von Ideen und als intelligenter Editor, der über fortgeschrittene visuelle Analysefähigkeiten verfügt. Für Kreativprofis, die sich intensiv mit Fotografie und Bildbearbeitung auseinandersetzen, ist gerade diese Kombination interessant. Die Möglichkeit, komplexe Bildinhalte nicht nur zu generieren, sondern auch tiefgreifend zu analysieren und auf Basis dieser Analyse Bearbeitungsschritte vorzuschlagen oder direkt auszuführen, könnte etablierte Arbeitsabläufe nachhaltig verändern.

Das würde bedeuten, Anweisungen zur Bildoptimierung oder für kreative Verfremdungen in natürlicher Sprache zu formulieren und vom System umsetzen zu lassen. Ganz neu ist das natürlich nicht. Die neuen Image-Module von Google und OpenAI und die Draft-Funktion von Midjourney gehen in dieselbe Richtung.

Open Source: Strategischer Schachzug mit Weitblick

Die Veröffentlichung von Bagel unter der Apache 2.0 Lizenz ist ein klares Signal an den Markt. Solange der Zugang zu den leistungsfähigsten KI-Modellen oft mit hohen Kosten und restriktiven Nutzungsbedingungen verbunden ist, öffnet ByteDance so die Hintertüren für eine breite Entwickler- und Anwendergemeinschaft. Dieser Schritt ist nicht nur altruistisch, sondern vor allem strategisch klug. Open-Source-Projekte profitieren von der kollektiven Intelligenz und dem Engagement einer globalen Community, die Fehler behebt, Erweiterungen entwickelt und das Modell für spezifische Anwendungsfälle optimiert. Für professionelle Bildschaffende und kleinere Agenturen bedeutet dies potenziell niedrigere Einstiegshürden und eine größere Unabhängigkeit von einzelnen Softwareanbietern. Die Möglichkeit, das Modell an eigene Bedürfnisse anzupassen oder in bestehende Toolchains zu integrieren, ist ein nicht zu unterschätzender Vorteil.

Konkreter Nutzen im professionellen Alltag

Die multimodalen Fähigkeiten von Bagel eröffnen vielfältige Anwendungsszenarien. Fotografinnen und Fotografen könnten das System zur automatischen Verschlagwortung und Kategorisierung umfangreicher Bildarchive nutzen. Denkbar ist auch eine Unterstützung bei der Bildkomposition durch analytische Hinweise oder die Generierung von Retuschevorschlägen auf Basis einer intelligenten Fehlererkennung. Bildbearbeitende wiederum könnten von einer intuitiveren Interaktion profitieren, bei der komplexe Bearbeitungsschritte über natürlichsprachliche Befehle initiiert werden, anstatt sich durch verschachtelte Menüs zu klicken.

Darüber hinaus verspricht Bagel, als versierter Assistent bei der Ideenfindung und Konzeptentwicklung zu dienen, indem es textuelle Beschreibungen in visuelle Entwürfe überführt oder umgekehrt Bildinhalte präzise verbalisiert – ein Pluspunkt in der Kundenkommunikation oder bei der Zusammenarbeit in interdisziplinären Teams.

Realistische Betrachtung: Hürden und Potenziale

Trotz des vielversprechenden Ansatzes gibt es auch Aspekte, die eine kritische Betrachtung erfordern. Die Installation, Konfiguration und vor allem das Training oder Fine-Tuning von Open-Source-Modellen dieser Größenordnung setzen ein erhebliches technisches Know-how voraus, das nicht in jedem Kreativstudio vorhanden sein dürfte. Auch die Hardwareanforderungen für den lokalen Betrieb sind nicht zu vernachlässigen und könnten insbesondere für Freelancer oder kleinere Unternehmen eine Hürde darstellen. Es bleibt abzuwarten, wie sich Bagel in der praktischen Anwendung gegenüber etablierten kommerziellen Lösungen schlägt, insbesondere hinsichtlich der Ausgabequalität, der Robustheit im produktiven Einsatz und der Verfügbarkeit von professionellem Support.

Ein Vorbote neuer KI-Paradigmen?

Die Initiative von ByteDance könnte durchaus Signalwirkung haben. Wenn ein Schwergewicht der Tech-Branche ein angeblich derart leistungsfähiges Modell quelloffen zur Verfügung stellt, könnte dies andere Anbieter unter Zugzwang setzen und langfristig zu einer stärkeren Demokratisierung fortschrittlicher KI-Technologien führen. Für die Kreativbranche eröffnet dies die Chance auf mehr Flexibilität und geringere Abhängigkeit von einzelnen Ökosystemen. Gleichzeitig wächst die Notwendigkeit, sich kontinuierlich mit den rasanten Entwicklungen im KI-Sektor auseinanderzusetzen und neue Werkzeuge kritisch auf ihren Mehrwert für den eigenen Schaffensprozess zu prüfen. Bagel ist zweifellos ein spannender Kandidat, den es im Auge zu behalten gilt – nicht nur als Werkzeug, sondern auch als Indikator für zukünftige Trends in der kreativen KI-Landschaft.

Zeig mehr

Christoph Künne

Christoph Künne, von Haus aus Kulturwissenschaftler, forscht seit 1991 unabhängig zur Theorie und Praxis der Post-Photography. Er gründete 2002 das Kreativ-Magazin DOCMA zusammen mit Doc Baumann und hat neben unzähligen Artikeln in europäischen Fachmagazinen rund um die Themen Bildbearbeitung, Fotografie und Generative KI über 20 Bücher veröffentlicht.

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Schaltfläche "Zurück zum Anfang"