KI

Microsoft stellt mit MAI-Image-2 einen leistungsfähigen Bildgenerator vor

Microsoft positioniert mit MAI‑Image‑2 ein eigenes Text‑zu‑Bild‑Modell klarer gegenüber der Konkurrenz von Google und OpenAI. Dies markiert einen Wendepunkt für Microsoft – weg von der reinen Partnerschaft mit OpenAI hin zu einer eigenen, konkurrenzfähigen KI-Infrastruktur. Geplant ist, das neue Modell fest in Bing und Copilot zu verankern.

MAI‑Image‑2 stammt vom Superintelligenz‑Team von Microsoft AI und baut auf dem ersten Bildmodell MAI‑Image‑1 aus dem Herbst 2025 auf. In der öffentlichen Rangliste Arena.ai steht das System bereits auf Platz drei der Text‑zu‑Bild‑Modelle, hinter Google und OpenAI.

Laut Microsoft stand Feedback von Fotografen, Designern und visuellen Erzählern im Zentrum der Entwicklung. Das Unternehmen betont, dass das Modell für langjährige Workflows in Agenturen, Studios und Marketing‑Teams taugen soll.

Ein Schwerpunkt von MAI‑Image‑2 liegt auf fotorealistischer Anmutung. Microsoft spricht von Bildern, die „sich anfühlen, als existierten sie in der realen Welt“, mit natürlichem Licht, präzisen Hauttönen und „bewohnten“ Umgebungen. Im Idealfall wirkt eine Szene wie ein sorgfältig ausgeleuchtetes Foto‑Set, nicht wie eine sterile 3D‑Rendergrafik. Als Beispiel nennt Microsoft einen Gletscher, der wie das Innere einer Kathedrale wirkt: eine Eiswand, tiefblaue Schichten, Licht, das durch die Strukturen bricht, eine winzige Person am Fuß als Maßstab.

Während manche KI-Modelle noch mit krummen Buchstaben, falschen Wörtern oder unlesbaren Logos enttäuschen, soll MAI‑Image‑2 Schrift in Plakaten, Schildern oder Infografiken sauber darstellen können.

Einsatzszenarien für Kreative

Microsoft nennt als typische Einsatzzwecke Infografiken, Präsentationsfolien, Diagramme und Szenen mit dichter Bildinformation. Designer sollen mit einem Prompt, der einen groben Aufbau beschreibt, etwa „dreiteilige Statistikgrafik, linke Spalte blau, rechte Spalte orange, oben klare Überschrift“, ein visuell schlüssiges Resultat erhalten. Auch komplexe Szenen mit vielen Details, beispielsweise lebhafte Straßenszenen, surreale Traumlandschaften oder filmische Einstellungen mit präzisem Framing sollen für MAI-Image-2 kein Problem sein.

Fotografen können das Modell auch zur Ideenfindung nutzen, um Stimmungen oder Lichtkonzepte vor einem Shooting durchzuspielen. Denkbar wäre eine Serie von Lichtstudien: „Porträt in einem Zugabteil kurz vor Sonnenuntergang, Kontrast zwischen warmen Reflexen auf der Haut und kaltem Neonlicht im Hintergrund“. Derartige Entwürfe können helfen, Set‑Design, Kleidung und Lichtführung zu planen.

Plattformen und Zugriff

MAI‑Image‑2 steht im MAI Playground, einer Web‑Plattform von Microsoft für KI‑Experimente, bereits zur Verfügung (Aktuell ist der Playground primär für Nutzer in den USA freigeschaltet. Innerhalb der EU gibt es aufgrund regulatorischer Abstimmungen (AI Act) oft eine kurze Verzögerung.). Parallel beginnt der Rollout in Copilot und in den Bildfunktionen von Bing. Dort taucht das Modell hinter bekannten Oberflächen auf und ersetzt nach und nach bisher genutzte Systeme.

Für Unternehmenskunden stellt Microsoft Programmierschnittstellen, sogenannte „APIs“ (Application Programming Interfaces), bereit. Über diese Schnittstellen binden Entwickler das Modell in eigene Anwendungen, Redaktionssysteme oder Kreativ‑Tools ein. Laut Microsoft startet der API‑Zugang zunächst in einer begrenzten Vorschau, weitere Zugänge sollen über „Microsoft Foundry“ folgen.

Sicherheit und Grenzen

Microsoft beschreibt in der Modellkarte zu MAI‑Image‑2 ein mehrstufiges Sicherheitskonzept. Dieses soll Gewaltdarstellungen, sexualisierte Inhalte oder andere problematische Motive bereits beim Training reduzieren und zusätzlich bei der Nutzung filtern. Das Unternehmen weist ausdrücklich darauf hin, dass der Dienst nicht für medizinische, rechtliche oder politische Beratung gedacht ist.

Trotz technischer Fortschritte bleiben typische Grenzen generativer Bildmodelle bestehen. Feine Details wie Hände, komplexe Objektüberlagerungen oder kultur‑spezifische Symbole können in Einzelfällen fehlerhaft ausfallen.

Einordnung für Fotografen

Für Fotografen und Bildgestalter zählt vor allem, wie gut ein Werkzeug in bestehende Pipelines passt. MAI‑Image‑2 verspricht, den Abstand zwischen Texteingabe und verwendbarem Bild zu verkleinern, insbesondere bei realistischen Szenen, Lesbarkeit von Text und dichten Layouts. Wer mit Kampagnenmotiven, Moodboards oder Grobkonzepten arbeitet, erhält damit eine weitere Option neben etablierten Diensten wie DALL‑E, Midjourney oder Googles Bildmodellen. Für Kreative, die bereits mit Copilot oder Bing arbeiten, senkt der direkte Rollout die Hürde, das neue Modell in eigenen Projekten zu testen.

Johannes Wilwerding

Johannes Wilwerding hat bereits Mitte der Achziger Jahre und damit vor dem Siegeszug von Photoshop & Co. Erfahrungen in der Digitalisierung von Fotos und in der elektronischen Bildverarbeitung gesammelt. Seit 2001 ist er freiberuflicher Mediengestalter und seit 2005 tätig für das DOCMA-Magazin.

Ähnliche Artikel

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Das könnte Dich interessieren
Schließen
Schaltfläche "Zurück zum Anfang"