Microsoft stellt mit MAI-Image-2 einen leistungsfähigen Bildgenerator vor

Johannes Wilwerding21. März 2026

2 Minuten Lesezeit

Microsoft positioniert mit MAI‑Image‑2 ein eigenes Text‑zu‑Bild‑Modell klarer gegenüber der Konkurrenz von Google und OpenAI. Dies markiert einen Wendepunkt für Microsoft – weg von der reinen Partnerschaft mit OpenAI hin zu einer eigenen, konkurrenzfähigen KI-Infrastruktur. Geplant ist, das neue Modell fest in Bing und Copilot zu verankern.

MAI‑Image‑2 stammt vom Superintelligenz‑Team von Microsoft AI und baut auf dem ersten Bildmodell MAI‑Image‑1 aus dem Herbst 2025 auf. In der öffentlichen Rangliste Arena.ai steht das System bereits auf Platz drei der Text‑zu‑Bild‑Modelle, hinter Google und OpenAI.

Laut Microsoft stand Feedback von Fotografen, Designern und visuellen Erzählern im Zentrum der Entwicklung. Das Unternehmen betont, dass das Modell für langjährige Workflows in Agenturen, Studios und Marketing‑Teams taugen soll.

Ein Schwerpunkt von MAI‑Image‑2 liegt auf fotorealistischer Anmutung. Microsoft spricht von Bildern, die „sich anfühlen, als existierten sie in der realen Welt“, mit natürlichem Licht, präzisen Hauttönen und „bewohnten“ Umgebungen. Im Idealfall wirkt eine Szene wie ein sorgfältig ausgeleuchtetes Foto‑Set, nicht wie eine sterile 3D‑Rendergrafik. Als Beispiel nennt Microsoft einen Gletscher, der wie das Innere einer Kathedrale wirkt: eine Eiswand, tiefblaue Schichten, Licht, das durch die Strukturen bricht, eine winzige Person am Fuß als Maßstab.

Während manche KI-Modelle noch mit krummen Buchstaben, falschen Wörtern oder unlesbaren Logos enttäuschen, soll MAI‑Image‑2 Schrift in Plakaten, Schildern oder Infografiken sauber darstellen können.

Einsatzszenarien für Kreative

Microsoft nennt als typische Einsatzzwecke Infografiken, Präsentationsfolien, Diagramme und Szenen mit dichter Bildinformation. Designer sollen mit einem Prompt, der einen groben Aufbau beschreibt, etwa „dreiteilige Statistikgrafik, linke Spalte blau, rechte Spalte orange, oben klare Überschrift“, ein visuell schlüssiges Resultat erhalten. Auch komplexe Szenen mit vielen Details, beispielsweise lebhafte Straßenszenen, surreale Traumlandschaften oder filmische Einstellungen mit präzisem Framing sollen für MAI-Image-2 kein Problem sein.

Fotografen können das Modell auch zur Ideenfindung nutzen, um Stimmungen oder Lichtkonzepte vor einem Shooting durchzuspielen. Denkbar wäre eine Serie von Lichtstudien: „Porträt in einem Zugabteil kurz vor Sonnenuntergang, Kontrast zwischen warmen Reflexen auf der Haut und kaltem Neonlicht im Hintergrund“. Derartige Entwürfe können helfen, Set‑Design, Kleidung und Lichtführung zu planen.

Plattformen und Zugriff

MAI‑Image‑2 steht im MAI Playground, einer Web‑Plattform von Microsoft für KI‑Experimente, bereits zur Verfügung (Aktuell ist der Playground primär für Nutzer in den USA freigeschaltet. Innerhalb der EU gibt es aufgrund regulatorischer Abstimmungen (AI Act) oft eine kurze Verzögerung.). Parallel beginnt der Rollout in Copilot und in den Bildfunktionen von Bing. Dort taucht das Modell hinter bekannten Oberflächen auf und ersetzt nach und nach bisher genutzte Systeme.

Für Unternehmenskunden stellt Microsoft Programmierschnittstellen, sogenannte „APIs“ (Application Programming Interfaces), bereit. Über diese Schnittstellen binden Entwickler das Modell in eigene Anwendungen, Redaktionssysteme oder Kreativ‑Tools ein. Laut Microsoft startet der API‑Zugang zunächst in einer begrenzten Vorschau, weitere Zugänge sollen über „Microsoft Foundry“ folgen.

Sicherheit und Grenzen

Microsoft beschreibt in der Modellkarte zu MAI‑Image‑2 ein mehrstufiges Sicherheitskonzept. Dieses soll Gewaltdarstellungen, sexualisierte Inhalte oder andere problematische Motive bereits beim Training reduzieren und zusätzlich bei der Nutzung filtern. Das Unternehmen weist ausdrücklich darauf hin, dass der Dienst nicht für medizinische, rechtliche oder politische Beratung gedacht ist.

Trotz technischer Fortschritte bleiben typische Grenzen generativer Bildmodelle bestehen. Feine Details wie Hände, komplexe Objektüberlagerungen oder kultur‑spezifische Symbole können in Einzelfällen fehlerhaft ausfallen.

Einordnung für Fotografen

Für Fotografen und Bildgestalter zählt vor allem, wie gut ein Werkzeug in bestehende Pipelines passt. MAI‑Image‑2 verspricht, den Abstand zwischen Texteingabe und verwendbarem Bild zu verkleinern, insbesondere bei realistischen Szenen, Lesbarkeit von Text und dichten Layouts. Wer mit Kampagnenmotiven, Moodboards oder Grobkonzepten arbeitet, erhält damit eine weitere Option neben etablierten Diensten wie DALL‑E, Midjourney oder Googles Bildmodellen. Für Kreative, die bereits mit Copilot oder Bing arbeiten, senkt der direkte Rollout die Hürde, das neue Modell in eigenen Projekten zu testen.

Schlagworte

Johannes Wilwerding21. März 2026

2 Minuten Lesezeit

doc.kf
Er gestaltet Fotos? Haben Sie höflich formuliert. Das ist fü...
Michael J. Hußmann
Für den USB-C-Zwang klopft man sich in der EU-Kommission und...
Hermann Schüßmann
Für den Sony World Photography Awards gelten seit Jahren imm...
estefanoonatrac
Der Punkt ist nicht, dass gesellschaftliche Themen in der Fo...
Rolf Meier
Fstoppers ist ein Forum für Technik-Nerds. Kein Wunder, komm...
fotttopit
Guten Tag Herr Hußmann und Guten Tag Alle, die Werke von Gre...
Rolf Meier
Auf den ersten, ungeprüften Blick habe ich den Eindruck: 'Im...
Adrenaline Retouching & CGI
Also, das ist ja mal wirklich cool. Relighting war bisher nu...
Axel Breuer
„Algorithmus ohnehin besser weiß, was gerade gut klickt?“ Ge...
Michael J. Hußmann
Exakt; es geht um die elektronische Übertragung zwischen Sys...

Einsatzszenarien für Kreative

Plattformen und Zugriff

Sicherheit und Grenzen

Einordnung für Fotografen

Johannes Wilwerding

Ähnliche Artikel

Vividon: KI-gestütztes Photoshop-Plugin verändert Beleuchtung nach der Aufnahme

Neurapix-Update: Neue Optionen für Gruppierung und Sortierung bei der Bildauswahl

Enshittification? Eine Gegenrede

Runway zeigt neues Video-KI-Modell, das HD-Videoframes in Echtzeit generiert

Schreibe einen Kommentar Antwort abbrechen