Blog

InstructPix2Pix: Bildbearbeitung per Sprachbefehl

Olaf Giermann5. Februar 2023

2 Minuten Lesezeit

Auf playgroundai.com können Sie die Bildbearbeitung per Texteingabe selbst ausprobieren. InstructPix2Pix: Bildbearbeitung per Sprachbefehl — Auf playgroundai.com können Sie die Bildbearbeitung per Texteingabe selbst ausprobieren.

Die aus Science-Fiction-Filmen bekannte und gern belächelte Anweisung „Das verpixelte Bild verbessern!“ ist längst Realität. Jetzt geht es der kreativen Bildbearbeitung an den Kragen: Die aktuelle Version von InstructPix2Pix erlaubt Bildveränderungen per Texteingabe. Das ist angesichts potenter Spracherkennungs-KIs gleichzusetzen mit „Bilder mit Worten bearbeiten“.

Das kann KI schon

Bildverbesserungen wie das Entrauschen von „unrettbar verrauschten“ Fotos oder das Schärfen von „unrettbar verwackelten“ Fotos können moderne Filter wie die von DxO oder Topaz Labs erzielen. Denn die auf künstlicher Intelligenz (KI) basierenden Programme haben durch intensives maschinelles Lernen – nun ja … gelernt, wie man aus Pixelmatsch wieder scharfe Bilder macht. Der König für natürlich wirkende Ergebnisse ist dabei nach meinen Tests bislang die App Remini (mein Test). In der Regel werden dabei durch die KI komplett neue Details erzeugt. Im Fall von Remini sind die Ergebnisse oft sehr nah am mutmaßlichen Original. Für kriminaltechnische Ermittlungen würden solche Bilder aber natürlich wenig taugen – denn sie könnten Details für die Identifikation einer Person vorgaukeln, die eben nicht vorhanden wären, sodass falsche Personen verdächtigt werden könnten. Die Gefahr besteht aber auch – und sogar in höherem Maße – bei herkömmlichen Phantombildern. Insofern sind und bleiben die utopischen Bildverbesserungen von CSI und Co. Fiktion.

Um solche Schärfe-Verbesserungen geht es hier nicht. Aber die können Sie bereits über Ihr Smartphone ausführen lassen. © Olaf Giermann + Remini. InstructPix2Pix — Um solche Schärfe-Verbesserungen geht es hier nicht. Aber die können Sie bereits über Ihr Smartphone ausführen lassen. © Olaf Giermann + Remini

Auch Anweisungen zum Erzeugen von neuen Bildern mit Midjourney und Stable Diffusion kennen Sie vielleicht bereits (siehe DOCMA 104 und meinen Blogeintrag zu SD mit Blender; in DOCMA 105 stelle ich Ihnen übrigens die Installation und Oberfläche von Invoke AI vor, die das Stable Diffusion auf allen Betriebssystemen relativ einfach nutzbar macht).

Hübsche Cyborgs per KI. @ Olaf Giermann + Stable Diffusion. InstructPix2Pix — Schicke Cyborgs per KI. @ Olaf Giermann + Stable Diffusion

Das ist in der Entwicklung: Bildbearbeitung durch Spracheingaben

Die Text-zu-Bild-KI wie Stable Diffusion und Midjourney erkennen schon Worte und erlauben das Verfeinern der Eingabe über Parameter, Gewichtungsangaben und negativen Prompts ( = bei denen man eingibt, was man alles nicht sehen will). Ganze Sätze und deren Syntax verstehen sie meistens noch nicht wirklich.

Die nächste, folgerichtige Entwicklungsstufe stellt InstructPix2Pix: Learning to Follow Image Editing Instructions dar. Bei dieser versteht eine KI durch den Satzaufbau eingetippter Texte, was Sie von Ihr wollen und verändert zuvor geladene Bilder dementsprechend. So können Sie die Tageszeit ode den Stil verändern, Elemente hinzufügen oder entfernen.

Selbst die nächste Evolutionsstufe der Bildbearbeitung ist damit schon geebnet: die Bildbearbeitung durch Spracheingabe statt Texteingabe per Tastatur. Denn die Spracheingabe funktioniert (nach meinen Erfahrungen mit Siri von Apple und Alexa von Amazon) schon seit Jahren sehr zuverlässig und gut.

Hier einige Beispiele von dieser Seite:

© University of California, Berkeley. InstructPix2Pix — © University of California, Berkeley

InstructPix2Pix: Probieren Sie es selbst aus!

Hugging face

Auf Hugging Face haben Sie mit einem Hugging Face-Account direkten Zugang zur aktuellen Version von InstructPix2Pix

Playgroundai

Auf Playground ist die Nutzung komfortabler. Dafür ist ein Google-Account und eine Anmeldung mit diesem erforderlich.

In allen Fällen sollten Sie heutzutage Englisch zumindest in den Grundzügen beherrschen, um die Ergebnisse von Übersetzungs-KI korrekt interpretieren zu können.

PS: Falls Sie von dem vielen Englisch heutzutage genervt sein sollten, erinnern Sie sich daran, dass sich die Sprache der Wissenschaft oder der gebildeten Schicht im Laufe der Menschheitsgeschichte mehrfach geändert hat. Wenn Sie an der vordersten Linie dabei sein wollen, hätten Sie immer auch eine bestimmte Sprache lernen müssen: Sumerisch, Latein, Arabisch, Französisch, Deutsch, Englisch, Chinesisch … alles ist im Fluss. Englisch ist von all diesen wahrscheinlich zum Glück nicht einmal die komplizierteste Sprache. Und heute können Sie sogar künstliche Intelligenz (DeepL, Google) zum Übersetzen benutzen und müssen nicht alles auswendig lernen.

What a time to be alive! 😉

Schlagworte

Olaf Giermann5. Februar 2023

2 Minuten Lesezeit

Rolf Meier
Wie bitte? Bin ich der einzige, der den Sinn dieser Aussage...
Diet Meeger
Schon der erste Satz ist vollkommender Quatsch und entbehrt...
Michael J. Hußmann
Ich setze auf einen Trend weg von KI-Diensten in der Cloud u...
Michael J. Hußmann
Noch wichtiger dürfte sein, dass man mit aggressiven Reaktio...
Hanspeter Frei
Die wichtigste "Information" beim Gang auf die Strasse haben...
Christoph Künne
Kleiner Nachtrag: Der KI-Fake im ZDF geschah „wissentlich“ b...
Michael J. Hußmann
Eher nicht, so weit ich weiß … Einerseits war die App, mit d...
Joachim Böttcher
Vielleicht ist die Zeit etwas "reifer" aber Sony hat 2013 mi...
CanonFantom
Hallo, die AE-1 habe ich 1980 selbst gekauft und der preis b...
Peter Gradischnigg
Digitale Speichertechnologien müssen ihre Langlebigkeit erst...

Das kann KI schon

Das ist in der Entwicklung: Bildbearbeitung durch Spracheingaben

InstructPix2Pix: Probieren Sie es selbst aus!

Hugging face

Playgroundai

Olaf Giermann

Ähnliche Artikel

Das wäre KI nicht passiert

Adobe bringt neue KI-Funktionen in Premiere, Firefly-Boards und After Effects für Videobearbeitung und Motion Design

Skylum veröffentlicht Aperty 1.5 mit Stapelverarbeitung für Lightroom Classic und neuer Export-Option

Der neueste Skill-Shift: Wie sich die Bildkunst immer wieder neu erfindet

Schreibe einen Kommentar Antwort abbrechen