Grundlagen der Text-zu-Bild-Systeme: Lesen aus dem Kaffeesatz

Text-zu-Bild-Systeme sind nicht leicht zu durchschauen. Wie sie ihre verblüffenden Bildergebnisse, aber bisweilen auch ekla­tante Fehler produzieren, bleibt dem Anwender verborgen. Zu diesem Thema hat Michael J. Hußmann zwei ausgewiesene ­KI-Experten befragt – Dr. Thomas ­Käster, den technischen Direktor der Lübecker ­Pattern Recognition Company, und seinen Kollegen Kai Röhr.

Michael J. Hußmann (MJH): Eure Software Excire ­analysiert Bilder: Man steckt hochaufgelöste Bilder als Input hinein und bekommt als Output einen Text – Schlagwörter, die den Inhalt der Bilder beschreiben. Bei der Bildsynthese ist es umgekehrt: Man steckt kurze Texte hinein und erhält als Output mehr oder minder hochaufgelöste Bilder. Was sind die Bausteine, aus denen ein neuronales Netz eine unüberschaubare Vielzahl von Bildern generie­ren kann?

Dr. Thomas Käster (TK): Solche generativen ­Systeme sind um einiges komplizierter als eine KI wie unsere, die ­Bilder analysiert. Bei der Bildsynthese treffen verschiedene Welten aufeinander. Da ist einmal die Bildkodierung, bei der man versucht, …

Dieser Inhalt ist Teil unserer Premium-Inhalte von DOCMA2go.

Als Abonnent einloggen

DOCMA 2GO abonnieren

Das DOCMA-Magazin als wöchentliches E-Mail-Update. Mehr erfahren.

  • 30 Tage kostenlos
  • Danach nur 39,90 EUR/Jahr
2Go jetzt kostenlos testen!

Alle E-Abos vergleichen

Schreiben Sie einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Back to top button