

Veröffentlicht am: 31.12.2024
KI-Motivation: Selbstoptimierung dank "Pnde fintes"
Ich denke, da geht noch mehr…
In nahezu jedem Büro zieren die allseits bekannten Motivationsposter die Wände, um die Mitarbeiter zu inspirieren und anzuspornen, größere Ziele zu erreichen und über sich selbst hinaus zu wachsen. Auf mich wirken viele dieser Sprüche inzwischen etwas abgedroschen und bieten wenig Überraschung oder Kreativität. Was ist also im Zeitalter von KI naheliegender, als sich ein ganz individuelles Motivationsposter generieren zu lassen?
Kürzlich bin ich über das KI-Tool „ideogram.ai“ zur Bildgenerierung gestolpert. Ich hatte davon gelesen, dass das Tool beeindruckende Ergebnisse liefern soll, und die Beispiele in zahlreichen unterschiedlichen Stilen, gepaart mit der Fähigkeit, Schrift zu erzeugen, sahen sehr vielversprechend aus. Also wollte ich einmal ausprobieren, ob sich damit nicht auch einfach so ein schönes Poster erstellen lässt.
Der Prompt zur Motivation
Zum Spaß habe ich folgenden Prompt zum Testen eingegeben: „Create a list of 5 virtues to pursue to become a better person and create a beautiful and empowering motivational poster from it.“ Wie bei vielen dieser Tools üblich gibt es auch hier die Option, einen „Magic Prompt“ mit KI-Unterstützung erstellen zu lassen, um das Ergebnis zu verbessern. Daraus wurde dann: „A motivational poster with the text ‚5 VIRTUES TO PURSUE TO BECOME A BETTER PERSON‘. The virtues are listed below the main text. The background is a serene landscape with mountains, trees, and a body of water. The sky is clear with a few clouds.“
„Pnde fintes“ und „Tout geng“ Sehr schnell wurden vier ähnliche Bilder von gar nicht mal schlechter Qualität erzeugt. Während auf drei davon auch sinnvolle und typische Texte erschienen, hat mich das erste Bild am meisten verblüfft:
Es wurde eine schöne, entspannende Landschaft generiert, und auch der Titel, der den Großteil des Bildes einnimmt, ist stilistisch sehr ansprechend. Erst wenn man genauer auf die 5 Werte schaut, die einem präsentiert werden, um ein besserer Mensch zu werden, wird man stutzig: „Pnde fintes“? „Nelnng wary kad dewey“?
Zwischen Meisterwerk und Kauderwelsch
Hier sieht man schnell die Grenzen der KI. Doch gleichzeitig fragt man sich: Wieso passiert so etwas? Vor allem, nachdem es so gut angefangen hatte, und der Hintergrund und die Überschrift eigentlich perfekt erstellt wurden?
Dieses Ergebnis ist ein Phänomen, das direkt aus der Funktionsweise von text-to-image-Modellen - insbesondere im Umgang mit Text - entsteht. Anders als Sprachmodelle wie GPT, die explizit auf Semantik und Syntax trainiert werden, besitzen Bild-Modelle wie DALL-E, Stable Diffusion oder Midjourney in der Regel keine echte „Verständnis-Schicht“ für Texte. Sie sind darauf trainiert, Bilder Pixel für Pixel in kleinen Abschnitten zu erzeugen und lernen primär, wie Text aussieht, also z.B. die Formen der Buchstaben, ohne die Bedeutung, oder Rechtschreibung zu verstehen. Dabei können Unstimmigkeiten entstehen, da nicht der gesamte Kontext im Auge behalten wird, sondern immer nur die zu generierenden Fragmente.
Es entsteht eine Mischung aus echten Zeichen und optisch ähnlichen Konstrukten, die für das Modell visuell plausibel wirken, in der Realität jedoch unsinnig sind. Dies führt dazu, dass lange Wörter oder Textstrukturen, wie z.B. auch die Aufzählung selbst, fehlerhaft erstellt werden.
Unterschiedliche Priorisierung und Anforderung
Der sehr dominante Titel wurde bereits im Prompt übergeben und konnte 1:1 von der KI übernommen werden. Er erhält eine höhere Priorisierung und lässt sich möglicherweise bereits in dieser Art in den Trainingsdaten auf anderen Postern, Bannern oder Buchcovern finden. Vom Modell kann dieser Titel leichter als geschlossene Einheit erkannt und reproduziert werden.
Auflistungen umfassen hingegen mehrere Bestandteile: Nummerierung, Reihenfolge und einen semantischen Zusammenhang. Diese Beziehungen sind von Bild-LLM schwerer zu erkennen und zu erzeugen, da sie in den Trainingsdaten stärker variiert vorkommen können, sowohl inhaltlich wie in der Darstellung.
Der Charme der Imperfektion
Bild-LLM konzentrieren sich also primär auf eine visuell konsistente Darstellung, ohne die zugrundeliegende Semantik erfassen zu können. Das Resultat sind dann derartige, lustige Ergebnisse, die ihrerseits ihren eigenen Charme versprühen. Wenn man sich die rasante Entwicklung der KI-Bildgenerierung, und besonders auch der Integration von Text in Bildern anschaut, ist davon auszugehen, dass derartige Fehler vermutlich auch bald ein Relikt aus der Vergangenheit werden und die Modelle Texte auf Büchern, Anzeigetafeln oder Sprüchen perfekt in die generierten Bilder integrieren werden können. Bis dahin freuen wir uns also noch ein wenig über die amüsanten Ausreißer - mein Motivationsposter schmückt nun als Gegenpol zu den Sprüchen meines Kollegen meine Wand.
In diesem Sinne, immer dran denken: „Shenw morr ahede prenes“ 😉
➝ Hast Du Fragen?
Dann nimm mit uns Kontakt auf!