ChatGPT bekommt eine neue visuelle Dimension: OpenAI führt Bildgenerierung mit GPT-4o ein
OpenAI erweitert ChatGPT um eine leistungsstarke Bildfunktion: Mit GPT-4o lassen sich direkt im Chat fotorealistische Bilder erstellen – inklusive präzisem Text, Kontextbindung und kreativem Input. Die Funktion ist jetzt für alle Nutzer:innen verfügbar, auch für Free User.

Ein Comic über eine Redakteurin, die über die neuesten KI-Entwicklungen schreibt – und komplett per Texteingabe generiert. Was wie ein kreatives Projekt mit Illustrator:innen wirkt, stammt in Wirklichkeit direkt aus dem Chat-Fenster: Mit der neuen Bildfunktion in ChatGPT lassen sich fotorealistische Bilder, Illustrationen und sogar Comics per Prompt erstellen.
OpenAI hat ChatGPT um genau diese Kernfunktion erweitert: Ab sofort können Nutzer:innen direkt im Chat Bilder generieren – unterstützt vom neuen multimodalen Modell GPT-4o.
Auf Threads ansehen
Damit verschmilzt erstmals hochwertige Textverarbeitung mit fortschrittlicher Bildsynthese innerhalb eines einzigen Tools.
Hello Voice Agents:
OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle
Bildgenerierung wird Teil der Chat-Oberfläche
Was bislang in der Regel über DALL-E oder externe Tools lief, ist jetzt direkt in ChatGPT integriert: Mit der neuen Funktion Images in ChatGPT können Nutzer:innen ab sofort durch Texteingaben visuelle Inhalte erzeugen. Die Funktion basiert auf dem Modell GPT-4o, das verschiedene Modalitäten wie Text, Bild, Audio und perspektivisch auch Video verarbeiten kann.
Ein anschaulicher Überblick stammt vom AI-Experten luokai, der auf Threads den Launch der neuen Bildgenerierung durch GPT-4o zusammenfasst.
Auf Threads ansehen
Die Bildfunktion von GPT-4o überzeugt durch ihre Fähigkeit, Texte innerhalb von Bildern präzise darzustellen, Eingaben detailgetreu umzusetzen und dabei sowohl auf das in GPT-4o verankerte Weltwissen als auch auf den konkreten Chat-Verlauf zurückzugreifen. Auch hochgeladene Bilder können als Ausgangspunkt oder Inspiration dienen. So wird die Erstellung individueller, kontextbezogener Bilder erleichtert – und die visuelle Kommunikation deutlich präziser und wirkungsvoller. GPT-4o wird damit zu einem vielseitigen Werkzeug für kreative und professionelle Anwendungen.
Die Einführung erfolgt schrittweise für alle Nutzungsstufen – inklusive der kostenlosen Variante. Laut OpenAI entspricht das tägliche Bildkontingent für Free User dem bisherigen DALL-E-3-Limit, erklärte Sprecherin Taya Christianson gegenüber The Verge. In den ChatGPT FAQ heißt es, dass Nutzer:innen der kostenlosen Version bislang bis zu drei Bilder pro Tag mit DALL-E 3 generieren konnten. Plus, Team und Pro Accounts erhalten eine erweiterte Nutzungsmöglichkeit. Zugänge für Enterprise- und Bildungsangebote (Edu) folgen in Kürze. Auch in Sora ist die Funktion bereits integriert. Wer weiterhin gezielt mit DALL-E arbeiten möchte, kann dies über ein spezielles DALL-E GPT tun.
Technologische Neuerungen: Mehr Präzision bei Details und Text
Ein zentrales Merkmal des neuen Systems ist die deutlich verbesserte Darstellung komplexer Inhalte. Wie Gabriel Goh, Research Lead bei OpenAI, erklärt, wurde insbesondere an der sogenannten „Binding“-Fähigkeit gearbeitet. Damit ist gemeint, wie gut das Modell verschiedene Eigenschaften – etwa Farbe, Form und Position – korrekt miteinander verknüpft.

Während frühere Modelle bei komplexen Prompts oft Objekte vermischten oder Farben falsch zuordneten, kann GPT-4o laut OpenAI bis zu 20 Objekte mit ihren korrekten Attributen zuverlässig abbilden.
Besonders auffällig ist die Qualität der Textdarstellung. Die Generierung von lesbarem, korrektem Text in Bildern galt lange als Schwachstelle KI-basierter Bildsysteme. GPT-4o zeigt in diesem Kontext erhebliche Fortschritte: Menüs, Plakate oder Infografiken mit Text können jetzt konsistent und ohne typografische Fehler dargestellt werden.

Der Grund: Anders als viele bestehende Bildgeneratoren arbeitet GPT-4o nicht mit einem Diffusionsmodell, sondern nutzt eine autoregressive Methode. Das Bild wird schrittweise aufgebaut – ähnlich wie beim Schreiben eines Satzes –, was mehr Kontrolle über Details erlaubt.
Vielfältige Einsatzmöglichkeiten – direkt aus dem Chat
Die Möglichkeiten der neuen Funktion sind breit gefächert. In Demonstrationen zeigte OpenAI Anwendungen wie:
- wissenschaftliche Illustrationen (etwa das Prismaexperiment von Newton),
- Comics mit wiederkehrenden Figuren,
- Informationsgrafiken und Poster,
- Sticker und Logos mit transparentem Hintergrund.


Dabei greift das Modell auf umfangreiches Weltwissen zurück. Nutzer:innen müssen Begriffe oder Konzepte nicht erklären – das System kennt sie. Das macht die Erstellung auch komplexer Inhalte deutlich intuitiver.
Zwar dauert die Bildgenerierung mit dem neuen System etwas länger als bisher, doch OpenAI sieht darin einen gerechtfertigten Kompromiss. Produktleiterin Jackie Shannon betont, dass die Bildqualität, die vielseitigen Fähigkeiten und das umfassende Weltwissen des Modells den Mehraufwand an Zeit deutlich aufwiegen – auch wenn es beim Thema Reaktionsgeschwindigkeit noch Optimierungspotenzial gebe.
Wir haben die neue Bildfunktion von OpenAI selbst getestet – und das ist das Ergebnis: ein vierteiliges Comic über eine Redakteurin, die über die neuesten Innovationen von OpenAI berichtet. Die Figuren sind konsistent gestaltet, der Text ist fehlerfrei integriert, und der Stil bleibt über alle Panels hinweg erhalten. Der Prompt lautete: „Erstelle ein Comic über eine Redakteurin, die über OpenAIs neue Innovationen einen Artikel verfasst.“

Sicherheit und Urheber:innenschaft: Was User wissen sollten
Die Bilder, die mit GPT-4o generiert werden, gehören den jeweiligen Nutzer:innen – unter Einhaltung der OpenAI-Nutzungsrichtlinien. Ein sichtbares Wasserzeichen ist nicht vorgesehen, dafür wird standardisierte C2PA-Metadaten eingebettet, die die Herkunft als KI-generiert markieren.
Angesichts zunehmender Kritik an generativer Bild-KI, insbesondere im Zusammenhang mit missbräuchlich erstellten Deepfakes prominenter Personen, hebt OpenAI hervor, dass die neue Bildfunktion mit umfassenden Sicherheitsvorkehrungen ausgestattet ist. Dazu gehören:
- eine integrierte Sperre gegen die Erstellung sexueller Deepfakes – wie sie etwa im Fall des KI-generierten Bildes von Taylor Swift für Aufsehen sorgten,
- der Schutz vor der Entfernung von Wasserzeichen, ein Problem, das unter anderem bei Googles Gemini 2.0 kritisiert wurde,
- sowie die automatische Ablehnung von Anfragen zu illegalen oder gefährdenden Inhalten – wie im Fall eines manipulierten KI-Videos von Kamala Harris, das von Elon Musk auf X verbreitet wurde.
No system is perfect for this type of thing, but we’re continuously improving our safeguards and we think of this as a starting point,
erklärt Shannon. So beeindruckend die neuen Bildfunktionen auch sind – sie stehen nicht völlig außerhalb der Kritik. Immer wieder gerät OpenAI ins Visier von Urheber:innenrechtsdebatten, weil nicht transparent ist, ob sämtliche Inhalte, die für das Training der Bildmodelle verwendet wurden, rechtlich einwandfrei lizenziert oder genutzt wurden. Mehrere Verlage, Künstler:innen und Rechteinhaber:innen haben in den vergangenen Monaten Klage eingereicht oder öffentlich Kritik geäußert. Dass GPT-4o inzwischen fotorealistische und markenähnliche Bilder erzeugen kann, sorgt daher nicht nur für Begeisterung, sondern wirft auch ethische und juristische Fragen auf – besonders mit Blick auf kommerzielle Anwendungen.
Kontext: OpenAIs größere Strategie
Mit der Integration von Bildgenerierung in ChatGPT verfolgt OpenAI einen klaren Kurs: Das Tool soll sich zu einer umfassenden, multimodalen KI-Assistenz entwickeln. Erst kürzlich erweiterte das Unternehmen ChatGPT um interaktive Voice Agents und kündigte mit dem Operator einen neuen KI-Assistenten für Unternehmen an – seit Kurzem auch in Deutschland verfügbar.
OpenAIs Operator jetzt auch in Deutschland verfügbar
In einem Kommentar unter OpenAIs LinkedIn Post wies der Finanzexperte Gustavo Mesquita darauf hin, dass die Bildfunktion Teil des Text-to-Video-Modells Sora werden soll. Perspektivisch könnten also auch Videos auf ähnliche Weise generiert werden – basierend auf derselben „omnimodalen“ Architektur von GPT-4o.
Unternehmen profitieren bereits jetzt von der neuen Möglichkeit, visuelle Inhalte direkt aus dem Chat heraus zu erstellen. Ob für Marketing, Design oder Kommunikation – die Integration spart Zeit und reduziert Abhängigkeiten von externen Tools. Wie KI-Agents diesen Prozess ergänzen, haben wir in unserem Artikel über OpenAI-KI-Agents erläutert.
Die Entwicklung von KI-Agents ist dank neuer OpenAI Tools jetzt einfacher denn je
ChatGPT wird zum kreativen Multitalent
Mit der Integration von Bildgenerierung in ChatGPT öffnet OpenAI die Tür zu einer neuen Dimension kreativer Zusammenarbeit mit KI. Die Kombination aus Kontextverständnis, visuellem Feingefühl und präziser Textdarstellung macht GPT-4o zu einem vielseitigen Werkzeug für Design, Storytelling und Informationsvermittlung.
Der nächste Schritt ist klar: KI-Modelle wie GPT-4o werden in Zukunft nicht nur schreiben, sondern auch gestalten, erzählen – und vielleicht bald auch Regie führen.