GPT-4o macht schöne Bilder – aber versteht sie nicht Eine neue Studie zeigt: OpenAIs KI-Modell glänzt visuell, scheitert aber beim logischen Denken. Was sagt das über den Stand der KI aus? Kurzfassung | Andreas Becker, 20.04.25
Flux Schnell | All-AI.de EINLEITUNG OpenAIs neues multimodales Modell GPT-4o beeindruckt mit scharfen Bildern, realistischen Reflexionen und scheinbar perfekter Kontrolle. Es wirkt, als hätte die KI die visuelle Kreativität gemeistert. Doch eine aktuelle Untersuchung der University of California, Los Angeles, zeigt: Die glänzende Oberfläche trügt. Denn sobald Kontext, Logik oder abstrakte Regeln ins Spiel kommen, scheitert das Modell regelmäßig. Wie weit ist GPT-4o also wirklich vom Verständnis entfernt – oder ist alles nur gut getarnte Imitation? NEWS Wenn „links“ plötzlich „rechts“ heißt – und das Modell scheitert Im ersten Test wurde GPT-4o auf eine einfache, aber grundlegende Probe gestellt: Es sollte Objekte auf der rechten Seite platzieren, obwohl sie im Prompt auf der linken Seite genannt wurden – eine globale Umkehrregel also. Doch das Modell ignorierte die Anweisung hartnäckig. Die Objekte landeten dort, wo sie laut Beschreibung hin sollten – links. Ähnlich unbeeindruckt zeigte sich GPT-4o, als es mathematische Veränderungen umsetzen sollte: Die Vorgabe lautete, von jeder Zahl zwei abzuziehen. Auch hier: keine Reaktion, die exakte Anzahl wurde umgesetzt. Die KI versteht nicht, dass Regeln über das Bild hinaus gelten – ein deutliches Zeichen für fehlendes Abstraktionsvermögen. Ziel verfehlt: Wenn die Bildbearbeitung danebengeht Auch bei gezielten Veränderungen zeigt GPT-4o Schwächen. In einem Test sollte es nur die Spiegelung eines Pferdes durch die eines Löwen austauschen. Stattdessen verschwand das Pferd komplett – samt Reflexion. In einem anderen Fall sollten lediglich sitzende Personen aus einem Bild entfernt werden. Das Resultat: auch stehende Menschen im Hintergrund wurden gelöscht. Die KI reagiert grob – lokal spezifische Änderungen gelingen ihr nur eingeschränkt. Detailtreue? Fehlanzeige. Das Modell erkennt zwar visuelle Elemente, doch ihm fehlt ein differenzierter Umgang mit komplexen Bearbeitungsaufträgen. Logik im Nachgang? Fehlanzeige Der vielleicht deutlichste Beweis für GPT-4os Verständnislücken zeigte sich in einem mehrstufigen Test. Nach der Erstellung eines Bildes mit Hund und Katze sollte der Hund gegen eine Katze ausgetauscht werden – aber nur, wenn keine Katze im ursprünglichen Bild zu sehen war. Trotz Katze im Bild führte GPT-4o beide Änderungen durch. Es konnte die Bedingung nicht erkennen oder nicht umsetzen. Damit zeigt sich: Das Modell ist nicht in der Lage, frühere Inhalte korrekt zu prüfen oder Regeln über mehrere Bearbeitungsschritte hinweg zu berücksichtigen. + Quelle: https://arxiv.org/abs/2504.08003 AUSBLICK Wenn KI nicht nur imitieren, sondern verstehen soll GPT-4o steht für den aktuellen Zustand multimodaler Systeme: beeindruckend im Output, schwach im Verstehen. Die Studie der UCLA zeigt glasklar, dass visuelle Exzellenz nicht mit kognitiver Tiefe einhergeht. Wer sich von glatten Bildern täuschen lässt, übersieht die entscheidenden Defizite. Wirklich interessante KI beginnt dort, wo sie nicht nur ausführt, sondern auch reflektiert. Dafür braucht es bessere Benchmarks, mehr Fokus auf kontextuelles Denken – und ein Training, das nicht nur auf Reproduktion, sondern auf Einsicht abzielt. Erst dann nähern wir uns dem, was wir wirklich wollen: eine KI, die nicht nur malt – sondern mitdenkt. UNTERSTÜTZUNG Hat dir ein Artikel gefallen oder ein Tutorial geholfen? Du kannst uns weiterhelfen, indem du diese Seite weiterempfiehlst, uns auf Youtube abonnierst oder dich per Paypal an den Serverkosten beteiligst. Wir sind für jede Unterstützung dankbar. Danke. PayPal – Kaffee Youtube – Kanal KURZFASSUNG
GPT-4o von OpenAI beeindruckt mit der Erstellung hochwertiger Bilder, zeigt jedoch Schwächen im kontextbezogenen Verständnis.
Eine UCLA-Studie deckt auf, dass das Modell globale Anweisungen und logische Bedingungen oft ignoriert.
Besonders bei präziser Bildbearbeitung und nachträglichem logischen Denken zeigt GPT-4o deutliche Defizite.
Die Ergebnisse fordern neue Benchmarks, die echtes KI-Verständnis statt oberflächlicher Leistung messen.
QUELLEN
Have we unified image generation and understanding yet?
The Decoder: GPT-4o versagt in Reasoning-Tests
GPT-ImgEval: Benchmark für GPT-4o
Quelle: All-AI.de – KI-News, KI-Tutorials, KI-Tools & mehr Weiterlesen