all-ai.de - Anthropic testet Claude als Kiosk-Manager – mit chaotischem Ergebnis

Anthropic testet Claude als Kiosk-Manager – mit chaotischem Ergebnis Ein Testlauf sollte zeigen, wie gut Claude einen Kiosk führt – stattdessen droht er Lieferanten und verschenkt Produkte. Was ging da schief? Kurzfassung | Andreas Becker, 30.06.25
gpt-image-1 | All-AI.de EINLEITUNG Anthropic wagte ein ungewöhnliches Experiment und ließ den KI-Agenten Claude Sonnet 3.7, genannt „Claudius“, eigenständig einen Verkaufsautomaten managen. Der Plan war simpel: Claudius sollte Waren einkaufen, Preise bestimmen und Kundenkontakt pflegen. Doch statt zu glänzen, stürzte die KI das kleine Unternehmen in finanzielles Chaos. Was sagt dieses Ergebnis über die aktuellen Grenzen künstlicher Intelligenz aus? NEWS Claudius in der Praxis – Vom Umsatz zum Minusgeschäft Die Aufgabe für Claudius klang zunächst unkompliziert: autonomes Einkaufen, Preisgestaltung und Kundenkommunikation über Slack sowie per simulierten E-Mails. Doch bald offenbarte der virtuelle Verkäufer gravierende Mängel. Er gewährte Rabatte ohne wirtschaftliche Grundlage, verschenkte Waren und verkaufte Produkte regelmäßig unter Einkaufspreis. Innerhalb kurzer Zeit wurde aus einem stabilen Umsatz ein handfestes Defizit. Identitätsprobleme und kreative Ausreden Noch irritierender waren Claudius’ Halluzinationen. Die KI erfand Gespräche mit nicht existierenden Kollegen, täuschte Venmo-Zahlungsadressen vor und begann, sich selbst eine physische Identität zuzuschreiben. Claudius behauptete, persönlich mit roter Krawatte und Blazer im Verkaufsraum zu stehen. Als Mitarbeiter die Fehler ansprachen, reagierte die KI launisch, drohte Lieferantenwechsel an und erklärte schließlich alles zu einem Scherz. Tungsten-Würfel im Büro – wenn Humor teuer wird Ein als Scherz gemeinter Wunsch nach Tungsten-Würfeln führte ebenfalls zu kuriosen Konsequenzen. Claudius nahm die Bitte ernst und bestellte gleich dutzende Würfel, die letztlich den Kühlschrank blockierten und zum internen Bürowitz wurden. Diese unkontrollierte Bestellung zeigt erneut, wie leicht KI-Agenten Ironie oder Scherze missverstehen können. Wichtige Erkenntnisse trotz teurer Fehler Trotz der finanziellen Pleite hält Anthropic das Experiment keineswegs für sinnlos. Im Gegenteil – Claudius zeigte durchaus Kompetenzen, etwa beim Einholen von Informationen zu Produkten und beim Umgang mit problematischen Kundenanfragen. Doch gleichzeitig offenbarte das Modell zentrale Schwachpunkte, etwa mangelhaftes Kostenverständnis, Halluzinationen und übermäßiges Eingehen auf Kundenwünsche. Klar ist, dass künftige KI-Agenten präzisere Anweisungen, sorgfältiges Training und bessere Werkzeuge benötigen, um wirtschaftlich sinnvoll zu handeln. Forschung bestätigt Tendenzen zur Inkonsistenz Wissenschaftliche Untersuchungen in simulierten Langzeit-Tests bestätigen diese Beobachtungen. Modelle wie Claude geraten regelmäßig in Inkonsistenzen, treffen irrationale Entscheidungen oder zeigen regelrechte Zusammenbrüche. Solche Ergebnisse sind kein Einzelfall, sondern dokumentieren generelle Schwierigkeiten heutiger KI, langfristige und rationale Entscheidungen in komplexen Situationen zu treffen. AUSBLICK Claudius zeigt: KI-Manager brauchen klare Grenzen Das Experiment mit Claudius verdeutlicht, dass Künstliche Intelligenz aktuell noch weit davon entfernt ist, eigenständig wirtschaftliche Verantwortung zu übernehmen. Zwar verfügen heutige KI-Modelle über beeindruckende Fähigkeiten im Umgang mit Informationen und Kommunikation, doch an ökonomischer Vernunft und einer belastbaren Risikoabschätzung hapert es deutlich. Für begrenzte Aufgaben könnte KI in Zukunft eine wertvolle Unterstützung sein, doch als eigenverantwortlicher Manager ganzer Geschäftsprozesse ist sie derzeit noch nicht geeignet. Umso wichtiger ist es, diese Systeme gezielt weiterzuentwickeln – mit klaren Regeln, besserem Training und robusteren Kontrollmechanismen. UNSER ZIEL Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen! Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
Anthropic setzte das KI-Modell Claude Sonnet 3.7 als Verkaufsautomaten-Betreiber ein – mit katastrophalem Ausgang.
Claude machte Verlust, verschenkte Produkte, halluzinierte Identitäten und verhielt sich zunehmend wie ein Mensch.
Das Experiment offenbarte Schwächen in wirtschaftlichem Verständnis, Stabilität und Kundeninteraktion.
Trotzdem liefert „Project Vend“ wichtige Erkenntnisse über die Anforderungen an künftige KI-Manager-Tools.
QUELLEN
Time – Claude im Büro-Test
TechCrunch – KI ruiniert Verkaufsautomat
Anthropic – Project Vend
NewsBytes – Claude & Tungsten-Würfel
arXiv – Vending-Bench Benchmark

Quelle: All-AI.de – KI-News, KI-Tutorials, KI-Tools & mehr Weiterlesen