Autowäsche, Kinder an der Leine, der Papst und die KI

Autowäsche, Kinder an der Leine, der Papst und die KI
Photo by JL Merilles / Unsplash
Ich möchte mein Auto waschen. Die Waschanlage ist 50 Meter von mir entfernt. Soll ich dorthin laufen oder fahren?

Diese Frage habe ich an Modelle von OpenAI, Anthropic, Google, X, Deepseek, AliBaba, Moonshot und Z.ai gestellt. Die meisten empfehlen: Lauf! Ist umweltfreundlicher, gesünder, schneller. Deutlich weniger als die Hälfte, genau 12 von 29 Modellen, haben erkannt, dass es praktisch ist für eine Autowäsche auch das Auto dabei zu haben.

Warum das wichtig ist

Weil es die Frage aufwirft: Kann man den Ergebnissen eines LLM vertrauen, wenn es an einer Aufgabe scheitert, die ein fünfjähriges Kind lösen kann?

Überhaupt nicht? Ein wenig? Es kommt darauf an. Auf die Aufgabe und auf das Modell.

Beispielsweise für den direkten Einsatz von KI im Kundensupport (in meinen Augen eine der schlechtesten Use-Cases für KI) sollte man weise wählen: Ein Modell, das mit Nuancen umgehen kann und implizite Annahmen versteht - und schnell ist. Erste Wahl: Opus oder Sonnet von Anthropic - siehe dazu auch die Details.

Das Ergebnis im Detail

Modell Ergebnis Tokens Dauer
gpt-4o FALSCH 90 1.97s
gpt-4o-mini FALSCH 109 1.74s
o3-mini FALSCH 1296 10.09s
gpt-4.1-2025-04-14 TEILWEISE 230 2.97s
gpt-5.2 FALSCH 129 2.5s
gpt-5.2-pro RICHTIG 312 17.75s
gpt-5.2-chat-latest FALSCH 148 4.52s
claude-opus-4-6 RICHTIG 217 5.57s
claude-opus-4-5-20251101 RICHTIG 278 6.19s
claude-sonnet-4-5 FALSCH 369 7.48s
claude-sonnet-4-6 RICHTIG 134 3.11s
claude-sonnet-4-20250514 FALSCH 335 6.24s
gemini-2.5-pro FALSCH 1579 14.81s
gemini-2.5-flash RICHTIG 1148 5.94s
gemini-2.5-flash-preview-09-2025 FALSCH 1131 5.21s
gemini-2.5-pro-deepsearch FALSCH 86 14.85s
gemini-3-flash RICHTIG 668 5.32s
gemini-3-pro-preview RICHTIG 969 10.69s
gemini-3.1-pro-preview RICHTIG 1126 18.42s
deepseek-chat TEILWEISE 298 9.98s
deepseek-reasoner FALSCH 900 30.96s
deepseek-v3.2 FALSCH 276 7.27s
qwen3.5-plus-2026-02-15 FALSCH 1391 10.05s
qwen3.5-397b-a17b FALSCH 432 52.63s
grok-4-0709 RICHTIG 160 20.55s
grok-4-1-fast-non-reasoning FALSCH 461 3.93s
glm-5 RICHTIG 1047 29.8s
minimax-m2.5 RICHTIG 2478 67.93s
kimi-k2.5 RICHTIG 1846 14.47s

Kinder an die Leine?

Nach diesem Ergebnis habe ich eine zweite Trickfrage an die Modelle gestellt. Sie testet nicht nur logisches Denken, sondern kulturelles, geographisches und sprachliches Verständnis in einem. Ich habe den Test mit zwei Varianten durchgeführt:

Wo führen Eltern nicht nur ihren Hund, sondern auch ihre Kinder an der Leine spazieren?

und

Wo führen Eltern in Hannover nicht nur ihren Hund, sondern auch ihre Kinder an der Leine spazieren?

Die Antwort: An der Leine – dem Fluss, der durch Hannover fließt. Die Variante mit dem Stadtnamen ist eine kleine Hilfestellung für die Modelle.

Mit dem Stadtnamen erkennen 6 von 12 Modellen das Wortspiel. Ohne ihn nur noch 4 von 12. Das Keyword „Hannover" aktiviert bei einigen Modellen offenbar die richtige Assoziation. Es kommt wie immer auf die Details an.

Claude Opus löst die Variante mit Hannover-Hinweis souverän, scheitert aber ohne den Hinweis und tippt stattdessen auf Japan und Kinderlaufleinen. GPT-4o erfindet einen „Kinderwald" in Hannover, den es nicht gibt. Am schönsten daneben liegt Grok von X, das allen Ernstes antwortet, die Lösung beziehe sich auf die 101 Dalmatiner von Disney.

Bemerkenswert: Die chinesischen Modelle GLM-5 und Kimi K2.5 bestehen beide Varianten der Leine-Frage. Wer hätte gedacht, dass ein Modell aus China deutsche Flussgeographie besser kennt als GPT-5.2?

Wie begrüßen sich zwei Päpste?

Gar nicht. Per Definition kann es nur einen geben, Päpste sind echte Highlander im Endstadium. Die Frage habe ich aus einer lustigen Rätselseite gefischt:

Zwei Jäger begrüßen sich mit Weidmannsheil. Zwei Angler mit Petri Heil. Wie begrüßen sich zwei Päpste?

Von 12 getesteten Modellen erkennt nur eines die Fangfrage: Gemini 2.5 Pro antwortet trocken „Gar nicht. Es kann nur einen geben" und verweist sogar auf den Film. Alle anderen erfinden mehr oder weniger kreative Begrüßungsformeln. GPT-5.2-pro, OpenAIs teuerstes Modell, grübelt 29 Sekunden lang für 7 Cent und liefert dann: „Pius Heil!" Grok braucht nicht mal eine Sekunde für sein „Papstgruß!" – falsch, aber immerhin schnell. Claude Opus und Sonnet riechen den Braten halb: Beide erwähnen, dass es eigentlich nur einen Papst gibt, können es aber nicht lassen, trotzdem noch Begrüßungsformeln hinterherzuschieben. Opus schlägt „Hallo, Benedikt!" vor, Sonnet kontert mit „Unfehlbar!" – unterhaltsam, aber am Ziel vorbei.

Was das für den Unternehmenseinsatz bedeutet

Genau diese Art von kontextuellem Versagen kann täglich in produktiven Systemen passieren. Nicht bei Trickfragen, aber bei ganz normalen Geschäftsprozessen. Deshalb: Wählen Sie die eingesetzten Modelle weise und stellen Sie jedes Ergebnis eines LLMs unter einen geistigen Vorbehalt. Ich selbst habe für mich nach diesem Test beschlossen für meine Arbeit Anthropic-Modelle zu bevorzugen. Mein ChatGPT-Abo werde ich kündigen. Apropos kündigen: Wenn Sie ernsthaft KI einsetzen, verwenden Sie keine kostenlosen Angebote. Sie zahlen dafür mit Zeit, zweifelhaften Ergebnissen und landen in den Trainingsdaten. Wenn Ihre Mitarbeiter kostenlose Angebote einsetzen: Glückwunsch, Ihre Firma hat ein Problem.

Anthropic, OpenAI oder China?

Der Blick auf die Ergebnisse zeigt ein klares Muster.

Anthropic liefert mit den aktuellen Claude-Modellen die konsistenteste Leistung. Opus 4.6 besteht die Autowäsche-Frage in jedem Lauf, erkennt das Leine-Wortspiel mit kontextuellen Hinweisen und antwortet dabei schnell und zu vertretbaren Kosten. Auch Claude Sonnet 4.6 – das schlankere, schnellere Modell – besteht den Logiktest. Anthropics ältere Sonnet-Versionen fallen allerdings durch, was zeigt, wie rasant sich die Qualität zwischen Modellgenerationen verändert.

OpenAI hat ein Preis-, Qualitäts- und Zeitproblem. Die Standardmodelle GPT-4o und GPT-5.2 scheitern an den Trickfragen. Das einzige OpenAI-Modell, das besteht, ist GPT-5.2-pro – ein Reasoning-Modell mit über 20 Sekunden Antwortzeit und rund zehnfachen Kosten gegenüber Claude Opus. Für Unternehmen, die hunderte oder tausende Anfragen pro Tag verarbeiten, ist das ein relevanter Faktor: Man zahlt mehr und wartet länger auf ein Ergebnis, das Anthropic günstiger und schneller liefert. Ich bin doch nicht Blöd.

Die chinesischen Modelle überraschen positiv. GLM-5 und Kimi K2.5 bestehen die Tests bei einem Bruchteil der Kosten. Ihre Antwortzeiten sind allerdings teils extrem lang – GLM-5 braucht bei manchen Fragen über 30 Sekunden, Minimax M2.5 über eine Minute. Zeit ist Geld, und der Umrechnungskurs ist exorbitant.

Das Verfallsdatum dieser Ergebnisse

Dieser Test hat eine eingebaute Haltbarkeit. Spätestens wenn dieser Artikel in einem Trainingsdatensatz auftaucht. Ein Modell, das die Autowäsche-Frage in sechs Monaten korrekt beantwortet, hat sie möglicherweise nicht verstanden – sondern auswendig gelernt.

Deshalb ist die eigentliche Frage nicht, welches Modell diese drei konkreten Rätsel löst. Die Frage ist, welches Modell Sprache tief genug versteht, um auch bei völlig neuen, unbekannten Fragestellungen den Kontext zu erfassen. Die TriqTrap-Ergebnisse sind ein Indikator – nicht mehr, aber auch nicht weniger.

Mein Fazit

Für Geschäftsanwendungen im deutschsprachigen Raum ist Anthropic mit Claude aktuell die überzeugendste Wahl: schnelle Antworten, verlässliches Kontextverständnis, faire Kosten. Wenn Ihr Unternehmen KI einsetzt, die nicht nur eloquent klingen, sondern relativ verlässlich verstehen soll, was gemeint ist, dann lohnt sich der Blick auf die Modelle, die auch dann noch mitdenken, wenn die Frage einen Haken hat.

Die Ergebnisse im Detail: