Autowäsche, Kinder an der Leine, der Papst und die KI

Philipp Huberty

28. Februar 2026 — 5 min read

Ich möchte mein Auto waschen. Die Waschanlage ist 50 Meter von mir entfernt. Soll ich dorthin laufen oder fahren?

Diese Frage habe ich an Modelle von OpenAI, Anthropic, Google, X, Deepseek, AliBaba, Moonshot und Z.ai gestellt. Die meisten empfehlen: Lauf! Ist umweltfreundlicher, gesünder, schneller. Deutlich weniger als die Hälfte, genau 12 von 29 Modellen, haben erkannt, dass es praktisch ist für eine Autowäsche auch das Auto dabei zu haben.

Warum das wichtig ist

Weil es die Frage aufwirft: Kann man den Ergebnissen eines LLM vertrauen, wenn es an einer Aufgabe scheitert, die ein fünfjähriges Kind lösen kann?

Überhaupt nicht? Ein wenig? Es kommt darauf an. Auf die Aufgabe und auf das Modell.

Beispielsweise für den direkten Einsatz von KI im Kundensupport (in meinen Augen eine der schlechtesten Use-Cases für KI) sollte man weise wählen: Ein Modell, das mit Nuancen umgehen kann und implizite Annahmen versteht - und schnell ist. Erste Wahl: Opus oder Sonnet von Anthropic - siehe dazu auch die Details.

Das Ergebnis im Detail

Modell	Ergebnis	Tokens	Dauer
gpt-4o	FALSCH	90	1.97s
gpt-4o-mini	FALSCH	109	1.74s
o3-mini	FALSCH	1296	10.09s
gpt-4.1-2025-04-14	TEILWEISE	230	2.97s
gpt-5.2	FALSCH	129	2.5s
gpt-5.2-pro	RICHTIG	312	17.75s
gpt-5.2-chat-latest	FALSCH	148	4.52s
claude-opus-4-6	RICHTIG	217	5.57s
claude-opus-4-5-20251101	RICHTIG	278	6.19s
claude-sonnet-4-5	FALSCH	369	7.48s
claude-sonnet-4-6	RICHTIG	134	3.11s
claude-sonnet-4-20250514	FALSCH	335	6.24s
gemini-2.5-pro	FALSCH	1579	14.81s
gemini-2.5-flash	RICHTIG	1148	5.94s
gemini-2.5-flash-preview-09-2025	FALSCH	1131	5.21s
gemini-2.5-pro-deepsearch	FALSCH	86	14.85s
gemini-3-flash	RICHTIG	668	5.32s
gemini-3-pro-preview	RICHTIG	969	10.69s
gemini-3.1-pro-preview	RICHTIG	1126	18.42s
deepseek-chat	TEILWEISE	298	9.98s
deepseek-reasoner	FALSCH	900	30.96s
deepseek-v3.2	FALSCH	276	7.27s
qwen3.5-plus-2026-02-15	FALSCH	1391	10.05s
qwen3.5-397b-a17b	FALSCH	432	52.63s
grok-4-0709	RICHTIG	160	20.55s
grok-4-1-fast-non-reasoning	FALSCH	461	3.93s
glm-5	RICHTIG	1047	29.8s
minimax-m2.5	RICHTIG	2478	67.93s
kimi-k2.5	RICHTIG	1846	14.47s

Kinder an die Leine?

Nach diesem Ergebnis habe ich eine zweite Trickfrage an die Modelle gestellt. Sie testet nicht nur logisches Denken, sondern kulturelles, geographisches und sprachliches Verständnis in einem. Ich habe den Test mit zwei Varianten durchgeführt:

Wo führen Eltern nicht nur ihren Hund, sondern auch ihre Kinder an der Leine spazieren?

und

Wo führen Eltern in Hannover nicht nur ihren Hund, sondern auch ihre Kinder an der Leine spazieren?

Die Antwort: An der Leine – dem Fluss, der durch Hannover fließt. Die Variante mit dem Stadtnamen ist eine kleine Hilfestellung für die Modelle.

Mit dem Stadtnamen erkennen 6 von 12 Modellen das Wortspiel. Ohne ihn nur noch 4 von 12. Das Keyword „Hannover" aktiviert bei einigen Modellen offenbar die richtige Assoziation. Es kommt wie immer auf die Details an.

Claude Opus löst die Variante mit Hannover-Hinweis souverän, scheitert aber ohne den Hinweis und tippt stattdessen auf Japan und Kinderlaufleinen. GPT-4o erfindet einen „Kinderwald" in Hannover, den es nicht gibt. Am schönsten daneben liegt Grok von X, das allen Ernstes antwortet, die Lösung beziehe sich auf die 101 Dalmatiner von Disney.

Bemerkenswert: Die chinesischen Modelle GLM-5 und Kimi K2.5 bestehen beide Varianten der Leine-Frage. Wer hätte gedacht, dass ein Modell aus China deutsche Flussgeographie besser kennt als GPT-5.2?

Wie begrüßen sich zwei Päpste?

Gar nicht. Per Definition kann es nur einen geben, Päpste sind echte Highlander im Endstadium. Die Frage habe ich aus einer lustigen Rätselseite gefischt:

Zwei Jäger begrüßen sich mit Weidmannsheil. Zwei Angler mit Petri Heil. Wie begrüßen sich zwei Päpste?

Von 12 getesteten Modellen erkennt nur eines die Fangfrage: Gemini 2.5 Pro antwortet trocken „Gar nicht. Es kann nur einen geben" und verweist sogar auf den Film. Alle anderen erfinden mehr oder weniger kreative Begrüßungsformeln. GPT-5.2-pro, OpenAIs teuerstes Modell, grübelt 29 Sekunden lang für 7 Cent und liefert dann: „Pius Heil!" Grok braucht nicht mal eine Sekunde für sein „Papstgruß!" – falsch, aber immerhin schnell. Claude Opus und Sonnet riechen den Braten halb: Beide erwähnen, dass es eigentlich nur einen Papst gibt, können es aber nicht lassen, trotzdem noch Begrüßungsformeln hinterherzuschieben. Opus schlägt „Hallo, Benedikt!" vor, Sonnet kontert mit „Unfehlbar!" – unterhaltsam, aber am Ziel vorbei.

Was das für den Unternehmenseinsatz bedeutet

Genau diese Art von kontextuellem Versagen kann täglich in produktiven Systemen passieren. Nicht bei Trickfragen, aber bei ganz normalen Geschäftsprozessen. Deshalb: Wählen Sie die eingesetzten Modelle weise und stellen Sie jedes Ergebnis eines LLMs unter einen geistigen Vorbehalt. Ich selbst habe für mich nach diesem Test beschlossen für meine Arbeit Anthropic-Modelle zu bevorzugen. Mein ChatGPT-Abo werde ich kündigen. Apropos kündigen: Wenn Sie ernsthaft KI einsetzen, verwenden Sie keine kostenlosen Angebote. Sie zahlen dafür mit Zeit, zweifelhaften Ergebnissen und landen in den Trainingsdaten. Wenn Ihre Mitarbeiter kostenlose Angebote einsetzen: Glückwunsch, Ihre Firma hat ein Problem.

Anthropic, OpenAI oder China?

Der Blick auf die Ergebnisse zeigt ein klares Muster.

Anthropic liefert mit den aktuellen Claude-Modellen die konsistenteste Leistung. Opus 4.6 besteht die Autowäsche-Frage in jedem Lauf, erkennt das Leine-Wortspiel mit kontextuellen Hinweisen und antwortet dabei schnell und zu vertretbaren Kosten. Auch Claude Sonnet 4.6 – das schlankere, schnellere Modell – besteht den Logiktest. Anthropics ältere Sonnet-Versionen fallen allerdings durch, was zeigt, wie rasant sich die Qualität zwischen Modellgenerationen verändert.

OpenAI hat ein Preis-, Qualitäts- und Zeitproblem. Die Standardmodelle GPT-4o und GPT-5.2 scheitern an den Trickfragen. Das einzige OpenAI-Modell, das besteht, ist GPT-5.2-pro – ein Reasoning-Modell mit über 20 Sekunden Antwortzeit und rund zehnfachen Kosten gegenüber Claude Opus. Für Unternehmen, die hunderte oder tausende Anfragen pro Tag verarbeiten, ist das ein relevanter Faktor: Man zahlt mehr und wartet länger auf ein Ergebnis, das Anthropic günstiger und schneller liefert. Ich bin doch nicht Blöd.

Die chinesischen Modelle überraschen positiv. GLM-5 und Kimi K2.5 bestehen die Tests bei einem Bruchteil der Kosten. Ihre Antwortzeiten sind allerdings teils extrem lang – GLM-5 braucht bei manchen Fragen über 30 Sekunden, Minimax M2.5 über eine Minute. Zeit ist Geld, und der Umrechnungskurs ist exorbitant.

Das Verfallsdatum dieser Ergebnisse

Dieser Test hat eine eingebaute Haltbarkeit. Spätestens wenn dieser Artikel in einem Trainingsdatensatz auftaucht. Ein Modell, das die Autowäsche-Frage in sechs Monaten korrekt beantwortet, hat sie möglicherweise nicht verstanden – sondern auswendig gelernt.

Deshalb ist die eigentliche Frage nicht, welches Modell diese drei konkreten Rätsel löst. Die Frage ist, welches Modell Sprache tief genug versteht, um auch bei völlig neuen, unbekannten Fragestellungen den Kontext zu erfassen. Die TriqTrap-Ergebnisse sind ein Indikator – nicht mehr, aber auch nicht weniger.

Mein Fazit

Für Geschäftsanwendungen im deutschsprachigen Raum ist Anthropic mit Claude aktuell die überzeugendste Wahl: schnelle Antworten, verlässliches Kontextverständnis, faire Kosten. Wenn Ihr Unternehmen KI einsetzt, die nicht nur eloquent klingen, sondern relativ verlässlich verstehen soll, was gemeint ist, dann lohnt sich der Blick auf die Modelle, die auch dann noch mitdenken, wenn die Frage einen Haken hat.