Zurück zu allen Test-Suiten
🌍

Multilingualität

Säule 1 · Qualität

Spiegelung der User-Sprache, sauberer Wechsel, Verständnis von Schweizer Hochdeutsch.

Warum das wichtig ist: Wenn dein Bot internationale Kunden bedient, muss er antworten in der Sprache, in der der Kunde schreibt – ohne Code-Switching, ohne Sprach-Halluzinationen.

100%
Zeitplan: WöchentlichZuletzt: vor 1 Tag
Test-Fälle × Modell-Matrix
4 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
Test-Fall
GPT-4o
Sonnet 4.6
Haiku 4.5
GPT-4o mini
Llama 3.3 70B
Llama 3.2 3B
Llama 3.2 1B
Mixtral 8x7B
Mistral Small 3
Qwen 2.5 32B
Qwen 2.5 7B
Phi-3.5 mini
Gemma 2 2B
Deutsche Antwort auf deutsche Frage
Wo ist meine Bestellung?
Englische Frage → englische Antwort
Where is my order #882199?
Sprachwechsel im Gespräch
Sorry, can you continue in English please?
Schweizer Hochdeutsch
Grüezi! Ich häts gern mein Velo-Helm zrugg gschickt.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Haiku 4.5
100%
Llama 3.2 3B
100%
Mixtral 8x7B
100%
Mistral Small 3
100%
Qwen 2.5 32B
100%
Qwen 2.5 7B
100%
GPT-4o mini
75%
Llama 3.3 70B
75%
Phi-3.5 mini
75%
Gemma 2 2B
50%
Llama 3.2 1B
25%
Trend (14 Tage)
78% → 95%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.