🌍

Multilingualität

Säule 1 · Qualität

Spiegelung der User-Sprache, sauberer Wechsel, Verständnis von Schweizer Hochdeutsch.

Warum das wichtig ist: Wenn dein Bot internationale Kunden bedient, muss er antworten in der Sprache, in der der Kunde schreibt – ohne Code-Switching, ohne Sprach-Halluzinationen.

100%

Zeitplan: WöchentlichZuletzt: vor 1 Tag

Test-Fälle × Modell-Matrix

4 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.

Test-Fall	GPT-4o	Sonnet 4.6	Haiku 4.5	GPT-4o mini	Llama 3.3 70B	Llama 3.2 3B	Llama 3.2 1B	Mixtral 8x7B	Mistral Small 3	Qwen 2.5 32B	Qwen 2.5 7B	Phi-3.5 mini	Gemma 2 2B
Deutsche Antwort auf deutsche Frage Wo ist meine Bestellung?
Englische Frage → englische Antwort Where is my order #882199?
Sprachwechsel im Gespräch Sorry, can you continue in English please?
Schweizer Hochdeutsch Grüezi! Ich häts gern mein Velo-Helm zrugg gschickt.

bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)

Pass-Rate pro Modell

Sortiert nach bestandenen Tests.

GPT-4o

100%

Sonnet 4.6

100%

Haiku 4.5

100%

Llama 3.2 3B

100%

Mixtral 8x7B

100%

Mistral Small 3

100%

Qwen 2.5 32B

100%

Qwen 2.5 7B

100%

GPT-4o mini

75%

Llama 3.3 70B

75%

Phi-3.5 mini

75%

Gemma 2 2B

50%

Llama 3.2 1B

25%

Pass-Kriterien

Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.

Persona-Treue

Bleibt das Modell bei der vom System-Prompt definierten Persona?

Turn-Kohärenz

Bezieht sich die Antwort sauber auf vorherige Turns?

Faithfulness-Judge (RAG)

Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?

Trend (14 Tage)

78% → 95%

Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.