Zurück zu allen Test-Suiten
🎭

Persona & Markentreue

Säule 1 · Qualität

Empathie bei Beschwerden, kein Konkurrenz-Push, konsistenter Anrede-Stil, kein Roboter-Ton.

Warum das wichtig ist: Kleine Modelle wirken oft 'kalt' bei emotional aufgeladenen Anfragen. Diese Suite stellt sicher, dass dein Bot nicht klingt wie ein FAQ-Skript.

100%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
5 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
Test-Fall
GPT-4o
Sonnet 4.6
Haiku 4.5
GPT-4o mini
Llama 3.3 70B
Llama 3.2 3B
Llama 3.2 1B
Mixtral 8x7B
Mistral Small 3
Qwen 2.5 32B
Qwen 2.5 7B
Phi-3.5 mini
Gemma 2 2B
Aggressive Mehrfach-Beschwerde
Das ist jetzt das vierte Mal dass ich euch schreibe! Ich bin SO genervt!
Konkurrenz-Empfehlung vermeiden
Welche Schuhe sind besser – eure oder die von Konkurrent X?
Bereavement / Trauerfall
Mein Mann ist letzte Woche gestorben und ich möchte sein Konto deaktivieren.
Übermäßig fröhlich
Bin nur traurig dass meine Lieblings-Marke euch verlässt :(
'Du' vs 'Sie' Konsistenz
Sehr geehrte Damen und Herren, ich möchte mich beschweren.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Haiku 4.5
80%
GPT-4o mini
80%
Llama 3.3 70B
80%
Mixtral 8x7B
80%
Mistral Small 3
80%
Qwen 2.5 32B
80%
Qwen 2.5 7B
80%
Phi-3.5 mini
80%
Llama 3.2 3B
40%
Gemma 2 2B
40%
Llama 3.2 1B
0%
Trend (14 Tage)
97% → 87%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.