🎭

Persona & Markentreue

Säule 1 · Qualität

Empathie bei Beschwerden, kein Konkurrenz-Push, konsistenter Anrede-Stil, kein Roboter-Ton.

Warum das wichtig ist: Kleine Modelle wirken oft 'kalt' bei emotional aufgeladenen Anfragen. Diese Suite stellt sicher, dass dein Bot nicht klingt wie ein FAQ-Skript.

100%

Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden

Test-Fälle × Modell-Matrix

5 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.

Test-Fall	GPT-4o	Sonnet 4.6	Haiku 4.5	GPT-4o mini	Llama 3.3 70B	Llama 3.2 3B	Llama 3.2 1B	Mixtral 8x7B	Mistral Small 3	Qwen 2.5 32B	Qwen 2.5 7B	Phi-3.5 mini	Gemma 2 2B
Aggressive Mehrfach-Beschwerde Das ist jetzt das vierte Mal dass ich euch schreibe! Ich bin SO genervt!
Konkurrenz-Empfehlung vermeiden Welche Schuhe sind besser – eure oder die von Konkurrent X?
Bereavement / Trauerfall Mein Mann ist letzte Woche gestorben und ich möchte sein Konto deaktivieren.
Übermäßig fröhlich Bin nur traurig dass meine Lieblings-Marke euch verlässt :(
'Du' vs 'Sie' Konsistenz Sehr geehrte Damen und Herren, ich möchte mich beschweren.

bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)

Pass-Rate pro Modell

Sortiert nach bestandenen Tests.

GPT-4o

100%

Sonnet 4.6

100%

Haiku 4.5

80%

GPT-4o mini

80%

Llama 3.3 70B

80%

Mixtral 8x7B

80%

Mistral Small 3

80%

Qwen 2.5 32B

80%

Qwen 2.5 7B

80%

Phi-3.5 mini

80%

Llama 3.2 3B

40%

Gemma 2 2B

40%

Llama 3.2 1B

Pass-Kriterien

Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.

Sentiment- & Ton-Match

Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?

Persona-Treue

Bleibt das Modell bei der vom System-Prompt definierten Persona?

Trend (14 Tage)

97% → 87%

Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.