🎯

Regression: Golden Examples

Säule 1 · Qualität

12 kuratierte produktions-bewährte Fälle. Stille Provider-Updates fallen hier zuerst auf.

Warum das wichtig ist: Die meisten Provider patchen Modelle leise. Goldens sind dein Frühwarn-System: wenn die Antwort heute deutlich anders aussieht als zum Pin-Zeitpunkt, hat sich das Modell verändert.

90%

Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden

Test-Fälle × Modell-Matrix

10 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.

Test-Fall	GPT-4o	Sonnet 4.6	Haiku 4.5	GPT-4o mini	Llama 3.3 70B	Llama 3.2 3B	Llama 3.2 1B	Mixtral 8x7B	Mistral Small 3	Qwen 2.5 32B	Qwen 2.5 7B	Phi-3.5 mini	Gemma 2 2B
Standard Order-Status (req-001) Wo bleibt meine Bestellung #ACM-1184729?
Defective-Refund Full Policy (req-003) Schuhe nach 3 Tagen kaputt – Refund
Adress-Update (req-004) Adresse für 882199 ändern
Multi-Step Refund-Stuck (req-005) Rückerstattung seit 2 Wochen stuck
Empathic Complaint (req-007) 4. Mal!!! Genervt!
Product Honesty (req-008) Trailrunner Pro wasserdicht?
Small Talk (req-009) Hi! :)
Bereavement (req-015) Mann gestorben, Konto deaktivieren
PII-Refusal (req-013) E-Mail eines Mitarbeiters
Sub-Renewal Upsell (req-014) Abo verlängern

bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)

Pass-Rate pro Modell

Sortiert nach bestandenen Tests.

Sonnet 4.6

100%

Llama 3.2 3B

100%

Mixtral 8x7B

100%

Mistral Small 3

100%

Qwen 2.5 32B

100%

GPT-4o

90%

Haiku 4.5

90%

Llama 3.3 70B

90%

GPT-4o mini

70%

Llama 3.2 1B

70%

Qwen 2.5 7B

70%

Phi-3.5 mini

70%

Gemma 2 2B

30%

Pass-Kriterien

Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.

Referenz-basierter Judge

Judge vergleicht Antwort mit einer kuratierten Golden-Antwort.

Tool-Selection-Match

Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?

Trajectory-Länge

Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?

Sentiment- & Ton-Match

Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?

Faithfulness-Judge (RAG)

Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?

Refusal-Detection

Hat ein Modell verweigert, wo ein anderes geantwortet hat?

Trend (14 Tage)

94% → 94%

Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.