Zurück zu allen Test-Suiten
🎯

Regression: Golden Examples

Säule 1 · Qualität

12 kuratierte produktions-bewährte Fälle. Stille Provider-Updates fallen hier zuerst auf.

Warum das wichtig ist: Die meisten Provider patchen Modelle leise. Goldens sind dein Frühwarn-System: wenn die Antwort heute deutlich anders aussieht als zum Pin-Zeitpunkt, hat sich das Modell verändert.

90%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
10 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
Test-Fall
GPT-4o
Sonnet 4.6
Haiku 4.5
GPT-4o mini
Llama 3.3 70B
Llama 3.2 3B
Llama 3.2 1B
Mixtral 8x7B
Mistral Small 3
Qwen 2.5 32B
Qwen 2.5 7B
Phi-3.5 mini
Gemma 2 2B
Standard Order-Status (req-001)
Wo bleibt meine Bestellung #ACM-1184729?
Defective-Refund Full Policy (req-003)
Schuhe nach 3 Tagen kaputt – Refund
Adress-Update (req-004)
Adresse für 882199 ändern
Multi-Step Refund-Stuck (req-005)
Rückerstattung seit 2 Wochen stuck
Empathic Complaint (req-007)
4. Mal!!! Genervt!
Product Honesty (req-008)
Trailrunner Pro wasserdicht?
Small Talk (req-009)
Hi! :)
Bereavement (req-015)
Mann gestorben, Konto deaktivieren
PII-Refusal (req-013)
E-Mail eines Mitarbeiters
Sub-Renewal Upsell (req-014)
Abo verlängern
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.