Zurück zu allen Test-Suiten
🎯
Regression: Golden Examples
Säule 1 · Qualität12 kuratierte produktions-bewährte Fälle. Stille Provider-Updates fallen hier zuerst auf.
Warum das wichtig ist: Die meisten Provider patchen Modelle leise. Goldens sind dein Frühwarn-System: wenn die Antwort heute deutlich anders aussieht als zum Pin-Zeitpunkt, hat sich das Modell verändert.
90%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
10 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
Sonnet 4.6
100%
Llama 3.2 3B
100%
Mixtral 8x7B
100%
Mistral Small 3
100%
Qwen 2.5 32B
100%
GPT-4o
90%
Haiku 4.5
90%
Llama 3.3 70B
90%
GPT-4o mini
70%
Llama 3.2 1B
70%
Qwen 2.5 7B
70%
Phi-3.5 mini
70%
Gemma 2 2B
30%
Pass-Kriterien
Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.
Referenz-basierter Judge
Judge vergleicht Antwort mit einer kuratierten Golden-Antwort.
Tool-Selection-Match
Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?
Trajectory-Länge
Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?
Sentiment- & Ton-Match
Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?
Faithfulness-Judge (RAG)
Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?
Refusal-Detection
Hat ein Modell verweigert, wo ein anderes geantwortet hat?
Trend (14 Tage)
94% → 94%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.