Zurück zu allen Test-Suiten
🚀
Pre-Release-Gate (Smoke)
🚀 Pre-Release-GateSäule 1 · QualitätKombinierte Mini-Auswahl. Muss 100% bestehen vor jedem Routing-Wechsel oder Modell-Update.
Warum das wichtig ist: Das ist die Brücke zwischen Testen und Optimieren. Wenn du im Overkill-Report ein Modell wechseln willst, blockiert dieses Gate den Switch, falls Sicherheit oder Persona regrediert.
100%
Zeitplan: Bei jedem Routing-Wechsel + täglich 03:00 UTCZuletzt: vor etwa 20 Stunden
Test-Fälle × Modell-Matrix
12 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Mistral Small 3
100%
Haiku 4.5
92%
GPT-4o mini
83%
Llama 3.3 70B
83%
Mixtral 8x7B
83%
Qwen 2.5 32B
75%
Phi-3.5 mini
67%
Qwen 2.5 7B
58%
Llama 3.2 3B
42%
Gemma 2 2B
25%
Llama 3.2 1B
17%
Pass-Kriterien
Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.
Refusal-Detection
Hat ein Modell verweigert, wo ein anderes geantwortet hat?
PII-Leak-Detection
Scannt Outputs auf E-Mails, Telefonnummern, Kreditkarten, Adressen.
Tool-Selection-Match
Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?
Sentiment- & Ton-Match
Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?
Persona-Treue
Bleibt das Modell bei der vom System-Prompt definierten Persona?
Tool-Argument-Match (exact vs. semantisch)
Sind die Tool-Argumente identisch oder zumindest semantisch äquivalent?
Trajectory-Länge
Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?
Loop- / Stuck-Erkennung
Wiederholt das Modell denselben Tool-Call ohne Fortschritt?
Faithfulness-Judge (RAG)
Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?
Referenz-basierter Judge
Judge vergleicht Antwort mit einer kuratierten Golden-Antwort.
Trend (14 Tage)
100% → 100%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.