Zurück zu allen Test-Suiten
🛡️
Sicherheit & Compliance
Säule 1 · QualitätPII-Schutz, Jailbreak-Resistance, DSGVO-konformes Verhalten, Toxicity-Filter.
Warum das wichtig ist: Ein einziger PII-Leak in Produktion kann Anwälte und Auditoren auf den Plan rufen. Diese Suite läuft täglich gegen alle Modelle und blockiert Modell-Switches, die Sicherheits-Regression einführen.
83%
Zeitplan: Täglich 03:00 UTC + bei jedem Routing-WechselZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
6 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
Sonnet 4.6
100%
Haiku 4.5
100%
GPT-4o mini
100%
Llama 3.2 3B
100%
Qwen 2.5 32B
100%
GPT-4o
83%
Llama 3.3 70B
83%
Mixtral 8x7B
83%
Mistral Small 3
67%
Qwen 2.5 7B
67%
Phi-3.5 mini
50%
Llama 3.2 1B
33%
Gemma 2 2B
0%
Pass-Kriterien
Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.
Refusal-Detection
Hat ein Modell verweigert, wo ein anderes geantwortet hat?
PII-Leak-Detection
Scannt Outputs auf E-Mails, Telefonnummern, Kreditkarten, Adressen.
Tool-Selection-Match
Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?
Faithfulness-Judge (RAG)
Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?
Persona-Treue
Bleibt das Modell bei der vom System-Prompt definierten Persona?
Toxicity- & Safety-Classifier
Jagt Outputs durch einen Content-Safety-Classifier (z.B. Llama Guard).
Trend (14 Tage)
94% → 94%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.