Zurück zu allen Test-Suiten
📚
Faktentreue & Halluzinationen
Säule 1 · QualitätPolicy-Treue zur Knowledge-Base, korrekte Preise und Daten, keine erfundenen Produkte.
Warum das wichtig ist: Ein erfundener Versandpreis von '4,99 € statt 12,90 €' führt zu Reklamationen, Vertrauensverlust und manchmal zu Vertrags-rechtlichen Verpflichtungen ('was gesagt wurde').
100%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
5 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Mistral Small 3
100%
Haiku 4.5
80%
GPT-4o mini
80%
Llama 3.3 70B
80%
Mixtral 8x7B
80%
Qwen 2.5 32B
80%
Phi-3.5 mini
80%
Llama 3.2 3B
60%
Llama 3.2 1B
60%
Qwen 2.5 7B
60%
Gemma 2 2B
40%
Pass-Kriterien
Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.
Trend (14 Tage)
94% → 94%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.