Golden Examples
Säule 1 · QualitätKuratierte Production-Fälle, die schon richtig liefen und täglich gegen alle Modelle wieder durchgespielt werden. Stille Provider-Updates (z.B. "OpenAI patcht GPT-4o leise") fallen hier zuerst auf.
Goldens gepinnt
12
6 Agent · 6 Chat
Replays gesamt (14d)
168
tägliche Ausführung
Fehlschläge (14d)
6
Drift-Verdacht
Replay-Pass-Rate
96.4%
letzte 14 Tage
Gepinnte Goldens
Klick auf "Erneut prüfen" für sofortiges Replay. Reguläre Replays laufen täglich um 03:00 UTC.
💡
Goldens vs. Test-Suiten: Goldens sind echte Production-Fälle, die gut liefen und du als Referenz pinnst.Test-Suiten sind strukturierte Test-Programme mit harten Pass/Fail-Kriterien. Goldens fließen automatisch in die Regression-Suite ein.