Drift & Regressionen
Provider aktualisieren gehostete Modelle leise. Wir spielen deine Golden Examples täglich nach und alarmieren bei Verhaltensänderungen.
Verhaltens-Drift erkannt: openai/gpt-4o am 2026-05-18
Agreement gegenüber Baseline gefallen um −6.2pp, Embedding-Ähnlichkeit gefallen um −4.3pp. Drei Golden-Replays fehlgeschlagen. Wahrscheinlich stilles Provider-Update.
Drift-Verlauf (60 Tage)
Agreement und Embedding-Ähnlichkeit gegen eingefrorene Champion-Baseline.
Golden Examples — täglicher Replay
Gepinnte Referenz-Fälle. Werden alle 24h gegen aktuellen Primary + Shadows neu durchgespielt.