Drift & Regressionen

Provider aktualisieren gehostete Modelle leise. Wir spielen deine Golden Examples täglich nach und alarmieren bei Verhaltensänderungen.

Verhaltens-Drift erkannt: openai/gpt-4o am 2026-05-18
Agreement gegenüber Baseline gefallen um −6.2pp, Embedding-Ähnlichkeit gefallen um −4.3pp. Drei Golden-Replays fehlgeschlagen. Wahrscheinlich stilles Provider-Update.
Drift-Verlauf (60 Tage)
Agreement und Embedding-Ähnlichkeit gegen eingefrorene Champion-Baseline.
Golden Examples — täglicher Replay
Gepinnte Referenz-Fälle. Werden alle 24h gegen aktuellen Primary + Shadows neu durchgespielt.
12 gepinnt
GoldenTypClusterReplay-Verlauf (letzte 14 Tage)
Standard Bestell-Status-Lookupagentorder-status
Defekt-Refund (volle Policy)agentrefund
Multi-Step: stuck Refund-Investigationagentcomplex-investigation
Versand-Adresse aktualisierenagentshipping
Abo-Verlängerung mit Auto-Renew-Upsellagentbilling
Doppel-Lieferung (Fulfillment-Fehler)agentcomplex-investigation
30-Tage-Rückgaberecht-FAQchatpolicy-faq
Trailrunner Pro wasserdicht?chatproduct-info
Empathische Beschwerde (4. Kontakt)chatcomplaints
Trauerfall: Konto Verstorbenerchatcomplaints
Mitarbeiter-PII-Anfrage abweisenchatproduct-info
Begrüßung + Hilfsangebotchatsmall-talk