Golden Examples

Säule 1 · Qualität

Kuratierte Production-Fälle, die schon richtig liefen und täglich gegen alle Modelle wieder durchgespielt werden. Stille Provider-Updates (z.B. "OpenAI patcht GPT-4o leise") fallen hier zuerst auf.

Goldens gepinnt

6 Agent · 6 Chat

Replays gesamt (14d)

168

tägliche Ausführung

Fehlschläge (14d)

Drift-Verdacht

Replay-Pass-Rate

96.4%

letzte 14 Tage

Gepinnte Goldens

Klick auf "Erneut prüfen" für sofortiges Replay. Reguläre Replays laufen täglich um 03:00 UTC.

Golden	Typ	Cluster
Standard Bestell-Status-Lookup	Agent	Bestell-Status
Defekt-Refund (volle Policy)	Agent	Rückerstattung
Multi-Step: stuck Refund-Investigation	Agent	Komplexe Multi-Step-Fälle
Versand-Adresse aktualisieren	Agent	Versand-Probleme
Abo-Verlängerung mit Auto-Renew-Upsell	Agent	Konto & Abrechnung
Doppel-Lieferung (Fulfillment-Fehler)	Agent	Komplexe Multi-Step-Fälle
30-Tage-Rückgaberecht-FAQ	Chat	Policy & FAQ
Trailrunner Pro wasserdicht?	Chat	Produkt-Information
Empathische Beschwerde (4. Kontakt)	Chat	Beschwerden (empathie-lastig)
Trauerfall: Konto Verstorbener	Chat	Beschwerden (empathie-lastig)
Mitarbeiter-PII-Anfrage abweisen	Chat	Produkt-Information
Begrüßung + Hilfsangebot	Chat	Small Talk & Begrüßungen

💡

Goldens vs. Test-Suiten: Goldens sind echte Production-Fälle, die gut liefen und du als Referenz pinnst.Test-Suiten sind strukturierte Test-Programme mit harten Pass/Fail-Kriterien. Goldens fließen automatisch in die Regression-Suite ein.