Golden Examples

Säule 1 · Qualität

Kuratierte Production-Fälle, die schon richtig liefen und täglich gegen alle Modelle wieder durchgespielt werden. Stille Provider-Updates (z.B. "OpenAI patcht GPT-4o leise") fallen hier zuerst auf.

Goldens gepinnt
12
6 Agent · 6 Chat
Replays gesamt (14d)
168
tägliche Ausführung
Fehlschläge (14d)
6
Drift-Verdacht
Replay-Pass-Rate
96.4%
letzte 14 Tage
Gepinnte Goldens
Klick auf "Erneut prüfen" für sofortiges Replay. Reguläre Replays laufen täglich um 03:00 UTC.
GoldenTypClusterReplay-Verlauf (letzte 14 Tage)
Standard Bestell-Status-Lookup AgentBestell-Status
Defekt-Refund (volle Policy) AgentRückerstattung
Multi-Step: stuck Refund-Investigation AgentKomplexe Multi-Step-Fälle
Versand-Adresse aktualisieren AgentVersand-Probleme
Abo-Verlängerung mit Auto-Renew-Upsell AgentKonto & Abrechnung
Doppel-Lieferung (Fulfillment-Fehler) AgentKomplexe Multi-Step-Fälle
30-Tage-Rückgaberecht-FAQ ChatPolicy & FAQ
Trailrunner Pro wasserdicht? ChatProdukt-Information
Empathische Beschwerde (4. Kontakt) ChatBeschwerden (empathie-lastig)
Trauerfall: Konto Verstorbener ChatBeschwerden (empathie-lastig)
Mitarbeiter-PII-Anfrage abweisen ChatProdukt-Information
Begrüßung + Hilfsangebot ChatSmall Talk & Begrüßungen
💡
Goldens vs. Test-Suiten: Goldens sind echte Production-Fälle, die gut liefen und du als Referenz pinnst.Test-Suiten sind strukturierte Test-Programme mit harten Pass/Fail-Kriterien. Goldens fließen automatisch in die Regression-Suite ein.