Regeln & Experimente
Definiere, was wir spiegeln, gegen welche Modelle und mit welchen Eval-Methoden – ohne eine Zeile deines Anwendungs-Codes zu ändern.
Aktive Regeln
6 konfiguriert · 5 live
Baseline-Sweep (25%)
liveGesamter Traffic · Sampling 25% · gestern getroffen 2,086 (25.0% des Traffics)
Shadow-Targets
Sonnet 4.6🇺🇸🇪🇺Haiku 4.5🇺🇸🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Mistral Small 3🇪🇺🏠🇪🇺🛡️
Refund-Fälle gegen Sonnet (100%)
livetool == process_refund · Sampling 100% · gestern getroffen 52 (0.6% des Traffics)
Shadow-Targets
Sonnet 4.6🇺🇸🇪🇺
Chat-Traffic gegen Kleine + Souveräne
livetraffic == chat AND no_tool_used · Sampling 50% · gestern getroffen 798 (9.5% des Traffics)
Shadow-Targets
Llama 3.3 70B🇺🇸🏠🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Mistral Small 3🇪🇺🏠🇪🇺🛡️Phi-3.5 mini🇺🇸🏠🇪🇺
🛡️ Souveränitäts-Sweep (wöchentlich)
liveGesamter Traffic, wöchentlich gesampelt · Sampling 10% · gestern getroffen 841 (10.0% des Traffics)
Shadow-Targets
Mixtral 8x7B🇪🇺🏠🇪🇺🛡️Mistral Small 3🇪🇺🏠🇪🇺🛡️
Täglicher Golden-Replay (alle Modelle)
liveTäglich, 03:00 UTC · Sampling 100% · gestern getroffen 30
Shadow-Targets
Sonnet 4.6🇺🇸🇪🇺Haiku 4.5🇺🇸🇪🇺GPT-4o mini🇺🇸🇪🇺Llama 3.3 70B🇺🇸🏠🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Llama 3.2 1B🇺🇸🏠🇪🇺Mixtral 8x7B🇪🇺🏠🇪🇺🛡️Mistral Small 3🇪🇺🏠🇪🇺🛡️Qwen 2.5 32B🇨🇳🏠🇪🇺Qwen 2.5 7B🇨🇳🏠🇪🇺Phi-3.5 mini🇺🇸🏠🇪🇺Gemma 2 2B🇺🇸🏠🇪🇺
Long-Prompt-Regression (>2k Token)
pausiertinput_tokens > 2000 · Sampling 100% · gestern getroffen 12 (0.1% des Traffics)
Shadow-Targets
GPT-4o mini🇺🇸🇪🇺Llama 3.3 70B🇺🇸🏠🇪🇺
💡
Regeln vs. Test-Suiten: Regeln spiegeln Production-Traffic live mit (zur Beobachtung).Test-Suiten dagegen sind kuratierte Test-Programme mit harten Pass/Fail-Kriterien und laufen unabhängig vom Live-Traffic. Beide ergänzen sich.
Neue Regel (Vorschau)
So fühlt sich Regel-Anlegen an: Trigger wählen, Sampling, Ziel-Modelle (mit Souveränitäts-Filter), Eval-Methoden.
Trigger
Sampling-Rate
25 %
Ziel-Modelle
Filter: nur selbst hostbar
Filter: nur in EU deploybar
Filter: nur 🛡️ vollständig souverän
Eval-Methoden
Live-Vorschau
~24 % des gestrigen Traffics (2.018 Anfragen) würden auf diese Regel matchen.
Geschätzte Zusatz-Kosten: 14 $/Tag für Shadow-Calls. Geschätzte Ersparnis bei Adoption der Routing-Empfehlung: 182 $/Tag.
Empfohlene nächste Regeln
Basierend auf Mustern in deinem Traffic.
Kurze Antworten gegen Llama 3.2 1B spiegeln
Begrüßungen / Dankesnachrichten sind Overkill auf GPT-4o. Spart ca. 85 $/Monat.
Regel anlegen🛡️ Mistral auf Beschwerde-Traffic testen
Mistral Small 3 matcht Sonnet bei Persona / Ton im Beschwerde-Cluster. Souveränitäts-Gewinn.
Regel anlegenSelf-Consistency auf Refund-Fällen
N=5-Sampling auf dem Primary, um hochvariante Antworten zu fangen, bevor sie zum Kunden gehen.
Regel anlegen