Regeln & Experimente

Definiere, was wir spiegeln, gegen welche Modelle und mit welchen Eval-Methoden – ohne eine Zeile deines Anwendungs-Codes zu ändern.

Aktive Regeln

6 konfiguriert · 5 live

Baseline-Sweep (25%)

live

Gesamter Traffic · Sampling 25% · gestern getroffen 2,086 (25.0% des Traffics)

Shadow-Targets

Sonnet 4.6🇺🇸🇪🇺Haiku 4.5🇺🇸🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Mistral Small 3🇪🇺🏠🇪🇺🛡️

Eval-Methoden

Tool-Selection-Match Cosine-Ähnlichkeit zum Primary Rubric-Scoring (G-Eval)

Refund-Fälle gegen Sonnet (100%)

live

tool == process_refund · Sampling 100% · gestern getroffen 52 (0.6% des Traffics)

Shadow-Targets

Sonnet 4.6🇺🇸🇪🇺

Eval-Methoden

Tool-Call-Equivalence-Judge Goal-Completion-Judge Faithfulness-Judge (RAG)

Chat-Traffic gegen Kleine + Souveräne

live

traffic == chat AND no_tool_used · Sampling 50% · gestern getroffen 798 (9.5% des Traffics)

Shadow-Targets

Llama 3.3 70B🇺🇸🏠🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Mistral Small 3🇪🇺🏠🇪🇺🛡️Phi-3.5 mini🇺🇸🏠🇪🇺

Eval-Methoden

Rubric-Scoring (G-Eval)Pairwise-Judge (Arena-Style)Cosine-Ähnlichkeit zum Primary Persona-Treue

🛡️ Souveränitäts-Sweep (wöchentlich)

live

Gesamter Traffic, wöchentlich gesampelt · Sampling 10% · gestern getroffen 841 (10.0% des Traffics)

Shadow-Targets

Mixtral 8x7B🇪🇺🏠🇪🇺🛡️Mistral Small 3🇪🇺🏠🇪🇺🛡️

Eval-Methoden

Rubric-Scoring (G-Eval)Cosine-Ähnlichkeit zum Primary Tool-Selection-Match Pairwise-Judge (Arena-Style)

Täglicher Golden-Replay (alle Modelle)

live

Täglich, 03:00 UTC · Sampling 100% · gestern getroffen 30

Shadow-Targets

Sonnet 4.6🇺🇸🇪🇺Haiku 4.5🇺🇸🇪🇺GPT-4o mini🇺🇸🇪🇺Llama 3.3 70B🇺🇸🏠🇪🇺Llama 3.2 3B🇺🇸🏠🇪🇺Llama 3.2 1B🇺🇸🏠🇪🇺Mixtral 8x7B🇪🇺🏠🇪🇺🛡️Mistral Small 3🇪🇺🏠🇪🇺🛡️Qwen 2.5 32B🇨🇳🏠🇪🇺Qwen 2.5 7B🇨🇳🏠🇪🇺Phi-3.5 mini🇺🇸🏠🇪🇺Gemma 2 2B🇺🇸🏠🇪🇺

Eval-Methoden

Referenz-basierter Judge Cosine-Ähnlichkeit zum Primary Format- & Schema-Compliance

Long-Prompt-Regression (>2k Token)

pausiert

input_tokens > 2000 · Sampling 100% · gestern getroffen 12 (0.1% des Traffics)

Shadow-Targets

GPT-4o mini🇺🇸🇪🇺Llama 3.3 70B🇺🇸🏠🇪🇺

Eval-Methoden

Cosine-Ähnlichkeit zum Primary Rubric-Scoring (G-Eval)

💡

Regeln vs. Test-Suiten: Regeln spiegeln Production-Traffic live mit (zur Beobachtung).Test-Suiten dagegen sind kuratierte Test-Programme mit harten Pass/Fail-Kriterien und laufen unabhängig vom Live-Traffic. Beide ergänzen sich.

Neue Regel (Vorschau)

So fühlt sich Regel-Anlegen an: Trigger wählen, Sampling, Ziel-Modelle (mit Souveränitäts-Filter), Eval-Methoden.

Trigger

Sampling-Rate

25 %

Ziel-Modelle

Filter: nur selbst hostbar

Filter: nur in EU deploybar

Filter: nur 🛡️ vollständig souverän

Live-Vorschau

~24 % des gestrigen Traffics (2.018 Anfragen) würden auf diese Regel matchen.

Geschätzte Zusatz-Kosten: 14 $/Tag für Shadow-Calls. Geschätzte Ersparnis bei Adoption der Routing-Empfehlung: 182 $/Tag.

Empfohlene nächste Regeln

Basierend auf Mustern in deinem Traffic.

Kurze Antworten gegen Llama 3.2 1B spiegeln

Begrüßungen / Dankesnachrichten sind Overkill auf GPT-4o. Spart ca. 85 $/Monat.

Regel anlegen

🛡️ Mistral auf Beschwerde-Traffic testen

Mistral Small 3 matcht Sonnet bei Persona / Ton im Beschwerde-Cluster. Souveränitäts-Gewinn.

Regel anlegen

Self-Consistency auf Refund-Fällen

N=5-Sampling auf dem Primary, um hochvariante Antworten zu fangen, bevor sie zum Kunden gehen.

Regel anlegen