App verbinden
Drei Schritte. Die einzige Code-Änderung ist die base_url.
Verbinden
Dein bestehendes OpenAI/Anthropic-SDK auf unseren Proxy zeigen lassen.
Shadow-Modelle konfigurieren
Modelle auswählen, gegen die gespiegelt wird, und Sampling-Rate setzen.
Fertig
Erste gespiegelte Anfrage heute um 09:23 UTC erkannt.
Schritt 1 — Verbinden
Kopiere eines dieser Snippets. Der Proxy leitet jeden Call an dein Primary-Modell weiter und spiegelt im Hintergrund einen Sample auf deine Shadow-Modelle – ohne Einfluss auf die Antwort an deine User.
from openai import OpenAI
client = OpenAI(
base_url="https://api.llmeval.io/v1", # ← only line that changes
api_key="llme_sk_acme_28b7c91...",
)
response = client.chat.completions.create(
model="openai/gpt-4o", # your primary stays the same
messages=[{"role": "user", "content": "Where is my order?"}],
tools=YOUR_TOOLS,
)Schritt 2 — Shadow-Modelle konfigurieren
Vorausgewählt durch deinen Account-Manager. Alles davon kannst du später unter Regeln ändern.
Primary (bleibt wie es ist)
GPT-4o🇺🇸🇪🇺unverändert
Shadow-Modelle (werden gespiegelt, nie user-sichtbar)
Sampling-Rate 25 % · ~2.100 gespiegelte Calls pro Woche beim aktuellen Volumen
LiveSchritt 3 — Fertig
Erste gespiegelte Anfrage heute um 09:23 UTC erkannt.
Was ist Traffic-Mirroring?
Ohne Mirroring (heute)
Dein Code ──► Primary LLM
◄── Antwort (an den User)Mit llmeval (eine Zeile geändert)
Dein Code ──► llmeval Proxy ──► Primary LLM ──┐
▼
Antwort (an den User)
└────► Shadow A (async, geloggt) ─┐
└────► Shadow B (async, geloggt) ─┴► Judge + Eval