App verbinden

Drei Schritte. Die einzige Code-Änderung ist die base_url.

Verbinden
Dein bestehendes OpenAI/Anthropic-SDK auf unseren Proxy zeigen lassen.
Shadow-Modelle konfigurieren
Modelle auswählen, gegen die gespiegelt wird, und Sampling-Rate setzen.
Fertig
Erste gespiegelte Anfrage heute um 09:23 UTC erkannt.
Schritt 1 — Verbinden
Kopiere eines dieser Snippets. Der Proxy leitet jeden Call an dein Primary-Modell weiter und spiegelt im Hintergrund einen Sample auf deine Shadow-Modelle – ohne Einfluss auf die Antwort an deine User.
from openai import OpenAI

client = OpenAI(
    base_url="https://api.llmeval.io/v1",   # ← only line that changes
    api_key="llme_sk_acme_28b7c91...",
)

response = client.chat.completions.create(
    model="openai/gpt-4o",                  # your primary stays the same
    messages=[{"role": "user", "content": "Where is my order?"}],
    tools=YOUR_TOOLS,
)
Schritt 2 — Shadow-Modelle konfigurieren
Vorausgewählt durch deinen Account-Manager. Alles davon kannst du später unter Regeln ändern.
Primary (bleibt wie es ist)
GPT-4o🇺🇸🇪🇺unverändert
Shadow-Modelle (werden gespiegelt, nie user-sichtbar)
Sampling-Rate 25 % · ~2.100 gespiegelte Calls pro Woche beim aktuellen Volumen
Live
Schritt 3 — Fertig
Erste gespiegelte Anfrage heute um 09:23 UTC erkannt.
Dashboard öffnen
Was ist Traffic-Mirroring?
Ohne Mirroring (heute)
Dein Code  ──►  Primary LLM
           ◄──  Antwort  (an den User)
Mit llmeval (eine Zeile geändert)
Dein Code  ──►  llmeval Proxy  ──►  Primary LLM  ──┐
                                                  ▼
                                              Antwort (an den User)
                  └────►  Shadow A (async, geloggt) ─┐
                  └────►  Shadow B (async, geloggt) ─┴► Judge + Eval