llmeval — LLM testen & Routing optimieren

vor 30 Minuten · Anfrage req-009

ChatSmall Talk & BegrüßungenAgreement 96.5%

„Hi! :)"

System-Prompt anzeigen

Du bist die Customer-Support-KI von Acme. Beantworte Policy- und Produkt-Fragen im Konversationsstil. Sei freundlich, knapp und empathisch, wenn Kunden frustriert sind. Erfinde keine Policies — bei Unsicherheit biete Eskalation an.

Side-by-Side-Vergleich

GPT-4o🇺🇸🇪🇺PRIMARY

~1.8T (est.)·OpenAI🇪🇺

Antwort

Hi! Schön dass du da bist. Wobei kann ich dir heute helfen?

Rubrik-Score (G-Eval)

Latenz

1240ms

Tokens

Kosten

$0.833/k

Llama 3.2 1B🇺🇸🏠🇪🇺Shadow

1B·Meta / Groq🏠🇪🇺

Antwort

Hi! Schön dass du da bist. Wobei kann ich dir heute helfen?

Rubrik-Score (G-Eval)

Latenz

220ms

Tokens

Kosten

$0.011/k

−99%

Cosine zu Primary 0.97 · zu Golden 0.96

Gemma 2 2B🇺🇸🏠🇪🇺Shadow

2B·Google🏠🇪🇺

Antwort

Hi! Schön dass du da bist. Wobei kann ich dir heute helfen?

Rubrik-Score (G-Eval)

Latenz

290ms

Tokens

Kosten

$0.005/k

−99%

Cosine zu Primary 0.96 · zu Golden 0.95

Haiku 4.5🇺🇸🇪🇺Shadow

~70B (est.)·Anthropic🇪🇺

Antwort

Hi! Schön dass du da bist. Wobei kann ich dir heute helfen?

Rubrik-Score (G-Eval)

Latenz

1240ms

Tokens

Kosten

$0.284/k

−66%

Cosine zu Primary 0.96 · zu Golden 0.95

1 weitere Shadow-Modelle anzeigen

Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow

24B·Mistral AI (EU)🏠🇪🇺🛡️

Antwort

Hi! Schön dass du da bist. Wobei kann ich dir heute helfen?

Rubrik-Score (G-Eval)

Latenz

1240ms

Tokens

Kosten

$0.062/k

−93%

Cosine zu Primary 0.97 · zu Golden 0.96

Golden-Referenz-Antwort

Eine kuratierte Referenz für diesen Fall. Vom Team für tägliche Replays gepinnt.

Freundliche Begrüßung, Hilfe anbieten.

Embedding-Ähnlichkeits-Matrix

Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.

Modell	→ Primary	→ Golden
GPT-4o🇺🇸	1.00	0.98
Llama 3.2 1B🇺🇸	0.97	0.96
Gemma 2 2B🇺🇸	0.96	0.95
Haiku 4.5🇺🇸	0.96	0.95
Mistral Small 3🇪🇺	0.97	0.96