llmeval — LLM testen & Routing optimieren

vor etwa 14 Stunden · Anfrage req-011

ChatPolicy & FAQAgreement 80.7%

„Und wenn die Schuhe nicht passen?"

System-Prompt anzeigen

Du bist die Customer-Support-KI von Acme. Beantworte Policy- und Produkt-Fragen im Konversationsstil. Sei freundlich, knapp und empathisch, wenn Kunden frustriert sind. Erfinde keine Policies — bei Unsicherheit biete Eskalation an.

Konversations-Kontext (frühere Turns)

User

Ich überlege, die Trailrunner Pro in 42 zu bestellen.

Assistant

Gerne! Die Trailrunner Pro in Größe 42 sind verfügbar. Du bekommst sie innerhalb von 2 Werktagen geliefert.

Side-by-Side-Vergleich

GPT-4o🇺🇸🇪🇺PRIMARY

~1.8T (est.)·OpenAI🇪🇺

Antwort

Kein Problem — falls die Trailrunner Pro in 42 nicht passen, kannst du sie kostenlos innerhalb von 30 Tagen umtauschen oder zurücksenden. Das Retourenlabel ist in deinem Kundenkonto verfügbar; einfach mit dazulegen.

Rubrik-Score (G-Eval)

Latenz

1620ms

Tokens

Kosten

$1.950/k

Haiku 4.5🇺🇸🇪🇺Shadow

~70B (est.)·Anthropic🇪🇺

Antwort

Rubrik-Score (G-Eval)

Latenz

1620ms

Tokens

Kosten

$0.698/k

−64%

Cosine zu Primary 0.94 · zu Golden 0.91

Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow

24B·Mistral AI (EU)🏠🇪🇺🛡️

Antwort

Rubrik-Score (G-Eval)

Latenz

1620ms

Tokens

Kosten

$0.138/k

−93%

Cosine zu Primary 0.92 · zu Golden 0.89

Llama 3.2 3B🇺🇸🏠🇪🇺Shadow

3B·Meta / Groq🏠🇪🇺

Antwort

Rubrik-Score (G-Eval)

Latenz

1620ms

Tokens

Kosten

$0.030/k

−98%

Cosine zu Primary 0.86 · zu Golden 0.82

1 weitere Shadow-Modelle anzeigen

Llama 3.2 1B🇺🇸🏠🇪🇺Shadow

1B·Meta / Groq🏠🇪🇺

Antwort

Du kannst deine Bestellung innerhalb von 30 Tagen zurückgeben. Bitte gib an, um welche Artikel es geht.

Rubrik-Score (G-Eval)

Latenz

1620ms

Tokens

Kosten

$0.020/k

−99%

Cosine zu Primary 0.51 · zu Golden 0.48

Golden-Referenz-Antwort

Eine kuratierte Referenz für diesen Fall. Vom Team für tägliche Replays gepinnt.

Auf vorher erwähnte Schuhe (Trailrunner Pro) Bezug nehmen, kostenlose 30-Tage-Rückgabe + Umtausch-Option erklären.

Embedding-Ähnlichkeits-Matrix

Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.

Modell	→ Primary	→ Golden
GPT-4o🇺🇸	1.00	0.94
Haiku 4.5🇺🇸	0.94	0.91
Mistral Small 3🇪🇺	0.92	0.89
Llama 3.2 3B🇺🇸	0.86	0.82
Llama 3.2 1B🇺🇸	0.51	0.48