llmeval — LLM testen & Routing optimieren

vor 1 Tag · Anfrage req-014

AgentKonto & AbrechnungAgreement 86.0%

„Mein Abo läuft Ende des Monats aus aber ich will es um ein Jahr verlängern. Geht das?"

System-Prompt anzeigen

Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.

Side-by-Side-Vergleich

GPT-4o🇺🇸🇪🇺PRIMARY

~1.8T (est.)·OpenAI🇪🇺

Tool-Calls

create_support_ticket= Primary

{"category":"subscription_renewal","duration":"12_months"}

Antwort

Klar — ich habe ein Verlängerungs-Ticket für dich angelegt. Du bekommst innerhalb von 24 Stunden eine Bestätigungs-E-Mail. Falls du möchtest, kann ich auch Auto-Renewal für dich aktivieren, damit du das nicht jedes Jahr manuell machen musst.

Latenz

1840ms

Tokens

118

Kosten

$2.135/k

Haiku 4.5🇺🇸🇪🇺Shadow

~70B (est.)·Anthropic🇪🇺

Tool-Calls

create_support_ticket= Primary

{"category":"subscription_renewal","duration":"12_months"}

Antwort

Latenz

1840ms

Tokens

118

Kosten

$0.778/k

−64%

Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow

24B·Mistral AI (EU)🏠🇪🇺🛡️

Tool-Calls

create_support_ticket= Primary

{"category":"subscription_renewal","duration":"12_months"}

Antwort

Latenz

1840ms

Tokens

118

Kosten

$0.147/k

−93%

Llama 3.2 3B🇺🇸🏠🇪🇺Shadow

3B·Meta / Groq🏠🇪🇺

Tool-Calls

create_support_ticket= Primary

{"category":"subscription_renewal","duration":"12_months"}

Antwort

Ich habe ein Ticket erstellt. Du bekommst eine Bestätigung.

Latenz

1840ms

Tokens

118

Kosten

$0.030/k

−99%

Trajektorie-Vergleich

Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.

GPT-4o🇺🇸P

create_support_ticket

1 Calls

Haiku 4.5🇺🇸

create_support_ticket

1 Calls

Mistral Small 3🇪🇺

create_support_ticket

1 Calls

Llama 3.2 3B🇺🇸

create_support_ticket

1 Calls

Embedding-Ähnlichkeits-Matrix

Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.

Modell	→ Primary	→ Golden
GPT-4o🇺🇸	1.00	0.93
Haiku 4.5🇺🇸	0.93	0.91
Mistral Small 3🇪🇺	0.91	0.89
Llama 3.2 3B🇺🇸	0.74	0.72