llmeval — LLM testen & Routing optimieren

vor etwa 8 Stunden · Anfrage req-005

AgentKomplexe Multi-Step-FälleAgreement 73.0%

„Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?"

System-Prompt anzeigen

Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.

Side-by-Side-Vergleich

GPT-4o🇺🇸🇪🇺PRIMARY

~1.8T (est.)·OpenAI🇪🇺

Tool-Calls

get_order_status= Primary

{"order_id":"A4471"}

search_knowledge_base= Primary

{"query":"refund A4471 status pending"}

escalate_to_human= Primary

{"reason":"refund_stuck","priority":"high","order_id":"A4471"}

Antwort

Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.

Latenz

4210ms

Tokens

218

Kosten

$3.710/k

Sonnet 4.6🇺🇸🇪🇺Shadow

~400B (est.)·Anthropic🇪🇺

Tool-Calls

get_order_status= Primary

{"order_id":"A4471"}

search_knowledge_base= Primary

{"query":"refund A4471 status pending"}

escalate_to_human= Primary

{"reason":"refund_stuck","priority":"high","order_id":"A4471"}

Antwort

Latenz

4210ms

Tokens

218

Kosten

$5.106/k

+38%

Haiku 4.5🇺🇸🇪🇺Shadow

~70B (est.)·Anthropic🇪🇺

Tool-Calls

get_order_status= Primary

{"order_id":"A4471"}

search_knowledge_base= Primary

{"query":"refund A4471"}

search_knowledge_base≠ Primary

{"query":"refund status pending policy"}

escalate_to_human≠ Primary

{"reason":"refund_stuck","order_id":"A4471"}

Antwort

Latenz

4210ms

Tokens

218

Kosten

$1.362/k

−63%

Llama 3.2 3B🇺🇸🏠🇪🇺Shadow

3B·Meta / Groq🏠🇪🇺

Tool-Calls

search_knowledge_base≠ Primary

{"query":"where is refund"}

search_knowledge_base= Primary

{"query":"refund A4471"}

search_knowledge_base≠ Primary

{"query":"refund status"}

search_knowledge_base≠ Primary

{"query":"pending refund"}

get_order_status≠ Primary

{"order_id":"A4471"}

escalate_to_human≠ Primary

{"reason":"refund_request"}

Antwort

Latenz

4210ms

Tokens

218

Kosten

$0.050/k

−99%

2 weitere Shadow-Modelle anzeigen

Llama 3.2 1B🇺🇸🏠🇪🇺Shadow

1B·Meta / Groq🏠🇪🇺

Tool-Calls

search_knowledge_base≠ Primary

{"query":"refund"}

search_knowledge_base= Primary

{"query":"refund"}

search_knowledge_base≠ Primary

{"query":"refund policy"}

search_knowledge_base≠ Primary

{"query":"refund"}

Antwort

Latenz

4210ms

Tokens

218

Kosten

$0.033/k

−99%

Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow

24B·Mistral AI (EU)🏠🇪🇺🛡️

Tool-Calls

get_order_status= Primary

{"order_id":"A4471"}

search_knowledge_base= Primary

{"query":"refund A4471 status pending"}

escalate_to_human= Primary

{"reason":"refund_stuck","priority":"high","order_id":"A4471"}

Antwort

Latenz

4210ms

Tokens

218

Kosten

$0.253/k

−93%

Trajektorie-Vergleich

Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.

GPT-4o🇺🇸P

get_order_statussearch_knowledge_baseescalate_to_human

3 Calls

Sonnet 4.6🇺🇸

get_order_statussearch_knowledge_baseescalate_to_human

3 Calls

Haiku 4.5🇺🇸

get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human

4 Calls

Llama 3.2 3B🇺🇸

search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop

6 Calls

Llama 3.2 1B🇺🇸

search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop

4 Calls

Mistral Small 3🇪🇺

get_order_statussearch_knowledge_baseescalate_to_human

3 Calls

Embedding-Ähnlichkeits-Matrix

Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.

Modell	→ Primary	→ Golden
GPT-4o🇺🇸	1.00	0.92
Sonnet 4.6🇺🇸	0.95	0.93
Haiku 4.5🇺🇸	0.86	0.83
Llama 3.2 3B🇺🇸	0.62	0.58
Llama 3.2 1B🇺🇸	0.31	0.28
Mistral Small 3🇪🇺	0.91	0.89