Zurück zu Anfragen
vor etwa 8 Stunden · Anfrage req-005
AgentKomplexe Multi-Step-FälleAgreement 73.0%
Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?"
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary
{"order_id":"A4471"}
search_knowledge_base= Primary
{"query":"refund A4471 status pending"}
escalate_to_human= Primary
{"reason":"refund_stuck","priority":"high","order_id":"A4471"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$3.710/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary
{"order_id":"A4471"}
search_knowledge_base= Primary
{"query":"refund A4471 status pending"}
escalate_to_human= Primary
{"reason":"refund_stuck","priority":"high","order_id":"A4471"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$5.106/k
+38%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary
{"order_id":"A4471"}
search_knowledge_base= Primary
{"query":"refund A4471"}
search_knowledge_base≠ Primary
{"query":"refund status pending policy"}
escalate_to_human≠ Primary
{"reason":"refund_stuck","order_id":"A4471"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$1.362/k
−63%
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
search_knowledge_base≠ Primary
{"query":"where is refund"}
search_knowledge_base= Primary
{"query":"refund A4471"}
search_knowledge_base≠ Primary
{"query":"refund status"}
search_knowledge_base≠ Primary
{"query":"pending refund"}
get_order_status≠ Primary
{"order_id":"A4471"}
escalate_to_human≠ Primary
{"reason":"refund_request"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$0.050/k
−99%
2 weitere Shadow-Modelle anzeigen
Llama 3.2 1B🇺🇸🏠🇪🇺Shadow
1B·Meta / Groq🏠🇪🇺
Tool-Calls
search_knowledge_base≠ Primary
{"query":"refund"}
search_knowledge_base= Primary
{"query":"refund"}
search_knowledge_base≠ Primary
{"query":"refund policy"}
search_knowledge_base≠ Primary
{"query":"refund"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$0.033/k
−99%
Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow
24B·Mistral AI (EU)🏠🇪🇺🛡️
Tool-Calls
get_order_status= Primary
{"order_id":"A4471"}
search_knowledge_base= Primary
{"query":"refund A4471 status pending"}
escalate_to_human= Primary
{"reason":"refund_stuck","priority":"high","order_id":"A4471"}
Antwort
Ich habe deine Bestellung A4471 geprüft. Es gibt einen offenen Rückerstattungs-Antrag vom 08.05., der unbearbeitet ist. Ich eskaliere das jetzt als Priority-High an unser Billing-Team — du bekommst innerhalb von 4 Stunden eine Rückmeldung. Außerdem habe ich dir eine Bestätigungs-E-Mail mit Ticket-Nr. SUP-2025-0517 geschickt.
Latenz
4210ms
Tokens
218
Kosten
$0.253/k
−93%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
get_order_statussearch_knowledge_baseescalate_to_human
3 Calls
Sonnet 4.6🇺🇸
get_order_statussearch_knowledge_baseescalate_to_human
3 Calls
Haiku 4.5🇺🇸
get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human
4 Calls
Llama 3.2 3B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop
6 Calls
Llama 3.2 1B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop
4 Calls
Mistral Small 3🇪🇺
get_order_statussearch_knowledge_baseescalate_to_human
3 Calls
Embedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.
Modell→ Primary→ Golden
GPT-4o🇺🇸1.000.92
Sonnet 4.6🇺🇸0.950.93
Haiku 4.5🇺🇸0.860.83
Llama 3.2 3B🇺🇸0.620.58
Llama 3.2 1B🇺🇸0.310.28
Mistral Small 3🇪🇺0.910.89