Zurück zu Anfragen
vor etwa 5 Stunden · Anfrage req-003
AgentRückerstattungAgreement 81.0%
„Ich will mein Geld zurück für Bestellung #771234. Die Schuhe sind nach 3 Tagen kaputtgegangen."
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"771234"}process_refund= Primary{"order_id":"771234","reason":"defective_product","amount":89.9}Antwort
Latenz
2940ms
Tokens
188
Kosten
$3.183/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"771234"}process_refund= Primary{"order_id":"771234","reason":"defective_product","amount":89.9}Antwort
Latenz
2940ms
Tokens
188
Kosten
$4.383/k
+38%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"771234"}process_refund= Primary{"order_id":"771234","reason":"customer_request","amount":89.9}Antwort
Latenz
2940ms
Tokens
188
Kosten
$1.169/k
−63%
Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow
24B·Mistral AI (EU)🏠🇪🇺🛡️
Tool-Calls
get_order_status= Primary{"order_id":"771234"}process_refund= Primary{"order_id":"771234","reason":"defective_product","amount":89.9}Antwort
Latenz
2940ms
Tokens
188
Kosten
$0.217/k
−93%
2 weitere Shadow-Modelle anzeigen
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"771234"}escalate_to_human≠ Primary{"reason":"refund_request"}Antwort
Latenz
2940ms
Tokens
188
Kosten
$0.043/k
−99%
GPT-4o mini🇺🇸🇪🇺Shadow
~8B (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"771234"}process_refund= Primary{"order_id":"771234","reason":"defective_product","amount":89.9}Antwort
Latenz
2940ms
Tokens
188
Kosten
$0.191/k
−94%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
get_order_statusprocess_refund
2 CallsSonnet 4.6🇺🇸
get_order_statusprocess_refund
2 CallsHaiku 4.5🇺🇸
get_order_statusprocess_refund
2 CallsMistral Small 3🇪🇺
get_order_statusprocess_refund
2 CallsLlama 3.2 3B🇺🇸
get_order_statusescalate_to_human
2 CallsGPT-4o mini🇺🇸
get_order_statusprocess_refund
2 CallsEmbedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.