Zurück zu Anfragen
vor etwa 8 Stunden · Anfrage req-005
AgentKomplexe Multi-Step-FälleAgreement 73.0%
„Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?"
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"A4471"}search_knowledge_base= Primary{"query":"refund A4471 status pending"}escalate_to_human= Primary{"reason":"refund_stuck","priority":"high","order_id":"A4471"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$3.710/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"A4471"}search_knowledge_base= Primary{"query":"refund A4471 status pending"}escalate_to_human= Primary{"reason":"refund_stuck","priority":"high","order_id":"A4471"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$5.106/k
+38%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"A4471"}search_knowledge_base= Primary{"query":"refund A4471"}search_knowledge_base≠ Primary{"query":"refund status pending policy"}escalate_to_human≠ Primary{"reason":"refund_stuck","order_id":"A4471"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$1.362/k
−63%
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
search_knowledge_base≠ Primary{"query":"where is refund"}search_knowledge_base= Primary{"query":"refund A4471"}search_knowledge_base≠ Primary{"query":"refund status"}search_knowledge_base≠ Primary{"query":"pending refund"}get_order_status≠ Primary{"order_id":"A4471"}escalate_to_human≠ Primary{"reason":"refund_request"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$0.050/k
−99%
2 weitere Shadow-Modelle anzeigen
Llama 3.2 1B🇺🇸🏠🇪🇺Shadow
1B·Meta / Groq🏠🇪🇺
Tool-Calls
search_knowledge_base≠ Primary{"query":"refund"}search_knowledge_base= Primary{"query":"refund"}search_knowledge_base≠ Primary{"query":"refund policy"}search_knowledge_base≠ Primary{"query":"refund"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$0.033/k
−99%
Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow
24B·Mistral AI (EU)🏠🇪🇺🛡️
Tool-Calls
get_order_status= Primary{"order_id":"A4471"}search_knowledge_base= Primary{"query":"refund A4471 status pending"}escalate_to_human= Primary{"reason":"refund_stuck","priority":"high","order_id":"A4471"}Antwort
Latenz
4210ms
Tokens
218
Kosten
$0.253/k
−93%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
get_order_statussearch_knowledge_baseescalate_to_human
3 CallsSonnet 4.6🇺🇸
get_order_statussearch_knowledge_baseescalate_to_human
3 CallsHaiku 4.5🇺🇸
get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human
4 CallsLlama 3.2 3B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop
6 CallsLlama 3.2 1B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop
4 CallsMistral Small 3🇪🇺
get_order_statussearch_knowledge_baseescalate_to_human
3 CallsEmbedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.