Zurück zu Anfragen
vor etwa 12 Stunden · Anfrage req-010
AgentKomplexe Multi-Step-FälleAgreement 73.7%
„Ich habe drei verschiedene Pakete bekommen aber nur eines bestellt. Was soll ich machen?"
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
search_knowledge_base= Primary{"query":"duplicate shipment policy"}create_support_ticket= Primary{"category":"fulfillment_error","priority":"medium"}Antwort
Latenz
3210ms
Tokens
162
Kosten
$2.840/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
search_knowledge_base= Primary{"query":"fulfillment error duplicate shipment"}create_support_ticket= Primary{"category":"fulfillment_error","priority":"high","action":"send_prepaid_label"}escalate_to_human≠ Primary{"reason":"fulfillment_error_investigation"}Antwort
Latenz
3210ms
Tokens
162
Kosten
$3.894/k
+37%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
search_knowledge_base= Primary{"query":"duplicate shipment policy"}create_support_ticket= Primary{"category":"fulfillment_error","priority":"medium"}Antwort
Latenz
3210ms
Tokens
162
Kosten
$1.038/k
−63%
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
escalate_to_human≠ Primary{"reason":"complex_question"}Antwort
Latenz
3210ms
Tokens
162
Kosten
$0.039/k
−99%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
search_knowledge_basecreate_support_ticket
2 CallsSonnet 4.6🇺🇸
search_knowledge_basecreate_support_ticketescalate_to_human
3 CallsHaiku 4.5🇺🇸
search_knowledge_basecreate_support_ticket
2 CallsLlama 3.2 3B🇺🇸
escalate_to_human
2 CallsEmbedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.