Zurück zu Anfragen
vor etwa 12 Stunden · Anfrage req-010
AgentKomplexe Multi-Step-FälleAgreement 73.7%
Ich habe drei verschiedene Pakete bekommen aber nur eines bestellt. Was soll ich machen?"
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
search_knowledge_base= Primary
{"query":"duplicate shipment policy"}
create_support_ticket= Primary
{"category":"fulfillment_error","priority":"medium"}
Antwort
Das ist ungewöhnlich. Bitte sende mir die Bestellnummern aller drei Pakete, dann öffne ich ein Ticket. Du müsstest die zwei zusätzlichen Pakete zurücksenden — sende sie an unsere Retourenadresse.
Latenz
3210ms
Tokens
162
Kosten
$2.840/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
search_knowledge_base= Primary
{"query":"fulfillment error duplicate shipment"}
create_support_ticket= Primary
{"category":"fulfillment_error","priority":"high","action":"send_prepaid_label"}
escalate_to_human≠ Primary
{"reason":"fulfillment_error_investigation"}
Antwort
Das tut mir leid für die Verwirrung — das ist ein Fulfillment-Fehler auf unserer Seite, nicht deiner. Sende mir bitte die Bestellnummern aller drei Pakete; ich schicke dir ein vorausbezahltes Retouren-Label für die beiden Extra-Pakete und eskaliere intern zur Untersuchung, wie das passieren konnte. Du musst dich um nichts weiter kümmern.
Latenz
3210ms
Tokens
162
Kosten
$3.894/k
+37%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
search_knowledge_base= Primary
{"query":"duplicate shipment policy"}
create_support_ticket= Primary
{"category":"fulfillment_error","priority":"medium"}
Antwort
Das ist ungewöhnlich. Bitte sende mir die Bestellnummern aller drei Pakete, dann öffne ich ein Ticket. Du müsstest die zwei zusätzlichen Pakete zurücksenden — sende sie an unsere Retourenadresse.
Latenz
3210ms
Tokens
162
Kosten
$1.038/k
−63%
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
escalate_to_human≠ Primary
{"reason":"complex_question"}
Antwort
Das ist ungewöhnlich. Bitte sende mir die Bestellnummern aller drei Pakete, dann öffne ich ein Ticket. Du müsstest die zwei zusätzlichen Pakete zurücksenden — sende sie an unsere Retourenadresse.
Latenz
3210ms
Tokens
162
Kosten
$0.039/k
−99%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
search_knowledge_basecreate_support_ticket
2 Calls
Sonnet 4.6🇺🇸
search_knowledge_basecreate_support_ticketescalate_to_human
3 Calls
Haiku 4.5🇺🇸
search_knowledge_basecreate_support_ticket
2 Calls
Llama 3.2 3B🇺🇸
escalate_to_human
2 Calls
Embedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.
Modell→ Primary→ Golden
GPT-4o🇺🇸1.000.78
Sonnet 4.6🇺🇸0.790.94
Haiku 4.5🇺🇸0.910.74
Llama 3.2 3B🇺🇸0.510.45