Zurück zu Anfragen
vor etwa 2 Stunden · Anfrage req-001
AgentBestell-StatusAgreement 92.0%
„Wo bleibt meine Bestellung #ACM-1184729? Sollte gestern angekommen sein."
System-Prompt anzeigen
Du bist die Customer-Support-KI von Acme. Du hast Zugriff auf Tools für Order-Lookup, Refund-Bearbeitung, Ticket-Anlage und Eskalation an einen Menschen. Sei knapp, sachlich und ruf Tools auf, wenn nötig. Bestätige sensible Aktionen immer vor der Ausführung.
Side-by-Side-Vergleich
GPT-4o🇺🇸🇪🇺PRIMARY
~1.8T (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
1820ms
Tokens
124
Kosten
$2.270/k
Sonnet 4.6🇺🇸🇪🇺Shadow
~400B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
1410ms
Tokens
118
Kosten
$3.006/k
+32%
Haiku 4.5🇺🇸🇪🇺Shadow
~70B (est.)·Anthropic🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
880ms
Tokens
102
Kosten
$0.738/k
−68%
Mistral Small 3🇪🇺🏠🇪🇺🛡️Shadow
24B·Mistral AI (EU)🏠🇪🇺🛡️
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
920ms
Tokens
134
Kosten
$0.163/k
−93%
4 weitere Shadow-Modelle anzeigen
Llama 3.2 3B🇺🇸🏠🇪🇺Shadow
3B·Meta / Groq🏠🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
540ms
Tokens
96
Kosten
$0.030/k
−99%
Llama 3.2 1B🇺🇸🏠🇪🇺Shadow
1B·Meta / Groq🏠🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
380ms
Tokens
88
Kosten
$0.020/k
−99%
GPT-4o mini🇺🇸🇪🇺Shadow
~8B (est.)·OpenAI🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
720ms
Tokens
110
Kosten
$0.128/k
−94%
Qwen 2.5 7B🇨🇳🏠🇪🇺Shadow
7B·Alibaba🏠🇪🇺
Tool-Calls
get_order_status= Primary{"order_id":"ACM-1184729"}Antwort
Latenz
810ms
Tokens
120
Kosten
$0.106/k
−95%
Trajektorie-Vergleich
Wieviele Tool-Calls jedes Modell bis zum Ergebnis brauchte. Loops werden geflagged.
GPT-4o🇺🇸P
get_order_status
1 CallsSonnet 4.6🇺🇸
get_order_status
1 CallsHaiku 4.5🇺🇸
get_order_status
1 CallsMistral Small 3🇪🇺
get_order_status
1 CallsLlama 3.2 3B🇺🇸
get_order_status
1 CallsLlama 3.2 1B🇺🇸
get_order_status
1 CallsGPT-4o mini🇺🇸
get_order_status
1 CallsQwen 2.5 7B🇨🇳
get_order_status
1 CallsEmbedding-Ähnlichkeits-Matrix
Wie semantisch ähnlich jede Shadow-Antwort dem Primary und der Golden-Referenz ist.