Agent-Trajektorien
Für Tool-Calling-Agents: wieviele Schritte jedes Modell braucht, welche Tools es wählt und wo es feststeckt.
Tool-Selection-Agreement
Sonnet 4.6🇺🇸96.0%
Mistral Small 3🇪🇺89.0%
Haiku 4.5🇺🇸88.0%
Llama 3.2 1B🇺🇸41.0%
Gemma 2 2B🇺🇸62.0%
Ø Trajektorie-Länge
Primary: 3.2 Calls
Sonnet 4.6🇺🇸3.1 Calls
Mistral Small 3🇪🇺3.2 Calls
Mixtral 8x7B🇪🇺3.3 Calls
Llama 3.2 1B🇺🇸5.9 Calls
Gemma 2 2B🇺🇸5.4 Calls
Loop-Rate
Primary: 0.5%
Sonnet 4.6🇺🇸0.3%
Mistral Small 3🇪🇺0.7%
Haiku 4.5🇺🇸0.8%
Llama 3.2 1B🇺🇸9.4%
Gemma 2 2B🇺🇸7.2%
First-Tool-Latenz
Primary: 410ms
Llama 3.2 1B🇺🇸90ms
Gemma 2 2B🇺🇸95ms
Phi-3.5 mini🇺🇸110ms
Sonnet 4.6🇺🇸380ms
Qwen 2.5 32B🇨🇳280ms
Tool-Auswahl-Confusion-Matrix
Zeigt Haiku 4.5, Llama 3.2 3B und Mistral Small 3 (🛡️ souverän) nebeneinander.
Haiku 4.5🇺🇸🇪🇺
| search_ | get_ord | create_ | escalate | process | update_ | |
|---|---|---|---|---|---|---|
| search_ | 92 | · | 5 | 3 | · | · |
| get_ord | 4 | 94 | · | 2 | · | · |
| create_ | 8 | · | 88 | 4 | · | · |
| escalate | 2 | · | 7 | 91 | · | · |
| process | 2 | · | 5 | 12 | 81 | · |
| update_ | · | · | 4 | 1 | · | 95 |
Llama 3.2 3B🇺🇸🏠🇪🇺
| search_ | get_ord | create_ | escalate | process | update_ | |
|---|---|---|---|---|---|---|
| search_ | 78 | 2 | 14 | 6 | · | · |
| get_ord | 18 | 74 | 2 | 6 | · | · |
| create_ | 22 | 2 | 66 | 10 | · | · |
| escalate | 8 | · | 21 | 71 | · | · |
| process | 7 | · | 18 | 34 | 41 | · |
| update_ | · | 2 | 11 | 5 | · | 82 |
Mistral Small 3🇪🇺🏠🇪🇺🛡️
| search_ | get_ord | create_ | escalate | process | update_ | |
|---|---|---|---|---|---|---|
| search_ | 91 | · | 6 | 3 | · | · |
| get_ord | 5 | 92 | · | 3 | · | · |
| create_ | 7 | · | 89 | 4 | · | · |
| escalate | 2 | · | 5 | 93 | · | · |
| process | 2 | · | 6 | 14 | 78 | · |
| update_ | · | · | 4 | 2 | · | 94 |
Trajektorie-Browser
Multi-Step-Agent-Fälle. Kleine Modelle brauchen oft mehr Tool-Calls — was sie trotz günstiger Tokens netto teuer macht.
“Ich will mein Geld zurück für Bestellung #771234. Die Schuhe sind nach 3 Tagen kaputtgegangen.”
refund
GPT-4o🇺🇸P
get_order_statusprocess_refund
2 CallsSonnet 4.6🇺🇸
get_order_statusprocess_refund
2 CallsHaiku 4.5🇺🇸
get_order_statusprocess_refund
2 CallsMistral Small 3🇪🇺
get_order_statusprocess_refund
2 CallsLlama 3.2 3B🇺🇸
get_order_statusescalate_to_human
2 Calls“Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?”
complex-investigation
GPT-4o🇺🇸P
get_order_statussearch_knowledge_baseescalate_to_human
3 CallsSonnet 4.6🇺🇸
get_order_statussearch_knowledge_baseescalate_to_human
3 CallsHaiku 4.5🇺🇸
get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human
4 CallsLlama 3.2 3B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop
6 CallsLlama 3.2 1B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop
4 Calls“Ich habe drei verschiedene Pakete bekommen aber nur eines bestellt. Was soll ich machen?”
complex-investigation
GPT-4o🇺🇸P
search_knowledge_basecreate_support_ticket
2 CallsSonnet 4.6🇺🇸
search_knowledge_basecreate_support_ticketescalate_to_human
3 CallsHaiku 4.5🇺🇸
search_knowledge_basecreate_support_ticket
2 CallsLlama 3.2 3B🇺🇸
escalate_to_human
1 CallStuck-Loop-Detector
Fälle, in denen ein Shadow-Modell denselben Tool-Call ohne Fortschritt wiederholt. Klassisches Signal für unterdimensioniertes Modell.
“Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?”
Loops erkannt bei: Llama 3.2 3B🇺🇸Llama 3.2 1B🇺🇸
Tool-Call-Äquivalenz
Fälle, in denen ein Shadow-Modell ein anderes Tool wählte, aber laut Judge der User-Intent trotzdem erfüllt wurde.
“Mein Abo läuft Ende des Monats aus aber ich will es um ein Jahr verlängern. Geht das?”
Primary wählte
create_support_ticket. Sonnet wählte create_support_ticket + escalate_to_human. Judge-Urteil: equivalent — beide erreichen die Verlängerung.