Agent-Trajektorien

Für Tool-Calling-Agents: wieviele Schritte jedes Modell braucht, welche Tools es wählt und wo es feststeckt.

Tool-Selection-Agreement
Sonnet 4.6🇺🇸96.0%
Mistral Small 3🇪🇺89.0%
Haiku 4.5🇺🇸88.0%
Llama 3.2 1B🇺🇸41.0%
Gemma 2 2B🇺🇸62.0%
Ø Trajektorie-Länge
Primary: 3.2 Calls
Sonnet 4.6🇺🇸3.1 Calls
Mistral Small 3🇪🇺3.2 Calls
Mixtral 8x7B🇪🇺3.3 Calls
Llama 3.2 1B🇺🇸5.9 Calls
Gemma 2 2B🇺🇸5.4 Calls
Loop-Rate
Primary: 0.5%
Sonnet 4.6🇺🇸0.3%
Mistral Small 3🇪🇺0.7%
Haiku 4.5🇺🇸0.8%
Llama 3.2 1B🇺🇸9.4%
Gemma 2 2B🇺🇸7.2%
First-Tool-Latenz
Primary: 410ms
Llama 3.2 1B🇺🇸90ms
Gemma 2 2B🇺🇸95ms
Phi-3.5 mini🇺🇸110ms
Sonnet 4.6🇺🇸380ms
Qwen 2.5 32B🇨🇳280ms
Tool-Auswahl-Confusion-Matrix
Zeigt Haiku 4.5, Llama 3.2 3B und Mistral Small 3 (🛡️ souverän) nebeneinander.
Haiku 4.5🇺🇸🇪🇺
search­_get­_ordcreate­_escalateprocess­update­_
search­_
92
·
5
3
·
·
get­_ord
4
94
·
2
·
·
create­_
8
·
88
4
·
·
escalate
2
·
7
91
·
·
process­
2
·
5
12
81
·
update­_
·
·
4
1
·
95
Llama 3.2 3B🇺🇸🏠🇪🇺
search­_get­_ordcreate­_escalateprocess­update­_
search­_
78
2
14
6
·
·
get­_ord
18
74
2
6
·
·
create­_
22
2
66
10
·
·
escalate
8
·
21
71
·
·
process­
7
·
18
34
41
·
update­_
·
2
11
5
·
82
Mistral Small 3🇪🇺🏠🇪🇺🛡️
search­_get­_ordcreate­_escalateprocess­update­_
search­_
91
·
6
3
·
·
get­_ord
5
92
·
3
·
·
create­_
7
·
89
4
·
·
escalate
2
·
5
93
·
·
process­
2
·
6
14
78
·
update­_
·
·
4
2
·
94
Trajektorie-Browser
Multi-Step-Agent-Fälle. Kleine Modelle brauchen oft mehr Tool-Calls — was sie trotz günstiger Tokens netto teuer macht.
Ich will mein Geld zurück für Bestellung #771234. Die Schuhe sind nach 3 Tagen kaputtgegangen.
refund
Öffnen
GPT-4o🇺🇸P
get_order_statusprocess_refund
2 Calls
Sonnet 4.6🇺🇸
get_order_statusprocess_refund
2 Calls
Haiku 4.5🇺🇸
get_order_statusprocess_refund
2 Calls
Mistral Small 3🇪🇺
get_order_statusprocess_refund
2 Calls
Llama 3.2 3B🇺🇸
get_order_statusescalate_to_human
2 Calls
Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?
complex-investigation
Öffnen
GPT-4o🇺🇸P
get_order_statussearch_knowledge_baseescalate_to_human
3 Calls
Sonnet 4.6🇺🇸
get_order_statussearch_knowledge_baseescalate_to_human
3 Calls
Haiku 4.5🇺🇸
get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human
4 Calls
Llama 3.2 3B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop
6 Calls
Llama 3.2 1B🇺🇸
search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop
4 Calls
Ich habe drei verschiedene Pakete bekommen aber nur eines bestellt. Was soll ich machen?
complex-investigation
Öffnen
GPT-4o🇺🇸P
search_knowledge_basecreate_support_ticket
2 Calls
Sonnet 4.6🇺🇸
search_knowledge_basecreate_support_ticketescalate_to_human
3 Calls
Haiku 4.5🇺🇸
search_knowledge_basecreate_support_ticket
2 Calls
Llama 3.2 3B🇺🇸
escalate_to_human
1 Call
Stuck-Loop-Detector
Fälle, in denen ein Shadow-Modell denselben Tool-Call ohne Fortschritt wiederholt. Klassisches Signal für unterdimensioniertes Modell.
Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?
Loops erkannt bei: Llama 3.2 3B🇺🇸Llama 3.2 1B🇺🇸
Inspizieren
Tool-Call-Äquivalenz
Fälle, in denen ein Shadow-Modell ein anderes Tool wählte, aber laut Judge der User-Intent trotzdem erfüllt wurde.
“Mein Abo läuft Ende des Monats aus aber ich will es um ein Jahr verlängern. Geht das?”
Primary wählte create_support_ticket. Sonnet wählte create_support_ticket + escalate_to_human. Judge-Urteil: equivalent — beide erreichen die Verlängerung.