Agent-Trajektorien

Für Tool-Calling-Agents: wieviele Schritte jedes Modell braucht, welche Tools es wählt und wo es feststeckt.

Tool-Selection-Agreement

Sonnet 4.6🇺🇸96.0%

Mistral Small 3🇪🇺89.0%

Haiku 4.5🇺🇸88.0%

Llama 3.2 1B🇺🇸41.0%

Gemma 2 2B🇺🇸62.0%

Ø Trajektorie-Länge

Primary: 3.2 Calls

Sonnet 4.6🇺🇸3.1 Calls

Mistral Small 3🇪🇺3.2 Calls

Mixtral 8x7B🇪🇺3.3 Calls

Llama 3.2 1B🇺🇸5.9 Calls

Gemma 2 2B🇺🇸5.4 Calls

Loop-Rate

Primary: 0.5%

Sonnet 4.6🇺🇸0.3%

Mistral Small 3🇪🇺0.7%

Haiku 4.5🇺🇸0.8%

Llama 3.2 1B🇺🇸9.4%

Gemma 2 2B🇺🇸7.2%

First-Tool-Latenz

Primary: 410ms

Llama 3.2 1B🇺🇸90ms

Gemma 2 2B🇺🇸95ms

Phi-3.5 mini🇺🇸110ms

Sonnet 4.6🇺🇸380ms

Qwen 2.5 32B🇨🇳280ms

Tool-Auswahl-Confusion-Matrix

Zeigt Haiku 4.5, Llama 3.2 3B und Mistral Small 3 (🛡️ souverän) nebeneinander.

Haiku 4.5🇺🇸🇪🇺

	search_	get_ord	create_	escalate	process	update_
search_	92	·	5	3	·	·
get_ord	4	94	·	2	·	·
create_	8	·	88	4	·	·
escalate	2	·	7	91	·	·
process	2	·	5	12	81	·
update_	·	·	4	1	·	95

Llama 3.2 3B🇺🇸🏠🇪🇺

	search_	get_ord	create_	escalate	process	update_
search_	78	2	14	6	·	·
get_ord	18	74	2	6	·	·
create_	22	2	66	10	·	·
escalate	8	·	21	71	·	·
process	7	·	18	34	41	·
update_	·	2	11	5	·	82

Mistral Small 3🇪🇺🏠🇪🇺🛡️

	search_	get_ord	create_	escalate	process	update_
search_	91	·	6	3	·	·
get_ord	5	92	·	3	·	·
create_	7	·	89	4	·	·
escalate	2	·	5	93	·	·
process	2	·	6	14	78	·
update_	·	·	4	2	·	94

Trajektorie-Browser

Multi-Step-Agent-Fälle. Kleine Modelle brauchen oft mehr Tool-Calls — was sie trotz günstiger Tokens netto teuer macht.

“Ich will mein Geld zurück für Bestellung #771234. Die Schuhe sind nach 3 Tagen kaputtgegangen.”

refund

Öffnen

GPT-4o🇺🇸P

get_order_statusprocess_refund

2 Calls

Sonnet 4.6🇺🇸

get_order_statusprocess_refund

2 Calls

Haiku 4.5🇺🇸

get_order_statusprocess_refund

2 Calls

Mistral Small 3🇪🇺

get_order_statusprocess_refund

2 Calls

Llama 3.2 3B🇺🇸

get_order_statusescalate_to_human

2 Calls

“Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?”

complex-investigation

Öffnen

GPT-4o🇺🇸P

get_order_statussearch_knowledge_baseescalate_to_human

3 Calls

Sonnet 4.6🇺🇸

get_order_statussearch_knowledge_baseescalate_to_human

3 Calls

Haiku 4.5🇺🇸

get_order_statussearch_knowledge_basesearch_knowledge_baseescalate_to_human

4 Calls

Llama 3.2 3B🇺🇸

search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseget_order_statusescalate_to_humanLoop

6 Calls

Llama 3.2 1B🇺🇸

search_knowledge_basesearch_knowledge_basesearch_knowledge_basesearch_knowledge_baseLoop

4 Calls

“Ich habe drei verschiedene Pakete bekommen aber nur eines bestellt. Was soll ich machen?”

complex-investigation

Öffnen

GPT-4o🇺🇸P

search_knowledge_basecreate_support_ticket

2 Calls

Sonnet 4.6🇺🇸

search_knowledge_basecreate_support_ticketescalate_to_human

3 Calls

Haiku 4.5🇺🇸

search_knowledge_basecreate_support_ticket

2 Calls

Llama 3.2 3B🇺🇸

escalate_to_human

1 Call

Stuck-Loop-Detector

Fälle, in denen ein Shadow-Modell denselben Tool-Call ohne Fortschritt wiederholt. Klassisches Signal für unterdimensioniertes Modell.

“Ich habe vor 2 Wochen eine Rückerstattung gefordert für Bestellung A4471, aber nichts ist passiert. Was läuft da?”

Loops erkannt bei: Llama 3.2 3B🇺🇸Llama 3.2 1B🇺🇸

Inspizieren

Tool-Call-Äquivalenz

Fälle, in denen ein Shadow-Modell ein anderes Tool wählte, aber laut Judge der User-Intent trotzdem erfüllt wurde.

“Mein Abo läuft Ende des Monats aus aber ich will es um ein Jahr verlängern. Geht das?”

Primary wählte create_support_ticket. Sonnet wählte create_support_ticket + escalate_to_human. Judge-Urteil: equivalent — beide erreichen die Verlängerung.