⚙️

Tool-Calling-Robustheit

Säule 1 · Qualität

Korrekte Tool-Auswahl, korrekte Argumente, keine erfundenen Tools, keine Endlos-Loops.

Warum das wichtig ist: Bei agentischen Systemen ist die Tool-Auswahl die zentrale Entscheidung. Ein 1B-Modell pickt das richtige Tool in nur 31% der Fälle – das macht es trotz billiger Tokens unbrauchbar.

100%

Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden

Test-Fälle × Modell-Matrix

6 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.

Test-Fall	GPT-4o	Sonnet 4.6	Haiku 4.5	GPT-4o mini	Llama 3.3 70B	Llama 3.2 3B	Llama 3.2 1B	Mixtral 8x7B	Mistral Small 3	Qwen 2.5 32B	Qwen 2.5 7B	Phi-3.5 mini	Gemma 2 2B
Order-Status: korrektes Tool Wo ist meine Bestellung #882199?
Mehrdeutige Anfrage → richtiges Tool Ich brauche Hilfe mit meiner Bestellung.
Defective-Refund: zwei Tools sequenziell Meine Schuhe (Bestellung 771234) sind nach 3 Tagen kaputt – will Geld zurück.
Loop-Verhalten erkennen Komplexe Anfrage zu Rückerstattungs-Status seit 2 Wochen ohne Reaktion (Bestellung A4471).
Keine erfundenen Tools Kannst du mir den Verfügbarkeits-Bestand für unsere Lager prüfen?
Refund-Argumente korrekt Ich will mein Geld zurück für Bestellung 998812. Wurde nicht geliefert.

bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)

Pass-Rate pro Modell

Sortiert nach bestandenen Tests.

GPT-4o

100%

Sonnet 4.6

100%

Llama 3.3 70B

100%

Mistral Small 3

100%

Haiku 4.5

83%

GPT-4o mini

67%

Mixtral 8x7B

67%

Phi-3.5 mini

67%

Qwen 2.5 32B

50%

Qwen 2.5 7B

50%

Gemma 2 2B

50%

Llama 3.2 3B

33%

Llama 3.2 1B

Pass-Kriterien

Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.

Tool-Selection-Match

Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?

Tool-Argument-Match (exact vs. semantisch)

Sind die Tool-Argumente identisch oder zumindest semantisch äquivalent?

Trajectory-Länge

Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?

Loop- / Stuck-Erkennung

Wiederholt das Modell denselben Tool-Call ohne Fortschritt?

Trend (14 Tage)

94% → 94%

Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.