Zurück zu allen Test-Suiten
⚙️
Tool-Calling-Robustheit
Säule 1 · QualitätKorrekte Tool-Auswahl, korrekte Argumente, keine erfundenen Tools, keine Endlos-Loops.
Warum das wichtig ist: Bei agentischen Systemen ist die Tool-Auswahl die zentrale Entscheidung. Ein 1B-Modell pickt das richtige Tool in nur 31% der Fälle – das macht es trotz billiger Tokens unbrauchbar.
100%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
6 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Llama 3.3 70B
100%
Mistral Small 3
100%
Haiku 4.5
83%
GPT-4o mini
67%
Mixtral 8x7B
67%
Phi-3.5 mini
67%
Qwen 2.5 32B
50%
Qwen 2.5 7B
50%
Gemma 2 2B
50%
Llama 3.2 3B
33%
Llama 3.2 1B
0%
Pass-Kriterien
Welche Eval-Methoden über Bestehen/Fehlschlag entscheiden.
Tool-Selection-Match
Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?
Tool-Argument-Match (exact vs. semantisch)
Sind die Tool-Argumente identisch oder zumindest semantisch äquivalent?
Trajectory-Länge
Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?
Loop- / Stuck-Erkennung
Wiederholt das Modell denselben Tool-Call ohne Fortschritt?
Trend (14 Tage)
94% → 94%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.