Zurück zu allen Test-Suiten
⚙️

Tool-Calling-Robustheit

Säule 1 · Qualität

Korrekte Tool-Auswahl, korrekte Argumente, keine erfundenen Tools, keine Endlos-Loops.

Warum das wichtig ist: Bei agentischen Systemen ist die Tool-Auswahl die zentrale Entscheidung. Ein 1B-Modell pickt das richtige Tool in nur 31% der Fälle – das macht es trotz billiger Tokens unbrauchbar.

100%
Zeitplan: Täglich 03:00 UTCZuletzt: vor etwa 2 Stunden
Test-Fälle × Modell-Matrix
6 Test-Fälle × 13 Modelle. Klick auf eine Zelle für Details.
Test-Fall
GPT-4o
Sonnet 4.6
Haiku 4.5
GPT-4o mini
Llama 3.3 70B
Llama 3.2 3B
Llama 3.2 1B
Mixtral 8x7B
Mistral Small 3
Qwen 2.5 32B
Qwen 2.5 7B
Phi-3.5 mini
Gemma 2 2B
Order-Status: korrektes Tool
Wo ist meine Bestellung #882199?
Mehrdeutige Anfrage → richtiges Tool
Ich brauche Hilfe mit meiner Bestellung.
Defective-Refund: zwei Tools sequenziell
Meine Schuhe (Bestellung 771234) sind nach 3 Tagen kaputt – will Geld zurück.
Loop-Verhalten erkennen
Komplexe Anfrage zu Rückerstattungs-Status seit 2 Wochen ohne Reaktion (Bestellung A4471).
Keine erfundenen Tools
Kannst du mir den Verfügbarkeits-Bestand für unsere Lager prüfen?
Refund-Argumente korrekt
Ich will mein Geld zurück für Bestellung 998812. Wurde nicht geliefert.
bestanden fehlgeschlagenScore = Rubric-Judge-Bewertung (0–1)
Pass-Rate pro Modell
Sortiert nach bestandenen Tests.
GPT-4o
100%
Sonnet 4.6
100%
Llama 3.3 70B
100%
Mistral Small 3
100%
Haiku 4.5
83%
GPT-4o mini
67%
Mixtral 8x7B
67%
Phi-3.5 mini
67%
Qwen 2.5 32B
50%
Qwen 2.5 7B
50%
Gemma 2 2B
50%
Llama 3.2 3B
33%
Llama 3.2 1B
0%
Trend (14 Tage)
94% → 94%
Hinweis: Diese Suite läuft auch automatisch vor jedem Routing-Wechsel in der Optimieren-Säule. Wenn ein Modell-Switch hier rote Felder erzeugt, wird er geblockt.